بخشی از مقاله

چکیده

امروزه تصاویر ابرطیفی1 به دلیل دارا بودن اطلاعات طیفی غنی و داده لیدار2 به دلیل محتوای اطلاعات ارتفاعی غنی از محیط جزو مهمترین منابع اطلاعاتی در سنجش از دور به شمار می آیند. در این تحقیق با ارائه روشی تلفیقی داده لیدار و تصویر ابرطیفی را طبقه بندی می کنیم. ابتدا داده لیدار با تکنیک شیگرا، قطعهبندی میشود و ویژگی های شی گرا برای آن تولید می شود. سپس ویژگی های تولید شده لیدار و باندهای تصویر ابرطیفی را به طور جداگانه و ترکیبی با الگوریتم جنگل تصادفی - RF - 3 طبقه بندی می کنیم.

در انتها تعداد ویژگی ها و باندها را با 4PCA کاهش میدهیم و با روش 5SVM و RF طبقهبندی و با هم مقایسه میکنیم. نتایج این تحقیق نشان دادند که الگوریتم طبقه بندی جنگل تصادفی هم از لحاظ دقت و هم زمان پردازش نسبت به SVM برای طبقه بندی این تصاویر برتری دارد. همچنین الگوریتم طبقه بندی جنگل تصادفی دارای قابلیت انتخاب ویژگیهای بهینه نیز میباشد که به برتری این روش نسبت به روشهای دیگر میافزاید.

-1 مقدمه

طبقهبندی تصاویر تصاویر ابرطیفی و دادههای لیدار یکی از مهمترین کارها در سنجش از دور محسوب میشود، و روشهای زیادی برای طبقهبندی این تصاویر پیشنهاد شده است. استخراج اطلاعات از دادههای ابرطیفی اغلب به صورت شناسایی پیکسلهای دارای مشخصه طیفی6 مشابه و در یک گروه قرار دادن این پیکسلها تعریف می شود.

برای یافتن پیکسلهای با مشخصات مشابه، روشهای متنوعی ارائه شده است. عملکرد این روشها را میتوان به صورت یکی از حالتهای؛ - 1 تطبیق طیفهای همه پیکسلهای تصویر با یک طیف خاص از کتابخانه طیفی، - 2 تطبیق یک طیف منفرد از دادههای تصویر سنجش از دور با طیف کتابخانه طیفی و - 3 مقایسه طیف یک پیکسل تنها یا میانگین گروهی از پیکسلها با همه پیکسلهای تصویر، دستهبندی کرد. در حالت اول به دنبال تعیین موقعیت همه رخدادهای یک ماده خاص در دادههای سنجش از دور هستیم. در حالت دوم قصد داریم ماده نظیر یک طیف تصویری داده شده از کتابخانه طیفی را پیدا کنیم.

در این دو حالت فقط با قسمت خاصی از پیکسل های تصویر سر و کار داریم و محتوای اطلاعاتی سایر پیکسلها برای ما مطرح نیست. در حالت سوم که در این تحقیق مد نظر ما میباشد، هدف کار قرار دادن پیکسلهای با مشخصات طیفی یکسان در یک گروه میباشد که به این کار، طبقهبندی گفته میشود .[1] روشهای متنوعی برای انجام طبقهبندی ارائه شده است. در یک دستهبندی کلی این روشها را میتوان به دو دسته نظارت شده و نظارت نشده تقسیم نمود.

در روشهای نظارتنشده پیکسلها یا اشیای تصویر بر اساس تشابه ویژگیهایشان در چند گروه قرار میگیرند. سپس یک متخصص با تجربه و با استفاده از اطلاعات کتابخانه طیفی به هر یک از گروهها یک برچسب کلاسی میدهد. در روشهای نظارتشده پیکسلها یا اشیای تصویر با استفاده اطلاعات کتابخانه طیفی و یا با نمونهبرداری طیفی از عوارض مختلف تشکیل دهنده سطح زمین طبقهبندی میشوند.

خروجی روشهای نظارت شده بر خلاف روشهای نظارت نشده کلاسهای اطلاعاتی میباشد.[2] الگوریتم های بسیاری برای طبقهبندی نظارتشده پیکسل مبنای تصاویر ابرطیفی ارائه شده است که یکی از بهترین آنها طبقهبندی این تصاویر با استفاده از الگوریتم SVM میباشد .[3] در این تحقیق به دلیل برتریهای بسیار الگوریتم RF در طبقهبندی کاربری اراضی با دادههای سنجش از دور، از الگوریتم RF برای طبقهبندی تصاویر ابرطیفی استفاده شد. برای طبقهبندی داده لیدار نیز از یک روش تلفیقی استفاده شد.  در این روش ابتدا ویژگیهای شیگرا برای داده لیدار استخراج شد و سپس این ویژگیها با الگوریتم RF طبقهبندی شد. در نهایت باندهای تصویر ابرطیفی و ویژگیهای استخراج شده از لیدار در یک تصویر باهم تلفیق و با الگوریتم RF طبقهبندی شد.AR

-2 دادههای مورد استفاده

برای پیادهسازی روش پیشنهادی از استفاده شد. روش پیشنهادی در این تحقیق در یک منطقه شهری با استفاده از یک تصویر ابر طیفی با 144 باند به همراه داده لیدار در فرمت رستر پیادهسازی و مورد ارزیابی قرار گرفت. کلاسهای هدف جهت طبقهبندی شامل 15 کلاس: - 1 چمن سبز، - 2 چمن تحت  استرس، - 3 چمن مصنوعی، - 4 درخت، - 5 خاک، - 6 آب، - 7 مسکونی، - 8 تجاری، - 9 جاده، - 10 بزرگراه، - 11 راه آهن، - 12 پارکینگ نوع یک، - 13 پارکینگ نوع دو، - 14 پیست دو میدانی و - 15 طبقهبندینشده، میباشد. دادههای مورد استفاده از آدرس اینترنتی [4] اخذ گردید. در شکل 1 و 2 نمایی از دادههای به کار برده شده نشان داده شده و مشخصات کلی دادهها نیز در جدول 1 گفته شده است.

-3 روش طبقهبندی و ویژگیهای به کار رفته

ابتدا از داده آموزشی بیرون کشیده میشود، و سپس از هر نمونه خودراهانداز β یک درخت طبقهبندی و رگرسیون - 8CART - هرسنشده ایجاد میشود که برای انشعاب در هر گره CART، تنها یکی از M ویژگی انتخاب شده به صورت تصادفی، استفاده میشود. در نهایت، خروجی طبقهبندی بر اساس یک رای اکثریت از پیشبینیهای تمام تکدرختهای آموزشدیده ایجاد میشود.

یک مجموعه داده خود راهانداز، مجموعهای از نقاط انتخابی به طور تصادفی است که با جایگذاری از مجموعه داده آموزشی بیرون کشیده شده است .[5] برای این که همیشه اندازه نمونه آموزشی اولیه ثابت بماند، مجموعه داده خودراهانداز یک نسخه کپی از نقاط را به کار میبرد. در حالی که هر درخت در جنگل با استفاده از مجموعه داده متفاوتی ساخته میشود، که در آن حدود یک سوم نقاط از هر نمونه خودراهانداز استفاده نمیشود این نقاط، داده خارج از کیسه - 9OOB - گفته میشوند.

به طور متوسط، هر نقطه آموزشی در حدود %36 دفعات خارج-از-کیسه خواهد بود. بنابراین، میتوان با استفاده از داده OOB برآوردی از نرخ خطای طبقهبندی بر اساس داده آموزشی به دست آورد. نمونههای OOB تا آخرین نمونه از طریق درختها استفاده میشود و تعداد دفعاتی که طبقهبندی نادرست باشد شمارش میشود که در نهایت با میانگینگیری از تمام درختها، نرخ خطای OOB کلی تولید میشود. این خطا بدون بایاس است [6] و میتواند برای ترسیم رابطه بین خطای OOB و تعداد درختها استفاده شود. تعداد درختها باید به اندازه کافی باشد تا نرخ خطا پایدار - ثابت - شود .[7]

اهمیت متغیر، اهمیت متغیرهای پیشبینیکننده - ویژگیها - را اندازه میگیرد. به منظور برآورد اهمیت یک ویژگی، نمونههای OOB ابتدا از طریق درختها اجرا میشوند و رایها برای طبقهبندی صحیح شمارش میشود. سپس، صحت پیشبینی به طور تکراری بعد از جایگشت10 تصادفی تمام مقادیر این ویژگی به دست میآید در حالی که تمام ویژگیهای دیگر بدون تغییر باقی میمانند.

امتیازدهی اهمیت11 عبارت است از کاهش رایهای کلاس صحیح بعد از جایگشت متغیر، که از تمام درختها میانگین گرفته شده است. میتوان فهمید که یک جایگشت متغیر تصادفی میتواند فقدان آن متغیر از جنگل را شبیهسازی کند .[8] بنابراین هر چه بیشتر، فقدان یک ویژگی باعث کاهش صحت متوسط شود، نشان میدهد که آن ویژگی اهمیت بالایی - در طبقهبندی - دارد. 

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید