بخشی از مقاله
چکیده
یکی از موضوعات مهم در کاربردهای سنجش از دور، طبقهبندی دادههای ابرطیفی میباشد. همانطوری که میدانیم تعداد نمونههای آموزشی در دسترس، به علت گران و سخت بودن کسب آنها، محدود است و افزایش تعداد ویژگیها بدون اضافه کردن نمونهی آموزشی جدید، دقت طبقهبندی را کاهش میدهد. از این رو یا ناچاریم تعداد نمونههای آموزشی را افزایش دهیم - که هزینهبر و زمانبر است - یا تعداد ویژگیها را کاهش دهیم - که گاه منجر به از دست دادن بخشی از اطلاعات میگردد - و یا روش دیگری برای طبقهبندی انتخاب کنیم که این حساسیت به تعداد نمونهها را نداشته باشد.
در این مقاله به بررسی طبقهبند مناسب برای طبقهبندی تصاویر ابرطیفی، که توس ماهوارههای سنجش از راه دور اخذ شدهاند، میپردازیم. آزمایشهای انجام شده بر روی تصویر واقعی ایندیانا که توس سنجنده AVIRIS اخذ شده است، نشان میدهد، در شرایطی که نمونهی آموزشی محدودی در دسترس است، استفاده از طبقهبندهای غیرپارامتریک، اولویت دارد.
1 مقدمه
سنجش از دور علم به دست آوردن اطلاعات درباره یک شیء، منطقه یا پدیده از طریق پردازش و آنالیز دادههای اخذ شده به وسیلهی یک سنجنده - بدون تماس مستقیم با پدیدهی مورد مطالعه - است. به عبارت دیگر میتوان گفت، سنجش از دور، برداشت سطح زمین از فضا با استفاده از خصوصیات امواج الکترومغناطیس منعکس یا منتشر شده از سطح اشیا است. در طی سالها محققان علامتهای طیفی اشیای معلوم را جمعآوری کرده و آنها را در کتابخانههای طیفی دستهبندی کردهاند. یک کتابخانهی طیفی با یک منبع دادههای اثر انگشت مشابه است.
به جز اینکه به جای داشتن اثر انگشت افراد، کتابخانهی طیفی حاوی علامتهای طیفی است؛ همانند اثرات انگشتی که برای پدیدههای روی سطح زمین منحصر به فرد هستند. بعد از اینکه دادههای ابرطیفی از یک صحنه ی معین آنالیز شد و علامتهای طیفی پدیدهها شناسایی شد، این علامتها را میتوان با علامتهای موجود در کتابخانهی طیفی مقایسه کرد و آنها را شناسایی نمود.
روشهای طبقهبندی را به طور مرسوم به دو دسته طبقهبندیهای نظارت شده و نظارت نشده تقسیم مینمایند. همچنین، روشهای طبقهبندی نظارت شده را می توان در دو دسته روشهای پارامتریک و غیرپارامتریک جای داد. روشهای پارامتریک، آن دسته از روشها هستند که بر اساس پیکسلهای معلوم معرفی شده، پارامترهای - آماری - مختلفی را محاسبه کرده و براساس آنها در مورد مابقی پیکسلها تصمیمگیری میکنند. در مقابل روشهای غیرپارامتریک، بدون محاسبهی پارامترهای آماری، تنها بر اساس معیارهایی که از مقادیر پیکسلهای معلوم به دست میآیند، تصمیمگیری میکنند.
فرض یک مدل توزیع داده ها در بعضی روشهای پارامتریک، نیز این روشها را از انواع غیرپارامتریک خود جدا میسازد. یکی از موضوعات مهم در کاربردهای سنجش از دور، طبقهبندی دادههای ابرطیفی میباشد Huang - و همکاران - 2012 - ، Liao و همکاران - 2012 - ، Liao و همکاران - 2013 - ، . - - 2013 - Kamandar M. Ghassemian H. این نوع داده ها از یک طرف به دلیل فراهم آوردن طیف پدیدهها در تعداد باند زیاد، امکان تشخیص جزئیات و تمییز بین پدیدهها با دقت خوبی را فراهم آوردهاند. اما از طرف دیگر، به علت تعداد ویژگی زیاد مورد استفاده، از نظر تحلیل و بررسی با دادههای چندطیفی متفاوت بوده و چالشهایی در زمینهی طبقهبندی فراهم میکنند. طبقهبند مناسب برای طبقهبندی تصاویر ابرطیفی، در این مقاله بررسی خواهد شد.
2 روش تحقیق
در این قسمت به بررسی و مقایسهی طبقهبندها و نتایج طبقهبندی حاصل بر روی تصاویر ابرطیفی با استفاه از نمونهی آموزشی محدود میپردازیم. طبقهبندهای مورد بررسی در این مقاله عبارتند از: DBC که روشی است جهت طبقهبندی بر اساس سطح تصمیم مبتنی بر فاصله با رویکرد تصویر نزدیکترین همسایه و توس حمیدزاده، ج و همکاران - 1389 - پیشنهاد گردیده است، طبقهبند ماشین بردار پشتیبان Bruzzone - - SVM - و همکاران - 2006 - ، Ghoggali و همکاران - - 2009 - ، طبقهبند حداقل فاصلهی اقلیدسی - MED - ، حداقل فاصلهی اقلیدسی وزندار - WMED - ، فاصلهی باتاچاریا - Bhatt - ، k نزدیکترین همسایه - KNN - ، و شبکه عصبی . - ANN - منظور از شرای بدرفتار طبقهبندی، هنگامی است که میخواهیم دادهی بعد بالا را با نمونهی آموزشی محدود، طبقهبندی کنیم. در این شرای ، توجه به این موارد میتواند مفید واقع شود:
-1 به هنگام استفاده از طبقهبندهای پارامتریک باید به نکات زیر توجه داشت:
- وقتی تعداد ویژگیها زیاد است، استفاده از آمارگان مرتبهی اول یعنی میانگین چندان کارساز نخواهد بود، چراکه در ابعاد بالا، میانگین کلاسهای مختلف شبیه به هم بوده و جداییپذیری کلاسها با استفاده از این پارامتر چندان میسر نیست. - استفاده از میانگین در ابعاد پایین میتواند مفید باشد. -
- در هنگام استفاده از طبقهبندهایی که از ماتریس کواریانس استفاده میکنند، باید مراقب منفرد شدن ماتریس کواریانس باشیم. چراکه میدانیم، وقتی تعداد نمونهی اموزشی نسبت به تعداد ویژگیها کمتر باشد، تخمین صحیحی از ماتریس کواریانس نخواهیم داشت و ضمنا ماتریس کواریانس منفرد شده و معکوسپذیر نخواهد بود.
-2 استفاده از طبقهبنده ای غیرپارام تریک که نیازی به محاسبهی آمارگان ندارد از قبیل شبکه عصبی، KNN و SVM میتواند برای تعداد باند بالا مفید واقع شود. تصویر استفاده شده در این تحقیق مربوط به منطقه ای کشاورزی-جنگلی است که توس سنجنده AVIRIS در ژوئن 1992 از یک سایت آزمایشی در شمال شرقی ایالت ایندیانا گرفته شده است - Landgrebe, . - D.A., 2003 این تصویر حاوی 220 باند باریک با پهنای 10 نانومتر در بازه فرکانسی 0.4 تا 2.5 میکرومتر، 145×145 پیکسل و دقت مکانی 20 متر بر پیکسل و دقت رادیومتریک 8 بیت است. بعد از حذف 20 کانال نویزی، آزمایش ها بر روی 200 باند باقیمانده انجام شده است.
در شکل 1 تصویر نور مرئی و نقشه مرجع تصویر ایندیانا نشان داده شده است. در جدول 1 نام کلاسها و تعداد دادههای مرجع موجود هر کلاس آورده شده است. برای آزمایش از دادهی ایندیانا با 13 نمونهی آموزشی برای هر کلاس استفاده کردهایم. توجه کنید برای شبکه عصبی از یک شبکهی پس انتشار با 30 نورون در لایهی پنهان استفاده شده است. آزمایش بر روی طبقهبندها، با نمونهی آموزشی یکسان 5 بار تکرار و متوس صحت و اعتبار کل در جدول 2 و شکل 2 قابل مشاهده است.