بخشی از مقاله
چکیده
سیستمهای طبقه بندی چندگانه - MCSs - عملکرد مناسبی برای طبقهبندی تصاویر ابر طیفی از خود نشان داده اند. این نوع از طبقهبندی کنندهها به الگوریتمهای خاصی اشاره نمیکنند؛ این روشها در حقیقت تلفیق نتایج چندین طبقهبندی کننده مجزا به نام ensemble، به منظور دستیابی به عملکرد بهتر میباشد. کلید موفقیت MSC ها دو مورد: - 1 متفاوت بودن و - 2 دقیق بودن نتایج ensemble ها میباشد. یکی از روش موجود برای تولید ensemble های متفاوت، انتخاب تصادفی ویژگی - باند - میباشد که به روش انتخاب تصادفی ویژگی - RFS - 2معروف است. اگرچه در این روش، جنبه متفاوت بودن ensemble ها باال میباشد، تضمینی در مناسب بودن ویژگیهای استفاده شده وجود ندارد. برای مثال اگرِویژگیهای موجود آغشته به نویز تصادفی باشند، نتایج طبقه-بندی کننده دقیق و قابل اطمینان نمیباشد.
در این تحقیق برای پوشاندن ضعف روش مذکور، روشی با نام انتخاب تصادفی قطعه - RSS - ارائه شده است. در این روش،3 برای تولید ensemble ها، در ابتدا به صورت تصادفی خوشههایی از ویژگی - باند - های مجاور انتخاب میشوند. سپس در هر خوشه، با انجام میانگینگیری از ویژگیها، یک ویژگی جدید استخراج شده و عملیات طبقهبندی انجام میگیرد. استخراج ویژگی پیشنهادی در روش RSS، باعث کاهش نویز تصادفی در باندهای اصلی شده و نسبت سیگنال به نویز را افزایش میدهد. عالوه بر افزایش نسبت سیگنال به نویز، روش استخراج ویژگی فوق باعث کاهش انحراف معیار یا به عبارتی فاصلهی درون کالسی شده و در نتیجه قابلیت تفکیک پذیری بین کالسها را باال میبرد. نتایج انجام شده در این تحقیق، حاکی از برتری روش پیشنهادی بر روش RFS میباشد، به طوری که روش پیشنهادی را میتوان جایگزین مناسبی برای آن خواند.
واژههای کلیدی: طبقهبندی، تصاویر ابرطیفی، سیستم طبقهبندی چندگانه، روش انتخاب تصادفی ویژگی.
-1 مقدمه
تصاویر ابرطیفی که از تعداد زیادی باندهای طیفی باریک در یک محدوده پیوسته از طیف امواج الکترومغناطیس تشکیل شده اند ، به طور گسترده در بسیاری از کاربردها از جمله کشاورزی، کانی شناسی ، نظارت ، تصویربرداری شیمیایی و غیره استفاده میشوند .]1[ یکی از محبوبترین تکنیکهای به کار گرفته شده در کاربردهای ذکر شده، طبقهبندی نظارت شده است که به علت پدیدهی هاف - بالی ابعاد - و دادههای آموزشی ناکافی یک تکنیک چالش برانگیز است.]2[ هنگامی که تعداد دادههای آموزشی در مقایسه با تعداد زیاد ابعاد - صدها هزار بعد - در دادههای ابرطیفی - باندهای
طیفی - بسیار محدود باشد ، اغلب منجر به عمکلرد ضعیف و بارمحاسباتی بیشتر میشود.]3[ برای مقابله با این ضعفها و کمبودها، تالشهای قابل توجهی در زمینه الگوریتم های یادگیری ماشین در سالهای اخیرانجام شده است.
ماشین های بردار پشتبیبان- - SVM - 2 که دادههای اصلی - اولیه - را به یک فضای دیگر با ابعاد بزرگترتصویر میکنند تا دادههایی را که در فضای ویژگی اولیه به صورت غیرخطی هستند را به صورت خطی جداکنند – عمکلرد خوبی را در طبقهبندی دادههای ابرطیفی نشان داده اند .]4[ با وجود توانایی خوب SVM ها در طبقهبندی با دادههای آموزشی محدود ، مطالعات زیادی برای بهبود عملکرد طبقهبندی آنها انجام شده است که از جملهی آنها میتوان بهSVM های نیمه نظارت شده ]5[، یادگیری فعال با SVM ها ]6[ ، اعمال استخراج ویژگی یا انتخاب ویژگی بر روی SVM ها ]7[ و یا استفاده از اطالعات مکانی با SVM ها ]8[ اشاره کرد.یکی دیگر از پیشرفتها در زمینه طبقهبندی نظارت شده، مفهوم سیستمهای طبقهبندی کننده چندگانه - MCSs - است.]10 ,9[
الزم به ذکر است که سیستمهای طبقهبندی کننده چندگانه به الگوریتمهای خاصی اشاره نمیکنند، اماشامل چند مرحله اند که چندین طبقهبندی کننده را با هدف به دست آوردن بهترین عملکرد نسبت به هر طبقهبندی کننده ترکیب میکنند. اغلب برای ایجاد یک سیستم طبقهبندی کننده چندگانه، سه مرحلهی مستقل شامل انتخاب توپولوژی ، تولید طبقهبندی کننده و ترکیب طبقهبندی کنندهها انجام میپذیرد.توپولوژیهای سیستم طبقهبندی کننده چندگانه را میتوان به سه دسته تقسیم کرد: موازی ، آبشاری و ترکیبی - پیوندی - . اکثر روشهای MCS دارای حالت - توپولوژی - موازی هستند. در حالت موازی طبقهبندی کنندههای چندگانه به طور مستقل و بدون هیچگونه تعامل متقابل ایجاد میشوند و خروجیهای آنها بر اساس یک استراتژی مشخص با هم ترکیب میشوند .]10[
در توپولوژی آبشاری، نتایج تولید شده توسط طبقهبندی کننده قبلی به عنوان ورودی طبقهبندی کننده بعدی محسوب میشود. یک مورد خاص از این نوع توپولوژی، الگوریتم تقویت - بهبود - است ].11[یک توپولوژِی ترکیبی - پیوندی - ، ترکیبی از مشخصات و تنظیمات طبقهبندی کنندههای موازی و آبشاری است. در اغلب موارد برای ایجاد طبقهبندی کنندههای مختلف، دو عامل ضروری به نامهای دقت و تفاوت - تمایز - درensemble ها درنظر گرفته میشوند .]9[ عامل تفاوت مستلزم آن است که خطاهای تعمیم پذیری تولید شده بوسیلهی هر یک از طبقهبندی کنندهها تا حد امکان همبستگی نداشته باشند. معموال برای تولید طبقهبندی کنندههای چندگانه از روشهای همگون و ناهمگون استفاده میشود.
روشهای ناهمگون از الگوریتمهای یادگیری نظارت شده متفاوت برای تولید نتایج طبقهبندی متفاوت - متنوع - استفاده میکنند.روشهای همگون برای بدست آوردن مجموعهای از نتایج طبقهبندی از یک طبقهبندی کننده، از تزریق - اضافه کردن - جنبهی تصادفی بودن به زنجیرهی پردازشهای مربوط به طبقهبندی، مانند ایجاد تغییر در دادههای آموزشی و ویژگی-های ورودی ، استفاده میکند. ازجمله روشهای ایجاد تغییر در دادههای آموزشی و ویژگیهای ورودی، بستهبندی 1 ]12[ و ]13 ,11[ RFS است. روش Bagging با تغییر توزیع دادههای آموزشی اولیه ، دادههای آموزشی متنوع - مختلف - و روش زیرفضای تصادفی با انتخاب تصادفی زیرفضاهایی از مجموعهی ویژگیهای اولیه، ویژگیهای آموزشی متنوع - مختلف - تولید میکنند.
رای گیری اکثریت2یک روش ساده و موثر برای ترکیب طبقهبندی کنندهها است. در این روش یک پیکسل به کالسی اختصاص داده میشود که بیشترین تعداد رای را از هر طبقهبندی کننده دریافت میکند .]9[MCS ها مجموعهای از طبقهبندی کنندهها را ایجاد میکند که پیشبینی فردی هر یک از آنها به گونهای ترکیب می-شوند که خطای تعمیم پذیری را کاهش دهد. یک شرط ضروری برای مفید بودن MCS ها این است که طبقهبندی کنندهها باید میزان قابل توجهی اختالف داشته باشند . ]9[وقتی یک طبقهبندی کننده به عنوان طبقهبندی کننده اصلی انتخاب گردد، اغلب از سه استراتژی برای ایجاد طبقه-بندی کنندههای مختلف از این طبقهبندی کننده اصلی استفاده میشود.
تغییر در نمونههای آموزشی
تغییر در ویژگیهای ورودی
تغییر - تنوع - پارامترهای الگوریتم
تغییر در نمونههای آموزشی
Bagging و Boosting دو مفهموم متداول برای ایجاد طبقهبندی کنندههای چندگانه از طریق تغییر در نمونههای آموزشی هستند Bagging .]12 ,11[ از تکنیک نمونهبرداری با جابهجایی برای به دست آوردن نمونههای آموزشی مستقل برای هر طبقهبندی کننده استفاده میکند. Boosting وزن نمونههای آموزشی را بر اساس نتایج طبقهبندی کننده آموزش دیدهی قبلی با تمرکز بر نمونههایی که اشتباه طبقهبندی شده اند تغییر میدهد و نتیجهنهایی را با استفاده از قاعده آرای وزندار ایجاد میکند. این دو الگوریتم برای یادگیرندهی ناپایدار بسیار مفید اند - مثل NN و . - DT زمان محاسبه Boosting طوالنی تر از Bagging است زیرا Boosting یک MCS آبشاری است، در حالی که Bagging یک MCS موازی است. ضعف اصلی Boosting حساسیت آن به نویز است.
تغییر در ویژگیهای ورودی
انتخاب ویژگیهای تصادفی و دستهبندی ویژگی به این دسته تعلق دارند که هدف آنها تولید نتایج طبقهبندی متقاوتی است که براساس ویژگیهایی که به طور تصادفی انتخاب شده اند، آموزش دیده اند. در ]14[، Breiman یک روش جدید طبقهبندی کننده را به نام جنگل تصادفی پیشنهاد کرد که دوتکنیک Bagging و زیرفضای تصادفی را ترکیب میکند. حالت فعلی استفاده از درخت تصمیمگیری ، جنگل چرخشی است .]15[ ایدهی اصلی جنگل چرخشی ، تصویر کردن دادههای اصلی به یک فضای ویژگی جدید با استفاده از الگوریتمهای تبدیل داده برای هر درخت تصمیمگیری است. طبقهبندی کنندههای اصلی درخت تصمیمگیری در فضاهای جدید آموزش داده میشوند تا به طور همزمان دو عامل دقت فردی و تفاوت - تنوع - را افزایش دهند.
تغییر - تنوع - پارامترهای الگوریتم