بخشی از مقاله
خلاصه
فرض اصلی در بسیاری از الگوریتمهای یادگیری ماشین و دادهکاوی این است که دادههای آموزشی و داده های تست از یک فضای خصیصهای یکسان و دارای توزیع یکسان باشند. با این حال، در بسیاری از کاربردهای دنیای واقعی از جمله کلاسهبندی تصاویر، این فرض رعایت نمیشود. در سال های اخیر، انطباق دامنه بهعنوان یک چهارچوب یادگیری جدید برای رسیدگی به این مشکل پدید آمدهاست. روشهای موجود که تلاش میکنند توزیع دامنههای منبع و هدف را یکسان نمایند، از تمام نمونهها استفاده میکنند، اما همه نمونه ها ممکن است برای دستیابی به این هدف مناسب نباشند.
انتخاب نمونه یک روش کلیدی برای مورد خطاب قرار دادن مسأله انطباق دامنه است. روش پیشنهادی در این مقاله از یکی از تکنیکهای انتخاب نمونه برای وزندهی به نمونه های دامنه منبع برای کلاسهبندی تصاویر استفاده میکند. همچنین با بهرهگیری از روشهای تطبیق خصوصیات و نگاشت داده ها به یک فضای مشترک، اختلاف توزیع شرطی بین دامنههای منبع و هدف را کاهش میدهد. روش پیشنهادی یر روی دو نوع پایگاهداده بصری با 14 آزمایش طراحی شده، مورد ارزیابی قرار گرفت. نتایج حاکی از بهبود قابل ملاحظه عملکرد روش پیشنهادی در مقایسه با جدیدترین روشهای حوزه انطباق دامنه و یادگیری انتقالی در کاربرد کلاسهبندی تصویر است.
.1 مقدمه
الگوریتمهای دادهکاوی1 و یادگیری ماشین2 در حوزههایی از جمله کلاسهبندی3 و خوشهبندی4 عملکرد خوبی داشتهاند اما بسیاری از این الگوریتمها تنها زمانی نتایج قابلقبولی ارائه میدهند که دادههای آموزشی5 و دادههای تست6 از یک فضای خصیصه7ای یکسان با توزیع یکسان بهدست آمده باشند. در حالیکه در بسیاری از کاربردهای دنیای واقعی، دادههای برچسبداری که برای مدلسازی مورد استفاده قرار میگیرند، از یک حوزه و دادههای بدون برچسبی که میخواهیم آنها را کلاسهبندی کنیم، از حوزهی دیگری میباشند.
این مشکل زمانی پیش میآید که به اندازه کافی داده برچسبداری که متعلق به یک حوزه باشد دردسترس نیست و در نتیجه مجبوریم از دادههای برچسبدار موجود در حوزههای دیگر برای برچسبگذاری دادههای بدون برچسب استفاده کنیم. بهعنوان مثال برای کلاسه بندی تصاویر ممکن است نمونه های آموزشی و تست از دامنه های مختلفی تهیه شده باشند و از نظر ظاهر، روشنایی و کیفیت کاملا متفاوت باشند. در چنین مواقعی الگوریتمهای رایج داده کاوی و یادگیری ماشین کارآمد نخواهند بود.
یکی از راهحلهای متداول برای این مشکل بکارگیری انتقال دانش8 یا یادگیری انتقالی9 روی دامنه های مختلف است1]، . [2 در واقع با استفاده از انطباق دامنه میخواهیم یک نمایش جدید برای دادهها به دست آوریم تا به کمک آن کارآیی را افزایش دهیم. چون کلاسهبندی داده ها به صورت دستی نیازمند صرف هزینه و زمان بسیار زیادی است، بنابراین بهترین راه این است که از دادههای برچسبدار موجود که از لحاظ توزیع، مشابه دادههای بدون برچسب هستند اما لزوما با آنها یکسان نیستند، استفاده کنیم. که به این نوع دادهها در اصطلاح دادههای مرتبط 10گفته میشود.[3]
در واقع هدف از انطباق دامنه، ساخت یک کلاسهبند است که نسبت به توزیع های متفاوت مقاوم باشد. بهطوریکه اگر دادههای آموزشی و تست از توزیع متفاوتی برخوردار بودند، مدل ساخته شده در برابر این مسأله مقاوم باشد و کارآیی آن تحت تأثیر این موضوع قرار نگیرد.>3@ فرض مشترک در بیشتر الگوریتمهای یادگیری ماشین این است که داده های برچسبدار - دامنه منبع - 11 و دادههای بدون برچسب - دامنه هدف - 12 از یک توزیع یکسان نمونهگیری شده باشند، اما بسیاری از کاربردهای دنیای واقعی این فرض را نقض میکنند4@، .>5 نمایش مستقل از دامنه 13یک روش کلیدی برای حل مسأله انتقال دامنه بدون نظارت14 است که در آن نمونه های آموزشی و تست دارای توزیع های متفاوت میباشند.
روشهای معمول برای یکسان سازی توزیع دامنههای منبع و هدف، اغلب آن ها را در یک فضای خصوصیت اصلی15 مقایسه میکنند؛ اما این فضا ممکن است مستقیما برای چنین مقایسهای مناسب نباشد، زیرا برخی از خصوصیات ممکن است در اثر انتقال دامنه از شکل طبیعی خود خارج شده باشند و یا ممکن است وابسته به دامنه باشند. برای حل چنین مشکلی میتوان نمونههای دامنه منبع و دامنه هدف را به یک فضای خصیصهای مستقل از دامنه16 نگاشت کرد که در این فضا توزیع دو دامنه یکسان است. با یادگیری چنین نگاشتی انتظار میرود که کلاسهبند تصویر ایجاد شده روی نمونههای منبع، روی دامنه هدف نیز عملکرد خوبی داشته باشد.>5@
نکتهی قابل توجه این است که در روشهای رایج برای رسیدن به چنین فضای خصیصهای مستقل از دامنه از تمام نمونه ها استفاده میشود در حالیکه همه نمونهها از ارزش یکسانی برخوردار نیستند و کافی است آن دسته از نمونه ها که برای رسیدن به این هدف مورد نیاز هستند را شناسایی کنیم2@، .>15 برای این منظور استفاده از تکنیکهای انتخاب نمونه مؤثر خواهد بود 7@، .>16
بنابراین باید تعدادی از نمونه ها که دارای حداقل اختلاف توزیع با نمونههای هدف میباشند، شناسایی شوند. برای محاسبه میزان اختلاف دو مجموعه داده دو روش کلی وجود دارد: - 1 - روشهای پارامتری مثل KLD17 که بر اساس تخمین چگالی18 عمل میکنند، به این صورت که ابتدا چگالی هر مجموعه محاسبه و سپس چگالیها با هم مقایسه میشوند؛ - 2 - روشهای غیرپارامتری از قبیل MMD19 که این روش ابتدا دادهها را به فضای RKHS20 نگاشت و سپس میانگین هر مجموعه ی داده را به روش های مختلف و با معیارهای متفاوت محاسبه میکند و در نهایت اختلاف آنها را بهعنوان فاصلهی دو دامنه اعلام میکند. قابل اثبات است که اختلاف توزیع دو دامنه در فضای RKHS معادل اختلاف آنها در فضای اصلی است.>7@
شایان ذکر است مسائل یادگیری انتقالی بسته به نوع دامنه هدف به دو دسته تقسیم میشوند: دسته اول مسائلی هستند که دامنه هدف در آنها تنها شامل تعداد کمی نمونهی برچسبدار است که به این مسائل "تطبیق دامنه نیمهنظارت شده"21 گفته میشود؛ اما در دسته دوم که "تطبیق دامنه بدون نظارت"22 نام دارد، هیچ دادهی برچسبداری در دامنه هدف وجود ندارد 7@، .>16
روش پیشنهادی در این مقاله با عنوان کلاسهبندی تصویر توسط یادگیری انتقالی خصوصیات و تطبیق نمونهها - TFLSA - 23 ، یک روش ترکیبی با بهرهگیری از تطبیق خصوصیات24 و انتخاب نمونه25 برای کلاسهبندی تصاویر است که با ایجاد یک زیرفضای مشترک برای نمایش دادههای دامنههای منبع و هدف، اختلاف توزیع شرطی بین دامنه ها را در این زیرفضا حداقل میکند. همچنین با استفاده از روشهای وزندهی نمونه26 که موجب تطبیق نمونه های دامنه منبع و هدف می شود، دقت کلاسه بند تصویر را در پیشبینی دادههای بدون برچسب دامنه هدف افزایش میدهد.
روش TFLSA، بر روی 14 مجموعه تصاویر بین دامنهای مختلف مورد ارزیابی قرار گرفته است. نتایج حاکی از بهبود قابل ملاحظه عملکرد روش پیشنهادی در مقایسه با جدیدترین روش های حوزه انطباق دامنه و یادگیری انتقالی در کاربرد کلاسه بندی تصاویر است. در ادامه، ابتدا در بخش 2 به مرور پیشینهی فعالیت های انجام شده در حوزه ی انطباق دامنه میپردازیم و سپس در بخش 3 روش پیشنهادی این پژوهش بیان خواهد شد. در بخش 4 نحوه ارزیابی نتایج و نتایج آزمایشات انجامشده خواهد آمد. بخش آخر نیز به نتیجهگیری اختصاص یافتهاست.
.2 کارهای پیشین
در این بخش تاریخچهی پژوهشهای صورت گرفته در زمینهی تطبیق دامنه با کاربرد کلاسهبندی تصاویر به طور خلاصه مرور میشود. بطور کلی فعالیتهای صورت گرفته در حوزهی تطبیق دامنه به سه دسته تقسیم می شوند: - 1 روش های تطبیق خصوصیات، - 2 روشهای روی هم گذاری زیرفضا، - 3 روشهای انتخاب نمونه. دسته اول الگوریتمهایی هستند که نمایش خصیصه27 ها را تغییر میدهند که این تغییر میتواند هم در فضای اصلی28 دادهها و هم در فضای پنهان29 اتفاق بیفتد6@، 8، .>9 بهعنوان مثال در مرجع >6@ با بهکارگیری الگوریتم TCA30، برای انجام یک انتقال دانش بین دو دامنه با توزیعهای متفاوت، خصیصههایی از فضای پنهان انتخاب میشوند که اولا فاصله را حداقل و ثانیا واریانس نمونههای متعلق به یک کلاس را حداکثر سازند.
در واقع این دو شرط موجب میشود نمونهها با دقت بیشتری از هم متمایز شوند و دقت کلاسه بند تصویر افزایش یابد. دسته دوم رویکردهایی هستند که با استفاده از الگوریتمهای روی هم گذاری زیرفضا31 به حل مسائل انطباق دامنه میپردازند5@، .>13-11 یکی از الگوریتمهای معروف از این دسته، الگوریتم [5] GFK32 است. GFK با استفاده از هندسه منیفلدی33، دو دامنه منبع و هدف را به یک زیرفضای جدید نگاشت میکند تا در آن زیرفضا، توزیع دو دامنه به هم نزدیکتر شود و در نتیجه مسأله به کمک الگوریتمهای کلاسیک یادگیری ماشین قابل حل باشد.>5@
دسته سوم الگوریتمهای وزندهی مجدد نمونه یا انتخاب نمونه هستند. در این نوع از الگوریتمها، از نمونههایی که موجب اختلاف توزیع بین دو دامنه منبع و هدف میشوند، صرفنظر و یا اینکه وزن بسیار پایینی به آنها نسبت داده میشود7@، .>16-13 بهعنوان مثال در مراجع 7@، >16 ، زیر مجموعهای از نمونهها که دارای توزیع مشابهی بین دو دامنه هستند، "لندمارک"34 نامیده میشوند.
در واقع لندمارک ها بخشی از نمونهها میباشند که همانند یک پل ارتباطی بین دامنه هدف و دامنه منبع عمل کرده و تطبیق این دو دامنه را با صرف زمان و هزینهی کمتری ممکن میسازند. بهعبارت بهتر استفاده از رویکردهای مبتنی بر لندمارک علاوه بر صرفهجویی در زمان و هزینه، اثر نمونههایی که موجب اختلاف توزیع بین دامنههای منبع و هدف میشوند را تا حد زیادی کاهش میدهد که این امر موجب بهبود عملکرد مدل کلاسه بند خواهد شد.