بخشی از مقاله
چکیده-شناسایی حالت چهره یکی از مسائل چالشبرانگیز در بینایی ماشین است. تاکنون تحقیقات فراوانی در این زمینه انجام شده است، اما شناسایی حالت چهره در شرایط کنترل نشده به صورت یک مسأله حل نشده باقی مانده است. اغلب ویژگیهایی که در بینایی ماشین استفاده میشوند، ماهیت هیستوگرامی دارند. در این مقاله یک روش جدید یادگیري متریک براي دستهبندي دادههاي هیستوگرامی ارائه میشود.
در این روش، فاصله مربع کاي به نحو مناسبی براي یادگیري متریک اصلاح شده و یک تابع هزینه محدب براي یادگیري آن پیشنهاد میشود. در ادامه، الگوریتم پیشنهادي با تعریف یادگیري موضعی براي مسأله شناسایی حالت چهره بازنویسی شده است. آزمایشهاي انجام شده بر روي پایگاههاي داده کنترل شده و کنترل نشده شناسایی حالت چهره نشان میدهد که روش پیشنهادي نسبت به سایر روشهاي موجود داراي دقت بسیار بالاتري است.
-1 مقدمه
شناسایی حالت چهره به عنوان یک مسأله پرکاربرد در بینایی ماشین مورد توجه فراوانی قرار دارد. به ارتباط انسان و رایانه و دوربینهاي هوشمند از جمله کاربردهاي این مسأله هستند. در چند دهه گذشته، تحقیقات بسیاري در این زمینه انجام شده است که اغلب آنها تلاش در شناسایی حالت چهره در تصاویر آزمایشگاهی داشتهاند .[6]-[1] در سالهاي اخیر تحقیقاتی پیرامون شناسایی حالت چهره در تصاویر کنترل نشده انجام شده است [10]-[7] ؛ اما به دلیل پیچیدگیهاي زیاد، همچون تغییرات زاویه سر و نورپردازي [7]، این مسأله به صورت حل نشده باقی مانده است.
شناسایی حالت چهره در شرایط کنترل نشده مشابه یادگیري یک تابع هدف بسیار پیچیده است. یادگیري مبتنی بر نمونه روش مناسبی براي یادگیري توابع بسیار پیچیده است که به صورت موضعی داراي پیچیدگی کمتري هستند .[11] از این رو در این مقاله از روش یادگیري متریک و دستهبندي K نزدیکترین همسایگی - KNN - 1 براي شناسایی حالت چهره استفاده میشود.
به دلیل کاربردهاي مختلف در مسائلی همچون خوشهبندي و دستهبندي دادهها، در دهه گذشته تحقیقات بسیاري در زمینه یادگیري متریک انجام شده است .[13][12] هدف اصلی یادگیري متریک بهبود معیار مقایسه بین دادهها براساس مجموعه آموزشی است .[13] بسیاري از روشهاي یادگیري متریک، سعی در بهبود معیار فاصله ماهالانوبیس دارند. اما اغلب ویژگیهایی که در شناسایی حالت چهره بکار میروند، هیستوگرامی بوده و فاصله ماهالانوبیس در این فضاي غیرمتعامد کارایی چندانی ندارد. معروفترین معیار مقایسه دادههاي هیستوگرامی، فاصله مربع کاي - χ2 - 2 است.
بنابراین، در این مقاله روش جدیدي براي یادگیري متریک در χ2 پیشنهاد میشود. در این روش، یک رابطه جدید براي χ2 معرفی میشود که داراي یک ماتریس است که با یادگیري متریک و بهینهسازي تابع هزینه پیشنهادي بر روي مجموعه آموزشی، بدست میآید. یکی از چالشهاي یادگیري متریک، تعداد بالاي پارامترهاي یادگیري است که به همراه تعداد کم داده آموزشی، باعث بیش-تعلیم3 بر روي مجموعه آموزشی میشود.
براي حل این مشکل، در این مقاله دو راهکار اصلی پیشنهاد شده است: - الف - استفاده از تکنیک dropout در یادگیري و - ب - یادگیري متریک موضعی. روش dropout براي مقابله با بیشتعلیم در آموزش شبکههاي عصبی عمیق معرفی شده است .[14] در این مقاله یک رابطه 1 K-Nearest Neighbor 2 Chi-squared 3 over-fitting dropout جدید به عنوان تنظیمکننده1 در یادگیري متریک ارائه شده است. ویژگیهایی که براي شناسایی حالت چهره استفاده میشوند، معمولاًبه صورت موضعی از تصویر استخراج میشوند.
طول بردار ویژگی هر یک از نواحی تصویر نسبت به بردار ویژگی اصلی بسیار کوچکتر است؛ بنابراین یادگیري بر روي آنها نسبت به کل بردار ویژگی سادهتر است. در این مقاله یادگیري متریک بر روي هر یک از نواحی تصویر چهره به صورت مجزا انجام میشود و از این روش با عنوان یادگیري متریک موضعی نام برده میشود. بطور کلی، نوآوريهاي اصلی این مقاله به شرح زیر است:
ارائه یک روش جدید یادگیري متریک با تابع هزینه محدب براي معیار χ2 به منظور مقایسه دادههاي هیستوگرامی. استفاده از تکنیک dropout به عنوان تنظیمکننده یادگیري متریک براي پیشگیري از بیشتعلیم. - اثبات میشود که این روش معادل یک تنظیمکننده نسبتاً پیچیده است - . معرفی یادگیري متریک موضعی براي شناسایی حالت چهره. ادامه مطالب موجود در این مقاله بدین شرح است: در بخش بعدي روشهاي موجود مرور میشود. در بخش سوم، روش پیشنهادي بیان میشود. بخش چهارم مربوط به شرح آزمایشها است.نهایتاًدر بخش پنجم این مقاله جمعبندي میشود.
-2 مروري بر کارهاي پیشین
در این بخش مرور مختصري بر کارهاي انجام شده در دو زمینههاي شناسایی حالت چهره و یادگیري متریک انجام میشود.
-1-2 شناسایی حالت چهره
روشهاي شناسایی حالت چهره اغلب شش حالت اصلی چهره - خشم، تنفر، ترس، خوشحالی، ناراحتی و تعجب - را تعیین می-کنند. این روشهامعمولاًمبتنی بر ویژگیهاي هندسی و یا ویژگیهاي ظاهري هستند .[15] در [1] یک مدل هندسی چهره از فواصل مشخصی از 30 نقطه چهره براي شناسایی حالت چهره استفاده شده است. ویژگیهاي هندسی در سالهاي اخیر نیز در شناسایی حالت چهره استفاده شدهاند .[2]
در روشهاي مبتنی بر ویژگیهاي ظاهري، از توصیفگرهاي بافت تصویر همچون موجک گابور [3] استفاده میشود. در سالهاي بعد توصیفگر دیگري به نام الگوهاي دودویی محلی - LBP - [4] 2 معرفی و شکلهاي مختلف آن براي توصیف چهره استفاده شده است .[6][5] در برخی از تحقیقات با استخراج ویژگیهاي ظاهري از نواحی برجسته، دقت شناسایی حالت چهره افزایش یافته است .[17][16]
روشهاي فوق براي شناسایی حالت چهره در تصاویر کنترل شده مانند پایگاه داده CK+ [18] طراحی شدهاند. در سالهاي اخیر مجموعه تصاویري نظیر SFEW [19] و AFEW [20] براي شناسایی حالت چهره در شرایط کنترل نشده ارائه شده و تحقیقات مختلفی در این زمینه انجام شده است . [10]-[7] به عنوان مثال در [7] از یادگیري transductive transfer و ویژگی RVLBP استفاده شده است.
در [8] روش یادگیري منیفولد DS-GPLVM براي شناسایی حالت چهره مقاوم در برابر تغییر زاویه سر ارائه شده است. در این روش یک منیفولد مشترك از تصاویر چهره در زوایاي مختلف تعریف شده و سپس از دستهبندي کننده KNN در این منیفلود استفاده شده است. در [9] از یادگیري منیفولد مکان - زمانی در دادههاي کنترل نشده ویدئویی استفاده شده است. با وجود تمام تلاشهاي انجام شده، دقت این روشها در شرایط کنترل نشده بسیار پایین است.
-2-2 یادگیري متریک
اولین تلاش انجام شده در زمینه یادگیري فاصله ماهالانوبیس، براساس یک فرمولنویسی محدب و بدون تنظیم کننده بوده است .[24] پس از آن تلاشهاي دیگري در این زمینه انجام شده و تاکنون نیز ادامه دارد .[27] -[25] یکی از تحقیقات پراستناد در این زمینه روش LMNN است که براي دستهبندي KNN براساس فاصله ماهالانوبیس طراحی شده است .[27]
-3 روش پیشنهادي
در این بخش، ابتدا فاصله χ2 و روش پیشنهادي یادگیري متریک بیان میشود. سپس به شرح تکنیک dropout به عنوان تنظیم کننده و نیز الگوریتم یادگیري موضعی پرداخته میشود.
-1-3 یادگیري متریک در فاصله χ2
فاصله χ2 مورد توجه بسیاري از محققین در مقایسه دادههاي هیستوگرامی قرار گرفته است .[5] این معیار فاصله براي دو هیستوگرام xi و xj به صورت معادله - 3 - تعریف میشود.