بخشی از مقاله
چکیده
در سالهای اخیر با توجه به افزایش کاربردهای شناسایی حالات چهره نظیر کابرد آن در ارتباط بین انسان و ماشین، این موضوع از اهمیت ویژه ای برخوردار شده است. لذا دستیابی به دقت قابل قبول جهت شناسایی حالات چهره بصورت بلادرنگ برای چنین کاربردهایی امری حیاتی بشمار میرود. بنابراین ارائه رویکردی جدید برای شناسایی حالات چهره در زمانی کوتاه، همواره موضوع جالب و چالش برانگیزی در بینایی ماشین محسوب میشود. در این تحقیق، هدف ما ارائه روشی کارا از نظر دقت اجرا جهت شناسایی حالات چهره است. در روش پیشنهادی سعی میگردد، اقدام به گرفتن نتایج با درصد موفقیت بالا نماییم. در این راستا، ابتدا با استفاده از رویکرد استخراج و ترکیب ویژگیها توسط معادلات دیفرانسیل تئوری آشوب، ویژگیهای با اهمیت تعیین شده و سپس توسط الگوریتم برنامه نویسی ژنتیک اقدام به شناسایی حالات چهره در مجموعه دادهها، میشود. نتایج بدست آمده از اجرای روش پیشنهادی روی سه پایگاه داده Cohn–Kanade، JAFFE و TFEID، با دقت به ترتیب%86,8، %88,3، %92,9 حاکی از آن است که روش پیشنهادی توانسته نسبت به کارهای انجام شده در این حوزه بهتر عمل نموده و توانسته، بهترین روش ارائه شده اخیر را پشت سر بگذارد.
کلید واژه- شناسایی حالات چهره، شبکه عصبی پرسپترون، تئوری آشوب ، برنامه نویسی ژنتیک.
-1 مقدمه
در سالهای اخیر، علم شناسایی حالات چهره توجه بسیاری از محققان را در زمینه بیومتریک، شناسایی الگو و انجمنهای تصویری کامپیوتری را به خود جلب نموده است. علاوه بر این تعداد زیادی از کاربردهای تجاری، امنیتی و قانونی نیازمند استفاده از فناوری شناسایی حالات چهره میباشند. دلیل این امر توانایی قابل ملاحظه این علم در شناسایی افراد و هویت آنها و توانایی ردیابی فعالیتهای افراد در محیطهای مختلف میباشد.چندین سال است که شناسایی حالت چهره یا تشخیص احساس ابراز شده در چهره، صرف نظر از هویت شخص، مورد توجه فراوان در کاربرد های پردازش تصویر و بینایی ماشین قرار گرفته است 1]،.[2 به دلیل تنوع و تغییرپذیری حالت ها، شناسایی حالت چهره با دقت بالا هنوز هم به عنوان یک مسئله چالش برانگیز مطرح است.[3]از کاربرد های مهم شناسایی حالات چهره می توان به ساخت دوربین های عکاسی هوشمند، ربات های دارای احساس، انیمیشن های دارای ابراز احساس مشابه انسان اشاره نمود.
اغلب مطالعات انجام شده، احساس های اصلی[4] یعنی شش حالت احساسی خشم، تنفر، ترس، خوشحالی، غمگینی و تعجب که در تعاملات اجتمایی و تمام جوامع بشری فراگیر هستند[5] بررسی کرده اند.تحقیق بر روی آنالیز حالات چهره توسط داروین[6] در قرن 19 ابداع شد. بعدها در سال 1974، اکمان و همکارانش 6 [7] نوع از احساسات را که میتوانست به راحتی بین انسان ها از طریق صورت رد و بدل شود معرفی کردند که عبارت اند از: خوشحالی، عصبانیت، نفرت، ترس، ناراحتی و شگفت زدگی. هر یک از این احساسات دارای مشخصه های مخصوص به خود بوده و با استفاده از این مشخصه ها بدون هیچ سختی قابل تشخیص از همدیگر هستند.به طور کلی حوزه شناسایی حالات چهره تمایل بسیاری از محققان را در سالهای اخیر به خود جلب کردهاست.
در تحقیقات اولیه به دلیل جمعآوری تصاویر کنترلشده و تست سیستمهای شناسایی حالات چهره در محیطهای آزمایشگاهی، الگوریتمهای یادگیری ماشین و پردازش تصویر ارائه شده برای این حوزه، دارای دقت خوبی بودند. ولی با گسترش سیستمهای شناسایی حالات چهره و استفاده از آنها در کاربردهای مختلف، به دلیل به کارگیری تصاویر واقعی، به تدریج از کارایی این سیستمها کاسته شد. با توجه به مطالب بیان شده، در این تحقیق سعی میگردد روشی جدید مبتنی بر الگوریتم برنامه نویسی ژنتیک جهت افزایش کارایی و بهبود روشهای شناسایی حالات چهره نسبت به روش های قبلی، ارائه گردد. ابتدا با استفاده از رویکرد استخراج و ترکیب ویژگیها توسط معادلات دیفرانسیل تئوری آشوب، ویژگیهای با اهمیت تعیین شده و سپس توسط الگوریتم برنامه نویسی ژنتیک اقدام به شناسایی حالات چهره در مجموعه دادهها شد.
-2 مرور کارهای قبلی
ما می توانیم کارهای قبلی انجام شده را به دو قسمت اصلی مطابق با مشخصه های به دست آمده از مشاهدات تقسیم بندی کنیم.[8] راهکارهای مبتنی بر تصویر که در آنها حالت ها گرفته شده و بعنوان مشاهدات مورد استفاده قرار میگیرند، راهکارهای مبتنی بر ویدیو که در آن دنباله ای از حالت ها و یا زیر مجموعه ای از آنها در نظر گرفته می شوند. از آنجایی که این پایان نامه از راهکارهای مبتنی بر تصویر استفاده می شود در ادامه نیز دسته بندی راهکارهای مبتنی بر تصویر را مورد بررسی قرار می دهیم که به دو دسته تقسیم می شوند راهکار های مبتنی بر کلی نگری، راهکار های مبتنی بر جزئی نگری.
-1-2 راهکارهای مبتنی بر کلی نگری
این راهکارها بعنوان راهکارهای مبتنی بر الگو نیز نامیده می شوند. برای مثال استفاده از گراف برچسب و یا آرایه دو بعدی برای شدت مقادیر، جهت نشان دادن حالات چهره.[9] یو و همکاران [ 10] یکی از راهکارهای اخیر می باشد که از موجک -گابور برای نشان دادن ویژگی های اولیه صورت استفاده کردند. لیتلورت و همکاران[11] این افراد نیز از ویژگی موجک-گابور برای نشان دادن تصویر چهره استفاده کردند و همچنین ازماشین بردار پشتیبان برای دسته بندی این مقادیر بهره بردند. زاهی و همکاران [12] یک راهکار جدید مبتنی برفاکتور گیری ماتریس غیر منفی پراکنده گرافرا پیشنهاد کرده است.این الگوریتم، یک فضا با ابعاد بالا را تبدیل به محلی با فضای نگهداری محدود می کند که این محدود سازی با استفاده از نرم 1 به دست می آید. ناصر فرج زاده و همکاران[13] بهترین کاری که نسبت به همه کارهای صحبت شده قبل از این تحقیق انجام شده است این تحقیق می باشد، هدف اصلی شناسایی خودکار حالات چهره استفاده از ویژگی های متمایز برای حالات و برچسب گذاری آنها با احساسات مرتبط با آنها است.
-2-2 راهکارهای مبتنی بر جزئی نگری
در این روشها از اجزا صورت برای شناسایی حالات چهره استفاده کردند که باعث شده نتایج خوبی بدست آورند. فنگ و همکاران [14] با استفاده از انتخاب دستی موقعیت چشم ها و استفاده از الگوهای دوتایی بعنوان ویژگی ها، یک راهکار جدید برای شناسایی حالات چهره انسان ها پیشنهاد کرده اند. شان و همکاران [15] یکی از کار های خوب در این حوضه می باشد که از ویژگی های الگوهای دوتایی برای نشان دادن حالات چهره بهره بردهاند.در سال های قبل از 2001 در این حوضه کارهای بسیاری انجام یافته اند که فقط در اینجا نام برده می شود که شامل: لاجوردی و همکاران[16]، یانگ و همکاران [17]، کاتر [18]، هارا و همکارانش [19]، یوشیدا و همکارانش [20]، چن و همکارانش .[21]جدول 1 خلاصه ای از کار های قبل را نشان می دهد.
-3 روش پیشنهادی
در این تحقیق، هدف اصلی بر آن است تا با ارائه رویکردی نوین در حوزه شناسایی حالات چهره بتوانیم به نتایج بهینه جدید دست یابیم. معماری کلی روش پیشنهادی همانطور که در شکل I مشاهده می شود، دارای مراحل زیر می باشددر روش اویلر - خطا از مرتبه دو - o - h - 3 با افزایش طول گام و یا افزایش بازه مورد بررسی، خطای قابل ملاحظه ای ایجاد می شود. در اینگونه موارد روش رانگ کوتای مرتبه 3 به علت مرتبه خطای بالاتر - خطا از مرتبه - - O - h - 4 4 جایگزین بسیار مناسبی برای دستیابی به همگرایی بسیار بالاتر می باشد.در روش رانگ کوتای مرتبه 3 الگوریتم تکرار بصورت زیر در میآید :
تابع همانند روش اویلر با توجه به شکل معادله دیفرانسیل بدست می آید بگونه ای که :
-1-3 انتخاب ویژگی ها از معادلات تئوری آشوب
هدف بدست آوردن و انتخاب تابع اولیه از معادلات دیفرانسیل تئوری آشوب برای رسیدن به ماتریس اولیه که در ادامه 24 عدد از این ماتریس ها را به عنوان یک رشته ژنی برنامه نویسی ژنتیک معرفی می کنیم که منجر به استخراج ویژگی میگردد، معادلات تئوری آشوب شامل:
در این معادله به ،ρ و β شرایط اولیه معادله لورنز گفته می شود که در مراجع به عدد پرنتل، به ρ عدد ریلی که اختلاف بین سطح بالایی و پایینی را در نمودار نشان می دهد و β نیز نام بخصوصی نداشته و بیانگر نسبت درازا به پهنا میباشد x,y و z مختصات نقاط در فضای 3 بعدی بوده که نمودار این معادلات نسبت به زمان - t - تغییر می کنند و این معادلات نسبت به تبدیل زیر دارای تقارن هستند:
یکی از مشهورترین روش های حل معادلات لورنز به روش رانگ کوتا می باشد که در زیر شرح داده شده است:
بایستی دقت شود، درصورتیکه بخواهیم مختصات 1000 نقطه معادله فوق را در صفحه بدست بیاورییم درواقع درون یک حلقه 1000 بار توابع فوق را محاسبه می کنیم که بایستی مقادیر اولیه برای مقادیر , , ,x,y,z و همچنین dt,dt2 داشته باشیم، لازم به ذکر است مقادیر اولیه x,y,z مشخص کننده مکان محدوده کلی مختصات نمودار فوق و هیچ نقش در گستردگی نمودار ندارد، که این مقادیر در این تحقیقx = 0، y = 1، z = 0 انتخاب شده است، مقادیر , , شرایط اولیه معادله مذکور بوده که در بالا شرح داده شد که در اینجا = 28 ،10 ،8/3 مقدار دهی شده اند که به دلیل شکل نموداری خاصی که میدهند، مشهور به حالت پایدارمی باشد و حداکثر مختصات را در محدوده ای که اعمال می شود دارد، شرایط اولیه نیز در متد پیاده سازی شده با این مقادیر ارزیابی شده است. لازم به ذکر است، 366 ماتریس x,y برای استفاده در رشته های ژنی برنامه، تولید شده و در واقع هر رشته ژنی برنامه نویسی ژنتیک بصورت تابعی بوده و بصورت تصادفی 24 عدد از این ماتریس ها برای هر تابع انتخاب شده است. همچنین با توجه به اینکه دیتاست ها، دو بعدی می باشند، پس بنابراین بایستی دو بعد از سه بعد x,y,z که معادلات فوق دارند انتخاب شود، پس از بررسی های به عمل آمده دو بعد y,z به دلیل دارا بودن کمترین مختصات تکراری انتخاب و پیاده سازی شدند.نمونه تصاویری از دیتاست TFEID با اعمال ماتریس های انتخابی، در شکل II آمده است: