بخشی از مقاله

سیستم خبره شناسایی احساس از روی تصویر ویدیویی چهره
چکیده
در این مقاله، سیستم خبره ای برای شناسایی احساس از روی تصویر ویدیویی حالات چهره ارائه می شود. ورودی این سیستم فریمهای متوالی نمای تمام رخ چهره است. فرض می شودکه سر حرکت محسوسی ندارد و روشنایی فریمها یکنواخت است. این سیستم، اعضای صورت را در فریمهای متوالی دنبال کرده و تغییرات آنها را در قالب واحدهای حرکت چهره می شناسد و این تغییرات را به شکل مجموعه ای از احساسهای اولیه تفسیر می کند. در این سیستم برای هر واحد حرکت و احساس، شدت ظهور تعریف می شودکه برای تمیز برخی حرکات ، حذف حرکات ضعیف و ادغام حرکات مشابه استفاده می شود. از آنجاییکه این سیستم ممکن است بیش از یک احساس را از تغییر حالات نتیجه بگیرد، تمهیداتی برای درجه بندی شدت ظهور و رفع تناقضهای ممکن اندیشیده شده است سیستم خبره به فرایند ادراک انسان نزدیک است، استفاده از آن انعطاف زیادی به مدیریت دانش سیستم داده است. نتایج شناسایی روی ۵۰۱ رشته تصویر ویدیویی با ۰۸ درصد شناسایی درست احساس همراه بوده است.
واﮊگان کلیدی: شناسایی احساس، سیستم خبره، حالات چهره، ردیابی، تصویر ویدیویی

۱. مقدمه
چهره، مهمترین ابزار ارتباط غیر کلامی است. از این نظر متخصصان کامپیوتر همواره سعی کرده اند بنحوی از این طریق نیز ارتباط انسان و ماشین را برقرار کنند. با انجام چنین کاری، ضمن تسهیل ارتباط انسان و ماشین بویژه برای افراد ناتوان جسمی، افقهای جدیدی برای کاربرد کامپیوتر نیز گشوده می شود. اتوماسیون فرایند آموزش، گرافیک کامپیوتری، بینایی روباتها، تشخیص و معالجه بیماریهای روانی از این جمله اند. یکی از اصول اولیه ماشینی کردن یک فرایند، بیان کمّی نحوه انجام آن است. گرچه روانشناسان مطالعات زیادی روی نحوه ادراک انسان از حالات چهر اشخاص انجام داده اند، تحقیقات کمی در زمینه بیان کمّی حرکات چهره انجام شده است. در این میان کار اکمن١ و فریزن٢ برای تعریف سیستم کدگذاری حرکات چهره بسیارمشهور و مورد توجه است]۱.[ آنها با تقسیم هر حرکت پیچیده به یکسری حرکات اولیه، مجموعه واحد حرکتها را تعریف کردهاند. در این مجموعه، هر واحد حرکت مستقل و غیر قابل تقسیم است. سیستم ارائه شده، با ردیابی اتوماتیک اعضای چهره، تغییرات آنها را کشف کرده و در قالب کدهای FACS ١ دسته بندی و به احساسهایی با شدت ظهور معین تفسیر می کند. این سیستم ضمن کشف چند احساس همزمان، تناقض های احتمالی پیش آمده را نیز حذف می کند.
هدف از بکارگیری سیستم خبره در این پژوهش، استفاده از مدلی مناسب برای بیان نحوه ادراک انسان از حالات چهره است. همچنین استقلال کنترل از دانش در سیستم خبره، انعطاف زیادی به آن میدهد. بعلاوه می توان با ساختار قوانینی مشابه قوانین استفاده شده برای شناسایی، موتور استنتاج را کنترل کرده و فرایند آموزش و پالایش دانش را بصورت اتوماتیک انجام داد.
ساختار بقیه مقاله چنین است: در بخش ۲ نگاهی کلی به پیش زمینه موضوع خواهیم داشت. آنگاه دو نمونه از کارهایی را که از سیستم خبره برای شناسایی استفاده کردهاند، بررسی می کنیم. در بخش ۳ سیستم پیشنهادی توضیح داده می شود. بخش ۴ نتایج حاصل از آزمایشهای انجام شده و بخش۵ جمع بندی و نتیجه گیری را در بر دارد.

۲. بررسی پیشینه
شناسایی حالات چهره، از دیرباز مورد توجه روانشناسان بوده است. داروین در سال ۸۷۸۱ یکسان بودن نحوه بروز احساس در چهره افراد مختلف را بررسی کرد. حدود ۱ قرن بعد، در سال ، ۸۷۹۱ اکمن، مطالعه مشابهی روی افراد بدوی در گینه نو انجام داد]۱.[ او در ادامه کارهایش FACS را تدوین کرد و طی تحقیقات دیگری، الگوهایی برای نحوه تغییر چهره هنگام بروز احساس تهیه کرد]۱. [ در FACS ،

هر واحد حرکت به تغییری در صورت اطلاق می شود که اولا بتنهایی قابل اجرا باشد و ثانیا قابل تقسیم نباشد. مثلا حرکت "باز کردن دهان همراه با بالا انداختن ابروها" گرچه یکباره انجام می گیرد، به دو حرکت " بالا انداختن ابرو" و "باز کردن دهان" تقسیم می شود که مستقل از هم می توانند انجام گیرند. این سیستم مبنای اغلب کارهای شناسایی اتوماتیک یا نیمه اتوماتیک حالات چهره و احساس بوده است. نسخه ۱ FACS ۲۴ واحد حرکت را تعریف کرده که تعدادی از این مجموعه را در جدول ۱ می بینید.

شیِرِر٢ در سال ۸۸۹۱ طی تحقیقاتی دریافت هنگام بروز احساس ، تغییر حالت چهر نابینایان مادرزادی، مشابه افراد بینای عادی است ]۲.[ شناسایی اتوماتیک حالات چهره از سال ۵۹۹۱ به بعد مورد توجه بوده و اغلب کارهای انجام شده مربوط به سالهای ۵۹ تا ۸۹ است. تحقیقاتی که در اوایل این دوره انجام شده اند، سعی در اثبات یا نفی عقاید روانشناسان مبنی بر مشابه بودن شکل بروز احساس داشته اند. مرور مناسبی بر این تحقیقات را می توان در ]۳[ و ]۴[
یافت. در اینجا به دلیل ارتباط نزدیکتر با موضوع این مقاله دو نمونه از کارهایی را که با استفاده از سیستمهای خبره به شناسایی حالات پرداخته اند، بررسی می کنیم.
۲-۱. سیستم پانتیک١ (تصاویر ثابت )
پانتیک ]۵[ ابتدا با استفاده از نماهای تمام رخ و نیم رخ، محل اعضای صورت را تشخیص داده و سپس با مقایسه آنها با حالت عادی شخص، تغییرات ایجاد شده را در قالب کدهای FACS شناسایی می کند. مثلا، احساس تنفر در نتیجه ظهور واحدهای حرکت ( ۰۱ و ۷۱و ۶۲ )یا(۹ و ۷۱و ۶۲ ) گزارش می شود(جدول ۱ ) . این سیستم واحدهای حرکت را دارای سهم مساوی در تولید احساس فرض میکند. مثلا، اگر در تصویر چهره ای ، کدهای ۹و ۶۲شناسایی شوند، آنگاه شدت ظهور"تنفر" در این نمونه براساس ترکیب اول برابر ۳/۱ یا ۳۳% و بر اساس ترکیب دوم برابر ۳/۲ یا ۶۶ % است. این سیستم درنهایت نتیجه بزرگتر را بعنوان میزان ظهور احساس تنفر گزارش می کند. بدین ترتیب، خروجی سیستم تعدادی احساس است که واحد های حرکت شناسایی شده در تولید آنها نقش دارند.
پانتیک درباره رفع تناقضهای احتمالی بین احساسهای شناخته شده، توضیحی نداده است.

۲-۲ سیستم بلک٢ و یاکوب٣ (تصاویر ویدیویی)
بلک و یاکوب]۶[ برای شناسایی احساس از تصاویر ویدیویی، حرکت چهره را در نواحی مختلف بصورت محلی مدل می کنند. مثلا با استفاده از مدل نواری شکلی که تنها می تواند انحنای عمودی داشته باشد، حرکت لبها را مدل می کنند. برای شناسایی احساس، از یک آرایه مدلهای تغییر برای نمایش تغییرات چهره استفاده می کنند. هرگونه حرکت و تغییر حالات چهره یا سر در هر فریم در قالب پارامترهای مدل ظاهر می شود. پس از استخراج تغییرات پارامترها در هر فریم، بر اساس حدودی که از چند نمونه آزمایشی تهیه شده، تغییرات ناچیز و قابل اغماض حذف می شوند. تغییرات باقیمانده در قالب تغییرات سطح میانی شامل شروع، ادامه یا خاتمه یک احساس شناخته می شوند.

شناسایی احساس بر اساس ترتیب خاص این تغییرات انجام می گیرد. مثلا برای شناسایی احساس "شادی" باید "شروع خنده" ، "ادامه" و "پایان خنده"در فریمهای متوالی صعودی، شناسایی شوند. برای تشخیص هر کدام از این مراحل، حرکات تشکیل دهنده آن مرحله باید همپوشانی قابل ملاحظه ای داشته باشند. خروجی این سیستم تنها یکی از احساسهای پایه بوده ودقت شناسایی درست آن ۰۷ % است.

۳. سیستم پیشنهادی
سیستم پیشنهادی در این مقاله، روشی مشابه کار پانتیک]۵[ را برای شناسایی احساس از روی تصویر ویدیویی بکار میگیرد. در این سیستم، ابتدا تغییرات صورت در فریمهای متوالی استخراج شده و سپس این تغییرات در مرحله اول به واحدهای حرکت و در مرحله بعد به احساس تفسیر می شوند.
۳-۱. استخراج تغییرات صورت
فرض می کنیم:
۱. روشنایی فریمها یکنواخت است ۲. سر حرکت انتقالی یا چرخشی ندارد
۳. تغییر مکان نقطه در دو فریم متوالی اندک است ۴. تغییر مکان نقاط دریک ناحیه کوچک، گروهی است
فرض کنید Pi نقطه ای در فریم i و Pi+1 نظیر این نقطه در فریم i+1 باشد(شکل ۱). آنگاه برای یافتنPi+1 ، روشنایی آن را با تمام نقاط پنجره جستجو مقایسه کرده و شبیه ترین نقطه را انتخاب می کنیم. این الگوریتم هر مجموعه دلخواهی از نقاط یک فریم را در فریمهای بعدی دنبال می کند. برای استخراج تغییرات صورت ، ابتدا موقعیت هر عضو ( ابروها، چشمها، بینی، لبها) در فریم اول بصورت دستی و با استفاده از ماوس تعیین می شود و سپس با استفاده از این الگوریتم، نقاط مربوط به هر عضو ردیابی و تغییرات آن عضو استخراج می شود. روش تعیین این تغییرات برای هر عضو متفاوت است. مثلا برای ابرو، فاصله گوشههای ابرو از گوشههای نظیر چشم و برای لب، طول وعرض آنها محاسبه می شود. نمونه ای از ردیابی لب را در شکل ۱ می توان دید.

۳-۲. مدلهایی برای اعضای چهره
از آنجا که ممکن است نقطه ای از اعضای چهره به اشتباه ردیابی شود و همچنین بررسی تغییرات یک عضو در قالب یک مدل هندسی شناخته شده آسانتر و قابل فهمتر است، از مدلهای سهمی برای نمایش ابروها، حاشیه بالایی و پایین چشمها و لبهای بالا و پایین استفاده شده است.
۳-۳. شناسایی واحدهای حرکت
برای استخراج واحدهای حرکت از سه دسته ویژگی استفاده شده است. دسته اول(شکل ۲-الف) ویژگیهایی از جنس طول هستند. دسته دوم (شکل ۲-ب) ویژگیهایی از جنس فراوانی و بیانگر تعداد نقاط لبه در بخشهای خاصی از صورت هستند و دسته آخر(شکل۲-ج) ویژگیهایی از جنس روشنایی هستند.
برای استخراج فراوانی نقاط، با استفاده از الگوریتم کنی١]۷[ لبه های نواحی شکل۲-ب را پیدا می کنیم. سپس لبه های افقی، عمودی یا مورب را با استفاده از فیلترهای ۳*۳ جدا می کنیم]۸.[ چینهای نامنظم چانه و ناحیه بین دو چشم را مستقیما از لبه ها استنتاج می کنیم. جدولهای ۲و۳و۴ این مشخصات را تعریف می کنند.

بر اساس ویژگیهای ذکر شده در جدول های ۲ ، ۳و۴ و همچنین توضیحات FACS ، واحدهای حرکت را می شناسیم. مثلا واحد ۱ در نتیجه بزرگتر شدن ویژگیهای f7 و f8 رخ می دهد. در جدول ۵ فهرست تعدادی از واحدهای بررسی شده در این مقاله و ارتباط آنها با این ویژگیهای تعریف شده آمده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید