بخشی از مقاله
چکیده
تشخیص خودکار احساس از روی گفتار مساله بسیار مهم، در عرصه تعامل انسان و ماشین است. قابلیت تشخیص احساس توسط کامپیوتر با دقتی همانند انسان، به منظور ایجاد رابطه طبیعی و دوستانه بین انسان و کامپیوتر، بسیار حائز اهمیت است. با وجود پیشرفتهای گسترده در حوزهً پردازش گفتار، استخراج و درک احساس پنهان در گفتار انسان، همچون خشم، شادی و جز اینها، از یک سو و تولید گفتار احساسی مناسب از سوی دیگر، یکی از چالشهای مهم برای ساخت ماشینهای هوشمند محسوب میشود.
در این مقاله، یک سیستم تشخیص خودکار احساس ارائه شده است. سیستم معرفی شده، شامل دو بخش اصلی، استخراج ویژگی و آموزش مدل دستهبند میباشد.در مرحله استخراج ویژگی، ویژگیهای عروضی از جمله فرکانس گام، شدت و ویژگیهای کلی از سیگنال گفتار به ازای شش حس متفاوت خشم، تنفر، ترس، شادی، غم و خنثی استخراج شده است. پس از تشکیل بردار ویژگی، با روش دستهبند ماشین بردار پشتیبان آموزش داده شدهاند. در نهایت، نتیجه محاسبات انجام شده حاکی از میانگین دقت 82/744 درصد میباشد که در مقایسه با روش-های دیگر از کارایی بالاتری برخوردار است.
.1 مقدمه
گفتار طبیعیترین و پر استفادهترین روش برای ارتباط متقابل افراد است. بنابراین سریعترین روش تعامل بین انسان و کامپیوتر هم از طریق سیگنالهای گفتاری است. با وجود تلاشهای زیاد و پیشرفتهایی در این زمینه، برای رسیدن به موفقیت کامل در زمینه تعامل طبیعی انسان و کامپیوتر تلاشهای زیادی بایستی انجام گیرد. مشکل بزرگ در این راه عدم توانایی در تشخیص احساس کاربر توسط کامپیوتر است. بنابراین در پردازش گفتار یکی از مواردی که بایستی مورد مطالعه و توجه قرار گیرد تشخیص احساس از روی گفتار توسط کامپیوتر میباشد. زیرا تشخیص احساس از روی گفتار می تواند برای استخراج معانی، مفید بوده و باعث بهبود عملکرد سیستم تشخیص گفتار شود - Nicholson et al, . - 2000 تولید ماشینی که دارای مهارتهای محاورهای انسان باشد، مدتها یکی از اهداف تحقیقات مرتبط با پردازش گفتار بوده است.
بدون دستیابی به هوش مصنوعی، درک اطلاعات منتقل شده در گفتار و پاسخ مناسب به آنها، توانایی اولیهی تشخیص زبانی و یا حتی در ابعاد وسیعتر تشخیص غیر زبانی اطلاعات ممکن نمیگشت. در حالی که حجم قابل توجهی از تحقیقات شش دهه گذشته در زمینهی تشخیص گفتار و گوینده بوده، پژوهش دربارهی تشخیص جنبههای دیگر اطلاعات غیر زبانی تنها در سالهای اخیر محبوبیت یافته است. تشخیص حس گفتار، امری ضروری در ارتباط بین انسان و ماشین است. از جمله این کاربردها نظیر آموزش مجازی، ایجاد موتورهای جستجوی احساسی، برنامههای کامپیوتری، پیامهای صوتی براساس حس گوینده و برنامههای کاربردی مشابه است.
همچنین گزارش شده است که در سیستمها تشخیص گفتار کابین خلبان، استفاده از گفتارهای آموزشی همراه با استرس، عملکرد بهتری نسبت به گفتار معمولی دارد - . - Ayadi et al, 2011 در علم پزشکی نیز می توان از سیستم تشخیص احساس از روی گفتار بعنوان ابزاری برای تشخیص بیماریهای خاص مانند بیماریهای قلبی و سرطان استفاده گردد - . - France et al, 2007 در این تحقیق، به تشخیص حس گفتار با استفاده از ماشین بردار پشتیبان مورد بررسی قرار میگیرد. در بخش دوم، گزیدهای از پیشینهٌ تحقیق را گزارش میکنیم. در بخش سوم، روش کار را بیان نموده و در بخش چهارم نتایج الگوریتم تشخیص احساس از روی گفتار را ارائه نمودهایم. و در نهایت، نتیجه گیری از تحقیق ارائه شده است.
2.پیشینهٌ تحقیق
به سیستمهایی که اطلاعات گفتاری را دریافت کرده و حس گفتار شخص گوینده را تشخیص میدهند، سیستم تشخیص احساس از روی گفتار میگویند. در سیستم تشخیص احساس اولین موضوعی که باید بررسی شود، این است که باید مجموعهای از احساسات مهم مشخص گردد که بتوان از آن در سیستم تشخیص خودکار احساس از روی گفتار استفاده کرد. در زندگی واقعی انسان انواع احساسات و عواطف انسانی جریان دارد. شاییگر، اکانر و آرنولد1، مجموعهای شامل 300 حالت احساسی بیان کردهاند - . - Ayadi et.al., 2011 اکثر محققان با نظریه پالت موافق هستند.
طبق این نظریه هر حس را می توان به احساسات اصلی تجزیه کرده. احساسات اصلی عبارتند از عصبانیت، ترس، خوشحالی، ناراحتی، تعجب و تنفر، میباشد - . - Cowie et. al., 2001 روشهای مختلفی برای دستهبندی حس گفتار از جمله مدل مخفی مارکوف، مدل مخلوط گوسی، ماشین بردار پشتیبان و شبکه عصبی مورد استفاده قرار گرفتهاند. نیکلسون - - Nicholson et.al., 2000، هشت احساس شادی، رنجش، ترس، غم، خشم، تعجب، چندش و خنثی ربا استفاده از هشت زیر شبکه عصبی ام.ال.پی. و یک کنترل کنندهٌ منطقی دسته بندی کرده است. هر زیر شبکه عصبی شامل دو لایه مخفی به همراه لایههای ورودی و خروجی است. نیکلسون بهترین دقت دستهبندی 87/52 درصد گزارش نموده است.
هوژان و کاچیک - - Hozjan and Kacic,2003، برای تمام کلاسها یک شبکه عصبی در نظر گرفته است. در این شبکه عصبی فقط یک لایه مخفی شامل 26 نورون وجود دارد که محاسبات آنها بهترین دقت 51/19 درصد را نشان میدهد. نارایانان به همراه لی - - Lee and Narayanan,2003، برای تشخیص احساسات مثبت و منفی در یک سیستم گویای تلفنی، 21 ویژگی که عبارتند از مقادیر مختلف فرکانس گام، شدت صوت، طول و فرکانس های مرکب استخراج شده را در نظر گرفتهاند و از سیستم استنتاج فازی جهت تشخیص احساسات استفاده نمودهاند.
وجاهت و همکارانش - - Wajahat et.al., 2004، برای تشخیص احساس از سه ابزار ماشین بردار پشتیبان، QDM2 و HMM3 استفاده نموده و استخراج ویژگیهای فرکانس گام، شدت صوت، فرکانس مرکب و MFCC4، انجام شده است. نیو و همکارانش - New et.al., 2004 - ، برای دستهبندی شش احساس مختلف از مدل مخفی مارکوف بهره گرفته-اند. یک مدل مخفی چهار حالته برای هر حس ساخته شده است. آنها میانگین دقت دسته بند % 78/5 گزارش کردهاند.
علاوه بر تحقیقات انجام گرفته، روش های دیگری از جمله k نزدیکترین همسایگی، مدل مخلوط گوسی، درخت تصمیم برای دستهبندی احساسات استفاده شده است. در هر یک از این مقاله ها احساسات مختلفی مورد بررسی قرار گرفته است و همچنین ویژگیهای مختلفی برای دستهبندی احساسات استخراج گردیده است. بنابراین، نمیتوان انواع سیستمهای تشخیص احساس از روی گفتار با یکدیگر مقایسه کرد و ادعا نمود کدام یک بهترین دستهبند برای سیستم تشخیص احساس از روی گفتار است.
روش تحقیق
در این مقاله، یک سیستم تشخیص خودکار احساس، که شش حس، خشم، نفرت، ترس، خوشحالی، غمگین به همراه گفتار خنثی را در بر میگیرد، معرفی شده است. هدف یک سیستم تشخیص خودکار احساس از روی گفتار استخراج آن دسته از ویژگیهای گفتار است که نمایندهی الگوهای موجود در بیان حالت عاطفی گوینده هستند. این ویژگیها می-توانند برای تشخیص خودکار احساس انسان به کار روند. گفتار انسان یک موج صوتی تولید شده توسط تارهای صوتی است که پارامترهای آن برای انتقال اطلاعات مدوله گشتهاند. سپس از تکنیکهای دستهبندی الگو، برای تصمیمگیری در مورد حالت عاطفی براساس ویژگیهای انتخاب شده استفاده میشود.