بخشی از مقاله
ارزيابي و مقايسه ويژگي هاي مختلف جهت تشخيص احساس از روي گفتار فارسي
چکيده - تشخيص احساس از روي سيگنال گفتار يکي از شاخه هاي نسبتاً جديد در پردازش گفتار مي باشد که مي تواند در تعامل انسان و روبات نقش مهمي ايفا کند. در اين مقاله تأثير ويژگي هاي مختلف در تشخيص احساس از روي گفتار فارسي بررسي شده است . بدين منظور با استفاده از جملات راديو نمايش يک پايگاه داده احساسي فارسي تهيه گرديده و سپس ويژگي هاي موردنظر را از اين پايگاه داده استخراج نموده و نتايج گزارش شده اند. در اين تحقيق از الگوريتم دو مرحله ايي شامل FDR وLDA به منظور کاهش ويژگي ها استفاده شده است . همچنين به منظور تشخيص احساس داده ها از الگوريتم کلاسه بند LDA استفاده نموديم . براساس نتايج بدست آمده ، بهترين نرخ تشخيص با استفاده از ترکيب همه ي ويژگي ها قابل دست يابي است . متوسط نرخ تشخيص براي گويندگان مرد ٤٧.٢٨% و براي گويندگان زن ٥٥.٧٤ محاسبه شد.
کليد واژه - پايگاه داده احساسي درام ، پردازش گفتار، تشخيص احساس .
١- مقدمه
سيگنال گفتار سريع ترين و طبيعي ترين روش ارتباط بين انسان ها مي باشد. بر اين اساس گفتار به عنوان يک روش سريع و کارآمد براي تعامل انسان و کامپيوتر بکار گرفته مي شود. تا کنون تلاش هاي زيادي در زمينه تشخيص گفتار انجام شده است . با وجود پيشرفت هاي زياد در اين زمينه ، فاصله ي زيادي بين تعامل طبيعي انسان و کامپيوتر وجود دارد. دليل اصلي اين موضوع عدم توانايي کامپيوتر در درک احساس کاربر مي باشد. از اينرو در چند سال اخير، تشخيص احساس از روي گفتار يکي از موضوعات چالش برانگيز در زمينه ي پردازش گفتار به شمار مي آيد بطوريکه نظر بسياري از محققين را به خود جلب کرده است .
همچنين تشخيص احساس از روي گفتار مي تواند براي استخراج معاني مفيد از گفتار مورد استفاده قرار گيرد که اين امر باعث بهبود عملکرد سيستم هاي تشخيص گفتار مي شود[١]. علاوه بر آن در کاربردهايي نظير آموزش مجازي، بازي هاي کامپيوتري و برنامه هاي کاربردي مشابه ، که تعامل طبيعي انسان و کامپيوتر از اهميت بيشتري برخوردار مي باشد، تشخيص احساس از روي گفتار بسيار حائز اهميت خواهد بود. چنين سيستمي براي گزارش حالات روحي راننده نيز مفيد به نظر مي رسد[٢].
تشخيص احساس از روي گفتار مي تواند بعنوان ابزاري براي تشخيص در علم پزشکي استفاده شود[٣]. علاوه بر آن گزارش شده است که سيستم هاي تشخيص گفتار که در کابين هواپيما با گفتار هاي همراه با استرس آموزش ديده اند، نسبت به آنهايي که با گفتار معمولي آموزش ديده اند به عملکرد بهتري دست مي يابند. بعبارت ديگر سيستم تشخيص احساس مي تواند در افزايش راندمان سيستم تشخيص گفتار مؤثر واقع شود[٤].
تشخيص احساس از روي گفتار همچنين در مرکز تلفن و ارتباطات سيار نيز مورد استفاده قرار گرفته است [٥].
سيستم تشخيص احساس از روي گفتار از ديدگاه تشـخيص الگو شامل سه بخش مـي باشـد: ١-اسـتخراج ويژگـي٢- کـاهش ويژگي ٣- کلاسه بندي. مهمترين چالش هاي تشخيص احسـاس از روي گفتار عمدتاً به مرحله استخراج ويژگي مرتبط مي باشـند.
دليل اصلي، نا معلوم بودن ويژگي هاي مؤثر در تشخيص احساس و تنوع صوتي مي باشد که خود ناشـي از وجـود کلمـات متنـوع ، گوينده هاي مختلف ، سبک صحبت کردن و نرخ صـحبت کـردن متفاوت است ، و اين خصوصيات به طور مستقيم بر ويژگـي هـاي اسـتخراج شـده از گفتـار ماننـد منحنـي پـيچ و انـرژي اثـر مـي گذارد[٥].
بــه طــور کلــي احســاس هــا داراي دو بعــد مــي باشــند برانگيختگي و ميزان نشاط [٦] همانطور که در شکل ١ نشان داده شده است . برانگيختگـي بـه ميـزان انـرژي لازم بـراي اداي يـک احســاس خــاص اشــاره دارد. براســاس برخــي از مطالعــات فيزيولوژيکي از مکانيزم توليد احساسات مشخص شده اسـت کـه سيستم عصبي براي احساس هاي خوشحالي، عصـبانيت و تـرس برانگيخته مـي شـود[٥]. امـا براسـاس برانگيختگـي نمـي تـوان احساس ها را از هم تفکيک نمود.
شکل ١. مدل دو بعدي احساس
به عنوان مثال دو احساس عصبانيت و خوشحالي هردو برانگيختگي بالايي دارند اما آنها از نظر احساسي کاملاً متفاوت هستند. اين تفاوت از نظر بعد ميزان نشاط مي باشد. اما هنوز محققان به توافقي در مورد چگونگي اين بعد و ويژگي هاي مرتبط با اين بعد دست پيدا نکرده اند[٧].
بنابراين در حالي که مي توان کلاسه بندي را بـين احسـاس ها با برانگيختگي بالا و برانگيختگي کم انجام داد اما هنوز کلاسـه بندي احساس هاي مختلف چالش برانگيز است .
از آنجا که چگونگي بـروز احسـاس بطـور کلـي بـه فرهنـگ گوينده وابسته است ، بيشترين کار برروي کلاسه بنـدي احسـاس هاي يک زبانه متمرکز مي باشد تا از اختلاط فرهنگي گوينـدگان صرفنظر شود. با اين حال ، کلاسه بندي چند زبانه نيز مطرح شده است [٨].
در اين تحقيق ، به منظـور ارزيـابي و مقايسـه ويژگـي هـاي مختلف در تشخيص احساس از روي گفتار فارسي، ويژگـي هـاي متداولي که در زمينه تشخيص احساس بکاربرده مـي شـوند را از پايگاه داده ي فارسي پيشنهادي (درام ) استخراج نموديم و نتايج را با هم مقايسه نموده ايم .
در ادامه ي مقاله ، در بخش ٢ به معرفي پايگاه داده ي فارسي پيشنهادي خواهيم پرداخت . در بخش ٣ اجزاي سيستم تشخيص احساس را بيان نموده و پس از آن در بخش ٤ نتايج اعمال الگوريتم تشخيص احساس به پايگاه داده ي مورد نظر را ارائه نموده ايم . در بخش ٥ نيز نتيجه گيري از تحقيق ارائه شده است .
٢- پايگاه داده فارسي پيشنهادي
در زمينه تشخيص احساس از روي گفتـار پايگـاه هـاي داده مختلفي وجود دارد که به طور کلـي در دو دسـته ي مصـنوعي و طيبعي مي باشند. در پايگاه داده مصـنوعي از بـازيگران خواسـته مي شود که جملات مختلفي را با احسـاس هـاي گونـاگون بيـان کنند و اين کار باعث مي شود نتايج بدست آمده بـا آنچـه کـه در واقعيت رخ مي دهد فاصله داشـته باشـد. پايگـاه داده طبيعـي از گفتگوهاي روزمره مردم گرفته مي شود. واضح اسـت کـه تجزيـه وتحليل در سطح گفتگوهاي عاميانه نتيجه ي بهتـري مـي دهـد ولي متأسفانه دسترسي به گفتگوهاي عاميانه مردم بسيار مشـکل وشايد هم غير ممکن مي باشد.
بـا توجــه بـه نقـش کليــدي پايگـاه داده در سيســتم هـاي تشخيص احساس از روي گفتار فارسي (بـه دليـل وابسـته بـودن احساس به فرهنگ و زبان گويندگان )، پايگاه داده اي بنام پايگـاه داده احساسي درام را تدوين نموده ايـم کـه ايـن پايگـاه داده بـه مجله هوش مصنوعي و داده کاوي ارسـال شـده اسـت [٩]. بـراي تهيه اين پايگاه داده از جملات موجود در نمايش هـاي راديـويي برگرفته از وب سـايت رسـمي راديـو نمـايش اسـتفاده گرديـده است [١٠]. قطعه هاي صوت موجود در نمايش هـاي راديـويي بـا احساس هاي مختلف توسط نرم افزار ٣.٠ Adobe Audition از يکديگر جدا گرديده و با پسوند wav ذخيره سازي شـده انـد. فرکانس نمونه برداري سيگنال ها برابر ٤٤.١کيلو هرتز مي باشـد. هر چند که پايگاه داده درام يک پايگاه داده مصـنوعي بـه شـمار مي آيد، عواملي نظيـر نـويز زمينـه شـامل صـداي بـوق ماشـين ، سروصداي موجود درمحيط و موسيقي متن باعث ايجـاد شـرايط طبيعي در اين پايگاه داده شده است .
جدول ١ اطلاعات مربوط به تعداد جملات پايگاه داده درام را به تفکيک جنسيت و احساس نشان مي دهد.
جدول ١: مشخصات پايگاه داده درام
٣- سيستم تشخيص احساس از روي گفتار
سيستم هاي تشخيص احساس از روي گفتار معمولاً از ديدگاه تشخيص الگو، در سه بخش استخراج ويژگي، انتخاب ويژگي و کلاسه بندي مورد بررسي قرار مي گيرند. همان طور که در شکل ٢ نشان داده شده است ، در اولين مرحله ويژگي هاي مناسب از سيگنال گفتار استخراج مي شوند. سپس ، در مرحله دوم ويژگي هاي مؤثرتر در تشخيص احساس توسط الگوريتم انتخاب ويژگي شناسايي شده و ويژگي هاي نويزي نيز حذف مي شوند. در آخرين مرحله نيز الگوريتم کلاسه بند با توجه به ويژگي هاي انتخاب شده احساس موجود در گفتار را مشخص مي کند.
٣-١- استخراج ويژگي
ويژگي هاي مورد استفاده در سيستم هاي تشخيص احساس را مي توان به دو دسته ويژگي هاي عروضي و طيفي تقسيم نمود[١١] . در ادامه به توصيف هر کدام از اين ويژگي ها مي پردازيم .
٣-١-١- ويژگي هاي عروضي
ويژگي هاي عروضي از متداول ترين ويژگي ها براي تشخيص احساس از روي گفتار مي باشند[١٢،١١]. اين ويژگي ها اغلب از منحني فرکانس گام و انرژي سيگنال استخراج مي شوند.
فرکانس گام که از ارتعاش تارهاي صوتي به وجود مي آيد حامل اطلاعات مهمي درباره ي احساس گوينده مي باشد. در اين مقاله به منظور محاسبه منحني فرکانس گام از الگوريتم مبتني بر خود همبستگي استفاده شده است [١٣] .بدين منظور فرکانس گام براي هر فريم از صوت استخراج شده و منحني فرکانس گام براي هر جمله شکل مي گيرد. سپس به منظور استخراج ويژگي از اين منحني، ٢٠ تابع آماري شامل ماکزيمم ، مينيمم ، دامنه تغييرات ، ميانگين ، ميانه ، صدک ١ام ،٥ام ،١٠ام ،٢٥ام ،٧٥ام ،٩٠ام ،٩٥ام و ٩٩ام ، دامنه بين چارکي، انحراف متوسط از ميانگين ، انحراف معيار، چولگي، درجه اوج و ميانگين اصلاح شده ١٠ درصد و ٢٥ درصد [١٦،١٥،١٤] به منحني مذکور اعمال مي شوند. همچنين اين توابع آماري به منحني هاي مشتق اول و مشتق دوم فرکانس گام نيز اعمال مي شوند. همين فرآيند براي استخراج ويژگي از منحني انرژي سيگنال نيز استفاده مي شود. علاوه بر ويژگي هاي يزاياددشيده د،رندر.خ ايعن ووريژازگيفررا نديرز زدمررزه ميينه وتيژشگخيص هاياحعسراوس يکانرمبري باشد. اما در اين تحقيق اين ويژگي همراه با ويژگي هاي عروضي[١٥،١٤] مورد ارزيابي قرار مي گيرد.
٣-١-٢- ويژگي هاي طيفي
ويژگي هاي طيفي شامل ويژگي هايي هستند که از طيف سيگنال بدست مي آيد. بر خلاف ويژگي هاي عروضي که از آناليز سيگنال در حوزه ي زمان بدست مي آمدند، اين ويژگي ها از آناليز فرکانسي سيگنال محاسبه مي شوند.
در اين مقاله از فرمنت ها و MFCC و PLP به عنوان ويژگي هاي طيفي استفاده شده است [١٩،١٨،١٧،١٦،١٤]. بدين منظور چهار فرمنت اول ، ١٢ ضريب اول MFCC ، ١٣ ضريب اول PLP، براي هر فريم محاسبه شده و منحني مربوط به هر کدام از آن ها براي کل جمله تشکيل مي شود. به منظور استخراج ويژگي از هر يک از اين منحني ها، ٢٠ تابع آماري ياد شده در بخش ١-١-٣ به هر کدام از آن ها و همچنين به مشتقات اول و دوم آن ها اعمال مي شود.