بخشی از مقاله
بررسی ویژگیهاي زمان- فرکانس براي تشخیص احساسات گوینده در زبان فارسی
چکیده: امروزه یکی از زمینههاي قابل توجه در حوزه ارتباط بین انسان و ماشین، درك احساسات انسانی از سوي ماشین و ارائه واکنش مناسب به آن است. بخش عمدهاي از این روند مستلزم درك گفتار و تشخیص احساسات گوینده است. در این مقاله بازشناسی احساسات گوینده در زبان فارسی مورد بررسی قرار گرفته است.به این منظور دادگان گفتار احساسیِ فارسی از صداي گوینده واحد مرد (دوبلور) فارسی زبان در یک سریال تلویزیونی استخراج شده و توسط کارشناسان برچسبدهی شده است. این دادگان شامل عبارات و جملات کوتاهی هستند که بیانگر احساساسات منفیِترس، خشم ، ناراحتی و حالت طبیعی هستند. ویژگیهاي زمان- فرکانس از جمله ضرایب کپسترالِ فرکانسی مل (MFCC)، ضرایب پیشگویی خطی (LPC)، فرکانس فرمنتها، جیتر، شیمر و ترکیب-هاي مختلفی از آنها به عنوان بردار ویژگی از دادگان استخراج شده است. سپس طبقهبندي هر حالت احساسی از حالت طبیعی با استفاده از ماشین بردار پشتیبان انجام شده است.به منظور مقایسه، آزمایشات مشابهی بر روي دادگان گفتارِ احساسی زبان آلمانی دانشگاه برلین (Emo-DB) انجام شده است. نتایج نشان میدهند توانایی تفکیک بردارهاي ویژگی براي هر حالت احساسی کاملا متفاوت است. همچنین بررسیها تایید میکنند نحوه بروز احساسات و تاثیر آنها بر گفتار، در زبان فارسی و زبان آلمانی متفاوت هستند.
واژگان کلیدي: بازشناسی احساسات،گفتار فارسی، ماشین بردار پشتیبان، ویژگی هاي زمان- فرکانس
-1 مقدمه
با افزایش روزافزون تراکنش میان انسان و ماشین در بسیاري زمینه ها، تحقیقات زیادي براي ایجاد ارتباط بهتر و آسانتر بین این دو، در حال انجام است. ازجمله می توان به برقراري ارتباط کلامی بین انسان و ماشین، درك احساسات انسانی از سوي ماشین و ارائه واکنش مناسب به آن اشاره کرد. نتایج این پژوهشها در برنامههاي کاربردي کامپیوتر، ابزار تشخیص براي درمانگران، مراکز پاسخگویی خودکار، ارتباطات تلفن همراه و غیره کاربرد فراوانی دارد. سیستمهاي تشخیص احساسات از گفتار، بخش مهمی از تحقیقات رو به رشد در این حوزه را به خود اختصاص دادهاند .[1] با این حال علیرغم تحقیقات گسترده، مشکلات فراوانی نیز در این سیستمها وجود دارد. احساس انسان، پدیدهاي پیچیده، مبهم و مرکب است. در اغلب اوقات در هنگام برقراري ارتباط بین افراد، احساسات کامل، خالص و پایه بروز نمیکنند بلکه معمولا ترکیبی از احساسات مختلف در یک لحظه ممکن است بروز کنند .[2]
بنابراین جداسازي، تشخیص و تشریحمحتواي احساسیِ گفتار حتی توسط عوامل انسانی، بسیار دشوار است. علاوه بر آن نحوه بروز احساسات در گفتار به فرهنگ و زبان، محتواي گفتار، جنسیت و سن گوینده و بسیاري از عوامل دیگر وابسته است .[3] تمامی این مسائل روند تشخیص احساس از گفتار را پیچیدهتر میکنند. ضمن آنکه اغلب پژوهشها در این حوزه بر روي دادگـانی انجام گرفته است که در یک زبان خاص، به یک روش خاص و براي کاربردي خاص، تهیه شده است .[4]
عدم وجود دادگان استاندارد و قابل اطمینان براي انجام تحقیقات در این زمینه مخصوصا براي زبان فارسی کار را مشکل-تر میکند. دادگانی که در کارهاي معدود قبلی مورد استفاده قرار گرفتهاند نیز داراي کاستیهایی هستند. یکسان بودن متن جمله در تمامی دادگان باعث شده است که اثر تغییرات محتوایی حــذف شود 5]، .[6 ضمن آنکه نرخ تشخیص قابل قبولی نیست 5]، 6، .[7 به همین دلیل دادگاناحساسیِ مورد نیاز دراین مقاله براي پژوهش بر روي زبان فارسی استخراج شدهاند. این دادگان در کنار دادگان زبان آلمانی براي تشخیص احساسات از گفتار مورد استفاده قرار گرفتهاند.
به طور کلی سیستم تشخیص احساسات ازگفتار شامل دو مرحله است : استخراج ویژگی و طبقه بندي. در مرحله اول، باید اطلاعاتی از سیگنال گفتار استخراج شود که حداکثر همبستگی را با احساسات داشته باشند و در عین حال به سایر عوامل از جمله محتواي گفتار وابسته نباشد .[3] بنابراین انتخاب ترکیب بردار ویژگی بسیار حائز اهمیت است و میتواند کارآیی سیستم را به شدت تحت تاثیر قرار دهد.
از جمله پرکاربردترین ویژگیها در این حوزه عبارتند از ضرایب کپسترال فرکانسی مل (MFCC) و مشتقات آنها، ضرایب پیشگویی خطی (LPC)، فرمنتها، جیتر و شیمر .[1] کارآیی این ویژگیها و ترکیبهاي مختلف آنها براي تشخیص احساسات از گفتار در زبانهایی مثل انگلیسی [8]، آلمانی [9]، هلندي [10] و غیره مورد بررسی قرار گرفته است. در این مقاله ترکیب بردارهاي ویژگی مختلف براي جداسازي سه احساس ترس، خشم و ناراحتی مورد بررسی قرار گرفته است.
پس از ساخت استخراج ویژگیها از ماشین بردار پشتیبان (SVM) به عنوان طبقهبنديکننده استفاده شده است. توانایی تفکیک هر بردار ویژگی براي یک احساس خاص، با طبقهبندي به صورت دوکلاسه نسبت به حالت طبیعی مورد بررسی قرار گرفته است. آزمایشات مشابهی بر روي دادگان گفتار احساسی دانشگاه برلین از گوینده واحد مرد با شرایط سنی مشابه گوینده فارسی، انجام شده است و نتایج مورد مقایسه قرار گرفتهاند.
در ادامه مقاله، در بخش دوم ابتدا دادگان مورد استفاده و نحوه جمعآوري آن توضیح داده شده است. بخش سوم به سیستم تشخیص احساسات از گفتار میپردازد که شامل دو قسمت است. در قسمت اول استخراج ویژگیها و ترکیبهاي مختلف بردار ویژگی توضیح داده شده است و قسمت دوم به طبقهبندي کننده ماشین بردار پشتیبان میپردازد. در بخش چهارم به نتایج آزمایشات پرداخته شده است و نهایتا در بخش پنج نتایج مورد بحث و بررسی قرار گرفتهاند.
-2 جمع آوري دادگان زبان فارسی
یکی از بخشهاي مهم این مقاله، جمع آوري دادههاي احساسی به زبان فارسی است. دادگان گفتار احساسی معمولا توسط بازیگران تولید میشوند و هرچه گویندگان حرفهايتر باشند، قابلیت اطمینان دادگان افزایش مییابد. براي اطمینان از بهترین عملکرد در این پژوهش، از صحبتهاي احساسی موجود در سریال تلویزیونی فرار از زندان استفاده شده است. گفتار گوینده مرد دوبله کننده نقش اصلی در حالتهاي احساسیِ ترس، خشم، ناراحتی و حالت طبیعی به صورت جملات و عبارتهاي کوتاه جداسازي شده است. سعی شده است بخش-هاي جداشده داراي حداقل نویز و موسیقی پسزمینه باشند.
مراحل انجام کار به این صورت است. ابتدا با استفاده از نرم افزار Aura video converter فایلهاي تصویري به فرمت wav تبدیل شدهاند. براي جداسازي بخشهاي موردنیاز و ذخیره دادگان صوتی از نرم افزار praat استفاده شده است. دادگان به صورت فایلهاي صوتیِ مونو با نرخ نمونه برداري 16000 هرتز ذخیره شدهاند. محتواي آوایی این فایلها کاملا متفاوت است و بنابراین تغییرات محتوایی در دادگان لحاظ شده است. وجود صوت و تصویر به صورت همزمان به برچسبدهی احساسی فایل-هاي صوتی کمک کرده است. براي کاهش خطاي احتمالی، کلیه مراحل جداسازي، آمادهسازي و برچسبدهی توسط سه کارشناس مختلف با تخصص در زمینه پردازش صوت انجام گرفته است. دادگان نهایی شامل 8 عبارت داراي احساس ترس، 17 عبارت داراي احساس خشم، 18 عبارت داراي احساس ناراحتی و 30 عبارت داراي حالت طبیعی است.
-3 سیستم تشخیص احساسات
سیستم تشخیص احساسات از گوینده شامل دو بخش اصلی است: استخراج ویژگی و طبقهبندي کننده. این دو بخش در ادامه توضیح داده شدهاند.
-1-3 استخراج ویژگی
در بازشناسی احساسات، محققان ویژگیهاي مختلف صوتی و نوایی را استفاده کردهاند. در این مقاله از ویژگیهاي پرکاربرد صوتی یعنی ضرایب MFCC، ضرایب LPC، فرمنتها، جیتر و شیمر استفاده شده است. ضرایب MFCC، فرمنتها و جیتر ویژگیهاي فرکانسی هستند در حالی که ضرایب LPC و شیمر به عنوان ویژگیهاي حوزه زمان درنظر گرفته میشوند. سیگنال گفتار، یک سیگنال غیر ایستا است و براي استخراج ویژگیهاي ایستا باید آن را به بازه هاي در حدود 20 تا 100 میلیثانیه تقسیم کرد.
با این حال براي استخراج صحیح ویژگیهاي مبتنی بر فرکانس گام مثل جیتر، باید هر پنجره حاوي حداقل دو تناوب پایه باشد. از آنجایی که گوینده موردنظر مرد است حداقل فرکانس گام 50 هرتز درنظر گرفته شده و بنابراین حداقل طول پنجره 40 میلیثانیه است. میزان همپوشانی پنجرهها براي سیگنال گفتار باید حداقل 50% باشد.
پس از فریمبندي و پنجرهگذاري با استفاده از تابع پنجره همینگ سیگنال براي استخراج ویژگیها آماده است . ویژگی پایه در این تحقیق، ضرایب MFCC هستند. ایده اصلی در استخراج ضرایب MFCC، برگرفته از خواص گوش انسان در دریافت و فهم گفتار است و همین مسئله این ضرایب را به ابزاري قدرتمند در تمامی حوزههاي پردازش و بازشناخت گفتار تبدیل کرده است. این ضرایب در تمامی ترکیبهاي بردار ویژگی مورد استفاده قرار گرفتهاند. بخش دیگري از بردار ویژگی ضرایب LPC هستند. این بردارهاي 12 بعدي با روش پیشگویی خطی استخراج میشوند. روش پیشگویی خطی روشی آماري است که توسط آن ضرایبی براي پیشبینی سیگنال در یک پنجره، با دقت بالا محاسبه می-شود.
فرکانس گام و فرکانس چهار فرمنت اول با استفاده از الگوریتم چگالی توان طیفی (PSD) استخراج شده است .[11] در این الـگـوریتـم ابتدا چگـالی توان طیفـی سیگنال با استفـاده از روش Yule-Walker خوبازگشتی (AR) تخمین زده میشود. سپس ماکزیممهاي محلی براي محاسبه فرکانس گام و فرمنتها شناسایی میشوند. ویژگی جیتر دامنه تغییرات در فرکانس گام را از یک پنجره به پنجره بعدي نشان میدهد. این پارامتر به همراه شیمر که تغییرات انرژي بین پنجرههاي متوالی را نشان میدهد، دو ویژگی مهم در تحقیقات حوزه تشخیص احساسات هستند. براي محاسبه شیمر از انرژي جذر میانگین مربعات (RMS) استفاده شده است.
بردار ویژگی پایه در این مقاله از 12 ضریب MFCC تشکیل شده است. براي بررسی میزان کارآیی سایر ویژگیها، هر یک از آنها به این بردار پایه الحاق شدهاند تا بردار جدیدي ساخته شود. به این ترتیب پنج ترکیب مختلف بردار ویژگی به این صورت ساخته شدهاند و مورد آزمایش قرار گرفتهاند: MFCC،
MFCC+Formants، MFCC+Jitter+Shimmer، MFCC+LPC و .MFCC+Formants+Jitter+Shimmer ابعاد بردارهاي ویژگی به ترتیب 12، 16، 14، 24 و 18 است.
-2-3 طبقهبندي براي طبقهبندي دادگان از ماشین بردار پشتیبان استفاده
شده است. SVM یکی از روشهاي یادگیري با نظارت است که از آن براي طبقهبندي و محاسبات بازگشتی استفاده میشود .[12] کاربردهاي این روش در دستهبنديهاي دو و چند کلاسه در سالهاي اخیر افزایش یافته است. مبناي کار SVM دستهبندي خطی دادههاست. در تقسیم خطی دادهها، خطی براي جداسازي دادگان انتخاب میشود که حاشیه اطمینان بیشتري داشته باشد. براي اینکه ماشین بتواند دادگانی با پیچیدگی بالا را دستهبندي کند باید دادگان توسط کرنل مناسب به فضاي با ابعاد بالاتر منتقل شوند.
در آموزش SVM کرنلها و پارامترهاي آن نقش مهمی دارند. بنابراین باید به درستی انتخاب شوند تا دقت دسته بندي بهبود یابد. در این مقاله کارآیی کرنلهاي مختلف در دستهبندي نیز مورد بررسی قرار گرفته است. به همین منظور کرنلهاي چند جملهاي و تابع پایه شعاعی (RBF) با فاکتورهاي مختلف مورد استفاده قرار گرفتهاند تا بهترین نتایج براي هر ترکیب از بردار ویژگی به دست بیاید.
-4 نتایج آزمایشات
به منظور بررسی ویژگیهاي زمان- فرکانس در تشخیص احساسات از گفتار، مجموعه دادگان متشکل از 73 عبارت یا جمله کوتاه فارسی داراي احساسات ترس، خشم و ناراحتی و حالت طبیعی جمعآوري شده است. براي اجتناب از اثرات مربوط به تغییر گوینده، از گفتار گوینده واحد مرد بازیگر در حدود 30 تا 35 سال استفاده شده است. همچنین براي لحاظ کردن تغییرات آوایی سعی شده است محتواي متنی دادگان تا حد امکان متفاوت و فاقد جملات یکسان باشد. به علاوه به دلیل آنکه دادگان از متن فیلم استخراج شدهاند، داراي مقداري نویز پس زمینه هستند.
در مرحله استخراج ویژگی سیگنال به پنجرههاي با طول 40 میلیثانیه با همپوشانی 50% تفکیک شده است. در مجموع حدود 70% از عبارات مربوط به هر حالت احساسی براي تعلیم و بقیه براي تست استفاده شدهاند. هر حالت احساسی به طور جداگانه نسبت به حالت طبیعی طبقهبندي شده است تا تاثیر ویژگیها در تفکیک احساسات منفی مختلف مورد بررسی قرار گیرد. براي طبقهبندي دادگان از ماشین بردار پشتیبان استفاده شده است که با تغییر کرنل آن نتایج متفاوتی در هر حالت احساسی و براي هر ترکیب ویژگی به دست میآید.
به منظور مقایسه آزمایشات مشابهی بر روي دادگان گفتار احساسی دانشگاه برلین (Emo-DB) به زبان آلمانی نیز انجام شده