بخشی از مقاله
چکیده
پی بردن به یک حالت روانی و جسمی با گوناگونی احساسات همراه می باشد. که منجر به خلق اندیشه و رفتارهایی متناسب با خود است. شناسایی احساس از گفتار، موضوعی قابل توجه و بدیهی در برخورد انسان با ماشین و ابزارهای ساخته دست خود اوست. گسترش استفاده از رایانه و تاثیر آن در زندگی امروز باعث شده است که این همکاری متقابل بین انسان و ماشین در سطح گسترده ای مورد بررسی و تحقیق و پژوهش قرار بگیرد. چرا که این موضوع بخصوص یعنی شناسایی احساس از گفتار در چند دهه گذشته بیش از پیش مورد بررسی قرار گرفته است.
در این پایان نامه، سیگنال گفتار به منظور ایجاد سیستم شناسایی که قادر به تشخیص احساسات انسانی باشد، مورد آنالیز قرار گرفته و مجموعه جدیدی از ویژگیهای در حوزه زمان، فرکانس و زمان- فرکانس برای افزایش دقت در این سیستم ارائه شده است. بعد از کاهش و استخراج ویژگی های مورد نظر، توسط کلاسه بند شبکه عصبی، کلاسه بندی چهار حالت احساسی از دو پایگاه داده احساسی EMO-DB و SAVEE انجام می گیرد. نتایج حاصله بیانگر دقت بسیار مطلوب و کیفیت عالی طبقه بندی با استفاده از ترکیب ویژگی ها می باشند.
مقدمه
گفتار یکی از فرایندهای ارتباطی انسانها است. یکی از ویژگیهای مهم گفتار انتقال احساس درونی فرد به شنونده می باشد. وقتی گفتاری توسط گوینده بیان میشود، این گفتار حاوی حالت احساس شخص نیز هست. دراین مطالعه قصد داریم حالت احساس شخص را شناسایی کنیم. منظور از شناسایی حالت احساس، فهمیدن حالت احساس گوینده با استفاده از نمونه های گفتاری است.
برای بهبود نتایج بازشناسی گفتار با حالت، باید از پارامترهای مناسبی استفاده کرد. فیروزشاه و همکاران، برای شناسایی 4 احساس مانند عصبانی، خوشحال، نرمال، غمگین از استخراج ویژگی تبدیل موجک و کلاسه بند ANN استفاده کرده است که میزان دقت شناسایی برای مردان، زنان و ترکیبی از هردو بترتیب %72/05، %66/05 و 71/25 بوده است.
جاویدی و همکاران ، برای شناسایی 7 احساس مانند خشمگین، خوشحال، نرمال، غمگین، تنفر، ترس، خستگی از استخراج ویژگی Energy ,Pitch ,ZCR ,MFCC وتجمیع کلاسه بند های ,C5.0, SVM, Regression, CHAID Decission Tree وANN استفاده کرده است که میزان دقت شناسایی %71/70 ANN بوده است.[2] دای1 و همکاران در [3]، برای شناسایی حالات مختلف در گفتار از قبیل خشمگین، خوشحال، نرمال، و غمگین از کلاسه بند شبکه عصبی وترکیب ویژگیهایی مانند landmark، فرکانس گام، انرژی، طول زمانی ارائه داده اند که % 90 دقت برای شناسایی عصبانیت و نرمال و بالای %80 دقت برای تشخیص غمگین و خوشحال، و بالای %49 برای طبقه بندی 4 احساس بدست آمده است.
ایادی2 و همکاران با استخراج ویژگی و کلاسه بند های ANN وHMM کار کردند. تعداد احساس ها در کار آنها 7 عدد بود. نرخ دقت HMM برابر %71 و برای %55 ANN بوده است که نشان از عملکرد بهترHMM دارد.[4] هاک3 و همکاران از 7 احساس عصبانی، تنفر، ترس، خوشحال، نرمال، غمگین وشگفت زده و استخراج ویژگی های انرژی، Pitch, MFCC, Duration و مدل کلاسه بندی MLB استفاده کرده اند نرخ دقت بدست آمده %53 بوده است.
وروردیس4 و همکاران از احساسهای عصبانی، خوشحال، نرمال، غمگین استفاده کرده اند. ویژگی های Pitch, Formant, Energy را استخراج کرده اند و میزان دقت آن %53/7 بود.[6] غرویان5 و همکاران، مدلشان GMM بوده است و از 4 احساس استفاده کردند، میزان دقت %65/1 بوده است. در این تحقیق از کلاسه بند MODULAR NEURAL-SVM بکار گرفت و 3 حالت احساس خوشحال، عصبانی و نرمال را استفاده کرد. میزان نرخ دقت %76/3 بود. همچنین میزان دقت برای مدل C5.0 در این تحقیق % 56/3 است.
سیستم شناسایی احساس از گفتار
سیستم شناسایی احساس شامل چهار بخش اصلی است.
1 - - جزئیات سیستم شناسایی احساس را نشان میدهد.
شکل1 سیستم شناسایی احساس از گفتار
سیستم های شناسایی الگو و شناسایی احساس شامل چهار فرایند اصلی است: ورودی گفتار، استخراج ویژگی، طبقه بندی، خروجی احساس است.
آنالیز و استخراج ویژگی استخراج و انتخاب بهترین پارامترهای نمایشی از سیگنال گفتار مهمترین وظیفه در طراحی هر سیستم شناسایی گفتار است.
- شکل - 2 مراحل پیش پردازش در آنالیز گفتار و استخراج ویژگی را نشان می دهد.
وقتی یک بردار صوتی آنالیز می شود ممکن است ویژگی ها به دو قسمت تقسیم شوند، نیمی از آنها در فریم صوتی و نیمی دیگر در بقیه فریم ریخته شود. و ممکن است ویژگی بطور کامل در هر آنالیز پنجره بدست نیآید و ممکن مخفی شده باشد. به همین دلیل، بعد از تبدیل سیگنال آنالوگ به دیجیتال نمونه گفتار را به فریم هایی تقسیم می کنند تا با هم همپوشانی داشته باشند. هر فریم جدید قسمتی از فریم قبل و قسمتی از فریم بعد را شامل می شود.[8] بعد از فریم بندی، همه فریم ها در آغاز و پایان هر فریم شامل ناپیوستگی هستند بدین معنی است که اعوجاج طیفی را با پنجره بندی در ابتدا و انتهای هر فریم به حداقل می رسانیم.
انرژی
انرژی مهمترین و اساسی ترین ویژگی در سیگنال گفتار است که مرزهای بین گفتار و سکوت را مشخص می کند. انرژی را از هر فریم طبق رابطه - - 3-3 بدست می آوریم.
نرخ عبور از صفر - ZCR -
محاسبه نرخ عبور از صفر روی سیگنال های صوتی قابل انجام می باشد که قسمت های گفتاری را از قسمتهای سکوت مشخص می کند . نرخ عبور از صفر در فریمی که دارای N نمونه است می باشد