بخشی از مقاله

چکیده -

بازشناسی احساس از طریق گفتار، موضوعی میان رشتهای در حوزهی روانشناسی، بازشناسی الگو و پردازش سیگنال میباشد که در دههی اخیر، توجه بسیاری از پژوهشگران را به خود جلب نموده است. در این مقاله، پنج گروه از ویژگیهای مهم صوتی شامل ویژگیهای عروضی، MFCC، PLP، LPC و فرمنتها جهت استخراج ویژگی، الگوریتمهای کاهش ویژگی SFS و SBS ، جهت انتخاب بردار ویژگی بهینه و الگوریتمهای رگرسیون خطی، بردار پشتیبان و فرایند گوسی به منظور تخمین مؤلفههای احساسی گفتار شامل برانگیختگی، تسلط و جاذبه، در فضای پیوسته سه بعدی با استفاده از پایگاه دادهی VAM، بکار گرفته شده است.

بر اساس نتایج آزمایشها، از بین پنج گروه ویژگی استفاده شده، بهترین نتایج با استفاده از ویژگیهای عروضی حاصل شده است. اما برای ترکیب ویژگیهای مختلف، نتیجه کاملاً بستگی به الگوریتمهای رگرسیون و کاهش ویژگی دارد. بطوریکه بهترین نتایج مربوط به ترکیب همهی ویژگیها و با استفاده از الگوریتم رگرسیون فرایند گوسی و کاهشی ویژگی SFS می باشد. در این شرایط، ضریب همبستگی برای سه مؤلفه احساسی جاذبه، برانگیختگی و تسلط بترتیب برابر %43، %74 و %74 می باشد.

-1 مقدمه

سیگنال گفتار، سریعترین و طبیعیترین، راه ارتباطی بین انسانها است. این حقیقت، انگیزه محققان را برانگیخت تا به فکر استفاده از گفتار، به عنوان سریعترین و موثرترین راه تعامل بین انسان و ماشین بیفتند؛ اگر چه این امر مستلزم آن است که ماشینها به قدر کافی برای تشخیص صداهای انسان، هوشمند باشند. با وجود پیشرفتهای خوبی که در بازشناسی گفتار صورت گرفته، همچنان فاصله زیادی با داشتن یک تعامل طبیعی بین بشر و ماشین وجود دارد؛ زیرا ماشین، حالتهای احساس گوینده را درک نمیکند.

این موضوع، به عنوان یک زمینه تحقیقاتی نسبتاً جدید، با عنوان بازشناسی احساس گفتار معرفی شده است که هدف آن، استخراج احساس گوینده از گفتار اوست.

سیستمهای بازشناسی گفتار، انواع مختلفی دارند؛ بعضی قادرند؛ گفتار پیوسته و بعضی دیگر فقط میتوانند گفتار گسسته - که بین کلمات سکوت وجود دارد - را شناسایی نمایند. همچنین میتوانند وابسته به یک گوینده نباشند. به هر حال ایده آلترین سیستم، آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید.

به طور کلی، سیستم بازشناسی احساس از طریق گفتار، شامل دو مرحله است: استخراج ویژگی و طبقهبندی. در مرحله اول، باید اطلاعاتی از سیگنال گفتار استخراج شود که حداکثر همبستگی را با احساسات داشته باشند و در عین حال، به سایر عوامل از جمله محتوای گفتار وابسته نباشد. بنابراین انتخاب ترکیب بردار ویژگی، بسیار حائز اهمیت است و میتواند کارآیی سیستم را به شدت تحت تاثیر قرار دهد

از جمله پرکاربردترین ویژگیها در این حوزه، عبارتند از : ضرایب کپسترال فرکانسی مل و مشتقات آنها، ضرایب پیشگویی خطی، فرمنتها، جیتر و شیمر. کارآیی این ویژگیها و ترکیبهای مختلف آنها برای بازشناسی احساسات از طریق گفتار در زبانهایی نظیر انگلیسی، آلمانی، هلندی و غیره مورد بررسی قرار گرفته است

در اغلب پژوهشهای مرتبط با موضوع بازشناسی احساس از طریق گفتار، سعی در طبقهبندی گفتار بر مبنای احساسهای اصلی، شامل خشم، خوشحالی، ترس، ناراحتی و عادی میباشد؛ اما با توجه به اینکه در بسیاری موارد، احساس انسان، ترکیبی از احساسات میباشد و شدت و ضعف هر احساس اهمیت دارد، به همین دلیل، توجه محققان به حوزهی احساس پیوسته، معطوف شده است. در واقع، عدم توافق در مورد چگونگی ابعاد احساس و ویژگیهای مربوط به آن [4] و همچنین، عدم شناسایی و تعیین یک فضای ویژگی مناسب جهت استفاده در طبقهبندی[5]، از جمله مسائلی میباشند که محققین در مورد آنها اختلاف نظر دارند و به توافق در این موارد نرسیدهاند.

هدف اصلی این مقاله، تخمین مؤلفههای احساسی گوینده در فضای پیوسته سه بعدی با استفاده از مجموعه ویژگیهای بهینه گفتار، میباشد.

-2 مدل سیستم پیشنهادی

نمودار بلوکی سیستم پیشنهادی در این مقاله، به صورت نشان داده شده در شکل 1، قابل تصور است.
 
-1-2  

پایگاه دادهی نسبتاً جدید [6] VAM، از احساسات خود جوش، در فضای پیوستهی سه بعدی احساس، تشکیل شده است. این پایگاه داده، از برنامه Vera am Mittag در تلویزیون آلمان، جمع آوری شده است. پایگاه داده VAM، شامل 3 حوزه مختلف صوتی، ویدیویی و تصویری - تصاویر چهره - میباشد. احساسها در این پایگاه داده، در فضای سه بعدی با ابعاد برانگیختگی - با سطوح از پایین به بالا - ، نشاط - از منفی به مثبت - و شدت - قدرت ظاهری گوینده در بیان احساس از کم به زیاد - قرار گرفتهاند .[7] پایگاه دادهی VAM، شامل 2 بخش میباشد: VAM I با 478 جمله از 19 گوینده 15 - زن، 4 مرد - که 17 شنونده، آن را ارزیابی نمودهاند و VAM II با 469 جمله از 28 گوینده 21 - زن، 7 مرد - که توسط 6 شنونده، مورد ارزیابی قرار گرفته است. شکل 2 ، توزیع نمونههای پایگاه دادهی VAM - I, II - ، را در هر کدام از سه بعد احساس نشان میدهد.

شکل : 1 نمودار بلوکی سیستم پیشنهادی

همانطور که در شکل 1، مشاهده میشود، ابتدا نمونهای گفتاری موجود در پایگاه داده به دو بخش کاملاً مجزا و بدون همپوشانی تقسیم میشوند؛ یک بخش برای آموزش و بخش دیگر، برای آزمون. سپس استخراج ویژگی از نمونههای موجود در هر دو زیرمجموعه انجام میشود. کاهش ویژگی و آموزش مدل رگرسیون با استفاده از دادههای آموزش انجام می-شود. در این مرحله، شاخص ویژگیهای انتخاب شده و همچنین پارامترهای مدل رگرسیون تعیین میشود. ویژگیهای متناظر با ویژگیهای انتخاب شده از دادههای آموزشی، از دادههای آزمون انتخاب میشوند و در نهایت، الگوریتم رگرسیون با استفاده از ویژگیهای انتخاب شده از دادههای آزمون، مؤلفههای احساسی مورد نظر را تخمین میزند.

شکل :2 توزیع هندسی احساس ها در پایگا [6]

ینا پایگاه داده، غالباً شامل احساسهای خنثی و منفی میباشد.[6] این امر به دلیل ماهیت مکالمات بکار رفته در برنامه تلویزیونی است.

-2-2  

یکی از مراحل اصلی در روند بازشناسی احساس گفتار، مرحله استخراج ویژگی از سیگنال گفتار است. سیگنال گفتار ویژگیهای زیادی دارد که عموماً با طیف لحظهای سیگنال گفتار یا شکل مجرای گفتار و ... مرتبط میباشند. پردازش این همه ویژگی برای کاربردی بخصوص، همانند بازشناسی احساس گفتار، کاری منطقی و عملی نخواهد بود. بدین منظور تبدیلهایی روی سیگنال گفتار انجام میشود تا بتوان ویژگی یا ویژگیهای مفید را استخراج نمود.

بطور کلی، استخراج ویژگی به دو دلیل انجام می-گیرد: اول آنکه سبب تمرکز روی اطلاعات موجود در سیگنال شده و این امر، منجر به بهبود میزان شباهت و عدم شباهت میان کلاسهای مختلف میشود. ثانیاً دادهها را به نحو قابل ملاحظه ای کاهش داده و در نتیجه پردازشهای لازم به میزان زیادی کم میشود .[8]

در این مقاله، به منظور محاسبه سه مؤلفه برانگیختگی، تسلط و جاذبه احساس گفتار در فضای پیوسته سه بعدی احساس، ویژگیهای عروضی، MFCC، PLP، LPC و فرمنتها بکار گرفته شدهاند.

-3-2 پس از استخراج ویژگیهای مورد نظر از سیگنال گفتار، به منظور حذف ویژگیهای غیر مرتبط و نویزی و همچنین، افزایش نرخ بازشناسی طبقهبند، از الگوریتمهای انتخاب و کاهش ویژگی، استفاده میشود. انتخاب ویژگیهای مناسب، یکی از مراحل مهم در اغلب سیستمهای بازشناسی الگو میباشد.

به منظور بررسی تأثیر حذف ویژگیهای زاید در مدل پیشنهادی، از الگوریتمهای انتخاب ویژگی ترتیبی رو به جلو1 و ترتیبی رو به عقب2، استفاده شده است. دلیل انتخاب این الگوریتمها، در نظر گرفتن اثر ترکیب ویژگیها، در این الگوریتم-هاست. به همین دلیل این الگوریتمها، از روشهای بسیار مؤثر در انتخاب ویژگی هستند، اما بار محاسباتی سنگینی را به سیستم، تحمیل میکنند.

-4-2 در فضای پیوسته احساس،امکان استفاده از طبقهبندها وجود ندارد؛ بدین منظور از رگرسیون جهت تخمین مولفههای احساسی استفاده میشود. رگرسیون، مدلی طراحی میکند که چند متغیر مستقل - ویژگیها - را به یک متغیر وابستهی پیوسته - مولفهی احساس - نسبت میدهد؛ در حالیکه طبقه بند، متغیرهای مستقل - وبژگیها - را به یک متغیر وابستهی گسستهی محدود - چند کلاس از پیش تعیین شده - نسبت میدهد.

خروجی رگرسیونها، عددی در بازهی پیوسته -1 و +1 میباشند. یرای تخمین هر مولفهی احساسی، در ابتدا مقادیر مولفههای احساسی در پایگاه داده VAM نادیده گرفته میشوند. برای محاسبه هر مولفه از یک رگرسیون استفاده میشود - یعنی برای تخمین هر سه مولفهی احساسی برانگیختگی، تسلط و جاذبه از سه رگرسیون استفاده میشود - ؛ سپس مقادیر محاسبه شده هر مولفه احساسی با مقدار متناظرش در پایگاه داده VAM مقایسه میگردد تا دقت محاسبه هر مولفه بررسی شود.

در سیستم پیشنهادی از سه مدل مهم از رگرسیون شامل رگرسیون خطی، بردار پشتیبان و فرایند گوسی جهت تخمین مولفههای احساسی، استفاده میشود.

-3 پیادهسازی

جهت پیادهسازی روش پیشنهادی، از نرم افزار برنامه نویسیMatlab نسخه R2016a و نرم افزار داده کاوی Weka-3.9 - Hall and others, 2009 - ، بر روی یک رایانه شخصی با پردازنده intel-core i5-3210M@2.50GHz استفاده شده است. به منظور تخمین مؤلفههای احساسی، از پایگاه دادهی احساسی VAM و برای استخراج بسیاری از ویژگیها از کتابخانه voicebox، استفاده شده است.

-1-3 به منظور استخراج ویژگی در سیستم پیشنهادی، 75 ویژگی عروضی استاندارد منطبق با [9]، استفاده شده است. این ویژگیها، شامل موارد زیر هستند:

میانگین، انحراف معیار، چولگی3، کشیدگی4، ماکزیمم، مینیمم، میانه5، چهارک ها6 - سه عدد - ، تفاضل بین چهارکها - سه عدد - ، برد7، ضرایب رگرسیون خطی و مرتبه دوم - دو عدد - و خطای رگرسیون که در مجموع، 17 تابع آماری را تشکیل میدهند؛ به منحنیهای انرژی و فرکانس گام و مشتق آنها - مجموعاً 4 منحنی - اعمال میشوند. بدین ترتیب 17*4=68 ویژگی حاصل میشود. همچنین مقدار شیمر برای منحنیهای انرژی و فرکانس گام محاسبه میشود. میانگین و انحراف معیار طول بخشهای مصوت جمله - دو ویژگی - ، نسبت طول بخشهای مصوت به بخشهای غیر مصوت - یک ویژگی - ، میانگین نرخ عبور از صفر و میانگین اپراتور انرژی تیگر نیز 5 ویژگی دیگری هستند که مورد استفاده قرار میگیرند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید