بخشی از مقاله

چکیده

تشخیص خودکار احساس از روی گفتار بهعنوان یکی از مسائل حائز اهمیت در حوزه تعامل انسان و رایانه مطرح است. دلیل توسعه و پیشرفت سیستمهای شناخت احساس در گفتار بدین لحاظ است که امروزه سیستمهای کنترل اتوماتیک صدا در سطح وسیعی کاربرد دارند. انتخاب پارامترهای صحیح توام با طبقه بندی، قسمت مهمی است که از پیچیدگی پردازش گفتار میکاهد.

در این مقاله ضمن طبقه بندی روشها و ویژگیهای شناخت درست احساسات در گفتار، مجموعه دادهای شامل لحنهای مختلف گفتار برای ثبت احساسات مورد استفاده قرار گرفته است و صحت طبقه بندی الگوریتمهای داده کاوی شبکه عصبی پایه شعاعی، ماشین بردار پشتیبان و مدل ترکیبی گوسین با در نظر گرفتن انتخاب ویژگیهای گفتار مورد ارزیابی قرار گرفته است. نتایج تجربی حاکی از عملکرد مطلوب روش پیشنهادی نسبت به روشهای پایه است.

.1 مقدمه

توسعه کاربردها و خدمات سعی در ایجاد تعامل طبیعی بین انسان و کامپیوتر دارد. امروزه صدا جهت تسریع دستورات به کار میرود. اکثر اطلاعات از گفتار درست انسان بیرون میاید. گفتار انسان اطلاعاتی در خصوص ویژگیهای سخنران نیز به همراه دارد. سن، جنسیت، حال عاطفی، خطای گفتار و دیگر خصوصیات در گفتار انسان نهفته است. این خصوصیات بسیار ارزشمند اند. زیرا ویژگی گفتار تنها توسط فردی که به خوبی مهارتها را به کار برد نمایان میشود. احساس، یکی از خصوصیات انسان است. که شرایط فکری در تغییرات فیزیکی بدن اش تاثیر میگذارد. این تغییرات در بدن انسان آشکار است. اطلاعات در خصوص حالت عاطفی در بسیاری زمینهها مورد نیاز است.

سیستم شناخت احساسات یکی از نمونههای مهم در ارتباط بین انسان و کامپیوتر است. سیستم شناخت احساسات میتواند حالت احساس را از سیگنالهای گفتار که گوینده آن را در سخنرانی خود به کار برده است، تشخیص دهد .[1] سیگنالهای صدا یکی از مشخصههای اصلی در پردازش و تشخیص احساسات میباشد .[4] در زمینه تشخیص احساسات تحقیقهای زیادی انجام شده است که مرتبط با مبحث یادگیری ماشین و شناسایی الگو میباشد.

اغلب کارهای قبلی در تشخیص احساسات در سه حوزه آوایی، الگوهای صورت و حرکت های مختلف بدن انجام گرفته است. شناخت احساسات گفتار کاربردهای گونانی از جمله در مراکز تلفن، سیستم های امنیتی داخل خودرو [2]، سیستم جهتیابی وسایل نقلیه و همچنین در آموزش [3] نیز مورد استفاده است. به طور کلی در هر جا که ارتباط طبیعی انسان و ماشین نیاز باشد قابل استفاده است. نکته قابل توجه این است که شناخت احساسات یکی از موضوعات چالش براگیز است و دلیل آن این است که هر انسانی احساسات خود را از راه منحصر به فردی بروز میدهد

.2 روش پیشنهادی تشخیص احساسات گفتار

در شکل 1 فرآیند روش پیشنهادی برای تشخیص احساس در گفتار نشان داده شده است. نخست پس از جمعآوری دادهها، با اعمال پیش پردازشهای لازم آنها را جهت استخراج ویژگیهای گفتار آماده میکنیم. سپس با روش تحلیل مولفه اصلی، ویژگیهای مهم انتخاب شده تا در نهایت برای تشخیص احساسات از الگوریتمهای داده کاوی استفاده شود.

شکل :1 روش پیشنهادی برای تشخیص احساسات در گفتار

.1-2 جمع آوری دادهها

در همه پژوهشها، پژوهشگر برای توصیف یا تبین روابط بین پدیدهها و متغیرهای موجود، داده هایی را جمعآوری میکند. در جمعآوری دادهها می بایست شیوهای بکار گرفته شود که اطلاعات و دادهها با کیفیت بالا، دقیق و موثق استخراج شود، چون کیفیت و اعتبار هر پژوهش تا حد زیادی به اطلاعات و دادههای جمعآوری شده و کیفیت اطلاعات و دادهها نیز به شیوه جمعآوری آنها مربوط میشود. بنابراین شیوههای سنجیده و دقیق جمعآوری اطلاعات و دادهها، اگر درست و دقیق اجرا شوندمعمولاً به کیفیت بالای دادهها و یافتهها و کسب نتایج معتبر، و شیوههای نامناسب به نتایج نامعتبر خواهد انجامید

در این مقاله مجموعه دادهها از نوع گفتار است که به کمک آن تشخیص احساسات را انجام دهیم. برای این منظور، نمونههای مورد ارزیابی از سایتwavsource 1 جمعآوری شده است.

.2-2 پیش پردازش

پیش پردازش دادهها اولین گام در دادهکاوی به حساب میآید. دادههایی که امروزه در پایگاه دادهها نگهداری میشوند معمولا دارای نویز هستند و یا گاهی بعضی از مقادیر آن وجود ندارد یا گم شده است و در بعضی موارد هم ناسازگاری بین دادهها وجود دارد. این نقایص در دادههای حجم بسیار بیشتر است و به همین خاطر توجه به آن بسیار مهم است. در پیش پردازش دادهها سعی میشود داده نویز دار و ناسازگار شناسایی شود و به بهترین شکل نقایص برطرف شود

.2-3 استخراج ویژگی

در تجزیه و تحلیل سیگنال گفتار ویژگیهای مختلفی استفاده میشود که انتخاب ویژگی مورد نظر بسته به کاربرد صورت میگیرد، چرا که شرایط مناسب کاربرد هر یک با دیگری متفاوت است. برای مثال، ممکن است برخی ویژگیها در محیطهای نویزی جواب بهتری دهند و یا اینکه حجم محاسبات کمتری را طلب کنند. این ویژگیها گاه در کل سیگنال گفتار و گاه در یک پنجره از آن محاسبه میشوند، ولی در تحلیل سیگنال گفتار بهطور معمول ویژگیهای سیگنال پنجرهبندی شده تحلیل میشود.

این ویژگیها گاه یک عددند، نظیر انرژی یا میانگین پنجره سیگنال گفتار و گاه یک بردارند. برای مثال، خود اندازه سیگنال گفتار در حوزه زمان را میتوان بهصورت برداری یکبعدی با طول تعداد نقاط پنجره گفتار در نظرگرفت. ازاینرو، گاه از این ویژگیها با نام ضرایب ویژگی یا بردارهای ویژگی نیز یاد میشود. پس از انجام عملیات استخراج ویژگی، تحلیل را بر یک بردار مثلاً 12بعدی انجام میدهیم که برای تحلیل مورد نظر کاراتر است.

در این مقاله پارامترهای اخذ ویژگی به شرح زیر میباشد :
1.    39 ضریب MFCC - Mel-frequency cepstral coefficients - و پارامترهای پویا - فرعی اول و دوم - MFCC

2.    12 ضریب پیشگویی خطی LPC - linear prediction coefficients -

3.    12جفت طیف خطی LSP - linear spectral pairs -

4.    8 ویژگی شعری - قدرت بیانRMS، قدرت بیان log، درجه گذر صفر ، درجه گذر متوسط - MCR - ، مکان ماکزیمم، ماکزیمم، مینیمم و سرعت صدای آهنگین تا نویز

.2-4 انتخاب ویژگی با تحلیل مولفه اصلی

مساله انتخاب ویژگی، یکی از مسائلی است که در مبحث یادگیری ماشین و همچنین شناسائی آماری الگو مطرح است. این مساله در بسیاری از کاربردها مانند طبقه بندی اهمیت به سزائی دارد، زیرا در این کاربردها تعداد زیادی ویژگی وجود دارد، که بسیاری از آنها یا بلااستفاده هستند و یا اینکه بار اطلاعاتی چندانی ندارند. حذف نکردن این ویژگیها مشکلی از لحاظ اطلاعاتی ایجاد نمیکند ولی بار محاسباتی را برای کاربرد مورد نظر بالا میبرد و علاوه بر این باعث می شود اطلاعات غیر مفید زیادی به همراه داده های مفید ذخیره شود.

در مقاله برای انتخاب ویژگی از روش تحلیل مولفه اصلی استفاده شده است. تحلیل مولفه اصلی یکی از روشهای کاهش ابعاد دادهها می باشد این الگوریتم سعی در تحلیل مولفه های اصلی دادهها دارد. تحلیل مولفه اصلی یک تکنیک مفید آماری است که کاربرد آن در زمینه های از قبیل: تشخیص چهره، فشرده سازی تصویر و یک تکنیک رایج برای شناسایی یک نمونه در داده های از بعد بالا است.

این تبدیل که با اسامی دیگری چون هتلینگ، کارهانن-لو و بردار های ویژه نیز شناخته میشود، تبدیل بهینهای در کارهای فشردهسازی و کاهش بعد است و خطای میانگین مربعات حاصل از فشرده سازی را کمینه میکند. هر چند این تبدیل به علت وابسته بودن به داده ورودی، جای خود را در الگوریتمهای کاربردی و عملی، به تبدیل گسسته کسینوسی داده است اما در صورت کافی بودن داده ورودی می تواند تبدیل بهینه را استخراج نماید.

تحلیل مولفه اصلی یک روش اختیاری چند متغیری است. اگر ما در شرایطی لازم باشد مهمترین متغیر یا تعداد محدودی از متغیرها دریک مجموعه انتخاب شود از تحلیل مولفه اصلی استفاده میشود. این روش همچنین میتواند برای پیدا کردن سیگنالها در اطلاعات نویزدار به کار رود

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید