بخشی از مقاله

چکیذٍ

در ایي هقالَ تَ هٌظْر تِثْد سیستن ُای تطخیص گفتار تْیژٍ در هحیط ُای ًْیشی اس اطالعات سیگٌال گفتار ّ تصْیز لة تطوْر ُوشهواى استفادٍ ضذٍ است. تذیي هٌظْر تصْیز لة تْسیلَ ی الگْی دّدّیی هحلی ًاحیَ تٌذی ضذٍ ّ ّیژگی ُای هٌاسة اس تصْیز لة اسوتخزا ضوذٍ است. ایي ّیژگی ُا تا ّیژگی ُای استخزا ضذٍ اس سیگٌال گفتار تزکیة ضذٍ ّ تزدار ّیژگی را تطوکی هوی دٌُوذ. سوپس تْسوط یول الگوْریتن اًتخاب ّیژگی دّ هزحلَ ای ّیژگی ُای ًْیشی حذف ضذٍ ّ تزدار ّیژگی ًِایی ضک هی گیزد. در اًتِا ضوص حوزف صوذا دار فارسوی تْسویلَ ی الگْریتن کالسَ تٌذ اس یکذیگز تفکیل هی ضًْذ. ًتایج حاکی اس کارآهذ تْدى رّش پیطٌِادی تْیژٍ در هحیط ُای ًْیشی هی تاضذ. هتْسط ًزخ تطخیص تزای سیگٌال تذّى ًْیش %39/2 ّ تزای سیگٌال آغطتَ تَ ًْیش تا ًسثت سیگٌال تَ ًْیش چِار تزاتز %78/1 هحاسثَ ضذٍ است.

کلوات کلیذی

سیستم دیداری-شنیداری تشخیص گفتار، ناحیه بندی لب، الگوی دودویی محلی.    رشتَ ّیذئْیی    

-5 هقذهَ

با پیشرفت سریع تکنولوژی سیستم های تعاملی بین انسان و کامپیوتر جایگاه ویژه ای پیدا کرده اند. از آن جا که گفتار سریعترین و پرکاربردترین راه انتقال اطلاعات بین انسان ها می باشد، آنالیز سیگنال گفتار در این سیستم ها نیز از اهمیت خاصی برخوردار می باشد. انسان ها در تعاملات خود برای انتقال بهتر پیام از حرکات دست، بدن و صورت بعنوان مکمل اطلاعات زبانی استفاده می کنند. بسیاری از محققین نیز به منظور افزایش دقت سیستم های تشخیص گفتار استفاده از این اطلاعات تکمیلی را پیشنهاد کرده اند 1] و .[2

سیستم های شنیداری-دیداری گفتار را می توان از دیدگاه تشخیص الگو در سه بخش استخراج ویژگی، انتخاب ویژگی و کلاسه بندی مورد بررسی قرار داد. در اولین مرحله ویژگی های مناسب از سیگنال گفتار و تصویر گوینده استخراج می شوند. در مرحله دوم ویژگی های موثر تر در سیستم توس الگوریتم انتخاب ویژگی شناسایی شده و ویژگی های نویزی نیز حذف می شوند. در آخرین مرحله نیز الگوریتم کلاسه بند با توجه به ویژگی های انتخاب شده آوای ادا شده را مشخص می کند.

سیستم های مختلف شناسایی دیداری-شنیداری را می توان در دو گروه مختلف بررسی نمود. در سیستم های نوع اول که سیستم های ترکیب ویژگی نام دارند بردار ویژگی از ترکیب ویژگی های صوتی و تصویری حاصل می شود و سیستم با استفاده از این بردار آوای ادا شده را تشخیص می دهد اما در سیستم های نوع دوم که سیستم های ترکیب خروجی نام دارند دو بردار ویژگی مختلف داریم که یکی از آن ها حاوی اطلاعات تصویری و دیگری حاوی اطلاعات صوتی می باشد. در چنین سیستم هایی دو بردار ویژگی به دو زیر سیستم تشخیص شنیداری و تشخیص دیداری گفتار اعمال می شوند و در نهایت خروجی این دو سیستم با یکدیگر در 3] و [4 با استفاده از مدل مخفی مارکوف سیستم هایی بر پایه ی ترکیب ویژگی ارائه شده است. در این تحقیقات نشان داده شده است در حضور نویز سیستم های دیداری-شنیداری کارایی بهتری نسبت به سیستم های شنیداری دارند.

در 5] و [6 نیز سیستم هایی بر پایه ی ترکیب خروجی ارائه شده است. در [5] با توجه به میزان نویز درصوت و تصویر وزن هایی به هر کدام از خروجی ها اختصاص داده شده است. در [7] از ویژگی های فرکانسی و تبدیل فوریه برای تشخیص اعداد صفر تا نه استفاده شده است. در [8] از ویژگی های MFCC به منظور بازشناسی فونم ها استفاده شده است. در [9] از ویژگی های MCSS - Mell-Scale Cepstrum Coefficients - جهت بازشناسی فونم و لغت استفاده شده است. در [7] از شبکه عصبی ، در [8] ازمنطق فازی و در [9] از شبکه فازی-عصبی بعنوان الگوریتم کلاسه بند استفاده شده است.

در این مقاله سیستمی بر پایه ی ترکیب ویژگی به منظور تشخیص حروف صدا دار فارسی استفاده شده است. در روش پیشنهادی تصویر لب بوسیله ی الگوی باینری محلی LBP - Local Binary Pattern - از تصویر چهره جدا شده و ویژگی های مورد نظر از این تصویر استخراج می شوند. همچنین از ضرایب MFCC و فرمنت ها بعنوان ویژگی های صوتی استفاده شده است. با ترکیب این ویژگی ها یک بردار ویژگی شکل می گیرد و سیستم بر اساس آن طرح می شود.

در این تحقیق به منظور حذف ویژگی های نویزی از الگوریتم انتخاب ویژگی دو مرحله ای بر پایه ی FDR - Fisher Discriminant Ratio - و SFS - Sequential Forward  Selection - استفاده شده است. همچنین الگوریتم کلاسه بند SVM - Support Vector Machine - به منظور تفکیک حروف صدا دار مختلف به کار گرفته شده است. در ادامه ی مقاله، در بخش 2 روش پیشنهادی بیان می شود. در این بخش الگوریتم های استخراج ویژگی، انتخاب ویژگی و کلاسه بندی بصورت جدا گانه مورد بحث قرار خواهند گرفت. بخش 3 شامل نتایج عملی است و در بخش 4 به نتیجه گیری مقاله خواهیم پرداخت.

-2 رّش پیطٌِادی

در این بخش الگوریتم های استخراج ویژگی، انتخاب ویژگی و کلاسه بندی بصورت جداگانه بررسی خواهند شد.

-5-2 استخزا  ّیژگی

از آنجا که استخراج ویژگی از تصویر لب مستلزم ناحیه بندی لب می باشد، ابتدا ناحیه بندی لب توس الگوریتم الگوی دودویی محلی1 را بیان نموده و پس از آن به استخراج ویژگی از لب و سیگنال گفتار می پردازیم.

-5-5-2 ًاحیَ تٌذی لة تا استفادٍ اس الگْی دّدّیی هحلی

در این مقاله به منظور ناحیه بندی تصویر لب از روش ارائه شده در [10] استفاده می کنیم. در این روش که به تصاویر خاکستری اعمال می شود از یک پنجره ی 3*3 برای جاروب کردن تصویر استفاده می شود. سطح روشنایی هر کدام از 8 همسایگی پیکسل مرکزی با سطح روشنایی پیکسل مرکزی مقایسه می شود و در صورتیکه مقدار آن ها بزرگتر باشد با یک و در صورتیکه کوچکتر باشد با صفر جایگزین خواهد شد. هر رشته ی دودویی خاص که توس پیکسل های همسایگی تولید می شود بیانگر یک الگوی خاص در تصویر می باشد. الگوهایی که در آن ها تعداد تغییر حالت از یک به صفر یا از صفر به یک با هم برابر باشند بعنوان الگوهای همگن شناخته می شوند. بطور مثال الگوهایی که رشته دودویی بدست آمده برای آن ها بصورت 00110000 و 11101111 باشد دو الگوی همگن هستند. فرآیند تولید این رشته ی دودویی برای یک همسایگی 3*3 در شکل 2 نشان داده شده است.

ضک  : - 2 - یل هثال تزای عولگز الگْی دّدّیی هحلی.

 پس از اینکه این رشته ی باینری برای همه ی تصویر محاسبه شد هیستوگرام الگوهای همگن در کل تصویر بعنوان بردار ویژگی مورد استفاده قرار گرفته و با استفاده از آن تصویر لب از چهره جدا می شود. در [11] نشان داده شده است که این روش برای بیان ویژگی های تصویر چهره کارامد می باشد. توضیحات بیشتر در مورد این روش در [10] آورده شده است.

-2-5-2 استخزا  ّیژگی اس تصْیز لة

با توجه به اینکه تصویر لب در هنگام ادای هر کدام از حروف شکل خاص خود را دارد، با استخراج ویژگی های مناسب از این تصویر - که تا حد امکان گویای حالت لب باشند - می توان به حرف ادا شده پی برد. شکل 3 تصویر لب را در هنگام ادای حروف صدا دار مختلف نشان می دهد.

ضک  : - 9 - تصْیز لة تزای ادای حزّف صذادار فارسی.
 
ًخستیي کٌفزاًس تیي الوللی پزداسش خط ّ ستاى فارسی 51 ّ 51 ضِزیْر 5935 داًطگاٍ سوٌاى - داًطکذٍ هٌِذسی تزق ّ کاهپیْتز در روش پیشنهادی به منظور استخراج ویژگی از تصویر لب، از مرز بیرونی تصویر ناحیه بندی شده استفاده می شود. در این روش ابتدا مرکز ثقل تصویر لب را بدست آورده و آن را بعنوان مرجع انتخاب می کنیم. از این نقطه خطوطی با زوایای 30 درجه نسبت به هم رسم نموه و مکان تقاطع این خطوط با مرز بیرونی تصویر لب را پیدا می کنیم. فاصله این خطوط از نقطه مرجع ویژگی های مورد نظر را تشکیل می دهند. شکل 4 چگونگی انجام این فرایند را نشان می دهد.

ضک  : - 9 - استخزا  ّیژگی اس تصْیز لة.

در این شکل fi ,1 i 12 ها مکان های مربوط به تقاطع مرز بیرونی لب و خطوط با زاویه ی 30 درجه را نشان می دهند. فاصله ی fi ها از نقطه مرجع - مرکز ثقل تصویر - ویژگی های می کنند. بدین ترتیب به ازای هر تصویر 12 ویژگی خواهیم داشت که بیانگر حالت لب می باشند. ویژگی های اول و هفتم بیشتر میزان کشیدگی لب را نشان می دهند و هر اندازه که بزرگتر باشند بیانگر این هستند که تصویر لب به حالت بسته نزدیک تر است. این ویژگی ها در هنگام ادای حروفی مثل "ای" و "اِ" مقادیر بیشتری خواهند داشت. در مقابل ویژگی های چهارم و دهم میزان باز بودن لب را نشان می دهند. هر اندازه که این ویژگی ها بزرگتر باشند بیانگر این است که تصویر لب به حالت باز نزدیک تر است. این ویژگی بویژه در هنگام ادای حرف "اَ" مقدار بزرگتری خواهد داشت.

-9-5-2 استخزا  ّیژگی اس سیگٌال گفتار

در این مقاله از ضرایب MFCC و فرمنت ها به منظور ویژگی های مورد استفاده برای تشخیص گفتار استفاده شده است. چگونگی استخراج این ویژگی ها از سیگنال گفتار در [12] بیان شده است. در این تحقیق از 12 ضریب اول MFCC و 5 فرمنت اول بعنوان ویژگی های صوتی استفاده شده است. یکی دیگر از ویژگی های مورد استفاده نسبت فرمنت دوم به فرمنت اول می باشد. در [13] گزارش شده است که این ویژگی در تشخیص حروف صدا دار انگلیسی بسیار موثر می باشد. موقعیت فرمنت اول و دوم نسبت به هم برای شش حرف صدا دار فارسی در شکل 5 نشان داده شده است.

ضک  : - 1 - هْقعیت فزهٌت اّل ّ دّم تزای 1 حزف صذا دار فارسی.

همانطور که در این شکل دیده می شود موقعیت این دو ویژگی نسبت به هم به خوبی حروف صدا دار مختلف را از یکدیگر متمایز می کند. بدین صورت در این مرحله یک بردار ویژگی شامل 18 ویژگی مختلف خواهیم داشت و در پی آن بردار ویژگی نهایی مرکب از ویژگی های استخراج شده از تصویر لب و سیگنال گفتار با تعداد 30 ویژگی شکل می گیرد.

-2-2 اًتخاب ّیژگی

مناسب ترین ویژگی ها در کلاسه بندی ویژگی هایی هستند که برای یک کلاس خاص - یک آوای خاص - بیشترین شباهت2 را داشته باشند یا بعبارت دیگر انحراف معیار آن ها کمینه باشد و در مقابل تفاوت این ویژگی ها برای کلاس های متفاوت3 تا حد ممکن زیاد باشد یا بعبارت دیگر میانگین آن ها برای دو کلاس مختلف بیشینه باشد. علاوه بر آن تعداد زیاد ویژگی های استخراج شده معمولاً باعث پیچیدگی مسئله شده و بهینه سازی در کلاسه بندی را با دشواری مواجه می کند.4 بنابراین انتخاب ویژگی های مناسب بوسیله ی الگوریتم های انتخاب ویژگی به منظور حذف ویژگی های نویزی و کاهش ابعاد بردار ویژگی امری ضروری است. در این تحقیق به منظور انتخاب ویژگی های برتر از یک الگوریتم دو مرحله ای استفاده نموده ایم. در مرحله اول ویژگی ها را بوسیله ی رابطه ی - 3 - رتبه بندی می کنیم .[14]

میانگین و واریانس ویژگی uام برای کلاس iام می باشند. C نیز تعداد کل کلاس ها را مشخص می کند. در این رابطه تفکیک پذیری کلاس ها دو به دو بوسیله ی اندازه گیری واریانس داده های درون هر کلاس و فاصله ی میانگین داده های دو کلاس متفاوت بررسی شده و میانگین این مقادیر به عنوان معیاری برای مناسب بودن ویژگی مورد نظر بیان می شود. پس از محاسبه مقدار FDR5 برای همه ی ویژگی ها فق 20 ویژگی که دارای بالاترین مقادیر FDR باشند را انتخاب نموده و بقیه ویژگی ها حذف می شوند. در میان این ویژگی ها ممکن است برخی از آن ها تکراری بوده و یا اینکه وابستگی زیادی به هم داشته باشند، در اینصورت حتی اگر مقدار FDR برای این ویژگی ها عدد بزرگی باشد، عملاً تعداد زیاد آن ها کمکی به حل مسئله نخواهد کرد. بدین منظور از یک

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید