بخشی از مقاله
چکیده
در این مقاله سعی بر آن شده است که ایده ای جدید، برای دسته بندی حروف صحبت به صورت آموزش پذیر در تشخیص صحبت ارائه گردد . اساس کار ، خوشه بندی داده ها با الگوریتم است . برای دستیابی به این هدف ، از ضرایب به عنوان پارامتر استخراج شده از صدا ها استفاده شده و در پایان با توجه به بهبود قابل ملاحضه دسته بندی، و به تبع آن تشخیص بهتر حروف توانسته ایم در محیط های نویزی به شرط استخراج صحیح حروف از نظر زمانی ، با دقت %85 حروف را تشخیص دهیم.
کلید واژه تشخیص صحبت تئوری رزونانس وفقی، پارامترهای صحبت، شبکه های رقابتی ، شبکه های عصبی .
مقدمه
تشخیص صحبت عبارت است از تشخیص کامپیوتری و مقایسه ای صحبت تولید شده توسط انسان با مرجع آماده شده از قبل و تبدیل آن به یک سری فرامین یا پروندههای متنی و یا قرار دادن آن در بسته های مشخص، بعداً بتوان از آن به عنوان یک مرجع به روز استفاده کرد .کاربردهای عمده موجود برای این گونه سیستم ها دربرگیرنده بازه گسترده ای از سیستمها و کاربردها به خصوص در سیستمهای دیکته کامپیوتری که در سیستم های آموزشی و همچنین سیستمهای پردازش واژه کاربرد دارد همچنین سیستمهای کنترل ماشین ها و روبات های هوشمند به وسیله صحبت و به طور خاص سیستمهای فراهم آورنده امکان کنترل کامپیوترها برای افراد ناتوان از لحاظ بینایی یا حرکتی نیز از جمله کاربرد های مهم تشخیص صحبت می باشد.
همیشه مهمترین نکته در تشخیص صحبت وجود یک مرجع مناسب برای مقایسه می باشد که اصطلاحاً به آن جدول صحت می گویند؛ در ساخت این مرجع می بایستی به پارامتر مورد نظر برای دسته بندی ، ملاک قرار گرفتن چندین حروف در یک دسته ، ضریب اطمینان و میزان صحت جواب ها توجه داشت. در این مقاله ابتدا یک نگاه کلی نسبت به انواع پارامترهای موثر که در پردازش صحبت مورد استفاده قرار می گیرند داریم و سپس یک تحلیل کلی در رابطه با شیوه ها و معیارهای تشخیص الگو خواهیم داشت. در قسمت بعد به بررسی انواع روش های رقابتی و سپس برای اولین بار به شیوه عملکرد در پردازش صحبت پرداخته و در نهایت نتایج این شبیه سازی ارائه می گردد.
پارامترهای استخراج شده از صحبت
پارامترهای انتخاب شده باید به گونه ای باشند که تفاوت میان حروف مختلف را به خوبی نشان دهند و آنها را از هم قابل تشخیصکنند ؛ معمولاً پارامترهای انتخاب شده در حوزه فرکانس جواب های خوبی می دهند. موجود در فضای خصیصه ها وجود دارد. ژائو نمودارهایی برای نشان دادن این برهمنهی در دودسته دادههای صحبت جمعآوری شده از طریق شبکه تلفن ارائه میکند. موتورهای تشخیص صحبت برای غلبه بر این مشکل برهمنهی از پردازشهای آماری توانمند برای یکسانسازی مدل زبان استفاده می کنند که فراتر از حد این نوشتار است. لذا دسته بندی باید بسیار هوشمندانه باشد که ما برای حل این مشکل از شبکه های عصبی رقابتی استفاده کریم.
تشخیص الگو
یک سیستم تشخیص الگو شامل دو جزء است: یک استخراج کننده خصیصهها و یک طبقهبندی کننده. ایده آل آن است که وقتی داده ها به فضای دادههای خصیصهها انتقال پیدا کرد به سمت طبقهای کشیده شود که از همه به آن نزدیکتر است - شبیه تر است - و از طرف طبقه های متفاوت دیگر بازپس زده شود. تکنیک های بسیار زیادی برای دسته بندی وجود دارد. از جمله بهترین روش های آن دسته بندی به روش K-means است که در این حالت ملاک شباهت داده ها فاصله اقلیدسی آن ها می باشد.ولی تجربه نشان داده است که فاصله اقلیدسی ضرایب LP در بحث پردازش صوت برای سنجش شباهت نتیجه مطلوبی ندارد.
لذا ما از مفهوم اندازه فاصله Iitakura به منظور سنجش میزان شباهت استفاده می کنیم. دو مشکل مهم در اعمال این راهکار به پردازش صحبت وجود دارد. اولی آن است که هیچ التزامی وجود ندارد که محیط آموزش و محیط آزمایش قابل مقایسه باشند. استفاده از یک میکروفون متفاوت، نویز پسزمینه و کانالهای انتقال و همچنین گوینده، لهجه، سن، سرعت تکلم و ... می تواند باعث کاهش کارایی جدی شود ،یک معیار اساسی برای قضاوت در مورد یک مجموعه از خصیصهها پایداری آن در مقابل چنین تغییرات کانالی می باشد.
شبکه های رزوناس وفقی ART
در این شبکه خانم کارپنتر در سال 1985 نشان دادند مختلف برای هر حرف از دیتابیس TIMIT استفاده کرده که می توان تعداد دسته ها را با توجه به پخش داده تعیین ایم،با توجه به 10 ضریب LP برای هر حرف تعداد ورودی کرد ، به طوری که ابتدای کار تعداد دسته ها را های شبکه عصبی 10 عدد می باشد و نظر به وجود 5 حرف می توان فقط یکی گرفت و سپس با ورود داده های جدید متمایز در شبکه تعداد خوشه ها را به 5 دسته محدود در دوره آموزش تعداد دسته ها را زیاد کرد.
ابتای کار فرض کردیم ،که هر خوشه در بهترین حالت مبین یک حرف می بر این بود که می بایستی برای برنده شدن دسته ها ،باشد . برای مقدار دهی اولیه ضرایب شبکه برای تسریع در خروجی آن دسته ماکزیمم شود ولی با ایجاد یک ارتباط به جواب رسیدن شبکه از پارامتر های حروف صحیح برای بسیار ساده بین ارزش و مقدار می توان به جای ماکزیمم هر دسته استفاده کردیم و در نهایت بعد از پروسه آموزش گیری از مینیمم خروجی برای کاندیدا شدن جهت آموزش به سیستم شبکه عصبی رسیدیم.