بخشی از مقاله
چکیده
بنا به تعریف , پردازش گفتار به فرایند تبدیل سیگنالهای صوتی بعنوان ورودی جهت سیستم های کنترلی توسط الگوریتمهای کامپیوتری گفته میشود. اهمیت این حوزه در بسیاری از کاربردها نظیر هوا فضا, ترجمه خودکار, تهیه متون خبری از سخنرانی ها ,اتوماسیون هوشمند منازل ,بازی های کامپیوتری , خدمت رسانی به نابینایان و افراد کم توان , گردآوری و سازماندهی منابع مختلف اطلاعاتی مانند کتاب ها و سایت های اینترنتی و همچنین تسهیل و تسریع در خدمات آموزشی می باشد . این تحقیق با هدف معرفی و ازمایش یک الگوریتم ساده جهت واژگان فارسی و پیاده سازی بر روی یک ساختار ربات مبتنی بر اردوینو صورت گرفته است .نکته حایز اهمیت در تحقیق حاضر استفاده از سیگنالهای صوتی به زبان فارسی می باشد که دارای پیشینه کمتر از دو دهه است. گرچه تلاشهایی مانند نویسا و نرم افزارهای تبدیل گفتار به متن صورت گرفته اما بر اساس جستجوی محققین محصول قابل کنترلی بر مبنای واژگان فارسی یافت نشد .
از اهدافی که در این مقاله به آن پرداخته میشود ایجاد واکنش هایی متناسب با بالاترین فرکانس صوتی بر اساس سه واژه فارسی راست چپ و مستقیم می باشد. دراین مقاله صدا توسط میکروفون دریافت می شود و توسط نرم افزار متلب با بدست آوردن ماکزیمم فرکانس سیگنال دریافتی پردازش می شود و سپس بالاترین فرکانس صدای دریافتی را مشخص نموده و به برد آردوینو موجود بر روی ربات از طریق ارتباط سریال منتقل میشودکه منجر به واکنش حرکتی بر اساس تعریف این عدد توسط ربات می گردد. نحوه نمونه برداری کاملا آزاد از نظر نوع میکروفن و فاصله تا آن بوده است و نتایج این تحقیق در بررسی سه واژه چپ راست و مستقیم نشانگر کارایی الگوریتم پیشنهادی با میزان موفقیت % 73 و %27 نا موفق در تکرار اول ودر تکرار دوم % 86 موفق و %14 نا موفق می باشد.
کلمات کلیدی: کنترل گفتار،پردازش صدا،پردازش صوت،پردازش گفتار، اردوینو ،سیگنال صوتی،سیستم شنوایی
.1 مقدمه
گفتار اولین وسیله ارتباطی میان انسانها و جزو موثرین روشها در این حوزه می باشد .در تعریف کلاسیک پردازش گفتار عبارت است از فرایند تبدیل سیگنالهای صوتی به توالی کلمات بوسیله الگوریتمهای کامپیوتری که با هدف توسعه روشها و سیستمهایی جهت استفاده از این سیگنال بعنوان ورودی صورت میگیرد .[1] این گرایش به عنوان یکی از زمینه های هوش مصنوعی به شبیه سازی مسایل مربوط به گفتار در انسان شامل تشخیص و درک گفتار، تولید گفتار و بهبود کیفیت گفتار می پردازد[2] وبه منظور افزایش کیفیت زندگی افراد در سطوح مختلف جامعه و برقراری ارتباط سریع و آسان انسان با ماشین های اطراف بدون نیاز به ارتباطات سخت افزاری به تحقیق می پردازد .[3]
اولین تلاشها و توجهات در جهت استفاده از این سیگنال به دهه 1950 برمیگردد. [4] که با توجه به امکانات اولیه موجود در رایانه ها قادر به شناسایی و تشخیص کلمات محدودی بود.از شاخص ترین فعالیتهای علمی در این حوزه می توان به تلاشهای صورت گرفته در سالهای 1971 تا 1976 تحت عنوان برنامه SUR بعنوان یکی از بزرگ ترین برنامه ها در زمینه ی تشخیص گفتاراشاره نمود. ورود پردازنده های سریع تر در دهه 90 منجر به استفاده افراد عادی از این سیگنال فراهم گردید. و میزان دقت تشخیص ان تا سال 2001 به 80 درصد افزایش یافت.[5] حتی استفاده از این سیستم ها با توسعه اینترنت دچار رشد فزاینده ای گردید و منجر به ورود فرمانهای صوتی در سیستم عاملهای ویندوز و مک گردید [6] .
امروزه فعالیتهای زیادی در این حوزه انجام شده که از آن جمله میتوان به کاربردهای مختلف در موارد متعددی نظیر هوا فضا, ترجمه خودکار, تهیه متون خبری از سخنرانی ها,اتوماسیون هوشمند منازل ,بازی های کامپیوتری , خدمت رسانی به نابینایان و افراد کم توان , گردآوری و سازماندهی منابع مختلف اطلاعاتی مانند کتاب ها و سایت های اینترنتی و همچنین تسهیل و تسریع در خدمات آموزشی اشاره نمود. .[7-12] [4] حتی تلاشهایی نظیر طراحی و ساخت ربات بازو متحرک باصوت[13] طراحی ویلچر متحرک باصوت[14] و... در این حوزه صورت گرفته است.
1.1 تکنیک های تشخیص گفتار:
هدف از تشخیص گفتار جهت یک دستگاه ؛ شنیدن ، درک کردن و اجرای یک فرمان به منظور تجزیه وتحلیل ، استخراج وشناسایی اطلاعات مربوط به هویت صاحب صدا است. سیستم تشخیص صوت می تواند شامل چهار مرحله : تجزیه وتحلیل گفتار استخراج ویژگی'مدل سازی' تست و آزمایش می باشد .جهت تشخیص این الگوهای صوتی تا کنون روشهای مختلفی ارایه شده شامل تجزیه و تحلیل اجزای اصلی1 'تجزیه و تحلیل تفکیک خطی - LDA - 2 تجزیه و تحلیل اجزای مستقل,3 کد نویسی پیش بینی خطی,4 تجزیه و تحلیل کپسترال کپسترام فرکانسی........ - MFFCs - 5 ,که در جدول شماره - 1 - بطور خلاصه بهمراه نحوه اجرا و ویژگی انها نشان داده شده است .[15]
همانطور که در جدول شماره 1 نشان داده شده است هر یک از روشهای مذکور دارای و یژگیهای متعددی می باشند که توسط محققین استفاده شده است. [16] این تحقیق با هدف معرفی و ازمایش یک الگوریتم ساده جهت وازگان فارسی و پیاده سازی بر روی یک ساختار ربات مبتنی بر آردوینو صورت گرفته استکه بر اساس تحقیق محققین دارای سابقه ای کمتر از دو دهه و با تعداد مقلات نه چندانی در واژگان فارسی می باشد.هدف از پژوهش حاضر طراحی یک ربات با استفاده