بخشی از مقاله
چکیده
در این مقاله یک الگوریتماستخراجویژگیجدید مقاومبهنویز را پیشنهاد میدهیم . در این الگوریتماستخراجویژگی از یک فیلتر غیرخطی و پوششموقتی استفاده میکنیم و با بهرهگیری از ویژگی دلتا- طیفی بجای ویژگی دلتا-کپسترال دقت بازشناسی صحبت را بطور مطلوبی افزایش میدهیم. تقریبا همهی سیستمهای ASR کنونی از ویژگیهای کپسترال دلتا و دلتا -دلتا برای استخراج ویژگی صحبت استفاده میکنند.
از جمله عواملی غیرمحیطی که باعث کاهش دقت بازشناسی میشود میتوان به vocal-tract length اشاره کرد که منجر به عدم تطبیق میان داده ی training و testing میشود. برای کاهش تأثیرات VTL میتوان از ایده ی IIF استفاده نمود. در این مقاله هدف، رسیدن به ویژگیهای مقاومی است که علاوه بر اینکه در شرایط مختلف نویزی بهبودهایی را فراهم کند در مقابل تغییرات تأثیرات VTL نیز مقاوم باشد. نتایج نشان میدهد که دقتبازشناسی درمقایسه با MFCC وPLP در حضور انواع مختلفی از نویز و همچنین در دو سناریوی مختلف VTL بهبود یافته است.
-1 مقدمه
گرچه بسیاری از سیستمهای بازشناسیصحبت در محیطهایبدون نویز به نتایج رضایت بخشی رسیدهاند ولی بااینحال یکی از بزرگترین مسائل در حوزهیبازشناسیصحبت مسئلهیدقت بازشناسی است زیرا اگر محیطآموزش از محیطآزمایش متفاوت باشد دقت کم خواهد شد. این اختلافات محیطی به دلایلی همچون نویزجمعی، انحرافکانال، اختلافاتصوتی میان گویندههایمختلف و غیره میباشد. جدیدترین نوع سیستم های بازشناسیصحبت خودکار - ASR - 1 عملکرد بسیار خوبی را در محیط های کنترل شده نشان میدهند.
- piecewise linear stereo - برای محیط[3] و بسط سریهای تیلور برداری [4] - VTS - از جمله روشهای بهینه برای بهبود ویژگیهای صحبت هستند. عموماً، این روشها تلاش دارند تأثیرات نویز را از بردارهای ویژگی حذف کنند و این کار را با کاهش عدم تطبیق میان داده ی training و testing انجام میدهند. مثالی که برای این گروه از تکنیکهای بهبود مدل میتوان زد، Parallel model - PMC - combination میباشد.[5]
روشهای بهبود ویژگی در مقایسه با تکنیک های تطبیق مدل، بار محاسباتی کمتر دارد و لذا استفاده از آن مفید است. یک روش استخراج ویژگی که مبتنی بر ماکزیمم کردن تیزی توزیع توان و کف سازی توان است اخیرا در [6] پیشنهاد شده و - PNCC - power-normalized cepstral coefficients نامیده میشود. عامل دیگری، علاوه بر محیط، که منجر به عدم تطبیق میان داده ی training و testing می شود تعداد گوینده هاست. بعبارتی، - VTL - vocal-tract length پارامتری است که بازگو کننده ی اختلاف میان گوینده ها با یکدیگر است.
از جمله رهیافت هایی که برای غلبه بر این مشکل مطرح شده اند، میتوان به نرمالیزاسیون طول تار صوتی - VTLN - یا - MLLR - maximum-likelihood linear regression اشاره کرد که پس از طبقه ی استخراج ویژگی بکار گرفته میشود تا اثر انحرافی را که بعلت اختلاف VTL حاصل میشود، خنثی کند. مشابه با روشهای مقاوم سازی نویز مبتنی بر ویژگی که در بالا توصیف شد، روشهایی نیز وجود دارد که تلاش دارد ویژگی های تغییرناپذیر - - invariant طول تار صوتی را استخراج کند. ویژگیهای - IIFs - invariant-integration یک مثال از چنین روشهای استخراج ویژگی است.[7]
شکل1 ساختار سیستم پیشنهادیمان را نشان میدهد. همانطورکه در شکل پیداست، در این الگوریتم از یک فیلتر غیر خطی و پوشش موقتی استفاده شده است و همچنین استفادهاز روش ویژگی دلتا-طیفی بجای ویژگی دلتا-کپسترال که درنهایت باعث بهبود در سیستم بازشناسیصحبت میشود. ساختار پیشنهادی میتواند نویدبخش بدست آوردن ویژگی هایی باشد که نه تنها مقاوم به نویز هستند بلکه در مقابل تأثیرات تغییرات VTL نیز مقاوم هستند.
-2 بررسی کلی ساختار پیشنهادی
اولین طبقه از آن آنالیزفرکانسی است. فیلتر پیشتأکید H - z - = 1 – 0.97 z-1 استفادهشدهاست و با بکارگیری یک پنجرهیهمینگ زمانکوتاه با طول 25/6 با 10 میلیثانیه ادامه میابد. تبدیلفوریهکوتاهمدت - STFT - اجراشدهاست. و سپس طیف به توان دو میرسد. مربعطیف بااستفادهاز پاسخفرکانسیگراماتونمربع، یکپارچه میشود. با این فرآیند میتوانیم توان کانالبهکانال P[m,l] را بدستآوریم که m نشاندهندهی اندیسفریم و l نشاندهندهی اندیسکانال میباشد. و بهصورت معادلهی زیر آن را نشان میدهیم:
سایز FFT میباشد و ما از نرخنمونهبرداری 16 کیلوهرتز و = 2048 استفاده میکنیم. پساز وزندهیفرکانسی، توان بااستفادهاز توانپیک نرمالیزه شدهاست. فیلتربانکگراماتون l امین کانال و طیف کوتاهمدت سیگنالصحبت برای m امین فریم میباشد. ما از 40 کانالگراماتون برای بدستآوردن توان کانالبهکانال P[m,l] استفاده می کنیم. فرکانسهای مرکزی این فیلتربانک بطور خطی میان200 هرتز تا 8000 هرتز در Equivalent Rectangular - ERB - Bandwidth مقیاس بندی میشوند.
در ادامه، کمیتی را تخمین می زنیم که به عنوان "توان زمان متوسط" نسبت میدهیم. این توان با محاسبه ی متوسط running از P[m,l] بصورت زیر محاسبه ی میشود: انتخاب فاکتور M اثر قابل توجهی روی عملکرد - خصوصا نویز سفید - دارد. بطور تجربی دریافتیم که اگر مقدار M را 2 در نظر بگیریم دقت بازشناسی بهینه خواهد بود. سپس از یک فیلتر غیرخطی نامتقارن و پوشش موقتی برای جبران نویز محیطی استفاده کرده و به کمک آن ویژگی ها را بهبود می دهیم.
اثر هموارسازی در افزایش دقت بازشناسی شناخته شده است. پس از غیرخطی، عمل invariant-integration مطابق [8] اجرا شده است. invariant-integration یک رهیافت کلی برای دسته ی تبدیلات اختیاری است. که بطور کلی، محاسبات آن شامل مجموع r تابع - احتمالا غیرخطی - برای همه ی مشاهدات تبدیل شده ی ممکن میباشد. در نهایت بردارهای ویژگی خروجی ما، مقاوم به شرایط محیطی و نیز مقاوم به تغییرات VTL خواهد بود.