بخشی از مقاله
چکیده
در این مقاله یک الگوریتم قوی و قابل اعتماد برای تشخیص وجود گفتارٌ ارائه شده است. الگوریتم ارائه شده به جای تبدیل موجک متعارف از تبدیل موجکی که براساس باندهای بحرانی گوش ٍ انسان طراحی شده است، استفاده می کند. با بکارگیری این تبدیل و عملگر انرژی تیگرَ یک پارامتر مهم به نام شکل موج وجود گفتار محاسبه می شود و به وسیله آن تشخیص وجود گفتار انجام می گیرد. استفاده از تبدیل موجک سبب می شود تا یک آنالیز چند دقتی داشته باشیم و تطابق این تبدیل با خواص سایکوآکوستیکی گوش سبب بهبود الگوریتم تشخیص وجود گفتار می شود.در انتها برای ارزیابی کار از سه روش ارزیابی ذهنیُ ، ارزیابی عینیِ و درصد فشرده سازی استفاده شده است. نتایج بدست آمده حاکی از عملکرد خوب و قابل اطمینان الگوریتم پیشنهاد شده نسبت به سایر الگوریتم های مرسوم تشخیص وجود گفتار است به خصوص برای شرایطی که سیگنال گفتار ورودی دارای نویز زمینه بالایی باشد.
کلمات کلیدی: تشخیص وجود گفتار؛ تبدیل موجک ادراکی؛ عملگر انرژی تیگر؛ متوسط آراء افراد.× ×
1.مقدمه
تکنولوژی پردازش گفتار در سال های اخیر پیشرفت چشمگیری کرده است و در بسیاری از زمینه ها مانند: ارتباطات، سیستم های چندرسانه ای، ارتباط کاربر با ماشین و ... کاربرد دارد. یکی از اجزای مهم در سیستم های پردازش گفتار، تشخیص وجود گفتار است و شامل هر الگوریتم یا سیستمی است که برای تشخیص بازه های گفتار طراحی شده باشد.تشخیص گفتار برای شناسایی گفتار از نویز و یا سکوت استفاده می شود و کاربردهای فراوانی از جمله در: سیستم های مخابره گفتار مانند شبکه تلفن سلولیّ - موبایل - دارد .[1,2] هم چنین از تشخیص گفتار برای بهبود سیگنال گفتارْ استفاده می شود تا با حذف نویز از سیگنال گفتار فهم گفتار آسانتر شود .[3] از کاربردهای دیگر تشخیص وجود گفتار نیز می توان به بازشناسی گفتارَ، حذف اکو و کدینگ گفتار [4] اشاره کرد.
تکنیک های مختلفی برای تشخیص وجود گفتار ارائه شده است که از جمله این تکنیک ها می توان به انرژی زمان کوتاه، نرخ عبور از صفر، انحراف از معیار نرخ عبور از صفر، نسبت سیگنال به نویز، ضرایب کپسترال و ... اشاره کرد .[5,6] یکی از ویژگی های مشترک تمام این روش ها این است که دارای دقت یکسان در حوزه زمان و فرکانس هستند یا به عبارتی تک دقتی هستند بنابراین برای داشتن یک آنالیز چند دقتی ُ روش تبدیل موجکًٌ توسط محققین به کار گرفته شد[7,8,9] و پس از آن Bahoura و Rouat یک الگوریتم موثر برای تشخیص وجود گفتار بر پایه ی تبدیل موجک و انرژی تیگر ارائه دادند .[10]در این مقاله روش تشخیص گفتار بر پایه تبدیل موجک را برای داشتن یک الگوریتم قویتر طبق الگوی Shi-Hung Chen و Hsin-Te Wu گسترش می دهیم [11] و به جای تبدیل موجک متعارف از تبدیل موجک ادراکی ٌٌ که مطابق با باندهای بحرانی گوش انسان طراحی شده است استفاده می کنیم و سیگنال ورودی را متناسب با این باندها تجزیه می کنیم.
بنابراین الگوریتم ارائه شده علاوه بر چند دقتی بودن طوری طراحی شده است که بیشترین تطابق را با مدل سایکوآکوستیکیٌٍ گوش انسان داشته باشد. در این الگوریتم از ساختار مسک برای محاسبه یک پارامتر مهم به نام شکل موج وجود گفتارٌَ استفاده شده است و سپس با استفاده از این پارامتر تشخیص بازه های گفتار صورت می پذیرد. در انتها برای ارزیابی کار و مقایسه کارایی تکنیک ارائه شده در مقابل سایر الگوریتم های مرسوم از سه پارامتر درصد تشخیص اشتباه، درصد فشرده سازی و متوسط آراء افرادٌُ استفاده شده است .قالب بندی مقاله پیش رو بدین گونه است که در بخش 2 درمورد تبدیل موجک ادراکی و عملگر انرژی تیگر توضیحاتی داده شده است، در بخش 3 نحوه پیاده سازی الگوریتم پیشنهاد شده ارائه شده است، دربخش 4 نتایج شبیه سازی به همراه نحوه ی ارزیابی و نتایج آن برای مقایسه کارایی روش پیشنهاد شده با سایر روش های مرسوم تشخیص وجود گفتار آورده شده است و در نهایت در بخش 5 نتیجه گیری کلی از این تحقیق آورده شده است.
2.تبدیل موجک ادراکی و عملگر انرژی تیگر برای الگوریتم تشخیص وجود گفتار
1.2تبدیل موجک ادراکی
می دانیم محدوده اطلاعات مهم گفتار در بازه فرکانسی×بین صفر تا چهار کیلو هرتز می باشد. گوش انسان در این بازه ی فرکانسی از 17 باند بحرانی ساخته شده است. برای داشتن یک عملکرد خوب و مناسب باید تعداد زیر باند های تبدیل موجک با تعداد باند های بحرانی برابر باشند و تا حد امکان این زیر باندها شبیه باندهای بحرانی گوش انسان باشند. بنابراین باید تجزیه درختی تبدیل موجک به گونه ای باشد که بتواند 17 باند بحرانی را تخمین بزند تا تطابق موثری با مدل سایکوآکوستیکی گوش داشته باشد.در شکل - 1 - ساختار تبدیل موجک ادراکی را مشاهده می کنید [11] با استفاده از این ساختار سیگنال ورودی به 17 زیر باند مورد نظر برای تطابق با مدل سایکوآکوستیکی گوش تجزیه می شود.
2.2عملگر انرژی تیگر
انرژی تیگر یک عملگر غیر خطی بسیار مفید است که در بسیاری از کاربردهای پردازش گفتار استفاده می شود در واقع عملگر انرژی تیگر برای افزایش تمایز بین اجزای گفتار و نویز به کار می رود. برای یک سیگنال باند محدود مانند y - n - فرم زمان گسسته انرژی تیگر طبق رابطه زیر محاسبه می شود.
3. پیاده سازی الگوریتم تشخیص وجود گفتار پیشنهاد شده
در فلوچارت شکل - - 2 روند الگوریتم تشخیص وجود گفتار پیشنهاد شده که N نمونه دارد تبدیل موجک ادراکی گرفته می شود و 17 زیرباند به نام - kارائه شده است. در مرحله اول از سیگنال ورودی x - n - wj , m - بدست می آید که j نشان دهنده سطح تبدیل موجک ادراکی است و همانطور که در شکل - 1 - دیده می شود3 j 5 و 1 m17 و N1 k قرار می گیرد که تعدادنمونه ها در هر زیرباند مورد نظر است. با اعمال عملگر انرژی تیگر بر روی - wj ,m - k طبق فرمول - 1 - حاصل [wj ,m - k - ] t j , m - k - بدست می آید.