بخشی از مقاله

چکیده

بهسازی گفتار بهعنوان یک مرحله پیشپردازش موجب افزایش قابلیت فهم گفتار میشود. روشهای پردازش سیگنال بهطور گسترده در سمعک بهمنظور افزایش سیگنال گفتار از محیط پر سروصدا استفاده میشود. در این مقاله الگوریتم بهبود سیگنال گفتار چند میکروفنه در سمعکهای دوگوشی، با استفاده از فیلترهای مبتنی بر خطای فاز، که فقط به فاز سیگنال وابستهاند، پیشنهاد میگردد.

این الگوریتم، شامل بهدقت آوردن فیلترهای خطای فاز متغیر بازمان و منبع گفتار موردنظر و فازهای سیگنال ثبتشده توسط میکروفنها میباشد. ماسک کردن سیگنال گفتار، مؤلفههای نویز، بهقدری دچار تغییر شکل شده که قادر به تشخیص نیستند، بنابراین مقداری از نویز باید دستنخورده باقی بماند و درعینحال، منبع گفتار موردنظر، کیفیت ادراکی - دریافتی - خود را حفظ کند. این امر نشاندهنده بهبود درک گفتار نسبت به الگوریتمهای بهبود گفتار دو میکروفنه قبلی است و قادر به بهبود کیفیت سیگنال مقصد و درعینحال، حفظ تفسیر فضایی کلی میدان صوتی نیز میباشد.

-1 مقدمه

گفتار سادهترین مکانیزم ارتباطی بین انسانها و ماشین است. ازاینرو استفاده از سیستمهای مبتنی بر گفتار همواره موردتوجه بوده است. کیفیت و قابلیت فهم سیگنال گفتار دریافتی در این سیتمها در عملکرد آنها تأثیر زیادی دارد ولی این کیفیت براثر عواملی مانند نویز زمینه یا گوینده رقیب کاهش مییابد. این افت کیفیت و قابلیت فهم در محیطهای با سطح نویز بالا، استفاده از وسایل صوتی مانند سمعک را آزاردهنده میکند. در تمامی کاربردهای مبتنی بر گفتار، استفاده از یک سیستم بهسازی گفتار میتواند باعث ارتقاء عملکرد سیستم شود.

در سمعکهای پیشرفته با توجه به شرایط و صداهای محیطی، سمعک بهصورت خودکار طوری تنظیم میشود که گفتار قابلشنیدن شود و صداهای اضافی محیطی کاهش پیدا کند. صداهای آرام نسبت به صداهای بلند بیشتر تقویت میشوند. در سمعکهای مدرن از دو میکروفون در دوگوشی استفاده میشود که مقوله استفاده از روشهای بهبود سیگنال با الگوریتمهای بهسازی دو میکروفونه را فراهم میسازد. موردی که در این روشها حائز اهمیت است افزایش نسبت سیگنال به نویز، افزایش قابلیت فهم گفتار و قابلیت تشخیص مکان فیزیکی منبع سیگنال میباشد

ترکیب سیگنالهای صوتی چندگانه که از آرایه میکروفنها بهدستآمده مسئلهای است که توجه زیادی را در سالهای اخیر به خود جلب کرده است. علت امر را میتوان تا حدی به این واقعیت نسبت داد که این روشها، توانایی بالای حذف نویز را داشته و درنتیجه امکان عملی سازی بسیاری کاربردها را فراهم میکنند مانند تشخیص گفتار قوی. نمونههایی از تکنیکهای چندمیکروفنه، شامل 1ICA - تحلیل مؤلفه مستقل - [6] و الگوریتمهای مختلف پرتو سازی [11] میباشند.

تکنیک فیلترسازی فرکانس-زمانی پیشنهاد میشود که بلوکهای فرکانس-زمانی مختلف را بر اساس فازهای مشاهدهشده و فازهای مورد انتظار آن بلوکها، تشویق یا جریمه میکند - یعنی فرکانس خاصی برای قطعه زمانی معین - .

هدف این کار، حفظ ساختار طیفی منبع گفتار موردنظر و درنتیجه محتوای اصلی آن منبع گفتار و درعینحال آسیب رساندن به محتوای طیفی دیگر منابع میباشد، با این امید که این منابع دیگر قابلتشخیص نباشند. این تکنیک نیازمند دانش تفاوت زمان رسیدن به مقصد - TDOA - منبع گفتار موردنظر بود. بعلاوه تکنیکی تک منظوره میباشد که تشکیل اولیه آن، درنتیجه تخمین TDOA حاصل میگردد.

الگوریتم بهبود سیگنال گفتار دومیکروفنه با استفاده از فیلترهای مبتنی بر خطای فاز، که فقط به فاز سیگنال وابسته است شامل به دست آوردن فیلترهای خطای فاز متغیر بازمان بر اساس دانش قبلی در زمینه اختلافزمانی ورود منبع گفتار موردنظر و فازهای سیگنال ثبتشده توسط میکروفنها، میباشد. نشان داده شد که با مخفی سازی نمایش فرکانس-زمان سیگنالهای گفتار، مؤلفههای نویز، بهقدری دچار تغییر شکل شدهاند که قادر به تشخیص نیستند، ولی منبع گفتار موردنظر، کیفیت ادراکی خود را حفظ میکند

درروش جداسازی کور منابع - BSS - 3 هدف تخمین سیگنالهای منبع از روی سیگنالهای مخلوط دریافتی است .[6] هدف به دست آوردن هر یک از سیگنالهای منبع موردنظر میباشد. برای انجام این کار از هیچ اطلاعات پیشینی4 درباره منابع یا نحوه ترکیب سیگنالها استفاده نمیشود و به همین علت این عمل را جداسازی کور مینامند

برخی روشهای دیگر از سرنخهای مکانی برای جداسازی منابع استفاده میکنند .[4,7,13] سرنخهای مکانی مرسوم عبارتاند از اختلافزمانی سیگنالهای دریافتی در دو گوش، فاز سیگنالهای دریافتی در دو گوش و اختلاف سطح سیگنالهای دریافتی در دو گوش. در این روشها برای هر منبع جهتدار - که در یک مکان مشخص قرار دارد - ، سرنخهای مکانی آن در هر زیر باند در محدوده خاصی از فضای مشاهدات متمرکزشدهاند. نکته بسیاری از روشهای جداسازی منابع سعی میکنند خوشهها را در فضای مشاهدات پیدا کنند و هر خوشه را به یک منبع نسبت دهند. اگر نمایشهای زمان-فرکانس سیگنالها همپوشانی نداشته باشند، میتوان یک ماسک دودویی ایدئال برای جداسازی منابع به دست آورد. در شرایط وجود انعکاس، یا در شرایط با نویز بخشنده5، کارایی این روشها بهشدت افت میکند

از بین روشهای چند میکروفنه میتوان به وینر چند میکروفنه، شکلدهی پرتو6، روش مبتنی بر همدوسی و روش مبتنی بر فاز اشاره کرد. جواهیم تیمان و همکاران [12] رویکردی که در آن نسبت سیگنال به نویز برآوردگر کنترل یک تصمیم دودویی، سوئیچینگ بین سیگنالهای خروجی حداقل پاسخ واریانس و سیگنالهای استفادهشده در مرجع میکروفون کوچک و سیگنال پرتو ساز دارای دو گوش انتخابی که میتواند سیگنال هدف را افزایش دهد درحالیکه تفسیر7 فضایی کلی از محیط صوتی حفظ شود را پیشنهاد دادند.

یک نگرش دیگر به روشهای بهسازی گفتار میتواند از منظر وابستگی آنها به شرایط محیطی باشد. منظور از شرایط محیطی، هر خاصیت مرتبط با یکی از عوامل سهگانه محیط - یعنی منابع صوتی، فضای انتشار آکوستیکی و میکروفونها - است مانند معلوم بودن یا نبودن نوع نویز قبل از شروع به کار سیستم، داشتن یا نداشتن فرض ایستانی در مورد سیگنال نویز، وجود یا عدم وجود انعکاس، معلوم بودن یا نبودن تعداد منابع و موارد مشابه آن. وجود هر یک از این فرضها در یک روش بهسازی گفتار یک محدودیت بر روی دامنه کاربردهای ممکن برای آن روش ایجاد میکند. یک ایراد مهمتر این راهکار این است که روش تجویزی بهطور تجربی از بین مجموعه محدودی از روشها انتخاب میشود و هیچ توجیه تئوری برای مناسب بودن آن روش برای محیط موردنظر وجود ندارد.

یک سیستم تطبیقپذیر با نوع نویز، باید از یکسو قدرت تشخیص تغییر نوع نویز زمینه را داشته باشد و از سوی دیگر توانایی عملکرد مناسب در برابر نویزهای مختلف را داشته باشد. توانایی یا عدم توانایی یک سیستم برای عمل کردن در برابر یک نوع نویز خاص به ویژگیهایی که آن سیستم از سیگنالهای دریافتی استخراج میکند و برای محاسبه فیلتر به کار میبرد بستگی دارد

در طرف مقابل، روشهای مبتنی بر ویژگی همدوسی در محیطهای با نویز بخشنده مؤثرند و در محیطهای با نویز جهتدار کاراییشان افت میکند. با توجه به نکات فوق، سیستمی که بخواهد قابلیت تطبیقپذیری با محیطهای مختلف - که نوع نویزهای متفاوتی دارند - داشته باشد باید مجموعهای از ویژگیهایی را بکار ببرد که سیستم را قادر سازند تا هم در محیطهای با نویز بخشنده و هم در محیطهای با نویز جهتدار با کارایی بالا عمل کند

درروش اثر ادراکی ارتعاش بر کاهش نویز چندمیکروفونی ارتعاش، مستقیماً برای کاربران CI8 تأثیر میگذارد ولی توانایی الگوریتم کاهش نویز را نیز در بهبود سیگنال، کاهش داده و اثرات ترکیبی بر نویز ایجاد میکند .[3] هر دو نوع تکنیک کاهش نویز تک میکروفنه و چندمیکروفونه، در شنوندگان CI بهمنظور بهبود کارایی، مورد ارزیابی قرارگرفتهاند. کاهش نویز تک میکروفونه بر اساس فرضیات توزیع سیگنال آماری، میتواند مزیت قابلیت فهم گفتاری را در صورت عدم مدولاسیون نویز پسزمینه به همراه داشته باشد، ولی این مزیت درزمانی که نویز با گفتار در رقابت باشد کاهش مییابد

کیفیت گفتار از دو بعد مورد قضاوت قرار میگیرد: قابلیت ادراک و قابلیت فهم. کیفیت ادراکی ازنظر میزان خوب بودن فقط به شنونده بستگی دارد. از سوی دیگر قابلیت فهم گفتار، ابزار سنجش دقتی است که به شناسایی درست هجاها، کلمات یا جملات بکار رفته در آزمایش، بستگی دارد. بنابراین، جدا از کیفیت ادراکی، تلاشهای زیادی هم درزمینه پیشبینی قابلیت فهم گفتار حاصل پس از پردازش با الگوریتمهای کاهش نویز، انجامشده است

در این مقاله با حفظ مقداری از نویز درروش فیلتر کردن مبتنی بر خطای فاز سعی در افزایش تشخیص محل صوت برای شنونده و نیز افزایش قابلیت فهم سیگنال گفتار میباشد. درروش پیشنهاد پارامتر کنترلی وجود دارد که میتوان میزان نویز باقیمانده را کنترل کند. در آزمایشات عملکرد بهتر روش پیشنهادی نسبت به روشهای متداول بهبود سیگنال گفتار دو میکروفونه نشان داده شد و با باقی ماندن مقدار ناچیزی نویز موقعیت مکانی صوت حفظ میشود.

چیدمان ادامه مقاله به این صورت است که در بخش دوم به مطالعه سیستم بهبود گفتار دو میکروفونه مبتنی بر خطای فاز پرداخته میشود. سپس روش پیشنهادی در بخش سوم مطرح میگردد. نتایج آزمایشات در بخش چهارم گزارش میشود. درنهایت در بخش پنجم نتیجهگیری آورده میشود.

-2 سیستم بهبود گفتار دو میکروفونه مبتنی بر خطای فاز

سیستم دو میکروفنه زیر را در نظر بگیرید:
که در حوزه فرکانس بهصورت زیر میباشد:

که -   1 - و   2 - - پاسخهای ضربه مربوط به منبع گفتار برای میکروفنهای اول و دوم میباشند. 1 - - و 2 - - سیگنالهای بهدستآمده با میکروفنها میباشند و s - t - و 2 - - و n2 - t - منبع اصلی و سیگنال نویز هر میکروفن میباشند. هدف بهبود گفتار، ترکیب یا پردازش سیگنالهای مشاهدهشده 1 - - و 2 - - بهمنظور بهدستآمده آوردن نسخه معادل ادراکی - دریافتی - از s - t - میباشد. بدین منظور، طیف وسیعی از تکنیکها، پیشنهادشده که معمولترین آنها، پرتو سازی است.

الگوریتمهای زیادی سعی در تخمین TDOA بین جفت میکروفن داشتهاند.معمولاً این الگوریتمها، دارای ابزار اکتشافی میباشند که احتمال هر TDOA ی ممکن را تخمین زده و محتملترین مقدار را انتخاب میکند. پرکاربردترین تخمین گر TDOA، دسته همبستگی تعمیمیافته cross میباشند که سعی در فیلترسازی همبستگی cross بین دو سیگنال دریافتی بهصورت بهینه یا نزدیک بهینه دارند و سپس، شاخص زمانی مقدار اوج نتیجه بهعنوان تخمین TDOA در نظر گرفته میشود. با توجه به مدل ساده روابط - 1 - و - 2 - ، داریم:

دو میکروفن، نسخههای تأخیر زمانی و مقیاس دار سیگنال منبع s - t - را بدون مدلسازی ارتعاش دریافت میکنند. هدف تخمین TDOA، تخمین زدن Ƭ با توجه به سیگنالهای میکروفنها میباشد. معمولترین راهحل این مسئله، روش همبستگی تعمیمیافته cross میباشد:

که  ̃ تخمین تأخیر سیگنال منبع اصلی دو میکروفن میباشد. معادله فوق، بر این فرض است که فقط یک قطعه سیگنال میکروفن در دسترس میباشد. که در عمل میتوان آن را بهصورت فرکانس گسسته نوشت:

که ، بیشترین فرکانس موردنظر برحسب رادیان میباشد. رابطه فوق بر این فرض است که تأخیر زمانی منبع دوم بین میکروفنها برای همه قطعات سیگنال، ثابت باقی میماند. انتخاب عملی تابع وزن دهی W - k,w - بهطور کامل برای منابع گفتار و صوت عمومی مطالعه شده است. سه انتخاب متفاوت عبارتاند از: حداکثر احتمال - ML - ، تبدیل فاز - PHAT - و همبستگی فیلتر نشده - UCC - cross بهصورت زیر میباشند:

-3 روش پیشنهادی

در مقاله جاری، تکنیک فیلترسازی فرکانس-زمانی، پیشنهاد میشود که بلوکهای TF مختلف را بر اساس فازهای مشاهدهشده و فازهای مورد انتظار آن بلوکها، تشویق یا جریمه میکند. هدف این کار، حفظ ساختار طیفی منبع گفتار موردنظر است. این تکنیک، نیازمند دانش TDOA ی منبع گفتار موردنظر است. بعلاوه تکنیکی تک منظوره میباشد که تشکیل اولیه آن درنتیجه تخمین TDOA حاصل میگردد. بهعبارتدیگر توانایی دنبال کردن تغییرات شرایط محیطی و حذف نویز متناسب با شرایط، از سیگنال دو میکروفونه با در نظر گرفتن معیار قابلیت فهم است.

طبق آنچه در رابطه - 9 - مشاهده شد فیلتر بهدستآمده سعی در حذف تمامی نویز در یک روش مبتنی بر خطای فاز دارد. در این مقاله با حفظ مقداری از نویز میخواهیم قدرت تشخیص محل صوت برای شنونده قابلفهم باشد. بنابراین با تغییر رابطه - 9 - بهصورت رابطه زیر یعنی با اضافه کردن ضریبی از نویز در صورت این امکان فراهم میشود.

که در آن آلفا بهعنوان ضریب در نظر گرفته میشود و عددی بین صفرتا یک میباشد. زمانی که آلفا به سمت صفر متمایل است نویزی در پسزمینه باقی نمیماند ولی با افزایش مقدار آلفا و تمایل آن به یک هیچ نویزی حذف نمیگردد. در بخش بعد به بررسی نتایج آزمایشات پرداخته میشود.

-4نتایج آزمایشات

در این بخش نتایج حاصل از آزمایشات صورت گرفته گزارش میگردد. آزمایشهایی روی سیگنالهای ضبطشده از 5 گوینده مختلف انجامگرفته است. شرایط ضبط صدا به این فرم بوده است که دو میکروفن در فاصله 40cm هم قرار دارند و دو منبع صوت در فاصله 2 متری میکروفونها در زوایای مختلف قرارگرفتهاند که یکی منبع صوت و دیگری نویز است. منابع در زاویه صفر عمودی - یعنی در صفحه افقی گذرنده از دو گوش - قرار دارند. در شبیهسازی ابعاد اتاق را 6 متر در 7 متر در 2,5 متر در نظر گرفتهشده است. انعکاس صوت روی دیوارهای اتاق نیز در نظر گرفته میشود

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید