بخشی از مقاله
چکیده یکی ازمسائل اساسی در بهسازی گفتار، جداسازی منابع صوتی به ویژه در محیطهای شامل نویز وترکیب سیگنالها می باشد. در این مقاله الگوریتمی برای جداسازی سیگنال های صحبت به روش کور با استفاده از الگوریتم خوشه بندی جابجایی میانگین گوسی وزن دهی شده ارائه میشود. جداسازی سیگنالهای صحبت ناشی از دو میکروفن درحالت عاری از نویز در نظر گرفته شده و سپس با اضافه شدن نویز محیطی تعمیم یافته است. نتایج حاصل از شبیه سازی بیان میکند که الگوریتم پیشنهادی عملکرد بهتری نسبت به دیگر روشها دارد.
-1 مقدمه
جداسازی منابع یکی از موضوعات کلیدی در پردازش سیگنالهای دیجیتال است که مقبولیت آن به ویژه در سالهای اخیر افزایش یافته است، هدف از جداسازی سیگنال-های منابع، تخمین درست سیگنال ارسالی از N منبع مختلف با استفاده از مخلوط سیگنالهای دریافت شده توسط M گیرنده - میکروفن - است که این مخلوط میتواند آغشته به نویز و سایر عوامل مزاحم محیطی باشد. مدل های بیشماری برای جداسازی سیگنال صحبت ارائه شده است، کینگ مینگ به منظور جداسازی بهتر منابع از خاصیت تنک بودن سیگنال گفتار بهره جست و روشی مبتنی بر خوشه بندی و زن دهی شده K-means را ارائه داد.
[1] لیتوین و همکارانش از این ویژگی در حوزه زمان-فرکانس برای جداسازی مخلوط گفتار با موزیک استفاده کردند و الگوریتمی بر پایه انرژی گسسته پیشنهاد دادند.[2] آیلون و همکاران نیز از انرژی نقاط زمان- فرکانس در خوشه بندی جابجایی میانگین استفاده کردند.[3] مدل مخلوط ماتریس نیز برای خوشه بندی به ازای هر بعد از فضای ویژگی توسط جایارامان و همکارانش ارائه شد.[4] در این میان الگوریتم DUET1 که توسط ریچارد در سال تکمیل و مطرح شد یکی از روشهای کاربردی جداسازی هر تعداد منبع با وجود دو میکروفن در یک محیط بدون پژواک می-باشد.[5]
در این مقاله الگوریتمی به منظور جداسازی سیگنالهای گفتار مخلوط شده، با قابلیت فهم بالا معرفی میگردد. که با استفاده از وزن دهی نقاط زمان - فرکانسی انجام میگیرد. این روش کارایی مناسبتری نسبت به الگوریتم DUETبه وِیژه در محیط های غرق نویز دارد. الگوریتم خوشه بندی جابجایی میانگین در بخش 2 معرفی شده و بخش 3 به معرفی الگوریتم پیشنهادی اختصاص دارد. نتایج حاصل از شبیه سازی در بخش 4 شرح داده شده است و بخش 5 نیز به نتیجه گیری میپردازد.
-2 الگوریتم خوشه بندی جابجایی میانگین
تکنیک جابجایی میانگین ایدهای غیرپارامتری برای خوشه بندی دادگان است که ماکزیممهای محلی مدهای مختلف یک توزیع احتمال ناشناخته مربوط به برداری تصادفی را تخمین میزند و برای این کار نیازی به تخمین مستقیم توابع چگالی احتمال ندارد و مزیت اصلی آن استقلال کامل از شکل و تعداد توابع توزیع احتمال مورد تقریب است. فرض کنید یک بردار تصادفی است که قصد تخمین ماکزیممهای محلی آن را داریم. همچنین در نظر بگیرید بردار l ام از مجموعه دادگان بوده و نیز، n امین مولفه از این بردار است.
-3 الگوریتم پیشنهادی
الگوریتم DUET برای تفکیک سینگنالهای صوتی از خاصیت تنکی گفتار سود برده و جداسازی را در حوزه زمان - فرکانس با محاسبه برخی ویژگیهای منحصر به فرد هر منبع و دسته بندی آنها، انجام میدهد، این ویژگیها تاخیرها و تضعیفهای نسبی هستند که در مورد سیگنال هر منبع نسبت به گیرنده، به دست میآیند بعد از مشخص شدن پارامترهای هر منبع، نقاطی که دارای یک ویژگی هستند، بر چسب گذاری شده و خوشه بندی توسط رسم هیستوگرام دو بعدی انجام میشود و با اعمال ماسک باینری متناسب هر منبع و برگرداندن به حوزه زمان، عمل جداسازی کامل میشود7]و.[5 واضح است که عملکرد آن در مرحله خوشه بندی مستقیما به تشخیص درست پارامترها و همینطور پارامترهای هموارسازی هیستوگرام باز میگردد.
به منظور دقت بالاتر در این الگوریتم از خوشه بندی جابجایی میانگین گوسی وزن دهی شده - WG-MS - 2 استفاده شده است. روش پیشنهادی قادر است تا عمل تفکیک را به ازای هر تعداد منبع صوتی و در حضور نویز انجام دهد. ایدهی اصلی مورد استفاده در جداسازی سیگنالهای گفتاری با استفاده از این الگوریتم آن است که انرژی هر نقطه زمان - فرکانس سیگنال-های مخلوط شده گفتار در میکروفنها با نقاط دیگر متفاوت است، که میتوان از آن برای جداسازی سیگنال در حوزه مختلط زمان - فرکانس سود برد. این کار با استفاده از وزن دهی نقاط زمان - فرکانسی و محاسبه انرژی نقاط امکان پذیر است.
-4 نتایج شبیه سازی الگوریتم پیشنهادی
در این تحقیق از مجموعه انگلیسی [8] TIMIT با فرکانس نمونه برداری 16 KHZ به عنوان سیگنالهای صحبت مرجع و از نویز سفید گوسی باSNR های مختلف به عنوان نویز جمع شونده استفاده شده است. معیار ارزیابی نسبت سیگنال به تداخل - SIR - میباشد. این معیار ارزیابی برای تک تک منابع به صورت جداگانه قابل محاسبه بوده و نشان دهنده میزان تفکیکپذیری آن از دیگر منابع صوتی است. پس از یافتن مقادیر SIR به ازای هر یک از منابع صوتی، بر روی آنها میانگینگیری شده و مقدار میانگین مطلق به عنوان ملاک اصلی مقایسه و تحلیل مورد استفاده قرار گرفته است. دادگان در حوزه زمان فریم بندی میشوند که مقدار زمانی طول هر فریم برابر با 25 میلی ثانیه انتخاب شده است.
پنجرهها ضرب شونده از نوع همینگ بوده و دارای همپوشانی %50 هستند. همچنین فایلهای صوتی با توان واحد با هم مخلوط میگردند.جدول 1 مقادیر SIR ناشی از تفکیک منابع صوتی در SNR های مختلف را برای دو تکنیک WG-MS و DUET در حالت وجود دو میکروفن و به ازای تعداد متنوعی از منابع مورد مقایسه قرار داده است و همچنین درصد بهبود در SNRهای مختلف در شکلهای 2 و 3 و4 نشان داده شده است.