بخشی از مقاله

چکیده

جداسازی سیگنالهای منابع که در یک محیط نویزی با هم ترکیب شدهاند، مبحث مهمی در بهسازی گفتار به شمار میرود، در این مقاله الگوریتم خوشه بندی جابجایی میانگین گوسی وزن دهی شده به منظور جداسازی کور منابع گفتار، مورد بحث قرار میگیرد. این الگوریتم با استفاده از ماسک باینری در حوزه زمان فرکانس، جداسازی را انجام میدهد که در آن، تعداد منابع و همچنین تعداد میکروفنهای موجود قابل تغییر و انعطاف بوده و همچنین در شرایط نویزی، با توجه به شبیه سازیهای انجام شده، عملکرد مناسبی نسبت به دیگر روشها دارد.
کلید واژه جداسازی منابع به روش کور، خوشه بندی، سیگنال صحبت مخلوط، ماسک باینری.

1 مقدمه

هدف تکنیک جداسازی منابع گفتار، تخمین صحیح سیگنالهای ارسالی از منبع با استفاده از مخلوط سیگنالهای دریافتی از میکروفنها است، به طوری که قابلیت ادراک پذیری بالایی، به ویژه در حضور نویز را داشته باشند. لزوم تمرکز و توجه بر این مبحث در کاربرد آن در ویدیو کنفرانسها، پیش پردازنده-ها در سمعک، جداسازی سیگنالهای استریو، مخابرات سیار و...نمود پیدا میکند.برای حل مسأله جداسازی منابع، روشهای متنوعی با کاربردهای مختلف بیان شده است. در حالت وجود یک میکروفن که به روشهای تک کاناله معروفند، تنها یک سیگنال ترکیب شدهی دریافتی جهت پردازش وجود دارد و جداسازی اغلب بر پایهی ویژگیهای خاص آماری و فرضیات موجود سیگنال مخلوط انجام میشود.>1@

در الگوریتمهای شامل دو میکروفن یا روشهای دوکاناله، نیز تکنیکهای متفاوتی بیان شده است که از جمله پرکاربردترین آنها روش DUET1 میباشد.[2] در این روش، جداسازی هر تعداد منبع با وجود دو میکروفن در محیط بدون پژواک قابلپیاده سازی است. این روش از حوزه زمان- فرکانس استفاده کرده با تشکیل هیستوگرام دو بعدی، پارامترهای تأخیر و تضعیف نسبی را تخمین زده و از ماسک باینری برای جداسازی استفاده میکند.[3]با توجه به محدودیت تعداد میکروفن در این الگوریتم، روشهای تعمیم یافتهی دیگری نیز برای آن پیشنهاد شده است. از جمله روش DUET یک بعدی که در آن از هیستوگرام یک بعدی برای تخمین تأخیرها استفاده و مقدار تضعیف های نسبی برابر 1 در نظر گرفته شده است.[4]

شی و همکارانش نیز الگوریتمی مبتنی بر ماکزیمم کردن تابع همبستگی خطی پیشنهاد دادند.[5] آیلون و همکارانش همچنین از انرژی نقاط زمان فرکانس برای خوشه بندی جابجایی میانگین به منظور جداسازی بهتر استفاده کردند.[6] از دیگر الگوریتمهای موجود نیز میتوان به ارایه روشی مبتنی بر آنالیز مولفههای مستقل و حوزه موجک اشاره کرد.[7]در حالت وجود بیش از دو میکروفن، آرایهای از میکروفنها وجود دارد. آرایهی میکروفنی، مجموعهای از میکروفنها هستند که در قالب یک آرایش هندسی مشخص در مکانهای مختلف از فضا چینش میشوند. افزایش تعداد میکروفنها و وجود دادههای بیشتر دقت تخمین را بالاتر میبرد اما به افزایش تعداد و هزینه تجهیزات، بار محاسباتی بالا، مصرف انرژی بیشتر و حل معادلات پیچیدهتر منجر خواهد شد.[8]

الگوریتم ارائه شده در این مقاله، توانایی جداسازی سیگنال-های مخلوط شده با هم را با استفاده از تعمیم روش خوشه بندی جابجایی میانگین به حالت وزن دار آن فراهم میکند. نتایج مقایسه، بیانگر عملکرد بهتر این روش نسبت به دیگر الگوریتمها به خصوص در حالت افزایش تعداد میکروفنها و در شرایط نویزی میباشد.بخش 2 به معرفی الگوریتم خوشه بندی جابجایی میانگین میپردازد. در بخش 3 الگوریتم پیشنهادی بیان میگردد، نتایج حاصل از شبیه سازی در بخش 4 ارائه شده و بخش 5 نیز به نتیجه گیری اختصاص یافته است.

2 الگوریتم خوشه بندی جابجایی میانگین

یک روش غیرپارامتری برای مشخص کردن ماکزیممهای محلی از طریق خوشه بندی دادگان است که نیازی به تخمین مستقیم توابع چگالی احتمال ندارد و از شکل و تعداد توابع توزیعاحتمال مستقل میباشد.[6]اگریک برداری تصادفی باشد که به دنبال یافتن ماکزیممهای محلی آن هستیم و همچنین    بردار l ام ازمجموعه دادگان بوده و    ، n ام مؤلفه از این بردار است. در اینحالت تخمین گر چگالی احتمال گوسی کرنل x به صورت زیرتخمین زده می شود:                        
در معادله بالا h، پارامتر هموارسازی می باشد. گردایان تخمین گر چگالی احتمال نیز از رابطه زیر محاسبه می شود:
که در آن نشان دهنده n امین مؤلفه بردار جابجایی  میانگین یا همان است که مؤلفههای آن در جهت گردایان  تخمین گر تابع چگالی قرار دارند. و در نقطه x از فرمول زیر به دست می آید:
این الگوریتم مقدار را که p نشان دهنده مرتبه تکرار است، به صورت تکراری در جهت حداکثر گردایان به روزآوری می کند:
این تکرارها تا رسیدن به همگرایی ادامه می یابد.ILD و ITD نیز پارامترهای تأخیر و تضعیف نسبی می-باشند، که بانشان داده شده و از روابط زیر قابل تخمین هستند:                                        
وتبدیل فوریه زمان کوتاه - STFT - ، k امین باند فرکانسی و m امین فریم از سیگنال گفتار هستند. پارامترهای ترکیب محاسبه شده به فرم دو بردار با طول L=K.M در میآیند. M - بیانگر تعداد فریمها و K تعداد باندهای فرکانس میباشد - و L نیز معرف تعداد بردارهای موجود در مجموعه دادگان است. بردار x با طول L، به ازای دو ویژگی استخراجی محاسبه گردیده و قابلیت اعمال برای ادامه فرآیند جداسازی منابع صوتی را دارد.

3 الگوریتم پیشنهادی

در این روش به منظور جداسازی بهتر منابع در حضور نویز، در مرحله خوشهبندی، الگوریتم خوشهبندی جابجایی میانگین گوسی وزن دهی شده - WG-MS - استفاده میشود. این الگوریتم قادر است تا عمل جداسازی را برای هر تعداد منبع صوتی، در حضور دو، سه و یا چهار میکروفن در حضور نویز انجام دهد. از آنجا که انرژی هر نقطه زمان فرکانسی سیگنالهای مخلوط شده در میکروفنها با نقاط دیگر، متفاوت است و سیگنال گفتار در حوزه زمان فرکانس خاصیت تنکی دارد.این الگوریتم از این خاصیتها برای جداسازی سود برده و با استفاده از وزن دهی نقاط زمان فرکانسی، جداسازی را انجام میدهد. پارامترهای هموارسازی h در این تکنیک به صورت تابعی از ابعاد کرنل تغییر میکند و از میانگین وزنهای کرنلها به جای میانگینگیری استاندارد استفاده میشود.[9]
تخمینگر تابع چگالی احتمال با رابطه زیر تعریف میشود: - 7 -
̂که در آن n ابعاد ویژگی، l تعداد کرنل ها و فاکتور وزن دهی است که به هر کرنل اعمال میشود. تابع وزن دهی برابر است با مربع میانگین هندسی انرژی سیگنالهای خروجی میکروفنها و با رابطه زیر بیان میشود:
ماتریس H نیز ماتریس هموارسازی است که توسط رابطه - 9 - تعریف میگردد:        
در رابطهی بالا پارامتر هموارسازی برای L امین کرنلدر n امین بعداست. پارامتر  معرف، n امین بعد بردار جابجایی میانگینوزن دهی شده است. رابطه - - 7، پیاده سازی الگوریتم پیشنهادی مبتنی بر وزن دهی نقاط زمان فرکانس را امکان پذیر میسازد.مقادیر بهینه برای پارامترهای هموارسازی به صورت تجربیبرابرانتخاب شده اند که پارامتر به بردارILD و پارامتر به بردار ITD اختصاص دارد.    
به بیان دیگر، در این الگوریتم از سیگنالهای  مخلوط دریافتی، STFT گرفته، پارامترهای تضعیف و تأخیر نسبی و همچنین بردار وزن دهی محاسبه میشود، خوشه بندی به روش فوق انجام میگیرد و در نهایت مشابه الگوریتم DUET، با دسته بندی مجموعه نقاطی که یک ویژگی دارند و تشکیل و اعمال ماسک باینری مناسب هر دسته و بازگشت به حوزه زمان جداسازی تکمیل میگردد.

در حالت تعمیم الگوریتم برای سه و چهار میکروفن، ILD و ITD های مختلف را میتوان از هر جفت سنسور سنجید که در نتیجه باعث افزایش داده فضای ویژگی ورودی برای خوشهبندی می شود.[10]بردار جابجایی میانگین گوسی وزن دهی شده - WG-MS - برای هر تعداد از دادهها صحت دارد. در این حالت الگوریتم جابجایی میانگین، تخمینهای مختلف از پارامترهای مخلوطمنابع را از هر جفت میکروفن فراهم میکند.    اگر را حالت M,STFT  مخلوطسیگنال در نظر بگیریم و اگر N,STFTسیگنال منبع باشد وبه عنوان پارامترهای ترکیب نسبی از m امین میکروفن به ازای n امین منبع تعریف شود. همچنین  تأخیر و تضعیف نسبی باشند، داریم:

که در آن Sj - k,l - ، منبع فعال در هر کدام از نقاط - k,l - است.اگررا اختلاف ترکیب نسبی مرتبط بین m امین و m-1 امین میکروفن در نظر بگیریم، پارامترهای مخلوط مربوط به n امین منبع میباشند. با توجه به اینکه را میتوان به صورت مجموعی از ها بیان کرد، این دو سیگنال دریافت شده توسط m امین میکروفن را میتوان به عنوان یک تابع از سیگنال دریافت شده توسط - m-1 - امین میکروفن مدل کرد.اگر آرایهای با M سنسور را در نظر بگیریم، - M-1 - جفت میکروفن متوالی وجود دارد و سیگنال دریافتی هر میکروفن را میتوان به صورت سیگنال دریافتی میکروفن قبلی ضرب دراختلاف ترکیب نسبی -      - بین آنها بیان کرد.            
با تعریف  ̂ به گونه زیر:            
که در آن  تخمین از پارامترهای مخلوط منابع  به دست آمده از الگوریتم جابجایی میانگین است و منابع اصلی توسط ماسک باینری از هم تفکیک شده و جداسازی با فرمول زیر کامل میشود:          پس از تشریح تکنیک مورد نظر در بخش بعد به توصیف نحوه شبیه سازی الگوریتم توصیف شده خواهیم پرداخت.

4 نتایج شبیه سازی الگوریتم پیشنهادی

در این مقاله، از مجموعهی دادگان انگلیسی [11]TIMIT با فرکانس نمونه برداری 16KHz به عنوان سیگنال صحبت مرجع و همچنین از نویز سفید گوسی جمع شونده با SNR های مختلف برای تست مدل پیشنهادی استفاده شده است. معیار ارزیابی نیز SIR نسبت سیگنال به تداخل میباشد.دادگان در حوزه زمان به منظور ایستان فرض کردن سیگنال

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید