بخشی از مقاله

چکیده

در این مقاله روشهای جداسازی منبع صوتی با استفاده از رویکرد ماتریس عاملبندی نامنفی مورد بررسی قرار میگیرد. در جائیکه تنها یک مدل منبع واحد در دسترس باشد، باید مدلی برای یک منبع ناشناخته تخمین زده شود. یک سیگنال ترکیبی را میتوان از طریق عاملبندی ماتریسی یا ویژگی تنسوری جداسازی کرد. این روشها غالبا مولفههای هارمونیکی طیف مشابه را برای افزونگی الگوها به منظور جداسازی استفاده میکنند. استفاده از این ویژگی نیازمند پارامترهای کمتری نسبت به روشهای مبتنی بر طیف است، به همین علت میزان پیچیدگی را به حداقل میرساند. روش عاملبندی تنسوری، سیگنالهای جداسازی شده از طریق یادگیری پارامترهای طیفی وینر را توسط پارامترهای فعال آموزشدیده در مرحله اول محدود میکند. نتایج برای دو بلندگوی ترکیبی بدست آمده است. در این مقاله روشهای عاملبندی ماتریس نامنفی با نظارت محدود و عاملبندی تنسور مدولاسیون طیفی نامنفی کور مورد بررسی قرار میگیرد.

کلید واژه- ماتریس عاملبندی نامنفی، روش عاملبندی تنسوری، مدولاسیون طیفی نامنفی

-1 مقدمه

جداسازی منبع صوت، فرآیند تجزیه یک ترکیب صوتی ضبط شده به مولفههای اصلی تشکیل دهنده آن است. این فرآیند کاربردهای فراوانی دارد که از آن جمله میتوان به ارتقا صوت گف تار [1]، کاهش نویز و م قاو مت [2]، ترک یب م جدد موزیک [3] و بهبود کیفیت در کاربردهای کمک شنوایی [4] اشاره کرد. بسته به نوع سیگنال جداسازی شده، تکنیکهای متعددی وجود دارد که ممکن است مناسب کاربردهای در دسترس باشند.عاملبندی ماتریس نامنفی - NMF - و عاملبندی تنسور نامنفی - NTF - ، جداسازی کور منبع واحد بدون دانستن جزییات منبع را معرفی میکنند .[7-5] در این موارد، اطلاعات قبلی در رابطه با سیگنال ترکیبی در نظر گرفته نمیشود.

در جائیکه اطلاعات بیشتری در رابطه با سیگنال ترکیبی وجود داشته باشد، میتوان رویکردهای جدا سازی با نظارت بی شتر را بکار گرفت. در حالت کلی در دسترس بودن یک مدل مبتنی بر اطلاعات از پیش تعیین شده برای هر منبع، میتواند نتایج جداسازی مطلوبی را ایجاد کند. همانطور که در مراجع [9] و [10] نشان داده شده است، تکنیک تعیین شده برای جداسازی مبتنی بر NMF با نظارت بیشتر، یک مجموعه اطلاعات اتمی از مواد آموزشی مربوط به هر منبع را جمعآوری کرده و یک ترکیب افزایشی خطی از آنها را آموزش میدهد که سیگنال ترکیبی را تخمین بزنند. اگر تنها یک مدل برای یک منبع در دسترس باشد، آنگاه میتوان برای فراهم آوردن عملکرد بهتر در مقایسه با جداسازی کور، رویکردهای جداسازی با نظارت حدود را بکار گرفت .[11] در این روش باید هر دو پارامتر فعالسازی طیفی و زمانی برای یکی از منابع تخمین زده شود و برای منابع دیگر از طریق اتمهای موجود مدل شود. در این موارد رخداد ا ضافی کاملا امکانپذیر ا ست که بخش بدون نظارت سیگنال باید به صورت ایدهآل، داده گم شده را به جای مدلهای تمام مخلوط مدل کند.

-2 رویکردهای جداسازی مبتنی بر NMF پایه

رویکرد عاملبندی ماتریس نامنفی - NMF - ، تفکیک منبع سیگ نال و کا نال را تول ید میک ند. به این ترت یب ماتریس اسپکتروگرام اندازه سیگنال مخلوط، به مجموعی از مولفهها تجزیه میشود که دارای طیف اندازه ثابت و وزن متغیر با زمان است. ماتریس اسپکتروگرام اندازه ، میتواند به صورت ماتریس مدل شود، حاصلضرب ماتریس اتم طیفی با ماتریس وزن مربوطه آن به شکل زیر است:حالت نظارت محدود شامل مدلینگ یکی از منابع از طریق یک مجموعه اطلاعات از اتمهای طیفی است که بدون تغییر باقی مانده و طیف اتم ها را برای منبع یا منابع ناشناخته تخمین میزنند. بنابراین ترکیب با الحاق ماتریسهای منابع شناخته شده و شناخته نشده، مدل میشود در نتیجه داریم:

 1 و  2 مجموعه اطلاعات پایه طیفی برای هر منبع هستند. بطور خاص،  1 میتواند از اتمهای بدست آمده از دادههای آموزشی متشکل از  1 ساخته شود، درحالیکه  2 باید برای ن مایش  2 تخمین زده شود. به همین ترت یب ماتریس وزنهای از الحاق وزنهای هر منبع تشکیل میشود، بطوریکه مدل ترکیبی به شکل زیر بیان میشود:ماتریسهای  2،  1 و  2 با به حداقل رساندن واگرایی کولبک-لبلر - KL - بین و ̂ و از طریق معادلات بروزرسانی تکرار شونده تخمین زده میشوند .[11] مسئله تجزیه KL، را میتوان به صورت یک الگوریتم اولیه دوگانه مرتبه اول - FPA - بیان کرد. بنابرین:

-1-2  محاسبات اولیه و دوگانگی

بردار ∈ ℝ+ و ماتریس ∈ ℝ+ ×  را به عنوان پارامترهای شناخته شده و ∈ ℝ+ را به عنوان بردار ناشناختهای که باید تخمین زده شود، در نظر بگیرید که طبق رابطه زیر با یکدیگر در    
ارتباط هستند:هدف، کمینه کردن واگرایی KL بین  و   است.  را یک ستون از دادهها، را عامل ثابت و را یک ستون از عامل تخمین زده شده در نظر بگیرید. مسئله ND با واگرایی KL را میتوان به شکل زیر بیان کرد:
به منظور ارائه یک گواهینامه بهینگی، ما باید مطمئن شویم که محدودیت ⊺ - − - ≼ ⊺1 ارضا شده است. بنابراین زمانیکه ارضا نشود، به شرح زیر طرحریزی میکنیم:
که ⊘ نشاندهنده عملگر تقسیم با ورود عاقلانه است.

-2-2 الگوریتم اولیه دوگانه مرتبه اول [5]

الگوریتم زیر بر اساس روش بیان شده عمل می کند:الگوریتم فوق نیازمند محاسبه عملگرهای پراکسیمال prox ∗ - - و prox - - میباشد که به شرح زیر هستند:

-3-2 انتخاب خودکار  

در این بخش یک روش اکت شافی بر مبنای نتیجه همگرایی، برای انتخاب و بدون مداخله کاربر ارائه می شود. این روش به شرح زیر است:
- 1  اندازه گامها باید شرط‖ ‖2 ≤ 1 را ار ضا کند کهبزرگترین مقدار تکیناست.

- 2  نرخ همگرایی با مقدار زیر کنترل میشود :[22]

که - ∗, ∗ - یک جفت اولیه بهینه است. اگر - ∗, ∗ - شناخته شده باشد، مسئله کمینه کردن زیر با محدودیت     ‖ ‖2 ≤ 1 در نظر گرفته میشود:با اعمال شرایط مرتبه اول و حل معادله در نهایت داریم: - 22 -  تاثیر NMF در حا لت کور مبتنی بر قابل یت آن در جدا کردن الگوهای زائد در یک روش بدون نظارت میباشد. در حالت با نظارت، مولفه طیفی با مواد آموزشی تعلیم داده شده و تنها وزنهای تخمین زده میشوند.

-3 روش تفکیک 17 -

در این روش با ا ستفاده از یک مدل عاملبندی تن سوری که سیگنال ترکیبی را به صورت مجموعی از حاصلضربهای 3بُعدی به جای 2بُعدی در NMF ن شان میدهد، ارائه می شود. سیگنال به تعدادی زیرباند تقسیم میشود و الگوهای مدولاسیون فرکانس پایین در تمام باندها، ترکیب را تخمین میزنند. مدل تنسور 3 بُعدی و تعداد محدودی از برشهای فرکانسی مورد نیاز نمایشمدولاسیون ها، ت عداد پارامتر های مورد ن یاز مدل را کاهش میدهند که به نوبه خود باعث کاهش تمایل به سمت رخداد ا ضافی می شوند. رویکرد با نظارت محدود شامل آموزش تعدادی از الگوهای مدولاسیون توسط مواد آموزشی است، درحالیکه سایرین مانند برقراری رویکردهای مبتنی بر NMF، از طریق معادلات بروزرسانی شده آموزش داده شدهاند.

استفاده از اسپکتروگرام مدولاسیون به عنوان یک ویژگی، با مدل کردن محاسباتی حلزون گوش در جائیکه ارتعاش در داخل ساختار گوش به سیگنالهای رمز شده الکتریکی تبدیل میشود، انجام میشود. پاسخ تحریک مکانی غشاء پایینی وابسته به فرکانس تحریک است و مولفههای جداگانه باید برای تحریک منحصر بفرد نواحی غشاء به اندازه کافی در فرکانس جدای از یکدیگر باشند. این موضوع استنتاج میشود که در فیلتر شنوایی مشابه "کانالها"، فرکانسهای مشابه وجود دارند و خروجی حلزون گوش میتواند به باندهای فرکانسی تقسیم شوند. هر خروجی باند، انرژی تحریک لحظهای حاضر در آن کانال را تخمین میزند.

این افزونگی بین پوش مدولاسیون طیف ها، در نمایش طیفی متعارف سیگنالهای ترکیبی وجود ندارد بنابراین نمیتواند به عنوان یک ویژگی استفاده شود در زمانیکه تفکیک مولفههای طیفی، از همان منبع در یک ترکیب سرچشمه میگیرد.تن سور مبتنی بر MS ا ستفاده شده در عاملبندی، به روش زیر تولید میشود: در ابتدا سیگنال صوتی یک صدایی توسط یک فیلتربانک گاماتن بی ست باندی فیلتر می شود. خروجی هر کانال فیلتربانک برای تولید پوش مدولاسیون - ME - ، به فرم نیمموج درآمده سپس از یک فیلتر پایینگذر با یک فیلتر بازگشتی تکپل با پهنایباند 3 دسیبل 26Hz عبور داده میشود. اسپکتروگرام مدولاسیون برای هر کانال فیلتربانک، با گرفتن تبدیل فوریه زمان کوتاه - STFT - از هر کانال با یک پنجره آنالیز همینگ بدست میآید. خروجی STFT به 150 ق سمت فرکان سی مثبت تق سیم میشود زیرا بخش ز یادی از محتوای فر کانس بالا توسط فیلترینگ حذف می شود. تنسور 3بُعدی با ابعاد × × در شکل1 معرفی شده است.

-1-3  مدل تنسور

تنسور   با جمع  مولفه تخمین زده میشود. هر مولفه

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید