بخشی از مقاله
در این مقاله، روشی جدید برای بهسازی سیگنال های صوتی ارائه شده است. این روش که مبتنی بر روش فیلتر کالمن می باشد، از ضرایب پیشگویی خطیٌ (LPC) برای تخمین و استخراج نویز استفاده می کند. سپس از این نویز برای تخمین پارامتر های فیلتر کالمن استفاده گردیده است. در حالی که در روش های قبلی از قسمت های سکوت گفتار (غیرگفتاری) برای تخمین نویز صوتی به کار گرفته می شد. در ادامه به مقایسه روش های پیشنهادی و روش موجود پرداخته و مشاهده گردید که روش پیشنهادی به میزان چشمگیری، معیار ارزیابی ادراکی کیفی گفتارٍ((PESQ سیگنال آغشته به نویز را بهبود بخشیده است. همچنین در این مقاله از معیار آزمایش شنواییَ (MOS) هم استفاده شده است که نتیجه آزمایش شنوایی نیز بیانگر این نتایج هستند.
واژه های کلیدی: بهسازی سیگنال های صوتی، فیلتر کالمن، آنالیز LPC
.1 مقدمه
کاهش و یا حذف نویز، یکی از مباحث مهم در سیستم پردازش سیگنال های صوتی، مانند سیستم های ارتباطی، کدینگ سیگنال های صوتی و بازشناسی گفتار می باشد به همین دلیل روش های متعددی برای کاهش میزان نویز در سیگنال های صوتی ارائه شده است. از این میان می توان به روش های مبتنی بر فیلتر کالمن [1,2,3,4] ، تفریق طیفی]ِ[ ، فیلتر وینر]ّ[ و تبدیل موجک [7] اشاره نمود.
در روش های مبتنی بر فیلتر کالمن سه فرض ذیل برقرار می باشد: نویز و سیگنال جمع شونده باشند.
نویز و سیگنال ناهمبسته باشند . یک کانال در دسترس باشد.
در میان روش های تک کاناله بهسازی گفتار، فیلتر کالمن یکی از موثرترین آنها می باشد. در این روش عمدتاً سیگنال گفتار به صورت یک فرایند AR شناخته می شود و عملیات حذف نویز در دو مرحله صورت می گیرد: در مرحله اول واریانس نویز و پارامترهای گفتار تخمین زده شده و در مرحله دوم با استفاده از فیلتر کالمن سیگنال گفتار تخمین زده می شود. روش های مختلف فیلتر کالمن در تخمین پارامترهای گفتار و چگونگی
1 Linear predictive coefficient 2 Perceptual Evaluation of Speech Qualit
3 Mean Opinion Score
1
The 8th Symposium on Advances in Science and Technology (8thSASTech), Mashhad, Iran. 8thSASTech.khi.ac.ir
اعمال الگوریتم کالمن باهم تفاوت دارند .[1] در برخی از روش ها پارامترهای گفتار را از روی گفتار بدون نویز تخمین زده و آن را به فیلتر کالمن اعمال می کنند .[2] در حالی که در سایر روش ها این پارامترها از روی گفتار نویزی استخراج شده و به عنوان تخمین پارامترهای گفتار به کار می روند. در این مقاله ابتدا روش فیلتر کالمن را شرح داده و سپس با استفاده از آنالیز [8,9,10] LPC به تخمین نویز از روی سیگنال صوتی پرداخته می شود. بدین ترتیب مشاهده می گردد که پارامترهای نویز تخمینی به میزان زیادی به پارامترهای نویز واقعی نزدیک است و به همین دلیل سبب بهبود چشمگیر روش فیلترکالمن شده است.
.2 فیلتر کالمن :
فیلتر کالمن یک فیلتر انطباقی حداقل مربعات خطا است که یک راه حل بازگشتی محاسباتی بهینه را برای تخمین یک سیگنال در حضور نویز گوسی فراهم می کند. این الگوریتم با استفاده بهینه از اطلاعات غیر دقیق روی یک سیستم خطی با خطا های گوسی، به طور مداوم سیستم را بروز رسانی کرده و بهترین تخمین را از حالت فعلی سیستم می زند. عملکرد فیلتر کالمن شامل دو مرحله است: مرحله اول پیش بینی و در مرحله دوم تصحیح. در اولین مرحله، حالت سیستم با مدل دینامیکی پیش بینی می گردد و در مرحله دوم با مدل مشاهده، اصلاح می شود تا کواریانس خطای تخمین حداقل گردد و تخمین بهینه شود.
مدل گفتار نویزی و فیلتر کالمن
فرض براین است که سیگنال گفتار در طول هر فریم ، ایستان است و مدل AR گفتار در تمام قسمت ها یکسان باقی مانده است.
سیگنال گفتار x(k) با یک مدل AR مرتبه P به صورت (1) مدل می شود:[4]
(1) i = 1 … . P , ( ( ( x(k
= Σ αi x(k − i + u(k
که x(k)، kامین نمونه گفتار و αi ها ضرایب پیشگویی خطی ( LP ) مدل AR هستند و u(k) خطای پیشگویی است که دارای توزیع نرمال
(N(0,Q)) می باشد که Q ماتریس کواریانس نویز فرایند است. سیگنال مشاهده شده ی y(k) مطابق (2) با نویز سفید جمع شونده n(k) آلوده شده
است :
(2) y(k) = Hx(k) + n(k)
در (2)، n(k) نویز سفید گوسی و ناهمبسته با u(k) است. n(k) دارای توزیع نرمال (N(0,R)) می باشد. R ماتریس کواریانس نویز اندازه گیری
است. سیستم را با معادلات حالت زیر مدل می کنیم :
(3) x(k) = Ax(k − 1) +
(4) Gu(k)
y(k) = Hx(k) +
n(k)
که x(k) = [x(k − p + 1) . . . x(k)]T بردار حالت P×1 بعدی، A ماتریس انتقال P×P بعدی است که در (5) نشان داده شده است:
(5)
کهG = [0 0 . . . 0 1]T دارای طولی به اندازه P (مرتبه ( LP می باشد و H= G T به ترتیب بردار سطری مشاهدات و بردار ورودی می باشد.
1 Frame
2
The 8th Symposium on Advances in Science and Technology (8thSASTech), Mashhad, Iran. 8thSASTech.khi.ac.ir
x(k|k − 1) را به عنوان تخمین قیاسی در زمان k و x(k|k) را تخمین حالت استقرایی می گویند که در زمان k اندازه y(k) را نشان می دهد. تخمین خطاهای استقرایی و قیاسی در (6) و (7) تعریف شده است:
(6) e− (k ) = x(k) − x(k|k − 1)
(7) e(k) = x(k) − x(k|k)
کواریانس خطای تخمین قیاسی و استقرایی به ترتیب در (8)و (9) تعریف شده است : ×
(8) P−(k) = E{e−(k) e−T(k)}