بخشی از مقاله
خلاصه
در این مقاله شناسایی وقایع صوتی محیط اداری، با هدف کمک به ارتقای سطح شنوایی ماشین بررسی شده است. الگوریتم پیگیری انطباق، یکی از الگوریتمهای رایج برای نمایش پراکندهی سیگنالها میباشد. این الگوریتم، راهی مناسب برای انتخاب مجموعهای کوچک از بردارهای پایه فراهم میکند که این بردارهای پایه میتوانند نمایندهی سیگنال صوت باشند.
از این الگوریتم برای استخراج ویژگیهای حوزهی زمان-فرکانس استفاده شده است. این ویژگیها در ترکیب با ویژگیهای متداول MFCC به عنوان بردارهای ویژگی مورد استفاده قرار گرفته است. نتایج آزمایشها نشان میدهد که دقت شناسایی برای کلاسهبندی 16 کلاس از وقایع صوتی در محیط اداری، با استفاده از ویژگیهای پیشنهادی در این مقاله، نسبت به ویژگیهای متداول MFCC افزایش یافته است.
.1 مقدمه
شناسایی صداهای محیطی، مسئلهای اساسی درحوزهی پردازش صوت است. از اینرو در سالهای اخیر تحقیقاتی روی شناسایی صداهای محیطی و وقایع صوتی صورت گرفته است اما حجم پژوهشها در مقایسه با زمینههایی همچون گفتار و موسیقی بسیار ناچیز است. پژوهشهای صورت گرفته تاکنون به طور کلی به دو دسته تقسیم میشوند: دستهی اول پژوهشهایی است که تنها با هدف شناسایی محیط، روی دادههایی از محیطهای مختلف مانند صدای باران، رستوران، بزرگراه و غیره صورت گرفته است.
این دادههای صوتی معمولا دارای ساختار ریتمیک هستند و ازاینرو نتایج قابل قبولی در شناسایی آنها حاصل شده است به طور مثال در [1] نرخ شناسایی %83,9 برای 14 کلاس و در [2] دقت %94,98 برای 20 کلاس حاصل شده است. اما دستهی دوم، پژوهشهایی هستند که روی تشخیص یا شناسایی وقایع صوتی رخ داده در یک محیط اداری مثل صدای در، صفحه کلید، سرفه و غیره صورت گرفته است.
برخی از صداهای متعلق به این دسته دارای ماهیت ضربهای هستند و برخی دیگر دارای نرخ سیگنال به نویز بسیار پایین، از اینرو شناسایی آنها با مشکلاتی همراه است. به طور مثال در اولین کارهای صورت گرفته، سیستمی مبتنی بر ویژگیهای ضرایب MFCC و یک کلاسهبند مدل مخفی مارکوف میانگین دقت شناسایی %30 در ده زمینهی صوتی بدست داده است.[3] یا در مطالعهای دیگر، محققان دقت شناسایی %45 روی پایگاه دادهی ارزیابی CLEAR بدست آوردهاند.[4]
هدف از این مقاله شناسایی وقایع صوتی متعلق به محیط اداری میباشد و همانطور که بیان شد این مسئله نسبت به شناسایی محیط، دارای پیچیدگی بیشتری بوده و نتایج بالایی برای آن گزارش نشده است. پایگاه دادهی مورد استفاده در این مقاله متشکل از 16 کلاس از صداهای مربوط به محیط اداری است. در مرحلهی استخراج ویژگی، از ویژگیهای MPو MFCC و در مرحلهی کلاسهبندی، از کلاسهبندهای شبکه عصبی و نزدیکترین همسایگی استفاده شده است. این مقاله متشکل از بخشهای زیر میباشد . در بخش 2 الگوریتم MP شرح داده میشود. روش پیشنهادی برای استخراج ویژگی در بخش 3 توضیح داده میشود. بخش 4 تنظیمات عملی برای شبیهسازیها و نتایج این شبیهسازیها را نشان میدهد و در نهایت بخش 5 شامل نتیجهگیری و برنامههای آینده میباشد.
.2 نمایش سیگنال با استفاده از الگوریتم پیگیری انطباق - MP -
الگوریتم MP از تجزیهی سیگنال به مجموعهای از بردارهای پایه تشکیل شده است، که این بردارهای پایه اتمهایی از یک واژهنامه هستند. ما در تلاش هستیم که هر سیگنال را با حداقل تعداد اتمها نمایش دهیم که منجر به نمایش پراکنده* شود.
.3 روش پیشنهادی
.3,1 ساخت واژهنامه
واژهنامه های متفاوتی برای استفاده در الگوریتم MP پیشنهاد شده است، در این مقاله از واژهنامهی شامل توابع پایهی گابور استفاده شده است.
.3,2 استخراج ویژگی با استفاده از MP
الگوریتم MP بر روی هر فریم پیاده شده و در n بار تکرار الگوریتم با شرط توقف تعداد ثابت اتمها، n اتم از واژهنامهی ساخته شده که بهترین همبستگی را با فریم مربوطه دارند انتخاب میشوند. پارامترهای مربوط به این n اتم ذخیره شده و از میانگین و انحراف معیارِ دو پارامتر فرکانس و مقیاس اتمهای انتخاب شده به عنوان ویژگیهای MP استفاده میشود.
ویژگیهای MP ویژگیهای حوزهی زمان-فرکانس میباشند. این روش استخراج ویژگی قبلا در [1] برای شناسایی و کلاسهبندی محیطهای مختلف استفاده شده است. در این مقاله از این روش برای مسئلهی کلاسهبندی وقایع صوتی مربوط به محیط اداری استفاده میشود که همانطور که پیشتر بیان شد این مسئله دارای پیچیدگی بیشتری میباشد.
.4 پیادهسازی
.4,1 پایگاه داده
پایگاه دادهی استفاده شده در این مقاله در [8] معرفی شده است. در این پایگاه داده، تعداد 16 کلاس داده به نامهای زنگ هشدار، صاف کردن گلو، سرفه، بستن در، کشو، صفحه کلید رایانه، دسته کلید، در زدن، خنده، ماوس، ورق زدن، افتادن خودکار - قلم - ، زنگ تلفن، چاپگر، گفتگو، سوئیچ موجود میباشد که هر کلاس دارای 20 فایل صوتی است.
تمامی دادههای مربوط به 16 کلاس، فایلهای صوتی دوکاناله میباشند که از میانگین دو کانال استفاده شده است . این فایلها به صورت غیرفشرده در فرمت .wav و با نرخ نمونهبرداری 44,1 کیلوهرتز اما با طولهای زمانی متغیر بین 1 ثانیه تا 29 ثانیه می-باشند که نرخ نمونهبرداری تمامی آنها به 22,05کیلوهرتز کاهش داده شده است و در هر اجرای برنامه 70درصد این داده ها به طور تصادفی برای آموزش انتخاب میشوند و 30 درصد دیگر برای مرحلهی تست در نظر گرفته میشوند.