بخشی از مقاله

خلاصه

در این مقاله الگوریتمی توصیف شده که به طبقه بندی صدای محیط با هدف آماده سازی اطلاعات برای سیستم هایی که به شنوایی کمک میکنند میپردازد. از انرژی زیر باندها برای ساخت دیکشنری و از الگوریتم مناسب ترین ارتباط - MP - برای ارائه نمایش تنک از سیگنال استفاده شده است و با ضرایب بردار تنک، وزن های بردار ویژگی را محاسبه میکنیم. این ویژگی ها در کنار ویژگی کپسترال به عنوان بردار ویژگی طبقه بندی کننده استفاده میشود. در پیاده سازی ها صحت بهبود قابل توجهی را برای 14 کلاس از صدای محیط و با طبقه بندی کننده مدل مخلوط گوسی گزارش میکند.

.1 مقدمه

صدای محیط منبع غنی از اطلاعات است که سرنخ هایی از جمله مکان و جهت حرکت وسایل نقلیه و اطلاعات محیطی مانند سرعت و جهت حرکت باد را در خود جای میدهد. پس نیازاست که سیستمی برای استخراج اطلاعات محیط طراحی شود.[1] به همین منظور سیستمی را طراحی شده که به صورت خودکار محیط را بر اساس مجموعه ای از ویژگی های استخراج شده از نمونه های صدا دسته بندی میکند.

از کاربردهای طبقه بندی کننده صدای محیط میتوان به ابزار کمکی برای تشخیص خودکار محیط و تحلیل صحنه های فیلم اشاره کرد. لیو و همکارانش در [2] برای تحلیل صحنه های فیلم مجموعهای از ویژگی ها از جمله مرکز فرکانسی، پهنای باند، ضریب انرژی هر زیر باند و ... را پیشنهاد داده است. یکی دیگه از کاربردها طبقه بندی محیط، تشخیص خودکار و ثبت نوع مکان و محیطی است که در آن حضور داشته اید.[3] تلاشهای گذشته برای طبقه بندی صدای محیط به مجموعه ویژگی های کارآمدی منجر شده است.

پلتون و همکارانش در [4] از ضرایب کپسترال فرکانس مل - MFCC - و مدل مخلوط گوسی و شبکه های عصبی برای طبقه بندی استفاده کرده است. آنها صحت 68/4 برای طبقه بندی با مدل مخلوط گوسی را برای 17 کلاس از صدای محیط اطراف گزارش کرده اند. آقای چو و همکارانش در[5] استفاده از ترکیب ویژگی MFCC و مجموعه ویژگی هایی که از الگوریتم MP استخراج میشود را پیشنهاد میدهد و با استفاده از طبقه بندی کننده ی مدل مخروط گوسی صحت 83,9 درصدی را گزارش کرده اند.

در این مقاله محتوای [5] را گسترش داده شده و صدای ضبط شده ی محیط به کمک الگوریتم MP طبقه بندی شده است و روش مقیاس بندی فرکانسی متفاوتی را برای ساختن دیکشنری در نظر گرفته شده است تا اطلاعاتی را که توسط ویژگی MFCC استخراج نشده را دریافت کند. این الگوریتم با افزایش ناچیزی در محاسبات توانسته 14 کلاس از صدای محیط اطراف را به وسیله مدل مخروط گوسی با صحت 93/7 درصدی طبقه بندی کند.

.1  استخراج ویژگی

تا به حال مجموعه ای از ویژگی ها مثل نرخ گذر از صفر، 0 - && ، نرخ انرژی زیر باند، شار طیفی ، گشتاور آماری و ویژگی هایی که با استفاده از الگوریتم MP بدست میآیند و ترکیب آنها برای طبقه بندی صداهای طبیعی استفاده شده است که بهترین صحت [5] به وسیله ترکیب ویژگیهای MFCC و MP گزارش شده است. MFCC به وسیله محاسبه ی تبدیل فوریه ی کوتاه زمان بدست میآید سپس مقادیر طیفی هر فریم با استفاده از مجموعه ای از فیلتر های مثلثی گروه بندی میشوند.

پهنای باند فیلتر های مثلثی برای فرکانس های مرکزی زیر 1کیلو هرتز ثابت است و برای فرکانس های مرکزی تا 4کیلو هرتز به صورت نمایی افزایش می یابد. برای هر فریم با گرفتن تبدیل فوریه ی کسینوسی - DCT - از خروجی فیلتر مثلثی، 13 ضریب فرکانس مل استخراج میشود. MFCC میتواند به اندازهی کافی در فرکانس های پایین خوب عمل کند.

.2  تطبیق پیگیری - MP - برای استخراج ویژگی

الگوریتم های بسیاری وجود دارند که با توجه به یک دیکشنری، نمایش تنکی از سیگنال را اراعه میدهند. از الگوریتمهای پر کاربرد میتوان به پیگیری پایه - %3 - ، تطبیق پیگیری عمودی - OMP - ،استانه گذاری سخت تکرار شونده - IHT - و تطبیق پیگیری در نمونه برداری متراکم - CoSaMP - اشاره کرد. صداهایی نظیر صدای آژیر آمبولانس را نیز به دلیل وجود عناصر هارمونیک میتوان به وسیله تطبیق پیگیری هارمونیک تجزیه کرد.

با توجه به سادگی تطبیق پیگیری عمودی، از این تکنیک برای محاسبهی ویژگی ها استفاده شده است. الگوریتم MP با استفاده از روش های تکرار شونده و با توجه به دیکشنری D به اندازه   و سیگنال   ، بردار تنک  را محاسبه میکند. تعداد تکرار ها بر اساس تنک بودن   مشخص میشود. در [5] هیچ پیشرفتی برای تکرار های k>5 گزارش نشده است به همین دلیل تعداد تکرار ها را 5 قرار داده ایم.

.3  ساخت دیکشنری

تنکنیک های ساخت دیکشنری برای الگوریتم پیگیری در [6] شرح داده شده است. یکی ازین دیکشنری ها دیکشنری گابور است که اتم ها یا توابع آن به وسیله فیلتر گابور ساخته میشود و کارایی خوبی برای صیگنال های صدا دارد و همچنین گزارش شده که دیکشنری های مبتنی بر فیلتر Gammatone نیز کارایی قابل قبولی دارد.[7] با این حال از اتم های گابور برای ساخت دیکشنری در این مقاله استفاده شده است. یک اتم گسسته گابور در حوزه زمان فرکانس به صورت زیر نمایش داده میشود:

که ثابت های   و  و   و   به ترتیب مقیاس ، جا به جایی ، ضریب نرمال سازی ، و فرکانس هستند. که مقیاس و اندازه ی جا به جایی به ترتیب   و   تنظیم شده اند. مقیاس لگاریتمی برای   به صورت   - با   - استفاده شده است. با استفاده از این رابطه   اتم در اختیار دیکشنری قرار میگیرد و به دلیل تاثیر پایین فاز در طبقه بندی   قرار داده شده است.

دیکشنری با استفاده از اتم های گابور ساخته میشود و الگوریتم 5 OMP اتمی که بیشترین همبستگی را با سیگنال دارند انتخاب میکند.  میانگین   و انحراف معیار  و فرکانس   و مقیاس  از اتم ها برای ساخت ویژگی استفاده میشود. مجموعه ویژگی استفاده شده به صورت زیر است : که به عنوان ویژگی های غیر وزنی شناخته میشوند. در ادامه روش ساخت دیکشنری مرتبط با توزیع انرژی سیگنال را توصیف خواهیم کرد.

.4  مقیاس گذاری تکه ای خطی

در این بخش روشی تکه ای از مقیاس بندی فرکانس را برای ساخت دیکشنری با استفاده از اطلاعات سیگنال معرفی می-کنیم. از نسبت انرژی زیر باند ها برای تعیین اتم های گابور هر باند فرکانسی استفاده شده است. بدلیل این که MFCC اطلاعات سیگنال را در فرکانس های زیر 1KHz به خوبی استخراج میکند سیگنال را از فیلتر بالا گذری با فرکانس قطع 1KHz گذر داده ایم.

این کار برای پرهیز از تداخل ویژگی هایMP و MFCC انجام شده است. حال j امین انرژی زیر باند را به صورت زیر بدست میآوریم : که   تبدیل فوریه گسسته از سیگنال و N تعداد زیر باند ها است. انرژی نرمال سازی میشود و تابع توزیع به صورت زیر نمایش داده میشود: سپس مقدار   به نزدیکترین عدد صحیح گرد خواهد شد و به عنوان عناصر فرکانسی زیر باند j ام شناخته میشود و با   نشان داده میشود : که    نشان دهنده عملگر گرد کردن است و    نیز تعداد کل عناصر فرکانسی است   مدل تکه ای خطی برای j امین زیرباند به این صورت است که با تقسیم کردن مرزهای فرکانسی، تعداد    زیر باند تولید میشود و از نقاط فرکانسی متناظر برای ساخت دیکشنری با کمک توابع گابور استفاده میشود.

شکل 1 تخصیص فرکانسی دو محیط رستوران و اقیانوس را با استفاده از این الگوریتم نشان میدهد. صدای اقیانوس انرژی بیشتری در ناحیه فرکانسی پایین دارد و به همین خاطر الگوریتم اتم های بیشتری را در باند فرکانسی پایین قرار داده است و در صدای رستوران به دلیل وجود انرژی بیشتر در فرکانس های بالا، تعداد اتمهایی که در ناحیه فرکانس بالا قرار گرفته بیشتر است. به عنوان مثال در ناحیه فرکانسی   برای صدای اقیانوس و رستوران به ترتیب 19 و 6 اتم گابور به کار رفته است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید