بخشی از مقاله
چکيده -
تشخيص گریه کردن نوزاد از صدای او میتواند سریعترین راه ممکن برای اعالم نياز به توجه اطرافيان نوزاد باشد. این مطالعه بر اساس دادههای جمعآوریشده از صدای گریه نوزادان ایرانی و سایر اصوات محيطی صورت گرفته است. سه ویژگی فرکانسی شامل فرکانس پایه صوت، ضرایب کپسترال فرکانس مل و ضرایب کپسترال فرکانس خطی از سيگنالها استخراج شده و توسط طبقه بند ماشين بردار پشتيبان جداسازی شدهاند. استفاده از فرکانس با مقياس خطی در جداسازی سيگنالهای حاوی اطالعات در فرکانسهای باال مفيد باشد. نرخ صحت % 99/4 با استفاده از ضرایب کپسترال فرکانس خطی به دست آمد که در مقایسه با نرخ صحت% 99/1 با استفاده از ضرایب کپسترال فرکانس مل بهبود نشان میدهد.
کلیدواژه- گریه نوزاد، فرکانس پایه، ضرایب کپسترال، فرکانس مل، ماشین بردار پشتیبان
-1 مقدمه
گریه کردن نوزاد بهعنوان تنها سالح او در برابر ناخوشایندیهایی مانند گرسنگی، درد و عفونت که برایش اتفاق میافتد بهمنزله هشداری است تا اطرافیان خود را برای کمک به خود فراخواند، اینرو عدم پاسخگویی اطرافیان به این عالمت هشدار میتواند موجب آسیب رسیدن به نوزاد و والدین او شود . سیگنال صوت گریه حاوی اطالعات زیادی است که در صورت تحلیل درست میتوان به پیامهای صادرشده از مغز نوزاد دستیافت.
تشخیص و تمایز سیگنال گریه اولین مأموریت سیستم تشخیص و تحلیل خودکار گریه نوزاد است که دیاگرام آن در شکل 1 به نمایش درآمده است. در این مقاله، مرحله تشخیص و جداسازی سیگنال گریه نوزاد از سایر اصوات محیطی موردتوجه قرارگرفته است. مطالعات مشابهی در سالهای اخیر روی این موضوع انجامشده است اما عمده مطالعات بر روی بازشناسی علت گریه تمرکز داشته است.]1[ در سال 2002 میکلسون و همکارانش 172 نوزاد سالم را موردبررسی قراردادند و فرکانس پایه1 گریه نوزاد را بین 400 تا 600 هرتز اعالم کردند.]2[
کوهن و همکارش در سال 2012 مطالعهای با موضوع تشخیص و تحلیل گریه نوزاد ارائه دادند و با استخراج فرکانس پایه، ضرایب کپسترال فرکانس مل - MFCC - 2 و انرژی در هر قطعه یکثانیهای و استفاده از الگوریتم نزدیکترین همسایه - KNN - 3 نرخ %100 را برای جداسازی سیگنالهای گریه با SNR باال و اصوات محیط گزارش دادند.]3[ همچنین در سال 2012 کیا و همکارانش سیستم تشخیص و هشدار گریه نوزاد را با استفاده از طبقه بند شبکه عصبی معرفی کردند که پس از تشخیص سیگنال گریه هشداری را از طریق شمارهگیری تلفن اعالم میکرد.]4[
در این مقاله، مطالعه مشابهی برای ارزیابی کارایی ضرایب کپسترال فرکانس خطی4 برای جداسازی سیگنالهای گریه و اصوات محیطی در مقایسه با ضرایب MFCC و فرکانس پایه ارائه میشود. در بخش دوم توضیح اجمالی پیرامون استخراج ویژگیهای فرکانسی بهویژه ضرایب LFCC و کاربرد آن ذکر میشود. در بخش سوم بلوک تصمیمگیری یا همان طبقهبندی گریه و صدای محیطی که با استفاده از الگوریتم ماشین بردار پشتیبان5 - SVM - صورت گرفته است توضیح داده میشود. در بخش چهارم نتایج پیادهسازی روی دادگان مورداستفاده شرح داده خواهد شد و در بخش پایانی به تفسیر نتایج پرداخته خواهد شد.
-2 ویژگیهای فرکانسی
1-2 فرکانس پایه - F0 -
فرکانسی که در آن تارهای صوتی در هنگام تولید صدا به ارتعاش درمیآیند، فرکانس پایه نامیده میشوند. فرکانس پایه کمترین مؤلفهی فرکانسی مفیدی است که در طیف فرکانسی وجود دارد که بقیه مؤلفه-های سیگنال ضرایب صحیحی از این فرکانس هستند.]5[ یکی از متداولترین تکنیکهای به دست آوردن فرکانس پایه استفاده از تابع خودهمبستگی است. مقدار حداقل شیفت انجامشده که منجر به ایجاد بیشترین شباهت با سیگنال اصلی شده است، زمانی است که با معکوس کردن آن فرکانس پایه به دست میآید. بیان ریاضی این روش استفاده از تابع خودهمبستگی است.]6[
2-2 ضرایب کپسترال فرکانس مل - MFCC -
محاسبهی ضریب کپستروم فرکانس مل یک روش رایج و معروف است که درزمینهی استخراج ویژگی سیگنال گریهی نوزاد بهصورت مکرر استفادهشده است .]13-11[ کپستروم فرکانس مل، طیف توان یک صوت را با استفاده از تبدیل کسینوسی خطی لگاریتم طیف توان در مقیاس مل نشان میدهد. مقیاس مل بهصورت رابطهی - 2 - تعریف میشود.]13[ ضرایب MFCC را میتوان تبدیلکسینوسی لگاریتم انرژی حاصل از اعمال فیلتربانک مل بر طیف سیگنال پنجره گذاری شده تعریف کرد. مراحل محاسبه ضرایب MFCC در شکل 2 نشان دادهشده است. مزیت مهم MFCC، مقاومت در برابر نویز خطاهای تخمین طیفی تحت شرایط مختلف است.]12[
3-2 ضرایب کپسترال فرکانس خطی - LFCC -
ضرایب کپسترال فرکانس مل بهطور وسیعی در مباحث پردازش صوت و گفتار بهخصوص در بازشناسی گفتار مورداستفاده قرار میگیرد، بااینوجود بر اساس نظریههای موجود مبنی بر تأثیر ساختار مجرای صوتی در تولید مؤلفههای فرکانس باالی صوت، برخی ویژگیهای پرکاربرد در تشخیص و تمایز اصوات در فرکانسهای باال پدیدار میشوند. ازاینرو استفاده از یک مقیاس خطی فرکانسی برای تشکیل فیلترهای پردازشی بهجای استفاده از مقیاس مل میتواند نقش این مؤلفههای فرکانس باال را بهتر نمایان سازد .]12 ,11[ شکل 3 مقایسه بین فیلتربانک با مقیاسهای مل و خطی را همراه با رابطه نگاشت فرکانس خطی به مل نشان میدهد. میدهد q کوفرانس یا فرکانس در حوزه کپسترال، n شیفت زمانی، El,t - b - انرژی فیلتر b ام در فریم t ام از سگمنت l ام سیگنال است و B تعداد فیلترهای فیلتربانک و T تعداد فریمها در هر سگمنت است.
-3 طبقهبندی
پس از استخراج بردارهای ویژگی مربوط به هر قطعه از سیگنال-های گریه و غیر آن نوبت به طبقهبندی آنها و تعلیم سیستم جداسازی که بتواند دو نوع سیگنال گریه و صدای محیط را تشخیص دهد میرسد . در این مقاله از الگوریتم ماشین بردار پشتیبان - SVM - استفادهشده است که توسط واپنیک در سال 1995 ارائه شد و امروزه کاربرد زیادی در جداسازی دادههایی که درهمآمیختگی غیرخطی دارند دارد.]14[ این طبقه بند بر اساس کمینه کردن ریسک خطای مرزی بین دوطبقه عمل میکند. شیب این مرز فقط تابع تعدادی از بردارهای ورودی است که روی حاشیهی مرز دوطبقه قرار میگیرند و بردارهای پشتیبان مرز نامیده میشوند. این طبقه بند باینری است ولیکن هر دو نوع خطی و غیرخطی آن موجود است. نوع غیرخطی نحوه محاسبه ضرایب LFCC نیز از مراحل محاسبه ضرایب MFCC پیروی میکند؛ بنابراین رابطه - 3 - مبین نحوه محاسبه هر دو نوع ضرایب است.