بخشی از مقاله
در این مقاله، ما ابتدا برخی ویژگی های صوت - نظیر: نرخ عبور از صفر، انرژی، انتروپی انرژی، مرکز ثقل و گسترش طیف، انتروپی طیف، تغییرات سریع طیف، رول آف طیف، ضرایب کپسترال فرکانس مل، بردار رنگی، نرخ هارمونیک - را استخراج نموده و سپس برای تشخیص و دسته بندی از شبکه عصبی MLP استفاده کردیم. داده های لازم برای آموزش و آزمایش شبکه را از وب سایت رادیوی اینترنتی "ایران صدا" جمع آوری نمودیم.
بدین منظور شش نوع سبک شامل سبک های کلاسیک، غربی، کودک، محلی، پاپ و سنتی را مورد هدف قرار دادیم. برای طراحی شبکه از 85 درصد داده ها برای مرحله آموزش شبکه و 15 درصد باقیمانده برای مرحله آزمون شبکه استفاده شد. بعد از شبیه سازی های انجام شده بر روی شبکه، دقت دسته بندی برای داده های آزمون 82,1 درصد بدست آمد که نتایج خوشایند و امیدوار کننده ای می باشد.
.1 مقدمه
موسیقی تنها به عنوان هنری برای ابراز احساسات نمی باشد و امروزه به دلیل تأثیر اجتماعی آن، از موسیقی برای اهداف مختلف استفاده می شود. با آغاز قرن .21 م، حجم اطلاعات موسیقی در سطح اینترنت با رشد سریعی مواجه شد و اکنون با پایگاه اطلاعات عظیمی از موسیقی هایی با سبک های مختلف در اینترنت مواجه هستیم. همین امر باعث شده تا نیاز به روش های پردازش دیجیتالی سیگنال های موسیقی بیشتر از گذشته احساس شود.
امروزه تحقیقات گسترده ای در زمینه بازیابی موسیقی از پایگاه داده های بزرگ، شناسایی آلت های موسیقی، استخراج ریتم و آهنگ موسیقی و موارد مشابه دیگر انجام می پذرید. در این بین، شناسایی سبک موسیقی از محبوبیت بیشتری برخوردار بوده و به دلیل پیچیدگی ها و دسته های بسیاری که در این مسأله وجود دارد، تاکنون روش کارآمدی برای شناسایی مجموعه بزرگی از سبک های موسیقی در عمل ارائه نشده است. توسعه سیستمی که بتواند به طور خودکار سبک موسیقی را شناسایی کند نیاز به انجام دو مرحله دارد.
در مرحله اول سعی می کنیم فایل صوتی را به شکل مجموعه ای از بردارهای ویژگی نشان دهیم، سپس در مرحله دوم از همین بردارهای ویژگی استفاده کرده و مدل سازی هر یک از سبک های موسیقی را انجام می دهیم .[1] اهمیت دسته بندی صداها به کمک مدل های ریاضی بیش از همه به خاطر گسترش روزافزون حجم اطلاعات صوتی در فضای مجازی است.
این اطلاعات به قدی زیاد است که مگر به کمک روش های خودکار و ماشینی، جست و جو در آن ها و نیز سازماندهی یشان غیر ممکن می شود، از این رو پژوهش های بسیاری در زمینه دسته بندی خودکار فایل های صوتی در جریان است. هدف این پژوهش ها در اصل معرفی الگوریتم هایی است که بتوان به کمک آن ها انواعی از نشانه های صوتی را از هم بازشناخت .[2]
.2 کارهای انجام شده
در مقاله [1] روش های مختلفی برای استخراج ویژگی، انتخاب ویژگی و مدلسازی برای شناسایی خودکار هشت سبک موسیقی شامل Celtic، Classic، Classic piano، Jazz، Metal، Persian Classic، Relaxing و Dance که از آلبوم هایی با نوازنده های مختلف جمع آوری شده اند، پیاده سازی و مورد ارزیابی قرار رفته است. از میان روش های رایج استخراج ویژگی که در حوزه تشخیص گفتار، شناسایی آلت موسیقی و همچنین شناسایی سبک موسیقی مورد استفاده قرار می گیرند انواع ویژگی های زیر استفاده شده است:
ویژگی های زمانی سیگنال شامل انرژی، نرخ عبور از صفر، میزان تناوب، ویژگی های طیفی سیگنال شامل دامنه طیفی، ویژگی های کپسترال، شدت سیگنال مبتنی بر معیار اکتاو، کنتراست طیفی مبتنی بر معیار اکتاو، MSFM و .MSCM همچنین از روش های مدلسازی مانند شبکه های عصبی، مدل مخلوط گوسی، درخت تصمیم، ماشین بردار پشتیبان به تنهایی و نیز در یک ساختار سلسله مراتبی که در آن شناسایی سبک موسیقی از کلاس هایی با تعداد بیشتری سبک موسیقی شروع و به کلاس های با تنها یک سبک موسیقی ختم می گردد، استفاده شده است.
در مقاله [2] نشان داده شده است که با استفاده از شبکه عصبی مصنوعی می توان دستگاه ماهور را از سایر دستگاه ها تمیز داد. بدین منظور شش دستگاه و آواز موسیقی ایرانی شامل - ماهور دو، بیات ترک دو، بیات اصفهان دو، چهارگاه دو، سه گاه می کرن و شور سل - مورد بررسی قرار گرفته است. برای دسته بندی قطعات از شبکه عصبی مصنوعی با توابع پایه شعاعی استفاده شده است. بسامد بیست قله برتر نخست بیناب هر قطعه موسیقی به عنوان الگوی ورودی شبکه عصبی مصنوعی برگزیده شده است. داده های لازم برای آموزش و آزمایش شبکه در یک استریوی رادیویی توسط یک نوازنده سه تار اجرا و ضبط شده است.
در مقاله [3] بیان شده است که تشخیص دستگاه موسیقی سنتی ایرانی همواره برای علاقه مندان موسیقی دستگاهی و ردیف شده ایرانی موضوعی بسیار پیچیده و جالب بود که به دلیل کاربردهای فراوان آن در زمینه هایی مانند آموزش و آهنگ سازی از اهمیت بسیار بالایی برخوردار است. این کار به واسطه صرف شنیدن یک قطعه موسیقی کار بسیار دشواری است و فقط اساتید متبحر موسیقی و یا کسانی که سالها به این سبک موسیقی گوش داده و ساختار تمامی دستگاه ها را شناخته اند می توانند از عهده این کار برآیند.
همچنین برای دستیابی به این هدف فقط مطالعه ساختار و تئوری موسیقی کافی نیست. در مقاله مذکور روشی خودکار و کارآمد ارائه شده است که در آن بر پایه استخراج نت های نواخته شده و فواصل فرکانسی آنها در قطعات تکنوازی می توان دستگاه و گام یک قطعه موسیقی را مشخص کرد. که در این پژوهش از دستگاه ها و گام های موسیقی متفاوت و سازهای تار و سنتور استفاده شده است و به هیچ سبک نوازندگی خاص محدود نشده است.
در مقاله حاضر، ما برای تشخیص سبک موسیقی، ابتدا برخی ویژگی های صوت - نظیر: نرخ عبور از صفر، انرژی، انتروپی انرژی، مرکز ثقل و گسترش طیف، انتروپی طیف، تغییرات سریع طیف، رول آف طیف، ضرایب کپسترال فرکانس مل، بردار رنگی، نرخ هارمونیک - را استخراج نموده و سپس برای تشخیص و دسته بندی از شبکه عصبی MLP استفاده کردیم.
.3 استخراج ویژگی
استخراج ویژگی یک مرحله مهم در تجزیه و تحلیل صوتی است. در واقع یک مرحله اساسی پردازش در کارهای تشخیص الگو و یادگیری ماشین است. هدف، استخراج یک مجموعه از ویژگی ها از dataset مورد نظر است. این ویژگی ها باید حاوی اطلاعات مفیدی باشند تا خصوصیات مطلوبی از داده اصلی را منعکس کنند. استخراج ویژگی همچنین یک پروسه کاهش نرخ داده است. سیگنال اصلی حجم زیادی دارد و پردازش مستقیم بر روی آن سخت می باشد، بنابراین با تبدیل داده اصلی به یک نمایش مناسب توسط استخراج ویژگی های صوتی، خصوصیات سیگنال اصلی نمایش داده می شود و این در حالی است که حجم داده هم کاهش پیدا کرده است.
به منظور استخراج بردارهای ویژگی، باید یک سری پردازش ها روی سیگنال انجام شود این پردازش ها عبارتند از فریم بندی، پیش تأکید کردن و اعمال پنجره. به دلیل تغییر مشخصه های سیگنال صوت، در طول زمان و به عبارتی غیرایستانبودن آن، استخراج ویژگی از یک حوزه زمانی نسبتاً بزرگ، اطلاعات معتبری را در اختیار ما نمی گذارد، برای اینکه سیگنال ایستان باشد و مشخصه های آن تقریباً ثابت باقی بماند سیگنال صوت به فریم های 20 تا 40 میلی ثانیه ای تقسیم می شود و ویژگی ها از هر فریم استخراج می شود.
همچنین، برای از بین بردن اثرات تغییرات ناگهانی سیگنال زمانی پیوسته، سیگنال را باید از یک فیلتر مرتبه اول به نام فیلتر پیش تأکید عبور داد و برای کم کردن اثر ناپیوستگی سیگنال در ابتدا و انتهای هر فریم، می توان هر فریم را به طور جداگانه در یک پنجره ضرب کرد. انتخاب پنجره نیز مهم می باشد زیرا که حاشیه های یک فریم در کم و زیاد شدن سیگنال خطا موثرند.
به همین دلیل باید از پنجره هایی استفاده شود که حاشیه های قاب را به طور یکنواخت باریک کند. پنجره همینگ یک نمونه پنجره می باشدکه باعث می شود مقادیر ابتدا و انتهای سیگنال در یک فریم تأثیر کم و مقادیر میانی تأثیر بیشتری داشته باشد. در این مقاله، ما برای تشخیص داده های موسیقی از ویژگی های زیر استفاده کردیم. این ویژگی ها را در حوزه زمان و حوزه فرکانس بدست آورده ایم.