بخشی از مقاله

چکیده

تشخیص صدا یا شناسایی گوینده یکی از مسایل علوم رایانه و هوش مصنوعی است که هدف آن شناسایی یک فرد از روی صدای شخص است. شناسایی گوینده یکی از زمینههای علمی است که کاربرد های بسیار زیادی در زمینههای مختلف ازجمله در کاربرد-های امنیتی، جاسوسی و ... را دارا میباشد. آنالیزهای بسیار زیادی برای شناسایی گوینده وجود دارد که از یک سیگنال صوتی مشخصاتی را بیرون میکشد که میتوان با استفاده از این مشخصات و به کمک یک روش طبقه بندی از میان تعداد زیادی گوینده، گوینده مورد نظر را تشخیص داد.

وجود خطا در نتایج هر یک از این آنالیزها مسالهای اجتناب ناپذیر است ولی تلاش پژوهشگران بر این بوده است که این خطا را با اصلاح آنالیزهای قبلی یا با ارائه آنالیزهای جدید به حداقل برسانند. در این مقاله از اصلاح آنالیز تابع تاخیر گروهی در شناسایی گوینده برای اولین بار استفاده شده است، که در این میان نتایج حاصله در مقایسه با روش تابع تاخیر گروهی بر توانمندی این روش پیشنهادی تاکید دارد.

-1 مقدمه

در حال حاضر بسیاری از شرکتهای مهم مانند IBM و مایکروسافت روی سیستمهای تشخیص گفتار سرمایه گذاری کردهاند و به نتایج بسیار خوبی رسیدهاند. یکی از سرویس دهندگان تلفن همراه در کشور فرانسه یک پورتال صوتی راه اندازی کرده است و اخبار و نتایج مسابقههای ورزشی را از طریق سیستمهای تشخیص گفتار در اختیار مشترکان خود قرارمیدهد. شرکت ماشین سازی هوندا نیز یک سیستم راه نوردی با کمک صوت راه اندازی کرده است تا رانندگان بهتر بتوانند خودرو را هدایت کنند. با این پیشرفتها به نظر می رسد که در آیندهای نه چندان دور فناوری تشخیص گفتار بخشی از زندگی و کار هر روزه ما خواهد شد.

-2 پیش پردازش

قبل از هر کاری در ابتدای کار باید یک مرحله کاهش نویز را روی سیگنال انجام دهیم که به پیش پردازش معروف است این کار را با ضرب کردن سیگنال در یک فیلتر درجه یک انجام می دهیم که تبدیل z و فرمول ان در حوزه زمان را در - فرمول - 1 می بینیم :

شکل:1 پیش پردازش

-3 پنجره بندی سیگنال

تابع تحریک فیلتر هنجره برای حروف صدادار به صورت یک قطار ضربه است که هر2/5 میلی ثانیه تکرار می شود.پس می توان گفت که برای بررسی سیگنال صوتی نمی توان آن را به صورت کامل مورد آنالیز قرارداد و برای استخراج مشخصات فیلتر هنجره هر گوینده باید آن را در فریم ها ی کوچکتر مورد آنالیزقرار داد و این امر به آن دلیل است که فیلتر هنجره در هر2/5 میلی ثانیه تحریک شده و هر 2/5میلی ثانیه از سیگنال دارای مشخصاتی خاص از این فیلتر است.

-4 آنالیزMFCC

در تحقیق های انجام شده در زمینه سیگنال صوتی دانشمندان به این موضوع دست یافتند که در یک سیگنال صوتی اطلاعات تاثیر گذارتر سیگنال بیشتر در فرکانسهای پایین وجود دارد و می توان نتیجه گرفت که برای دستیابی به اطلاعاتی مفید تر از سیگنال روی این قسمت از سیگنال تاکید بیشتری انجام دهیم این ایده روشی را به نامMFCC به وجود آورد که در مورد آن توضیح خواهیم داد.

در روشMFCC که در - شکل - 2 نمایش داده شده است به صورت زیر عمل می کنیم. ابتدا اندازهFFT فریم مورد نظر را محاسبه می کنیم سپس با یک فیلتر بانک به نامMel تعدادی ضریب که به تعداد فیلترهای ما بستگی دارد را استخراج می کنیم، این فیلتر بانک که توضیح داده خواهد شد عمل تاکید بر روی فرکانسهای کم را انجام میدهیم

شکل:2دیاگرام آنالیزMFCC

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید