بخشی از مقاله
چکیده
در اغلب زمینههای کاری پردازش گفتار، نیاز اصلی، استخراج ویژگی هایی از سیگنال گفتار است که دارای اطلاعات مفیدی جهت متمایز کردن آواها و گویندگان متفاوت هستند. فرکانس تشدید از جمله ویژگی مهم آواهای گفتاریست که از جمله موارد استفاده از آن در تحلیل احساسات، ناهنجاری ها، زبان و لهجه، می باشد. به همین دلیل در جهت تعیین آن، روش های گوناگونی ارائه شده که هر کدام دارای نقاط ضعف و قوت خاص خود می باشند. تبدیل موجک و روش پیشگویی خطی از جمله روش هایی هستند که در تخمین ویژگی های گفتار استفاده شده اند.
در این مقاله با معرفی روش ترکیبی تبدیل موجک و روش پیشگویی خطی، الگوریتم جدیدی جهت تعیین دقیق فضای واکه ای 6 واکه زبان فارسی ارائه گردیده است. متغیرهای مورد بررسی شامل، میانگین فرکانس های تشدید اول و دوم و سوم 6 واکه زبان فارسی است. این پارامترها در10 فرد - 5 زن و 5 مرد - با صوت طبیعی از گروه سنی 20تا40 سال بررسی شد. با در نظر گرفتن 6 واکه زبان فارسی و بررسی 3 فرکانس تشدید برای هر دو جنس زن و مرد، 36 فرکانس تشدید بدست آمده است.
.1 مقدمه
براساس مشاهدات تجربی در زمینه هماهنگی تولید، اعلام شده است که واحدهای حرکتی تشکیل دهنده زنجیره گفتار هجاها هستند. همچنین، مشخص شده است که واکه مرکز، هسته، و محور هجا را تشکیل می دهد. بنابراین ضرورت تحلیل آوایی واکه ها از نقطه نظر آواشناسی فیزیکی روشن است. منحنی فرکانسی واکه تولید شده مشخص کننده وضعیت اندام های گویایی در تولید آن واکه است و در بعضی قسمت های این منحنی قله هایی دیده می شود، این قله ها معرف فرکانس های تشدید - فرمنت - هستند
علم زبانشناسی بیان می کند که فهرست فرکانس های تشدید حاوی اطلاعات لازم در مورد بافت گفتاری زبان است - قزوینی، - 1386 ومقدار انرژی که در بخش های مختلف ردیف فرکانس بطور مداوم در حال تغییر است مربوط به فرکانس های تشدید می باشد که نه تنها کیفیت صدا بلکه وضعیت فیزیکی حلق را نشان می دهد. - jiao-yan,Xang-e,2014 - شکل و تعداد قله ها و تغییرات زمانی فرکانس از نشانه های مهم در شناسایی آواهای گفتار بشمار می آید. تشخیص جایگاه سه فرکانس تشدید اصلی سیگنال که با نام های F1 و F2 و F3 شناخته شده هستند، برای دسته بندی جنس گوینده و همچنین تحلیل احساسات و لهجه و زبان، استفاده می شود.
قزوینی در همان مقاله با توجه به تخمین سریع و دقیق روش تبدیل موجک، از این روش برای استخراج فرکانس های تشدید استفاده کرده است. براساس نتایج و ارزیابی های او با مقایسه روش تبدیل موجک و روش کپستروم، طیف بدست آمده از تبدیل موجک، فرکانس های تشدید را واضح تر نشان می دهد. محمدی و دیگران در همان مقاله، سه فرکانس تشدید اول واکه های زبان فارسی را در 60 نفر دانشجوی 18 تا 24 ساله فارسی زبان - 30 زن و 30 مرد - از دانشکده توانبخشی دانشگاه علوم پزشکی تهران، با هدف تعیین ساختار فرکانس های تشدید و فضای واکه ای 6 واکه زبان فارسی، تعیین کردند. و نتیجه این آزمایش برای شناسایی و بیان خصوصیات و محل قرارگیری واکه ها بکار گرفته شد.
در این آزمایش از پرسش نامه اطلاعات فردی، آزمایشگاه گفتار کاملا اکوستیک، میکروفن مجهز به تقویت کننده و تابلوی واکه ها استفاده شده است. آقاجان زاده و نیکروش و قربانی در سال 1394 با هدف مقایسه فرکانس های تشدید 6 واکه زبان فارسی در افراد مبتلا به پولیپ صوتی و افراد طبیعی در کشیده گویی واکه ها، پژوهش خود را روی 10 فرد با صوت طبیعی - 5 مرد و 5 زن - و 10 فرد مبتلا به پولیپ صوتی 5 - مرد و 5 زن - آزمایش کردند. هر دو گروه در رده سنی 20 تا 40 سال انتخاب شدند. براین اساس نیز اطلاعاتی در مورد محل قرار گیری و مقدار 6 واکه زبان فارسی بدست آورند.
در این آزمایش برای ضبط و تحلیل نمونه صدای آزمودنی ها از نرم افزار PRAAT استفاده شد. sahoo,Mishra,panda,dash در سال 2013 فرکانس های تشدید را در سیگنال بدون نویز بدست آورده است. او با توجه به دقت روش پیشگویی خطی، ازین روش برای تخمین فرکانس تشدید و همچنین از روش تبدیل موجک برای حذف نویز سیگنال استفاده کرده است.
همچنین او با اعمال موجک های مادر مختلف روی سیگنال، حذف نویز انجام داده و فرکانس های تشدید سیگنال بدون نویز را محاسبه کرده است. دیده شده موجک دابیشز نتیجه بهتر و قابل قبول تری را داراست. Kammoun, Gargouri, Frikha, Hamida در سال 2006 برای استخراج فرکانس های تشدید از دو روش کپستروم و روش پیشگویی خطی استفاده کرده است.
او در آزمایشات خود از پایگاه داده 10 TIMIT نفر متفاوت از مرد و زن انتخاب کرده که هرکدام از آن ها جمله مشترکی را خوانده و فرکانس های تشدید برای آن ها محاسبه و داخل جدولی آورده شده است. نتایج حاصل اینکه، فرکانس های تشدید مردها کمتر از فرکانس های تشدید زن ها است و در مورد روش استخراج فرکانس های تشدید، روش پیشگویی خطی بهتر از روش کپستروم است. Subbaraman ,Loni در سال 2012 از روش های ترکیبی تبدیل موجک و کپستروم و همچنین از روش ترکیبی تبدیل موجک و روش پیشگویی خطی برای استخراج فرکانس های تشدید استفاده کرده است.
روش های پیشنهادی از خاصیت چند مقیاسی تبدیل موجک، برای استخراج دقیق فرکانس های تشدید استفاده کرده اند. نتایج حاصل نشان داده است که تفاوت مقدار اصلی فرکانس های تشدید نسبت به مقدار فرکانس های تشدید بدست آمده در روش ترکیبی تبدیل موجک و روش پیشگویی خطی، نسبت به روش کپستروم، روش پیشگویی خطی و روش ترکیبی کپستروم و تبدیل موجک کمتر است.
فرکانس های تشدید مهمترین ویژگی تحلیل در پردازش سیگنال به شمار می روند و دارای اطلاعات مفیدی است. لذا صحت و دقت این اطلاعات از اهمیت بسزایی برخوردار است. با توجه به این موضوع روشی ارایه کردیم تا صحت و دقت در محاسبه را فراهم کند. از بین روش های استخراج فرکانس های تشدید واکه ها، روش پیشگویی خطی و روش تبدیل موجک، روش های مناسبی هستند.
با توجه به این مسئله با ترکیب این دو روش، روش جدیدی را در این پژوهش ارائه می کنیم که فرکانس تشدید 6 واکه زبان فارسی را با دقت بیشتری استخراج کند. روش تبدیل موجک، منحنی پاسخ فرکانسی واکه را در مقیاس های متفاوت به باندهای فرکانسی مختلف، تقسیم می کند. ما در این پژوهش به دنبال استخراج فرکانس های تشدید مربوط به هر باند فرکانسی هستیم. به ترتیب در بخش دوم به کارهای انجام شده و در بخش سوم به بررسی روش پیشنهادی می پردازیم. بخش چهارم نتایج آزمایش بیان و بخش پنجم نتیجه گیری کلی از پژوهش گرفته می شود.
.2 روش های استخراج فرکانس های تشدید
روش پیشگویی خطی که یکی از عمده ترین راهکارهای استخراج اطلاعات طبیعی در سیگنال گفتار می باشد، مبتنی بر این واقعیت است که مجرای گفتار انسان را می توان به صورت لوله ای مدل کرد که یک سمت آن حنجره و تارهای صوتی و سمت دیگرش را لب ها تشکیل دهند. - همایون پور، - 1390 این روش از فیلتری به نام فیلتر منبع1 استفاده می کند که بسیار شبیه به حفره دهانی عمل می کند. این روش از دو بخش تشکیل شده است. یک بخش فقط شامل صفر است و دیگری تمام قطب است. در عمل، چون همه واکه ها تنها دارای قطب اند، تنها بخش تمام قطب استفاده می شود. این روش فرکانس های تشدید را دقیقتر استخراج می کند.
ضرایب را ضرایب پیشگویی خطی یا ضرایب LPC نامند. که هدف تحلیل پیشگویی خطی به دست آوردن همین ضرایب است. در این رابطه، مرتبه پیشگویی P است. هر چقدر که مرتبه مدل تحلیل پیشگویی خطی زیادتر باشد، شکل دقیق تری از پوش طیف سیگنال صحبت به دست می آید. حال اگر مقدار خطای E - z - را کمینه فرض کنیم، مشتق نسبت به را گرفته و برابر صفر قرار دهیم، ضرایب LPC به دست خواهد آمد.
در سالهای اخیر نسل جدیدی از تبدیلات زمان-فرکانس تحت عنوان تبدیل موجک ارائه گردیده است. در تبدیل موجک توابع پایه خاص نبوده و مانند تبدیل فوریه محدود به سیگنال های ایستان نیستند. مقصود اصلی موجکها، آنالیز مبتنی بر مقیاس می باشد. به کمک خاصیت چند مقیاسی تبدیل موجک، رفتار غیر ایستان سیگنالها به خوبی قابل تجزیه و تحلیل می باشد. روال آنالیز موجک، انتخاب یک تابع الگوی موجک است که موجک آنالیز یا موجک مادر نامیده می شود. و هر سیگنال را می توان با تغییر مقیاس و جابجایی موجک مادر نمایش داد.
تبدیل موجک گسسته برای تحلیل سیگنال از فیلترهای پایین گذر و بالا گذر به ترتیب برای تحلیل فرکانس های پایین و بالا گذرانده می شود. بنابراین در اولین مرحلهDWT سیگنال را در فرکانس های مختلف با رزولوشن های متفاوت با تجزیه سیگنال به دو باند پایین گذر و بالا گذر تقسیم می کند DWT دو مجموعه تابع را استفاده می کند، توابع مقیاس و توابع موجک، که به ترتیب مربوط به فیلترهای پایین گذر و بالاگذر هستند