بخشی از مقاله
چکیده
تاکنون سیستم های مختلف سنتز گفتار در سراسر دنیا با بهره گیری از روش های مختلفی همچون روش های مفصلی، فرمانت، پیوندی، آماری-پارامتری و ... تولید شده اند.
در این مقاله سامانه ای با قابلیت تبدیل متن خبری - با کلمات و جملات پارسی، انگلیسی، اعداد و حتی جملات ترکیبی - به گفتار پارسی معادل آن بر اساس روش سنتز پیوندی و اتصال واحدها ایجاد شد تا بتواند درآینده برای استفاده در بازی های رایانه ای پارسی مورد استفاده قرار گیرد. ایدهی اصلی در پیاده سازی، جستجو و انتخاب مناسبترین واحدهای گفتاری ضبط شده از یک دادگان بزرگ و اتصال آنها به یکدیگر به منظور تولید شکل موج نهایی معادل متن ورودی بود.
سامانهی تولید شده با استفاده از واحدهای گفتاری واج و دایفون و با بهره گیری از الگوریتم جستجوی پیشنهادی، نتایج قابل قبولی را از روش ارزیابی MOS کسب نمود به طوری که از بین 1750 رای ثبت شده توسط 250 نفر برای 7 جمله ی تهیه شده با کلمات چالش برانگیز، %19/42 رای بسیار خوب، %24 رای خوب، %28/57 رای قابل قبول، %18/85 رای ضعیف و %9/14 رای بسیار ضعیف بدست آمد که گویای تولید صدای مفهوم و قابل قبول سامانهی تولیدی بوده است. ضمنا سرعت بالا و عملکرد بلادرنگ سامانه نیز در تمامی جملات طراحی شده، بدیهی و واضح بود.
.1 مقدمه
سیستم تبدیل متن به گفتار که به آن سنتز گفتار1 نیز گفته می شود، سیستمی است مبتنی بر رایانه که متن خام ورودی را دریافت کرده و با بهره گیری از الگوریتم و روش های موجود، گفتار معادل آن را تولید می کند.
با ورود کامپیوترهای با پردازش و سرعت بالا، دورهی اصلی تلاشها برای تولید گفتار به کمک کامپیوتر آغاز شد. در واقع می توان گفت طراحی و ساخت سیستم تبدیل متن به گفتار از نیم قرن پیش به وجود آمده است ولی به تحقق پیوستن کامل آن در بیست سال اخیر صورت پذیرفته است
. تا قبل از سال 1980 میلادی زمینه پژوهشی بازسازی گفتار در آزمایشگاه های بزرگ و با تقبل هزینه های هنگفت صورت میگرفت؛ همانند سیستم تبدیل متن به گفتار انگلیسی که اومدای ژاپنی2 و همکارانش در سال 1968 ارایه کردند.[1] اما در اواسط دهه - 80 همزمان با کاهش قیمت سخت افزار - مراکز بیشتری اقدام به فعالیت در این حوزه کردند و از اواخر دهه 80 تا به امروز نیز، نرم افزارها و سامانه های گوناگونی در سراسر دنیا با شیوه و الگوریتم های متفاوت ایجاد شده اند که هریک کاربرد، کیفیت خروجی و مزایا و معایب خاص خود را دارند.
تکنیک های متفاوت مفصلی، فرمانت3، پیوندی4، آماری - پارامتری5 همچون مدل مخفی مارکوف6 بر پایهی مدل فیلتر منبع7 و ... در پیاده سازی یک سیستم تبدیل متن به گفتار وجود دارد.[5-4-3-2-1] ما در این مقاله سامانه ای را تحت عنوان »سامانهی تایپ گفتاری فردوسی« ایجاد نمودیم که از تکنیک تولید گفتار پیوندی با استفاده از الحاق8 و پردازش سیگنال بهره می برد.
در روش سنتز پیوندی، واحدهای گفتاری واج، دایفون و ... از زبان انتخاب شده و در یک محیط آزمایشگاهی ضبط می شوند. سپس طبق الگوریتمی، واحدهای هدف از بین واحدهای کاندید با توجه به یک دادگان بزرگ، انتخاب شده و با اتصال آنها به یکدیگر گفتار معادل متن ورودی بدست می آید.
سامانهی تایپ گفتاری فردوسی نیز بر پایهی واحدهای گفتاری واج، دایفون و اعداد 0 تا 10 و همچنین با بهره گیری از الگوریتم پیشنهادی پیاده سازی شد و قادر است متون پارسی و ترکیبی - متونی که شامل حروف پارسی، حروف انگلیسی و عدد هستند - را با سرعت های مختلف و ضریب اطمینان بالا و همچنین صدای مفهوم بخواند.
.2 روش پیشنهادی .1-2 الگوریتم و فلوچارت استفاده شده در پیاده سازی فردوسی
در شکل 1 فلوچارت استفاده شده در سامانه فردوسی رسم شده است. تمام سعی بر آن بوده است که ضمن حفظ کارایی بالا ، سادگی سیستم برای اجتناب از سربار بالا حفظ شود. پس از دریافت ورودی از کاربر سیستم یک تابع نرمال سازی بر روی اعمال میکند. این تابع نرمال سازی سبب میشود که سرعت سیستم در مراحل بعدی بالاتر رود. سپس متن به کلمات تشکیل دهنده شکسته می شود و پس از آن پردازش اصلی بر تشخیص عدد ، کلمات فارسی و یا انگلیسی بر روی آن انجام میگیرد.
شکل .1 الگوریتم مورد استفاده ی فردوسی برای تبدیل متن به گفتار
با توجه به روند کارکرد الگوریتم که در شکل 1 نشان داده شده است، به تشریح کامل آن می پردازیم.
-1 متن از کاربر دریافت می شود.
-2 متن از نظر نوع نگارش، یکدست و نرمال می شود. به طور مثال »ئ« عربی به حالت فارسی تبدیل می شود، اعداد با نگارشهای مختلف مثل 1 و 1 به یک حالت واحد تبدیل می شوند و ... .
در جدول 2 نرمال سازی فردوسی برای برخی از کلمات را مشاهده می کنید. البته بدیهی است که کلماتی که نیاز به نرمال سازی دارند، بسیارند اما ما در این پروژه به انتخاب تعدادی از مهمترین آن ها اکتفا کردیم. در جدول 2 تعدادی از این نرمال سازی ها را مشاهده می کنید.