بخشی از پاورپوینت
اسلاید 2 :
بازشناسي گفتار (Speech Recognition)
تشخيص گفتار انسان توسط ماشين و تبديل آن به متن يا دستورالعمل معادل
نكات مطرح در بازشناسي گفتار
تعداد كلمات مورد بازشناسي
پيوسته يا گسسته بودن اداي كلمات
وابستگي يا استقلال از گوينده
اسلاید 3 :
بازشناسي گفتار
يک سيستم بازشناسي کامل :
قادر به بازشناسي گفتار پيوسته و محاورهاي باشد.
گفتار افراد مختلف، حتي با لهجههاي متفاوت را بازشناسي نمايد.
در محيطهاي شلوغ و نويزي هم جوابگو باشد.
بصورت بلادرنگ عمل کند.
قادر به فراگيري اطلاعات جديد نظير کلمات، قوانين زباني و . . . باشد.
سيستمهاي کاربردي امروزي:
گفتار بايستي به صورت کتابي باشد.
گفتار بايستي بر اساس حالت استاندارد زبان باشد و تغييرات مربوط به لهجهها منجر به کاهش کارايي ميشود.
استفاده از آنها در محيط و شرايط نويزي منجر به افت کارايي و دقت آنها ميشود.
اغلب سيستم هاي کاربردي امروزي تقريبا بلادرنگ هستند.
سيستمهاي موجود محدود به کلمات موجود در واژگان هستند و از اطلاعات زباني و معنايي به صورت محدود استفاده ميکنند.
اسلاید 4 :
بازشناسي گفتار
انواع سيستم هاي بازشناسي گفتار بر اساس تعداد كلمات
واژگان کوچک(Small Vocabulary): 1 تا 100 کلمه
واژگان متوسط (Medium Vocabulary): بين 100 تا 1000 کلمه
واژگان بزرگ (Large Vocabulary) : بين 1000 تا 60000 کلمه
واژگان خيلي بزرگ (Very Large Vocabulary): بيشتر از 60000 کلمه
انواع سيستم هاي بازشناسي گفتار بر اساس وابستگي يا استقلال از گوينده
وابسته به گوينده (SD: Speaker Dependent): به يک و يا چند گوينده خاص پاسخ ميدهد.
مستقل از گوينده (SI: Speaker Independent) به تمام گويندگان يک زبان پاسخ ميدهد.
اسلاید 5 :
بازشناسي گفتار
انواع بازشناسي گفتار بر اساس پيوسته يا گسسته بودن كلمات
بازشناسي کلمات مجزا (IWR: Isolated Word Recognition)
گفتار کلمه به کلمه و کاملاً مجزا – هر فايل صوتي يک کلمه
بازشناسي گفتار متصل (Connected Word Recognition)
دنبالهاي از کلمات که به وسيلة سکوتي کوتاه از هم جدا شوند – هر فايل شامل چند کلمه با سکوت در بين کلمات
بازشناسي گفتار پيوسته کتابي (CSR: Continuous Speech Recognition)
گفتار به صورت ديکته کتابي و روان
بازشناسي گفتار پيوسته محاوره اي (Spontaneous Speech Recognition)
گفتار به صورت کاملاً طبيعي بيان ميشود، شامل جملات ناقص، سرفه، تپق، مکثهاي طولاني و . است.
اسلاید 6 :
بازشناسي گفتار: واحد آوايي
واحد آوايي: واحدي از زبان كه در بازشناسي گفتار مورد مدلسازي قرار مي گيرد مانند كلمه (word)، واج (phoneme)، هجا (syllable)، واحدهاي وابسته به بافت (context dependent) و .
در بازشناسي گفتار براي هر واحد آوايي يك مدل (آوايي) آكوستيك تشكيل مي شود.
واحد آوايي بسته به نوع بازشناسي گفتار (پيوسته يا گسسته، با واژگان كوچك يا بزرگ) انتخاب مي گردد.
واحد آوايي براي بازشناسي گفتار با واژگان كوچك معمولاً كلمه است.
براي بازشناسي گفتار پيوسته با واژگان بزرگ معمولاً واج ها به عنوان واحد آوايي انتخاب مي گردند.
اسلاید 7 :
بازشناسي گفتار
بازشناسي گفتار با رويکرد تشخيص الگو
با فرض داشتن دنباله آكوستيك A، دنباله كلمات W را طوري پيدا كنيد كه P(W|A) ماكزيمم شود.
با استفاده از قانون بيز:
P(A|W): احتمال مشاهده دنباله آكوستيك A به شرط مشاهده دنباله كلمات W ← با استفاده از مدل آوايي (آكوستيك) محاسبه مي شود.
P(W): احتمال رخداد دنباله كلمات W در زبان ← با استفاده از مدل زباني به دست مي آيد.
اسلاید 8 :
بازشناسي گفتار
بازشناسي گفتار داراي دو فاز آموزش (Train) و آزمون (Test) مي باشد.
آموزش: مدل هاي آكوستيك و زباني با استفاده از داده هاي آموزشي تشكيل مي شوند.
آموزش مدل آكوستيك: با استفاده از مجموعه اي از داده هاي گفتاري، الگوهاي مربوط به واحدهاي آوايي (مانند کلمه، واج و .) مدلسازي ميشوند.
آموزش مدل زباني: با استفاده از مجموعه اي از داده هاي متني، پارامترهاي مدل زباني (مثلاً احتمالات n-gram) استخراج مي شود.
آزمون (استفاده): مقايسه گفتار ورودي با الگوهاي آموزش داده شده جهت تشخيص واحدهاي آوايي موجود در گفتار ورودي
اسلاید 9 :
دادگان هاي گفتاري
دادگان گفتاري (speech database): مجموعه اي از فايل هاي صوتي حاوي گفتار كه در آن معمولاً گوينده هاي مختلف كلمات يا جملات مختلفي را بيان كرده اند.
معمولاً در كنار هر فايل صوتي، يك فايل متني (فايل برچسب) هم وجود دارد كه در آن متن گفتار مشخص شده است.
انواع برچسب دهي:
واجي (phonemic)
آوايي (phonetic)
كلمه اي
دادگان هاي گفتاري كه شامل گفتار پيوسته هستند، ممكن است داراي تقطيع در سطح واج يا كلمه هم باشند.
دادگان گفتاري بسته به كاربرد مي تواند ميكروفوني يا تلفني باشد.
دادگان هاي گفتاري براي آموزش (train) مدل هاي آكوستيك به كار مي روند.
اسلاید 10 :
بازشناسي گفتار: اجزاي اصلي
اسلاید 11 :
بازشناسي گفتار: استخراج ويژگي
استخراج ويژگي: سيگنال گفتار به بخش هاي كوچكي به نام فريم تقسيم مي شود و از هر فريم يك بردار ويژگي شامل تعدادي ضريب بازنمايي استخراج مي گردد.
هدف: کاهش حجم محاسبات و حذف افزونگيهاي موجود در سيگنال گفتار
طول فريم ها: 10 تا 50 ميلي ثانيه (با هم پوشاني 25% تا 75% بين فريم ها)
تعداد ضرايب استخراجي از هر فريم: بين 10 تا 13 ضريب
روش هاي رايج
ضرايب كپستروم در مقياس مل (MFCC)
ضرايب پيشگويي خطي (LPC)
اسلاید 12 :
بازشناسي گفتار: مدل سازي آكوستيك
با استفاده از داده هاي آموزشي، يك مدل آكوستيك براي هر واحد آوايي آموزش داده مي شود.
داده هاي آموزشي متناسب با كاربرد از يك دادگان گفتاري مناسب انتخاب مي شوند.
مرحله استخراج ويژگي براي تمام داده هاي آموزشي انجام مي شود و با استفاده از بردارهاي ويژگي استخراج شده، مدل هاي آكوستيك آموزش داده مي شوند.
معمولاً براي هر واحد آوايي يك مدل آكوستيك آموزش داده مي شود.
روش هاي رايج در مدل سازي آكوستيك
مدل مخفي ماركوف ( HMM)
انطباق زماني پويا (DTW)
شبكه عصبي مصنوعي (ANN)
روش هاي تركيبي
اسلاید 13 :
بازشناسي گفتار: decoding
مرحله decoding در فاز استفاده (آزمون) از سيستم بازشناسي گفتار صورت مي گيرد.
در مرحله decoding گفتار ورودي پس از استخراج ويژگي، با مدل هاي آموزش ديده شده مقايسه مي گردد و بهترين دنباله از واحدهاي آوايي منطبق با گفتار ورودي استخراج مي شود.
در بازشناسي گفتار با كلمات مجزا مرحله decoding ساده است.
گفتار ورودي با مدل آكوستيك هر يك از واحدهاي آوايي مقايسه مي شود و ميزان شباهت آن با هر يك از مدل ها مقايسه مي گردد.
خروجي سيستم بازشناسي واحد آوايي يا كلمه اي است كه شباهت مدل آن با گفتار ورودي ماكزيمم باشد.
در بازشناسي گفتار پيوسته مرحله decoding پيچيده و مستلزم جستجو در فضاي حالت هاي مدل هاي آوايي است.
در بازشناسي گفتار پيوسته از مدل زباني و مجموعه واژگان براي هدايت رويه جستجو استفاده مي شود.
اسلاید 14 :
بازشناسي گفتار: decoding
اسلاید 15 :
بازشناسي گفتار: مجموعه واژگان
مجموعه واژگان (lexicon): مجموعه لغاتي كه سيستم بازشناسي قادر به تشخيص آنها مي باشد.
بسته به كاربرد سيستم بازشناسي، مجموعه واژگان مي تواند كوچك، متوسط، بزرگ يا بسيار بزرگ باشد.
در بازشناسي گفتار پيوسته و با واژگان بزرگ كه واحد آوايي معمولاً واج انتخاب مي شود، هر يك از كلمات مجموعه واژگان بايد داراي معادل يا معادل هاي واجي باشد:
بارانb A r A n
سازمان(1)s A z m A n
سازمان(2)s A z e m A n
مرد(1)m a r d
مرد(2)m o r d
..
ابهام آكوستيكي: کلماتي که شکل نوشتاري متمايز ولي تلفظ يکسان يا شبيه به هم دارند [هم آوا] سبب ايجاد ابهام آکوستيکي شده و ممکن است بجاي يکديگر بازشناسي شوند
مثال: «سمر» و «ثمر» - «خواستن» و «خاستن» - «خويش» و «خيش» - «ارز» و «عرض» و «ارض» - و .
اسلاید 16 :
بازشناسي گفتار: مدل سازي زباني
مدل زبانی برای هدایت رویه decoding در بازشناسی به کار می رود.
در بازشناسی گفتار متصل (connected) معمولاً از یک گرامر ساده که نحوه توالی لغات را مشخص می کند، به عنوان مدل زبانی استفاده می شود.
در بازشناسی گفتار پیوسته معمولاً از مدل زبانی آماری استفاده می شود.
رایج ترین مدل زبانی: مدل n-gram
با توجه به کلمات بازشناسی شده قبلی، مدل زبانی آماری محتمل ترین کلمات بعدی را پیش بینی می کند.
در نهایت دنباله ای از لغات به عنوان خروجی بازشناسی انتخاب می شود که حاصلضرب امتیازهای مدل آکوستیک و مدل زبانی آن ماکزیمم باشد.
مشكل هم نگاره ها: کلماتي که شکل نوشتاري آنها يكسان ولي تلفظ آنها متفاوت مي باشد [هم نگاره] براي استخراج مدل زباني مشکل ايجاد مي كنند:
مثال: «نُه» و «نه» - «مرد» و «مُرد» - «مهر» و «مُهر» - «گل» و «گِل» - .
اسلاید 17 :
مدل سازي آكوستيك: مدل مخفي ماركوف
مدل مخفي ماركوف (HMM) رايج ترين مدل آكوستيك در بازشناسي گفتار مي باشد.
حالات مختلفي كه سيگنال گفتار در حين ادا شدن از آن عبور مي كند را به عنوان state هاي HMM در نظر مي گيريم.
در مدل سازي واج ها معمولاً براي هر HMM بين 3 تا 7 state در نظر گرفته مي شود.
در بازشناسي گفتار، HMM ها معمولاً داراي مشاهدات پيوسته در هر state مي باشند.
تابع چگالي احتمال مشاهدات در هر state معمولاً به صورت توزيع گوسي در نظر گرفته مي شود.
پرش بين حالت ها معمولاً به صورت چپ به راست در نظر گرفته مي شود.
اسلاید 18 :
مدل سازي آكوستيك: مدل مخفي ماركوف
احتمال وقوع بردار مشاهده در حالت (state) s در HMM با چگالي پيوسته گوسي (با فرض مستقل بودن ابعاد بردار مشاهده):
با فرض وجود يك توزيع گوسي در هر state و با فرض مستقل بودن ابعاد بردار مشاهدات، هر state داراي يك بردار ميانگين و يك بردار واريانس مي باشد.
پارامترهاي HMM شامل ماتريس پرش بين stateها و بردارهاي ميانگين و و واريانس توزيع گوسي در هر state مي باشد.
اسلاید 19 :
مدل سازي آكوستيك: آموزش HMMها
در مرحله آموزش، پارامترهاي HMM با استفاده از داده هاي آموزشي تخمين زده مي شوند.
با فرض داشتن تقطيع واجي در دادگان آموزشي، الگوريتم segmental K-means به صورت زير براي آموزش HMM هر واج به كار مي رود:
1- براي سيگنال هاي گفتاري تمام واج ها در دادگان گفتاري استخراج ويژگي صورت مي گيرد و دنباله اي از بردارهاي ويژگي براي هر واج استخراج مي گردد.
2- به ازاي هر يك از واج هاي زبان تمام دنباله بردارهاي ويژگي آن در دادگان گفتاري جمع آوري مي شود.
3- دنباله بردارهاي ويژگي بين state هاي HMM مربوط به آن واج به طور مساوي تقسيم مي گردند.
4- ميانگين و واريانس بردارهاي مربوط به هر state محاسبه شده و به عنوان پارامترهاي توزيع گوسي در آن state در نظر گرفته مي شود.
5- احتمال پرش بين stateها با استفاده از شمارش دنباله state منتسب به دنباله بردارهاي ويژگي به دست مي آيد.
6- به ازاي هر نمونه از هر واج، يك الگوريتم ويتربي به ازاي دنباله بردارهاي ويژگي آن واج (دنباله مشاهدات) و دنباله stateهاي HMM مربوط به آن واج اجرا مي شود كه در نتيجۀ آن بردارهاي ويژگي به state هاي جديدي منتسب مي شوند.
7- مراحل 4 تا 6 تكرار مي شود تا زماني كه پارامترهاي HMM به همگرايي برسند.
اسلاید 20 :
مدل سازي آكوستيك: آموزش HMMها
در صورتي كه دادگان آموزشي داراي تقطيع واجي نباشد، به ازاي هر جمله (utterance) در دادگان گفتاري، HMMهاي مربوط به واج هاي تشكيل دهندة آن به صورت زنجيروار به هم متصل شده و يك HMM بزرگ به وجود مي آورند.
الگوريتم segmental K-means با استفاده از اين HMM هاي بزرگ انجام مي گردد.