بخشی از پاورپوینت
اسلاید 1 :
تکنولوژي بازشناسي گفتار فارسي با رويکردي به صنعت بانکداري
اسلاید 2 :
فهرست
معرفی تکنولوژی بازشناسی گفتار
مروري بر کاربردهاي بازشناسي گفتار
نمايش عملي سامانه تايپ گفتاري فارسي نويسا
نمايش عملي يک سيستم ديالوگ تلفني ويژه بانکداري
پرسش و پاسخ
اسلاید 3 :
عصر گويش پرداز (ASR Gooyesh Pardaz)
مروري بر بازشناسي خودکار گفتار (Automatic Speech Recognition- A Review)
اسلاید 4 :
سيستمهاي بازشناسي خودکار گفتار-معرفي
گفتار سادهترين و کارآمدترين راه ارتباط انسان هاست
هدف بازشناسي خودکار گفتار Automatic Speech Recognition (ASR)
تبديل گفتار انسان به متن يا دستورالعمل معادل
گفتار ميتواند يک فايل صوتي، ورودي با ميکروفون، از طريق خط تلفن و يا فرمان از راه دور باشد.
اسلاید 5 :
سيستمهاي بازشناسي خودکار گفتار-معرفي
يک سيستم بازشناسي کامل :
قادر به بازشناسي گفتار پيوسته و محاورهاي باشد.
گفتار افراد مختلف، حتي با لهجههاي متفاوت را بازشناسي نمايد.
در محيطهاي شلوغ و نويزي هم جوابگو باشد.
بصورت بلادرنگ عمل کند.
قادر به فراگيري اطلاعات جديد نظير کلمات، قوانين زباني و . . . باشد.
سيستمهاي کاربردي امروزي:
گفتار بايستي به صورت کتابي باشد.
گفتار بايستي بر اساس حالت استاندارد زبان باشد و تغييرات مربوط به لهجهها منجر به کاهش کارايي ميشود.
استفاده از آنها در محيط و شرايط نويزي منجر به افت کارايي و دقت آنها ميشود.
اغلب سيستم هاي کاربردي امروزي تقريبا بلادرنگ هستند.
سيستمهاي موجود محدود به کلمات موجود در واژگان هستند و از اطلاعات زباني و معنايي به صورت محدود استفاده ميکنند.
اسلاید 6 :
سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها
بازشناسي گفتار کار پيچيده اي است
ارتباط انسان با ماشين امروزه بر پايه دکمه ها و کليدهاست، نه گفتار
اگر شما يک کلمه خاص مانند ”آسمان“ را 10 بار مختلف بيان نماييد، تقريبا در هيچ دو حالتي فايل هاي ضبط شده ديجيتالي آنها دقيقا يکسان نيست!
پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
ميزان وابستگي يا استقلال از گوينده
- پيوسته يا گسسته بودن گفتار
- اندازهي واژگان
- محدوديتهاي زباني
- کارايي در حضور نويز و در محيطهاي کاربردي مختلف
- ابهام آکوستيکي و ميزان اشتباه بين کلمات
اسلاید 7 :
سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها
پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
ميزان وابستگي يا استقلال از گوينده
گوينده هاي مختلف از نظر مشخصات صدا، سن، لهجه، جنس، نحوه صحبت کردن و . با هم متفاوتند
وابسته به گوينده (SD: Speaker Dependent): به يک و يا چند گوينده خاص پاسخ ميدهد
مستقل از گوينده (SI: Speaker Independent) به تمام گويندگان يک زبان پاسخ ميدهند
بيشتر روشهاي بازشناسي گفتار امروزي قادرند به هر دو صورت عمل کنند. وابستگي يا استقلال از گوينده در مورد يک سيستم بازشناسي گفتار، در مرحلهي آموزش مشخص ميشود.
دقت بازشناسي در حالت وابسته به گوينده (بعلت محدوديت و تنوع کمتر) بالاتر از حالت مستقل از گوينده (بعلت پيچيدگي بيشتر) است ولي نياز به آموزش سيستم به صداي آن کاربر خاص را دارد.
در کاربردهاي واقعي که گوينده از ابتدا مشخص نيست سيستم را مستقل از گوينده آموزش داده ميشود و سپس هنگام استفاده به کمک برخي رويکردها مانند تطبيق (Adaptation)، سيستم براي يک گوينده خاص تطبيق ميشود.
در برخي کاربردهاي ديگر مانند بازشناسي از پشت خط تلفن وابسته به گوينده بودن چندان معني خاصي ندارد چون گوينده از ابتدا مشخص نيست.
اسلاید 8 :
سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها
پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
- پيوسته يا گسسته بودن گفتار
محدوديت بر نحوة اداي کلمات توسط گوينده ميزان پيوستگي يا گسستگي کلمات
بازشناسي کلمات مجزا (IWR: Isolated Word Recognition)
گفتار کلمه به کلمه و کاملاً مجزا – هر فايل صوتي يک کلمه
بازشناسي گفتار متصل (Connected Word Recognition)
دنبالهاي از کلمات که به وسيلة سکوتي کوتاه از هم جدا شوند – هر فايل چند کلمه با سکوت در بين کلمات
بازشناسي گفتار پيوسته کتابي (CSR: Continuous Speech Recognition)
گفتار به صورت ديکته کتابي و روان
بازشناسي گفتار پيوسته محاوره اي (Spontaneous Speech)
گفتار به صورت کاملاً طبيعي بيان ميشود، شامل جملات ناقص، سرفه، تپق، مکثهاي طولاني و . است.
پيچيدگي بازشناسي گفتار پيوسته و فيالبداهه بسيار زياد است (مشکلات ناشي از اثر بافت مانند مشخص نبودن مرز کلمات متوالي و ادغام شدن ابتداي يک کلمه با انتهاي کلمة قبلي)
سيستمهاي امروزي فقط براي خواندن کتابي کاربردي هستند و تشخيص گفتار فيالبداهه يکي از زمينههاي فعال تحقيقات ميباشد.
اسلاید 9 :
سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها
پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
- اندازهي واژگان
اندازة واژگان يا تعداد کلمات مورد استفاده در يک سيستم بازشناسي از عوامل موثر در دقت و سرعت سيستم است. سيستمهاي IWR فقط براي تشخيص تعداد محدودي کلمه طراحي شدهاند درحاليکه بعضي ديگر از سيستمها قادرند مجموعة بزرگي از کلمات را تشخيص دهند.
معمولاً دقت يک سيستم بازشناسي با افزايش تعداد کلمات کم ميشود. چرا که در اين حالت کلمات شبيه به هم زياد شده و احتمال جايگزيني يک کلمه با ديگري بيشتر است.
واژگان کوچک(Small Vocabulary): 1 تا 99 کلمه
واژگان متوسط (Medium Vocabulary): بين 100 تا 1000 کلمه
واژگان بزرگ (Large Vocabulary) : بين 1000 تا 60000 کلمه
واژگان خيلي بزرگ (Very Large Vocabulary): بيشتر از 60000 کلمه
اسلاید 10 :
سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها
پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
محدوديتهاي زباني
اطلاعات زباني شامل دستور زبان و معنا از مهمترين اطلاعات مورد استفاده در يک سيستم بازشناسي گفتار است
مدل زباني (Language Model) بيانگر اطلاعات زباني در سيستم بازشناسي گفتار هستند.
اطلاعات معنايي به ندرت در اين سيستمها استفاده ميشوند ولي محدوديت هاي دستوري تقريباً در تمامي سيستم هاي بازشناسي گفتار پيوسته مورد استفاده قرار ميگيرند.
ميزان محدوديتي که توسط مدل زباني درون يک سيستم بازشناسي ايجاد مي شود، پيچيدگي (Perplexity) آن مدل زباني ناميده ميشود که هرچه مقدار اين پيچيدگي کمتر باشد فضاي مورد جستجو کوچکتر ميشود.
تاثير اطلاعات زباني در تشخيص (و درک) گفتار در سيستمهاي تشخيص گفتار امروزي تا اندازهاي است که ميتوان ادعا کرد که تحقق يک سيستم تشخيص گفتار با واژگان بزرگ (يا خيلي بزرگ) با کاربرد واقعي بدون استفاده از اطلاعات زباني غير ممکن است.
اسلاید 11 :
سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها
پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
کارايي در حضور نويز و در محيطهاي کاربردي مختلف
کارايي سيستم هاي بازشناسي گفتار با وجود اثرات مخربي چون نويز، پژواک، تداخل و اعوجاج که معمولاً از محيط، ميکروفن، کانال انتقال و يا صداي گوينده ناشي ميشوند به شدت کاهش مييابد.
روشهاي مختلفي جهت مقابله با نويز در سيستمهاي بازشناسي ارائه شده است که ميتوان آنها را در سه دستهي ويژگيهاي مقاوم به نويز، تخمين گفتار تميز و مبتني بر اصلاح مدل آکوستيکي تقسيم کرد.
عدم حفظ کارايي سيستم در شرايط واقعي و عملي (که با نويز همراه است) يکي از بزرگترين مشکلات سيستم هاي بازشناسي گفتار امروزي است.
اسلاید 12 :
سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها
پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
ابهام آکوستيکي و ميزان اشتباه بين کلمات
کلماتي که شکل نوشتاري متمايز ولي تلفظ يکسان يا شبيه به هم دارند [هم آوا] سبب ايجاد ابهام آکوستيکي شده و ممکن است بجاي يکديگر بازشناسي شوند
مثال: «سمر» و «ثمر» - «خواستن» و «خاستن» - «خويش» و «خيش» - «ارز» و «عرض» و «ارض» - و .
کلماتي که شکل نوشتاري آنها به يکديگر شباهت دارند [هم نگاره] در استخراج مدل زباني دچار اشکال مي کنند
مثال: «نُه» و «نه» - «کرد» و «کُرد» - «مهر» و «مُهر» - «گل» و «گِل» - .
هر چه تعداد اينگونه کلمات در بانک واژگان بيشتر شود، دقت سيستم بازشناسي پايينتر ميآيد. براي جبران اين مسأله، سيستم بازشناسي بايد از مدل زباني در سطوح گرامر و معنا کمک گرفت.
اسلاید 13 :
سيستمهاي بازشناسي خودکار گفتار- دياگرام کلي
سيستم بازشناسي گفتار با رويکرد تشخيص الگو
داراي دو فاز آموزش (Train) و آزمون (Test)
آموزش
الگوهاي مربوط به هرکلاس (واحدهاي آوايي مانند کلمه، واج و .) با استفاده از روشهايي مدلسازي ميشوند.
آزمون (استفاده)
مقايسه گفتار ورودي با الگوهاي آموزش داده شده جهت تشخيص واحدهاي آوايي موجود د رگفتار ورودي
اسلاید 14 :
سيستمهاي بازشناسي خودکار گفتار- دياگرام کلي
سيستم بازشناسي گفتار با رويکرد تشخيص الگو
اسلاید 15 :
سيستمهاي بازشناسي خودکار گفتار- تعريف اجزا
مدلسازي آوايي
مدل کردن واحدهاي آوايي گفتار (کلمه، هجا، سه واجي، واج)
روش ها:
مدل انطباق زماني پويا (DTW)
ساده و قديمي – مورد استفاده در Voice dialing گوشي هاي تلفن همراه
شبکه عصبي مصنوعي (ANN)
ساده و کارا، سرعت تشخيص بلادرنگ، نسبتا مقاوم به نويز، فرايند آموزش زمان بر
مدل مخفي مارکوف (HMM)
موفقترين رويکرد، مدل کردن آماري گفتار
مدلهاي ترکيبي (ترکيب شبکههاي عصبي و HMM )
اسلاید 16 :
اجزاي سيستمهاي بازشناسي خودکار گفتار- دادگان
دادگانهاي گفتاري
استفاده جهت تهيه مدلهاي آوايي
تنوع گويندگان و حجم دادگان مهمترين پارامترهاي طراحي دادگان هستند.
دادگانهاي کاربردي زبان انگليسي شامل حدود 200 تا 300 ساعت گفتار با حدود 300 گوينده هستند.
اين دادگان معمولا به صورت فايلهاي صوتي با برچسپ متني معادل در سطح واج يا کلمه هستند که گاهي داراي تقطيع در سطح واج، کلمه يا جمله نيز هستند
اسلاید 17 :
اجزاي سيستمهاي بازشناسي خودکار گفتار- دادگان
دادگان هاي متني
استخراج اطلاعات زباني (آماري، معنايي، گرامري)
حجم مناسب براي استخراج آمار معتبر = حدود 250 تا 300 ميليون کلمه
استخراج خودکار گرامر زبان با استفاده از دادگانهاي پارس شده (tree bank)
استخراج معنا از دادگان: دادگان هاي شبکه لغات يا word net
واژگان
واژگان يا Lexiconها نيز از شامل ليست کلماتي مورد استفاده در سيستم است
در واژگان علاوه بر ليست خود کلمات، اطلاعات مختلفي در مورد هر کلمه مانند احتمال وقوع آن در زبان (احتمال N-gram)، نقش (هاي) گرامري در جمله و . را نيز شامل ميشود. به اين گونه واژگانها، واژگان محاسباتي گفته ميشود.
اسلاید 18 :
سيستمهاي بازشناسي خودکار گفتار- ارزيابي
پارامترهاي موثر
تعداد کلمات موجود در واژگان سيستم،
تعداد کلمات خارج از دادگان مجموعه آزمون (OOV)،
سازگاري/عدم سازگاري دادههاي آموزش و آزمون ،
محيط آکوستيکي آزمون و ميزان سيگنال به نويز سيگنال گفتار
وابسته/مستقل از گوينده
خطاهاي
خطاي حذف (Deletion)، خطاي درج (Insertion) و خطاي جايگزيني(Substitution)
اسلاید 19 :
سيستمهاي بازشناسي خودکار گفتار- ارزيابي
معيارها
دقت(Accuracy)
صحت (Correctness )
نرخ خطاي کلمات (WER)
تعداد کل کلمات
اسلاید 20 :
مروري بر وضعيت تحقيقات بازشناسي گفتار
بازشناسي گفتار از گذشته تاکنون در 5 دهه اخير