بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
°معرفی تکنولوژی بازشناسی گفتار
° مروري بر کاربردهاي بازشناسي گفتار
° نمايش عملي سامانه تايپ گفتاري فارسي نويسا
° نمايش عملي يک سيستم ديالوگ تلفني ويژه بانکداري
° پرسش و پاسخ
اسلاید 2 :
°گفتار سادهترين و کارآمدترين راه ارتباط انسان هاست
°هدف بازشناسي خودکار گفتار Automatic Speech Recognition (ASR)
±تبديل گفتار انسان به متن يا دستورالعمل معادل
± گفتار ميتواند يک فايل صوتي، ورودي با ميکروفون، از طريق خط تلفن و يا فرمان از راه دور باشد.
اسلاید 3 :
°يک سيستم بازشناسي کامل:
±قادر به بازشناسي گفتار پيوسته و محاورهاي باشد.
±گفتار افراد مختلف، حتي با لهجههاي متفاوت را بازشناسي نمايد.
±در محيطهاي شلوغ و نويزي هم جوابگو باشد.
±بصورت بلادرنگ عمل کند.
±قادر به فراگيري اطلاعات جديد نظير کلمات، قوانين زباني و . . . باشد.
°سيستمهاي کاربردي امروزي:
±گفتار بايستي به صورت کتابي باشد.
±گفتار بايستي بر اساس حالت استاندارد زبان باشد و تغييرات مربوط به لهجهها منجر به کاهش کارايي ميشود.
±استفاده از آنها در محيط و شرايط نويزي منجر به افت کارايي و دقت آنها ميشود.
±اغلب سيستم هاي کاربردي امروزي تقريبا بلادرنگ هستند.
±سيستمهاي موجود محدود به کلمات موجود در واژگان هستند و از اطلاعات زباني و معنايي به صورت محدود استفاده ميکنند.
اسلاید 4 :
°بازشناسي گفتار کار پيچيده اي است
±ارتباط انسان با ماشين امروزه بر پايه دکمه ها و کليدهاست، نه گفتار
±اگر شما يک کلمه خاص مانند ”آسمان“ را 10 بار مختلف بيان نماييد، تقريبا در هيچ دو حالتي فايل هاي ضبط شده ديجيتالي آنها دقيقا يکسان نيست!
پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
uميزان وابستگي يا استقلال از گوينده
v پيوسته يا گسسته بودن گفتار
w اندازهي واژگان
x محدوديتهاي زباني
y کارايي در حضور نويز و در محيطهاي کاربردي مختلف
z ابهام آکوستيکي و ميزان اشتباه بين کلمات
اسلاید 5 :
°پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
uميزان وابستگي يا استقلال از گوينده
²گوينده هاي مختلف از نظر مشخصات صدا، سن، لهجه، جنس، نحوه صحبت کردن و ... با هم متفاوتند
²وابسته به گوينده (SD: Speaker Dependent): به يک و يا چند گوينده خاص پاسخ ميدهد
²مستقل از گوينده (SI: Speaker Independent) به تمام گويندگان يک زبان پاسخ ميدهند
²
²بيشتر روشهاي بازشناسي گفتار امروزي قادرند به هر دو صورت عمل کنند. وابستگي يا استقلال از گوينده در مورد يک سيستم بازشناسي گفتار، در مرحلهي آموزش مشخص ميشود.
²دقت بازشناسي در حالت وابسته به گوينده (بعلت محدوديت و تنوع کمتر) بالاتر از حالت مستقل از گوينده (بعلت پيچيدگي بيشتر) است ولي نياز به آموزش سيستم به صداي آن کاربر خاص را دارد.
²در کاربردهاي واقعي که گوينده از ابتدا مشخص نيست سيستم را مستقل از گوينده آموزش داده ميشود و سپس هنگام استفاده به کمک برخي رويکردها مانند تطبيق (Adaptation)، سيستم براي يک گوينده خاص تطبيق ميشود.
²در برخي کاربردهاي ديگر مانند بازشناسي از پشت خط تلفن وابسته به گوينده بودن چندان معني خاصي ندارد چون گوينده از ابتدا مشخص نيست.
اسلاید 6 :
°پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
v پيوسته يا گسسته بودن گفتار
²محدوديت بر نحوة اداي کلمات توسط گوينده ميزان پيوستگي يا گسستگي کلمات
²بازشناسي کلمات مجزا (IWR: Isolated Word Recognition)
ªگفتار کلمه به کلمه و کاملاً مجزا – هر فايل صوتي يک کلمه
²بازشناسي گفتار متصل (Connected Word Recognition)
ªدنبالهاي از کلمات که به وسيلة سکوتي کوتاه از هم جدا شوند – هر فايل چند کلمه با سکوت در بين کلمات
²بازشناسي گفتار پيوسته کتابي (CSR: Continuous Speech Recognition)
ªگفتار به صورت ديکته کتابي و روان
²بازشناسي گفتار پيوسته محاوره اي (Spontaneous Speech)
گفتار به صورت کاملاً طبيعي بيان ميشود، شامل جملات ناقص، سرفه، تپق، مکثهاي طولاني و ... است.
² پيچيدگي بازشناسي گفتار پيوسته و فيالبداهه بسيار زياد است (مشکلات ناشي از اثر بافت مانند مشخص نبودن مرز کلمات متوالي و ادغام شدن ابتداي يک کلمه با انتهاي کلمة قبلي)
²سيستمهاي امروزي فقط براي خواندن کتابي کاربردي هستند و تشخيص گفتار فيالبداهه يکي از زمينههاي فعال تحقيقات ميباشد.
اسلاید 7 :
°پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
w اندازهي واژگان
²اندازة واژگان يا تعداد کلمات مورد استفاده در يک سيستم بازشناسي از عوامل موثر در دقت و سرعت سيستم است. سيستمهاي IWR فقط براي تشخيص تعداد محدودي کلمه طراحي شدهاند درحاليکه بعضي ديگر از سيستمها قادرند مجموعة بزرگي از کلمات را تشخيص دهند.
²معمولاً دقت يک سيستم بازشناسي با افزايش تعداد کلمات کم ميشود. چرا که در اين حالت کلمات شبيه به هم زياد شده و احتمال جايگزيني يک کلمه با ديگري بيشتر است.
²واژگان کوچک(Small Vocabulary): 1 تا 99 کلمه
²واژگان متوسط (Medium Vocabulary): بين 100 تا 1000 کلمه
²واژگان بزرگ (Large Vocabulary) : بين 1000 تا 60000 کلمه
²واژگان خيلي بزرگ (Very Large Vocabulary): بيشتر از 60000 کلمه
اسلاید 8 :
°پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
xمحدوديتهاي زباني
²اطلاعات زباني شامل دستور زبان و معنا از مهمترين اطلاعات مورد استفاده در يک سيستم بازشناسي گفتار است
²مدل زباني (Language Model) بيانگر اطلاعات زباني در سيستم بازشناسي گفتار هستند.
² اطلاعات معنايي به ندرت در اين سيستمها استفاده ميشوند ولي محدوديت هاي دستوري تقريباً در تمامي سيستم هاي بازشناسي گفتار پيوسته مورد استفاده قرار ميگيرند.
²ميزان محدوديتي که توسط مدل زباني درون يک سيستم بازشناسي ايجاد مي شود، پيچيدگي (Perplexity) آن مدل زباني ناميده ميشود که هرچه مقدار اين پيچيدگي کمتر باشد فضاي مورد جستجو کوچکتر ميشود.
²تاثير اطلاعات زباني در تشخيص (و درک) گفتار در سيستمهاي تشخيص گفتار امروزي تا اندازهاي است که ميتوان ادعا کرد که تحقق يک سيستم تشخيص گفتار با واژگان بزرگ (يا خيلي بزرگ) با کاربرد واقعي بدون استفاده از اطلاعات زباني غير ممکن است.
اسلاید 9 :
°پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
yکارايي در حضور نويز و در محيطهاي کاربردي مختلف
²کارايي سيستم هاي بازشناسي گفتار با وجود اثرات مخربي چون نويز، پژواک، تداخل و اعوجاج که معمولاً از محيط، ميکروفن، کانال انتقال و يا صداي گوينده ناشي ميشوند به شدت کاهش مييابد.
²روشهاي مختلفي جهت مقابله با نويز در سيستمهاي بازشناسي ارائه شده است که ميتوان آنها را در سه دستهي ويژگيهاي مقاوم به نويز، تخمين گفتار تميز و مبتني بر اصلاح مدل آکوستيکي تقسيم کرد.
² عدم حفظ کارايي سيستم در شرايط واقعي و عملي (که با نويز همراه است) يکي از بزرگترين مشکلات سيستم هاي بازشناسي گفتار امروزي است.
اسلاید 10 :
°پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار
zابهام آکوستيکي و ميزان اشتباه بين کلمات
²کلماتي که شکل نوشتاري متمايز ولي تلفظ يکسان يا شبيه به هم دارند [هم آوا] سبب ايجاد ابهام آکوستيکي شده و ممکن است بجاي يکديگر بازشناسي شوند
ªمثال: «سمر» و «ثمر» - «خواستن» و «خاستن» - «خويش» و «خيش» - «ارز» و «عرض» و «ارض» - و ...
²کلماتي که شکل نوشتاري آنها به يکديگر شباهت دارند [هم نگاره] در استخراج مدل زباني دچار اشکال مي کنند
ªمثال: «نُه» و «نه» - «کرد» و «کُرد» - «مهر» و «مُهر» - «گل» و «گِل» - ...
²هر چه تعداد اينگونه کلمات در بانک واژگان بيشتر شود، دقت سيستم بازشناسي پايينتر ميآيد. براي جبران اين مسأله، سيستم بازشناسي بايد از مدل زباني در سطوح گرامر و معنا کمک گرفت.