بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

°معرفی تکنولوژی بازشناسی گفتار

° مروري بر کاربردهاي بازشناسي گفتار

° نمايش عملي سامانه تايپ گفتاري فارسي نويسا

° نمايش عملي يک سيستم ديالوگ تلفني ويژه بانکداري

° پرسش و پاسخ

 

اسلاید 2 :

°گفتار ساده‌ترين و کارآمدترين راه ارتباط انسان هاست

°هدف بازشناسي خودکار گفتار Automatic Speech Recognition (ASR)

±تبديل گفتار انسان به متن يا دستورالعمل معادل

± گفتار مي‌تواند يک فايل صوتي، ورودي با ميکروفون، از طريق خط تلفن و يا فرمان از راه دور باشد.

 

اسلاید 3 :

°يک سيستم بازشناسي کامل:

±قادر به بازشناسي گفتار پيوسته و محاوره‌اي باشد.

±گفتار افراد مختلف، حتي با لهجه‌هاي متفاوت را بازشناسي نمايد.

±در محيط‌هاي شلوغ و نويزي هم جوابگو باشد.

±بصورت بلادرنگ عمل کند.

±قادر به فراگيري اطلاعات جديد نظير کلمات، قوانين زباني و . . . باشد.

°سيستم‌‌هاي کاربردي امروزي:

±گفتار بايستي به صورت کتابي باشد.

±گفتار بايستي بر اساس حالت استاندارد زبان باشد و تغييرات مربوط به لهجه‌ها منجر به کاهش کارايي مي‌شود.

±استفاده از آنها در محيط و شرايط نويزي منجر به افت کارايي و دقت آنها مي‌شود.

±اغلب سيستم هاي کاربردي امروزي تقريبا بلادرنگ هستند.

±سيستم‌هاي موجود محدود به کلمات موجود در واژگان هستند و از اطلاعات زباني و معنايي به صورت محدود استفاده مي‌کنند.

اسلاید 4 :

°بازشناسي گفتار کار پيچيده اي است

±ارتباط انسان با ماشين امروزه بر پايه دکمه ها و کليدهاست، نه گفتار

±اگر شما يک کلمه خاص مانند ”آسمان“ را 10 بار مختلف بيان نماييد، تقريبا در هيچ دو حالتي فايل هاي ضبط شده ديجيتالي آنها دقيقا يکسان نيست!

پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار

uميزان وابستگي يا استقلال از گوينده

v پيوسته يا گسسته بودن گفتار

w اندازه‌ي واژگان 

x محدوديت‌هاي زباني

y کارايي در حضور نويز و در محيط‌هاي کاربردي مختلف

z ابهام آکوستيکي و ميزان اشتباه بين کلمات

اسلاید 5 :

°پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار

uميزان وابستگي يا استقلال از گوينده

²گوينده هاي مختلف از نظر مشخصات صدا، سن، لهجه، جنس، نحوه صحبت کردن و ... با هم متفاوتند

²وابسته به گوينده (SD: Speaker Dependent): به يک و يا چند گوينده‌ خاص پاسخ مي‌دهد

²مستقل از گوينده (SI: Speaker Independent) به تمام گويندگان يک زبان پاسخ مي‌دهند

²

²بيشتر روش‌هاي بازشناسي گفتار امروزي قادرند به هر دو صورت عمل کنند. وابستگي يا استقلال از گوينده در مورد يک سيستم بازشناسي گفتار، در مرحله‌ي آموزش مشخص مي‌شود.

²دقت بازشناسي در حالت وابسته به گوينده (بعلت محدوديت و تنوع کمتر) بالاتر از حالت مستقل از گوينده (بعلت پيچيدگي بيشتر) است ولي نياز به آموزش سيستم به صداي آن کاربر خاص را دارد.

²در کاربردهاي واقعي که گوينده از ابتدا مشخص نيست سيستم را مستقل از گوينده آموزش داده مي‌شود و سپس هنگام استفاده به کمک برخي رويکردها مانند تطبيق (Adaptation)، سيستم  براي يک گوينده خاص تطبيق مي‌شود.

²در برخي کاربردهاي ديگر مانند بازشناسي از پشت خط تلفن وابسته به گوينده بودن چندان معني خاصي ندارد چون گوينده از ابتدا مشخص نيست.

اسلاید 6 :

°پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار

v پيوسته يا گسسته بودن گفتار

²محدوديت‌ بر نحوة اداي کلمات توسط گوينده ميزان پيوستگي يا گسستگي کلمات

²بازشناسي کلمات مجزا (IWR: Isolated Word Recognition)

ªگفتار کلمه به کلمه و کاملاً مجزا – هر فايل صوتي يک کلمه

²بازشناسي گفتار متصل (Connected Word Recognition)

ªدنباله‌اي از کلمات که به وسيلة سکوتي کوتاه از هم جدا شوند – هر فايل چند کلمه با سکوت در بين کلمات

²بازشناسي گفتار پيوسته کتابي (CSR: Continuous Speech Recognition)

ªگفتار به صورت ديکته کتابي و روان

²بازشناسي گفتار پيوسته محاوره اي (Spontaneous Speech)

گفتار به صورت کاملاً طبيعي بيان ميشود، شامل جملات ناقص، سرفه، تپق، مکث‌هاي طولاني و ... است.

² پيچيدگي بازشناسي گفتار پيوسته و في‌البداهه بسيار زياد است (مشکلات ناشي از اثر بافت مانند مشخص نبودن مرز کلمات متوالي و ادغام شدن ابتداي يک کلمه با انتهاي کلمة قبلي)

²سيستم‌هاي امروزي فقط براي خواندن کتابي کاربردي هستند و تشخيص گفتار في‌البداهه يکي از زمينه‌‌هاي فعال تحقيقات مي‌باشد.

اسلاید 7 :

°پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار

w اندازه‌ي واژگان 

²اندازة واژگان يا تعداد کلمات مورد استفاده در يک سيستم بازشناسي از عوامل موثر در دقت و سرعت سيستم است. سيستم‌هاي IWR فقط براي تشخيص تعداد محدودي کلمه طراحي شده‌اند درحالي‌که بعضي ديگر از سيستم‌ها قادرند مجموعة بزرگي از کلمات را تشخيص دهند.

²معمولاً دقت يک سيستم بازشناسي با افزايش تعداد کلمات کم مي‌شود. چرا که در اين حالت کلمات شبيه به هم زياد شده و احتمال جايگزيني يک کلمه با ديگري بيشتر است.

²واژگان کوچک(Small Vocabulary): 1 تا 99 کلمه

²واژگان متوسط (Medium Vocabulary): بين 100 تا 1000 کلمه

²واژگان بزرگ (Large Vocabulary) : بين 1000 تا 60000 کلمه

²واژگان خيلي بزرگ (Very Large Vocabulary): بيشتر از 60000  کلمه

اسلاید 8 :

°پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار

xمحدوديت‌هاي زباني

²اطلاعات زباني شامل دستور زبان و معنا از مهمترين اطلاعات مورد استفاده در يک سيستم بازشناسي گفتار است

²مدل زباني (Language Model) بيانگر اطلاعات زباني در سيستم بازشناسي گفتار هستند.

² اطلاعات معنايي به ندرت در اين سيستم‌ها استفاده مي‌شوند ولي محدوديت هاي دستوري تقريباً در تمامي سيستم هاي بازشناسي گفتار پيوسته مورد استفاده قرار مي‌گيرند.

²ميزان محدوديتي که توسط مدل زباني درون يک سيستم بازشناسي ايجاد مي شود، پيچيدگي (Perplexity) آن مدل زباني ناميده مي‌شود که هرچه مقدار اين پيچيدگي کمتر باشد فضاي مورد جستجو کوچک‌تر مي‌شود.

²تاثير اطلاعات زباني در تشخيص (و درک) گفتار در سيستم‌هاي تشخيص گفتار امروزي تا اندازه‌اي است که مي‌توان ادعا کرد که تحقق يک سيستم تشخيص گفتار با واژگان بزرگ (يا خيلي بزرگ) با کاربرد واقعي بدون استفاده از اطلاعات زباني غير ممکن است.

اسلاید 9 :

°پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار

yکارايي در حضور نويز و در محيط‌هاي کاربردي مختلف

²کارايي سيستم هاي بازشناسي گفتار با وجود اثرات مخربي چون نويز، پژواک، تداخل و اعوجاج که معمولاً از محيط، ميکروفن، کانال انتقال و يا صداي گوينده ناشي مي‌شوند به شدت کاهش مي‌يابد.

²روش‌هاي مختلفي جهت مقابله با نويز در سيستم‌هاي بازشناسي ارائه شده است که مي‌توان آنها را در سه دسته‌ي ويژگي‌هاي مقاوم به نويز، تخمين گفتار تميز  و مبتني بر اصلاح مدل آکوستيکي تقسيم کرد.

² عدم حفظ کارايي سيستم در شرايط واقعي و عملي (که با نويز همراه است) يکي از بزرگترين مشکلات سيستم هاي بازشناسي گفتار امروزي است.

اسلاید 10 :

°پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار

zابهام آکوستيکي و ميزان اشتباه بين کلمات

²کلماتي که شکل نوشتاري متمايز ولي تلفظ يکسان يا شبيه به هم دارند [هم آوا] سبب ايجاد ابهام آکوستيکي شده و ممکن است بجاي يکديگر بازشناسي شوند

ªمثال: «سمر» و «ثمر» - «خواستن» و «خاستن» - «خويش» و «خيش» - «ارز» و «عرض» و «ارض» - و ...

²کلماتي که شکل نوشتاري آنها به يکديگر شباهت دارند [هم نگاره] در استخراج مدل زباني دچار اشکال مي کنند

ªمثال: «نُه» و «نه» - «کرد» و «کُرد» - «مهر» و «مُهر» - «گل» و «گِل» - ...

²هر چه تعداد اين‌گونه کلمات در بانک واژگان بيشتر شود، دقت سيستم بازشناسي پايين‌تر مي‌آيد. براي جبران اين مسأله، سيستم بازشناسي بايد از مدل زباني در سطوح گرامر و معنا کمک گرفت.

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید