بخشی از پاورپوینت

اسلاید 1 :

شناسایی گویندگان در یک مکالمهی تلفنی

اسلاید 2 :

فهرست

اسلاید 3 :

تعریف مسأله
هدفشناسایی دو گویندهی ناشناس
داشتهها1. نمونهی گفتار از مجموعهای متناهی از گویندگان
2. گفتارمستقل از متن، از مکالمهی تلفنی دو گویندهی ناشناس
چالشها1. گفتار مستقل از متن
2. عدم محدودیت گویندهی ناشناس
3. محدودیت فرکانسی گفتار تلفنی
4. گفتار تلفنی حاصل مکالمه است
شناسایی گروه بسته


شناسایی گروه باز

اسلاید 4 :

سیستم شناسایی گوینده
پارامتری سازی گفتار
انتخاب پارامترهای هنجارسازی و سطوح آستانه
گفتار گویندهها
پارامترهای گفتار
پارامترهای هنجارسازی و سطوح آستانه
مدل گویندهها
پارامتری سازی گفتار
هنجارسازی و انتخاب محتملترین مدل
گفتار گویندهی ناشناس
نتیجه شناسایی
مدل گویندهها
پارامتری سازی گفتار
مدلسازی آماری
گفتار از یک گوینده
پارامترهای گفتار
مدل یک گوینده
مقایسه با سطح آستانه
آزمایش

اسلاید 5 :

تحلیل ریاضی
گویندگان شناخته شده
گویندگان دیگر
گفتار مشاهده شده
متغیر تصادفی: گوینده گفتار مشاهده شده
مدل جهانی
به ازای مدل کدام گوینده بیشینه می شود؟
مدل گوینده

اسلاید 6 :

پارامتری سازی گفتار
بردارهای ویژگی
سیگنال گفتار
معمولا از ضرایب کپسترال مقیاس فرکانس مل یا ضرایب پیشگویی خطی استفاده میشود
از انرژی گفتار و مشتقات اول تا سوم اطلاعات بالا نیز استفاده میشود.

اسلاید 7 :

مدل سازی (الگوریتم EM)
مدل سازی
بردار ویژگی
مدل مخلوط گوسی از تعدادی توزیع گوسی وزندار با میانگین و کوواریانس معلوم تشکیل شده است. برای آموزش این مدل از الگوریتم بیشنهسازی امیدریاضی (EM) استفاده میشود.
میانگین
کوواریانس
وزن
به ازای هر یک از گوسین
از ماشین پشتیبان بردار و ترکیب آن با مدل مخلوط گوسی نیز استفاده شده است.

اسلاید 8 :

هنجارسازی
تصمیمها با مقایسهی بیشینهی امتیاز مدلها و سطح آستانهی تصمیم گیری اتخاذ می شود.
تنظیم سطح آستانه به دلیل تغییر امتیازها میان آزمونها بسیار مشکل است؛ تغییر امتیازات بین آزمونها به دو دلیل رخ می دهد:
یکم: تفاوت میان دادههای آموزشی گویندگان مختلف
دوم: تفاوت میان دادهی زمان آموزش و دادهی زمان آزمایش
تفاوت گفتار یک گوینده به علت تفاوت در حالات جسمی، عاطفی و افزایش سن
تغییرات در شرایط کانال ارسال، وسیلهی ضبط، یا محیط آکوستیک

اسلاید 9 :

ایدهی هنجارسازی
ایدهی اصلی هنجارسازی تمرکز توزیع امتیازات گوینگان غیرهدف است.
فرض کنیم امتیاز سیگنال گفتار به ازای مدل باشد در این صورت امتیاز هنجار شده، عبارت است از:

که در آن و پارامترهای هنجارسازی به ازای مدل گوینده است.

اسلاید 10 :

امتیاز مدل جهانی
امتیازات هنجار شده به شکل نسبتی از درستینمایی هاست.
بردارهای ویژگی از تمام گویندگان
بردارهای ویژگی از گوینده ناشناس
مدل جهانی
آموزش
آزمایش
مدل گوینده
امتیاز
هنجارسازی به کمک مدل جهانی

اسلاید 11 :

مدل جهانی می تواند از گفتار گویندگان مرد یا زن به دست آید.
آزمایشات نشان می دهند که استفاده از این مدل ها به بهبودی پایدار می انجامد
بردارهای ویژگی
مدل جهانی زن
آموزش
زنان
مردان
آموزش
مدل جهانی مرد
مدل وفق یافته
گفتارگوینده مرد
وفق دادن
گفتار گوینده زن
وفق دادن

اسلاید 12 :

امتیازات خام برای پنج بار ادای گفتار از گویندهی متناظر با مدل 7
هنجارسازی به کمک مدل جهانی

اسلاید 13 :

نتایج هنجارسازی به کمک مدل جهانی بر روی همان امتیازات
نتایج هنجارسازی به کمک مدل جهانی

اسلاید 14 :

Znorm (Zero Normalization)
میانگین و واریانس در فاز یادگیری محاسبه می شوند.
بردارهای ویژگی از گویندگان غیر هدف
مدل گوینده
تخمین میانگین و واریانس توزیع امتیاز گویندگان غیر هدف
هنجارسازی صفر

اسلاید 15 :

نتایج هنجارسازی صفر
نتایج هنجارسازی صفر بر روی همان امتیازات

اسلاید 16 :

(Test Normalization) Tnorm
هنجارسازی در زمان آزمایش انجام می شود و به مدل گویندگان غیر هدف نیاز دارد.
گفتار ورودی به مدل گویندگان غیرهدف اعمال می شود و در نتیجه یک توزیع برای امتیاز گویندگان غیرهدف به دست می آید.
بردارهای ویژگی از گفتار ورودی
مدل گوینده های غیر هدف
هنجارسازی زمان آزمایش
تخمین میانگین و واریانس توزیع امتیاز گویندگان غیر هدف

اسلاید 17 :

انتخاب سطح آستانه
معمولا یک سطح آستانه در زمان یادگیری انتخاب میشود و در طول فاز آزمایش از آن استفاده میشود.

انتخاب سطح آستانه به گونهای انجام میشود که تعداد تشخیصهای درست را در زمان یادگیری بیشینه کند

دو راهکار وجود دارد:
انتخاب یک سطح آستانهی مستقل از مدل
انتخاب یک سطح آستانه به ازای هر مدل

اسلاید 18 :

دو روش دستهبندی درونی و بیرونی برای افراز گفتار تلفنی به بخشهای گوینده همگن وجود دارد

روش درونی:
هر قاب از گفتار به کمک مدلهای سیستم شناسایی گوینده امتیازدهی میشود
قابهای با امتیازهای مشابه در یک دسته قرار میگیرند
روش بیرونی:
سیگنال صوتی به کمک یک روش دستهبندی مستقل به محدودههای گوینده همگن دستهبندی میشود
دستهبندی گفتار به بخشهای گوینده همگن

اسلاید 19 :

ارزیابی
دو نوع خطا می تواند رخ دهد:
پذیرش اشتباه (متناظر با سطح آستانهی پایین)
تشخیص اشتباه (متناظر با سطح آستانهی بالا)
نمودار مشخصهی کارکرد سیستم
رسم در مقابل
نموداری هم نوا و نزولی
رسم منحنی خطا بر روی یک مقیاس انحراف نرمال، استاندارد شده است.

تابع هزینه

اسلاید 20 :

29 گوینده، 13 گویندهی هدف، 16 گویندهی غیر هدف، از پایگاه دادهی فارسدت تلفنی بزرگ
2 دقیقه داده آموزش، 10 نمونه گفتار جهت آزمایش (290 نمونه در مجموع)
پارامترها: 12 ضریب MFCC + انرژی + مشتق اول و دوم + CMS

مدل گویندگان: مدل مخلوط گوسی از مرتبهی 256
مدل جهانی مرد (زن): دادهی گفتار از 20 گویندهی مرد (زن)
تعداد تکرارهای آموزش: 13
روش وفق مدل: تخمین بیشینهی پسینی (MAP)
آزمایشها

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید