بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
تشخیص گوینده
تفکیک گوینده های مختلف از یکدیگر
استفاده از ویژگیهای صوتی برای تشخیص
دو روش کلی:
ساخت مدل برای هر گوینده و تطبیق دادن نمونه جدید با مدلها
سعی در تفکیک گوینده های مختلف از یکدیگر
اسلاید 2 :
استخراج ویژگی برای کاهش ابعاد
تعداد زیاد نمونه در صدای ذخیره شده
حداقل 8 کیلو هرتز، 8 بیت برای هر نمونه (64 کیلو بیت بر ثانیه)
نیاز به این دقت برای پخش صدا و بازسازی موج
تغییر آهسته ویژگیهای صدا در طول زمان
امکان نمایش و ذخیره یک پنجره (فریم) نسبتا طولانی (10 تا 25 میلی ثانیه) با تعداد کمی ویژگی
نمایش یک پنجره با 14 ویژگی: کاهش ابعاد به نسبت 11.4
نیاز به تعریف و استخراج ویژگی
اسلاید 3 :
استخراج ویژگی برای تشخیص گوینده
اطلاعات گوینده در طول موج بازه های کوتاه
short-term spectrum
اطلاعات موجود در یک پنجره 20 میلی ثانیه ای
یکی رایج ترین ویژگیها : Mel-warped Cepstra
استفاده از فیلتر mel بر روی طیف به منظور تاکید کمتر بر روی فرکانس های بالا
تبدیل غیر خطی الهام گرفته شده از روی سیستم شنوایی انسان
استفاده از چند ضریب اول (معمولا 14 ضریب)
اسلاید 4 :
Mel-warped
Cepstra
اسلاید 5 :
مسئله دستهبندی و جداسازی نمونهها از روی ویژگیها
یادگرفتن مفاهیم از روی نمونههای آموزشی
سادهترین حالت: حالت دو کلاسه
نمونههای مثبت
نمونههای منفی
فضای چند بعدی
نمونهها: بردارهای عددی
اسلاید 6 :
مقدمه (ادامه)
یک جواب ممکن
اسلاید 7 :
یک جواب ممکن دیگر
اسلاید 8 :
معیار مقایسه
کدام جواب بهتر است؟
منظور از بهتر بودن جواب؟
نیاز به کمیت عددی
یک معیار: خطای هر جواب
اسلاید 9 :
خطای روش
خطای دستهبندی نمونههای آموزشی (Emperical Risk)
خطای دستهبندی کلیه دادهها
مشکل اصلی
عدم دانستن تابع توزیع احتمال
عدم امکان محاسبه R
نیاز به تخمین R
اسلاید 10 :
بعد VC
VC: Vapnik Chervonenkis
ویژگی یک خانواده از توابع
بیان کننده میزان انعطاف یک تابع در دستهبندی حالات مختلف
برای حالت دو کلاسه: حداکثر تعداد نمونههای مختلف (h) که به ازای هر حالت از 2h برای نمونهها، تابعی در خانواده باشد که تمامی نمونهها را به درستی نشان دهد.