بخشی از مقاله
چکیده
سیگنال صحبت نتیجه کانولوشن سیگنال تحریک حنجره وپاسخ ضربه فیلتر مسیر صوتی می باشد . تارهای صوتی با تناوبشان صحبت را به دو بخش صدا دار و بی صدا تقسیم می کنند وقتی تارهای صوتی به لرزه در می آیند یک سیگنال تحریک متناوب پالسی شکل را به وجود می آورند که به وسیله آن بخش صدا دارسیگنال صحبت به وجود می آید . در بخش بی صدای سیگنال صحبت سیگنال تحریک نویز رندم می باشد.
در این مقاله ما یک سیگنال تحریک ثابت بر اساس طبیعت حنجره ساخته ایم و در بخش صدا دار با کانولوشن این سیگنال تحریک ثابت با فیلتر مسیر صوتی مربوط به آن ، سیگنال صحبت را باز سازی کرده ایم و از روی این سیگنال بازسازی شده با استفاده از ویولت استخراج ویژگی انجام می دهیم و گوینده ها را از هم متمایز می نماییم .هرچند سیگنال تحریک حنجره ایی اطلاعات مفید بسیاری برای تشخیص گوینده دارد ولی ما در این مقاله هدفمان بررسی عملکرد تشخیص گوینده فقط بر اساس فیلتر مسیر صوتی می باشد و برای اینکه اثرات تحریک حنجره را از بین ببریم از یک سیگنال تحریک ثابت برای همه گوینده ها استفاده کرده ایم .
-1 مقدمه
سیستم تشخیص گوینده به دو گروه تایید گوینده - SV - و شناسایی گوینده - SI - تقسیم می شود در بخش تایید وظیفه سیستم این است که تشخیص دهد شخصی که صحبت می کند همان شخص ادعا شده است ویا نیست .و سیستم این کار را با مقایسه مدل صدای شخص در حال صحبت با مدل صدای شخص ادعا شده که از قبل صدای او ضبط شده است انجام می دهد.
در سیستم شناسایی گوینده وظیفه سیستم این است که تشخیص دهد شخص در حال صحبت کدام یک از اشخاصی است که صدای آنها از قبل ضبط شده است یعنی صدای شخص در حال صحبت را ابتدا مدل می کند و سپس آن را با همه مدل هایی که از قبل ذخیره کرده مقایسه می کند و تصمیم می گیرد این صدا به کدام یک از آنها نزدیک تر است و آن شخص را به عنوان گوینده در نظر می گیرد و اگر از یک حدی به مدل صدا های از قبل ضبط شده نزدیک نبود می گوید این صدا به گوینده های موجود در دیتا بیس تعلق ندارد.
رایج ترین روش برای تشخیص گوینده ضرایب کپسترال مقیاس مل - MFCCs - می باشد[7] هدف از استفاده این روش بدست آوردن اطلاعات از پوش طیفی سیگنال در بخش کوتاه و نسبتا پایدار می باشد .
اعتقاد ما بر این است که سیگنال تحریک حنجره اطلاعات مفید بسیاری برای تشخیص گوینده دارد [3]و[ 4] در مرجع [2] طریقه به دست آوردن ویژگی های مربوط به زمان و فرکانس از روی سیگنال منبع تحریک صدا که از آنالیز LP به دست آمده توضیح داده شده است در آنجا از پارامتر WOCOR برای استخراج ویژگی استفاده کردهایم در این مقاله نیز از آن روش استفاده شده ولی به جای آنالیز سیگنال باقیمانده از سیگنال باز سازی شده استفاده کرده ایم ما می توانیم فقط با استفاده از سیگنال تحریک حنجره تشخیص گوینده را انجام دهیم و یا فقط از فیلتر مسیر صوتی برای تشخیص گوینده استفاده کنیم ویا اینکه از هر دو روش استفاده کنیم و با یک تصمیم جمعی نتیجه گیری کنیم که یقینا نتیجه بهتری حاصل خواهد شد.
اما در این مقله هدف ما مستقل کردن صدای افراد مختلف از حنجره آنها می باشد و می خواهیم در نتیجه حاصله از تشخیص گوینده تفاوت های حنجره افراد مختلف تاثیری نداشته باشد استخراج ویژگی فقط از سیگنال صحبتی است که در آن تفاوت های حنجره افراد مختلف برداشته شده و از یک سیگنال تحریک ثابت برای سیگنال صحبت بازسازی شده در افراد مختلف استفاده شده است و تفاوت گوینده ها فقط در فیلتر مسیر صوتی می باشد برای استخراج ویژگی از ضرایب ویولت در زیر باند های مختلف استفاده کرده ایم .برای اینکه اطلاعات مربوط به زمان هم حفظ شود ضرایب ویولت در زیر باند ها را به گروه های کوچکتری تقسیم کردیم .
.2 تولید صدا
وقتی که هوا از مسیر حنجره عبور می کند تارهای صوتی دو نوع سیگنال تحریک را برای تولید گفتار به وجود می آورند وقتی که تارهای صوتی به ارتعاش در می آیند یک رشته پالسی را به وجود می آورند که به وسیله آن حروف صدا دار به وجود می آیند در ایجاد حروف بی صدا تارهای صوتی به ارتعاش در نمی آیند و سیگنال تحریک برای تولید صدا نویز رندم می باشد.
در شکل 1 شکل موج حروف صدا دار و بی صدا به نمایش در آمده است که در آن متناوب بودن شکل موج حروف صدا دار نمایان است .
تارهای صوتی با تناوبشان گفتار را به دو بخش صدا دار و بی صدا تقسیم می کنند ام مسیر صحبت که از بالای حنجره شروع شده و تا لب ادامه دارد برای تولید صداهای مختلف شکل های مختلفی را ایجاد می کند . مسیر صوتی می تواند به عنوان فیلتری در نظر گرفته شود که بعضی از فرکانس ها را بیشتر تقویت می کند که به آن فورمنت یا فرکانس تشدید می گویند .
در شکل 1زیر تبدیل فوریه حروف صدا دار و بی صدا را مشاهده می کنیم . فیلتر مسیر صوتی را می توان به صورت زیر بیان کرد :
شکل :1 - الف - بخش بی صدای سیگنال صحبت، - ب - بخش صدادار سیگنال صحبت، - ج - طیف بخش بی صدای سیگنال، - د - طیف بخش صدا دار سیگنال صحبت
در آنالیز LP مقدار فعلی سیگنال از یک رابطه خطی بین سمپل های قبلی به دست می آید