بخشی از مقاله

چکیده

بازشناسی گفتار بیشتر بر روی کامپیوترهایی با توان پردازشی بالا مورد استفاده قرار گرفته است. برای اجرای این الگوریتمها بر روی سیستمهای با توان پردازشی و حافظه محدود مثل تلفن همراه و سیستمهای نهفته لازمست که این روشها بهینهسازی شوند.

در سیستمهای بازشناسی گفتار مبتنی بر مدل مخفی مارکوف، از الگوریتم ویتربی برای پیدا کردن بهترین نتیجه در مرحله آزمایش استفاده میشود. محاسبه احتمال رویت یک مشاهده در یک حالت از مدل مخفی مارکوف پیچیدهترین بخش الگوریتم ویتربی میباشد. یکی از روشهای کاهش حجم محاسبه احتمال مشاهدهها، خوشهبندی توزیع مولفههای گاوسی مدل مخفی مارکوف میباشد. در این روشها خوشهها به همراه میانگین و واریانس خوشهبندی میشوند.

در این مقاله برخلاف این روشها، مقادیر میانگین و واریانس توزیعهای مولفههای گاوسی مدل مخفی مارکوف جداگانه در نظر گرفته شده و خوشهبندی میشوند. در روش پیشنهادی با کاهش 72 درصدی ضریب بلادرنگی، نرخ خطای کلمه تنها به میزان 0,8 افزایش مییابد.

-1 مقدمه

بازشناسیگفتار معمولاً توسط کامپیوترهای شخصی صورت میگیرد. اما در زندگی روزمره، به سیستمهای بازشناسی مستقل نیاز داریم تا به آسان ی و بصورت بلادرنگ از آنها استفاده کنیم. به علت الگوریتمهای محاسباتی پیچیده استفاده شده در پردازش سیگنالها، کامپیوترهای شخصی نمیتوانند بهصورت بلادرنگ مورد استفاده قرار گیرند.

بازشناسی گفتار شامل بخشهای استخراج ویژگی و بازشناسی الگو میباشد. در استخراج ویژگی، سیگنال گفتار به تعدادی ویژگی مثل ضرایب پیشگویی خطی یا ضرایب کپسترال تبدیل میشوند. بعد از یادگیری این ویژگیها توسط یک مدل یادگیرنده، در مرحله آزمایش، از روشهای بازشناسی الگو برای بدست آوردن نتیجه بازشناسی استفاده میشود.

بازشناسی کلمات مجزا به بازشناسی یک کلمه بیان شده اطلاق میشود که انتخاب کلمات به بخشهای معنایی و گرامری بستگی ندارد .[1] در سیستمهای بازشناسی گفتار کلمات مجزای اولیه از روشهای ابتدایی مثل پیچش زمانی پویا استفاده شده است

مهمترین مشکل این روشها، افزایش پیچیدگی زمانی با بزرگ شدن اندازه واژگان است که باعث میشود چنین سیستمهایی برای کاربردهای واقعی مناسب نباشند. سیستمهای جدید از مدلسازی آماری پیچیده و قدرتمندی استفاده میکنند. چنین سیستمهایی از تابعهای ریاضی و احتمالی برای تعیین محتملترین نتیجه استفاده میکنند. امروزه دو مدل شبکه عصبی و مدل مخفی مارکوف در بازشناسی گفتار بیشتر مورد استفاده قرار میگیرند. بهطور خلاصه باید گفت که روش مدل مخفی مارکوف روش آماری معروف و پرکاربردی میباشد که از ویژگیهای طیفی فریمهای یک الگو استفاده میکند که برای بازشناسی گفتار مناسب هست

در روش مدل مخفی مارکوف، مدلی برای هر یک از واحدهای گفتاری ساخته میشود. هر مدل شامل مقدار اولیه احتمال، ماتریس انتقال بین حالتها و احتمال مشاهدهها - خروجی - میباشد. در مرحله آموزش این مقادیر محاسبه میشوند. در مرحله بازشناسی با استفاده از الگوریتم ویتربی، دنباله حالتهایی که بیشترین احتمال را برای دنباله مشاهده آزمایشی دارند، بدست میآیند.

مهمترین بخش الگوریتم ویتربی و در عین حال بخشی که پیچیدگی محاسباتی بالایی دارد و زمان بیشتری را به خود اختصاص میدهد، محاسبه احتمال مشاهدهها هست. در یک کاربرد با واژگان محدود، این بخش %96 از محاسبات را به خود اختصاص میدهد

در بازشناسی گفتار با استفاده از مدل مخفی مارکوف از مدل مخلوط گاوسی برای محاسبه احتمال مشاهدهها استفاده میشود. واضح است که با افزایش تعداد مخلوطهای گاوسی، محاسبات نیز بیشتر میشود. روش انتخاب گاوسی برای کاهش تعداد گاوسیهای تاثیرگذار در محاسبه احتمال مشاهدهها معرفی شده است 

رویکرد دیگر تقسیم فضای ویژگی به تعدادی زیرفضای مستقل از هم و سپس خوشهبندی توزیعهای نرمال در هر زیرفضا میباشد

این روش بیشتر برای سیستمهای بازشناسی گفتار بر روی سیستمهای با حافظه و توان پردازشی محدود مورد استفاده قرار میگیرد. در این مقاله روشی برای محاسبه احتمال مشاهدهها با محاسبات کمتر ارائه خواهد شد. این روش با اندکی افزایش نرخ خطای کلمه زمان بازشناسی را به میزان قابل توجهی کاهش میدهد.

در ادامه مقاله، در بخش دوم، بازشناسی گفتار با استفاده از مدل مخفی مارکوف توضیح داده میشود. در بخش سوم، روشهایی که برای کاهش محاسبات در محاسبه احتمال مشاهدهها استفاده میشوند، بررسی شدهاند. در بخش چهارم نیز آزمایشها و نتایج آنها بررسی میشود.

-2 بازشناسی گفتار مبتنی بر HMM

در این بخش سیستمهای بازشناسی گفتار مبتنی بر HMM به طور خلاصه توضیح داده میشوند. هدف بازشناسی گفتار آماری پیدا کردن دنباله کلمات = 1 2, … , هست بهطوری که بیشینه احتمال پسین برای دنباله بردار ورودی = 1 2, … , را تولید کند:

 از آنجا که محاسبه این احتمال به راحتی ممکن نیست، قانون بیز به  رابطه 1 اعمال میشود، بطوری که میتوان نوشت:        

که - - احتمال پیشین دنباله بردار ورودی است. رابطه 2 میتواند طی رمزگشایی باز هم سادهتر شود، زیرا عمل argmax مستقل از - - هست. در بازشناسی گفتار مبتنی بر HMM، مدلها بصورت = - , , - نمایش داده میشوند که ماتریس انتقال حالتها، احتمال رویت مشاهدهها در حالتها است که هر حالت برای بردار ورودی داده شده تولید میکند. همچنین احتمال اولیه هر حالت میباشد. در مرحله رمزگشایی، معمولا از الگوریتم ویتربی برای کاوش فضای جستجو جهت پیدا کردن دنباله کلمه با بیشترین احتمال برای دنباله بردار ورودی داده شده استفاده میشود.

مهمترین بخش الگوریتم ویتربی محاسبه احتمال رویت مشاهدهها در حالتها میباشد. بنابراین، در اینجا نحوه پیادهسازی محاسبه احتمال رویت مشاهدهها در حالتها بررسی میشود. در روشهای معمول مبتنی بر مدل مخفی مارکوف بیشتر از مدل مخفی مارکوف با چگالی پیوسته استفاده میشود. در این روشها از مدل مخلوط گوسی برای محاسبه احتمال رویت مشاهدات در حالتها استفاده میکنند:

که تعداد مولفههای گوسی، W وزن مولفه گوسی ام، O بردار ورودی و N - O, , - توزیع نرمال چند متغیره با میانگین و کواریانس میباشد:

که D بعد بردار ورودی هست. در بیشتر کاربردها از ماتریس کواریانس قطری استفاده میشود.

-3 کاهش محاسبات در محاسبه احتمال مشاهدهها

روشهای مختلفی برای کاهش محاسبات وجود دارد. در برخی از این روشها مقدار احتمال مشاهدهها از پیش محاسبه و ذخیره میشود. این روشها به حافظه بیشتری از روشهای معمول نیاز دارند. در ادامه این روشها توضیح داده شده و روش پیشنهادی ارائه میشود.

-1-3 روش 1 - روش مبنا -

هدف روش مبنا کاهش محاسبات الگوریتم ویتربی با تبدیل اعمال ضرب به جمع با استفاده از لگاریتم در محاسبه احتمال مشاهدهها میباشد. با توجه به اینکه مقادیر احتمال مشاهدهها، خیلی کوچک و مقداری نزدیک به صفر دارند، انجام عمل لگاریتم باعث بزرگ شدن این اعداد میشود. از سوی دیگر با انجام لگاریتم، ضربها به جمع تبدیل شده و محاسبات سریعتر انجام میگیرد. شکل لگاریتمی تابع توزیع نرمال احتمال مشاهدهها بصورت رابطه 5 میباشد:

-2-3 روش 2 - استفاده از مقدار بیشنیه احتمال مشاهدهها -

در این روش مقادیر تابع توزیع نرمال برای همه مخلوطهای گاوسی محاسبه، همچنین در مقدار وزن هر مخلوط ضرب شده و سپس بیشینه مقدار موجود، به عنوان مقدار احتمال مشاهدهها در نظر گرفته میشود. این عمل تنها باعث کاهش انجام محاسبات جمع لگاریتمی میشود. رابطه جمع لگاریتمی بصورت رابطه 6 میباشد که در این روش از انجام آن صرفنظر میشود3

-3-3 روش 3 - محاسبه مقادیر مستقل از بردار مشاهده -

در رابطه 5 برخی از مقادیر مستقل از بردار مشاهده هستند. این مقادیر میتوانند از پیش محاسبه شده و به هنگام آزمایش مورد استفاده قرار گیرند. این عمل منجر به کاهش انجام محاسبات میشود. این مقادیر شامل
2 ln - 2   - ، 21 ln|  | و 2  2  ,  میباشد.

-4-3 روش 4 - خوشهبندی دادهها -

همانطور که گفته شد بیشترین محاسبات در مرحله آزمایش مربوط به محاسبه احتمال مشاهدهها میباشد. در محاسبه احتمال مشاهدهها، مقدار - - برای همه دنباله مشاهدهها محاسبه میشود. در این روش سعی میشود دفعات انجام این محاسبات کمتر شود تا به این ترتیب در زمان و محاسبات صرفهجویی گردد.

در ابتدا مدلهای ارقام با استفاده از ابزار [7] HTK آموزش داده میشوند و مدل هر کلمه ساخته میشود. از الگوریتم ویتربی برای تشخیص اینکه هر بردار ویژگی از دادههای آموزشی به کدام حالت مدل مخفی مارکوف تعلق میگیرد نیز میتوان استفاده کرد. بنابراین به عنوان یک مرحله پسپردازش بعد از ساخت مدل با استفاده از ابزار HTK، الگوریتم ویتربی برای همه دادههای آموزشی بکار برده میشود تا بردارهای ویژگی تخصیص یافته به هر حالت مشخص شود. پس از مشخص شدن دادههای آموزشی هر حالت، این دادهها خوشهبندی میشوند.

روش خوشهبندی استفاده شده، روش K-Means و معیار اندازهگیری فاصله، مجذور اقلیدسی میباشد. پس از خوشهبندی برای مراکز ثقل خوشهها مقدار - - محاسبه و در ماتریس ′ ذخیره میشود. در مرحله آزمایش، با داشتن بردارهای ویژگی داده آزمایشی، ابتدا این بردارها با مراکز ثقل خوشهها مقایسه شده و مقدار - - نزدیکترین بردار از ماتریس ′ انتخاب و در محاسبات استفاده میشوند. در این روش نیازی به محاسبه ماتریس برای تکتک بردارهای مشاهده در مرحله آزمایش نیست و این باعث کاهش انجام محاسبات میشود.

-5-3 روش 5 - خوشهبندی توزیعها -

یکی از روشهای کاهش پارامترهای مدل مخفی مارکوف، تقسیم فضای ویژگی به تعدادی زیرفضا - رشته - میباشد. در [5] روشهای تعریف و انتخاب رشتهها معرفی شده است. معمولا ویژگیهایی در کنار هم قرار میگیرند که همبستگی بیشتری با یکدیگر داشته باشند. در این مقاله از یک تعریف رایج برای انتخاب رشته استفاده شده است بطوری که ضرایب کپسترال در یک رشته، مشتق اول ضرایب در یک رشته و مشتق دومشان در رشته دیگر و انرژی به همراه مشتق اول و دوم در یک رشته قرار گرفته و در مجموع 4 رشته را تشکیل میدهند.

از روش خوشهبندی توزیع زیرفضا برای رسیدن به بالاترین سطح دقت بازشناسی و بازشناسی سریعتر بر روی ابزارهای با منابع محدود استفاده میشود. در روش مدل مخفی مارکوف با خوشهبندی توزیع زیرفضا، توزیعهای گوسی با کواریانس قطری، ابتدا بر روی زیرفضاهای متعامد J افکنده میشوند و سپس توزیعهای زیرفضاها در تعداد کمی از نمونههای توزیع خوشهبندی میشوند .[4] بنابراین احتمال رویت یک مشاهدهها در یک حالت با M مولفه گوسی میتواند بصورت زیر نوشته شود:

در این روش همه توزیعهای نرمال یک زیرفضا در کنار هم قرار گرفته و خوشهبندی میشوند. از روش خوشهبندی پایین به بالای متراکم و فاصله باتاچاریا در این روش استفاده میشود. همچنین توزیعها به همراه مقادیر میانگین و واریانس خوشهبندی میشوند. در این روش به دلیل محاسبه مقادیر احتمال مشاهدهها تنها برای مراکز ثقل خوشهها حجم محاسبات کاهش مییابد.

-6-3 روش 6 - خوشهبندی جداگانه مقادیر میانگین و واریانس -

در روش خوشهبندی که در این مقاله پیشنهاد میشود، پس از ساخت مدل و تقسیم فضای ویژگی به تعدادی رشته، مقادیر میانگین و واریانس مولفههای گاوسی به صورت جداگانه خوشهبندی و نزدیکترین مرکز ثقل برای هر رشته مشخص میشود. در مرحله آزمایش، برای بردارهای ویژگی دنباله مشاهدهها، مقادیر احتمال مشاهدهها تنها برای مراکز ثقل نزدیکترین خوشه برای هر رشته محاسبه میشود.

در این روش از روش خوشهبندی K-Means استفاده شده است. همچنین با توجه به اینکه مقادیر میانگین و واریانس به صورت جداگانه خوشهبندی شدهاند، از فاصله اقلیدسی استفاده شده است. حجم محاسبات در این روش نیز به دلیل محاسبه احتمال مشاهدهها برای مراکز ثقل خوشهها به جای همه مولفههای گاوسی، کاهش مییابد.

-4 آزمایشها

-1-4 پیکربندی آزمایشها

در انجام آزمایشها از دادگان FarsDigits که شامل اعداد صفر تا نه میباشد، استفاده شده است. این دادگان در آزمایشگاه پردازش هوشمند چندرسانهای دانشکده مهندسی کامپیوتر و فناوری اطلاعات دانشگاه صنعتی امیرکبیر جمعآوری گردیده است. این دادگان شامل 100 گوینده و 10 تکرار برای هر گوینده میباشد. نحوه ضبط این دادگان به صورت تلفنی و نرخ نمونهبرداری 11025 هرتز بوده است. در آزمایشها از 51 گوینده استفاده شده است که از این تعداد از دادههای 46 گوینده در مرحله آموزش و 5 گوینده باقیمانده در مرحله آزمایش مورد استفاده قرار گرفته است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید