بخشی از مقاله

تشخيص جنسيت از روي صدا با استفاده از ماشين بردار پشتيبان
خلاصه
هر تمايل به ايجاد ارتباط گفتاري انسان با کامپيوتر و همينطور گسترش استفاده از اينترنت و امکان دريافت سرويسهاي مختلف اطلاعاتي و خدمات از راه دور، باعث اهميت روزافزون تکنيکهاي مختلف پردازش گفتار شده است . يکي از تکنيکهاي پردازش گفتار، تشخيص اتوماتيک زن يا مرد بودن يک فرد از روي صدا است . در اين مقاله مسأله تشخيص جنسيت با استفاده از ماشين بردار پشتيبان (SVM)مطرح شده است . تشخيص جنسيت با استفاده از ضرايب کپسترال مبتني بر آناليز پيشگوئي خطي و ضرايب کپسترال مبتني بر معيار مل انجام شده است . در اين روش از SVM با هست RBF و همچنين SVM با هسته چندجمله اي استفاده شده است و نتايج برتري هسته RBF را بر هسته چندجمله اي در اين کاربرد خاص نشان مي دهد. آزمايشات مختلف حاکي از برتري ضرايب MFCC نسبت به ضرايب LPCC در تعيين جنسيت گوينده مي باشد، همچنين افزودن مشتق اول به ويژگي ها باعث بهبود کارايي سيستم مي شود.
کلمات کليدي: تشخيص جنسيت ، پردازش صوت ، ماشين بردار پشتيبان ، ضرايب کپسترال مبتني بر پيشگوئي خطي


١. مقدمه
تشخيص جنسيت گوينده يکي از شاخه هاي تشخيص هويت بيومتريک R مي باشد که به تشخيص خودکار هويت افراد با استفاده از ويژگي هاي ذاتي خاص هر شخص اشاره دارد. براي سيستم هاي ارتباطي بين انسان و ماشين که مسائل امنيتي بايد در آن بالا باشد، تشخيص هويت يکي از تکنيک هاي مهم به شمار مي آيد. براي اين منظور قبل از بررسي و شناسايي شخص گوينده ، چنانچه جنسيت گوينده مشخص شود مي تواند کمک قابل توجهي به اين امر نمايد و سرعت شناسايي را تا حد قابل توجهي بالا ببرد.
امروزه با گسترش فناوري اطلاعات و همگاني شدن استفاده از کامپيوتر، تلفن ، شبکه هاي محلي و خصوصا اينترنت به دليل دريافت سرويسهاي مختلف اطلاعاتي و خدمات از راه دور، بر اهميت تکنيکهاي مختلف پردازش گفتار افزوده شده است . يکي از تکنيکهاي پردازش گفتار، تشخيص اتوماتيک جنسيت يا به عبارتي زن يا مرد بودن کاربري است که مي خواهد به اطلاعات يا خدماتي دسترسي داشته باشد. پردازش گفتار در کاربردهاي گوناگوني از قبيل کدينگ گفتار، ترکيب گفتار، تشخيص گفتار و تکنولوژي هاي تشخيص گوينده بکار برده مي شود. در بين موارد فوق ، تشخيص گفتار از همه مهمتر است . هدف اصلي تشخيص گفتار تبديل سيگنال اکوستيک بدست آمده از ميکروفون يا تلفن به يک سري از کلمات است . براي استخراج و تعيين اطلاعات زباني حمل شده با موج گفتار، مجبور به استفاده از کامپيوترها يا مدارات الکترونيکي هستيم .
در اين سيستمها مي توان بدون پرسش صريح از کاربر يا حتي بدون اطلاع کاربر، با استفاده از گفتار شخص جنسيت او را تشخيص داد. اطلاع از زن يا مرد بودن کاربر مي تواند در نوع و چگونگي اطلاعات و خدماتي که در اختيار فرد مورد نظر قرار مي گيرد، مؤثر باشد. علاوه بر اين در سالهاي اخيرکه استفاده از سيستمهاي تشخيص هويت بيومتريک مثل اثر انگشت ، قرنيه چشم و همچنين صدا مطرح شده است ، تشخيص زن يا مرد بودن گوينده مي تواند در اين سيستمها نيز مفيد بوده و باعث تسريع عمل آنها شود. به عبارت ديگر مي توان ابتدا زن يا مرد بودن گوينده را تشخيص داد و سپس در گروه زنان و يا مردان ، فرد را تعيين هويت کرد.
در تشخيص جنسيت مي توانيم تفاوت هاي فيزيولوژيکي مانند ضخامت پيچ صوتي ياطول مدت صوت را شناسايي کنيم . تفاوت هاي شيوه سخن گفتن افراد تا حدي دليل تفاوت هاي جنسيتي گفتار بشر است . تشخيص جنسيت يکي از مسائل هوش مصنوعي است که به سبب اهميت آن از سالها پيش بر روي آن کار و تحقيق شده است . از کاربردهاي تشخيص جنسيت به کمک صدا، بالا بردن دقت سيستم هاي تشخيص گفتار با ساخت مدلهاي وابسته به جنسيت مي باشد.
از کاربردهاي ديگر تشخيص جنسيت ، محدود کردن فضاي جستجو در عمليات تشخيص گوينده است که باعث افزايش سرعت و دقت در چنين سيستم هايي مي شود. همچنين تشخيص جنسيت مي تواند به عنوان يک دانش در نشانه گذاري و برچسب زني محتواي چند رسانه اي استفاده شود.
در اين مقاله ، مسأله تشخيص جنسيت از روي صدا با استفاده از ماشين بردار پشتيبان * مطرح شده است . ماشين بردار پشتيبان يکي از ايده هاي جديد در شناسايي و دسته بندي الگو است . اين روش ، داراي خواص بسيار ارزشمندي است که آن را براي شناسايي الگو و همچنين اين کاربرد خاص مناسب مي سازد. يکي از خواص مهم SVM اين است که يک طبقه بندي کننده با حداکثر تعميم ايجاد مي کند، در صورتي که در هيچ يک از طبقه بندي کننده هاي الگو، خاصيت تعميم طبقه بندي کننده به طور مستقيم در تابع هزينه دخالت داده نشده است . خاصيت ديگر آن ، اين است که بر خلاف بسياري از روشها، SVM با مشکل بهينه هاي محلي مواجه نيست و نکته قابل ذکر ديگر، تعيين ساختار و توپولوژي بهينه توسط SVM است ، در صورتي که تعيين ساختار و توپولوژي طبقه بندي کننده يکي از معضلات مطرح در طراحي طبقه بندي کننده ها است . به عنوان مثال تعداد بهينه نودهاي لايه مخفي در شبکه عصبيMLP ،تعداد توابع گوسي در شبکه RBF يا تعداد بهينه حالتها و توابع گوسي در مدل مخفي مارکف از مشکلات اين روشها است .
در ضمن در اين مقاله تشخيص جنسيت با کمک صدا و ويژگي هايLPCC و MFCC انجام شده و تأثير افزودن مشتقات آنها نيز مورد بررسي قرار گرفته است .
در بخش ٢ اين مقاله به طور مختصر ماشين بردار پشتيبان توضيح داده خواهد شد. بخش ٣ به دادگان گفتاري و استخراج ويژگي اختصاص دارد. در بخش ٤ جزئيات پياده سازي، آموزش و بازشناسي و همچنين نتايج آزمايشات انجام شده بيان مي شود و در پايان نيز يک جمع بندي از مطالب و نتايج به دست آمده ارائه مي گردد.
١. ماشين بردار پشتيبان
يک محقق روسي به نام ولاديمير وپنيک * در سال ١٩٦٥ گامي مهم در طراحي دسته بندي کننده ها برداشت و نظريۀ آماري يادگيري را به صورت مستحکمتري بنا نهاد و ماشين بردار پشتيبان را بر اين اساس ارائه داد.[٢]
ماشين بردار پشتيبان يک روش يادگيري نسبتا جديد است که اغلب براي دسته بندي باينري مورد استفاده قرار مي گيرد. ماشين بردار پشتيبان با معرفي يک فضاي ويژگي منتج از بکارگيري توابع هسته ، داده هاي ورودي را به فضايي با ابعاد بالاتر برده و قابليت جدايي پذيري داده هايي که در حالت عادي به صورت خطي جدايي پذير نيستند را افزايش مي دهد. نوعا اين کار، يعني بردن بردارهاي ورودي به فضاهاي ابعاد بالاتر، با افزايش پيچيدگي محاسباتي و مشکل همپوشاني همراه است . اما ماشين هاي بردار پشتيبان با فضاي ابعاد بالاتر به صورت مستقيم ارتباط ندارند و تنها به روابط ضرب داخلي در اين فضا نياز دارند.
SVM ها داراي خواص زير هستند:
طراحي دسته بندي کننده با حداکثر تعميم
تعيين خودکار ساختار و تو پولوژي بهينه براي دسته بندي کننده
مدل کردن توابع تمايز غيرخطي با استفاده از هسته هاي غيرخطي و مفهوم ضرب داخلي
٢. روش طبقه بندي ماشين بردار پشتيبان
فرض کنيم مجموعه نقاط داده را در اختيار داريم و ميخواهيم آنها را به دو طبقه تفکيک کنيم . هر Xi يک بردار P بعدي از اعداد حقيقي است که در واقع همان متغيرهاي بيانگر رفتار نرم افزار هستند.
روشهاي طبقه بندي خطي، سعي دارند که با ساختن يک ابرسطح ( که عبارت است از يک معادله خطي)، داده ها را از هم تفکيک کنند. روش طبقه بندي ماشين بردار پشتيبان که يکي از روشهاي طبقه بندي خطي است ، بهترين ابرسطحي را پيدا ميکند که با حداکثر فاصله ، داده هاي مربوط به دو طبقه را از هم تفکيک کند. به منظور درک بهتر مطلب ، در شکل ١ تصويري از يک مجموعه داده متعلق به دو کلاس نشان داده شده که روش ماشين بردار پشتيبان بهترين ابرسطح را براي جداسازي آنها انتخاب مي کند.

٣. روش استفاده شده براي تشخيص
به طور کلي ميتوان مراحل انجام اين پروژه از ابتدا تا پايان را به قسمتهاي زير تقسيم بندي نمود : تهيه ديتا اصلاح ديتاي خام جهت ارائه به شبکه ايجاد يک شبکه مناسب آموزش شبکه روند کلي به اينصورت است که در ابتدا نمونه گرفته شده با توجه به توضيحات ذکر شده در فصل دوم بخش ٧ به بعد، به عنوان داده خام ثبت شده خوانده ميشود و با استفاده از تابع Pre-Processing قسمت هاي اوليه داده خام خوانده شده حذف مي شود؛ به عبارت ديگر،در بين کلمات بيان شده توسط گوينده معمولا سکوت وجود دارد. چون اين سکوت در بين گويندگان زن ومرد يکسان است ، لذا براي تمايز بين آنها مفيد نبوده و بنابراين سکوت بين جملات حذف شده و از گفتار بدون سکوت در آموزش وآزمايش استفاده مي شود.
براي به دست آوردن ويژگي ها از پنجر ه هاي همينگ به طول ٣٠ ميلي ثانيه استفاده شده است .مقدار پيش تأکيد برابر ٠.٩٧٥ و ميزان همپوشاني فريم ها ١٠ ميلي ثانيه فرض شده است .تعداد ضرايب استخراج شده از هر فريم ١٢ تا است که در صورت استفاده از مشتق اول ، طول بردار ويژگي به ٢٤ عنصر افزايش مي يابد.
سپس سيگنال هاي حاصل ، با استفاده از تابع Compute Feature به فضاي ويژگي نگاشت ميشود و ويژگيهايي از سيگنال استخراج ميشود .ترتيب استخراج اين ويژگيها با استفاده از متدهاي استفاده شده ، که به طور مفصل در ادامه تشريح ميشوند، آمده است . فلوچارت زير روند اجراي پژوهش را نشان مي دهد.

در پروژه پيش رو از دادگان فارسي فارس دات استفاده گرديده است .
ضرايب کپسترال حاصل از آناليز پيشگوئي خطي(LPCC) و ضرايب کپسترال حاصل از طيف فوريه مبتني بر معيار مل (MFCC) ، يا مستقيما يا به همراه مشتق اولشان ، به عنوان ويژگي هاي استخراج شده از فايلهاي صوتي در نظرگرفته شده و براي دسته بندي استفاده شده اند.
MFCC: يکي از بهترين ويژگيهاي نشان داده شده که تا کنون نيز مورد استفاده قرار گرفته است ، معيار مل با ضرايب کپسترال يا MFCC مي باشد. اين ويژگي يک بردار ويژگي چند بعدي براي هر قاب از گفتار ايجاد مي کند.
MFCC برمبناي فرکانس پهناي باندهاي مختلف قابل شنيدن توسط گوش انسان است . MFCC ها اغلب مشتق شده از مراحل زير هستند:
١. گرفتن تبديل فوريه از سيگنال ؛
٢. نگاشت نمايي از طيف حاصل از گام اول بر روي معيار مل با استفاده از پنجره هاي تداخلي مثلثاتي؛
٣. گرفتن لگاريتم از توانها در هر فرکانس مل ؛
٤. گرفتن تبديل کسينوسي گسسته از ليست توانهاي لگاريتم مل ، در صورت سيگنال بودن
٥. MFCC ها دامنه هايي از طيف نتيجه هستند.
روند محاسبات MFCC در فلوچارت ٢ نشان داده شده است .

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید