بخشی از مقاله

چکیده

در این مقاله الگوریتمی مبتنی بر بینایی ماشین ارائه می شود که می تواند حرکت های ایستای دست کاربران را در الفبای دستی ناشنوایان تشخیص دهد. این پژوهش روی حروف و اعداد زبان انگلیسی صورت گرفته است. با استفاده از ویژگی های استخراج شده از تصاویر و الگوریتم بام ولچ1 زنجیره ی مخفی مارکوف2 آموزش داده شده است. استفاده از ویژگی های انگشتان دست برای آموزش زنجیره ی مخفی مارکوف باعث کارآمدی بالای الگوریتم مورد استفاده در این پروژه شده است. در فاز تست از الگوریتم ویتربی3 استفاده شده است و با استفاده از نمونه های جدید از تصاویر دست میزان کارایی مدل پیشنهادی محک زده شده است. با توجه به اینکه هیچ محدودیتی در تصاویر مورد استفاده در این مقاله اعمال نشده است ، میزان دقت مطلوب به نظر می رسد.

.1 مقدمه

در تعامل های انسان-انسان حرکت های دست یکی از مهمترین ابزار های برقراری ارتباط و بیان خواسته ها می باشد ، به طوریکه برای افراد ناشنوا حرکت های اشاره ای خاصی طراحی شده که می توانند با استفاده از حرکات دست ، منظور و مقصود خود را به مخاطبان برسانند . از ابتدای تولید کامپیوتر ها یکی از مهمترین فعالیت های طراحان این بوده است که کاربران بتوانند هر چه ساده تر با کامپیوتر ها ارتباط برقرار کرده و به راحتی از قابلیت های آن استفاده کنند . متداول ترین شیوه ی تعامل با کامپیوتر های فعلی که برای چندین دهه است که تغییرات زیادی نیز نداشته ، استفاده از سخت افزارهایی نظیر موس و صفحه کلید می باشد. طراحی سیستمی برمبنای الفبای دستی ناشنوایان نه تنها می تواند ارتباط آنها را با دیگر افراد ساده تر کند بلکه می تواند نحوه ای از ارتباط با ماشین نیز تلقی گردد.

.2 محدوده ی تحقیق

از نظر حرکت شناسی می توان نمادهای زبان اشاره را به دو دسته تقسیم نمود: نمادهای ایستا: که اغلب محل قرار گرفتن دستها بسته به هراشاره، ثابت بوده و حالت دستها و انگشتان و جهت کف دستها حاوی بار معنایی می باشد. نمادهای پویا: که حالت و وضع حرکت دست نسبت به بدن حاوی بار معنایی است. این مقاله به بررسی نمادهای ایستا در الفبای دستی ناشنوایان می پردازد. این نمادها با یک دست نشان داده می شوند.

.3 جمع آوری داده ها

در مقالات مشابه معمولا در این بخش درباره پردازش تصویر بحث می شود و نحوه استخراج مختصات دست مشخص می گردد ، ولی در این مقاله از دیتاستی استفاده شده است که مختصات دست را نیز ارائه می دهد. قابل ذکر است که مختصات دست به معنی ویژگی های مورد نیاز برای آموزش مدل مخفی نمی باشد و فقط بخشی از دیتاست می باشد. در این رابطه دیتاست های مختلفی مورد بررسی قرار گرفته است که در ادامه به معرفی آنها می پردازیم.

.1-3 دیتاست های الفبای دستی ناشنوایان

دیتاست های موجود برای الفبای دستی ناشنوایان در جدول1 لیست شده اند. همانطور که در [1] ذکر شده است تمامی آنها مربوط به زبان اشاره انگلیسی می باشند.برای هرکدام از دیتاست ها محدودیت هایی که در وضعیت نور ، پس زمینه و اندازه تصاویر اعمال شده اند ، ذکر شده است. تعداد تصاویر هر دیتاست نیز مشخص گردیده است .

.2-3 انتخاب دیتاست

واضح است که تعداد تصاویر بیشتر در دیتاست می تواند به افزایش دقت و صحت نتایج کمک شایانی کند. دو دیتاست اول حاوی حرکات دست می باشند که مربوط به نمادهای پویا می شوند ، لذا در این پژوهش نمی توانند مورد استفاده قرار گیرند. از بین 5 دیتاست بعدی باتوجه به دلایل زیر مورد آخر انتخاب شده است :

·    دارا بودن بیشترین تعداد تصاویر

·    محدودیتی برای وضعیت نور ندارد

·    اندازه تصاویر آن متغیر است و به واقعیت نزدیک تر است

·    ویژگی منحصر بفرد آن که پس زمینه ثابتی ندارد دیتاست انتخابی حاصل نتایج مقالات [4, 3, 2] می باشد مشتمل بر 27 حالت دست می باشد که هرکدام نشان دهنده  یک حرف یا عدد می باشند و از هرکدام از حرکات 33 نمونه موجود می باشد و مجموعا 891 تصویر را دربر دارد.

.4 مطالعه پیشینه

الفبای دستی ناشنوایان در یکی از مواردی است که بسیار به آن پرداخته شده است. ابتدا برای بیان اهمیت موضوع یکی از پروژه های بزرگی که در این حوزه می باشد را معرفی می کنیم و سپس چند نمونه مرتبط با روش استفاده شده در این مقاله را بررسی می کنیم.

Google Gesture .1-4

گوگل و دانشگاه ارتباطات استکهلم در حال توسعهی سیستمی هستند که با استفاده از تعدادی بازوبند، علائم نمایش داده شده توسط فرد مورد نظر را شناسایی کرده و آنها را به زبان طبیعی و اصوات قابل فهم ترجمه میکند. این سیستم با استفاده از یک اپلیکیشن با نام Google Gesture در کنار دو بازوبند که باید در قسمت میانی ساعد افراد قرار گیرد، قادر است تا با بهرهگیری از مجموعهای از فناوریها، حرکات انجام شده توسط دست فرد را از طریق پروسهی Electroygraphy تشخیص داده و منظور کاربر را از طریق اصوات صوتی انتقال دهد.اطلاعات حاصل از بازوبندها به اپلیکیشن Gesture ارسال میشوند که در تلفنهوشمند یا تبلت قرار داشته و از این طریق ترجمه شده و پخش میشوند. این سیستم زمانی بسیار کاربردی است که افراد حاضر قادر به تشخیص زبان علائم بهکار برده شده نباشند.

.5 مقالات مرتبط

در [5] بازشناسی تصویری الفبای دستی ناشنوایان با استفاده از شبکه عصبی و ماشین بردار پشتیبان صورت گرفته است. در این مقاله نیز برای یافتن ویژگی از مکان یابی سرانگشتان در هنگام ادای اشارات دستی استفاده شده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید