بخشی از مقاله
خلاصه
ژست یکی از روش های موثر وکاربردی در ارتباطات بین انسان و کامپیوتر می باشد . از این رو، با توجه به رابط کاربری آسان استفاده از این روش در حال افزایش است. دراین مقاله یک رابط ژست دست برای کنترل پخش کننده رسانه با استفاده از شبکه عصبی ارائه می دهد . الگوریتم پیشنهادی مجموعه ای از چهار حرکت خاص دست را شناسایی می کند که شامل: Play، Stop، Forward و .Reverse الگوریتم ما بر اساس چهار مرحله، گرفتن تصویر، تقسیم بندی دست، استخراج ویژگی ها و طبقه بندی است.
یک فریم با دوربین وب کم گرفته شده و سپس از آن برای تشخیص پوست به منظور جداسازی مناطق پوست از پیکسل های پس زمینه استفاده می شود. تصویر جدید ایجاد شده حاوی مرز دست است. استخراج ویژگی های شکل دست، برای توصیف ژست دست استفاده می شود. از یک شبکه عصبی مصنوعی نیز به عنوان طبقه بندی کننده ژست استفاده می شود که در آن از 120 ژست تصویر برای آموزش استفاده شده است. این الگوریتم پیشنهادی یک دستگاه ورودی جایگزین برای کنترل پخش کننده رسانه ایجاد می کند و همچنین 4 دستور مختلف ژستی را ارائه می دهد. در مقایسه با دیگر سیستم های تشخیص ژست دست نشان می دهد که سیستم ما عملکرد بهتر را از نظردقت نشان می دهد
-1 مقدمه
به تازگی تحقیقات بر روی تعامل بین انسان و کامپیوتر انجام شده که تاکید زیادی بر روی ایجاد یک رابط کاربری آسان با استفاده از مهارت های ارتباطی طبیعی انسانی صورت گرفته است. در میان اندام های مختلف بدن انسان، دست به عنوان موثرترین ابزار تعامل است. کلمه ژست برای بسیاری از حرکات انسان، به ویژه برای دست و بازو استفاده می شود که فقط برخی از آنها برای تعامل ویا برای برقراری ارتباط استفاده می شوند .[1] اولین روش تعامل بین انسان و کامپیوتر با استفاده از ژست دست، توسطMyron W. Krueger در سال 1970 پیشنهاد شد .
[2] که باعث شد ژست دست به عنوان یک رابط در تعامل انسان با رایانه و امکان استفاده از طیف زیادی از برنامه ها بدون هیچ گونه تماس فیزیکی با محیط را به ارمغان آورد .[3] امروزه بیشترین تعامل بین انسان و رایانه مبتنی بر دستگاه های مکانیکی مانند صفحه کلید، ماوس، جوی استیک یا پد بازی است، اما علاقه ای رو به رشد برای توانایی تشخیص حرکات انسان به روش طبیعی و براساس بینایی ماشین شکل گرفته است.[4] هدف اصلی تشخیص ژست شناسایی یک ژست خاص انسان و انتقال اطلاعات به کامپیوتر است. هدف کلی این است که برای درک حرکات دست انسان و برای کنترل از راه دور دستگاه های مختلف استفاده گردد.[5] شناختن خودکار تشخیص حرکت ژست برای زبان اشاره و کنترل دستگاه های الکترونیکی مانند تلویزیون دیجیتال، پلی استیشن به تازگی به عنوان موضوع تحقیق داغ مطرح شده است.
اما بسیاری از مسائل از قبیل پس زمینه های پیچیده، رنگ پوست و ماهیت ژست استاتیک و دینامیک دست باعث افزایش مشکلات می گردد. تشخیص حرکات وژست دست برای کنترل تلویزیون توسط [6] پیشنهاد شده است. در این سیستم فقط با یک حرکت برای کنترل تلویزیون توسط حرکت دست کاربر استفاده می شود. در صفحه نمایش، یک نماد دست ظاهر می شود که به دنبال دست کاربر است. برای تجزیه و تحلیل دست کاربر، از همبستگی نرمال شده استفاده شده است. یک رابط کامپیوتری بر اساس تشخیص ژست دست برای کنترل برنامه های کاربردی مانند پخش کننده رسانه و با استفاده از تکنیک های بینایی کامپیوتری، توسط [7] پیشنهاد شده است.
در این الگوریتم تجزیه و تحلیل تصاویر واستخراج ویژگی دست وسپس تشخیص حرکت دست بر اساس استفاده از الگوریتم جریان نوری لوکاس کاناد است که با استفاده از الگوریتم نزدیکترین همسایهK، برای تشخیص ژست به کار می آید که در [8] ارائه شده است. تکنیک پیشنهادی ما مجموعه ای از چهار حرکت خاص دست را شناسایی می کند: Play، Stop، .Forward,Reverse رویکرد ما بر اساس چهار مرحله، گرفتن تصویر، تقسیم بندی دست، استخراج ویژگی ها و طبقه بندی ویا همان تشخیص است.از یک شبکه عصبی مصنوعی - ANN - به عنوان یک طبقه بندی کننده ژست استفاده شده است. مراحل انجام این مقاله به شرح زیر است:
1. ما یک تکنیک برای تشخیص ژست دست برای کنترل پخش کننده رسانه که با استفاده از ویژگی های مناطق تصویر دست و با ردیابی مرز منطقه پیشنهاد می کنیم.
2. الگوریتم پیشنهادی ما شامل چهار حرکت خاص دست یعنی: Play، Stop، Forward، Reverse تست و ارزیابی می گردد مراحل این مقاله به شرح زیر است: بخش دوم الگوریتم پیشنهادی ما را توصیف می کند. بخش سوم نتایج تجربی را توضیح می دهد ودر نهایت، بخش چهارم مقاله را جمع بندی می کنیم.
-2روش پیشنهادی
در این بخش، فرایند مورد نیاز برای تشخیص حرکات دست را پیشنهاد می کنیم، همانطور که در شکل1 نشان داده شده است
شکل-1 سیستم پیشنهادی تشخیص ژست دست
-1-2 گرفتن تصویر
در این قسمت دیتای ورودی می تواند یک تصویر یا دنباله ای از تصاویر - ویدیو - ، گرفته شده توسط یک دوربین به سمت دست کاربر است. نقطه شروع به عنوان مهمترین بخش دیتابیس شامل چهارکلاس تصاویر ژست دست است که برای آموزش ANN استفاده می شود. هر ژست یک کلاس فرمان ژست را برای کنترل پخش رسانه با استفاده از ANN نشان می دهد. تصاویرژست واقعی بوده وبا اندازه های مختلف توسط دوربین دیجیتال گرفته شده است. مجموعه داده های تصاویر شامل 120 عکس ژست دست برای مجموعه آموزشی، با چهار کلاس است. تصاویر مورد استفاده در این مقاله با استفاده از یک دوربین وب کم ثابت، با پس زمینه ساده و نور ثابت گرفته شده است.برخی از فریم های گرفته شده در شکل 2 نشان داده شده است.
شکل-2 تعدادی ازتصاویر گرفته شده از ژست دست
-2-2 پیش پردازش
مرحله پیش پردازش به منظور کاهش نویز با استفاده از فیلترمدین و برای حذف نویزآغاز می شود. بعد،قسمتی از تصویر برای حذف بخش های ناخواسته از تصاویر اصلی بریده شده است. سپس تصاویر نهایی با اندازه یکنواخت و پس زمینه