بخشی از مقاله
چکیده:
تخمین سن انسان بصورت خودکار و بر اساس تصویر چهره، یکی از موضوعات جالب و پرکاربرد حوزه پردازش تصویر و بینایی ماشین محسوب میشود که در سالهاي اخیر توجه محققین را به خود جلب کرده است.
در این مقاله به منظور انجام فرآیند تخمین سن بصورت خودکار یک شبکه عصبی کانولوشنی عمیق پیشنهاد شده است که در مرحله آموزش، ویژگیهایی از تصویر که در ارتباط با سن است از مجموعه تصاویر پایگاه داده استخراج شده و پس از آموزش شبکه عصبی بر اساس ویژگیهاي استخراج شده به تخمین سن در مجموعه جدیدي از تصاویر چهره به عنوان مجموعه آزمایشی پرداخته شده است. نتایج بدست آمده کارایی روش پیشنهادي را در مقایسه با روشهاي موجود در این حوزه تایید مینماید.
.1 مقدمه
تصویر چهره انسان حاوي طیف گستردهاي از اطلاعات شامل هویت، سن، جنسیت، و قومیت است. شناسایی ویژگیهاي تصویر چهره انسان در کاربردهاي دنیاي واقعی مانند کنترل گذرنامه و یا گواهینامه رانندگی به خوبی گسترده شده است
بازیابی اطلاعات تصویر چهره یکی از راههاي قدرتمند جهت شناسایی مظنونان در پروندههاي جنایی سازمانهاي مجري قانون میباشد. با وجود اینکه تا کنون کاراهاي زیادي در زمینه شناسایی افراد از تصویر چهره صورت گرفتهاست، اما تعداد محدودي از آنها مربوط به استخراج اطلاعات جمعیت شناختی مانند سن، جنسیت، و قومیت میباشد.
در بسیاري از کاربردهاي عملی تکیه بر انسان بمنظور استخراج و ارائه اطلاعات از تصاویر چهره امکانپذیر نیست. از این رو، تمایل به استخراج اطلاعات جمعیت شناختی از تصویر چهره به صورت خودکار افزایش یافته است .[3] تمرکز این مقاله بر روي تخمین سن است که هدف آن تعیین سن انسان بر ساس یک تصویر چهره میباشد. برخی از کاربردهاي بلقوه تخمین سن بصورت خودکار عبارتند از:
- 1 اجراي قوانین: با استفاده از سیستمهاي خودکار تخمین سن میتوان بر اساس سن برآورد شده تصویر ورودي بانک اطلاعاتی تصاویر را بصورت موثرتري فیلتر نمود و در نتیجه با سرعت بیشتري به شناسایی مظنونان احتمالی پرداخت.
- 2 کنترل امنیت: یک سیستم خودکار تخمین سن میتواند جهت جلوگیري از دسترسی افراد غیربالغ به دخانیات و یا صفحات وب نامناسب مورد استفاده قرار گیرد.
- 3تعامل انسان با کامپیوتر: سیستم مجهز به تخمین سن بصورت خودکار میتواند محتویات ارائه شده به کاربر را بر اساس سن او تنظیم نماید. به عنوان مثال، در یک فروشگاه اینترنتی پیشنهاد کالا بصورت هوشمند و بر اساس سن کاربر انجام گیرد
از آنجایی که فرآیند پیر شدن در انسان بصورت غیریکنواخت صورت میگیرد، مسئله تخمین سن بصورت خودکار با چالش روبرو است. علاوه بر این، استخراج ویژگی موثر از یک تصویر دو بعدي جهت تخمین سن نیز چالشی دیگر است. شبکههاي عصبی کانولوشنی موفقیت چشمگیري در شناسایی چهره، طبقه بندي تصاویر، تشخیص اجزاي تصویر و سایر کاربردهاي حوزه بینایی ماشین و پردازش تصویر داشتهاند. شبکه عصبی کانولوشنی داراي لایههاي مختلف کانولاسیون است که در آن هر لایه خروجی لایه پیشین را پردازش مینماید تا به خروجی مطلوب دست یابد
در این مقاله به منظور تخمین سن بر اساس تصویر چهره، از یک شبکه عصبی کانولوشنی آموزش داده شده استفاده شده است. پیش از انجام فرآیند آموزش شبکه عصبی، پیشپردازشی جهت تشخیص محل دقیق چهره انجام میگیرد سپس از شبکه عصبی کانولوشنی که توسط بخشی از تصاویر پایگاه داده آموزش دیده است، به منظور تخمین سن سایر تصاویر استفاده میگردد. از آنجایی که تعداد کم نمونهها در پایگاه داده مورد آزمایش یادگیري شبکه عصبی را دچار مشکل overfitting میکند، در مسیر آموزش شبکه عصبی و جهت یادگیري بهتر آن، تعداد تصاویر مورد آموزش به روشی که در ادامه توضیح داده خواهد شد به 5 برابر تصاویر پایگاه داده اصلی افزایش مییابد.
ساختار مقاله در ادامه به شرح زیر میباشد: در بخش 2 کارهاي مرتبط در حوزه دستهبندي سن مرور میشود. در بخش 3 به شرح جزئیات روش پیشنهادي پرداخته خواهد شد. نتایج تجربی حاصل از اعمال روش پیشنهادي بر روي پایگاه داده FG-NET در بخش 4 آورده شده است. در نهایت در بخش 5 به نتیجهگیري بیان شده است.
.2 کارهاي مرتبط
در روشهاي ابتدایی از اندازه و ابعاد صورت انسان جهت تخمین سن استفاده میشد. چنین روشهایی محدود به سنین جوانی هستند که ابعاد سر انسان در طول این دوران بصورت قابل توجهی تغییر میکند .[5] بعدها، مدل ظاهري فعال[6] - AAM - 1 ، زیرفضاي الگوي سن7] - AGES - 2و[8، منیفولد سن9]3و [10 و مدل سه بعدي [11] morphable ارائه گردید.
همچنین مدل توصیف سطح معنایی براي مشخص کردن خصوصیات چهره در 12]و [13 مطرح شد. Gunayو Nabiyev از توصیفگر بافت موثر و الگوهاي باینري محلی به منظور استخراج ویژگی استفاده کردند Dong .[14] و همکارانش [15] یک روش یادگیري پراکنده ساختاري را پیشنهاد کردهاند. امروزه روشهاي جدید تخمین سن با استفاده از شبکههاي عصبی کانولوشنی عمیق به سطح بسیار بالایی از کارایی رسیدهاند [16]، بطوریکه حتی درمورد دادههایی که بصورت ناقص برچسب گذاري شدهاند با دقت خوبی به برآورد سن میپردازد.[17]
.3 روش پیشنهادي
در این بخش ساختار شبکه عصبی کانولوشنی روش پیشنهادي و مراحل آموزش و استخراج سن از روي تک تصویر دو بعدي ورودي شرح داده خواهد شد.
شبکههاي عصبی کانولوشنی عمیق مدلهاي قدرتمندي هستند که توانایی بالایی در بدست آوردن اطلاعات موثر دارند. یگی از مسائل چالش برانگیر در حوزه یادگیري ماشین مسئله overfitting است که زمانی این مشکل ایجاد میگردد که از پایگاه داده کوچکی در مرحله آموزش استفاده گردد. به منظور حل مسئله overfitting تصاویر پایگاه داده مورد آزمایش را با اعمال چرخش در جهت و نیز در خلاف جهت عقربههاي ساعت به اندازه 15 و 30 درجه، به 5 برابر افزایش میدهیم. اجزاي مختلف الگوریتم پیشنهادي در شکل 1 نشان داده شده است. در ادامه به شرح مراحل مختلف روش پیشنهادي پرداخته خواهد شد.
شکل .1 مراحل الگوریتم پیشنهادي بمنظور کلاسبندي سن بر اساس تصویر چهره
.1,3 ساختار شبکه عصبی کانولوشنی
شبکه عصبی کانولوشنی روش پیشنهادي از 4 لایه تشکیل شده است، 3 لایه کانولوشنی4 و 1 لایه کاملا متصل5 که به دنبال هر لایهي کانولوشنی یک لایه عملگر اصلاح خطی - ReLU - ، یک لایه max pool و نیز یک لایه نرمال سازي محلی وجود دارد. خروجی لایه کاملا متصل بصورت بردار nتایی است که منظور از n تعداد برچسبها - کلاسها - در پایگاه داده میباشد. در انتها، خروجی لایه کاملا متصل به لایه soft-max ارسال میشود که این لایه احتمال تعلق تصویر ورودي به هریک از کلاس ها را مشخص مینماید. برچسب مربوط به بیشترین احتمال تعلق، سن را براي تصویر ورودي تعیین خواهد کرد. برخی از ویژگیهاي معماري و ساختار شبکه عصبی کانولوشنی روش پیشنهادي در جدول 1 نشان داده شده است.
جدول.1 معماري و ساختار شبکه عصبی کانولوشنی در روش پیشنهادي
.2,3 پیشپردازش
در این مرحله پیش از آموزش شبکه عصبی کانولوشنی و به منظور استخراج هر چه بهتر ویژگیهاي تصاویر پایگاه داده توسط آن، بر روي تصاویر پایگاه داده پیشپردازش انجام میگیرد. به این منظور کلیه تصاویر پایگاه داده ابتدا به تصاویر خاکستري با ابعاد 256×256 پیکسل تبدیل شده و به ازاي هر تصویر، 4
تصویر داراي چرخش به اندازه 15 و 30 درجه در جهت عقربههاي ساعت و خلاف جهت عقربههاي ساعت - به ترتیب معادل +15، +30، -15 و -30 درجه چرخش - با ابعاد 256×256 پیکسل نیز تولید و ذخیره میگردد. به این ترتیب تعداد تصاویر پایگاه داده به 5 برابر افزایش پیدا میکند که این امر مسئله تعداد کم نمونههاي پایگاه داده را تا حد زیادي حل خواهد کرد.
.3,3 آموزش شبکه عصبی
همانطور که در بخش 1,3 بیان شد شبکه عصبی کانولوشنی روش پیشنهادي از 3 لایه کانولوشنی و یک لایه کاملا متصل مطابق جدول 1 تشکیل شده است. به کمک این ساختار و نیز با استفاده از %50 تصاویر بدست آمده از اجراي مرحله پیشپردازش بر روي پایگاه داده، شبکه عصبی آموزش داده می شود. لایه ورودي شبکه داراي ابعاد 256×256 و متناسب با اندازه تصاویر پیشپردازش شده میباشند. بهینهسازي در شبکه عصبی پیشنهادي با استفاده از روش گرادیان کاهشی تصادفی - sgdm - انجام میگیرد. آموزش با نرخ یادگیري 0/1 آغاز شده و اگر در میزان دقت نتایج بهبودي ایجاد نگردد، نرخ یادگیري با فاکتور 10 کاهش خواهد یافت.
.4,3 کلاسبندي سن
تصاویر مورد آزمایش به ابعاد 256×256 پیکسل بازنشانی میگردند. سپس به ازاي هر تصویر، چهار تصویر 256×256 پیکسل و داراي چرخش به اندازه 15 و 30 درجه در جهت عقربههاي ساعت و خلاف جهت عقربههاي ساعت نسبت به تصویر اصلی تولید میشود. با استفاده از شبکه عصبی کانولوشنی آموزش دیده در بخش 3,3، این پنج تصویر بدست آمده براي کلاسبندي وارد شبکه شده و بردار خروجی max-soft براي هر کدام محاسبه میگردد. به منظور تعیین نهایی کلاس متعلق به تصویر مورد آزمون، میانگین گرد شده بردار خروجی soft-max پنج تصویر در نظر گرفته میشود.
.4 نتایج تجربی
در این بخش به ارزیابی روش پیشنهادي در مقایسه با سایر روشهاي کلاس بندي سن برروي پایگاه داده شناخته شده در این حوزه، پرداخته خواهد شد.
.1,4 پایگاه داده
پایگاه داده [18] FG-NET یکی از شناختهشدهترین پایگاه دادهها بمنظور تخمین سن است. این پایگاه داده داراي 1002 تصویر رنگی و یا خاکستري از 82 فرد اروپایی است که از نظر میزان روشنایی و حالت در وضعیت هاي متفاوتی هستند. به ازاي هر فرد 6 تا 18 تصویر داراي برچسب سن 0 تا 69 سال وجود دارد . در این مقاله تصاویر پایگاه داده به 8 گروه سنی مختلف تقسیم شدهاست. درصد توزیع تصاویر در گروههاي مختلف در جدول 2 قابل مشاهده میباشد. در شکل 2 چند نمونه از تصاویر پایگاه داده FG-NET به همراه برچسب سن آنها آورده شده است.
جدول.2 درصد توزیع گروههاي مختلف سنی در پایگاه داده FG-NET