بخشی از مقاله
چکیده-
در این مقاله، سیستمی براي شناسایی چهره بر اساس روش BOW تعمیم یافته پیشنهاد شده است. براي غلبه بر مشکل نادیده گرفتن مرتبه فضاي BOW از روش تطبیق هرمی فضایی - SPM - استفاده شده است. در مرحلهي استخراج ویژگی روش SIFT به کار برده شده است که این روش نست به تغییرات محلی مقاوماند. نمایش هاي تنک اغلب بصورت خطی جدا پذیر هستند؛ به همین دلیل در سیستم پیشنهادي، در مرحلهي یادگیري ویژگی از روش کدگذاري تنک استفاده شده است.
در مرحله ي رأيگیري از عملیات ماکزیمم پولینگ براي رسیدن به یک بردار واحد از بردارهاي چندگانه توصیفگر استفادهشده است. در نهایت طبقهبند ماشین بردار پشتیبان خطی براي طبقهبندي بردارهاي توصیفگر چهره به کار گرفته شده است. نتایج شبیهسازي نشان دهنده صحت بالاي طبقه بندي - ACC=0.9952 - و همچنین مقاوم بودن آن نسبت به روش هاي پیشین میباشد.
-1 مقدمه
یکی از وظایف چالش برانگیز در حوزه ي بینایی ماشین، شناسایی چهره است که کاربرد هاي آن در امنیت جامعه همچون سیستم هاي نظارتی مشهود است. براي استخراج ویژگی از تصاویر، یکی از روشهاي شناخته شده روش BOWاست. در سال هاي اخیر روش BOWیا Bag Of Feature - BOF - در طبقه بندي تصاویراشیاء، چهره و موارد دیگر، از محبوبیت بالایی بر خوردار بوده است.[1] این روش، تصویر را تحت مجموعه اي از "کلمات بینایی" بیان می کند.
چارچوب کلّی وظایف سیستم هاي مبتنی بر BOW شامل مراحل استخراج ویژگی هاي اولیه، یادگیري ویژگی، رأي گیري و طبقه بندي است. یکی از معایب بزرگ BOW در نظر نگرفتن مرتبه ي فضایی توصیفگر هاي محلی است که این امر باعث کاهش قدرت توصیف آن از تصویر می شود. در این مقاله مشابه با [2] براي غلبه بر این مشکل، از روش "تطبیق هرمی فضائی"یا استفاده شده است.
کدگذاري تُنک در جامعه ي آماري به نام رگرسیون لیسو - - Lasso شناخته می شود [3] و از آن به طور مؤثر براي تحلیل، پردازش، طبقه بندي و شناسایی تصویر استفاده شده است 6]،5،[4 همچنین از کد گذاري تنک براي تجمیع ویژگی هاي استخراج شده از تصویر، استفاده شده است.[7] نشان داده شده که نمایش هاي تنک اغلب بصورت خطی جدا پذیر هستند7]،.[5 از طرف دیگر، بردارهاي پایه یاد گرفته شده، خصوصیاتی مشابه با نرون هاي بیولوژي در قشر بینایی دارند.
به دلیل توانایی ها و پذیرفته شدن کد گذاري تنک به عنوان مدلی از قشر بینایی، هدف استفاده از آن در مدل پیشنهادي شناسایی چهره تحت شرایط تغییر روشنایی، تغییر حالت یا پز و موارد دیگر بوده است. از سوي دیگر، می توان در مرحله ي یادگیري ویژگی در مدل BOW، به جاي استفاده از روش هاي سنتی مانند خوشه بندي -means،Kاز روش کدگذاري تُنک استفاده نمود؛ یعنی تصویر بر اساس کدهاي تنک نمایش داده می شود. بنابراین روش هاي طبقه بندي تصاویر مبتنی بر کدهاي تُنک، شکل توسعه یافته اي از روش هاي مبتنی بر BOW است. در این مقاله طبقه بندي تصاویر چهره توسط مدل پیشنهادي، بر اساس کدگذاري تُنک به کار گرفته شده بر روي ویژگی هاي اولیه ي SIFTمی باشد.
-2 روش تهیه مقاله مدل پیشنهادي
در مدل پیشنهادي، فرآیند پردازش به ازاي هر تصویر چهره به صورتی است که ابتدا با استفاده از استخراج ویژگی SIFT، نقاط کلیدي استخراج می شوند و سپس این نقاط کلیدي با روشی مرسوم به هیستوگرامی از لبه ها توصیف می گردند. به طور ساده می توان گفت که هر تصویر بوسیله ي مجموعه اي از توصیفگر ها1 نمایش داده می شود. هر تصویر در سایز هاي مختلف از سطح مقطع هرم نمایش داده می گردد
روش کد گذاري تُنک به عنوان یک روش یادگیري ویژگی، بر روي مجموعه توصیفگر هاي SIFT مرتبط با هر ناحیه ي محلی به کارگرفته می شود. در مرحله ي رأي گیري از عملیات ماکزیمم گیري یا ماکزیمم پولینگ براي رسیدن به یک بردار واحد به ازاي هر ناحیه محلی استفاده شده است؛ این عمل پولینگ باعث افزایش مقاومت ویژگی نسبت به تبدیلات محلی2 می شود. سپس بردار هاي واحد به دست آمده از هر ناحیه ي محلی، با هم ترکیب شده و بردار توصیفگر چهره به دست می آید. این بردار توصیفگر واحد که به ازاي هر تصویر چهره به دست آمده، ویژگی نهایی از آن تصویر است. بر اساس این بردار هاي توصیفگر چهره، طبقه بند SVM خطی آموزش داده می شود.
-1-2 استخراج ویژگی هاي اولیه با SIFT
نخستین گام در هر مسئله ي طبقه بندي، استخراج ویژگی3 از داده ها متناسب با کاربرد مورد نظر است. از آنجایی که بر اثر تبدیلات هندسی از قبیل تغییر در مقیاس اشیاء، انتقال، دوران، همچنین تغییر روشنایی و عواملی از این دست، مفهوم درون تصویر تغییر نمی یابد و ویژگی ها باید در مقابل چنین تغییراتی نسبتاً ثابت باشند. از آنجایی که در طبقه بندي تصاویر چهره، احتمال وجود تغییر حالت چهره، تغییر پس زمینه با رنگ و بافت متفاوت معمول است، بنابراین استفاده از لبه ها که اطلاعات قالب شئ را در خود دارند در این حوزه معقول تر بوده است.
SIFT روشی شناخته شده براي استخراج ویژگی هاي مشخص از تصاویر است که این ویژگی هاي به دست آمده نسبت به تغییر مقیاس، چرخش و تغییر روشنایی به طور محلینسبتاً4 مقاوم بوده است.
ورودي الگوریتم SIFT یک تصویر سطح خاکستري از چهره است و خروجی یک لیستی از نقاط کلیدي در فضاي دو بعدي استکه هر یک از این نقاط توسط بردارهایی به عنوان توصیفگر، بیان شده اند. در مدل پیشنهادي این بردار هاي توصیفگر، ویژگی هاي اولیههستند؛ همانطور که قبلاً بیان شد این توصیفگر ها مستقل از تغییرات محلی اند. نقاط کلیدي به نقاطی از تصویر گفته می شود که در فضاي مقیاس5تصویر اکسترمم باشند. فضاي مقیاس تصویر شامل مجموعه اي از تصاویر است. تصاویر این مجموعه با استفاده از کانولوشن6تصویر اصلیبا فیلتر یا تابع گوسی در مقیاس هاي مختلف، تولید می شوند. استفاده از الگوریتم SIFT در سیستم پیشنهادي بر روي هر تصویر چهره شامل مراحل زیر است:
1. تصویر چهره به شکل هرمی در اندازه هاي مختلف نمایش داده می شود.
2. مطابق با فرمول1، تصویر چهره در هر سطح از نمایش هرمی، با توابع گوسی در پارامتر هاي مختلف کانولوشن می شود و مجموعه اي از تصاویر در هر سطح به دست می آید. به هر دسته از این مجموعه تصاویر، یک اکتاو7 گفته می شود
3. در فرمول 1، I تصویر چهره در اندازه ي s است که با تابع گوسی در σ هاي مختلف، کانولوشن می شود و تصویر گوسین به دست می آید.هر تصویري که با اعمال تابع گوسی به دست می آید، تصویر گوسین نامیده شده است.
4. در هر اکتاوتفاضل گوسین - - DoG با استفاده از فرمول2، بر روي هر دو تصویر گوسین مجاور اعمال می شود و در نهایت فضاي مقیاس به دست می آید؛ تصویر به دست آمده از تفاضل، تصویر تفاضل گوسین نامیده می شود. به عبارت دیگر می توان گفت تفاضل گوسین، یک فیلتر میان گذر است که مؤلفه هاي فرکانس بالا که نشان دهنده ي نویز هستند و مؤلفه هاي فرکانس پایین که نشان دهنده ي نواحی همگن هستند، را حذف می کند؛ از تفاضل گوسین براي تشخیص لبه می توان استفاده کرد.
5. ماکزیمم و مینیمم هاي تابع DoG - x,y,σ - نقاط کلیدي هستند. در این مدل در فضاي مقیاس و در هر اکتاو، هر پیکسل در تصویر تفاضل گوسین با هشت پیکسل همسایه ي خود و 18 پیکسل متناظر از تصاویر تفاضل گوسین مجاور - در مجموع 26 همسایه - ، مقایسه می گردد. با این مقایسه ها نقاط اکسترمم نگهداري می شوند.
6. به ازاي هر نقطه ي کلیدي به دست آمده، یک هیستوگرام از گرادیان ها ساخته می شود. یا به بیان دیگر، براي هر نقطه ي کلیدي P، یک ناحیه ي مربعی R به طوریکه نقطه ي کلیدي را احاطه کرده، در نظر گرفته شده است که این ناحیه به 4×4 قسمت مساوي یا زیر پنجره تقسیم می شود.
2-2یادگیري- ویژگی با استفاده از کدگذاري تُنک
اهمیت انتخاب ویژگی مناسب، در ساده کردن مسئله طبقه بندي بر کسی پوشیده نیست. یادگیري ویژگی مرحله اي است که با پردازش ویژگی هاي اولیه، فضاي جدیدي از ویژگی ها یا ویژگی هاي ثانویه شکل می گیرد که باعث سهولت در جداسازي نمونه ها می شود. نشان داده شده که نمایش هاي تنک اغلب به صورت خطی جدا پذیرند. در مدل پیشنهادي از روش کدگذاري تُنک براي یادگیري ویژگی استفاده شده است.
لازم به ذکر است که بهبود مرحله ي یادگیري ویژگی به منظوره افزایش جداپذیري خطی نمونه ها، موجب کاهش پیچیدگی الگوریتم طبقه بندي می شودبه. عنوان نمونه اگر طبقه بند ماشین بردار پشتیبان8یا SVM در مرحله ي طبقه بندي مورد استفاده قرار گیرد، این تفاوت اجرایی چشمگیر خواهد بود. هر چند مرتبه ي مسئله ي ماشین بردار پشتیبان با هسته ي غیر خطی، داراي مرتبه آموزش O - n3 - نسبت به تصاویر مجموعه آموزش است، نوع خطی آن در مرتبه ي زمانی O - n - قابل حل است. به همین دلیل در مدل پیشنهادي، از روش کد گذاري تنک و SVM خطی براي طبقه بندي تصاویر چهره استفاده شده است.
در مدل پیشنهادي از روش SPM استفاده شده که در این روش، یک تصویر چهره به 2L×2L قسمت یا زیرپنجره با اندازه هاي مختلف تقسیم می شود - . - L=0,1,2 سپس به جاي استفاده از BOWدر هر زیرپنجره، از روش کدگذاري تُنک استفاده شده است. به بیان دیگر، براي به دست آوردن کارایی خوب در روش SPM که در آن BOW به کار رفته، به طور تجربی فهمیده شده است که این روش نیاز به نوعی از کرنل هاي غیر خطی دارد براي مثال کرنل اشتراك9و کرنل مربعی.10 اگر از SVM غیر خطی استفاده شود، در فاز آموزش پیچیدگی محاسباتی برابر O - n3 - و پیچیدگی حافظه برابر - O - n2 است به طوریکه n تعداد نمونه هاي مجموعه آموزش است.
بنابراین چون تعداد بردارهاي پشتیبان11 به صورت خطی با n رشد می کند، پیچیدگی محاسباتی در فاز آزمایش O - n - است. این اندازه پیچیدگی براي کاربرد در دنیاي واقعی که تعداد نمونه ها بالاست، یک محدودیت بزرگ است]٧[ در مدل پیشنهادي براي کاهش دادن پیچیدگی محاسباتی در فاز آموزش و آزمایش که به ترتیب برابر با O - n - و برابر با یک مقدار ثابت، در روش SPM به جاي BOW از روش کدگذاري تُنک استفاده شده است. دلیل کاهش پیچیدگی محاسباتی این است که بردارهاي ویژگی به دست آمده توسط روش کدگذاري تّنک اغلب به صورت خطی جداپذیرند و به همین دلیل از SVM خطی استفاده شده است.