بخشی از مقاله
چکیده
شناسایی نواحی برجسته در تصاویر رنگی یک مسئله مهم و موردتوجه در علوم اعصاب محاسباتی و روانشناسی است و میتواند در مراحل اولیه و ساختاری اغلب کاربردهای بیناییماشین و علوم کامپیوتر مانند فشردهسازی تصویر، طبقهبندی صحنه، رمزگذاری ویدئو نقش مهمی ایفا کند. در این مقاله، یک فیلتر میانگذر را تحت عنوان شناساگر نواحی برجسته معرفی میکنیم که در حوزه تبدیل فوریه چهارگانه تصویر رنگی اعمال میگردد.
سپس از آنجا که فیلتر، مولفههای فرکانسی میانی را محدود کرده است، از ادغام کانالهای رنگی با استفاده از تابع چگالی احتمال بهره میگیریم تا چالش عدم شناسایی نواحی برجسته کوچک برطرف گردد. ابتدا مرکز و پهنای باند فیلتر روی پایگاهی با تصاویر متنوع و مختلف تنظیم میشود. در ادامه، توسط این فیلتر میانگذرِ بهینه روش خود را با روشهای دیگر در پایگاه تصاویر بزرگتر ارزیابی میکنیم. روش پیشنهادی در دقت و سرعت اجرای الگوریتم نسبت به دیگر روشهای مرتبط با آن برتری دارد.
مقدمه
صحنههایی که ما در زندگی روزمره با آنها مواجه میشویم معمولا توسط عوامل مختلفی دستخوش تغییر میشوند. ظرفیت سیستم بینایی برای پردازش این تغییرات و اطلاعات صحنه در هر لحظه محدود است. توجه بینایی مکانیزمی است که نواحی مهم و چشمگیر را در یک صحنه مشخص کرده، آنها را برای پردازشهای سطح بالاتر همچون شناسایی هدف آماده میکند.
در حقیقت توجه بینایی باعث شده تا انسان در محیط اطرافش بیدرنگ به جستجو و شناسایی اشیاء مختلف و مورد علاقهاش بپردازد. توجه بینایی را میتوان یکی از ابزارهای ابتدایی برای طراحی سیستم مصنوعی چشم انسان در نظر گرفت به گونهای که توسط این ساز و کار میتوان نواحی مورد توجه را نسبت به بقیه نواحی با وضوح بیشتری مشاهده نمود و نواحی اطراف آن را بعنوان ورودیهای غیرضروری در درک تصویر بیان کرد.>1@ توجه بینایی به ویژه در 25 سال اخیر بسیار مورد اهمیت قرار گرفته و مدلهای متنوعی از آن نیز در حوزههای مختلف ارائه شده است.
محققین زیادی جهت ارائه یک مدل محاسباتی برای طراحی این ساز و کار تلاش کردهاند. این مدلها بسته به ویژگیهای بکارگرفته در آنها به دو نوع بالا به پایین1 و پایین به بالا2 معروفند . مدل های بالا به پایین هدف محور میباشند که دارای پردازش اطلاعات سطح بالای تصاویر که برگرفته از دانش قبلی در رابطه با صحنهاند مانند بازشناسی شیء 3، طبقهبندی صحنه و شناسایی هدف میباشند. در سوی دیگر، توجه پایین به بالا برگرفته از ویژگیهای اولیه تصویر مانند رنگ، روشنایی و جهت میباشد که به آن پردازش محرک محور میگویند.
نگاه رایج این است که توجهات بالا به پایین و محرک محور، با یکدیگر ترکیب شوند تا رفتار توجهی ما را هدایت کنند. یک مدل و روش ترکیبی بایستی قادر به توضیح این امر باشد که چه موقع و چگونه به یک مورد بینایی محیط اطراف توجه شده، یا به علت وجود علائم برجسته یک عامل محرک دیگر، از آن صرفنظر میشود. بیشتر مدلهای توجه، وابسته به عامل پایین به بالا است و واژهی نواحی برجسته1 به این مدلها اطلاق میشود و اکثریت در این حوزه به دلیل وجود روشهای استاندارد و سادگی پیادهسازی آنها میباشد.[2] تمرکز ما در این مقاله بر مدل توجه پایین به بالا که در حوزه تبدیل فوریه به شناسایی نواحی برجسته می پردازد، خواهد بود.
طی دهههای اخیر، محققان پژوهشهای زیادی پیرامون تعامل مکانیزم توجه بینایی و مدلهای محاسباتی برای آن انجام دادهاند. شاید اولین تلاش توسط [3] Treisman در سال1980 بود که منجر به پیدایش نظریه یکپارچگی ویژگی2 شد. بر اساس این نظریه، اکثر نواحی برجسته صحنههای طبیعی در زمانی که چشم مشاهدهگر به صحنه دوخته شده است در ویژگیهای سطح پایین نظیر رنگ، روشنایی و جهت نسبت به بقیه نواحی دارای تمایز میباشند.
به دنبال این نظریه، Itti و همکارانش[4] روشی مبتنی بر رفتار و ساختار اولیه چشم انسان پیشنهاد دادند . این مدل با محاسبه تفاوت مرکز- پیرامون3 چند مقیاسی کانالهای ویژگی مذکور در نظریه یکپارچگی ویژگی بدست میآید و سپس حاصل بدست آمده از هر کانال توسط ترکیب خطی به نقشه برجستگی نهایی تبدیل میشود. از بین رفتن اطلاعات محلی در مقیاس های پایین باعث کاهش دقت شناساگر میشود. روش مبتنی بر تقسیمبندی نواحی بوسیلهی Cheng و همکارانش[5] مطرح شد که در آن ابتدا از یک روش مناسب برای تقسیمبندی تصویر رنگی به نواحی مختلف استفاده شده و سپس به هر ناحیه یک عدد که مقدار برجستگی آن است تعلق میگیرد. این عدد با میزان تمایز رنگی بین نواحی و بزرگی نواحی رابطه مستقیم دارد.
از آن جا که تقسیمبندی اولیه تصویر در کارائی کلی روش نقش مهمی ایفا میکند میتوان این وابستگی را از جمله نقاط ضعف آن برشمرد. Hou و همکارانش روشی ارائه دادند[6] که در آن نقشه برجستگی با استفاده از باقیماندههای طیفی4 بدست میآید به گونهای که این باقیماندهها حاصل تفاوت هموار شده دامنه فرکانسی با خود دامنه است. استفاده از یک ویژگی و آن هم ویژگی سطح خاکستری میتواند از عیوب این روش باشد. Schauerte و همکارش[7] جهت حل چالش مذکور در روش باقیماندههای طیفی، حوزه تبدیل فوریه چهارگانه5 را پیشنهاد دادند که توانست دقت شناساگر را بطور چشمگیری افزایش دهد.
اخیراً در پردازش تصاویر رنگی به دلیل وجود کانال های رنگی از چهارگانه تبدیل فوریه استفاده میشود. همچنین در روش [8]HFT که از هموار کردن دامنه تبدیل فوریه چهارگانه با نقابهایی با اندازههای مختلف و تبدیل فوریه چهارگانه معکوس از هر یک از دامنههای حاصل به نقشه برجستگی نهایی دست پیدا میکند. افزایش قابل ملاحظه دقت شناساگر توانست افزایش فعالیت در این حوزه را بیش از پیش نمایان سازد.
عدم شناسایی ناحیه برجسته در زمینه شلوغ میتواند به عنوان یک نقطه ضعف مدل لحاظ شود. در روش [9] HVS که در آن ابتدا تصویر بلوکبندی شده است و با استفاده از اختلاف نظیر به نظیر دامنه تبدیل فوریه چهارگانه در مولفههای فرکانسی مختلف به هر بلوک عددی که نمایانگر مقدار برجستگی است، داده میشود. وابستگی شدید نتایج روش به اندازه بلوک و فقدان عددی بهینه برای آن در تصاویر مختلف میتواند به عنوان بعضی کاستیهای مدل اشاره شود.
ما نیز در این مقاله از یک فیلتر میانگذر که به دامنه تبدیل فوریه چهارگانه اعمال میشود استفاده میکنیم و سپس برای نواحی برجسته کوچک که با استفاده از فیلتر شناسایی نشدهاند از تابع چگالی احتمال6 سه کانال رنگی فیلترشده بهره میگیریم. ساختار این مقاله را میتوان به گونهای بیان کرد که در بخش دوم آن، روش [10]Achanta تحلیل میشود که از یک فیلتر میانگذر ساده بعنوان شناساگر نواحی برجسته بهره میگیرد.
در بخش سوم، به معرفی روش پیشنهادی پرداخته که لازمهی آن تعریف فیلتر میانگذر لگاریتم گابور و مفهوم چهارگانه میباشد و در ادامه، به بیان تابع چگالی احتمال و بکارگیری آن اشاره کرد. در بخش پایانی، دستیابی به پارامترهای بهینه فیلتر با آزمایش در یک پایگاه تصاویر و سپس مقایسه آن با روشهای مرتبط روی پایگاه تصاویر بزرگتر پرداخته خواهد شد.
تحقیقات مرتبط
Achanta، روشی را برای شناسایی نواحی برجسته در تصویر معرفی کرد که در آن به شناساگر از ابتدا به صورت یک فیلتر میانگذر نگاه میشود. این فیلتر میانگذر از تفاوت دو فیلتر گوسی به دست میآید. او روش خود را بر اساس این که یک پیکسل با ویژگی رنگ و روشنایی، نسبت به پیکسلهای اطراف خود چقدر برجسته است، بنا نهاد. روش او ویژگیهای قابل توجهی داشت از جمله: سادگی، سرعت بالا و به دست آوردن نقشه برجستگی هماندازه با تصویر اصلی. یکی از برجستهترین ویژگیهای روش Achanta، استخراج نقشه برجستگی هم اندازه با تصویر اصلی در زمان کم میباشد، در حالی که در روش Itti [4] اندازه نقشه برجستگی 1/256 تصویر اصلی و در روش[6] Hou نقشه برجستگی دارای اندازه ثابت 64 64 است.
در این روش، شناسایی اشیاء برجسته بزرگ و همچنین به صورت یکنواخت آشکارکردن بافت این اشیاء توسط تنظیم پارامتر فرکانس قطع پایین انجام میشود. هر چه ناحیه برجسته بزرگتر باشد فرکانس پایینتر مطلوب است. شناسایی مرزهای اشیاء و بافتهای برجسته کوچک به طور واضح و مشخص بوسیلهی پارامتر فرکانس قطع بالا تنظیم میشود.
برای رسیدن به این هدف، باید برخی از فرکانسهای بالا محفوظ بماند؛ اما توجه به این نکته لازم و ضروری است که تعادلی بهینه بین حذف نویز و حفظ الگوی بافت ایجاد شود.[10] بیشتر شناساگرهای نواحی برجسته نمیتوانند بصورت همزمان بافتهای برجسته کوچک و بافت اشیاء بزرگ را استخراج کنند. لذا در این مقاله، برای حل این چالش از فیلترینگ میانگذر در حوزه تبدیل فوریه چهارگانه و تابع چگالی احتمال در طراحی شناساگر استفاده میکنیم. همانطور که شکل1 نشان میدهد روش Achanta نتوانسته است ناحیه برجسته را بطور کامل و مناسب استخراج کند.
-3 روش پیشنهادی
دراین بخش به معرفی روش پیشنهادی پرداخته میشود. در ابتدا لازم است فیلتر میانگذر و مفهوم چهارگانه و تعامل این دو برای شناسایی نواحی برجسته را معرفی کنیم. سپس تابع چگالی احتمال برای شناسایی بافتهای کوچک برجسته بیان میشود و در نهایت ترکیب آنها برای دستیابی به نقشه برجستگی نهایی مطرح خواهد شد.
-1-3 فیلتر لگاریتم گابور
فیلترهای گابور به طور سنتی برای به دست آوردن اطلاعات فرکانسی محلی استفاده و بهترین محلیساز مکانی و فرکانسی به صورت همزمان شناخته میشوند. با این وجودماکزیمم پهنای باند فیلتر گابور تقریباً یک اوکتاو و محدود است. اگر یک سری اطلاعات فرکانسی گسترده با حداکثر محلیسازی مکانی مورد نیاز باشد، این فیلترها مناسب نخواهند بود.
[11] Field به بررسی و مطالعهی ویژگی نوسانی برای فیلتر گابور پرداخت و فیلتر لگاریتم گابور را معرفی کرد که میتواند با پهنای باند دلخواه پیادهسازی شود. او پیشنهاد داد که تصاویر طبیعی را میتوان توسط تابع انتقال گوسی در مقیاس فرکانسی لگاریتمی - بر خلاف تابع گابور که دارای تابع انتقال گوسی در مقیاس فرکانسی خطی است - به صورت بهینه و موثر کد کرد.
دو ویژگی مهم و قابلتوجه برای فیلتر لگاریتم گابور میتوان به صفر بودن مولفه DC و ادامه یافتن تابع انتقال تا فرکانسهای بالا اشاره کرد - شکل. - 2 بدلیل عدم بیان تحلیلی تابع لگاریتم در حوزه فرکانس، نمیتوان شکل تابع لگاریتم گابور را در حوزه مکان بصورت تحلیلی بیان کرد. اما شواهد نشان میدهد که این فیلتر مشابه تابع گابور است که با افزایش پهنای باند، تیزتر میشود. در پهنای باند کمتر از یک اوکتاو میتوان گفت شکل دو فیلتر تقریبا یکسان میباشد.
-2-3 چهار گانه
در کاربردهای پردازش تصویر، تبدیل فوریه نقشی گسترده و اساسی دارد. برای فیلترینگ یک تصویر عمدتاً دو راه وجود دارد: راه اول، محاسبه کانولوشن تصویر که با استفاده از نقابگذاری در حوزه مکان انجام میپذیرد. راه دوم، حاصلضرب تبدیل فوریه تصویر با فیلتر مورد نظر که در حوزه فرکانس انجام میشود. برای تحقق راه دوم استفاده از تبدیل فوریه بسیار حائز اهمیت میباشد.
در حالی که تا یک دهه پیش، این تبدیل برای تصاویر سطح خاکستری به کار میرفت؛ برای پردازش تصاویر رنگی، هنوز کاربردی و عملی نشده بود. [12] Sangwine از پیشگامان عرصه پردازش تصویر رنگی در حوزه تبدیل فوریه بود که با استفاده از تعریف چهارگانه توانست نظریهای جدید ارائه و از آن در کاربردهایی نظیر فیلترینگ پایینگذر و استخراج لبه تصاویر رنگی استفاده کند.
مفهوم چهارگانه که همان تعمیمیافته اعداد مختلط است، توسط [13] Hamilton ارائه گردید. تبدیل فوریه چهارگانه اخیراً برای شناساگرهای نواحی برجسته بکار گرفته شده است و هدف اصلی آن فائق آمدن بر مشکلات ادغام نقشههای برجستگی کانالهای رنگی است به گونهای که از ترکیب کانالهای رنگی به صورت هوشمند در حوزه فرکانس استفاده میشود . چهارگانه بر خلاف اعداد مختلط، از چهار بخش مطابق رابطه - 2 - ایجاد میشود.
بکارگیری چهارگانه در نمایش فضای رنگی تصویر سبب میشود که سه کانال رنگی به صورت همتراز و یکسان پردازش شوند و از طرفی هم باعث کنترل اطلاعات رنگی در یک تصویر میشود که از پردازش جداگانه هر کانال رنگی جلوگیری کند. در واقع، پردازش تصویر رنگی در حوزه چهارگانه، همان تعمیمیافته پردازش تصویر سطح خاکستری است.[12]