بخشی از مقاله
خلاصه
در میان روشهای متعددی که برای ردیابی مؤثر اهداف ارائه شدهاست، ردیابی مبتنیبر چارچوب ارائه تُنُک توانسته است کارآمدی خود را به اثبات برساند. در این مقاله یک الگوریتم دو مرحلهای برای ردیابی ارائه میشود که در مرحله نخست محل تقریبی شیئ موردنظر با استفاده ازنقاط گوشه و ارائه تُنُک بهدست میآید و در ادامه، با استفاده از مدل ظاهری حافظهدار برای موقعیتیابی دقیق هدف، مختصات هدف پیدا میشود. آزمایشهای انجامگرفته نشان میدهند که ردیاب ارائه شده، چالشهایی همانند تغییرات روشنایی ناگهانی، همپوشانی، تاری، و تکانهای ناگهانی هدف را بهخوبی مدیریت میکند. همچنین ارزیابیهای انجامگرفته نشان میدهد که الگوریتم پیشنهادی از لحاظ عملکرد نسبت به دیگر الگوریتمهای رقیب قابل مقایسه و در برخی موارد بهتر میباشد.
.1 مقدمه
مسأله ردیابی تصویری بهصورت تخمین موقعیت و یا پارامترهای حرکتی یک یا چندین هدف در یک دنباله ویدئویی بیان میشود [1] که بهعنوان یک وظیفه سطح بالا در بیناییماشین معرفی شدهاست. افزایش چشمگیر توان محاسباتی پردازندهها از دهه پیش تاکنون و در دسترس بودن دوربینهای با دقت بالا و نیاز روزافزون آنالیز خودکار ویدئو سبب به-وجود آمدن و توسعه الگوریتمهای جدیدی در حوزه ردیابی تصویری شدهاست [2] و این حوزه به یک حوزه جدی و فعال در تحقیقات امروزی تبدیل شدهاست. ردیابی تصویری، کاربردهای فراوانی را از حوزههای گستردهای همچون نظارت خودکار، آنالیز حرکت، تعاملات انسان-کامپیوتر، واقعیت افزوده و غیره را در بر میگیرد.
[3] با وجود اینکه چالشهای بسیاری از مسأله ردیابی با توسعه الگوریتمهای نوظهور در سالیان اخیر مرتفع شدهاند، ولی ردیابی تصویری اهداف عمومی همچنان یک مسأله چالش برانگیز محسوب میشود. بهطور کلی چالشهای اصلی ردیابی را میتوان به دو دسته کلی تقسیم کرد که عبارتند از: شباهت ظاهر هدف با اشیاء دیگر از جمله پسزمینه - کلاتر - و تغییر ظاهر شیئ که میتواند به دلایلی از جمله تغییر در حالت، حرکت سریع و پیچیده شیئ، تغییر در روشنایی و مقیاس و زاویه دید و غیره باشد.[1] بهطور کلی میتوان بیان کرد که یک الگوریتم ردیابی از 3 مؤلفه تشکیل شدهاست که عبارتند از: - 1 ارائه هدف - 2 مدل دینامیکی - 3 مکانیزم جستجوی هدف. با این وجود در برخی از ردیابهای تصویری، این مؤلفهها با یک دیگر ترکیب شدهاند.
ارائه هدف را میتوان به عنوان مهمترین قسمت یک ردیاب به دلیل آنکه مستقیما مسئول مدیریت چالشهای ردیابی میباشد - یعنی انتخاب بهترین کاندید با وجود عوامل نامناسب و تأثیرگذار بر روی عملکرد ردیابی - ، در نظر گرفت. علاوه بر این، تابع هدف مورداستفاده برای ردیابی نیز توسط بخش ارائه هدف تعیین میگردد .[4 , 3] مدل دینامیکی اغلب برای پیشبینی حالتهای ممکن هدف برای کاهش فضای جستجو و هزینه محاسباتی بهکار گرفته میشود که یا قبل از ردیابی و یا در حین ردیابی آموزش میبیند.
الگوریتمهای ردیابی بر مبنای مکانیزم جستجوی خود، به دو دسته متعین* و تصادفی دستهبندی میشوند. با ارائه هدف در یک فضای ویژگی، ردیابی تصویری به یک فرایند جستجو تقلیل پیدا کرده و میتواند بهصورت یک مسأله بهینهسازی انجام پذیرد - یعنی کمینهسازی و یا بیشینهسازی یک تابع هدف بسته به نوع آن براساس معیار شباهت یا فاصله - . روشهایتصادفی معمولاً تابع هدف را با در نظر گرفتن مشاهدات هدف در چندین فریم در یک چارچوب بیزی، که اولین بار برای کاربردهای بینایی ماشین در الگوریتم چگالش معرفی شد، بهینه میکنند.
[3] پدیدآوری یک الگوریتم ردیابی دقیق و در عینحال کارآمد و مقاوم، چالشبرانگیز بوده و هنگامیکه هدف تحت عوامل نامطلوبی همچون تغییرات سریع روشنایی و مقیاس و چرخش قرار گیرد، دشوارتر نیز میشود. الگوریتمهای اخیر در ردیابی تصویری برای مقابله با عوامل گفته شده از ارائه هدف بهصورت وفقی براساس روشهای مولد و یا ممیز که بهصورت مدل کردن تنها هدف و یا مدل کردن هدف و پسزمینه بیانشده، بهره میبرند.
روشهای مولد، مسأله ردیابی را بهصورت جستجو برای شبیهترین مناطق به مدل هدف در یک فضای ویژگی فرمولبندی میکنند و بهصورت کلی به پایگاه داده بزرگی برای آموزش نیاز ندارند. این مدلها یا بر اساس الگوها و یا بر اساس مدلهای زیرفضا میباشند.[3] کومار و همکارانش در [5] ردیاب تصویری را بر اساس چارچوب 1 ارائه دادند که در روش پیشنهادی از دیکشنریهای شامل الگوهای قطعات همپوشان هدف استفاده شدهاست.
روشهای ممیز، با ردیابی تصویری بهصورت مسأله دستهبندی برخورد میکنند که هدف در آن تشخیص شیئ از پسزمینه میباشد. در نتیجه، اطلاعات از هدف و پسزمینه برای آموزش یک طبقهبند متمایز استخراج میشود. این روش به صورت کلی پایگاه داده بزرگی را برای داشتن عملکرد مناسب میطلبد. پایگاه داده را میتوان در طول ردیابی با استفاده از الگوهای هدف یا یک پایگاه داده برون خط بدست آورد.[14- 7] یانگ و همکارانش در [8] یک مدل ممیزی برای ظاهر هدف بر اساس الگوریتم سوپرپیکسل** برای تمیز دادن هدف از محیط اطراف آن - پسزمینه - ارائه دادند. در روش پشنهادی آنها، ردیابی با محاسبه نقشه اطمینان و به دست آوردن بهترین کاندید توسط MAP انجام پذیرفته است.
ژانگ و همکارانش در [9] الگوریتم انتخاب ویژگی متمایز را ارائه دادند بهصورتیکه طبقهبند آموزش دیده، بهصورت مستقیم امتیاز خود را با اهمیت نمونهها ارتباط میدهد و در [10] یک الگوریتم ردیابی برخط مبتنی بر ارائهتُنُک ارائه شد که قطعات محلی تصویر هدف توسط کدهایتُنُک آنها با یک دیکشنری فوق کامل که به صورت برخط ساخته شده بود، ارائه شدند. سپس از یک طبقهبند آموزشدیده برای تمایز شیئ و پسزمینه استفاده شد. همچنین برای مقاومسازی در برابر مشکل گم کردن هدف در طول فرایند ردیابی، یک الگوریتم دو مرحلهای برای بهکارگیری اطلاعات شیئ هدف در اولین فریم و مشاهدات بهدست آمده بهصورت برخط، پیشنهاد شدهاست.
در [12] یک الگوریتم با مدل ظاهری مبتنی بر ویژگیهای استخراج شده از فضای ویژگی تصویر چند مقیاسی با پایه داده مستقل پیشنهاد شد. یک ماتریس اندازهگیریتُنُک برای استخراج ویژگیها برای مدل ظاهری نیز به کار گرفته شد و فرایند ردیابی به صورت دستهبندی دودویی با یک دستهکننده ساده بیزی از طریق بروزرسانی برخط انجام میشود. در این مقاله، یک الگوریتم ردیاب تصویری با استفاده از ارائه تنک و نقاط گوشه مطرح میشود که در ادامه برای موقعیت-یابی دقیق از یک روش مبتنی بر ارائهتُنُک الگوی هدف استفاده میشود. همچنین برای مقابله با چالشهای ردیابی از جمله همپوشانی که بیشترین اثر تخریبی در الگوریتمهای ردیاب را دارد، از یک روش بروزرسانی الگو که تغییرات ظاهر شیئ را در نظر میگیرد، استفاده شده است. نوآوریهای مقاله را میتوان بهصورت خلاصه در زیر بیان کرد؛
- 1 استفاده از الگوی حافظهدار برای مقابله با چالشهای ردیابی - 2 استفاده از چندین الگو با نرخهای یادگیری متفاوت به منظور انعطاف پذیری بیشتر ردیاب آزمایشهای انجام گرفته بر روی الگوریتم پیشنهادی، مقاومت و دقت آن را نسبت به سایر رقبای آن به اثبات رسانده که در بخش نتیجه مورد بحث قرار خواهد گرفت. ساختار مقاله به این صورت است که در ادامه، ابتدا الگوریتم پیشنهادی، با معرفی اجزای تشکیل دهنده آن بهصورت مجزا بحث خواهد شد. سپس به ارزیابی الگوریتم پیشنهادی با معیارهای ارائه شده پرداخته شده و در قسمت آخر نیز نتیجهگیری بیان میشود.
.2 الگوریتم پیشنهادی
.1 .2 نقاط کلیدی
آشکارسازی ویژگیها و کاربردهای حاصلشده از این ویژگیها، از بخشهای جداییناپذیر در پردازشتصویر بیناییماشین برای کاربردهای مختلف از جمله چسباندن تصاویر[15] * و بازشناسایی اشیاء [16] و از جمله ردیابی تصویری [19-17] میباشد. ویژگیهای بهکار گرفته شده برای چنین کاربردهایی معمولاً از مکانهای خاصی در تصویر بهدست میآیند که به نقاط موردعلاقه یا نقاط کلیدی شناخته موسومند. از جمله آشکارسازهای نقاط کلیدی که بههمراه توصیفگر در الگوریتم خود ارائه شدهاند، میتوان به [20] SURF و [21] SIFT اشاره کرد. نقاط آشکارسازیشده در این دو الگوریتم از لحاظ مقیاس تغییر ناپذیر بوده که بههمراه توصیفگر خود، به تغییرات چرخش هم مقاوم خواهند شد.
با وجود مزیتهای گفتهشده برای این دو الگوریتم، محاسبات بهکارگرفتهشده برای آشکارسازی الگوریتم SIFT بسیار زیاد بوده، بهگونهای که آن را برای کاربردهای ردیابی نمیتوان بهکار گرفت، این مشکل تا حدودی در الگوریتم SURF بهتر شده، ولی همچنان قادر به استفاده از آن در کاربردهای بیدرنگی همچون ردیابی نخواهیم بود. نقاط کلیدی - که اغلب بهعنوان گوشه نیز از آنها نام برده میشود - مکانهای برجستهای در تصویر را نشان میدهند و میتوان آنها را از راههای کمهزینه دیگری نیز محاسبه کرد که برخلاف SIFT و SURF تنها به آشکارسازی نقاط و موقعیتهای گوشه میپردازند.