بخشی از مقاله
چکیده
ردیابی شیء در ویدئو یک بخش حیاتی در بسیاری از کاربردهای تجاری و نظامی آنالیز ویدئو است. یکی از این کاربردهای تجاری نظارت تصویری فضای باز عمومی مانند کنترل ترافیک و اندیس گذاری خودکار ویدئو است. بعنوان یکی از کاربردهای مهم ردیابی در محیط های نظامی می توان به دنبال کردن زمان حقیقی خودرو در تصاویر هوایی ارسالی از پهپادها اشاره نمود. ردیابی در ویدئوهای عادی یک مسئله سخت است حال آن که نظارت ویدئوی فضای باز و از منظر بالا چالش های خاص خود را دارد. نرخ فریم پایین، رزولشن کم، مات شدگی تصاویر، حرکت پرنده در تصویر برداری هوایی از جمله این چالش ها است. روش های موجود برای ردیابی بلادرنگ، عموما مدل ها را با استفاده از نمونه های بدست آمده از مشاهدات موجود در فریم های قبلی به روز می کنند.
در این مقاله روشی برای ردیابی سریع و مقاوم خودرو در ویدئو های تصاویر هوایی فضای باز ارائه میشود تا بتوان آن را بطور زمان حقیقی بر روی FPGA با موازی سازی الگوریتم پیادهسازی کرد. این روش مبتنی بر استفاده از مدل پس زمینه و بهره گیری از اطلاعات پس زمینه است. این مدل در برگیرنده ساختار فضای ویژگی شیء موردنظر است. با کمک این مدل و ردیابی همزمان دقت ردیابی افزایش مییابد. یکی از دادگان تصاویر هوایی رایج مورد استفاده توسط محققین مجموعه دادگان CLIF 2007 است که برای ارزیابی روش پیشنهادی از این مجموعه دادگان استفاده می کنیم. نتایج پیاده سازی الگوریتم بر روی مجموعه تصاویر حاکی از کارآمدی و موثر بودن الگوریتم دارد.
واژه های کلیدی: ردیابی -تصویر هوائی- پس زمینه- تصویر پیش زمینه.
-1 مقدمه
یکی از سیستمهای تصویربرداری هوائی، هواپیماهای بدون سرنشین - 1 - UAV یا همان پهپادها هستند. پهپادها را می-توان در مانیتورینگ مناطق مختلف با کاربردهای متنوع بکار گرفت. از جمله کاربردهای پردازش تصویری میتوان به تشخیص و ردیابی یک شیء خاص اشاره کرد. باتوجه به قابلیت حرکت UAV میتوان از آنها به طور خاص در کاربرد دیگری همچون جستجو و نجات با کمک اخذ تصاویر با رزولوشن مناسب در مناطق سانحه دیده بکار گرفت، به طور مثال در مانیتورینگ ترافیک.حجم محاسباتی الگوریتمهای پردازش تصویر و بینائی ماشین برای شناسائی و ردیابی اهداف متحرک در تصویربرداری هوائی آنها را زمانبر کرده است. همچنین این مسئله چندان عملی نیست که برای ردیابی خودکار، تصاویر به یک پایگاه زمینی پردازشی توصط لینک رادیویی ارسال شوند. چراکه کیفیت ویدئوی ارسالی به شدت به کانال ارتباطی بیسیم، سرعت و پایداری آن وابسته است.
بنابراین پهپاد کاملا خودکار که بتواند بطور اتوماتیک و بدون کمترین مداخله انسانی هدف را شناسائی و ردیابی کند یک رویکرد مطلوب است. بنابراین یک پهپاد خودکار نیازمند یک سیستم با تغییرپذیری و پویایی بالا و قدرت محاسباتی زیاد برای تشخیص بر روی پلتفرم خودش است. از این رو FPGA2 این نوع نیازمندی مصرف توان پائین، قدرت پردازش بالا، مدارات کوچک و مجتمع را برای پهپاد فراهم میکند. بنابراین سیستمهای مبتنی بر FPGA یک راهکار برای مساله بینایی ماشین زمان حقیقی برای پلت-فرم پویا و متحرک است. همچنین میتوان این سیستمها را متناسب با وظایف و اهداف مختلف مجددا پیکربندی کرد.یکی از مسائل کلیدی در پیادهسازی الگوریتمها بر روی چنین سیستمهای سختافزاری بحث سرعت و دقت الگوریتم برای پیادهسازی است. چراکه روش انتخابی بایستی در عین سادگی برای پیادهسازی برای اجرای سریع آن باید دارای دقت تشخیص و ردیابی مناسبی باشد.
ردیابی اشیاء در تصاویر ویدئویی که در فضای باز و کنترل نشده گرفته شده است یک مساله چالش برانگیز است. در تصاویر ویدئویی هوایی معمولا نرخ فریم بسیار پایین است - یک تا دو فریم بر ثانیه - . در این حالت اهداف می توانند چندین بار در طول مسیر خود حرکت نمایند و از این رو از یک فریم تا فریم بعد تغییرات ظاهری قابل توجهی اتفاق می-افتد. دومین چالش مربوط به رزولشن پایین و ماتشدگی3 تصاویر است. چالش سوم می تواند اندازه کوچک اشیاء در تصاویر اخذ شده باشد که باعث دشواری در جداسازی اهداف بر اساس ظاهر آنها گردد. در نهایت در تصویر برداری هوایی دوربین همواره در حال حرکت است، از این رو فرض داشتن پس زمینه استاتیک قابل قبول نمی باشد. دنبال نمودن خودرو در ویدئوهای هوایی ارسالی از پهپادها یکی از کاربردهای مهم ردیابی در محیط های نظامی می باشد که معمولا دارای چالش های ذکر شده هستند.
اکثر کارهای صورت گرفته در خصوص ردیابی در ویدئوهای هوایی در ارتفاع پایین انجام شده است که دارای نرخ فریم ویدئو بالا می باشند .[1]- [5] به علت ارتفاع پایین، اهداف دارای رزولیشن بالا هستند که این رزولیشن مشکل ردیابی را آسان تر کرده است . در چنین شرایطی ردیابی تقریبا دارای چالش های کمتری است و می توان مساله ردیابی را با ردیاب های عمومی شیء حل نمود. یکی از روش ها در این شرایط روش ردیابی شیء مبتنی بر کرنل میباشد.[5]یک مسئله رایج در روش های موجود این است که این روش ها تنها قادر به ردیابی خودروهای موجود در فضای آزاد و باز با ظاهری نمایان و مشخص مانند خودرو های موجود در بزرگراهها هستند. اما برای بسیاری از کاربردهای نظارتی ممکن است هدف تشخیص خودروهای باشد که در کناره های خیابان در زیر سایه درختان و ساختمان ها و انسداد ناشی از آنها در حال حرکت هستند.
تمرکز اصلی این مقاله بر روی ردیابی ویدئو با نرخ پایین از ارتفاع بالا در شرایط اهداف انسدادی می باشد. در این نوع از دادگان ردیابی کمی سخت تر می شود و نیاز به یک استراتژی ردیابی خاص دارد . در این مقاله ردیابی در ویدئو های تصاویر هوایی فضای باز به خصوص در مجموعه دادگان CLIF 2007 مورد بررسی قرار میگیرد .[1] ریلی و همکارانش به بررسی تشخیص و ردیابی در مجموعه دادگان CLIF2006 پرداخته اند این مجموعه دادگان در مقایسه با مجموعه دادگان CLIF2007 دارای اهداف مورد ردیابی کوچکتری درحد چند پیکسل هستند. از آنجایی که این اهداف برای مدل سازی ظاهری بسیار کوچک می باشند محققین به حل مسئله ی ترکیب خودروهای تشخیص داده شده در توالی فریم ها تمرکز کرده اند. در نتیجه روش آنها قادر به مدیریت انسدادهای فراوان موجود در مجموعه دادگان CLIF2007 نخواهد بود.
وجود این انسدادها در این دادگان امری عادی است. در [7] یک ردیاب مبتنی بر شار نوری برای مجموعه دادگان CLIF2007 معرفی شده است. در این روش ویژگی ها برای تخمین شار وتطابق هدف در بین فریم ها انتخاب می شود و اما مشابه مرجع [6] این روش قادر به تشخیص خودرو در حالت انسدادی نمی باشد از این رو محدود به تشخیص خودروهای موجود به فضای باز و بدون انسداد هستند.در این مقاله سعی شده است روشی مقاوم بر اساس ترکیب ردیابی و قطعه بندی جهت تشخیص خودرو در شرایط چالشی معرفی شده ارائه شود تا بتوان آن را بطور زمان حقیقی بر روی FPGA با موازی سازی الگوریتم پیادهسازی کرد تا سیستمی برای تشخیص اهداف متحرک برای کاربردهای پهپادها طراحی کرد. در ادامه به معرفی روش پیشنهادی می پردازیم.
-2 روش کار
اگرچه مشکلی که ما به دنبال حل کردن آن هستیم، مشکل ردیابی است لیکن در چند سال اخیر تحقیقات متعددی در خصوص بهبود کارآیی ردیابی با استفاده از ترکیب قطعهبندی و ردیابی انجام شده است. روشهای اولیه به قطعهبندی توالی یک ویدیو بر اساس نواحی دارای حرکت مشابه پرداخته است 9]،.[8 تحقیقات اخیر بر روی قطعهبندی مبتنی بر ظاهر - سیما - با استفاده از یک مدل پس زمینه متمرکز شده است11]،.[10حل هم زمان ردیابی و قطعه بندی دارای دو مزیت است: -1 ردیابی با قطعه بندی در مقابل تغییرات ظاهری هدف بسیار مقاوم تر عمل می کند، زیرا اطلاعات موجود در پس زمینه در کمک به ردیابی میتواند مورد استفاده قرار بگیرد.
یعنی پیکسل هایی که با پس زمینه مطابقت ندارند صرف نظر از ظاهرشان میتوانند به عنوان بخشی از هدف در نظر گرفته شوند. این مسئله از لحاظ عملی مهم است زیرا به عنوان مثال سایه ها موجب تغییرات شدید ظاهر هدف میشوند. -2 به وسیله قطعه بندی دقیق و ظریف هدف از پس زمینه، قادر به بروز کردن بهتر مدل ظاهری هدف در مقایسه با قطعه بندی های رایج مانند قطعه بندی با مستطیل محاطی4 هستیم. چرا که با قطعه بندی مستطیل محاطی، بخشی از پیکسل های پس زمینه به عنوان مدل هدف در نظر گرفته شده و بخش دیگری از پیکسل های هدف در نظر گرفته نمی شوند.
در شکل - - 1 نمونه ای از قطعه بندی هدف توسط مستطیل محاطی و روش دقیق نشان داده شده است.پیکسل های پس زمینه ایی که به عنوان پیکسل های هدف در نظر گرفته میشوند و داخل کادر مدل هدف قرار دارند باعث ایجاد جریان Drift و کاهش دقت ردیابی شده در حالی که پیکسل هایی که به عنوان هدف در نظر گرفته نمی شوند باعث کاهش مقاومت روش ردیابی در مقابل انسدادهای جزئی می شوند. در مجموعه دادگان استاندارد مورد استفاده، بمنظور تولید دقیق تر مدل پس زمینه، کالیبراسیون براساس روش های رایج انجام می پذیرد .[12]-[20]
-3 تولید مدل پس زمینه در توالی ویدئوهای هوائی
اکثر الگوریتم های ردیابی نیازمند یک مدل پس زمینه استاتیک هستند در این بخش به بررسی تولید یک مدل برای ناحیه کوچکی از پس زمینه در مکان مورد نظر مورد بررسی قرار میگیرد. برای خودروهای متحرک موجود در بزرگراه ها با سرعت بالا یک روش ساده برای تشکیل مدل پس زمینه میانگین پیکسل های سه فریم متوالی محاسبه می شود .[21] این روش به خوبی قابل اجراست چرا که اهداف از هر فریم نسبت به فریم دیگر در طول خود حرکت کرده و از این رو دو فریم از سه فریم موجود دارای پس زمینه میباشد. از طرفی خودرو هایی که در کنار جاده با سرعت پایین حرکت می کنند و یا اهداف ثابت، توسط این روش نمی توان مدل پس زمینه را استخراج نمود. ممکن است خودرویی در پشت چراغ قرمز ایستاده و ثابت باشد و از این رو فریم حاصل ازمیانگین گیری در بین چندین فریم همچنان حاوی هدف در تصویر است به همین دلیل نیازمند روشی هستیم که قادر به تخمین معنا دار پس زمینه باشد. روش پیشنهادی ما برای تولید مدل پس زمینه استاتیک شامل دو گام زیر است:
1 -به دست اوردن تکه های تصویر از فریم های قبلی و کنونی و پیش بینی محل هدف و ثبت نمودن آن.
-2با استفاده از الگوریتم [22] Inpainting پیکسل های مربوط به اهداف ثابت ومتحرک در تکه های فریم جاری با اطلاعات فریم های قبلی و کنونی جایگزین می شوند.
مرحله اول در این فرایند آسان است چرا که اشیاء ثابت در تصویر تفاضل مشاهده نمیشوند، و تنها اشیاء متحرک در اثر تفاضل گیری نمایان می گردند.مرحله دوم فرآیند کمی سخت تر است، مدل اصلی برای پس-زمینه تکه استخراج شده از فریم کنونی است، برای بیشتر بخش ها، این مدل یک مدل دقیق است چرا که بیشتر نواحی تکه مورد نظر از اشیاء ثابت پسزمینه تشکیل شدهاند، هر پیکسلی که متعلق به اشیاء متحرک و ثابت در فریم کنونی است بایستی به عنوان مدل پس زمینه در نظر گرفته شوند هدف مرحله دوم جایگزینی این پیکسلها با پیکسل های پس زمینه صحیح است برای مختصات یک پیکسل چهار احتمال با در نظر گرفتن فریم کنونی وجود دارد:
-1 فریم قبلی شامل پس زمینه باشد.
-2 فریم کنونی شامل پس زمینه باشد.
-3 هر دو فریم شامل پس زمینه باشد.
-4 هیچ کدام از فریم ها شامل پس زمینه نباشند. روش ما سعی در طبقهبندی هر پیکسل به یکی از چهار گروه بالا را دارد و به این ترتیب مدل پس زمینه شکل میگیرد. مرحله اول مشخص میکند که کدام پیکسلها در فریم جاری پیکسلهای پسزمینه ناصحیح هستند و نیاز به طبقه بندی دارند پیکسلهای کاندید توسط ماسک اولیه M با آستانه گذاری سادهایی از قدر مطلق اختلاف بین فریم کنونی و فریم قبلی به دست میآید.سپس به ماسک M پیکسل هایی که انتظار میرود متعلق به هدف در فریم کنونی هستند با استفاده از ناحیه بندی هدف در فریم قبلی اضافه میشود که نیاز است اهداف ثابت یا باسرعت حرکت پایین در نظر گرفته شودکه موقعیت این اهداف ممکن است درهر دو فریم کنونی و قبلی یکسان باشد به این طریق نتایج ردیابی برای ایجاد مدل بندی از پس زمینه استفاده می شود فریم کنونی به عنوان مدل پس زمینه برای تمام پیکسل هایی که در M نیستند در نظر گرفته می شوند.