بخشی از مقاله
چکیده
ردیابی یک هدف در یک ویدئو به معنای شناسایی پیوسته موقعیت هدف و بهروزرسانی حرکت هدف در زمانی است که هر یک از هدف یا دوربین حرکت میکند. معمولا ردیابی برای استخراج یک نتیجه از حرکات یک هدف در ترتیبی از تصاویر است. کل سیستمهای دوربینی و بینایی ماشین در دو نوع کلی خلاصه میشوند: استفاده از تنها یک دوربین که حول صحنه آزادانه حرکت کرده و تصاویری از نقاط مختلف میگیرد. استفاده از دو دوربین یا بیشتر که بصورت آزادانه در محی در حال حرکت هستند و یا بصورت ثابت حول صحنهای که قرار است بازسازی شوند نصب میشوند.
-1 مقدمه
با توسعه علوم مختلف به خصوص علم الکترونیک و بکارگیری آن، پیشرفت چشمگیری در زندگی انسان حاصل شده است و مشکلات و دغدغههای بسیاری از آن برطرف شده است. امروزه با سریعتر و ارزانتر شدن پردازندهها، رایانهها در همه عرصههای زندگی انسانها وارد شدهاند. بینایی ماشین یکی از شاخههای نوین علوم کامپیوتری است که در سالهای اخیر با افزایش دوربینهای فیلمبرداری دیجیتال ارزان قیمت و با کیفیت و همچنین افزایش نیاز برای تحلیلهای خودکار ویدئویی علاقهمندیهای زیادی را نسبت به خود ایجاد کرده است و پیشرفت سریع و قابل توجهی داشته است. بینایی ماشین با ترکیب روشهای مربوط به پردازش تصویر و ابزارهای یادگیری ماشینی، رایانه را قادر به درک هوشمند معنا و محتوای تصاویر میکند.
ردیابی شیء یک عمل اساسی برای بسیاری از کاربردهای سطح بالای بینایی ماشین مانند بازشناسی براساس حرکت، نظارت خودکار، نمایهگذاری فایلهای ویدئویی، ارتباطات متقابل انسان و رایانه، نظارت ترافیکی و هدایت وسایل نقلیه است که امروزه در بالاترین سطح توجه خود قرار دارد. در این مطلب ابتدا تعریفی از ردیابی شیء ارائه میشود سپس کاربردهای ردیابی شیء در زمینههای مختلف بیان میشود.
-2 تعریف ردیابی شیء
در سادهترین شکل، ردیابی میتواند به عنوان مسئله تخمین مسیر حرکت یک شیء وقتی که شیء در صحنه حرکت میکند تعریف شود به بیان دیگر میخواهیم بدانیم شیء در هر زمان در کجای تصویر قرار دارد. ردیاب همچنین میتواند ناحیهای در تصویر که توس شیء در هر زمان اشغال میشود را بیابد، در این صورت از خروجی سیستم تشخیص و ردیابی که همان اشیاء مورد ردیابی میباشد، میتوان در پردازشهای مرتبه بالاتر مانند تعبیر و تفسیر حرکت، تشخیص نوع رفتار و نظایر آن استفاده نمود. در ردیابی، شیء مورد نظر میتواند هر چیزی که مورد علاقه برای تحلیلهای بیشتر است در نظر گرفته شود. برای مثال قایقها در دریا، ماهیها در آکواریوم، وسائل نقلیه در جاده، هواپیما در هوا، افراد در حال راه رفتن در پیادهرو و خیابان، یک غدهی سرطانی در بدن یا حبابی درون آب، همه اینها یک مجموعه از اشیاء هستند که میتوانند در یک حوزه خاص موضوع ردیابی باشند.
-3 کاربردهای ردیابی شیء
ردیابی شیء یک مرحله مقدماتی برای بسیاری از کاربردهای سطح بالای بینایی ماشین است و با گسترش کاربردهای بینایی ماشین در زندگی روزانه انسان هر روز بر اهمیت آن افزوده میشود. در ادامه چند کاربرد مهم ردیابی شیء معرفی شده است، که شکل 1 نمونههای از ردیابی را نشان میدهد.
نمونهای از ردیابی
· بازشناسایی براساس حرکت
· نظارت خودکار
· نمایه گذاری فایلهای ویدئویی
· ارتباطات متقابل انسان و رایانه
· نظارت ترافیکی
· هدایت وسایل نقلیه
از کاربردهای دیگر ردیابی شیء میتوان به ردگیری طوفانهای شن، گردوخاک و ابرها برای پیش بینی وضع هوا نام برد و همچنین از کاربردهای نظامی آن میتوان به تشخیص و رهگیری خودکار اهداف متحرک در سامانههای موشکی و ضدموشکی اشاره کرد. از دیگر کاربردهای آن میتوان به مطالعات حرکات واقعی انسانها شامل حالتهای صورت و نحوه راه رفتن اشاره کرد که هدف از آن به دست آوردن نحوه حرکت شخصیتهای گرافیکی است به طوریکه هر چه بیشتر شبیه به حرکتهای واقعی انسان باشد. کاربردهای ردیابی اشیاء محدود به موارد ذکر شده نیست و با سریعتر و ارزانتر شدن رایانهها و همچنین افزایش نیاز برای تحلیلهای خودکار ویدئویی روز به روز کاربردهای آن گسترش می یابد. بعد از ردیابی افراد با توجه به نیاز و کاربردهای مختلف با استفاده از الگوریتمهای طبقهبند مختلف افراد را میتوان طبقهبندی کرد.
-4 بررسی پژوهشها
کل سیستمهای دوربینی و بینایی ماشین در دو نوع کلی خلاصه میشوند: استفاده از تنها یک دوربین که حول صحنه آزادانه حرکت کرده و تصاویری از نقاط مختلف میگیرد. استفاده از دو دوربین یا بیشتر که بصورت آزادانه در محی در حال حرکت هستند و یا بصورت ثابت حول صحنهای که قرار است بازسازی شوند نصب میشوند. روبرتو وزان ی>1@ 1 و همکارانش در سال 2011 پژوهشی تحت عنوان ردیابی افراد احتمالاتی با مدل های ظاهر و طبقه بندی انسداد: سیستم AD-HOC 2 ارائه کردند.
یک چارچوب کامل برای ردیابی افراد در برنامه نظارت تصویری با وجود انسدادهای بزرگ است. رویکرد مبتنی بر ظاهر اجازهی تخمین شکل پیکسل دانا از هر ردیابی فرد حتی در طول انسداد را میدهد. این ویژگی میتواند در فرآیندهای سطح بالاتر مانند تشخیص عمل و یا تشخیص رویداد بسیار مفید باشد. گام اول پیشبینی موقعیت تمام اشیاء در قاب جدید درحالی که یک چارچوب نقشه یک راهحل برای بهترین مکان را فراهم میکند. گام دوم هر پیکسل نامزد پیشزمینه به یک شی مطابق با موقعیت یک شی و تشابه رنگی اختصاص داده میشود. تعریف این پژوهش مناطق غیرقابل مشاهده برای حساب بخشهایی از اشیا است که در فریم فعلی قابل شناسایی نیستند، طبقهبند آنها را به عنوان پویا، صحنه یا انسداد آشکار میکند.
برای ارزیابی این پژوهش از فیلمهای ضب شده در خانه و مجموعهداده PETS2006 استفاده شده است. در این مقاله یک تعریف رسمی به نام ظاهر ردیابی انسان محور با طبقهبندی انسداد - AD-HOC - فراهم میکند. توضیحات اولی این سیستم در Vezzani سال 2008 ارائه شده است. سیستم طبقهبندی مناطق غیر قابل مشاهده سه دسته، تشخیص میان انسداد واقعی، انسداد با یک شی متعلق به پسزمینه و یا تغییر شکل میباشد.
جیانگ تائو وانگ>2@ 3 و همکارانش در سال 2012 پژوهشی تحت عنوان در تشخیص عابر پیاده و ردیابی در فیلم مادون قرمز ارائه کردند. در این پژوهش مدل پسزمینه GMM 4 برای جداکردن نامزد پیشزمینه از پسزمینه و یک توصیفگر شی معرفی شده است. برای ساخت بردار ویژگی عابرپیاده از یک طبقهبندی SVM5 آموزش دیده براساس مجموعه دادههای تصاویر مادون قرمز و یا به صورت دستی تولید شده بیان شده است. در این پژوهش برای سهولت در کار ردیابی افراد از دو ویژگی لبه و شدت براساس چارچوب فیلتر ذرات بیان شده است.
برای ارزیابی این پژوهش از مجموعه دادهی Davis جمعآوری شده در سال 2007 استفاده شده است. از معایب این پژوهش میتوان به در نظر نگرفتن مشکل انسداد و ردیابی اهداف چندگانه مادون قرمز اشاره کرد. آلوارو گارسیا مارتین>3@ 6 و همکارش در سال 2012 پژوهشی تحت عنوان در تشخیص افراد مشترک و ردیابی در سناریوهای پیچیده ارائه کردند. این پژوهش در کل، یک سیستم تشخیص / ردیابی است که با ادغام ظاهر، حرکت و ردیابی اطلاعات ارائه شده است.
این سیستم از اطلاعات ارائه شده توس هر یک از وظایف مستقل برای بهبود نهایی سیستم استفاده کرده است. نتایج تجربی بر روی مجموعه دادههای گسترده و ویدئوهای پر چالش عملکرده بهتری نسبت به محدودیتهایی که در روشهای گذشته وجود داشته نشان میدهد. کار این سیستم به صورت موازی میباشد که هر قسمت اطلاعات مفید خود را به قاب فرآیند دیگر منتقل میکند و عملیات آنها متشکل از مراحل پیدرپی تبادل اطلاعات برای بهبود خودکار یک فرآیند میباشد. برای ارزیابی این پژوهش از مجموعه داده PDds از توالی TRECVID 2008 گرفته شده از فرودگاه Gatwick International لندن استفاده شده است.
این مجموعه داده شامل صحنههای بسیار شلوغ، پس زمینه به شدت به هم ریخته و افراد در مقیاسهای مختلف میباشد. از معایب این پژوهش میتوان در نظر نگرفتن سیستمهای بازخورد به منظور بهبود عملیات را در نظر گرفت. دیوید پردوم و7و همکارانش در سال 2013 پژوهشی تحت کالیبراسیون صحنه خودکار برای شناسایی و ردیابی افراد با استفاده از یک دوربین عنوان کردند. که در آن به بیان کالیبراسیون صحنه و بهبود الگوریتم ردیابی با استفاده از روش کالیبراسیون خودکار پرداخته است. برای اینکه در مقالههای گذشته سایهها، موقیت نامناسب دوربین، انسداد طولانی مدت، از مشکلات ردیابی بوده است در این مقاله با استفاده از کالیبراسیون خودکار و تغییر مکان دوربین به حل این مشکلات پرداخته است.
این مقاله فق برای شناسایی افراد، تشخیص چهره، مدارهای مجتمع بیومتریک تشخیص چهره استفاده شده است و از معایب این مقاله میتوان در نظر نگرفتن سرعت رهگذران و رفتار غیر عادی آنها را بیان کرد. گوستاوو فوهر>5@ 8 و همکارش در سال 2014 پژوهشی تحت عنوان ترکیب پ چ9 تطبیق و تشخیص برای ردیابی عابر پیاده در دوربین کالیبره یک چشمی ارائه کردند. در این پژوهش ابتدا پسزمینه را حذف میکند و بعد به تشخیص افراد میپردازد که به هر فرد یک شناسه میدهد.
در این راستا برای ترکیب ویدئوها و اخذ شناسه همسان به یک فرد از وزن بردار فیلتر میانه استفاده کرده است و همچنین در این پژوهش یک موقعیت بر اساس جنبشهای قبلی از هر هدف پیشبینی میکند. نتایج تجربی نشان داده این روش با انسداد و تغییرات ظاهری بالای ویدئو نسبت به روشهای پیشین بهتر مقابله کند. برای ارزیابی این پژوهش از مجموعهداده مشهور سال 2009 بهنام PETS از توالی S2.L1 و توالی TownCenter استفاده شده است. این پژوهش قادر به تحمل انسداد کوتاهمدت و تغییرات در مقایس است. و دقت آن در ردیابی زمانی واقعی10 بهتر از مدل ردیابی State of the art میباشد.