بخشی از مقاله
خلاصه
تحلیل ویدیوها و تشخیص اعمالی که در یک ویدیو درحال انجام است، یکی از چالشهای پرکاربرد در مقولهی بینایی ماشین میباشد که در سیستمهای مختلف نظیر نظارت بر رفتارهای مشکوک فرودگاهها یا موزهها، رباتهای در تعامل با انسان و غیره استفاده می شود. در این مسئله با یک ویدیو که حاوی یک یا چند عمل می باشد، سروکار داریم.
روشهای نوین تشخیص عمل عمدتا بر اساس شناسایی نقاط موثر1 در ابعاد مکانی و زمانی2 می باشند به این صورت که به جای آنکه تمامی پیکسلهای تصاویر یک ویدیو مورد بررسی قرار گیرد، با بررسی الگوهای این نقاط که بهوسیلهی توصیفگرهایی نظیر کیسهی لغات تصویری3 یا بردار فیشر 4 توصیف می شوند، به تصمیم گیری در مورد نوع عمل میپردازند.
جهت تشخیص اعمال مختلف در ویدیوهای طولانیتر می توان از یک راهکار عمومی استفاده کرد به این صورت که ابتدا قطعهبندی در بعد زمان 5 انجام دهیم به این صورت که در هر کلیپ - قطعه - 6 مطمئن باشیم تنها یک عمل درحال انجام می باشد. سپس مراحل لازم را جهت تشخیص برروی آن اعمال میشود. اما سوال اینجاست که چگونه میتوان بدون تشخیص عمل، فریمهای مرزی را برای هر عمل شناسایی کرد. دراین مقاله یک روش ابتکاری معرفی میگردد که درآن طراحی خاصی از مدل پنهان مارکوف7 معرفی گردیده و به کمک آن می توان به تشخیص فریمهای مرزی کلیپ از روی ویدیوهای طولانی پرداخت.
.1 مقدمه
با افزایش نیاز به تشخیص هوشمند اعمال انسان در تصاویر ویدیویی سیستم هایی نظیر برنامه های نظارتی، روباتیک و سایر محصولات، این زمینه ی کاربردی به عنوان یک فیلد بسیار ضروری در بینایی ماشین تبدیل گردیده است. با این حال در این زمینه نیز چالش های زیادی وجود دارد. نظیر تغییر زاویه دید، میزان حساسیت در تشخیص، همپوشانی اشیاء بر روی شخص اصلی در تصویر، تغییر ناگهانی در زمینه تصویر، انجام متفاوت یک حرکت توسط اشخاص مختلف1، حرکت دوربین ، تغییر در کیفیت تصاویر و غیره. در یک دهه ی گذشته کارهای زیادی در این رابطه صورت گرفته که تکنیک های توسعه یافته در آنها عمدتا بر اساس بهبود در ارائه ی ویژگی های محلی یا ویژگی های سراسری می باشد.[1]
اساس کار بسیاری از سیستم های تشخیص عمل بر مبنای شناسایی نقاط موثر در کلیپ می باشد[16] تا به جای آنکه کل تصویر در بعد زمانی تمامی فریم ها مورد بررسی و آنالیز قرار گیرند، که البته کار زمان بر و پر هزینه می باشد، تنها به تحلیل برروی نقاط موثر پرداخته خواهد شد. اما سوال اساسی اینجاست که این نقاط چه ویژگی هایی باید داشته باشند.
در تشخیص اشیاء عمدتا تکنیک های شناسایی لبه بسیار کارساز می باشند اما اینجا تنها با یک شی ثابت سر و کار نداریم بلکه حرکتی در حال رخداد می باشد که باید الگوی آن شناسایی شود. بنابراین کار مفیدتر به این صورت می باشد که گوشه ها شناسایی شوند. همچنین در تصاویر ویدیویی بهتر است بعد زمان را نیز درگیر نماییم که این نقاط در بعد زمان نیز دارای تغییرات چشمگیر می باشند.
پس از شناسایی این نقاط، باید به توصیف آنها پرداخت. روش های مرسوم در این قسمت هیستوگرام گرادیان های جهت دار2 و هیستوگرام جریان نوری3 می باشد.[17] در مرحله ی بعد بهتر است کل ویدیو را با استفاده از این نقاط توصیف نمود به گونه ای که هر ویدیو تبدیل به یک بردار با ابعاد مشخص باشد که روش هایی مانند کیسه ی لغات تصویری و یا بردار فیشر به این کار می پردازند.[18] در انتها به دسته بندی ویدیو ها از روی این ویژگی ها خواهیم پرداخت و کار تشخیص ویدیوهای جدید به این صورت می باشد که مراحل بالا را برروی آن اعمال کرده و در انتها ویژگی های استخراج شده را به دسته بند آموزش دیده خواهیم داد و تشخیص از روی خروجی آن دسته بند انجام می شود.
بسیاری از تکنیک های توسعه یافته عمدتا برروی ویدیوهای کوتاه و حاوی یک عمل خاص تمرکز داشته اند.[2] اما باید به این نکته توجه کرد که در محیط های واقعی عمدتا ویدیو ها طولانی تر و حاوی اعمال به هم پیوسته و ممتد می باشند. به طور مثال شخصی در ابتدای ویدیو در حال راه رفتن می باشد سپس خم شده - برای بستن بند کفش - و در ادامه شروع به دویدن می کند. چالش اصلی در این قسمت این می باشد که چگونه می توان این فریم های مرزی را شناسایی کرده و قطعه بندی زمانی را انجام داد تا بتوان اطمینان حاصل کرد که در هر قطعه تنها یک عمل مستقل وجود داشته باشد سپس برای تشخیص عمل می توان از تکنیک های بهبود یافته استفاده کرد.
در قطعه بندی با تعریف بالا روش های متنوعی با نگرش های متفاوت بکار گرفته شده است که از نظر سرعت و کارایی با یکدیگر تفاوت دارند. روش هایی مانند قاب افزایشی، قاب های همپوشان لغزان، روش های بی نظارت، تحلیل مسیر های متراکم. نکته ای که دراین قسمت باید همواره در نظر داشت این است که از یک طرف محیط تحت آزمایش چه ویژگی هایی دارد و تا چه حد تعمیم پذیری یک روش برای ما اهمیت دارد و از طرف دیگر سرعت یک روش در برابر کارایی آن حائز اهمیت می باشد.
در این مقاله روش ابتکاری پیشنهاد می شود که با الهام از مدل مخفی مارکوف از طریق تحلیل برروی بردارهای بازنمایش اعمال و تحلیل برروی فریم ها، قادر به شناسایی فریم های مرزی اعمال خواهد بود و در ادامه با ارائه ی یک چارچوب جامع، قطعه بندی را روی ویدیوی طولانی انجام خواهد داد به گونه ای که از یک طرف در مدت زمان مناسب به صورت برخط و بلادرنگ4 می تواند قطعه بندی را انجام دهد و از طرف دیگر دقت بالایی در این راستا خواهد داشت.
ادامه ی این مقاله شامل بخش های زیر می باشد. در بخش 2 به کارهای مرتبط در این رابطه خواهیم پرداخت و در بخش 3 چارچوب پیشنهادی برای قطعه بندی را به تفضیل شرح خواهیم داد و در ادامه در بخش 4 به بررسی نتیجه آزمایشات برروی روش پیشنهادی خواهیم پرداخت. در انتها در بخش 5 نتیجه گیری روش را خواهیم داشت و همچنین کارهایی که در ادامه می توان انجام داد را معرفی نموده و پیشنهاداتی که می توانند نتایج حاصل را بهبود بخشند، خواهیم داشت.
.2 کارهای مرتبط
بسیاری از تکنیک های مدرن تشخیص عمل عمدتا برروی ویدیو های کوتاه و حاوی یک عمل خاص تمرکز دارند.[2] اما همانطور که می دانیم در محیط های واقعی عمدتا ویدیو ها طولانی تر و حاوی اعمال به هم پیوسته و ممتد می باشند. مانند راه رفتن سپس ایستادن خم شدن - برای بستن بند کفش - و در ادامه دویدن. چالش اصلی در این قسمت این می باشد که چگونه می توان این فریم های مرزی را شناسایی کرد و قطعه بندی زمانی را انجام داد تا بتوان اطمینان حاصل کرد که در هر قطعه تنها یک عمل مستقل وجود داشته باشد سپس برای تشخیص عمل، می توان از تکنیک های بهبود یافته استفاده کرد.
به منظور استخراج اعمال مختلفی که در یک ویدیو طولانی در حال انجام می باشد، نیاز است که که هر ویدیو به قطعات زمانی شکسته شود که در هر قطعه بدون تشخیص نوع عمل، مطمئن باشیم یک عمل در حال انجام می باشد. به هریک از این قطعات اصطلاحا کلیپ گفته می شود. پس از این فاز می توان قطعه ی شناسایی شده را برای تشخیص به روال های مختص تشخیص ارسال کرده و نهایتا نوع عمل مشخص گردد.
روش های مختلفی به مقوله ی قطعه بندی زمانی ویدیو ها پرداخته اند که در هر یک نگرشی خاص را در نظر گرفته اند. نکته ی مهمی که باید در نظر داشت این است که در صورت وجود خطا در قطعه بندی این خطا در مراحل بعد منتشر شده و کل فرایند شناسایی قطعات بعدی و تشخیص را با خطا مواجه خواهد کرد که باعث پایین آمدن کارایی سیستم خواهد شد. روش هایی که تا کنون در این زمینه بکار بسته شد را می توان به 4 دسته ی عمده تقسیم کرد.
.1.2 استفاده از پنجره ی با طول افزایشی
در این تکنیک قطعه بندی و تشخیص به صورت همزمان صورت می گیرد. در واقع قطعه بندی بر اساس بازخورد از تشخیص حاصل می شود. در روش ارائه شده در [2] فریم به فریم به پنجره ی جاری اضافه شده و سعی می شود مشخص شود قاب حاصل به کدام کلاس تعلق دارد. در صورتی که درجه ی اطمیان از تعلق قاب مد نظر به کلاس مشخص از حد آستانه ی معین بالاتر باشد، قطعه مربوطه شناسایی گردیده است.
در [3] روشی ارائه گردید که می تواند با چندین کلاس درگیر بوده و حتی قسمت هایی را به عنوان کلاس های شناسایی نشده و عمل های ناآشنا شناسایی کند. این کار در 4 مرحله انجام می گیرد: - 1 نگاشت ویژگی های سطح قطعه، - 2 طراحی ماشین بردار پشتیبان چند کلاسه با نظارت، - 3 قطعه بندی با بالاترین اطمینان از عدم تعلق به سایر کلاس ها، - 4 حل مسئله به روش پویا برای ویدیو جدید با توجه به قید مرحله ی قبل.
.2.2 استفاده از پنجره ی لغزان
این دسته از راه حل ها یک قاب ثابت در بعد زمان در نظر گرفته که می تواند تا چند فریم را شامل شود و در طول ویدیو در حرکت می باشد. درون قاب بررسی شده و نوع عمل شناسایی می شود. اگر در دو قاب متوالی دو عمل مختلف به دست آید، یک قطعه شناسایی خواهد شد.