بخشی از مقاله
چکیده -
کنترل اماکن توسط دوربینهای مدار بسته مانند استادیوم، بانک و . . . علاوه بر اینکه به نیروی انسانی زیادی نیازمند میباشد به علت خستگی یا اشتباه انسانی میتواند با خطای بسیار همراه شود. لذا طراحی سیستمی که به دور از آنها بتواند فعالیتهای عادی و غیرعادی را تشخیص و نیروهای حفاظتی را آگاه نماید میتواند امنیت بهتری را فراهم آورد .
در این پژوهش یک توصیفگر یکپارچه را معرفی می کنیم که در آن پس از برش فیلمها به آنها، تبدیل فوریه اعمال میکنیم تا اطلاعات حرکت را به حوزهی فرکانس برده و در آنجا به استخراج اطلاعات حرکت بپردازیم. به طیف فرکانسی تولید شده فیلتر گابور اعمال کرده و استخراج ویژگی انجام میدهیم. سپس کاهش بعد با انتخاب ویژگی و تبدیل فضا و آموزش با SVM و تشخیص رفتار را خواهیم داشت. خاصیت جدا نکردن پس زمینه از پیش زمینه نوآوری ای است که باعث میشود سیستم مان در مواردی که نیازبه اطلاعات پس زمینه و پیش زمینه به صورت همزمان دارد، مانند داوری در بازیهای ورزشی نیز به تشخیص فعالیت بپردازد. از نوآوری های قابل توجه دیگر میتوان به استفاده از انتخاب ویژگی در کاهش ابعاد و SVM سلسله مراتبی اشاره کرد که آنها برتری این روش را با توجه به معیارهای سرعت و دقت نسبت به روشهای مشابه دیگرنشان میدهند.
-1 مقدمه
کنترل اماکن توسط دوربینهای مدار بسته مانند استادیوم، بانک و . . . علاوه بر اینکه به نیروی انسانی زیادی نیازمند میباشد به علت خستگی یا اشتباه انسانی میتواند با خطای بسیار همراه شود که این سیستم نظارتی غیرهوشمنداست. لذا طراحی سیستمی که به دور از آنها بتواند فعالیت عادی و غیرعادی را شناسایی و نیروهای حفاظتی را آگاه نماید در سال های اخیر بسیار مورد توجه جامعه علمی قرار گرفته است. در مطالعات انجام شده تمام سیستمهای تشخیص فعالیت انسان این 4 مرحله را دنبال میکنند که در شکل - 1 - مشاهده میکنیم: که در مقالات و مطالعات مختلف برای تشخیص فعالیت انسان در مرحله سوم و چهارم به رقابت پرداخته اند.
شکل :1 سیستم متدوال تشخیص فعالیت انسان
در روش پیشنهادی در مرحلهی اول، ابتدا مجموعه فیلمهای سه بعدی دریافتی را برش زده و در مرحله دوم به جای پیش پردازش، به استخراج ویژگی پس زمینه و پیش زمینه به صورت همزمان می پردازیم. سپس برای راحتتر شدن استخراج اطلاعات حرکت، پس زمینه و پیش زمینه را به طور همزمان به حوزهی فرکانس می بریم که این خود یک پاسخی است به نیاز سیستمهای نظارتی داور برای بازیهای ورزشی که به اطلاعات همزمان پسزمینه و پیشزمینه نیاز دارند. به جای مرحله سوم مطالعات پیشین، که آشکارسازی انسان قرار داشت کاهش ابعاد را با انتخاب ویژگی و تبدیل فضا انجام می دهیم. در مرحلهی چهارم که در نهایت تشخیص فعالیت بود با استفاده ازSVM 1 سلسله مراتبی دقت و سرعت تشخیص فعالیت را بالا می بریم.
در بخش دوم این مقاله تحقیقات مرتبط در رابطه با این موضوع ارائه شده و در بخش سوم روش پیشنهادی مقاله را مرور خواهیم کرد. در بخش چهارم ارزیابی روش پیشنهادی را خواهیم داشت و در بخش پنجم نتیجه گیری و پیشنهاد برای کارهای آینده را تشکیل خواهد داد.
-2 تحقیقات مرتبط
همان طور که سیستمهای نظارتی زمینهی مناسبی برای افزایش تعامل انسان و ماشین محسوب میشود، در دههی اخیر فعالیتها در زمینههای تعامل بین انسان و ماشین افزایش چشمگیری داشته است. سیستمهای تشخیص فعالیت ارائه شده چهار مرحله را دنبال میکردند در مرحلهی پیشپردازش، بر روی کاهش محدودهی مطلوب مورد بررسی با استفاده از تفریق پسزمینه و شار نوری اقداماتی انجام شده است. تعداد زیادی از روشهای مدلسازی پسزمینه توسط کریستانی و همکارانش در سال 2010 و الهابیان در سال 2008 توسعه داده شده است.[1] یافتن مقادیر جابجایی بین فریمهای متوالی از یک توالی تصویر، شار نوری نامیده میشوند.
اولین روش برای محاسبهی شار نوری متغیر در توالی تصویر توسط هرن و همکاران در سال 1981 معرفی شده است
حساسترین و مهمترین بخش سیستم، آشکارسازی انسان و تخمین وضعیت بدن میباشد. که این بخش خود به دو بخش اصلی تقسیم میشوند متداولترین این روشها، روشهای مبتنی بر اجزا و تجزیه و تحلیل پنجرهی شناسایی منفرد است
در مرحلهی آخر هر دونوع روشهای تشخیص عمل و فعالیت میتواند در دو دسته روشهای تک لایه و روشهای سلسله مراتبی طبقهبندی شود.
روشهای تک لایه، بیشتر برای تشخیص عمل مناسب بوده و روشهای سلسله مراتبی برای تشخیص فعالیت مورد استفاده قرار میگیرند.[4] در سال 2010 نیز فورستی و همکاران [5] با استفاده از ماشینهای بردار پشتیبان تک کلاسه مقاله ای را تحت عنوان کشف رویداد نظارت محور در جریانهای تصویری ارائه کردند. در سال 2014 چن و همکاران [6] یک الگوریتم جدید بر پایهی شبکه برای شناسایی فعالیت انسان در ویدئو با یادگیر SVM ارائه کردند، همین طور در سال2014 کانگ و همکاران بر پایهی همین دسته بند [7]کشف رفتار غیر عادی با استفاده عاملهای ترکیبی در صحنههای شلوغ را ارائه دادند.
در[8]2016 نیز یو و همکاران بر پایه ی مدل مارکوف، الگوریتم تشخیص فعالیت بی ناظر را معرفی کردند. در سال 2015 اومر و همکاران [9] با استفاده از مدل گرافیکی و تجزیه ویدئو، مقاله ای را تحت عنوان تجزیه فضایی-زمانی ویدئو برای کشف اختلال ارائه کردند. همهی روشهای ارائه شده در گذشته، روشهای مبتنی بر حرکت بودند و نیازمند تخمین پسزمینه و آشکارسازی پیشزمینه بودهاند و یا بر اساس شار نوری ناشی از حرکت انسان عمل میکردند. در هر دو حالت، مجموع مراحل پیشپردازش، آشکارسازی پیشزمینه، و در نهایت انجام الگوریتم دستهبندی مناسب، بسیار زمانبر و حافظهبر میباشد. همین طور در برخی از فعالیتها مانند داوری در بازیهای ورزشی به اطلاعات صحنه و حرکت دست یا پا به صورت هم زمان نیاز داریم که با استفاده از روشهای پیشین مانند حذف پس زمینه و استخراج جداگانه وضعیتهای مختلف بدن به این اطلاعات مهم دست نیافتیم.
-3 روش پیشنهادی
روشهای ارائه شده در گذشته، نیازمند تخمین پسزمینه و آشکارسازی پیشزمینه بودهاند. در این حالت مجموع مراحل پیشپردازش، آشکارسازی پیشزمینه و در نهایت انجام الگوریتم دستهبندی مناسب، بسیار زمانبر و حافظهبر میباشد. لذا ارائهی روشی که نیازمند استخراج جداگانهی وضعیتهای مختلف بدن در فریمهای مختلف نباشد و اطلاعات پس زمینه و پیش زمینه را از هم جدا نکند میتواند به بهبود عملکرد سیستم و کاهش زمان مورد نیاز منجر شود.چارچوب کلی روش پیشنهادی را در شکل - - 2 مشاهده می کنید.
شکل :2 چهارچوب کلی روش پیشنهادی
نیاز به نوآوری جدا نکردن پس زمینه از پیش زمینه حین استخراج ویژگی در داوری بازی های ورزشی نیز مفید عمل می کند. این نیاز و برخی شرایط نامطلوب که در بالا به آن اشاره شد ما را بر آن داشت تا توصیف گر یکپارچه ویدیوئی را طراحی کنیم که اطلاعات صحنه و حرکت را به صورت هم زمان استخراج کرده و سپس با اعمال انتخاب ویژگی ابعاد را به طرز مطلوبی کاهش دهیم با توجه به اینکه دقت مان نیز کاهش نیابد، که در این مرحله ما با افزایش دقت نیز مواجه شدیم که این نوآوری روش پیشنهادی را نشان می دهد. در ابتدا مجموعه فریمهای ویدئویی سه بعدی را برش میدهیم. ما در آزمایشات از سه برش استفاده میکنیم. برای محاسبات کمتر و اینکه انتخاب تعداد بیشتر از سه برش در بهبود بیشتر کارایی تاثیری ندارند.
برش فیلمهای ویدئویی را به صورت همزمان اطلاعات پس زمینه و پیش زمینه،به حوزه فرکانس میبریم. در این جا فرض بر آن است که دوربین در یک مکان ثابت قرار گرفته است. بنابراین اطلاعات پس زمینه در تمام فریمهای ویدئو یکسان است. حال چون کانولوشن در حوزه اولیه - Spatial - معادل ضرب در حوزهی فرکانس است و چون اطلاعات پس زمینه را داریم به راحتی میتوانیم اطلاعات حرکت را در حوزهی فرکانس از اطلاعات پس زمینه جدا کنیم. برای بردن مجموعه فریمهای ویدئو به حوزهی فرکانس از تبدیل فوریهی گسسته استفاده کردیم. تبدیل فوریهی سه بعدی f - x,y,t - بر روی فضا و زمان به صورت زیر محاسبه میشود:
M، N و Tبه ترتیب عرض، ارتفاع و مدت زمان برش ویدئو میباشد و x و y وt موقعیتهای فضایی و زمان هر نقطه در حجم ایجاد شده میباشد. نمایش طیف فرکانسی را در شکل - - 3 مشاهده میکنید. برای استخراج ویژگی از بانک فیلتر گابور سه بعدی استفاده کردیم. فیلتر گابور از ساختار چشم انسان الگوبرداری شده است و یک توصیف گر مناسب جهت حرکت میباشد. این فیلتر لبهها را در جهات مختلف یافته و یک شی و یا حرکات مربوط به آن را به خوبی توصیف میکند که نمایش فیلترها را در شکل - - 5 مشاهده می کنیم.
شکل :3 نمایش طیف فرکانسی
تابع انتقال هر فیلتر3بعدی، مطابق با یک فرکانس فضایی fr0 در امتداد مشخص شده با زوایای قطبی 0 و سمتی 0 و در یک سیستم مختصات کروی میتواند به صورت زیر بیان شود:
به ترتیب پهنای باند شعاعی و زاویهای هستند که کشیدگی فیلتر را در دامنهی فرکانسی فضایی-زمانی تعیین میکنند. تاثیر فیلترسازی طیف فرکانسی را در شکل - - 4 مشاهده میکنید:
شکل :4 تاثیر فیلترسازی طیف فرکانسی
شکل :5 نمایش فیلترهای3بعدی الف - فیلترهای گامهای اول و دوم باهم ب - تمام فیلترهای از گام اول ج - فیلترهای گام دوم
مرحلهی چهارم اعمال تبدیل فوریهی گسسته 3بعدی معکوس، ویژگیهای استخراج شده در حوزهی فرکانس هستند و باید به حوزهی اولیه بازگردند.