بخشی از مقاله
*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
شناسایی رفتار نامتعارف انسان در سیستمهای نظارتی با استفاده از Sparse Coding
خلاصه
آگاهی محیطی یکی از کارکرد های پایه سیستم بینایی انسان می باشد که توجه بسیار زیادی در بینایی ماشین و جوامع پژوهشی مرتبط، به خود جلب کرده است. تقاضای رو به افزایشی برای سیستم های نظارتی ویدئویی عمومی و خصوصی با استفاده از سیستم بینایی هوشمند بهوجود آمده است که بتواند تفاوت معنایی رفتار " عادی " و " غیر عادی " را از دید انسان متمایز کند. در این مقاله الگوریتم غیرنظارت شدهی یادگیری ترکیبی تنک1 برای شناسایی رفتار نامتعارف انسان ارائه میشود. اساس کار بر این است که اتفاقات متعارف و عادی قابلیت بازسازی از یک دیکشنری که شامل رفتارهای متعارف است، را دارند. در دیکشنری هیچ رفتار نامتعارف و غیرعادی وجود ندارد. با توجه به این که هیچ فرض اولیهای در مورد رفتارهای غیرعادی وجود ندارد میتوان گفت الگوریتم کاملا غیرنظارت شده است. در فاز آموزش دیکشنری با مشاهده ویدیوهای جدید خود را به روز رسانی میکند. نتایج بر روی دیتاست موجود نشان میدهد که الگوریتم تمامی رفتارهای نامتعارف را، در پردازش بلادرنگ شناسایی میکند.
کلمات کلیدی: شناسایی، رفتار نامتعارف، انسان، پردازش بلادرنگ، غیرنظارت شده، یادگیری ترکیبی تنک،
.1 مقدمه
سیستم های نظارتی امروزه بطور گسترده ای برای کنترل محیط های عمومی مورد استفاده قرار می گیرند و از جمله کاربردهای آن ها می توان به کنترل حمل و نقل، کنترل محل های عمومی همچون مترو، ورزشگاه ها و موارد امنیتی اشاره کرد(.(1 در سال های اخیر هوشمند سازی این سیستم ها مورد توجه بسیاری از محققین علم پردازش تصویر قرار گرفته است(.(4-2 برای هوشمند سازی سیستم های نظارتی موجود در بانک ها یا فروشگاه ها بابد سیستمی طراحی کرد که قادر باشد رویداد های مشکوک را شناسایی کند. این موضوع وابستگی شدیدی به محیط نمونه خواهد داشت. مثلا سرعت حرکت زیاد در مسابقه دو متعارف ولی در بانک کاملا غیر متعارف است. تکنیکهای موجود در شناسایی رفتار نامتعارف را میتوان به طور گسترده به دو روش نظارت شده و غیرنظارت شده طبفه بندی کرد. شکل 1 طبقهبندی تکنیکهای موجود را نشان میدهد.
شکل-1تکنیکهای موجود در شناسایی رفتار نامتعارف
.1.1 روشهای نظارت شده
در روشهای نظارت شدهی شناسایی رفتار نامتعارف، فرض بر این است که مجموعهی رفتارهای نامتعارف مشخص است. ابتدا دیکشنری از رفتارهای نامتعارف ساخته میشود و سپس برای هر ویدیو مشاهده شده، بررسی میشود که در دیکشنری مورد مشابهی یافت میشود یا خیر. از دیدگاه احتمالی، مسئله به یک مسئله طبقه بندی مرسوم در بینایی ماشین تبدیل میشود. وقتی یک مجموعه از ویژگیها انتخاب میشود، توابع چگالی احتمال متعارف و غیر متعارف قابل تخمین خواهند بود و در انتها با اعمال تست نسبت احتمال1 میتوان رفتار نامتعارف را شناسایی کرد. روش نسبت هیستوگرام (5) به منظور نمایش ویژگیهای شئ به کار میرودو اتفاقات مشکوک مانند کیف و ساک رهاشده را شناسایی میکند. عیب اصلی روشهای نظارت شده این است که در داده های آموزشی، اتفاقات غیرمتعارف در مقایسه با موارد عادی و متعارف بسیار کمتر هستند و به دست آوردن اتفاقات نامتعارف قابل نمایش در حالت کلی سخت است. همچنین این روش به الگوهای غیرمتعارف جدید قابل تعمیم نیست.
1.2. روشهای غیرنظارت شده
در دههی گذشته تعداد زیادی از محققین بر روی روش جایگزین غیرنظارتی تمرکز کردهاند. در روشهای غیرنظارت شده معمولا لیبل2ها نامعلوم هستند با این وجود این فرض وجود دارد که تعداد اتفاقات متعارف و عادی بسیار بیشتر از اتفاقات غیرعادی است. پس میتوان گفت بین روشهای غیرنظارتی و نیمه نظارتی اندکی همپوشانی وجود دارد زیرا نمونههای عادی به عنوان مجموعه داده آموزشی به سیستم اعمال میشود. در این روشها جنبه مرکزی مدلسازی رفتار عادی، خواه به طور خودکار یا بر اساس الگوهای رفتار عادی ویدیو، است.
1.2.1. آنالیز به وسیله ترکیب3
روش جایگزین برای روشهایی بر اساس ردیابی4 در (6) تشریح شده است. رشته ویدیویی مشاهده شده با استفاده از قطعههای مکانی-زمانی5 استخراج شده از ویدیو آموزش ساخته میشود. در این روش که با استفاده از ترکیب است، فقط
بخشهایی به وسیلهی قطعههای پیوستهی بزرگ دادههای آموزش، قابل ساختن هستند که به عنوان رفتار عادی در نظر گرفته شده باشند. به جای استخراج ویژگیهای متحرک (7) ویژگیهایی را از تصویر استخراج میکند که مدل بینهایت پنهان مارکوو1 را بر روی آنها میسازد تا هر نوع اتفاق غیرعادی را تشخیص دهد. (8) و (9) هم از قطعههای مکانی-زمانی ویدیوها استفاده میکنند تا رفتار را توصیف کنند. در این مدل، سایه یا نیمرخ2 شئ متحرک به یک حجم سه بعدیای تبدیل میشود که شکلش به عنوان یک رفتار خاص شناخته میشود. متاسفانه این روشها اکثرا زمانی پاسخ مناسبی دارند که فقط تعداد کمی شئ متحرک به صورت متناوب مشاهده شوند. همچنین در اکثر این روشها، ویدیو یا بخش بزرگی از تصویر به عنوان یک مجموعه کامل در نظر گرفته میشود درنتیجه تمام ویدیو یا بخش بزرگی از فریمها به عنوان عادی یا غیرعادی لیبل گذاری میشوند.
2.2.1. روش محتوای زمینه و رفتاری3
این روشها به جای خود شئ، صفتهای رفتاری و زمینهای آن را مدل میکنند. زمینه در ویدیو به معنی مکان و زمان شئ متحرک در تصویر است. صفتهای رفتاری به صفتهای غیر زمینهای مثل سایز، سرعت، جهت و رنگ شئ متحرک در یک مکان مشخص در تصویر اشاره دارد. این روشها میتوانند در سطح پیکسلی یا به طور کلیتر، بر روی بلوکهایی از پیکسل ها عمل کنند. بعضی روشها از خلاصه بردارهای حرکت یا لیبل حرکت برای توصیف فعالیت در تصویر استفاده میکنند. درنتیجه یک ساختار تصویری دو بعدی، خلاصه فعالیت در طول یک پنجره زمانی طولانی را نشان میدهد بنابراین پردازش راحتتر و حافظهی لازم کمتر میشود. در (10) با استفاده از یک بردار هفت بعدی هر حباب4 متحرک را نمایش میدهد. الگوریتم امید ریاضی-بیشینهسازی5 برای خوشه بندی این بردارهای هفت بعدی به تعداد از قبل تعیین شده خوشهها، استفاده میشود. اتفاقاتی که به هیچکدام از این خوشههای از قبل تعیین شده، متعلق نباشند به عنوان اتفاق غیرعادی تلقی میشوند. (11) نمایندهای برای لیبل حرکت لحاظ میکند که اتفاقات با کمک مدل دو حالته زنجیری مارکوو6 طبقه بندی میشوند. در (12) با استفاده از بیز سلسله مراتبی7 مدلی ارائه میشود در حالیکه ویدیو اصطلاحا به اسناد یا اطلاعاتی تبدیل میشود و اتفاقات به ویژگیهای مشخصی، یا کلماتی در آن اسناد تبدیل میشوند. (13) اتفاقات را با استفاده از مکعبهای مکانی-زمانی مدل میکند و برای تشخیص نوع اتفاق از درخت تصمیم8 کمک میگیرد.در هسته اصلی بسیاری از این روشها، مدلسازی احتمالی بر اساس موقعیت مکانی را نسبت به دیدگاه سنتی ردیابی بر اساس شئ9 ترجیح میدهند.
3.2.1. روش بر اساس مسیر حرکت1
روش معمول مورد استفاده در کاربردهای نظارت بر حملو نقل، خوشه بندی مسیر حرکت اشیا متحرک شناسایی شده است. خوشههای به دست آمده به عنوان مدلهای عادی و متعارف جهت شناسایی رفتار غیرعادی استفاده میشوند. (14) جز اولین تحقیق ها در این جهت بوده است که از vector quantization برای نمایش کامل مسیرهای حرکت استفاده کرده و از شبکههای عصبی چندلایه برای شناسایی الگوهای متعارف بهره گرفتهاست. در بسیاری از مقالات تلاش شده است که از مسیر حرکت به عنوان ویژگی استفاده شود. تکنیکهای مشابه به کمک ردیابی شئ، مسیرهای حرکت عادی و مقدار انحراف از آنها را شناسایی میکنند. این روش برای اتفاقات نامتعارف ترافیکی مناسب است زیرا تکنیک های ردیابی بسیاری وجود دارد که میتوان از آنها بهره گرفت .(15) یکی از روشهای معمول این است که مسیر طی شده وسایل نقلیه متعارف استخراج شود و انحراف از آن مسیر در ویدیوهای زنده ترافیکی جستجو شود .(19-16) در فاز تست یا ارزیابی، وسیله نقلیه ردیابی میشود و مسیر حرکتش با کلاسهای متعارف مقایسه میشود. انحراف زیاد از تمام کلاسها، نشان دهنده مسیر نامتعارف است. از زمان ظهور پردازش ویدیو و شناسایی رفتار غیرعادی، روش مسیر حرکت اجسام متحرک نقش مهمی در این حیطه بازی میکند. تعدادی از روشهای موجود برای یادگیری دو بعدی مسیر حرکت گسترش یافته اند (19) ، که درنتیجهی ردیابی اشیا و انسانها به دست آمده اند .(17) در این حالت تعداد زیادی از افراد و یا اجسام در طول زمان، در فاز آموزش ردیابی میشوند .سپس مسیر های به دست آمده به مجموعهای از حرکت مسیرها خلاصه میشوند و عموما به صورت نمایش نمادین فعالیتی که در پس زمینه است معرفی میشود. در فاز شناسایی و تست مسیرهای حرکت استخراج شده از ویدیو مشاهده شده با مسیرهای یادگرفته شده در فاز آموزش مقایسه میشود.
ردیابی عموما با کمک روشهایی بر پایه نمایش تصویری، مانند مدل پنهان مارکوو یا شبکههای بیز اجرا میشود. در (20) از طبقهبند شبکه بیز برای یادگیری انواع مختلف رفتارهای ترافیکی استفاده میشود. طبقهبند بر اساس ویژگیهای مسیر، که از اندازهگیری تصاویر سطح پایین به دست آمده اند، ساخته میشود. در (21)، نویسندگان شکل و نوع فعالیتهای اجسام را با استفاده از مدل پنهان مارکوو2 مدل میکنند و رفتار نامتعارف را به عنوان تغییر در مدل رفتاری تعریف می-کنند. در (22) تصویر با اطلاعات مکانی لیبل گذاری میشود و سپس با استفاده از روش بیز، مسیرهای حرکت نامتعارف شناسایی میشوند. نویسندگان (14) مسیرها را quantize میکنند و روش شبکه عصبی چندلایه را جهت شناسایی رفتار غیرعادی، بهبود میبخشند. در (23) از خوشه بندی سلسله مراتبی مسیرهایی که به اطلاعات مکانی و زمانی وابسته-اند، برای شناسایی رفتار غیرعادی استفاده میشود. مشخصه رایج روشهایی که بر اساس مسیر حرکت کار میکنند -16) (18 ، انحراف از کلاسهای عادی مسیرهای حرکت در فاز آموزش و مقایسه مسیرهای تست با کلاسهای عادی در فاز ارزیابی است. انحراف آماری بزرگ از تمام کلاسها، مسیر نامتعارف را نشان میدهد. روشهایی که بر اساس مسیر حرکتند، در صورتیکه کیفیت ردیابی بالا باشد بسیار خوب عمل میکنند و در واقع این روش کاربرد زیادی در الگوریتمهای ردیابی دارد .(15)
اگرچه روشهایی که از مسیرها به عنوان ویژگیهای حرکت استفاده میکنند مزیتهای بسیاری دارند ولی معایب واضحی نیز وجود دارد. اول اینکه ردیابی کار بسیار سختی است مخصوصا در پردازشهای بلادرنگ1 و مکانهای شهری که تعداد بسیار زیادی از اجسام متحرک وجود دارند و از آن جا که شناسایی اتفاقات غیر عادی مستقیما به کیفیت ردیابی وابسته است، یک خطای ردیابی ناچارا بایاس ناخواسته به مرحله شناسایی وارد میکند. دوما، چون هر فرد یا جسم مورد مشاهده به یک مسیر مختص به خود مربوط است، کنترل کردن انسداد افراد یا اجسام به وسیله یکدیگر سخت خواهد بود.
1.3. مشکلات موجود
شناسایی رفتار نامتعارف عموما به دلیل وجود مشکلات زیر سخت خواهد بود:
· وجود نویز و انسداد: نویز عموما در ویدیوهای سیستمهای نظارتی وجود دارد باعث از دست دادن اطلاعات مهم میشوند. بعلاوه به خاطر محدودیت زاویه دید دوربین، انسداد عموما در ویدیوها اتفاق میافتد. نویز و انسداد در ویدیوهای خام، شناسایی رفتار غیرعادی را مشکل میسازد.
· تعامل اجسام و افراد باهم: تعداد بسیار زیادی از الگوریتمهای شناسایی رفتار نامتعارف برای سیستمهای نظارتی طراحی شدهاند. با اینحال تعداد کمی از آنها تعامل و تقابل بین اجسام و افراد متفاوت را در نظر گرفته-اند. در دنیای واقعی"اتفاقات نامتعارف بههم پیوسته" که به وسیلهی تعامل مشترک اجسام و افراد به وقوع می-پیوندد، بسیار زیاد است. مثلا در حوزه حملونقل اتفاقاتی مانند تصادف و رفتار خطرناک عابرپیاده و راننده بر اساس تعامل مشترک و نه فقط رفتار فردی به وجود میآید.
· شناسایی رفتار نامتعارف غیر نظارت شده: بیشتر کارهای موجود فقط میتوانند به صورت نظارت شده به شناسایی بپردازند، درحالی که نمونه آموزشی برای رفتارهای نامتعارف وجود دارد. در کاربردهای واقعی، معمولا امکان جمعآوری نمونههای آموزشی برای رفتارهای نامتعارف وجود ندارد.
· وجود چند اتفاق نامتعارف: اکثر روشهای شناسایی رفتار نامتعارف فقط از عهده شناسایی یک اتفاق در تصویر برمیآیند. نمایش ویژگی اتفاقات مجزا شامل اطلاعات وابسته و مکمل در مورد اتفاق (عادی یا غیرعادی) است.
· وقایع بدون ساختار: روشهای موجود همیشه اتفاقات دارای ساختار را شناسایی میکنند. مثلا شناسایی با استفاده از تابلو توقف ممنوع. در بسیاری از موارد چندین جسم و ویژگیهای متناظر آنها استخراج میشوند و جداسازی کامل به کلاسهای عادی سخت خواهد بود.
2. معرفی الگوریتم پیشنهادی
همانطور که اشاره شد، احتمال رخداد رفتارهای غیرعادی بسیار کم است بنابراین نظارت بی وفقه امری سخت و خسته کننده خواهد بود. از این رو باید سیستمی طراحی شود که بدون نظارت فرد ناظر قادر باشد رفتارهای غیر متعارف را به صورت خودکار شناسایی کند. الگوریتم پیشنهادی به این صورت است که ابتدا سیستم با استفاده از ویدیوهایی که شامل رفتارهای متعارف است آموزش می بیند سپس سیستم در صورت مواجه با یک رخداد غیر متعارف قادر خواهد بود در مورد این رخداد قضاوت کند. اما تشخیص رفتارهای غیر متعارف در ویدیو از دو نظر امری چالش برانگیز بوده است. اول این که
انواع رفتارهای غیر متعارف - حتی انواع رفتارهای متعارف در براخی از کاربردها- نامشخص است.. دوم این که رخدادهای عادی و متعارف همیشه آغشته به نویز هستند بخصوص زمانی که سایز بردار ویژگی بزرگ باشد . این نویز سبب اختلال در سیستم تشخیص رفتار غیر متعارف می شود به این دلیل که این نویزها در رخداد های متعارف به گونه ای عمل می کنند که این رفتارها غیر متعارف تلقی شوند و سیستم قادر نخواهد بود که تمایز بین رفتارهای متعارف و غیر متعارف را از هم تشخیص دهد. علاوه بر مشکلات ذکر شده سیستم تشخیص رفتار غیر متعارف باید الگوریتمی را اتخاذ کند که از سرعت پردازش بالایی برخوردار باشد و قادر به پردازش بلادرنگ1 باشد. یکی از راه حل هایی که برای چالش های اشاره شده وجود دارد استفاده از الگوریتم نمایش تنک2 است.
.1.2 مدل Sparse
فرض کنید بردارهای ، بردارهای ویژگی آموزشی است که از یک ناحیه ویدیو استحراج می شود و شامل رفتارهای عادی هستند. با استفاده از این بردارها یک دیکشنری که شامل الگو رفتاری متعارف است ساخته می شود. این دیکشنری یک ماتریس مستطیلی است که تعداد سطرهای آن برابر با طول بردار ویژگی است. حال فرض کنید یک بردار تست از یک فریم ویدیو استخراج شده و نوع رفتار آن مجهول است وهدف این است که این بردار با ترکیب خطی تعداد کمی از ستون های ماتریس بازسازی شود. این بازسازی را می توان به صورت مدل ریاضی زیر بیان نمود:
جایی که در حقیقت بردار ضرایب تنک با طول ( منظور از بردار تنک، برداری است که تعداد درایه های غیر صفر آن کم یا اصطلاحا تنک باشد )، عملگر . عملگر نرم است که اگر n برابر با 2 باشد، منظور نرم 2 بردار است و معادل با مجموع مربع درایه های آن بردار است و اگر n برابر با صفر باشد منظور تعداد درایه های غیر صفر یک بردار است. پارامتر s تعداد درایه های غیر صفر بردار ضرایب تنک را مشخص می کند. که این تعداد باید از طول بردار یعنی بسیار کوچکتر باشد. به این ترتیب اگر بردار یک بردار رفتار متعارف باشد قادر خواهیم بود این بردار را با ترکیب خطی تعداد کمی ( که این تعداد s است) نمایش دهیم و خطای بردار اصلی x و بردار بازسازی شده یعنی که با عبارت در معادله بالا نشان داده شده، مینیم شود. اما اگر بردار x مشخصه یک رفتار غیر عادی باشد خطای بردار اصلی و بازسازی شده بزرگ خواهد بود، به این معنی که نمیتوان با تعداد s ترکیب خطی از ستون های ماتریس بردار اصلی را بازسازی کرد. در نتیجه با در نظر گرفتن یک آستانه برای خطای بازسازی عبارت میتوان رفتارهای عادی و غیر عادی را از هم تفکیک کرد((25 ,24 پروژهش های قبلی که در این زمینه انجام شده (26-24) حاکی از عملکرد بالای این الگوریتم در تشخیص رفتار های غیر
عادی بوده است. اما حل معادله بالا هزینه محاسباتی بالایی دارد زیرا الگوریتم تعداد s ستون از q ستون ماتریس را طوری انتخاب میکند که ترکیب خطی آن ها بتواند بردار مجهول x را بازسازی کند. بنابراین فضای جستجو برای حل معادله برابر با حالت خواهد بود که از لحاظ محاسباتی بسیار زمانبر است به طوری که پردازش هر فریم چند ثانیه
طول می کشد از این رو برای پردازش های بلادرنگ1 مناسب نیستند. روشی تحت عنوان یادگیری ترکیبی تنک(27) 2 برای تشخیص رفتار غیر متعارف پیشنهاد شده است که در آن دسته هایی تشکیل میشود و در هر دسته، تعداد s بردار وجود دارد. این دستهها طی فرایندی توسط بردارهای ورودی که جهت آموزش است، ساخته می شود. در قسمت بازسازی، الگوریتم دسته ای را انتخاب می کند که با کمترین خطای ممکن بتواند بردار اصلی را بازسازی کند.. بنابراین دیگر لازم نیست به دنبال s بردار از q ستون ماتریس D باشیم که بتوانیم بردار اصلی را با آن بازسازی کنیم. فضای جستجو در این الگوریتم پیشنهادی که همان تعداد دسته ها می باشد که بسیار کمتر از حالت است. بنابراین انتظار می رود که الگوریتم پیشنهادی نسبت به الگوریتم های قبلی از سرعت بالایی برخوردار باشد. شبیه سازی های که در این مقاله انجام شده است نشان داده است که با اتخاذ الگوریتم (24) زمان پردازش هر فریم بین یک تا ده میکروثانیه خواهد بود. شکل 2 چهارچوب این الگوریتم را برای تشخیص رفتار غیر عادی نشان میدهد.
شکل- 2 یادگیری ترکیبی تنک((27
در شکل2، x بردار ویژگی مجهول است ، مجموعه دسته ها است که تعداد آن ها k تا و هر دسته ( ( s ≪ q می باشد. حداقل مربع خطای بازسازی مربوط به هر دسته می باشد. کمترین خطا بین
خطای دستهها، خطای نهایی را مشخص می کند.
3. تشریح الگوریتم یادگیری ترکیبی تنک و مراحل پردازش
یادگیری ترکیبی تنک جهت تشخیص رفتار نامتعارف استفاده میشود. به جای استفاده از رابطه 1 ، K ترکیب S به عنوان دیکشنری ساخته میشود. هر ترکیب S شامل حداقل s بیس اصلی دیکشنری است. با این تغییر به جای جستجو s بین p بیس دیکشنری، فقط مناسبترین ترکیب S با استفاده از روش حداقل مربعات خطا 3 به دست میآید که در شکل 2 نشان داده شده است. در ادامه معرفی بخشهای مختلف مقاله میپردازیم. در ابتدا پیش پردازش بر روی تمامی فریم های ویدیو انجام میشود و تصویر را به سیاه و سفید تبدیل میکنیم. سپس بردارهای ویژگی از ویدیوهای آموزش استخراج می-
شوند و با استفاده از PCA1 ابعاد آن کاهش مییابد.در ادامه با استفاده از (24) ترکیبهای بهینه دیکشنری ساخته می-شوند. در فاز تست پس از استخراج ویژگی برای ویدیوهای تست با استفاده از ترکیب های دیکشنری و محاسبه خطا، رفتار متعارف و غیرمتعارف شناسایی میشوند. در انتها نتایج شبیه سازی با ماسکهایی که همراه دیتاست مقاله جهت ارزیابی تهیه شده است مقایسه میشود. فلوچارت نشان داده در شکل مراحل آموزش سیستم و ساختن دیکشنری را نمایش می-دهد.
شکل 3 -مراحل آموزش سیستم و ساختن دیکشنری
3.1. پیش پردازش
نویسنده مقاله (27) هر فریم را به سه سایز 20×20 و 30×40 و 120×160 تبدیل می کند تا یک مکعب زمانی- مکانی تشکیل دهد. در این مقاله در ابتدا هر فریم را به مقیاس 120×160 تغییر سایز می دهیم و هر سایز را به طور یکنواخت به قطعه2 های 10×10 که همپوشانی ندارند تقسیم میکنیم. اگر زیر ناحیه های متناظر از هر مقیاس در 5 فریم متوالی در کنار یکدیگر قرار گیرند یک مکعب مکان-زمانی3 تشکیل می شود که سایز این ماتریس (مکعب) برابر با 10×10×5 است که 10×10 رزلوشن هر قطعه و 5 همان تعداد فریم های متوالی را نشان میدهد. تصویر رنگی هر فریم به سیاه و سفید تبدیل میشود. سپس این تصویر را با استفاده از یک کرنل گوسی با سایز پنجره 3×3 و مقدار واریانس 1 تار4 می کنیم ( این عمل برای کاهش نویز در تصویر انجام میشود).
.2.2 آموزش سیستم و استخراج ویژگی
اختلاف بین دو فریم متوالی (26) طبق رابطه زیر محاسبه می شود:
(2)
در رابطه((2، I تصویر هر فریم است و x و y ابعاد مکان و t بعد زمان است. به این ترتیب نواحی از تصویر که در دو فریم متوالی ثابت است، مقدارشان صفر می شود و نواحی متحرک دارای مقدار است. اختلاف دو فریم متوالی در ماتریس سه بعدی ذخیره میشود. در این ماتریس دو بعد اول، بعد مکانی و بعد سوم بعد زمانی می باشد. حال برای هر پیکسل میانگین آن در بعد زمان و مکان محاسبه می شود به این صورت که برای هر پیکسل در بعد مکان یک پنجره 10×10 حول آن در نظر گرفته می شود و میانگین آن پنجره محاسبه میشود. این عمل با کانولوشن دوبعدی هر فریم با یک پنجره 10×10