بخشی از مقاله
پیشبینی شرایط ترافیکی یکی از مهمترین اهداف مهندسین ترافیک و از ملزومات شهر هوشمند به شمار میآید. استخراج الگوهای رفتارهای ترافیکی و همچنین تشخیص رفتارهای جدید ترافیکی در تصمیمات کلان شهری نقش به سزایی دارند. در این مقاله، ما تحلیل رفتارهای ترافیکی و تشخیص حالات غیرعادی در آنها را با استفاده از مدلهای موضوع مورد بررسی قرار دادیم. در این روش، مدلسازی برای روزهای هفته و ماههای سال انجام میشود و الگوهای ترافیکی هفتگی و ماهانه استخراج میشوند. تحلیل خروجیهای روش ارائه شده و تطبیق آنها با الگوهای واقعی شهری، صحت عملکرد و دقت این روش را نشان میدهد. همچنین نمودارهای ROC برای بررسی همگرایی مدل رسم شدند.
.1 مقدمه
ظهور عصر دادههای حجیم چشمانداز گستره وسیعی از رشتههای علوم و مهندسی را دگرگون ساخته است. حوزه حمل و نقل نیز انتظارات بالایی برای بکارگیری روشهای تحلیل دادههای حجیم در دادههایی که سیستمهای حمل و نقل هوشمند 1 تولید میکند، دارد. پیشبینی رفتارهای ترافیکی یکی از مهمترین ملزومات برای استفاده بهینه از تکنولوژیهای پیشرفته و هوشمند حمل و نقل است.[4] از اینرو پیدا کردن الگوهای رفتاری درون وقایع ترافیکی بسیار ارزشمند است. این الگوها میتوانند در درک ما از رفتارهای ترافیکی، وابستگی وقایع و نقاط مختلف به یکدیگر تاثیر بسزایی داشته باشند. یکی از مهمترین کاربردهای این الگوها تشخیص حالات غیرعادی است. مخصوصا ما به سیستمی علاقمند هستیم که بسرعت و بصورت خودکار بتواند این حالات غیرعادی را از وقایع ترافیکی تشخیص دهد. در این مقاله، تمرکز ما بر مدلهای موضوع و نحوه استفاده از آنها جهت پیدا کردن الگوهای پنهان درون رکوردهای وقایع ترافیکی است. به خصوص ما از روش LDA2 که در اصل برای پردازش متن توسعه داده شده است [2]، برای مدل کردن وقایع استفاده میکنیم. سپس از خروجی این مدلها برای تشخیص حالات غیرعادی استفاده میکنیم. برای ارزیابی دقت مدلها نسبت به الگوهای واقعی ترافیک شهر تهران، نمودارهای مقدار شباهت لگاریتمی1 را برای ماهها و روزهای هفته رسم کردیم. الگوهایی که این نمودارها نشان میدهند شباهت بالایی با الگوهای واقعی ترافیک شهری دارد که این نشانگر کارکرد درست مدلها است. دقت طبقهبندی روش در تشخیص حالات غیرعادی با معیار 2AuROC، 0,97 محاسبه شد که نشاندهنده همگرایی روش برای دادههای استفاده شده است. شکل 1، نمودار روش پیشنهادی برای تشخیص حالات غیرعادی را نشان میدهد.
.2 مدلهای موضوع برای تشخیص رفتار غیرعادی
روشهای تشخیص رفتار غیرعادی به دو دسته با نظارت3 و بدون نظارت4تقسیم میشوند. در پردازشهای مربوط به دادههای حجیم برای استخراج الگوهای نهان در دادهها از پردازشهای بدون نظارت استفاده میشود. یکی از پرکاربردترین این روشها، روش K-Means است، که مجموعه دادهها را با توجه به شباهت گروههای دادههای نزدیک به هم تقسیمبندی میکند. با اینحال این روش و روشهای مشابه آن، که از میانگینگیری برای دستهبندی استفاده میکنند برای درک الگوهای پیچیده نهان در رفتارهای ترافیکی نامناسب و ابتدائی به شمار میآیند. ایده اصلی این مقاله استفاده از روشهای مدلکردن موضوع است. این دسته روشها معمولا برای پردازش متن به کار میآیند ولی با توصیف انواع دادههای دیگر به صورت متنی میتوان از این روش برای پردازش آنها استفاده نمود.روش-های مدلکردن موضوع با پردازش یک مجموعه از اسناد، موضوعات کلی درون اسناد را استخراج میکنند. همچنین برای هر سند یک توصیف موضوعی ارائه میدهند. یک توصیف موضوعی شامل مجموعه درصدهایی است که مدل برای توصیف هر سند با موضوعهای استخراج شده، محاسبه کرده است.
هر موضوع در واقع یک مجموعه از کلمات است که بیشتر از حد مشخصی، باهم درون متون استفاده شدهاند. این روشها که برای خلاصهسازی متنها مورد استفاده قرار میگرفتند مدت زیادی است مورد توجه متخصصان پردازش داده قرار گرفتهاند. پیشتر روشهای tf-idf1، LSA2 و Probabilistic LSA مطرح شده بودند.مدل پیشنهادی Hofmann اگرچه قدم بزرگ و مهمی بود اما ناقص بود. در واقع مدل Hofmann در سطح اسناد مدل احتمالی تولیدکنندهای ارائه نمیدهد و فقط به ارائه یکسری درصد برای اسناد بسنده میکند. یعنی با بزرگ شدن مجموعه اسناد، کار تولید این اعداد سختتر میشود و همچنین این روش راه حلی برای پردازش اسناد جدید ارائه نمیدهد . این خط فکری به ارائه روش LDA منجر شد. اولین بار در سال 2003، Blei و همکارانش روشی را ارائه دادند که یک مدل احتمالی تولیدگر میساخت که امکان پردازش داده-های خارج از اسناد اولیه را فراهم میساخت.[1] روش LDA با دو فرض سادهکننده همراه است. فرضا اول، فرض bag-of-word است که ترتیب قرار گرفتن کلمات داخل اسناد را نادیده میگیرید. فرض دوم این است که ترتیب اسناد نیز اهمیتی ندارند. این دو محدودیت پردازش دادهها را ساده میکند ولی دو محدودیت جدی در نحوه استفاده از این روش بوجود میآورد. روش LDA روند ساخته شدن اسناد را به این صورت فرض میکند که هر سند از ترکیبی از موضوعها ساخته شده است که هر موضوع یک مجموعه از لغات هستند که بهم مرتبط بوده و معمولا باهم درون متنها استفاده میشوند. کلمات درون هر سند در فرآیند زیر انتخاب میشوند :[2]
· یک مقداردهی اولیه اتفاقی برای مجموعه موضوعها انتخاب کن
· برای هر کلمه داخل سند
o یک موضوع از ترکیب موضوعها بصورت اتفاقی انتخاب کن
o یک کلمه اتفاقی از کلمات آن سند متناسب با ضریب کلمات انتخاب کن
روش LDA سعی میکند روند بالا را معکوس طی کند تا موضوعات پنهان اسناد را به دست آورد. [3] ابتدا با یک روش تخمینی ترکیبی از کلمات را به موضوعها و همچنین ترکیبی از موضوعها را به اسناد اختصاص میدهد . سپس اطلاعات کلمات و اسناد را با توجه به تعداد کلمات همموضوع درون یک سند و وزن آن موضوع برای آن سند و وزن آن کلمه برای موضوع فوق بروزرسانی میکند و سپس این روند درون یک حلقه به حد مناسب تکرار میشود تا جواب نهایی به دست آید. فرمول بندی ریاضی روش LDA در ادامه مطرح شده است. در یک مجموعه با سند با فرض اینکه k موضوع وجود دارد هر سند d توسط یک توصیف موضوعی از این k موضوع که با نماد نمایش داده میشود، مدل میشود. همچنین هر موضوع k توسط یک توزیع چندجمله ای روی یک دایره لغات که با نماد نشان داده میشود، توصیف میشود. برای هر سند d یک پارامتر از توزیع چندجمله از توزیع دیریکله3 به دست میآید. که a یک دیریکله اولیه برای اسناد است. برای هر کلمه در یک سند d یک موضوع با احتمال استخراج میشود و کلمه از توزیع چندجمله ای استخراج میشود. a و پارامترهای اضافهای4 هستند که برای به دست آوردن بهترین موضوعها باید بهینه شوند. با فرض معلوم بودن a و ، توزیع احتمال توأم توصیف موضوعی ، مجموعهN تایی از موضوعها z و مجموعه N تایی از کلمات w، به شکل زیر بیان میشود: