بخشی از مقاله
چکیده
داده کاوی به عنوان روشی برای پردازش و تحلیل داده به منظور کشف اطلاعات مفید و پنهان استفاده می شود. تشخیص داده های پرت یک روش زیر مجموعه از داده کاوی برای نقاط داده ای است که به شکل مشخصی از بقیه مجموعه داده منحرف شدهاند. دلایل بسیار زیادی مانند خطاهای انسانی یا تجهیزات، نویز یا تغییر رفتار سیستم باعث بوجود آمدن داده های پرت می شود.
مجموعه داده هایی که بر اساس توزیع پواسون می باشند یکی از مجموعه داده هایی هستند که کاربرد های بسیاری مانند شبکه های کامپیوتری و یا اینترنت بر اساس آنها می باشند و باید تحلیل شوند. داده های پرت مشروط داده هایی هستند که نسبت به بقیه مجموعه داده در یک قسمت مشخص منحرف شدهاند. روش معرفی شده بر اساس تشخیص روند داده در یک مجموعه داده و ساخت چند زیر مجموعه جدید به منظور تشخیص داده های پرت مشروط کار می کند. افزایش صحت و اطمینان به نتایج، اهداف روش پیشنهادی میباشد . روش پیشنهادی با روش HAMPELدرجهت ارزیابی کارایی در یک شبکه موردی شبیه سازی شده مقایسه شده است.
.1 مقدمه
تحلیل رفتار شبکه یکی از عناوین اصلی در نظارت شبکه و کشف رفتار های غیر طبیعی که به عنوان مشکلات اجرایی شناخته می شوند است. انواع مختلفی از شبکه وجود دارد که شامل وضعیت های غیر طبیعی یا حملات امنیتی است که باید در جهت افزایش کارایی بررسی شوند. برای آنالیز این رفتار، داده های جمع آوری شده از شبکه باید تحلیل شوند و اطلاعات کاربردی برای تشخیص شرایط غیر عادی استخراج شود.
جریان های داده گلوگاه هایی هستند که تحلیل آنها می تواند منجر به استخراج داده های کاربردی شود. هر چند که تحلیل عمقی بسته ها یک روش کاربردی در این مورد است، این روش دارای مشکلات مرتبط با تجاوز به حریم خصوصی1 می باشد.
جریان های داده 2 می تواند توسط عوامل خارجی مثل حملات امنیتی نویز گره های متحرک و مرگ گره دستکاری شوند. توزیع پواسون3 یکی از رفتار های رایج جریان های داده در شبکه های کامپیوتری است.
مجموعه داده هایی با توزیع پواسون شامل تعداد زیادی پرش های کوچک غیر دوره ای و تغییر روند های غیر مهم کوچک است که این مجموعه داده را برای تحلیل و تشخیص رفتار سخت می کند. روند های داده مختلفی در یک مجموعه داده وجود دارد که هر زیر مجموع داده یکی از آنها را دنبال می کند. به طور عمومی یک روند یک شکل از تغییر تدریجی یک سری داده در یک طول دوره زمانی است.
روند داده می تواند به صورت صعودی نزولی یا خطی باشد. هر چند هر قسمتی از داده دارای یک روند4 بخصوص است، پیدا کردن این روند یک چالش مهم است که باید حل شود. برای تشخیص رفتار یک روند در یک مجموعه داده ما احتیاج به گذراندن دو مرحله داریم. قدم اول تشخیص مرز بین روند های غالب برای تقسیم یک مجموعه داده به زیر مجموعه هایی با روند های یکسان است. یک روند غالب یک الگو از یک داده است که یک زیر مجموعه در یک دوره زمانی خاصی آن را دنبال می کند.
ارزیابی روند داده می تواند رفتار داده را در طول زمان ترسیم کند. قدم دوم تشخیص رفتار داده در هر زیر مجموعه است که برای تشخیص رفتار شبکه در یک بازه زمانی خاص استفاده می شود. در میان قدم اول و دوم تشخیص داده های پرت می تواند به استخراج دقیقتر و قابل اعتماد تر اطلاعات در قدم دوم کمک کند. داده های پرت داده هایی هستند که نمی توانند در غالب روند داده ها قرار بگیرند بدلیل اینکه از الگوی داده منحرف گشته اند.
یک داده پرت باید یک داده باشد که بوسیله یک اتفاق خاص و نه تنها بر اساس شانس ایجاد شده باشد. با حذف و یا تصحیح داده های پرت یک قسمت از مجموعه داده وجود خواهد داشت که یک روند غالب را دنبال می کند و این روند کاملا واضح و قابل تشخیص است. در یک مجموعه داده با توزیع پواسون پرش های کوچک، دلایل اصلی پنهان کردن روند های غالب برای تشخیص هستند. هر شبکه کامپیوتری باید منابعی را برای تحلیل و نظارت شبکه مصرف کند. هر چند که نظارت بر شبکه یک مساله فرعی در شبکه می باشد در خیلی از موارد در شبکه های حسگر و اینترنت اشیا منابع محدودی برای این مساله در نظر گرفته شده است.
بنابراین احتیاج مبرم به روش هایی است که احتیاج به منابع کمی برای نظارت به شبکه دارند. در روش پیشنهادی ما از روش LSTCP برای تقسیم یک مجموعه داده به زیر مجموعه هایی با روند های غالب استفاده کرده ایم. بعد از تقسیم، هر قسمت می تواند به عنوان یک زیر مجموعه برای تشخیص داده های پرت مشروط استفاده شود. بر اساس ترکیب کردن روشLSTCP و متد پیشنهادی برای تشخیص داده های پرت، داده ارزیابی خواهد شد و هر نقطه در داده یک ارزش به دست خواهد آورد که برای تشخیص پرت بودن داده استفاده می شود.
با در نظر گرفتن اینکه کل مجموعه داده به زیر مجموعه های کوچکتر تقسیم می شود مرتبه زمانی بهبود خواهد یافت. همچنین صحت روش با در نظر گرفتن اینکه داده ها مشروط در نظر گرفته می شوند افزایش خواهد یافت. مدل بررسی شده پیشنهادی تاخیر نقطه به نقطه در شبکه های بیسیم موردی می باشد که برای نظارت بر شبکه و تشخیص شرایط غیر طبیعی سودمند است. بدلیل اینکه پردازش صف، مکان دقیق داده های پرت را تحت تاثیر قرار می دهد، ما چند داده را با داده های پرت بعد از ایجاد داده جایگزین کرده ایم تا بتوان روش پیشنهادی را ارزیابی کرد.
روش پیشنهادی برای ایجاد داده های پرت در قسمت ارزیابی کارایی بررسی خواهد شد. با استفاده از این روش، داده ها تحلیل شده و داده های پرت از بین خواهند رفت که یک مجموعه داده جدید را بوجود می آورد که توانایی دارد به عنوان یک داده ورودی برای روش های تشخیص رفتار شبکه استفاده شود. در قسمت 2 روش های مرتبط بررسی خواهد شد. در قسمت 3 روش پیشنهادی معرفی می شود و در قسمت 4 کارایی آن مورد بررسی قرار خواهد گرفت. قسمت 5 مربوط به نتیجه گیری و کارهای آینده خواهد بود.
.2 روش های مرتبط
در طول دهه گذشته پردازش داده و روش های آن تغییر کرده است.
عوامل زیادی مانند ترافیک شبکه در شبکه های حسگر جریان های داده را بوجود می آورند.
به طور عمومی یک جریان داده یک سری داده یا بسته هستند که در طول یک دوره زمانی در حال انتقال هستند. کاربردهای زیادی هستند که احتیاج به پردازش جریان های داده دارند مانند داده کاوی 8[9]بهینه سازی[10] 9 مدیریت منابع[11, 12] 10داده های بزرگ[13]11 .تشخیص داده های پرت یک روش مفید برای پردازش جریان های داده بوده است.
اخیرا یک بررسی کامل بر روی روش های تشخیص داده های پرت کرده اند. در [16] نویسندگان یک روش تشخیص داده های پرت معرفی کرده اند که برای اساس فاصله در جریان های داده می باشد. در >17@ ، نویسندگان از یک روش مبتنی بر رگرسیون استفاده کرده اندکه مبتنی بر فاصله داده و داده پیش بینی شده است. همچنین بعضی روش ها مانند k-means، برای تشخیص استفاده کرده اند.علاوه بر این روش هایی مانند [19] از روش های داده کاوی و آماری به صورت ترکیبی استفاده کرده اند. در[20] نویسندگان از روش خوشه بندی12 برای تشخیص مشکلات دوره ای استفاده کرده اند
Eamonn Keogh et al یک تکنیک معرفی کرده اند که برای تشخیص الگوهای مشکل دار از مقایسه تناوب الگوها با چیزی که انتظار دارند استفاده کرده اند. در[22] روشی معرفی شده است که از میانه برای تشخیص داده های غیر عمومی در سری زمانی ها استفاده کرده است و مدل پیشنهادی آنها داده های حسگر هواپیما بوده است. همچنین در[23] نویسندگان یک روش رگرسیون اتوماتیک را برای استنتاج داده با استفاده از داده های محیط و بر اساس شبکه های بیزین استفاده طراحی کرده اند
در [24] داده های پرت را در محدوده داده های بر خط که توسط شبکه های حسگر بیسیم ایجاد می شدند میتوان تشخیص داد.در [25] نویسندگان یک روش مشابه اندازه گیری را برای تشخیص درجه تغییر بر توپولوژی شبکه استفاده کردند که بر اساس سری زمانی13 بوده است.