بخشی از مقاله

چکیده

دادهها در هنگام جمع آوری، انتقال و یا ذخیره تحت تاثیر عواملی حاوی دادههای ناهنجار میشوند این دادهها، دادههای خام هستند. با پردازش روی دادههای خام میتوان به دانش کاربردی رسید. موضوعی که اهمیت بسزایی دارد این است که اگر دادهها شامل دادههای ناهنجار باشند از پردازش روی این دادهها نمیتوان به نتیجهی درستی رسید که دارای اعتبار لازم باشد تا بتوان از آنها در کاربردهای مورد نظر استفاده کرد، برای رسیدن به نتیجهدرست نیازمند تشخیص ناهنجاریها هستیم اگر ناهنجاریهای موجود تشخیص داده شوند و از دادهها حذف شوند، پردازش روی دادههای درست و واقعی انجام میشود و نتیجهی درستی حاصل خواهد شد.تشخیص ناهنجاری در کاربردهای متفاوتی مورد استفاده قرار میگیرد و یک روش کلی برای تشخیص ناهنجاری که در همهی کاربردها مورد استفاده قرار بگیرد وجود ندارد. روشهای تشخیص ناهنجاری متناسب با کار بردها و دادهها است در این مقاله با مطالعهی کلی، انواع روشهای تشخیص ناهنجاری شناسایی شد و مزایا و معایب روشها مورد بررسی دقیق قرار گرفت. این مطالب مفاهیم اولیه برای تشخیص ناهنجاری هستند و میتوان از این مفاهیم اولیه استفاده کرد و روشی برای تشخیص ناهنجاری در دادهها برای کابردهای مختلف ارائه داد.

کلمات کلیدی:تشخیص ناهنجاری، داده کاوی. روشهای تشخیص ناهنجاری آماری

-1 مقدمه

تشخیص ناهنجاری روندی برای پیدا کردن الگوهایی در یک مجموعه داده است که رفتار طبیعی مورد انتظار را ندارد. این رفتارهای غیرمنتظره ناهنجاری یا پرت نامیده میشوند. ناهنجاری همیشه نمیتواند بعنوان حمله منظور شود اما میتوان آن را یک رفتار غیرمنتظره دانست که قبلا ناشناخته بود این ناهنجاریها ممکن است مضر باشد یا نباشد در هر دو صورت نیازمند تشخیص ناهنجاری هستیم تشخیص ناهنجاری اطلاعات بسیار مهم و حیاتی را در کاربردهای مختلف در اختیار ما قرار میدهد .[1]روشهای تشخیص ناهنجاری در سالهای اخیر به دلیل اهمیت موضوع مورد بررسی دقیقی قرار گرفته و روشهایی هم برای کاربردهای مختلف ارائه شده است با بررسی مطالبهای موجود برای تشخیص ناهنجاری میتوان از دو منظر به آنها نگاه کرد. اول اینکه روشهای تشخیص ناهنجاری را از بعد داده کاوی1 در نظر بگیریم که دراین صورت روشهای موجود در سه دستهی نظارت شده2، نظارت نشده3 و نیمه نظارت شده 4 قرار میگیرند و دوم اینکه روشهای تشخیص ناهنجاری را از بعد آماری در نظر بگیریم که در این صورت روشهای موجود در دو دستهی پارامتری و ناپارامتری قرار میگیرند.

-2 تعریف مفاهیم اولیه

ناهنجاریها نقاط یا الگوهایی در مجموعه دادهها هستند که با رفتار مورد انتظار یا همان رفتار نرمال تفاوت دارند. علت و نمود یک ناهنجاری با توجه به دادهها و کاربردها تغییر میکند و هیچ تعریف دقیقی برای ناهنجاری وجود ندارد. تبدیل تعریف عام و انتزاعی یک ناهنجاری به یک تعریف دقیق که همه انواع ناهنجاریها را در برداشته باشد ممکن است بسیار دشوار باشد. تنها کاری که میتوان انجام داد طبقهبندی ناهنجاریها در سه گروه متفاوت، به شرح زیر است :[1]

.ناهنجاری نقطهای: یک ناهنجاری نقطهای یک نقطه داده است که خارج از مرز نواحی نرمال قرار میگیرد. از این رو با توجه به همهی نقطه دادههای دیگر میتوان آن را ناهنجار در نظر گرفت. برای مثال میتوان به دمای بالاتر از 50 درجه سانتیگراد در سوئد اشاره کرد.

.ناهنجاریهای زمینهای: یک ناهنجاری زمینهای یک نقطه داده است که در یک زمینهی خاص ناهنجار در نظر گرفته میشود اما در بقیه موارد این طور نیست. به منظور تعریف این زمینه باید دادهها را به طریقی سازماندهی کرد. به عنوان یک مثال رایج میتوان به سریهای زمانی اشاره کرد که در آن انتظار میرود نقاط نزدیک به هم در زمان رفتارهای مشابهی داشته باشند. به عنوان مثالی از ناهنجاریهای زمینهای میتوان به دمای خارجی 20 درجهی سانتیگراد در سوئد اشاره کرد.

.ناهنجاریهای جمعی: یک زیرمجموعه از نقاط داده مرتبط که میتوانند با توجه به تمام نقاط مجموعه ناهنجار در نظر گرفته شوند را ناهنجاری جمعی مینامند. به عنوان مثال میتوان به دمای خارجی و ثابت 16 درجه سانتیگراد - روز و شب - در طی ماه می اشاره کرد. اگرچه این دما به خودی خود در طی ماه می ناهنجار نیست.

-3 روشهای تشخیص ناهنجاری

در این بخش انواع روشهای تشخیص ناهنجاری و اساس کار هر روش اینکه به چه صورت به تشخیص ناهنجاری میپردازد بیان میشود و همچنین نقاط ضعف و قوت آنها مورد بررسی دقیق قرار میگیرد.

روشهای دادهکاوی

اکثر روشهای تشخیص ناهنجاری از روشهای دادهکاوی استفاده کردهاند روشهای دادهکاوی ابزارهای مناسبی برای کاوش در دادهها را فراهم میکند روشهای دادهکاوی برای تشخیص ناهنجاری را میتوان به بخشهای زیر دستهبندی کرد:

.روشهای مبتنی بر طبقه بندی5
.روشهای مبتنی بر نزدیکترین همسایه6
.روشهای مبتنی بر خوشه بندی7

روشهای مبتنی بر طبقهبندی
روشهای مبتنی بر طبقهبندی تلاش میکنند تا یک رکورد را به صورت مستقیم به دو دستهی نرمال یا ناهنجار تقسیمبندی کنند.مثالهایی از طبقهبندی کنندهها عبارتند از: شبکههای عصبی مصنوعی، شبکههای پرسپترون Feed-Forward، شبکههای بیزی، ماشینهای بردار پشتیبانی 8 و طبقهبندی کنندههای مبتنی بر قانون، که در آن قوانین میتوانند با استفاده از یادگیری ماشینی یا تخصص انسانی تنظیم شوند. طبقهبندی کنندهها از نوع روش نظارت شده هستند و بیشتر طبقهبندی کنندهها بر روی یک مجموعه داده، آماده میشوند که همهی رفتارهای نرمال ممکن را بدون دربرداشتن هیچ ناهنجاری ارائه میدهند. اگر رکوردهای جدید را نتوان در یکی از کلاسهای رفتار نرمال جای داد آنگاه به عنوان یک ناهنجاری طبقهبندی میشوند. یک طبقهبندی کننده همچنین میتواند با استفاده از یک مجموعه داده شامل رکوردهایی نرمال و ناهنجار برای ایجاد یک طبقهبندی کننده که قادر به دستهبندی دقیق و مستقیم رکورد ویژگی به عنوان نرمال یا ناهنجار است آموزش داده شود. اشکال اصلی این روشها این است که همگی به جز روش مبتنی بر قوانین، نیاز به مجموعه دادههای برچسب گذاری شدهی بزرگ دارند. چون این مجموعه دادههای برچسب گذاری شده اغلب نیاز دارند تا به صورت دستی ایجاد شوند وآنها اغلب ناموجود هستند ایجاد چنین مجموعه دادهای مشکل خواهد بود. در جدول - - 1 نقاط ضعف و نقاط قوت این روش بیان شده است.

روش مبتنی بر نزدیکترین همسایه

روشهای تشخیص ناهنجاری مبتنی بر تحلیل نزدیکترین همسایه بر این فرض استوار است که رکوردهای نرمال در همسایههای متراکم رخ میدهند، در حالی که ناهنجاریها دور از همسایگیهای آنها رخ میدهند.مهمترین موضوع که نیاز به حل و فصل دارد و یک چالش اساسی این روش محسوب میشود تعیین یک اندازه فاصلهی مناسب است. این تحلیل اغلب شامل تحلیل فاصله تا k همسایگیهای نزدیک یا تعداد رکوردها در یک فاصله خاص مانند d، از رکوردی است که باید آزمایش شود. این کار اغلب یک کار محاسباتی سنگین است و عملکرد آن به اندازهی فاصله بستگی دارد. تعریف اندازه فاصله هم یک کار چالش برانگیز است، به ویژه وقتی که دادهها بزرگ یا پیچیده باشند. در جدول - - 2 نقط ضعف و قوت این روش نشان داده شده است.

روش مبتنی بر خوشهبندی

خوشهبندی برای گروهبندی نمونه دادههای مشابه در خوشهها بکار میرود. خوشهبندی اساسا یک روش نظارتنشده است، ولی خوشهبندی نیمه نظارتی [2] نیز اخیرا کشف شده است. گرچه ظاهرا خوشهبندی و شناسایی ناهنجاری تفاوتهای بنیادی با یکدیگر دارند، چندین روش شناسایی ناهنجاری مبتنی بر خوشهبندی توسعه یافته است. روشهای شناسایی ناهنجاری مبتنی بر خوشهبندی را میتوان به سه دسته تقسیمبندی نمود:

.نمونه دادههای عادی متعلق به یک خوشه در دادهها هستند، در حالی که ناهنجاریها به هیچ خوشهای تعلق ندارند.

.نمونه دادههای عادی نزدیک به مرکز خوشه واقع شده اند، در حالی که ناهنجاریها دور از نزدیکترین خوشه مرکزی هستند.

.نمونه دادههای عادی متعلق به خوشههای بزرگ و متراکم هستند، در حالی که ناهنجاریها متعلق به دستههای کوچک یا کم تراکم هستند

روشهای تشخیص ناهنجاری مبتنی بر خوشه بندی، خوشههایی را برای نمونه دادههای نرمال تعریف میکند و رکوردهای جدید را با این این خوشهها مقایسه میکند روشهای خوشهبندی اغلب همانند تحلیل نزدیکترین همسایگی به اندازهی فاصله نیاز دارند، تفاوت اصلی بین این دو این است که در تحلیل خوشه یک رکورد با خوشههای مختلف مقایسه میشود و نه با هر خوشه ای. این امر تحلیل خوشه را در مرحلهی آموزش سریعتر میکند. در جدول - - 3 نقاط ضعف و نقاط قوت این روش بیان شده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید