بخشی از مقاله

چکیده

توسعه سریع بازار کسب و کار و دیگر سیستم های معامله گر بر روی اینترنت باعث شده که امروزه امنیت کامپیوتر یک مسئله حیاتی شود. در سالهای اخیر، داده کاوی و یادگیری ماشین در محدوده ی گسترده ای مورد تحقیق قرار گرفته اند تا تشخیص نفوذ را با دقت بالا و به صورت طبقه بندی شده انجام دهند. که این کار باعث تشخیص دقیق تر و سریعتر نفوذگران می شود. نفوذ گران با استفاده مکرر از دستورات خاص به دنبال راههای نفوذ در شبکه هستند.تعداد تکرار این دستورات باعث می گردد که داده های مر تبط با نفوذ مرتبا فراخوانی و استفاده گردد.

با استفاده از شناخت درخواستهای سایت می توان راهکارهایی برای سیستم تشخیص نفوذ ارائه داد.یکی از روشهای متدوال برای شناخت درخواستهای متدوال از درخواستهای نفوذگر ،استفاده از روش خوشه بندی است. خوشه بندی با رویکرد داده کاوی با کاوش در داده ها سعی در شناخت درخواستهای غیر متداول و در خواستهای نفوذ می نماید.

در سالهای اخیر ارائه روشهای مختلف خوشه بندی و ترکیب آن با روشهای مختلف هوش مصنوعی ، الگوریتمهایی موثری را برای تشخیص نفوذ ارائه داده است.این مقاله به بررسی الگوریتمها ی خوشه بندی در تشخیص نفوذ می پردازد.و سعی دارد از گذشته و سیر تکاملی آن پیشنهاداتی برای تحقیقات آتی فراهم نماید.

مقدمه :

مقاله حاضر به دنبال ارائه پیشنهادات تحقیقاتی است که جهت تکمیل و بهبود و یا ارائه روشهای جدید برای سیستم تشخیص نفوذ بکار می رود.خوشه بندی یکی از روش های متداول برای تشخیص نفوذ است .

این روش با خوشه بندی داده ها ،داده های از یک نوع را در یک خوشه قرار می دهد.در خواستهای سایت می تواند به عنوان داده های یک سیستم خوشه بندی در نظر گرفته شوند.درخواستهای یک سایت می تواند متداول باشد که در آن صورت نفوذی صورت نگرفته است.و اگر درخواستها سایت غیر متداول باشد. آنگاه نفوذ صورت گرفته است. به وسیله خوشه بندی درخواستهای سایت به دو نوع متداول و غیر متداول تقسیم می گردد .

خوشه درخواستهای غیر متداول در صورت وجود بیانگر نفوذ و نوع و چگونگی نفوذ و سایر اطلاعات نفوذ می باشد.نوع عملکرد خوشه بندی درخواستها از چند نظر مورد بحث است.اول اینکه تا چه احتمالی روش دقت و عملکرد مناسبی برای تشخیص نفوذ ارائه می دهد. ثانیا سرعت اجرای روش و پیچیدگی روش مورد بحث قرار می گیرد.جهت مقایسه روشها چندین شاخص رایج مطرح است که روشها توسط آن مقایسه می گردند.در ضمن برای مقایسه روشها می توان از شبیه سازی روشها با داده های یکسان و مطمئن بهره جست.

در مقالات مختلف از بانک اطلاعاتی اماده KDD99 استفاده شده است.این بانک حاوی درخواستها مختلف به یک سایت است که نوع درخواستها و اطلاعات آن مشخص شده است.و در ضمن وضعیت نفوذ پذیری نسبت به درخواستها آمده است.تقریبا استفاده از این بانک آماده به صورت استاندارد برای مقایسه روشهای تشخیص نفوذ رایج شده است.

-1 معرفی سیستم تشخیص نفوذ:

نفوذ به مجموعه عملیاتی اطلاق می شود که تلاش می کند برای دسترسی غیر مجاز به شبکه یا سیستم های کامپیوتری از مکانیزم امنیتی سیستم عبور کند. نفوذگرها معمولا از عیوب نرم افزاری ،شکستن نرم افزار ،استراق سمع ،ترافیک شبکه و نقاط ضعف طراحی در شبکه سرویس ها و یا کامپیوترهای شبکه برای نفوذ سیستم ها و شبکه کامپیوتری بهره می برند.

-2 انواع روشهای تشخیص نفوذ:

روشهای تشخیص نفوذ به دو دسته تقسیم می شوند :روش تشخیص رفتار غیر عادی ،روش تشخیص سوءاستفاده

الف - - روش تشخیص رفتار غیر عادی:

روش های تشخیص رفتار غیر عادی بر اساس رفتار عادی سیستم بنا می شود..برای تشخیص رفتار غیر عادی ،باید رفتار عادی شناسایی شود و الگوها و قواعد حاکم بر آن را کشف نمود.رفتارهایی که از این الگو پیروی می کنند رفتار عادی هستند

.رویدادهایی که از لحاظ آماری خارج از الگو باشند مشکوک به نفوذ شناخته می شوند.

ب - - روش تشخیص سوءاستفاده یا تشخیص مبتنی بر امضا ء

در این تکنیک که معمولا به نام تشخیص مبتنی بر امضا شناخته می شود.الگوهای نفوذ از پیش ساخته - امضا - به صورت قانون نگهداری می شوند.به طوری که هر الگو انواع متفاوتی از نفوذ را در بر می گیرد.در صورت بروز چنین الگویی سیستم ،وقوع نفوذ را اعلام می دارد..

در این روش ها معمولا تشخیص دهنده دارای پایگاه داده ای از امضاها یا الگوهای حمله است و سعی می کند با بررسی ترافیک شبکه و الگوهای مشابه آن با آن را در پایگاه داده خود پیدا کند.این روش نفوذهای جدید در شبکه را نمی شناسد.و همچنان باید مدیر شبکه الگوی جدید حملات را به سیستم تشخیص نفوذ اضافه نماید.از مزایای این روش دقت در تشخیص نفوذهایی است که الگوی آنها عینا به سیستم داده شده است.

-3 خوشه بندی:

خوشه بندی یکی از تکنیکهای داده کاوی برای خوشه بندی کردن داده ها با شاخص های فاصله می باشد.در خوشه بندی بر خلاف طبقه بندی داده ها در گروهی قرار می گیرند که از قبل مبنای اختلاف آنها مشخص نیست.تحلیل خوشه ای به عنوان شاخه ای از آمار مورد مطالعه قرار دارد و بر گروه بندی داده های را براساس فاصله آنها تمرکز دارد.خوشه بندی در اصل یادگیری به وسیله مشاهدات است زیرا روی دسته های خاص یا ویژگی خاصی تاکید ندارد.انواع روشهای خوشه بندی می توان روش خوشه بندی افرازی،خوشه بندی سلسله مراتبی ، خوشه بندی مبتنی بر چگالی ،خوشه بندی مبتنی بر مشبکه کردن فضا و نقشه های خود سازمانده را نام برد.

الف - - خوشه بندی افرازی:

در روش افرازی با تعداد داده های معلوم ،یک افراز ابتدایی ایجاد می گرددو سپس یک روش جابجایی تکراری را بکار برده که تلاش به بهبود افراز بندی دارد.به این صورت که اشیا را از یک گروه به دیگر گروهها می برد..یک معیار عمومی برای افراز بندی خوب آن است که اشیا در خوشه های مختلف به هم نزدیک یا به یکدیگر وابسته باشند.و در مقابل اشیا در خوشه های مختلف از یکدیگر دور یا تا حد امکان متفاوت باشند.الگوریتم های هیوریستیک kmeans,k-medoids برای این منظور استفاده می شود.

این روشها برای پایگاه داده کوچک و متوسط به خوبی کار می کنداما برای یافتن خوشه هایی با اشکال پیچیده و یا دارای مجموعه داده های بزرگ باید توسعه داده شوند.الگوریتم CLARA برای پایگاه داده بزرگ بکار می رود.این روش که قابل ارزیابی نیست زیرا نمونه های به طور تصادفی انتخاب می شوند.پیچیدگی محاسبات از مرتبه اشیا می باشد.و به صورت چند جمله بیان می گردد که پیچیدگی خوبی محسوب می شود. این روش نمونه های تصادفی از پایگاه داده را بر می دارد و از الگوریتم PAM - اولین الگوریتم متداول - K-MEDOID - را روی هر نمونه اجرا می کند و ان نمونه را خوشه بندی می نماید. سپس عناصر باقیمانده پایگاه داده را به نزدیکترین خوشه تخصیص می دهد.

ب - -خوشه بندی سلسله مراتبی:

خوشه بندی به صورت تجمیعی یا تقسیمی انجام می دهد.این روش رویکرد پایین به بالا نیز گفته می شود.با شکل دهی گروه های مجزا که هر یک شامل حداقل یک شی می باشد ،شروع می گردد.سپس اشیا یا گروه های نزدیک به هم را یکی می کند تا در نهایت یک گره کلی در بالاترین سطح ایجاد می شود.در روش تقسیمی کل اشیا در یک خوشه در نظر گرفته می شودو در هر تکرار یک خوشه به دو خوشه کوچکتر تقسیم می شود.از الگوریتمهای این روش می توان از AGNESS,DIANA نام برد. پیچیدگی DIANA نسبت به AGNESS زیاد است و به صرفه نیست.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید