بخشی از مقاله

چکیده

یکی از چالش های اصلی در مدیریت شبکه های پرسرعت و بزرگ تشخیص ناهنجاری های شبکه است که این چالش منجر به طراحی سیستم های تشخیص نفوذ شده است. در سیستم های تشخیص نفوذ روشهای سواستفاده/ امضا روشهایی هستند که تشخیص نفوذ را با تطبیق یک نمونه با الگوهای نرمال و ناهنجار انجام میدهند و جز مسائل دسته-بندی محسوب میشوند. در سیستمهای تشخیص نفوذ بر پایه امضاء بطور معمول از یک الگوریتم دستهبندی جهت تشخیص مهاجم استفاده میشود.

الگوریتم نزدیکترین همسایه از روشهای مطرح و پر کاربرد دستهبندی و انتخاب مناسبی برای یک سیستم تشخیص نفوذ بر پایه امضاء میباشد. در یک سیستم تشخیص نفوذ با یک مجموعه داده نامتوازن روبرو هستیم بطوریکه تعداد الگوهای کاربران عادی بسیار بیشتر از الگوهای مهاجمان میباشد. در این مقاله یک الگوریتم یادگیری نوین برای بهبود کارایی الگوریتم نزدیکترین همسایه در کاربرد تشخیص نفوذ، به عنوان یک مساله نامتوازن پیشنهاد شده است.

.1 مقدمه

سیستم های تشخیص نفوذ به مؤلفه های استانداردی در زیرساخت امنیتی شبکه تبدیل شده اند زیرا آن ها امکان تشخیص نقض شدن سیاست های امنیتی را به وجود می آورند. اینگونه تخلف ها از رفتار مهاجم های خارجی که در تلاش برای به دست آوردن دسترسی غیر مجاز هستند تا افراد داخل سازمانی که از سطح دسترسی خود سوء استفاده می کنند تغییر می کند. سیستم های تشخیص نفوذ تمام فعالیت های ورودی و خروجی شبکه را بازرسی کرده و الگوهای مشکوک که ممکن است نشان دهنده ی حمله به شبکه یا سیستم توسط شخصی به منظور نفوذ یا تخریب باشند را شناسایی می نماید. این الگوی مشکوک می تواند شامل رفتار مهاجم های خارجی جهت نفوذ به شبکه و یا رفتار غیر مجاز کاربر داخلی باشد.

یکی ازروش های مطرحی که برای تشخیص نفوذ در شبکه های کامپیوتری به کار گرفته میشود ، تشخیص سوء استفاده / امضا1 است. این روش بیشتر با استفاده از ارزیابی حملات بر اساس شناسههای حمله2 و اثرات آن در شبکه فعالیت میکند. شناسههای حمله یا ویژگیهای حمله در واقع روشی است که مهاجم از آن برای حمله به سیستم استفاده میکند. برای مثال ، یک حمله از نوع TCP Flood با استفاده از تعداد بسیاری Session ناقص TCP کار خود را آغاز میکند . اگر سیستم تشخیص نفوذ بداند که حمله TCP Flood چگونه کار میکند ، میتواند ضمن تشخیص دادن این حمله، گزارش و یا عکس العمل مناسب را در برابر این حمله نشان بدهد. این ساختار را تا حد زیادی میتوانید با ساختار آنتی ویروسها مقایسه کنید .[1]

روشهای سواستفاده/ امضا که در بیشتر سیستمهای موفق تشخیص نفوذ به کار گرفته میشود روشهایی هستند که تشخیص نفوذ را با تطبیق یک نمونه با الگوهای نرمال و ناهنجار انجام میدهند و جز مسائل دستهبندی محسوب میشوند. مسائل دستهبندی یکی از روشهای یادگیری ماشین3 هستند که به تنظیم و اکتشاف شیوهها و الگوریتمهایی میپردازد که بر اساس آنها سیستم توانایی یادگیری پیدا میکند.دستهبندی4 علمی است که بر اساس خصیصهها و دسته نمونههای آموزشی5، برای نمونههای دیگری که دسته آنها شناخته شده نیست و آنها را نمونههای آزمایشی مینامیم، برچسب6 - دسته - پیدا میکند.الگوریتم نزدیکترین همسایه از روشهای مطرح و پر کاربرد دستهبندی میباشد و انتخاب مناسبی برای یک سیستم تشخیص نفوذ بر پایه امضاء می باشد.

نظر بر اینکه در یک سیستم تشخیص نفوذ با یک مجموعه داده نامتوازن7 روبرو هستیم بطوریکه تعداد الگوهای کاربران عادی بسیار بیشتر از الگوهای مهاجمان میباشد، در این مقاله یک راهکار جهت تطبیق الگوریتم نزدیکترین همسایه برای مسائل تشخیص نفوذ ارائه شده است. با توجه به اینکه اینگونه سیستمها جزء مسائل حساس به هزینه به حساب میآیند این راهکار برای مواقعی که هزینههای دستهبندی غلط در اختیار نمیباشد بسیار مفید است.

روشهای تشخیص نفوذ میتوانند بر اساس مدل کارایی و نمایش، معیار ترجیح و الگوریتمها از یکدیگر متمایز باشند .[2] عملکرد اصلی مدلی که ما به دنبال آن هستیم دستهبندی ترافیک به دستههای عادی و مخرب یا مشخص کردن نوع خاص حمله است .[3] کارایی الگوریتم نزدیکترین همسایه کاملاً وابسته به خصیصههای موجود و اهمیت هر یک از آنها است. از آنجا که در شکل ابتدایی، تاثیر همه ویژگیها در معیار فاصله یکسان است، بکارگیری خصیصههای نامرتبط و کم اهمیت منجر به کاهش قابل توجه کارایی میشود. بدیهی است که نرمالسازی سراسری، کمک چندانی به حل این مشکل نمیکند. الگوریتمهای بسیاری در جهت حل این مشکل ارائه شدهاند. برخی از این روشها سعی در تعیین اهمیت و ارزش هر ویژگی در معیار فاصله دارند. برخی دیگر به انتخاب زیرمجموعهای از خصیصههای مناسب میپردازند .[5][4]

در سال 2006 یک معیار فاصله وزندار به منظور بهینه سازی دقت دستهبندی و یک روش خودکار به منظور یاد گیری پارامترهای وزن ارائه شده است.[6] در الگوریتم ارائه شده پارامترهای وزن را میتوان برای هر دسته، خصیصه یا نمونه تعریف کرد. یادگیری بر اساس کمینه سازی - تقریبی - خطای دستهبندی بر روی دادههای آموزشی کار میکند. هدف این روش تعیین معیار فاصله به گونهای است که بهترین دقت در دستهبندی به دست آید.

در یک تحقیق دیگر در سال 2006 ، یک دستهبندی ساده تطبیق پذیر براساس مفهوم اطمینان آماری1 ارائه شده است .[7] این روش شامل یک معیار فاصله محلی برای یافتن نزدیکترین همسایه، یک شمای انتساب وزن به نمونهها میشود. معیار ارائه شده در مسائل دنیای واقعی نه تنها از روش ابتدایی نزدیکترین همسایه نتایج بهتری دارد، بلکه در مقایسه با روش SVM نتایج قابل قبولی تولید میکند. همچنین در سال 2006 با استفاده از خوشه بندی روشی برای یادگیری معیار فاصله پیشنهاد شده است .[8]

در سال 2008 یک الگوریتم انتخاب خصیصه ارائه گردیده است [9] ، که در آن یک مدل خاص همسایگی معرفی شده است. این مدل مناسب برای مسائلی است که با انتخاب زیرمجموعهای از خصیصههای ناهمگن سروکار دارند. الگوریتم WDNN که در [10] ارائه شده است سعی در افزایش دقت دسته بندی نزدیکترین همسایه با تعیین وزن هریک از نمونهها دارد. با داشتن هزینه دسته بندی اشتباه از هر دسته به هر دسته دیگر، این الگوریتم را می توان به حالت حساس به هزینه تعمیم داد. یعنی حالتی که در آن به جای تعداد دسته بندی اشتباه، هزینه دسته بندی کل دادههای آموزشی در حالت یک به یک کنارگذاری کاهش داده شود. علاوه بر این تعمیم، تغییر دیگری به منظور کاربردی کردن روش در داده کاوی مورد نیاز است.

در سال 2010 ، یک روش کاهش نمونه براساس الگوریتم WDNN پیشنهاد شده است . [11] در الگوریتم WDNN یک روش تطبیق معیار فاصله ارائه شده است که به هر نمونه آموزشی یک وزن اختصاص میدهد. این روش به طور همزمان میتواند به عنوان یک الگوریتم کاهش نمونه تلقی گردد. زیرا نمونههای آموزشی که وزن صفر دارند، به صورت مجازی از فضای خصیصه حذف میگردند. در تحقیقی دیگر در سال 2010 یک روش k نزدیکترین همسایه ارائه شده است که در آن به نمونهها و خصیصهها وزن اختصاص داده شده است .[12] الگوریتم پیشنهادی یک روش ترکیبی از انتخاب پویای نمونهها، وزن به نمونه، و وزن به خصیصهها میباشد.

در[13] با استفاده از دسته بند Knn سعی در دسته بندی داده ها در رایانش ابری دارد.در رایانش ابری روش های زیادی برای حفظ امنیت داده ها ارائه شده است که از آن آن جمله رمزنگاری دادهها میباشد. با توجه به اینکه رمزنگاری و از رمزخارج ساختن دادهها پر هزینه میباشد در این مقاله با استفاده از دسته بند نزدیکترین همسایه دادهها را به دو دسته محرمانه و غیر محرمانه تقسیم کرده و سپس سعی در رمزنگاری دادههای محرمانه دارد. ترکیب الگوریتم های دستهبندی برای مجموعه داده خاص مشکل است با این حال در [14] یک دستهبند مرکب جهت کار با مجموعه داده KDD99 پیشنهاد شده است. روش ارائه شده در این تحقیق ترکیبی از SVM و KNN میباشد.

.2 الگوریتم یادگیری وزن نمونههای آموزشی با افزایش f-measure

الگوریتم نزدیکترین همسایه از روشهای مطرح و پر کاربرد دستهبندی میباشد و انتخاب مناسبی برای یک سیستم تشخیص نفوذ میباشد. با توجه به اینکه دادههای سیستمهای تشخیص نفوذ نامتوازن میباشند دو دیدگاه در نظر گرفته شده است که در ادامه به بررسی آنها پرداخته میشود. قبل از پرداختن به تشریح الگوریتم تعاریف زیر را در نظر میگیریم.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید