بخشی از مقاله
چکیده
چون میزان ترافیک دادهای در شبکهها به میزان قابل توجهی افزایش پیدا کردهاند، بنابراین تحقیقات بسیار زیادی در این زمینه وجود دارد که داده های ترافیکی را با هدف سبک اطلاعات مفید استخراج می کنند. به عنوان مثال بررسی های متعددی در خصوص کشف و شناسایی کرمهای اینترنتی انجام شده است البته با کشف الگوهای ترافیکی غیرعادی و ناهنجار.هر چند چون شبکه ترافیک داده ای حاوی اطلاعات در خصوص الگوهای کاربرد اینترنتی کاربران است. بنابراین حریم کاربران شبکه می تواند در طول فرآیند استخراج دستخوش خطر شود. در این مقاله ما یک روش مفید و کاربردی معرفی می کنیم که حریم کاربر را در طول استخراج الگوی تربیتی در شبکه ترافیک داده ای حفظ می کند. برای اینکه بتوانیم الگوهای تربیتی متناوب را بدون به خطر انداختن حریم کشف کنیم، از روش مدل سرور مخزن N استفاده می کند که به عنوان یک سرور استخراجی عمل میکند و همچنین به عنوان روش حفظ جایگزینی عمل میکند که پاسخ به احتمال کاوش و بررسی را تغییر میدهد. به علاوه روشها کل فرآیند استخراج را به وسیله حفظ جداول متا در هر سایت افزایش میدهد و تسریع میکند تا به سرعت تعیین کند که آیا الگوهای انتخابی تا کنون در سایت رخ دادهاند یا نه.آزمایشات گسترده انجام شده با شبکه ترافیک دادهای، صحت و کارآیی روش پیشنهادی را نشان داد.
کلمات کلیدی: داده کاوی، الگوهای ترتیبی، ترافیک شبکه، حریم
.1 مقدمه
تعداد کامپیوترهایی که به اینترنت متصل می شوند و اطلاعات و داده هایشان را از طریق اینترنت مبادله و جابه جا می کنند به صورت چشمگیری افزایش پیدا کرده است و این پیشرفت متعلق به پیشرفت و توسعه سریع تکنولوژی شبکه است. اخیراً، نوع و گونه ی جدیدی از استخراج اطلاعات به وجود آمده است که در این روش محققان اطلاعات و دانش مفید و مؤثری را از دادههای ترافیکی شبکهای استخراج میکنند که به صورت خودکار از طریق یک سرور از راه دور جمعآوری میشود .[6,12,15,19,27] تعیین و شناسایی الگوهای نفوذ شبکه ای و تمایز فعالیت شبکه ای غیرعادی از داده های ترافیکی شبکه ای طبیعی و عادی نمونههای معمولی و طبیعی هستند.
جدول 1 نمونهای از دادههای ترافیک شبکهای را نشان میدهد که به وسیله ethereal جمعآوری و گردآوری شده است.1 یک ردیف در جداول یک داده خاص ترافیک شبکهای را نشان می دهد و شامل آدرس منبع، پورت منبع، آدرس مقصد، پورت مقصد و استامپ زمان است. داده های ترافیک شبهای دربردارندهی ویژگی های زیر است. البته در مقایسه با دادههای دیگر. در ابتدا، داده های گوناگون و متفاوتی وجود دارند چون تمام کامپیوترهایی که به اینترنت متصل می شوند می توانند به صورت بالقوه دادههای ترافیک شبکهای تولید کنند. دوم، میزان بسیار بالایی از دادههای ترافیک شبکهای در نتیجه مبادلات پیوسته بین بسیاری از کامپیوترها در فرآیند ارسال و دریافت اطلاعات جمعآوری میشود.
سوم، داده های ترافیک شبکهای که باید تحلیل شوند معمولاً در مکانهای متعدد و گوناگونی پراکنده میشوند. روشهای گوناگونی از استخراج اطلاعات مثل قوانین پیوستگی[19] و دستهبندی[6] می تواند جهت تحلیل و پردازش دادههای ترافیک شبکهای به کار برده شود. هر چند استخراج رتبهای[12,15,27] و درجهای الگو مفیدترین و مؤثرترین روش است چرا که ترتیب وقایع و رخدادها مفهوم مهمی در اطلاعات و دادههای ترافیک شبکهای دارد. جدول 2 نمونهای از الگوهای رتبهای و درجهای در نظر گرفته شده را نشان می دهد که میتوانند از دادههای ترافیکی شبکهای کشف و دریافت شوند.
-2 اثرات مربوطه
استخراج درجه ای و رتبه ای الگو، الگوهای رخدادی مستمر و پیوسته را از پایگاههای اطلاعاتی کشف میکندSrikant .[1] و - 1 - : [28] Agrawal محدودیت های زمانی اضافه می شوند تا بدین وسیله یک دوره زمانی بیشینه و کمینه بین موارد مجاور تعیین کنند. - 2 - یک تعریف محکم از تعامل ارائه می شود تا بدین وسیله به الگو اجازه داده شود تا در دو تبادل مجاور امتداد پیدا کنند. - 3 - الگوهای رتبه ای و درجه ای می توانند حاوی این موارد در تمام سطوح کاربری باشند. همچنین آنها الگوریتم GSp را برای استخراج پیشنهاد و مطرح کرده اند مثل الگوهای رتبه ای کلی. طبق اثر و کارهای انجام شده Srikant ، پژوهش ها و بررسی های بسیاری جهت تعیین روش مفیدتر و کارآمدتر از کشف الگوهای رتبه ای و درجهبندی انجام شده است.[4,10,14,17,20,23]
یک روش معمول روش رشد الگو است که بر اساس مفهوم تقسیم و تسخیر و غلبه است.[10,23] این مورد به صورت معکوس یک پایگاه اطلاعات رتبهای در پایگاههای اطلاعاتی کوچکتر را نشان می دهد و الگوهای رتبهای و درجه ای را در هر پایگاه اطلاعاتی نمایش داده شده به وسیله کشف الگوهای محلی رشد میدهد و سپس نتایج نهایی را به وسیله ترکیب الگوهای پیوسته محلی به دست میآورد. Kum et al روشی به نام Approx map برای تقریب و تخمین استخراج الگوی رتبه ای و درجه ای مطرح کردند.[14] این روش از دسته بندی و گروه بندی به عنوان یک مرحله و گام بیش پردازشی استفاده میکند تا بدین وسیله بتواند روندهای مشابه را دستهبندی و گروهبندی کند و سپس الگوهای مربوطه را در هر دسته از طریق تنظیمات چندگانه استخراج کند.
مسئله مربوط به اعمال محدودیت های مختلف در استخراج الگوی رتبه ای و درجه ای در بخش [9,22] مطرح شده است. همچنین، مسئله مربوط به بروز رسانیهای اضافی در استخراج الگوی رتبهای و درجه ای هم در پردازش های دیگر مورد بررسی قرار گرفته است. [21,31] برای اینکه بتوانیم نتایج بی مفهومی که تولید می شوند را کاهش بدهیم، مفهوم الگوهای بسته پیوسته، مواردی که حاوی هیچ الگوی برتری با پشتیبانی یکسان نیستند[29] به همراه روش های کشف کارآمد معرفی شدند. Lee et al روشی را معرفی کردند که در آن استخراج الگوی رتبهای و درجهای در کشف نفوذ را به کار میبرند.[15]
-3 تعریف مسئله
داده های ترافیک شبکهای، معمولاً به وسیله برنامه کسب اطلاعات مثال Ethereal جمع آوری و گردآوری میشوند. همانطور که در جدول 1 نشان داده شده است. اطلاعات حاصله از Ethereal حاوی آدرس منبع، پورت منبع آن، آدرس مقصد، پورت مقصد و استامپ زمان میباشد. در این پایاننامه، ما برآنیم که الگوهای ترتیبی را پیدا کنیم، طبق آنچه در جدول 2 نشان دادهده است، بنابراین برآنیم که الگوهای ترتیبی را از داده های ترافیک شبکه ای بدون افشای اطلاعات و دادهها در هر سایت دریافت کنیم. در ابتدا، ما داده های ترافیک شبکه ای را در جدول 1 ساده می کنیم تا بدین وسیله آن ها را در جدول 3 تطبیق دهیم. نمونه موجود در جدول 3 داده های ترافیکی شبکه ای ارسالی/ دریافتی به وسیله سایت «180.1.1.1» را نشان میدهد در جایی که «out» حاکی از سایت ارسالی و «in» حاکی از سایت دریافتی است.
که اشاره می کنیم که جدول 1 حاوی اطلاعات پورت در داده های ترافیک شبکه ای است که جدول 3 حاوی آن نمیباشد. این نوع گونههای دادههای ترافیک شبکهای ممکن را با تسهیل آن ها کاهش میدهد، بنابراین احتمال حضور الگوهای پیوسته را به صورت چشمگیری افزایش میدهد. برای اینکه بتوانیم یک رابطه موقت بین وقایع در داده های ترافیک شبکه ای را پیدا کنیم، می توانیم روش های استخراج الگوی ترتیبی را [12,15,27] پس از ارائه چندین داده ترافیکی به عنوان یک مورد به کار ببریم. در این نقطه، حداکثر فاصله زمانی برای تصمیم گیری تنظیم می شود خواه دو زمان مجاور رابطه موقتی با معنی داشته باشند یا نه. - 1 - بدون چنین تنظیماتی، تعداد الگوهای ترتیبی که باید در نظر گرفته شود بسیار زیاد می شود. - 2 -
دشوار است که بگوییم که دو مورد مجاور که فاصله زمانیشان بسیار زیاد است رابطه متقابل دارند.در اینجا، محدودیتی اعمال میکنیم که دو مورد مجاور فاصله زمانی کمتر یا مساوی با ارزش MaxGap از پیش تعیین نشده دارد که باید مرتبط باهم در نظر گرفته شود.ما مسئله را به گونه ای تنظیم میکنیم که باید طبق زیر حل شود. سایت t را نظر بگیریم ٌT ,ٍTt ...,T حداکثر فاصله زمانی MaxGap، حداقل پشتیبانی MinSup، ما تمام الگوهای ترتیبی را کشف می کنیم که هر کدام حمایت و پشتیبانی بیش تر از MinSup دارند و فاصله زمانی بین هر جفت مورد مجاور مساوی یا کمتر از MaxGap دارد. تصور می شود که یک سایت داده های ترافیکی شبکه ای را به شکل جدول 3 ذخیره می کند اما آن ها را در دسترس عموم قرار نمی دهد.
یک پروسه استخراج باید شرایط را برای حفظ حریم در هر سایت فراهم کند. اجازه بدهید که یک سری سایت تعیین کنیم در جایی که ترافیک شبکه ای به عنوان E رخ داده است و یک سری دادههای ترافیک شبکهای به عنوان I رخ داده است. در فرآیند استخراج، یک عنصر e j در E باز می شودچون در فرآیند استخراج شرکت می کند. همچنین یک عنصر ik در I باز میشود چون یک ثبت ارتباطی است و باید در الگوی ترتیبی موجود باشد که ناشی از فرآیند استخراج است. هرچند یک جفت - - e j , ik که نشان می دهد که یک سایت e j متصل به ip آدرس ik شده است، نباید در فرآیند استخراج باز شود، به عنوان شرایطی برای حفظ حریم.
-4 روش پیشنهادی
در این بخش، ما یک روش کارآمد و کاربردی برای حل مسائل بحث شده در بخش پیشین مطرح میکنیم. ما در ابتدا کل فرآیند استخراج در بخش 4-1 را مطرح می کنیم و سپس فرآیند و پروسه را شرح می دهیم تا بدین وسیله الگوهای پیوسته طول 1 در بخش 4-2 را کشف کنیم. سپس پروسه و فرآیند را شرح می دهیم تا بدین وسیله الگوهای پیوستهای را دریافت کنیم که بلندتر و طویل تر از 1 در بخش 4-3 هستند. در آخر، در بخش 4-4، ساختار و کاربرد جداول متا را شرح میدهیم که در هر سایت حفظ شدند تا به سرعت تعیین کنیم که آیا الگوهای انتخابی تا کنون واقع شدهاند و رخ دادهاند یا نه.
4 .1 کل فرآیند استخراج
فرآیند استخراجی مطرح شده حاوی 4 مرحله است طبق آن چه در تصویر 1 نشان داده شده است. اولین مرحله از مدل سرور مخزن N استفاده می کند تا به صورت امن ٌF را کشف کند و همچنین روندهای 1 بزرگ را کشف کند. دومین مرحله