بخشی از مقاله
چکیده
حملات صیاد با بکارگیري صفحات جعلی بدنبال بدست آوردن اطلاعات شخصی افراد است. نرخ رشد صفحات جعلی مدام درحال افزایش است و صیادان با استفاده از شیوههاي متفاوت به دنبال قانع کردن کاربران و سوق دادن آنها به این صفحات هستند. برخی شیوههاي تشخیص مبتنی بر لیست میباشد ولی بروز نگه داشتن لیست و مصرف زمان و حافظه براي آن دشوار است. شیوههاي متفاوتی براساس یادگیري ماشین براي برخورد با این گونه حملات وجود دارد که عموما داراي پیچیدگی زیاد و اجراي زمانبر هستند. استخراج شناسه از روي کلمات کلیدي و بررسی نتایج جستوجو در اینترنت یکی از روشهایی است که علیرغم دقت بالا، داراي کارایی بالایی نمیباشد.
طرح تشخیص پیشنهادي در این مقاله شامل سه فاز استخراج اطلاعات صفحه، تعیین شناسه صفحه و اصالتسنجی است. ابتدا بهترین لغات مبتنی بر فراوانی وزنی و فاصلهلِوِنياِشتاین از صفحات استخراج و سپس با استفاده از دسته قواعد، بهترین شناسهي صفحه مشخص میگردد و در نهایت شناسهي استخراجشده به موتور جستوجوي گوگل جهت تشخیص اصالت صفحه داده میشود. براي ارزیابی و مقایسهي طرح پیشنهادي با مقالهي پایه، آنها را بر روي یک سیستم با پردازندهي 7 هستهاي 64 بیتی با 8 گیگابایت فضاي حافظهي اصلی پیاده سازي و برروي مجموعه دادهي اصلی و جعلی از منبع Alexa و Phishtank آزمایش شده است.
نرخ تشخیص درست صفحات اصلی و جعلی بترتیب %97,2 و %99,31 بوده که نرخ تشخیص درست صفحات اصلی در حدود 4 درصد بهبود یافته است. از طرفی ، میانگین زمان اجرایی طرح پیشنهادي براي شناسایی 1500 صفحه 327 میلیثانیه است که حدود 20 برابر بهبود یافته است.
کلمات کلیدي تشخیص حملات صیاد، فاصلهي لوناشتاین، شناسهي صفحه، تشخیص هدف صیاد، موتور جستوجو.
مقدمه
امروزه استفاده افراد از اینترنت از اهمیت زیادي برخوردار است و کاربران متعددي براي فعالیتهاي مختلف روزمره شامل خرید و شبکههاي اجتماعی از آن استفاده مینمایند. از اینرو کلاهبرداران سعی دارند با در نظر گرفتن شیوههایی، افراد را به سمت سایتهاي جعلی سوق داده و سپس اطلاعات شخصی آنها را دریافت کنند. به عنوان مثال در شکل1 سایت جعلی که مربوط به یارانه میباشد بواسطهي پیام کوتاه براي افراد فرستاده شده تا با استفاده از آن اطلاعات شخصی افراد واکشی شود.
صفحهي جعلی مربوط به سامانه یارانه
به همین منظور سازمانهاي بسیاري مانند هر ساله گزارشاتی در رابطه با حملات صیاد ارائه میدهند که براساس گزارش فصل چهارم سال 2016 آن، تعداد صفحات تشخیصداده شده در این فصل برابر با 277693 عدد میباشد و میزان حملات صیاد 1 نسبت به سال 2015 به میزان 65 درصد افزایش داشته است. عموما طول عمر این صفحات نیز از یک تا دو روز میباشد ولی برخی از آنها تا چندین هفته باقی میمانند.
روشهایی متفاوتی براي تشخیص صفحات جعلی وجود دارد که داراي کمی و کاستیهایی است بر همین اساس براي مقابله با این مشکل ما از روش مبتنی بر موتور جستوجو استفاده کردیم. در این مقاله، طرح تشخیص شناسهي جدیدي که به صورت بلادرنگ، لغت شناسهي صفحه را با استفاده از مدلی که مبتنی بر فاصلهيولناِشتاین میباشد، ارائه شده تا بواسطهي آن بتوان هدف حملهکننده در صفحات جعلی را در بازهي زمانی کوتاه تشخیص داد.
منابع اصلی مورد استفاده در این مدل، لغات و ارتباطهاي موجود در صفحه میباشد. از جمله جنبههاي دیگر این طرح، تشخیص حملات صفر روزه و عدم محدودیت به صفحات انگلیسی زبان و مقیاسپذیري در مقابل صفحات داراي لغات و ارتباطهاي بسیار میباشد.ادامه مقاله شامل چهار بخش است که بترتیب به بازبینی مختصري از کارهاي انجام شده در این حوزه، معرفی طرح پیشنهادي، ارزیابی و بررسی و مقایسه نتایج آماري گرفته شده برروي صفحات، نتیجهگیري و کارهاي باقیمانده میباشد.
کارهاي مرتبط
رویکردهاي متفاوتی براي تشخیص صفحات جعلی مورد استفاده قرار گرفته است که از جملهي آنها میتوان به روش مبتنی بر لیست، یادگیريماشین، موتور جستوجو اشاره کرد.
تشخیص صیاد لیست محور
در این روش با بکارگیري لیستی از آدرس صفحات که توسط سازمانها ارائه میشود عملیات تشخیص صورت میپذیرد. مزیت این روش کم بودن میزان تشخیص نادرست صفحات اصلی و جعلی میباشد، ولی بروز نگه داشتن لیست و مصرف زمان و حافطه براي آن دشوار است. از جمله مشکلات این شیوه میتوان به عدم تشخیص صفحات صفر روزه اشاره کرد. دو شیوهي کلی بکارگیري لیست سیاه و سفید وجود دارد.
در لیست سیاه تمامی وبسایتهایی که به عنوان سایتهاي جعلی شناسایی شدهاند جمعآوري شده و کاربران بواسطهي تطبیق صفحهي مورد نظر خود با این لیست میتوانند ماهیت صفحه را تشخیص دهندبرخلاف روش لیست سیاه، در روش لیست سفید فهرستی از صفحات قانونی تهیه میشود و هر صفحهاي که در آن فهرست نباشد به عنوان صفحهي مشکوك شناسایی میگردد.
تشخیص صیاد مبتنی بر یادگیري ماشین
اساس کار این روش بر ویژگیهاي متمایزکننده بین صفحات اصلی و جعلی استوار میباشد. در نتیجه ساخت مجموعه دادهاي از ویژگیهاي صفحات، از اهمیت زیادي برخوردار است. بر همین اساس بایستی هر صفحه را با برداري از ویژگیها مشخص کرده سپس مدلهاي یادگیري ماشین را برروي این مجموعه داده آموزش داد. ویژگیهاي مورد استفاده براي ساخت مجموعه داده در روشهاي یادگیري ماشین با توجه به ارتباطات قسمتهاي مختلف صفحه استخراج میگردد. از جمله منابعی که براي استخراج ویژگی مورد استفاده قرار میگیرد میتوان به بخشهاي مربوط به آدرس اصلی صفحه مانند تعداد حروف موجود، تعداد لغات، وجود حروف غیرمرتبط و حتی ارتباط بخشهاي مربوط به آدرس داخلی صفحه را در نظر گرفت .
همچنین میتوان به ویژگیهایی دیگري مانند تعداد ارتباطات و درخواستهاي خروجی، وابستگی بین لغات و ارتباطات بین محتویات صفحه اشاره نمود. بر مبناي ارتباطات بین بخشهاي مختلف آدرس اصلی صفحه، مانند بخش مسیر و دامنهي اصلی، ویژگیهایی استخراج گردید که قابلیت تمییز بین صفحات را دارا میباشند. در، از فاصلهي لون اشتاین به عنوان روشی براي استخراج ویژگی که مبتنی بر فاصلهي لوناشتاین بین دامنهي اصلی ارتباطات موجود در صفحه و آدرس اصلی صفحه، استفاده شده است که کارایی و کارآمدي زیادي ندارد.
در فاز تشخیص نیز بایستی از مدلهاي متفاوتی استفاده کرد. در [24] مدل قاعده-محور MCAR ارائه شده که توانایی تشخیص صفحات جعلی را داراست. شیوههاي دیگري نیز امروزه مورد توجه قرار گرفته که از جملهي آنها میتوان به مدلهاي مربوط به شبکههاي عصبی و فازي اشاره کرد. معایب این مدلها، پیچیدگی زیاد و زمانبر بودن اجراي آن میباشد.
تشخیص صیاد جستوجو-محور
با توسعهي ارتباطات، خدمات اینترنتی مربوط به آن نیز از پیشرفت روبه رشدي برخوردار بوده است براي مثال با استفاده از برنامههاي کاربردي واسطی که شرکتهاي توسعهدهنده مانند گوگل و یاهو ارائه دادند باعث شد تا به راحتی بتوان بدون نیاز به هزینهي اضافی از ابزارهاي موجود ارائهشده بهره برد. در این روش ابتدا بایستی شناسهي مناسب از صفحه استخراج گردد که شناسه مربوطه میتواند تصویر، لغات، ارتباطات، یا بخشی از صفحه باشد. در از تصویر مربوط به لوگو به عنوان شناسهي صفحه استفاده شده است که براي استخراج لوگوي مورد نظر سربار زیادي به سیستم تحمیل میشود همچنین در برخی از حالات پاسخ مناسبی از موتور جستوجو نسبت به تصویر بدست نمیآید.
از ابزار OCR جهت خواندن متن ازروي تصویر براي استخراج شناسه استفاده کرده است که هم سربار زیادي به سیستم تحمیل میکند و هم در بسیاري از حالات تشخیص نادرست صورت میپذیرد. در با استفاده از لغات و ارتباطات موجود در صفحه، مدلی ارائه شد که با در نظر گرفتن اندازه لغات و سطوح مختلفی که لغت مورد نظر در ارتباط دارد، بهترین آنها به عنوان شناسه صفحه انتخاب میگردد. هرچه لغت شناسه در چپترین بخش از ارتباطات صفحه، ظاهر شود داراي اعتبار بالاتري میباشد علاوه بر آن به علت وابستگی مدل پیشنهادي به اندازهي لغات از براي حالات ترکیبی دامنه، سربار زیادي به سیستم اعمال میگردد، مخصوصا زمانی که محتویات صفحه مانند بسیار زیاد باشد.
از جمله معایب استفاده از شیوه براي مقابله با حالاتی که دامنهي صفحه ترکیبی از لغات مانند باشد. این روش باعث ایجاد سربار اضافی به سیستم میشود و از طرفی توانایی تشخیص سایتهایی با طول دامنه کوچک مانند را ندارد. در نویسنده براي بازیابی شناسه از فراوانی وزنی استفاده نمود، که در برخی از حالات لغت بازیابیشده جزء دستهي شناسه ها قرار نمیگیرد.در از ترکیب عنوان و دامنه به منظور شناسهي صفحه استفاده کرده که از جمله معایب آن میتوان به داشتن فرضهاي اضافی نویسنده، جعلی بودن صفحات بدون عنوان، کارایی کم در تشخیص صفحات جعلی به دلیل استفاده از دامنه، اشاره کرد. مقایسه اي بین بر اساس پیشینه، کارهاي مرتبط بیان شده است. چنانچه ملاحظه میشود هیچکدام از آنها نتوانسته اند تمام ویژگیهاي مطلوب را فراهم کنند.
طرح پیشنهادي
طرح پیشنهادي مبتنی بر میباشد که علاوه بر تشخیص درست شناسه، قابلیت بازیابی آن با کمترین زمان ممکن را دارا است. این طرح بر مبناي وابستگی بین لغات ظاهرشده با ارتباطات موجود در صفحه میباشد و با استفاده از موتور جستوجو، ماهیت صفحه مشخص میگردد.
نمودار فعالیت طرح پیشنهادي
طرح پیشنهادي شامل سه بخش اصلی است که در بخش اول استخراج اطلاعات صفحه که شامل بهترین لغات موجود در صفحه و استخراج ارتباطات موجود در آن و اعمال مدل پیشنهادي براي وزندهی بهترین لغات استخراجشده میباشد. بخش دوم انتخاب شناسه بر اساس لغات استخراجشده و در بخش سوم اصالت سنجی صفحه که با استفاده از شناسه به عنوان کلیدواژهي مربوط به موتور جستوجو صورت میپذیرد.
استخراج اطلاعات صفحه
ابتدا لغات صفحه از داخل بخشهاي متفاوت آن مانند ضمیمهمِتا، بدنه و عنوان استخراج میشود. پس از استخراج تمامی لغات، بایستی لغات داراي امتیاز بالا بر اساس فرمول به عنوان لغات نامزد انتخاب شود. همچنین ارتباطات مربوطه نیز از روي ویژگی src و href و link استخراج میگردد.