مقاله تشخیص وبسایت های صیاد با استفاده از فاصله لِوِن اِشتاین فراوان ترین کلمات با دامنه صفحه

فایل pdf

6 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده

حملات صیاد با بکارگیري صفحات جعلی بدنبال بدست آوردن اطلاعات شخصی افراد است. نرخ رشد صفحات جعلی مدام درحال افزایش است و صیادان با استفاده از شیوههاي متفاوت به دنبال قانع کردن کاربران و سوق دادن آنها به این صفحات هستند. برخی شیوههاي تشخیص مبتنی بر لیست میباشد ولی بروز نگه داشتن لیست و مصرف زمان و حافظه براي آن دشوار است. شیوههاي متفاوتی براساس یادگیري ماشین براي برخورد با این گونه حملات وجود دارد که عموما داراي پیچیدگی زیاد و اجراي زمانبر هستند. استخراج شناسه از روي کلمات کلیدي و بررسی نتایج جستوجو در اینترنت یکی از روشهایی است که علیرغم دقت بالا، داراي کارایی بالایی نمیباشد.

طرح تشخیص پیشنهادي در این مقاله شامل سه فاز استخراج اطلاعات صفحه، تعیین شناسه صفحه و اصالتسنجی است. ابتدا بهترین لغات مبتنی بر فراوانی وزنی و فاصلهلِوِنياِشتاین از صفحات استخراج و سپس با استفاده از دسته قواعد، بهترین شناسهي صفحه مشخص میگردد و در نهایت شناسهي استخراجشده به موتور جستوجوي گوگل جهت تشخیص اصالت صفحه داده میشود. براي ارزیابی و مقایسهي طرح پیشنهادي با مقالهي پایه، آنها را بر روي یک سیستم با پردازندهي 7 هستهاي 64 بیتی با 8 گیگابایت فضاي حافظهي اصلی پیاده سازي و برروي مجموعه دادهي اصلی و جعلی از منبع Alexa و Phishtank آزمایش شده است.

نرخ تشخیص درست صفحات اصلی و جعلی بترتیب %97,2 و %99,31 بوده که نرخ تشخیص درست صفحات اصلی در حدود 4 درصد بهبود یافته است. از طرفی ، میانگین زمان اجرایی طرح پیشنهادي براي شناسایی 1500 صفحه 327 میلیثانیه است که حدود 20 برابر بهبود یافته است.

کلمات کلیدي تشخیص حملات صیاد، فاصلهي لوناشتاین، شناسهي صفحه، تشخیص هدف صیاد، موتور جستوجو.

مقدمه

امروزه استفاده افراد از اینترنت از اهمیت زیادي برخوردار است و کاربران متعددي براي فعالیتهاي مختلف روزمره شامل خرید و شبکههاي اجتماعی از آن استفاده مینمایند. از اینرو کلاهبرداران سعی دارند با در نظر گرفتن شیوههایی، افراد را به سمت سایتهاي جعلی سوق داده و سپس اطلاعات شخصی آنها را دریافت کنند. به عنوان مثال در شکل1 سایت جعلی که مربوط به یارانه میباشد بواسطهي پیام کوتاه براي افراد فرستاده شده تا با استفاده از آن اطلاعات شخصی افراد واکشی شود.

صفحهي جعلی مربوط به سامانه یارانه

به همین منظور سازمانهاي بسیاري مانند هر ساله گزارشاتی در رابطه با حملات صیاد ارائه میدهند که براساس گزارش فصل چهارم سال 2016 آن، تعداد صفحات تشخیصداده شده در این فصل برابر با 277693 عدد میباشد و میزان حملات صیاد 1 نسبت به سال 2015 به میزان 65 درصد افزایش داشته است. عموما طول عمر این صفحات نیز از یک تا دو روز میباشد ولی برخی از آنها تا چندین هفته باقی میمانند.

روشهایی متفاوتی براي تشخیص صفحات جعلی وجود دارد که داراي کمی و کاستیهایی است بر همین اساس براي مقابله با این مشکل ما از روش مبتنی بر موتور جستوجو استفاده کردیم. در این مقاله، طرح تشخیص شناسهي جدیدي که به صورت بلادرنگ، لغت شناسهي صفحه را با استفاده از مدلی که مبتنی بر فاصلهيولناِشتاین میباشد، ارائه شده تا بواسطهي آن بتوان هدف حملهکننده در صفحات جعلی را در بازهي زمانی کوتاه تشخیص داد.

منابع اصلی مورد استفاده در این مدل، لغات و ارتباطهاي موجود در صفحه میباشد. از جمله جنبههاي دیگر این طرح، تشخیص حملات صفر روزه و عدم محدودیت به صفحات انگلیسی زبان و مقیاسپذیري در مقابل صفحات داراي لغات و ارتباطهاي بسیار میباشد.ادامه مقاله شامل چهار بخش است که بترتیب به بازبینی مختصري از کارهاي انجام شده در این حوزه، معرفی طرح پیشنهادي، ارزیابی و بررسی و مقایسه نتایج آماري گرفته شده برروي صفحات، نتیجهگیري و کارهاي باقیمانده میباشد.

کارهاي مرتبط

رویکردهاي متفاوتی براي تشخیص صفحات جعلی مورد استفاده قرار گرفته است که از جملهي آنها میتوان به روش مبتنی بر لیست، یادگیريماشین، موتور جستوجو اشاره کرد.

تشخیص صیاد لیست محور

در این روش با بکارگیري لیستی از آدرس صفحات که توسط سازمانها ارائه میشود عملیات تشخیص صورت میپذیرد. مزیت این روش کم بودن میزان تشخیص نادرست صفحات اصلی و جعلی میباشد، ولی بروز نگه داشتن لیست و مصرف زمان و حافطه براي آن دشوار است. از جمله مشکلات این شیوه میتوان به عدم تشخیص صفحات صفر روزه اشاره کرد. دو شیوهي کلی بکارگیري لیست سیاه و سفید وجود دارد.

در لیست سیاه تمامی وبسایتهایی که به عنوان سایتهاي جعلی شناسایی شدهاند جمعآوري شده و کاربران بواسطهي تطبیق صفحهي مورد نظر خود با این لیست میتوانند ماهیت صفحه را تشخیص دهندبرخلاف روش لیست سیاه، در روش لیست سفید فهرستی از صفحات قانونی تهیه میشود و هر صفحهاي که در آن فهرست نباشد به عنوان صفحهي مشکوك شناسایی میگردد.

تشخیص صیاد مبتنی بر یادگیري ماشین

اساس کار این روش بر ویژگیهاي متمایزکننده بین صفحات اصلی و جعلی استوار میباشد. در نتیجه ساخت مجموعه دادهاي از ویژگیهاي صفحات، از اهمیت زیادي برخوردار است. بر همین اساس بایستی هر صفحه را با برداري از ویژگیها مشخص کرده سپس مدلهاي یادگیري ماشین را برروي این مجموعه داده آموزش داد. ویژگیهاي مورد استفاده براي ساخت مجموعه داده در روشهاي یادگیري ماشین با توجه به ارتباطات قسمتهاي مختلف صفحه استخراج میگردد. از جمله منابعی که براي استخراج ویژگی مورد استفاده قرار میگیرد میتوان به بخشهاي مربوط به آدرس اصلی صفحه مانند تعداد حروف موجود، تعداد لغات، وجود حروف غیرمرتبط و حتی ارتباط بخشهاي مربوط به آدرس داخلی صفحه را در نظر گرفت .

همچنین میتوان به ویژگیهایی دیگري مانند تعداد ارتباطات و درخواستهاي خروجی، وابستگی بین لغات و ارتباطات بین محتویات صفحه اشاره نمود. بر مبناي ارتباطات بین بخشهاي مختلف آدرس اصلی صفحه، مانند بخش مسیر و دامنهي اصلی، ویژگیهایی استخراج گردید که قابلیت تمییز بین صفحات را دارا میباشند. در، از فاصلهي لون اشتاین به عنوان روشی براي استخراج ویژگی که مبتنی بر فاصلهي لوناشتاین بین دامنهي اصلی ارتباطات موجود در صفحه و آدرس اصلی صفحه، استفاده شده است که کارایی و کارآمدي زیادي ندارد.

در فاز تشخیص نیز بایستی از مدلهاي متفاوتی استفاده کرد. در [24] مدل قاعده-محور MCAR ارائه شده که توانایی تشخیص صفحات جعلی را داراست. شیوههاي دیگري نیز امروزه مورد توجه قرار گرفته که از جملهي آنها میتوان به مدلهاي مربوط به شبکههاي عصبی و فازي اشاره کرد. معایب این مدلها، پیچیدگی زیاد و زمانبر بودن اجراي آن میباشد.

تشخیص صیاد جستوجو-محور

با توسعهي ارتباطات، خدمات اینترنتی مربوط به آن نیز از پیشرفت روبه رشدي برخوردار بوده است براي مثال با استفاده از برنامههاي کاربردي واسطی که شرکتهاي توسعهدهنده مانند گوگل و یاهو ارائه دادند باعث شد تا به راحتی بتوان بدون نیاز به هزینهي اضافی از ابزارهاي موجود ارائهشده بهره برد. در این روش ابتدا بایستی شناسهي مناسب از صفحه استخراج گردد که شناسه مربوطه میتواند تصویر، لغات، ارتباطات، یا بخشی از صفحه باشد. در از تصویر مربوط به لوگو به عنوان شناسهي صفحه استفاده شده است که براي استخراج لوگوي مورد نظر سربار زیادي به سیستم تحمیل میشود همچنین در برخی از حالات پاسخ مناسبی از موتور جستوجو نسبت به تصویر بدست نمیآید.

از ابزار OCR جهت خواندن متن ازروي تصویر براي استخراج شناسه استفاده کرده است که هم سربار زیادي به سیستم تحمیل میکند و هم در بسیاري از حالات تشخیص نادرست صورت میپذیرد. در با استفاده از لغات و ارتباطات موجود در صفحه، مدلی ارائه شد که با در نظر گرفتن اندازه لغات و سطوح مختلفی که لغت مورد نظر در ارتباط دارد، بهترین آنها به عنوان شناسه صفحه انتخاب میگردد. هرچه لغت شناسه در چپترین بخش از ارتباطات صفحه، ظاهر شود داراي اعتبار بالاتري میباشد علاوه بر آن به علت وابستگی مدل پیشنهادي به اندازهي لغات از براي حالات ترکیبی دامنه، سربار زیادي به سیستم اعمال میگردد، مخصوصا زمانی که محتویات صفحه مانند بسیار زیاد باشد.

از جمله معایب استفاده از شیوه براي مقابله با حالاتی که دامنهي صفحه ترکیبی از لغات مانند باشد. این روش باعث ایجاد سربار اضافی به سیستم میشود و از طرفی توانایی تشخیص سایتهایی با طول دامنه کوچک مانند را ندارد. در نویسنده براي بازیابی شناسه از فراوانی وزنی استفاده نمود، که در برخی از حالات لغت بازیابیشده جزء دستهي شناسه ها قرار نمیگیرد.در از ترکیب عنوان و دامنه به منظور شناسهي صفحه استفاده کرده که از جمله معایب آن میتوان به داشتن فرضهاي اضافی نویسنده، جعلی بودن صفحات بدون عنوان، کارایی کم در تشخیص صفحات جعلی به دلیل استفاده از دامنه، اشاره کرد. مقایسه اي بین بر اساس پیشینه، کارهاي مرتبط بیان شده است. چنانچه ملاحظه میشود هیچکدام از آنها نتوانسته اند تمام ویژگیهاي مطلوب را فراهم کنند.

طرح پیشنهادي

طرح پیشنهادي مبتنی بر میباشد که علاوه بر تشخیص درست شناسه، قابلیت بازیابی آن با کمترین زمان ممکن را دارا است. این طرح بر مبناي وابستگی بین لغات ظاهرشده با ارتباطات موجود در صفحه میباشد و با استفاده از موتور جستوجو، ماهیت صفحه مشخص میگردد.

نمودار فعالیت طرح پیشنهادي

طرح پیشنهادي شامل سه بخش اصلی است که در بخش اول استخراج اطلاعات صفحه که شامل بهترین لغات موجود در صفحه و استخراج ارتباطات موجود در آن و اعمال مدل پیشنهادي براي وزندهی بهترین لغات استخراجشده میباشد. بخش دوم انتخاب شناسه بر اساس لغات استخراجشده و در بخش سوم اصالت سنجی صفحه که با استفاده از شناسه به عنوان کلیدواژهي مربوط به موتور جستوجو صورت میپذیرد.

استخراج اطلاعات صفحه

ابتدا لغات صفحه از داخل بخشهاي متفاوت آن مانند ضمیمهمِتا، بدنه و عنوان استخراج میشود. پس از استخراج تمامی لغات، بایستی لغات داراي امتیاز بالا بر اساس فرمول به عنوان لغات نامزد انتخاب شود. همچنین ارتباطات مربوطه نیز از روي ویژگی src و href و link استخراج میگردد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/75775

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله تشخیص وبسایت های صیاد با استفاده از فاصله لِوِن اِشتاین فراوان ترین کلمات با دامنه صفحه

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله رشته ساخت وبسایت شخصی

دانلود مقاله XML چیست و چرا دارای اهمیت فراوان است ؟

مقاله در مورد وبسایت چیست

دانلود فایل پاورپوینت واقعیت مجازی و کاربردهای فراوان آن در پزشکی

مقاله ناتادی کوکو ، محصولی تخمیری با فواید تغذیه ای فراوان

مقاله بوم مدل کسب و کار وبسایت علی بابا

مقاله تأثیر ویژگیهای فردی و سوابق تحصیلی دانشجویان بر حیطه های دهگانه راهبردهای یادگیری و مطالعه وین اشتاین

مقاله بررسی میزان تأثیر پارامترهای SEO در رتبه دهی یک وبسایت توسط موتورهای جستجو

مقاله استخراج وشناسایی کلمات دست نویس با استفاده از شبکه های عصبی مصنوعی و منطق فازی

مقاله تأثیر نوسانات سطح آب زیرزمینی بر بزرگراه صیاد شیرازی اصفهان

مقاله تأویل حکایت صیّاد از هزار و یک شب بر اساس نظریة ژاک لکان

مقاله تاثیر علم عصبی مصرف کننده در وبسایت های تجاری بر ادراک و تمایل بازدیدکننده به خرید

مقاله تاقیر فاصله صفحات مبدل حرارتی صفحه ای در توزیع دما و فشار

مقاله تعیین مناسب ترین تاریخ خزانه گیری و فاصله نشاء لاین های برنج در دست معرفی

مقاله چرا کشورهایی که دارای منابع طبیعی فراوان هستند به طور متوسط در مقایسه با سایر کشورهای فاقد منابع ، رشد کمتری دارند؟

مقاله روش های کنترل محدودیت سرعت به همراه مطالعه موردی بر روی بزرگراه صیاد شیرازی

مقاله شناسایی مهم¬ترین پارامترهای موثردرمکان¬یابی محل دفن بهداشتی پسماند ویژه ( لندفیل ) و تعیین دامنه مطلوبیت برای هر پارامتر

پاورپوینت جاذبه های گردشگری لیختن اشتاین

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله تشخیص وبسایت های صیاد با استفاده از فاصله لِوِن اِشتاین فراوان ترین کلمات با دامنه صفحه

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله رشته ساخت وبسایت شخصی

دانلود مقاله XML چیست و چرا دارای اهمیت فراوان است ؟

مقاله در مورد وبسایت چیست

دانلود فایل پاورپوینت واقعیت مجازی و کاربردهای فراوان آن در پزشکی

مقاله ناتادی کوکو ، محصولی تخمیری با فواید تغذیه ای فراوان

مقاله بوم مدل کسب و کار وبسایت علی بابا

مقاله تأثیر ویژگیهای فردی و سوابق تحصیلی دانشجویان بر حیطه های دهگانه راهبردهای یادگیری و مطالعه وین اشتاین

مقاله بررسی میزان تأثیر پارامترهای SEO در رتبه دهی یک وبسایت توسط موتورهای جستجو

مقاله استخراج وشناسایی کلمات دست نویس با استفاده از شبکه های عصبی مصنوعی و منطق فازی

مقاله تأثیر نوسانات سطح آب زیرزمینی بر بزرگراه صیاد شیرازی اصفهان

مقاله تأویل حکایت صیّاد از هزار و یک شب بر اساس نظریة ژاک لکان

مقاله تاثیر علم عصبی مصرف کننده در وبسایت های تجاری بر ادراک و تمایل بازدیدکننده به خرید

مقاله تاقیر فاصله صفحات مبدل حرارتی صفحه ای در توزیع دما و فشار

مقاله تعیین مناسب ترین تاریخ خزانه گیری و فاصله نشاء لاین های برنج در دست معرفی

مقاله چرا کشورهایی که دارای منابع طبیعی فراوان هستند به طور متوسط در مقایسه با سایر کشورهای فاقد منابع ، رشد کمتری دارند؟

مقاله روش های کنترل محدودیت سرعت به همراه مطالعه موردی بر روی بزرگراه صیاد شیرازی

مقاله شناسایی مهم¬ترین پارامترهای موثردرمکان¬یابی محل دفن بهداشتی پسماند ویژه ( لندفیل ) و تعیین دامنه مطلوبیت برای هر پارامتر

پاورپوینت جاذبه های گردشگری لیختن اشتاین

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران