بخشی از مقاله
چکیده
با افزایش استفاده از پست های الکترونیک، مساله دریافت ایمیلهای ناخواسته به یک چالش تبدیل شده است، که به این ایمیلها، اسپم گفته میشود. برای شناسایی اسپمهای تصویری می توان از روشهای بینایی ماشین بهره برد. دراین مقاله روشی برای بالابردن دقت شناسایی و دسته بندی تصاویر اسپم از تصاویر معتبر یا غیر اسپم ارائه شده است. در روش ارائه شده از ویژگی بافت تصویر جهت بررسی تصاویر استفاده می شود. در این تحقیق از ماتریس هم رخداد سطح خاکستری - GLCM - که یکی از ویژگی های بافت است، استفاده شده است.
پس از استخراج ماتریس از تصویر، به ازای هر تصویر 22 ویژگی به دست میآید. سپس از دسته بندی کننده نزدیکترین همسایه - KNN - و بیزین ساده - NB - برای دسته بندی تصاویر با استفاده از ویژگی های بدست آمده از هر تصویر استفاده می شود. این تصاویر از دو پایگاه داده Dredze و ISH بدست آمده اند . نتایج بدست آمده درمقایسه با کارهای انجام شده نشان دهنده بهبود در دقت دسته بندی در روش ارائه شده است.
-1 مقدمه:
ارسال ایمیل یک فعالیت فراگیر در زمینه انتقال پیام دراینترنت است. با افزایش استفاده از این رویکرد برخی از افراد و شرکتها با انگیزه های مختلفی در زمینه تجاری ،سیاسی، مذهبی و...، شروع به ارسال ایمیلهایی با محتوای مختلف برای کاربران سرویسهای پست الکترونیکی می نمایند. به این ایمیل ها که به صورت ناخواسته برای کاربران ارسال می شود ،ʼ اسپمʼ1 یا ʼهرزنامهʼ می گویند . - Al-Duwair et al.,2012 - این پدیده کارایی پست الکترونیک یا ایمیل را با چالش جدی مواجه کرده است و بر همین اساس مقابله با اسپم ها به عنوان یک موضوع مهم پژوهشی مورد توجه قرار گرفته است.
برطبق گزارشات موجود بیش از نیمی از ایمیل هایی که در هر روز فرستاده می شود اسپم هستند و باعث می شوند حجم بالایی ازخطوط اینترنت به هدر رفته و همچنین هزینه گزافی را جهت مدیریت اسپمها به کاربران تحمیل نموده و باعث به هدر رفتن منابع شبکه مانند حافظه و تراکم شبکه می گردد. ایجاد فیلترهای اسپم یکی از اصلی ترین روش های مقابله با اسپم است که این روش ها مبتنی بر تکنیکهای بینایی ماشین و شناسایی الگو هستند.
هرزنامه نویسان یا اسپمرها2، به منظور جلوگیری از شناخته شدن توسط این فیلترها، روش جدیدی ابداع کردند که محتوای پیامی را که به صورت اسپم می خواهند ارسال کنند، در قالب تصویر ضمیمه شده ارسال می کنند که به این نوع از ایمیلها هرزنامه های تصویری می گویند. از سال 2005 این تکنیک شروع شد و به سرعت رشد کرد، به طور مثال، متن یک تبلیغ داخل یک تصویر قرار می گیرد. به طوری که تحلیل محتوای پیام با فیلترهای ساده مبتنی برمتن ناممکن میشود.
بنابراین نیاز به فیلترهایی است که بتواند تصاویر اسپم را به درستی شناسایی کند. مهمترین کارکرد این نوع از فیلترها، پیداکردن الگوریتم هایی باکارایی بالا در شناسایی ایمیل های اسپم تصویری از ایمیل های تصویری غیر اسپم است . - Gao et al.,2008 - دراین مقاله با استفاده از ماتریس هم رخداد سطح خاکستری - GLCM - 3 که از ویژگی های بافت تصویر است برای شناسایی و دسته بندی تصاویر اسپم از تصاویر معتبر استفاده شده است.
-2 بیان مساله و کارهای گذشته:
-1-2 هرزنامه های تصویری:
تولیدکنندگان اسپم برای مقابله بافیلترهای ایجاد شده که برپایه فیلترینگ متن است، از تصاویر استفاده می کنند که شناسایی آن بسیار دشوارتر از متن است. چند نمونه از اسسپم های تصویری در شکل-1 نشان داده شده است. از نگاه محققان تصاویر اسپم تعاریف مختلفی دارد که به ذکر چند نمونه می پردازیم : تصویر اسپم به تصویری گفته می شود که یک تبلیغ بصورت پیام درآمده است که تصویر در بدنه اصلی آن باشد یا به بدنه اصلی آن ضمیمه شده باشد.
- He et al,2009 - یا اینکه تصویر اسپم یک نوعی از ایمیل اسپم است که پیام متنی اسپم به عنوان یک عکس در یک فایل تصویر نمایش داده شده باشد، یعنی تصویر به عنوان یک نمایهی گرافیکی از ایمیلهای برپایه متن است - . - Soranamageswari and Meena,2010 یا تصاویری که دارای لینک ها و آدرس های URL جهت آدرس دهی صفحات وب ناشناخته، هستند. تعاریف مختلفی در مستندات از این نوع ایمیل های وجود دارد - . - Mehta et al,2008
تکنیکهای شناسایی تصاویر اسپم به طور کلی به سه دسته تقسیم می شوند:
• تکنیکهای برپایه سربرگ1 که مشخصه های ایمیل اسپم را برای شناسایی و بررسی، استخراج میکنند. سربرگها همیشه با محتوای پیام به دست کاربر میرسد. این روش فقط بررسی بخش سربرگ ایمیلها است، وشامل قسمت های زیادی است که اطلاعات مفیدی را فراهم میکند. در سارابن و لیمدانمافون - Saraubon and Limthanmaphon,2009 - یک فیلتر اسپم ارائه شده است که بوسیله آنالیز سربرگ ایمیل کار میکند. نویسندگان آن اطمینان دارند که این فیلتر، برای هردو نوع اسپم برمبنای متن و برمبنای تصویر به خوبی کار میکند.
آنها فقط ازآدرسIP فرستنده و آدرس ایمیل فرستنده استفاده کردند که میتوانند کشوری را که آدرس IP متعلق به آن است، شناسایی کنند. در کراسر و همکاران - - Krasser et al,2007 فقط از طول و عرض سربرگ فایل تصویر، نوع فایل تصویر و سایز فایل تصویر استفاده شده است و از دسته بندی کننده های درخت تصمیمC4,5 2 و ماشین بردار پشتیبان3 با هدف رسیدن به عملکرد بالا استفاده کردند.
روش آنها بسیار کم هزینه است زیرا این ویژگیها به آسانی از قسمت سربرگ بهدست میآید. در یی و همکارن - Ye et al,2007 - به طور کامل از روشهای برمبنای سربرگ استفاده کرده و به تجزیه و تحلیل تاریخ ،آدرس بازگشت ، IDپیام ،Received ،From ،To وX-Mailer پرداخته است و ازماشین بردار پشتیبان برای دسته بندی کردن استفاده کرده است.
• تکنیکهای برپایه محتوا 4 که از بررسی محتوای تصویر و ویژگی استخراج شده آن استفاده میکنند. این نوع از فیلترها به تجزیه و تحلیل محتوای تصویر میپردازند و ویژگی هایی مانند ویژگی رنگ،لبه، بافت و... از تصویر استخراج میکنند که بیان کننده مشخصات کل تصویر اسپم است.