بخشی از مقاله

چکیده

امروزه ایمیل به یکی از رایجترین ابزار ارتباطی در زندگی روزمره بشر تبدیل شده است. این ارتباط چه مکالمه ساده دوستانه باشد چه موضوع مهم تجاری، روشی سریع و ارزان قیمت برای برقراری ارتباط است. متاسفانه همین عمومیت و سادگی استفاده از ایمیل باعث شده تا مورد استفاده اسپمرها و کلاهبرداران اینترنتی قرار بگیرد. از آن جایی که ارسال میلیونی اسپم باعث آزار کاربر، اتلاف زمان، هزینه، منابع شبکه و پهنای باند میشود. بنابراین اسپم به یک مشکل جدی تبدیل شده است.

لذا روشها و الگوریتمهای زیادی برای جلوگیری و فیلتر اسپم پیشنهاد شده است. هدف اصلی افزایش دقت روش تشخیص اسپم در ایمیل است. در این مقاله عمل تشخیص اسپم با استفاده از اعمال تحلیل مولفه اصلی و ترکیب بهینهسازی ذرات تجمعی و چندهمسایگی نزدیک مورد بررسی قرار گرفته است. میانگین دقت، میانگین یادآوری و میانگین صحت دستهبندی، اصلیترین معیارهای ارزیابی مربوط به دستهبندی و پیشبینی نمونهها در فاز آموزش بر روی مجموعه داده لینگ اسپم است. نرخ تشخیص بدست آمده در روش پیشنهادی 91.70 درصد است.

-1 مقدمه

ایمیل یک وسیله ارتباطی سریع و کمهزینه میباشد که باعث گسترش ارتباطات بین افراد و سازمانها میشود ولی به وجودآمدن نامههای ناخواسته موجب آزار کاربران و پایینآمدن کارایی شده است. امروزه این نامههای ناخواسته که به عنوان اسپم شناخته میشوند، به مشکل عمدهای تبدیل شدهاند. اسپمها منابع شبکه و کامپیوترها و زمان انسان را تلف میکنند و برای شناسایی و جلوگیری از اسپمها تلاشهای زیادی صورت گرفته است، ولی با پیشرفت این تلاشها اسپمها باز هم گسترش و پیشرفت میکنند. بر آن شدیم تا روشی پیشنهادی برای جلوگیری از این مشکل با استفاده از ترکیب الگوریتم بهینهسازی ذرات تجمعی و چندهمسایگی نزدیک ارائه دهیم.

الگوریتم بهینهسازی ذرات تجمعی3 اولین بار توسط راسل ابرهارت 4 و جیمز کندی5 در سال 1995 ارائه شد. یک الگوریتم بهینهسازی فرااکتشافی است. الگوریتم جستجوی اجتماعی است که از روی رفتار اجتماعی دستههای پرندگان مدل شده است. تغییر مکان ذرات در فضای جستجو تحت تأثیر تجربه و دانش خود و همسایگان آنها است. بنابراین موقعیت دیگر توده ذرات روی چگونگی جستجو یک ذره اثر میگذارد.[4] از مهمترین مزیتهای الگوریتم بهینهسازی ذرات تجمعی این است که یک روش مبتنی بر جمعیت است و همگرایی نسبتا سریعی دارد.[8]

دستهبندی،6 تکنیک دادهکاوی است که برای پیشبینی اعضای گروهها برای نمونه دادهها استفاده میشود. برای فیلتر ایمیلهای اسپم از تکنیکهای دستهبندی استفاده میشود. تکنیکهای دستهبندی، داده را براساس الگوهای مشابه به گروهها تقسیم میکند.[3] چندهمسایگی نزدیک7 سادهترین و متداولترین روش دستهبندی برپایه یادگیری نمونه است. از مهمترین مزیتهای این دستهبند میتوان به سادگی آن در الگوریتم و پیادهسازی اشاره کرد که این سادگی باعث بالا رفتن پیچیدگی زمانی الگوریتم شده است. در بخش - 2 - طراحی اصلی روش پیشنهادی را مرحله به مرحله شرح خواهیم داد. در بخش - 3 - و - 4 - مجموعهداده و معیارهای ارزیابی را معرفی خواهیم کرد. در بخش - 5 - و - 6 - آزمایش و نتیجهگیری را بیان خواهیم کرد.

-2 طراحی اصلی روش پیشنهادی

1-2 پیش پردازش

تکتک کلمات هر متن پیام غیراسپم و اسپم را از هم تفکیک میکنیم. در دادهکاوی و مبحث پیش پردازش ایمیلها میبایست حذف کلمات توقفی مورد توجه قرار گیرد. مهمترین مزیت آن کاهش بعد دادهها به منظور افزایش دقت پیشگویی در دستهبندی است. حذف کلمات توقفی، عبارت از فرآیند خذف کلمات اضافه تکراری مانند "A,The,For,And" است. تعداد تکرار هر کلمه در هر مستند بدست آمده است. این کار بعد از حذف کلمات توقفی انجام میشود. تعداد ویژگی استخراج شده یا کلمات برابر با 8345 میباشد.

یک حد آستانه تعریف شده و ویژگیهایی که کمتر از حد آستانه دیده شدند جهت بالا بردن دقت و سرعت حذف شدند، و تعداد ویژگیها به 6165 کاهش پیدا نمود. با استفاده از روش وزندهی [2] TFCRF به هر ویژگی در هر مستند یک وزن اختصاص داده شد. برای وزندهی دقیقتر به ویژگیها دو فاکتور ارتباط مثبت8 و فاکتور ارتباط منفی9 تعریف شده است. فاکتور ارتباط مثبت: نسبت تعداد مستنداتی از طبقه را که ویژگی را دارند به کل مستندات آن طبقه نشان میدهد. فاکتور ارتباط منفی: نسبت مجموعه تعداد مستنداتی از طبقه غیر از را که ویژگی را دارند به کل مجموع مستندات طبقات غیر را نشان میدهد.       

2-2 استخراج ویژگی

در این مرحله یک طرح کاهش ابعاد را روی دادهها برای استخراج ویژگی انجام میدهیم که به آن تحلیل مولفه های اصلی[7] 11 گفته میشود. فرض کنید مجموعه داده = {  | ∈ } وجود دارد که به صورت ماتریس ∗ قابل نمایش است. در این ماتریس N تعداد دادهها و n بعد هر داده است. ممکن است دامنه یک ویژگی بسیار بیشتر از ویژگی دیگر باشد و کل نتیجه را تحت تاثیر قرار دهد. برای این کار دادهها به صورت رابطه - 6 - نرمالسازی میشوند.                

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید