بخشی از مقاله

چکیده

ایمیل یک وسیله ارتباطی سریع و کمهزینه میباشد که باعث گسترش ارتباطات بین افراد و سازمانها میشود ولی به وجودآمدن نامههای ناخواسته موجب آزار کاربران و پایینآمدن کارایی شده است. امروزه این نامههای ناخواسته که به عنوان اسپم شناخته میشوند، به مشکل عمدهای تبدیل شدهاند. اسپمها منابع شبکه و کامپیوترها و زمان انسان را تلف میکنند و برای شناسایی و جلوگیری از اسپمها تلاشهای زیادی صورت گرفته است، ولی با پیشرفت این تلاشها اسپمها باز هم گسترش و پیشرفت میکنند.

بنابراین اسپم به یک مشکل جدی تبدیل شده است. لذا روشها و الگوریتمهای زیادی برای جلوگیری و فیلتر اسپم پیشنهاد شده است. هدف اصلی افزایش دقت روش تشخیص اسپم در نامههای الکترونیکی است. در این مقاله عمل تشخیص اسپم با استفاده از اعمال تحلیل مولفه اصلی و ترکیب بهینهسازی ذرات تجمعی و الگوریتم انتخاب منفی مورد بررسی قرار گرفته است. میانگین دقت، میانگین یادآوری و میانگین صحت دستهبندی، اصلیترین معیارهای ارزیابی مربوط به دستهبندی و پیشبینی نمونهها در فاز آموزش بر روی مجموعهداده لینگ اسپم است. نرخ تشخیص بدست آمده در روش پیشنهادی 91.28 درصد است.

-1 مقدمه

امروزه ایمیل به یکی از رایجترین ابزار ارتباطی در زندگی روزمره بشر تبدیل شده است. این ارتباط چه مکالمه ساده دوستانه باشد چه موضوع مهم تجاری، روشی سریع و ارزان قیمت برای برقراری ارتباط است. متاسفانه همین عمومیت و سادگی استفاده از ایمیل باعث شده تا مورد استفاده اسپمرها و کلاهبرداران اینترنتی قرار بگیرد. از آن جایی که ارسال میلیونی اسپم باعث آزار کاربر، اتلاف زمان، هزینه، منابع شبکه و پهنای باند میشود. بنابراین اسپم به یک مشکل جدی تبدیل شده است. لذا روشها و الگوریتمهای زیادی برای جلوگیری و فیلتر اسپم پیشنهاد شده است. بر آن شدیم تا روشی پیشنهادی برای جلوگیری از این مشکل با استفاده از ترکیب الگوریتم بهینهسازی ذرات تجمعی و الگوریتم انتخاب منفی ارائه دهیم.

الگوریتم بهینهسازی ذرات تجمعی 3 اولین بار توسط راسل ابرهارت 4 و جیمز کندی5 در سال 1995 ارائه شد. یک الگوریتم بهینهسازی فرااکتشافی است. الگوریتم جستجوی اجتماعی است که از روی رفتار اجتماعی دستههای پرندگان مدل شده است. تغییر مکان ذرات در فضای جستجو تحت تأثیر تجربه و دانش خود و همسایگان آنها است. بنابراین موقعیت دیگر توده ذرات روی چگونگی جستجو یک ذره اثر میگذارد.[4] از مهمترین مزیتهای الگوریتم بهینهسازی ذرات تجمعی این است که یک روش مبتنی بر جمعیت است و همگرایی نسبتا سریعی دارد.

دستهبندی، 6 تکنیک دادهکاوی است که برای پیشبینی اعضای گروهها برای نمونه دادهها استفاده میشود. برای فیلتر ایمیلهای اسپم از تکنیکهای دستهبندی استفاده میشود. تکنیکهای دستهبندی، داده را براساس الگوهای مشابه به گروهها تقسیم میکند.

اولین الگوریتم انتخاب منفی7 را فارست8 و همکاران در سال 1994 ارائه کردند، که دستکاری دادهها را که ناشی از نفوذ ویروس در سیستم کامپیوتر بوده شناسایی میکرد. نقطه شروع این الگوریتم تولید مجموعهای از رشتههای خودی S است که حالت طبیعی سیستم را تعریف میکند. وظیفه الگوریتم این است که مجموعهای از آشکارسازها، D را تولید کند که فقط مکمل S را تشخیص دهند. این آشکارسازها میتواند برای دادههای جدید به منظور دستهبندی آنها به خودی و غیرخودی به کار روند.

در بخش - 2 - طراحی اصلی روش پیشنهادی را مرحله به مرحله شرح خواهیم داد. در بخش - 3 - و - 4 - مجموعهداده و معیارهای ارزیابی را معرفی خواهیم کرد. در بخش - 5 - و - 6 - آزمایش و نتیجهگیری را بیان خواهیم کرد.

-2 طراحی اصلی روش پیشنهادی

پیش پردازش

استخراج ویژگی

انتخاب ویژگی

دستهبندی

شکل:1 مراحل روش پیشنهادی

1-2 پیش پردازش

تکتک کلمات هر متن پیام غیراسپم و اسپم را از هم تفکیک میکنیم. در دادهکاوی و مبحث پیش پردازش ایمیلها میبایست حذف کلمات توقفی مورد توجه قرار گیرد. مهمترین مزیت آن کاهش بعد دادهها به منظور افزایش دقت پیشگویی در دستهبندی است. حذف کلمات توقفی، عبارت از فرآیند خذف کلمات اضافه تکراری مانند "A,The,For,And" است.

تعداد تکرار هر کلمه در هر مستند بدست آمده است. این کار بعد از حذف کلمات توقفی انجام میشود. تعداد ویژگی استخراج شده یا کلمات برابر با 8345 میباشد. یک حد آستانه تعریف شده و ویژگیهایی که کمتر از حد آستانه دیده شدند جهت بالا بردن دقت و سرعت حذف شدند، و تعداد ویژگیها به 6165 کاهش پیدا نمود. با استفاده از روش وزندهی [1] TFCRF به هر ویژگی در هر مستند یک وزن اختصاص داده شد. برای وزندهی دقیقتر به ویژگیها دو فاکتور ارتباط مثبت9 و فاکتور ارتباط منفی10 تعریف شده است.

فاکتور ارتباط مثبت: نسبت تعداد مستنداتی از طبقه را که ویژگی را دارند به کل مستندات آن طبقه نشان میدهد. فاکتور ارتباط منفی: نسبت مجموعه تعداد مستنداتی از طبقه غیر از را که ویژگی را دارند به کل مجموع مستندات

طبقات غیر   را نشان میدهد که به صورت زیر تعریف میشوند:                                    
که در روابط - 1 - و - 2 - ، | - - | تعداد مستندات طبقه و | - , - | تعداد مستنداتی از مجموعه D و طبقه که دارای ویژگی میباشند است. از روابط - 1 - و - 2 - ، مقدار ارزش فاکتور ارتباط هر طبقه11 به طور کلی به صورت رابطه - 3 - تعریف میشود

2-2 استخراج ویژگی

در این مرحله یک طرح کاهش ابعاد را روی دادهها برای استخراج ویژگی انجام میدهیم که به آن تحلیل مولفههای
اصلی[8] 12 گفته میشود. فرض کنید مجموعه داده = {  | ∈ } وجود دارد که به صورت ماتریس  ∗  قابل نمایش است. در این ماتریس N تعداد دادهها و n بعد هر داده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید