بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***



ارائه روشی برای تشخیص بهتر ایویل های اسپن از غیر اسپن با استفاده از داده کاوی

چكیذه

کم ارزش ترین و مهم ترین ارتباطات در جهان امروز ایمیل است. کلمه اسپم استفاده شده تا ناخواسته بودن میل های بی ارزش فرستاده شده به ینباکس یک کاربر اینترنت را توضیح دهد. تکنولوژی های مختلفی در سروکار با ایمیل اسپم ناخواسته پیشنهاد شده اند. تحقیق روی الگوریتم انتخابی منفی اساسا روی کشف ناهنجاری و کشف خرابی متمرکز است. در این مقاله با بهره گیری از دانش داده کاوی توانستیم خوشه بندی بهتر با خطای کمتری را نتیجه بگیریم. شبکه عصبی مربوط به دیتاست ایمیل را ساخته و آموزش دادیم و میزان خطای میانگین مربعات آن را محاسبه کردیم، سپس دیتاست ایمیل را در سه مرحله به بخش های آموزش و تست تقسیم کرده و در هر مرحله میزان خطای میانگین مربعات را محاسبه کردیم، بر روی مجموع داده هایی که در این مرحله اسپن شناخته شدند نیز الگوریتم خوشه بندی فازی را اعمال کردیم و شبکه عصبی مربوط به آن را ساختیم و میزان خطای میانگین مربعات این قسمت را نیز محاسبه کردیم. و در نهایت با مقایسه خطای به دست آمده از دیتاست اولیه و مجموع سه مرحله ای که cross validation انجام دادیم، در 02 تکرار این نتیجه به دست می آید که استفاده از cross validation روی دیتاست اولیه خطای میانگین مربعات را کاهش داده و با استفاده از این تکنیک می توانیم تشخیص بهتری را برای مجزا کردن ایمیل های اسپم از غیراسپم داشته باشیم.


کلوات کلیذی

شبکه عصبی، خطای میانگین مربعات، الگوریتم خوشه بندی فازی

.1 هقذهه

مشکل ایمیل اسپم یک مورد جهانی است و اغلب کاربران با آن مواجه هستند. به عنوان یک ایمیل آشغال رسیده به سرویس های میل اینترنت تعریف شده است. میزان ایمیل اسپن در طول توده های ابزار میل رسانی در حال زیاد شدن است ، این بیشتر گیرندگان را رنج داده است. شناسایی اینکه یک پیام اسپم است یا غیر اسپن براساس

1

منحصرا محتوای پیام و برخی دیگر مشخصات پیام انجام می شود. تکنیک های مختلف برای توقف تهدید اسپن یا کاهش موثر میزان اسپن که به کاربران اینترنت در جهان حمله می کند، به کار گرفته شده اند در این تحقیق ما از دانش در حوزه داده کاوی، دسته بندی و خوشه بندی فازی برای این مشکل بهره گرفتیم. در بخش دوم مقاله روش انجام کارشرح اده شذه است. دربخش سوم هقالو روش خوشه بندی داده ها توضیح داده شده است، در بخش چهارم نحوه آموزش شبکه عصبی را توضیح می دهیم ، بخش پنجم ارزیابی خوشه ها به روش مجموع مربع خطاها را توضیح دادیم و در بخش ششم نتیجه گیری را داریم.

.2روش انجام کار

بعد از دریافت دیتاست مربوط به داده های ایمیل از سایت UCI پیش پردازش مناسبی را بر روی آن اعمال می کنیم، دیتاست به دست آمده شامل 02 سطر و 6 ستون می باشد، در واقع دیتاست مربوط به ایمیل شامل6 متغیر است که هرکدام 02 مقدار را دارا هستند.

ابتدا به کمک نرم افزار داده کاوی "وکا"بو ىر کذام از این 6 متغیر رتبه ای تعلق می گیرد که باتوجه به آن تنها 4 متغیر از 6 متغیر موجود در خوشه بندی فازی که قرار است انجام شود نقش خواهند داشت و 0 متغیر باقیمانده به دلیل رتبه و اهمیت کم در خوشه بندی و آموزش شبکه عصبی نقشی ندارند.
1.2 .هحاسبات تحقیق

محاسبات تحقیق شامل جداسازی داده های مربوط به آموزش و تست در 3 مرحله اعمال روش خوشه بندی FCM ، آموزش شبکه عصبی مربوطه در هر مرحله و خطای مجموع مربعات خطا ( MSE1 )، می باشد.
. 1.1.2 گام انتخاب و جوع آوری هتغیرهای ورودی

دیتاست مربوطه شامل 6 متغیر است به شرح زیر:

: AttributeStatistics شماره صفات،

: Min کلاس استفاده شده که در صورت اسپن بودن 1 و در غیر این صورت 2 می باشد، : Max طول طولانی ترین توالی بی وقفه از حروف بزرگ ،

: Average متوسط طول دنباله بی وقفه از حروف بزرگ، : StdDev مجموع طول توالی بی وقفه از حروف بزرگ

:CoeffVar درصد کلمات در ایمیل که با رابطه 1 محاسبه می شود:


(1) (هجووع کلوات در ایویل) )/تعذاد کلوات رخ داده در ایویل در زهاى 100*(

2.1.2 .گام آهاده سازی و پیش پردازش داده ها

داده ها در جهت خوشه بندی صحیح تر و خطای کمتر باید پیش پردازش شوند. یکی از اعمال پیش پردازش نرمالایز سازی است. یعنی مقادیر تمامی متغیرها در بازه عددی 2 و 1 قرار بگیرند.

2

3 .خوشه بنذی داده ها

از مهمترین و پرکاربردترین الگوریتم های خوشه بندی، الگوریتم خ میانگین می باشد.. در این الگوریتم ف نمونه ها به خف خوشه تقسیم می شوند و تعداد خ از قبل مشخص شده است.

در نسخه فازی این الگوریتم نیز تعداد خوشه ها (خ) از قبل مشخص شده است. در الگوریتم خوشه بندی خ میانگین فازی تابع هدف بصورت معادله 2 می باشد:

J = ∑i=1c ∑k=1n Uikm dik 2 = ∑i=1c ∑k=1n Uikm || Xk – Vi ||2

در فرمول فوق m یک عدد حقیقی بزرگتر از 1 است که در اکثر موراد برای m عدد 2 انتخاب می شود. اگر در فرمول فوق m را برابر 1 قرار دهیم تابع هدف خوشه بندی c میانگین (کلاسیک) غیر فازی بدست می آید.

در فرمول فوق xk نمونه k ام و شئ نماینده یا مرکز خوشه i ام و n تعداد نمونه ها می باشد. Uik میزان تعلق

نمونه i ام در خوشه k ام را نشان می دهد. علامت ||*|| میزان تشابه (فاصله) نمونه با (از) مرکز خوشه می باشد که می توان از هر تابعی که بیانگر تشابه نمونه و مرکز خوشه باشد استفاده کرد. از روی uik می توان یک ماتریس U تعریف کرد که دارای cسطر و n ستون می باشد و مولفه های آن هر مقداری بین 0 تا 1 را می توانند اختیار کنند. تفاوت FCM و Kmeans این است که در Kmeans هر داده بطور قطعی به یک خوشه تعلق می گیرد اما FCM2 بصورت درصدی هر داده را به خوشه ها نسبت می دهد.
. 1.3 گام تعیین تعذاد بهینه خوشه ها

مقصود ما تشخیص ایمیل های اسپن از غیر اسپن است، بر همین اساس باید برای خوشه بندی تعداد 0 خوشه را در نظر بگیریم تا داده هایی که اسپن شناخته می شوند در یک خوشه و سایر داده ها در خوشه دوم قرار بگیرند .

. 4 آهوزش شبكه عصبی

آموزش شبکه عصبی، همان تعیین وزنهای مناسب برای شبکه عصبی است. دیتای تست و ترین و در بعضی موارد ارزیابی در این بخش جدا می شوند. ستون کلاس داده ها مشخص می گردد: ساختار شبکه ایجاد می شود. می توانیم شبکه عصبی را آموزش دهیم.پس از شبیه سازی شبکه عصبی ، می توانیم مجموع مربعات خطای mse قسمت آموزش و تست دیتاست مربوطه را به دست آوریم.
ف
.5 ارزیابی خوشه ها به روش هجووع هربع خطاها
دیتاست ایمیل شامل 6 متغیر است که هر کدام دارای 07 مقدار هستند.تنها 4 متغیر از این 6 متغیر برای ما دارای اهمیت هستند که متغیر آخر دارای مقادیر ) 1 غیر اسپم ) و 0 (اسپم ) می باشد و به عنوان کلاس در نظر گرفته شده است، در واقع ما روی دیتاستی با 07 سطر و 4 ستون کار می کنیم.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید