مقاله ارائه روشی برای تشخیص بهتر ایویل های اسپن از غیر اسپن با استفاده از داده کاوی

ورد قابل ویرایش

6 صفحه

قیمت مقاله 000 55 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

ارائه روشی برای تشخیص بهتر ایویل های اسپن از غیر اسپن با استفاده از داده کاوی

چكیذه

کم ارزش ترین و مهم ترین ارتباطات در جهان امروز ایمیل است. کلمه اسپم استفاده شده تا ناخواسته بودن میل های بی ارزش فرستاده شده به ینباکس یک کاربر اینترنت را توضیح دهد. تکنولوژی های مختلفی در سروکار با ایمیل اسپم ناخواسته پیشنهاد شده اند. تحقیق روی الگوریتم انتخابی منفی اساسا روی کشف ناهنجاری و کشف خرابی متمرکز است. در این مقاله با بهره گیری از دانش داده کاوی توانستیم خوشه بندی بهتر با خطای کمتری را نتیجه بگیریم. شبکه عصبی مربوط به دیتاست ایمیل را ساخته و آموزش دادیم و میزان خطای میانگین مربعات آن را محاسبه کردیم، سپس دیتاست ایمیل را در سه مرحله به بخش های آموزش و تست تقسیم کرده و در هر مرحله میزان خطای میانگین مربعات را محاسبه کردیم، بر روی مجموع داده هایی که در این مرحله اسپن شناخته شدند نیز الگوریتم خوشه بندی فازی را اعمال کردیم و شبکه عصبی مربوط به آن را ساختیم و میزان خطای میانگین مربعات این قسمت را نیز محاسبه کردیم. و در نهایت با مقایسه خطای به دست آمده از دیتاست اولیه و مجموع سه مرحله ای که cross validation انجام دادیم، در 02 تکرار این نتیجه به دست می آید که استفاده از cross validation روی دیتاست اولیه خطای میانگین مربعات را کاهش داده و با استفاده از این تکنیک می توانیم تشخیص بهتری را برای مجزا کردن ایمیل های اسپم از غیراسپم داشته باشیم.

کلوات کلیذی

شبکه عصبی، خطای میانگین مربعات، الگوریتم خوشه بندی فازی

.1 هقذهه

مشکل ایمیل اسپم یک مورد جهانی است و اغلب کاربران با آن مواجه هستند. به عنوان یک ایمیل آشغال رسیده به سرویس های میل اینترنت تعریف شده است. میزان ایمیل اسپن در طول توده های ابزار میل رسانی در حال زیاد شدن است ، این بیشتر گیرندگان را رنج داده است. شناسایی اینکه یک پیام اسپم است یا غیر اسپن براساس

منحصرا محتوای پیام و برخی دیگر مشخصات پیام انجام می شود. تکنیک های مختلف برای توقف تهدید اسپن یا کاهش موثر میزان اسپن که به کاربران اینترنت در جهان حمله می کند، به کار گرفته شده اند در این تحقیق ما از دانش در حوزه داده کاوی، دسته بندی و خوشه بندی فازی برای این مشکل بهره گرفتیم. در بخش دوم مقاله روش انجام کارشرح اده شذه است. دربخش سوم هقالو روش خوشه بندی داده ها توضیح داده شده است، در بخش چهارم نحوه آموزش شبکه عصبی را توضیح می دهیم ، بخش پنجم ارزیابی خوشه ها به روش مجموع مربع خطاها را توضیح دادیم و در بخش ششم نتیجه گیری را داریم.

.2روش انجام کار

بعد از دریافت دیتاست مربوط به داده های ایمیل از سایت UCI پیش پردازش مناسبی را بر روی آن اعمال می کنیم، دیتاست به دست آمده شامل 02 سطر و 6 ستون می باشد، در واقع دیتاست مربوط به ایمیل شامل6 متغیر است که هرکدام 02 مقدار را دارا هستند.

ابتدا به کمک نرم افزار داده کاوی "وکا"بو ىر کذام از این 6 متغیر رتبه ای تعلق می گیرد که باتوجه به آن تنها 4 متغیر از 6 متغیر موجود در خوشه بندی فازی که قرار است انجام شود نقش خواهند داشت و 0 متغیر باقیمانده به دلیل رتبه و اهمیت کم در خوشه بندی و آموزش شبکه عصبی نقشی ندارند.
1.2 .هحاسبات تحقیق

محاسبات تحقیق شامل جداسازی داده های مربوط به آموزش و تست در 3 مرحله اعمال روش خوشه بندی FCM ، آموزش شبکه عصبی مربوطه در هر مرحله و خطای مجموع مربعات خطا ( MSE1 )، می باشد.
. 1.1.2 گام انتخاب و جوع آوری هتغیرهای ورودی

دیتاست مربوطه شامل 6 متغیر است به شرح زیر:

: AttributeStatistics شماره صفات،

: Min کلاس استفاده شده که در صورت اسپن بودن 1 و در غیر این صورت 2 می باشد، : Max طول طولانی ترین توالی بی وقفه از حروف بزرگ ،

: Average متوسط طول دنباله بی وقفه از حروف بزرگ، : StdDev مجموع طول توالی بی وقفه از حروف بزرگ

:CoeffVar درصد کلمات در ایمیل که با رابطه 1 محاسبه می شود:

(1) (هجووع کلوات در ایویل) )/تعذاد کلوات رخ داده در ایویل در زهاى 100*(

2.1.2 .گام آهاده سازی و پیش پردازش داده ها

داده ها در جهت خوشه بندی صحیح تر و خطای کمتر باید پیش پردازش شوند. یکی از اعمال پیش پردازش نرمالایز سازی است. یعنی مقادیر تمامی متغیرها در بازه عددی 2 و 1 قرار بگیرند.

3 .خوشه بنذی داده ها

از مهمترین و پرکاربردترین الگوریتم های خوشه بندی، الگوریتم خ میانگین می باشد.. در این الگوریتم ف نمونه ها به خف خوشه تقسیم می شوند و تعداد خ از قبل مشخص شده است.

در نسخه فازی این الگوریتم نیز تعداد خوشه ها (خ) از قبل مشخص شده است. در الگوریتم خوشه بندی خ میانگین فازی تابع هدف بصورت معادله 2 می باشد:

J = ∑i=1c ∑k=1n Uikm dik 2 = ∑i=1c ∑k=1n Uikm || Xk – Vi ||2

در فرمول فوق m یک عدد حقیقی بزرگتر از 1 است که در اکثر موراد برای m عدد 2 انتخاب می شود. اگر در فرمول فوق m را برابر 1 قرار دهیم تابع هدف خوشه بندی c میانگین (کلاسیک) غیر فازی بدست می آید.

در فرمول فوق xk نمونه k ام و شئ نماینده یا مرکز خوشه i ام و n تعداد نمونه ها می باشد. Uik میزان تعلق

نمونه i ام در خوشه k ام را نشان می دهد. علامت ||*|| میزان تشابه (فاصله) نمونه با (از) مرکز خوشه می باشد که می توان از هر تابعی که بیانگر تشابه نمونه و مرکز خوشه باشد استفاده کرد. از روی uik می توان یک ماتریس U تعریف کرد که دارای cسطر و n ستون می باشد و مولفه های آن هر مقداری بین 0 تا 1 را می توانند اختیار کنند. تفاوت FCM و Kmeans این است که در Kmeans هر داده بطور قطعی به یک خوشه تعلق می گیرد اما FCM2 بصورت درصدی هر داده را به خوشه ها نسبت می دهد.
. 1.3 گام تعیین تعذاد بهینه خوشه ها

مقصود ما تشخیص ایمیل های اسپن از غیر اسپن است، بر همین اساس باید برای خوشه بندی تعداد 0 خوشه را در نظر بگیریم تا داده هایی که اسپن شناخته می شوند در یک خوشه و سایر داده ها در خوشه دوم قرار بگیرند .

. 4 آهوزش شبكه عصبی

آموزش شبکه عصبی، همان تعیین وزنهای مناسب برای شبکه عصبی است. دیتای تست و ترین و در بعضی موارد ارزیابی در این بخش جدا می شوند. ستون کلاس داده ها مشخص می گردد: ساختار شبکه ایجاد می شود. می توانیم شبکه عصبی را آموزش دهیم.پس از شبیه سازی شبکه عصبی ، می توانیم مجموع مربعات خطای mse قسمت آموزش و تست دیتاست مربوطه را به دست آوریم.
ف
.5 ارزیابی خوشه ها به روش هجووع هربع خطاها
دیتاست ایمیل شامل 6 متغیر است که هر کدام دارای 07 مقدار هستند.تنها 4 متغیر از این 6 متغیر برای ما دارای اهمیت هستند که متغیر آخر دارای مقادیر ) 1 غیر اسپم ) و 0 (اسپم ) می باشد و به عنوان کلاس در نظر گرفته شده است، در واقع ما روی دیتاستی با 07 سطر و 4 ستون کار می کنیم.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/51963

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله ارائه روشی برای تشخیص بهتر ایویل های اسپن از غیر اسپن با استفاده از داده کاوی

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله ارائه روشی نوین با استفاده از مدل تحلیل پوششی داده ها و آنتروپی برای انتخاب خصیصه در داده کاوی

دانلود فایل پاورپوینت تفاوت وب کاوی و داده کاوی

دانلود فایل پاورپوینت تفاوت داده کاوی و وب کاوی

مقاله ارائه یک راهکار جهت استفاده از تکنیک های داده کاوی در فرآیند نگهداری و تعمیرات

مقاله داده کاوی در رایانش ابری : انتخاب سرویس SAAS به عنوان بهترین سرویس رایانش ابری برای کاهش هزینه های داده کاوی

مقاله یک رویکرد جدید برای تشخیص کم کاری تیروئید با استفاده از تکنیک های داده کاوی

مقاله تاثیر برهمکنش اسپن مدار راشبا بر ترازهای انرژی و عامل لانده‌ی الکترون درون شبه نقطه کوانتومی دو بعدی با پتانسیل شبه هماهنگ

مقاله تشخیص داده‌های پرت با استفاده از بهبود عملکرد الگوریتم تشخیص داده‌های خاص با استفاده از برچسب مثبت

مقاله ترکیب الگوریتم کرم شب¬تاب باینری و داده¬کاوی برای تشخیص خودکار نارسایی عروق کرونری قلب از روی تصاویر SPECT

مقاله تشخیص و شناسایی خطای توربین گاز با استفاده از روش های ترکیبی داده کاوی k - means آنالیز مولفّه های اصلی ( PCA ) و ماشین بردار پشتیبان SVM ) )

مقاله تخمین پارامترهای هواشناسی با استفاده از تکنیک های داده کاوی در پایگاه داده های منابع آب

مقاله تشخیص نفوذ در شبکه های کامپیوتری با استفاده از تکنیک های داده کاوی مبتنی بر انتخاب ویژگی

مقاله داده کاوی از طریق سیستم‌های خبره جهت پیش‌بینی و تشخیص سرطان سینه و مقایسه آن با دیگر روش‌های داده کاوی

مقاله داده کاوی در بستر ابر : معرفی معماری بر اساس تکنولوژی RAID جهت جلوگیری حملات بر مبنای داده کاوی بر سرویس ابری

مقاله حفظ حریم داده کاوی الگوهای تربیتی برای شبکه ترافیک داده ای

مقاله روش های تشخیص سیگنال در مراقبت های دارویی با استفاده از تکنیک های داده کاوی

مقاله طراحی و پیاده سازی یک سیستم هوشمند برای تشخیص بیماری دیابت نوع 2 به کمک الگوریتم های داده کاوی

مقاله شبیه سازی فرآیند جذب گاز کربن دی اکسید با استفاده از نرم‌افزار اسپن هایسیس

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله ارائه روشی برای تشخیص بهتر ایویل های اسپن از غیر اسپن با استفاده از داده کاوی

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله ارائه روشی نوین با استفاده از مدل تحلیل پوششی داده ها و آنتروپی برای انتخاب خصیصه در داده کاوی

دانلود فایل پاورپوینت تفاوت وب کاوی و داده کاوی

دانلود فایل پاورپوینت تفاوت داده کاوی و وب کاوی

مقاله ارائه یک راهکار جهت استفاده از تکنیک های داده کاوی در فرآیند نگهداری و تعمیرات

مقاله داده کاوی در رایانش ابری : انتخاب سرویس SAAS به عنوان بهترین سرویس رایانش ابری برای کاهش هزینه های داده کاوی

مقاله یک رویکرد جدید برای تشخیص کم کاری تیروئید با استفاده از تکنیک های داده کاوی

مقاله تاثیر برهمکنش اسپن مدار راشبا بر ترازهای انرژی و عامل لانده‌ی الکترون درون شبه نقطه کوانتومی دو بعدی با پتانسیل شبه هماهنگ

مقاله تشخیص داده‌های پرت با استفاده از بهبود عملکرد الگوریتم تشخیص داده‌های خاص با استفاده از برچسب مثبت

مقاله ترکیب الگوریتم کرم شب¬تاب باینری و داده¬کاوی برای تشخیص خودکار نارسایی عروق کرونری قلب از روی تصاویر SPECT

مقاله تشخیص و شناسایی خطای توربین گاز با استفاده از روش های ترکیبی داده کاوی k - means آنالیز مولفّه های اصلی ( PCA ) و ماشین بردار پشتیبان SVM ) )

مقاله تخمین پارامترهای هواشناسی با استفاده از تکنیک های داده کاوی در پایگاه داده های منابع آب

مقاله تشخیص نفوذ در شبکه های کامپیوتری با استفاده از تکنیک های داده کاوی مبتنی بر انتخاب ویژگی

مقاله داده کاوی از طریق سیستم‌های خبره جهت پیش‌بینی و تشخیص سرطان سینه و مقایسه آن با دیگر روش‌های داده کاوی

مقاله داده کاوی در بستر ابر : معرفی معماری بر اساس تکنولوژی RAID جهت جلوگیری حملات بر مبنای داده کاوی بر سرویس ابری

مقاله حفظ حریم داده کاوی الگوهای تربیتی برای شبکه ترافیک داده ای

مقاله روش های تشخیص سیگنال در مراقبت های دارویی با استفاده از تکنیک های داده کاوی

مقاله طراحی و پیاده سازی یک سیستم هوشمند برای تشخیص بیماری دیابت نوع 2 به کمک الگوریتم های داده کاوی

مقاله شبیه سازی فرآیند جذب گاز کربن دی اکسید با استفاده از نرم‌افزار اسپن هایسیس

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران