بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
- مروری بر پدیده اسپم
- روشهای مبتنی بر یادگیری برای فیلترکردن اسپم ها
- روش Naïve Bayesian برای فیلترکردن اسپم
- معیارهای ارزیابی
- بررسی نتایج
اسلاید 2 :
- Spam/junk/bulk Emails
- پیغامهایی در Inbox شما هستند که شما آن ها را نخواسته و زمانی را برای بیرون انداختن آنها صرف می کنید.
- در مقابل آن : نامه های الکترونیکی معتبر یا ham
- 75-80% از حجم نامه های الکترونیکی را اسپم ها (spam) تشکیل می دهند
- باعث ایجاد ترافیک شده و فضای حافظه و قدرت محاسباتی را از بین می برد
- باعث ضرر اقتصادی
- هزینه ای بالغ بر 50 میلیون دلار بر اقتصاد امریکا در سال 2005 وارد ساخته
- با توجه به شخص و سازمان گیرنده ایمیل، اسپم ها تعریف می گردند
- ایمیل های در حوزه هنر برای شخصی که علاقه ای به هنر ندارد اسپم تلقی می شود
اسلاید 3 :
- Subject: AWARD CONFIRMATION
We wish to congratulate you over your email success in our computer BALLOTING SWEEPSTAKE held on 16th Nov, 2007. This is a millennium scientific computer game in which email addresses were used. It is a promotional program aimed at encouraging internet users; therefore you do not need to buy ticket to enter for it.
- “ You have won!!!!“, you are almost winner of $...
- “Your order”, your item$ have to be $hipped
- “Lose your weight”, no subscription required
- “Assistance required”, an amount of million 25 US$
- “Download it”, free celebrity wallpapers download
اسلاید 4 :
- بیشتر به منظور اهداف اقتصادی است
- تبلیغ برای یک کالای خاص، سرویس خاص و یا یک ایده خاص
- فریب کاربران برای استفاده از اطلاعات محرمانه آنها ß phishing
- انتقال یک نرم افزار خرابکار به کامیپوتر کاربر (مثلاً ویروس)
- ایجاد یک خرابی به صورت موقتی در Mail-Server
- ایجاد ترافیک
- پخش مطالب غیراخلاقی
üاسپم ها دائما در حال تغییر محتوا و شکل هستند، برای اینکه توسط آنتی اسپم ها شناسایی نشوند.
اسلاید 5 :
- روشهای اقتصادی
- دریافت وجه برای ارسال ایمیل : مانند پروتکل Zmail
- روشهای قانون گذاری مانند قانون US-CAN SPAM
- امن سازی بسترانتقال ایمیل
- تغییر پروتکلهای انتقال ایمیل (مثل SMTP) و ارانه پروتکل های جایگزین مانند SenderId
- کنترل ایمیل های خروجی در برابر کنترل ایمیل های ورودی
- فیلترینگ ایمیل ها
1- فیلترینگ براساس یکسری قاعده از پیش تعریف شده:
— if $SENDER$ contains “schacht” $ACTION$=$INBOX$ [HAM]
— if $SUBJECT$ contains “Win” $ACTION$=$DELETE$ [SPAM]
— if $BODY$ contains “%%Money%%” $ACTION$=$DELETE$ [SPAM]
مشکلات: قوانین ثابت، وابستگی به زبان، چه تعداد قانون؟، چه کسی باید قوانین را تعریف
کند
2- فیلترینگ براساس لیست سیاه و سفید (Black list-white list)
ü3- فیلترینگ مبتنی بر یادگیری (آماری) و با استفاده از ویژگیهای پیغامها
اسلاید 6 :
- در یادگیری ماشینی برای عمل دسته بندی (Classification) از نمونه داده هایی (ایمیل هایی) که از قبل فراهم شده است(داده آموزش یا training) و هر یک دسته(کلاس،برچسب) مشخص دارد، استفاده کرده و دسته(کلاس) یک نمونه جدید(تست) را تعیین می کنیم.
- بردار پارامترها( ویژگی ها) θ حاصل آموزش دسته بند با استفاده از یک مجموعه داده است که قبلاً جمع آوری شده است
- نیز تابع آموزش (Training) می باشد
- تست داده جدید: m’ یک ایمیل جدید است و دسته آن را می خواهیم (spam or ham?)
اسلاید 7 :
- یادگیری Offilne
–داده های آموزش با کلاس(برچسب) مشخص، قبلا جمع آوری شده است و ما در طی دسته بندی از همین داده های ثابت استفاده می کنیم
- <email type=“HAM_email”>Soha! sorry cannot reach at 18:00</email>
- <email type=“spam”>hi, have you thought online credit?</email>
- ....
–
- یادگیری Online
–کاربر طبقه بندی هایِ غلط دسته بند را تصحیح می کند و برچسب صحیح را معین می کند؛ به این ترتیب حجم داده آموزش به تدریج افزوده می شود و دانش دسته بند افزایش می یابد
- مثال: در سرویس ایمیل Yahoo! می توان بر روی “spam” و یا “not spam” کلیک کرد و بدین ترتیب Yahoo! از کاربر Feedback می گیرد
اسلاید 8 :
- مراحل:
–داده های آموزش شامل ایمیل های برچسب خورده
–دو کلاس مشخص: Spam و Ham
–استخراج ویژگی ها
- توکن بندی متن ßتشخیص کلمات ßحذف Stopwords(مثل if,and اگر، به، با،...)ß ریشه یابی کلمات (Stemming) ßحذف علامات نقطه گذاری مثل ؛ ، ....ß ویژگیهای به صورت لغت
- عبارات دست ساخته که متمایز کننده می باشند مثل$$Money$$
- ویژگی های مشخصه دامنه مثل To، From، تاریخ ارسال پیام، اندازه پیام، ...
–انتخاب ویژگی های برتر : Feature Selection
–دسته بندی ایمیل به عنوان اسپم و یا ایمیل معتبر
- دسته با احتمال بیشتر = برچسب کلاس
–ارزیابی نتایج (Precision/Recall)
اسلاید 9 :
- این ویژگی ها نشانه هایی برای دسته بندی یک پیغام به اسپم و یا ایمیل معتبر است
- ویژگی های یک ایمیل
–کلمات (توکن ها)
- free, win, online, weight, fortune, offer ،...
–عبارات
- “Free”, “only$”, “order now!”،...
–کاراکترهای خاص
- $pecial, grea8, 4u،...
–سرآیند ایمیل (وابسته به دامنه)
- نام فرستنده، آدرس ایمیل فرستنده و گیرنده، نام دامنه (مثل .edu، .ir، .com)، آدرس های IP
اسلاید 10 :
ß کلمات و عبارات همان ویژگی ها هستند، اگر در آن سند/ایمیل موجود باشند ، مقدارشان برابر 1 بوده
و اگر در آن سند/ایمیل موجود نباشند مقدارشان برابر صفر خواهد بود