بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

  • مروری بر پدیده اسپم
  • روشهای مبتنی بر یادگیری برای فیلترکردن اسپم ها
  • روش Naïve Bayesian برای فیلترکردن اسپم
  • معیارهای ارزیابی
  • بررسی نتایج

اسلاید 2 :

  • Spam/junk/bulk Emails
  • پیغامهایی در Inbox شما هستند که شما آن ها را نخواسته و زمانی را برای بیرون انداختن آنها صرف می کنید.
  • در مقابل آن : نامه های الکترونیکی معتبر یا ham
  • 75-80% از حجم نامه های الکترونیکی را اسپم ها (spam) تشکیل می دهند
  • باعث ایجاد ترافیک شده و فضای حافظه و قدرت محاسباتی را از بین می برد
  • باعث ضرر اقتصادی
  • هزینه ای بالغ بر 50 میلیون دلار بر اقتصاد امریکا در سال 2005 وارد ساخته
  • با توجه به شخص و سازمان گیرنده ایمیل، اسپم ها تعریف می گردند
  • ایمیل های در حوزه هنر برای شخصی که علاقه ای به هنر ندارد اسپم تلقی می شود

اسلاید 3 :

  • Subject: AWARD CONFIRMATION

 

       We wish to congratulate you over your email success in our computer BALLOTING SWEEPSTAKE held on 16th Nov, 2007. This is a millennium scientific computer game in which email addresses were used. It is a promotional program aimed at encouraging internet users; therefore you do not need to buy ticket to enter for it.

  • “ You have won!!!!“, you are almost winner of $...
  • “Your order”, your item$ have to be $hipped
  • “Lose your weight”, no subscription required
  • “Assistance required”, an amount of million 25 US$
  • “Download it”, free celebrity wallpapers download

اسلاید 4 :

  • بیشتر به منظور اهداف اقتصادی است
  • تبلیغ برای یک کالای خاص، سرویس خاص و یا یک ایده خاص
  • فریب کاربران برای استفاده از اطلاعات محرمانه آنها ß phishing
  • انتقال یک نرم افزار خرابکار به کامیپوتر کاربر (مثلاً ویروس)
  • ایجاد یک خرابی به صورت موقتی در Mail-Server
  • ایجاد ترافیک
  • پخش مطالب غیراخلاقی

üاسپم ها دائما در حال تغییر محتوا و شکل هستند، برای اینکه توسط آنتی اسپم ها شناسایی نشوند.

اسلاید 5 :

  • روشهای اقتصادی
  • دریافت وجه برای ارسال ایمیل : مانند پروتکل Zmail
  • روشهای قانون گذاری مانند قانون US-CAN SPAM
  • امن سازی بسترانتقال ایمیل
  • تغییر پروتکلهای انتقال ایمیل (مثل SMTP) و ارانه پروتکل های جایگزین مانند SenderId
  • کنترل ایمیل های خروجی در برابر کنترل ایمیل های ورودی
  • فیلترینگ ایمیل ها

    1- فیلترینگ براساس یکسری قاعده از پیش تعریف شده:

    — if $SENDER$ contains “schacht” $ACTION$=$INBOX$  [HAM]

    — if $SUBJECT$ contains “Win” $ACTION$=$DELETE$  [SPAM]

    — if $BODY$ contains “%%Money%%” $ACTION$=$DELETE$   [SPAM]

    مشکلات: قوانین ثابت، وابستگی به زبان، چه تعداد قانون؟، چه کسی باید قوانین را تعریف

     کند

    2- فیلترینگ براساس لیست سیاه و سفید (Black list-white list)

    ü3- فیلترینگ مبتنی بر یادگیری (آماری) و با استفاده از ویژگیهای پیغامها

اسلاید 6 :

  • در یادگیری ماشینی برای عمل دسته بندی (Classification) از نمونه داده هایی (ایمیل هایی) که از قبل فراهم شده است(داده آموزش یا training) و هر یک دسته(کلاس،برچسب) مشخص دارد، استفاده کرده و دسته(کلاس) یک نمونه جدید(تست) را تعیین می کنیم.
  • بردار پارامترها( ویژگی ها) θ حاصل آموزش دسته بند با استفاده از یک مجموعه داده است که قبلاً جمع آوری شده است
  •  نیز تابع آموزش (Training) می باشد
  • تست داده جدید: m’ یک ایمیل جدید است و دسته آن را می خواهیم (spam or ham?)

اسلاید 7 :

  • یادگیری Offilne

–داده های آموزش با کلاس(برچسب) مشخص، قبلا جمع آوری شده است و ما در طی دسته بندی از همین داده های ثابت استفاده می کنیم

  • <email type=“HAM_email”>Soha! sorry cannot reach at 18:00</email>
  • <email type=“spam”>hi, have you thought online credit?</email>
  • ....

  • یادگیری Online

–کاربر طبقه بندی هایِ غلط دسته بند را تصحیح می کند و برچسب صحیح را معین می کند؛ به این ترتیب حجم داده آموزش به تدریج افزوده می شود و دانش دسته بند افزایش می یابد

  • مثال: در سرویس ایمیل Yahoo! می توان بر روی “spam” و یا “not spam” کلیک کرد و بدین ترتیب Yahoo! از کاربر Feedback می گیرد

اسلاید 8 :

  • مراحل:

–داده های آموزش شامل ایمیل های برچسب خورده

–دو کلاس مشخص: Spam و Ham

–استخراج ویژگی ها

  • توکن بندی متن ßتشخیص کلمات ßحذف Stopwords(مثل if,and اگر، به، با،...)ß ریشه یابی کلمات (Stemming) ßحذف علامات نقطه گذاری مثل ؛ ، ....ß ویژگیهای به صورت لغت
  • عبارات دست ساخته که متمایز کننده می باشند مثل$$Money$$
  • ویژگی های مشخصه دامنه مثل To، From، تاریخ ارسال پیام، اندازه پیام، ...

–انتخاب ویژگی های برتر : Feature Selection

–دسته بندی ایمیل به عنوان اسپم و یا ایمیل معتبر

  • دسته با احتمال بیشتر = برچسب کلاس

–ارزیابی نتایج (Precision/Recall)

اسلاید 9 :

  • این ویژگی ها نشانه هایی برای دسته بندی یک پیغام به اسپم و یا ایمیل معتبر است
  • ویژگی های یک ایمیل

–کلمات (توکن ها)

  • free, win, online, weight, fortune, offer ،...

–عبارات

  • “Free”, “only$”, “order now!”،...

–کاراکترهای خاص

  • $pecial, grea8, 4u،...

–سرآیند ایمیل (وابسته به دامنه)

  • نام فرستنده، آدرس ایمیل فرستنده و گیرنده، نام دامنه (مثل .edu، .ir، .com)، آدرس های IP

اسلاید 10 :

ß کلمات و عبارات  همان ویژگی ها هستند، اگر در آن سند/ایمیل موجود باشند ، مقدارشان برابر 1 بوده

 و اگر در آن سند/ایمیل موجود نباشند مقدارشان برابر صفر خواهد بود

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید