بخشی از مقاله
چکیده:
در این مقاله، یک روش ترکیبی الگوریتم ﮊنتیک برای انتخاب خصیصه و روش دستهبندی عهک برای جداسازی نامههای هرز پیشنهاد شدهاست. روش پیشنهادی روی مجموعه نامههای استاندارد غطع ارزیابی شدهاست. نتایج حاصل از ارزیابی نشان میدهد که روش پیشنهادی علاوه بر حفظ و یا بالا بردن معیارهای دقت، فراخوانی و ذً ، تعداد خصیصهها را حدوداﹰ به ١/٠تعداد اولیه کاهش میدهد. همچنین، مقایسه نتایج حاصل از میانگین دقت، فراخوانی و ذً دستهبندی هرزنامه با روش روش پیشنهادی با روشهایی که از قبح به همراه یک روش فیلتری انتخاب خصیصه استفاده میکنند و سایر روشهای آماری جداسازی هرزنامهها نشان میدهد که روش پیشنهادی از نظر دقت و فراخوانی قابل مقایسه و حتی در مواردی بهتر بوده است.
واﮊه های کلیدی: هرزنامه، یادگیری ماشین، الگوریتم ﮊنتیک، قبح، انتخاب خصیصه.
۱- مقدمه
امروزه نامه الکترونیکی یکی از ابزارهای مهم و پراستفاده برای ارتباطات بین مردم است. محبوبیت روز افزون و کمی هزینه نامهالکترونیکی این زمینه را فراهم آوردهاست که افرادی اقدامبه ارسال نامههای الکترونیکی نامربوط در حجم انبوه کنند. این نامهها به اصطلاح هرزنامه، جعهژح - یا غهس١ نامیده میشوند.هرزنامهها باعث اتلاف وقت، اشغال منابع، اتلاف پهنای باند و درنتیجه طولانی شدن زمان ارتباط میشوند. بررسیهای انجامشده نشان دادهاست که امروزه در حدود ۰۷% نامههای کاری الکترونیکی، هرزنامه هستندب۱م.تا کنون تعدادی فیلتر ضد هرزنامه با دو رویکرد مختلف عرضهشدهاند: در رویکرد اول که بدون بهرهگیری از یادگیری ماشین - عقسغپغ - است، روشهایی مانند روشهای شهودی٢، لیست سیاه٣ ، امضاﺀ٤، بر اساس هش٥ و آنالیز ترافیک ارایه شدهاند.
رویکرد دوم مبتنی بر یادگیری ماشین - عق٦ - است. در این رویکرد، به یک مجموعه آموزش - حاوی نامههای الکترونیکی عادی و هرز - نیاز است. هریک از روشهای یادگیری ماشین، از روی دادههای مجموعه آموزشی داده شده،یک دستهبند یاد میگیرند. سپس دستهبند تولید شده، برای تعیین نوع نامههای الکترونیکی موجود در مجموعه آزمون - نامهس های الکترونیکی که از قبل نوع آنها تعیین شده است وبا نامهس های مجموعه آموزش متفاوت هستند. - بهکار گرفته شده وکارای دستهبند، اندازهگیری میشود. موفقیت روشهای یادگیری ماشین در دستهبندی متونب۴۱م، محققین را به سمت استفاده از این روشها در فیلترسازی هرزنامهها هدایت کردهس است.
در واقع فیلترسازی هرز نامههای هرز بر اساس محتوای متنی آنها، حالت خاصی از دستهبندی متون محسوب میشود که در آن دو کلاس هرزنامه و نامههای مفید مدنظر هستند.مسأله جداسازی هرزنامهها به نحوی که هیچ نامه عادی به اشتباه در مجموعه نامههای هرز قرار داده نشود، اهمیت زیادی دارد، و از آن به عنوان یک معیار مهم در ارزیابی کارایی فیلترهای هرزنامهها استفاده میشود. یادآوری میگردد هزینه به اشتباه بلاک نمودن یک نامه عادی به عنوان نامه هرز، بیشتر ازهزینه آن است که یک نامه هرز از فیلتر عبور نماید. در نتیجه، این تفاوت باید در هر دو مرحله یادگیری و آزمون، در نظر گرفته شود.در این مقاله، یک روش جداسازی نامههای هرز از نامههای عادی با رویکرد یادگیری ماشین ارایه شدهاست.
این روش از الگوریتم ﮊنتیک برای انتخاب خصیصه و روش دستهبندی قبح برای یادگیری دستهبند استفاده میکند. برای سنجش کارایی، روش پیشنهادی بر روی مجموعه داده بهس کار رفته است. بهمنظور مقایسه، از روش قبح بهتنهایی نیز برای دستهبندی همان مجموعه داده، استفاده شدهاست.ادامه این مقاله بهاین ترتیب سازماندهی شدهاست: در بخش ۲پژوهشهای مرتبط توضیح داده شده است. بخش ۳ اطلاعات پیشزمینه مورد نیاز را بیان میکند. در بخش ۴ روش پیشنهادی ارایه میشود. سپس در بخش ۵ شرایط و پارامترهای آزمایش ونتایج ارزیابی روش پیشنهادی بیان میشود. در نهایت در بخش۶ نتیجهگیری و زمینههای پژوهش آینده بحث میشود.
۲- پژوهشهای مرتبط
از جمله روشهای فیلترسازی هرزنامهها با رویکرد یادگیری ماشین میتوان به روشهای یادگیری قانون٧ب۲ -۳م، درخت تصمیمب۴م، بیزین سادهب۵-۶م ،نقبح ب۷-۸م و یا ترکیب دستهبندهای مختلفب۰۱م اشاره نمود. یکی از متداولترین روشها در زمینه دستهبندی متون و نامهس های الکترونیکی، روش بیزین میباشد. این روش، یادگیری و دستهبندی سریعی دارد و به راحتی امکان یادگیری افزایشی دارد. طعهلاهح و همکارانشب۱۱م از روش دستهبندی بیزین٩برای جداسازی نامههای هرز استفاده کردند.و همکارانشب ۴-۶م در مجموعه مقالات خود، فیلتر بیزین سادهپیشنهاد شده توسط طعهلاهح و همکارانش را توسعه داده و تأثیر تعداد متفاوت خصیصه و اندازههای متفاوت مجموعه آموزش روی کارایی فیلتر را بررسی نمودند.
در عین حال، کارایی روشبیزین ساده با روش بر مبنای حافظه مقایسه شده و نتایج نشان دادهاست که هر دو روش نسبت به روش فیلتر بر مبنای کلمهسکلیدی١٠ کارایی بیشتری دارند. ئکصغهب و غطع نیزفیلتری به نام ژپهعهژح ارایه کردهاند. این فیلتر نوعی فیلتر بیزین محسوب میشود. تنها تفاوت آن با روش بیزین ساده در تعریف نشانهس های آماری است و همین کارایی آن را به مقدار کمی افزایش میدهدب۶۲م.حبیبی و کفائیب ۶۲م، نوعی فیلتر بیزین ارایه دادهاند که در ساختار پردازش و پیشپردازشی آن، تغییراتی انجام شده است. برای مثال تمامی اطلاعات نظیر کاراکترها و علایم متن اصلی، برچسبها و کدهای ئعصلا، سرنوشتهها، موضوع ، آدرسها،تصاویر و غیره بررسی میشود. این مسأله نرخ جداسازی صحیح الگوریتم را افزایش داده است.
و همکارانشب۷م از قبح برای دستهبندی نامهها باتوجه به محتوایشان استفاده کردند. سپس کارایی روش را با روشهای ، و ذذ1خB مقایسه نمودند.روشهای1خB و قبح کارایی مورد قبولی از نظر صحت١٢ وسرعت در آزمونها نشان دادند. البته زمان یادگیری 1خB بیش از حد طولانی میباشد. فکzکهصطپح و همکارانشب۲۱م نیز از یک قبح ساده و یک دیکشنری شخصی برای تعیین نامههای الکترونیکی تجاری استفاده نمودند.با وجود آنکه روش نزدیکترین همسایه از جمله مباحث مطرح در یادگیری ماشین میباشد، در زمینه فیلترسازی هرزنامهها، به ندرت استفاده شدهاست. ؟غط؟2أط1 و ؟غهلا ب۳۱م این روش را برای دستهبندی نامههای متنی بهکار برده و با سایر روشها مقایسه کردهاند.در کنار روشهای آماری ذکر شده، روشهای تکاملی نیز برای دستهبندی هرزنامهها استفاده شدهاند که در ادامه توضیح دادهمیشوند:
غهکپصح و همکارانشب۸۱م روشی برای فیلترسازی نامههای هرز با روش تکاملی خاصی به نام هن ب۹۱م ارایه دادهاند.مدل ارایه شده به منظور حل مسأله فیلترسازی نامههای هرزمورد استفاده قرارگرفتهاست.در زمینه انتخاب وکاهش خصیصه به منظور دستهبندی متون، روشهای آماری فراوانی ارایه شده استب۵۲و ۰۲م. هفکغططژپل و همکارانش درب۰۲م، روشی برای انتخاب خصیصه به نامبً1 ارایه کردهاند. این روش نسبت به نع که از قویترین و متداولترین روشهای انتخاب خصیصه بهشمار میرود، به همراه قبح کارایی بهتری در تفکیک نامهها نشان دادهاست.
بهمنظور انتخاب خصیصه متون با روشهای تکاملی، در ب۶۱م یک روش روکشی بر اساس Aن ، دادهاند. در این روش از چندین معیار آماری برای اختصاص رتبه به خصیصهها - کلمات - استفاده شده است.در زمینه انتخاب خصیصه برای دستهبندی نامههای هرز بااستفاده از روشهای تکاملی کاری مشاهده نشدهاست.
۳- پیش زمینه
۳-۱- پیشپردازش
برای استفاده از نامهها جهت یادگیری، باید آنها را به شکل مناسبی نمایش داد. به همین دلیل، ابتدا مراحل پیش پردازش وکاهش خصیصهها، روی نامهها انجام گرفته و سپس دستهبند ساخته میشود.در مرحله پیشپردازش معمولاﹲ سه عمل حذف کلمات زاید١٣،حذف برچسبها و ریشهیابی روی کلمات اسناد صورت میس گیرد. کلمات زاید کلمات معمولی هستند که حاوی اطلاعات
چندانی نمیباشند، به علاوه در تمامی متون به تعداد زیاد وجود داشته و تأثیری در متمایز ساختن متن نسبت به سایر متون ندارند، مانند حروف ربط و حروف اضافه. برچسب ها نیز مانند برچسب های عق1د و عقگ می باشند، که همه آنها ازمحتوای نامه حذف میگردند. البته در نظر گرفتن برچسبها دردستهبندی و جداسازی هرز نامهها میتواند بسیار مفید باشد.
زیرا اکثر نامههای هرز شامل برچسبهای مشابهی هستند.امادر آزمایشات انجام شده در این مقاله، این اطلاعات در نظر گرفته نشدهاند. در ریشهیابی نیز، به جای مشتقات مختلف یک کلمه، تقریباﹲ ریشه کلمه آورده میشود که بدین ترتیب تعداد کلمات سند تا حدودی کاهش مییابد. البته انجام ریشهیابی کلمات ضروری نمیباشد. الگوریتمهای متعددی برای این عمل وجود دارد، که از این میان میتوان به ریشهگیر اشاره نمود.در مرحله شاخصگذاری، در واقع شیوه نمایش نامه تعیین میسگردد. معمولترین شیوه، استفاده از مدل فضای برداری است که١٢٧یک روش غیرمعنایی میباشد. یعنی هر نامه را میتوان بهس