بخشی از مقاله
چکیده
شناسایی هرزنامهها1 یک کار مهم است که طی آن پیامکهای هرز شناسایی و پالایش میشوند. تعداد زیادی پیامک هر روز ارسال میشود و برای یک کاربر به خاطر سپردن و ارتباط دادن پیامکهای جدید با پیامکهایی که قبلا دریافت شدهاند، بسیار دشوار است. در این مقاله، مساله شناسایی هرزنامههای پیامکی مورد بررسی قرار گرفته است و برای این منظور یک روش مبتنی بر انتخاب ویژگی با طبقهبندی ماشین یادگیری شدید - ELM - ارائه شده است.
پس از انجام پیش پردازشهای متنی کار در دو مرحله انجام شده است. در مرحله اول، ویژگیهای بارز و بااهمیت با استفاده از یک روش مدلسازی موضوعی مبتنی بر LDA انتخاب میشوند. سپس، در مرحله دوم، روش طبقهبندی ELM برای دستهبندی پیامکها به دو دسته، یعنی پیامک هرز و پیامک غیر هرز استفاده میشود. برای تجزیه و تحلیل، پارامترهای عملکرد مانند دقت، بازخوانی و سنجشF نیز ارزیابی میشوند. نتایج تجربی نشان میدهند که روش پیشنهادی در هردو حالت مجموعه کامل ویژگی و حالت انتخاب ویژگی - LDA - بهتر از روش پایه عمل میکند.
.1 مقدمه
سرویس پیام کوتاه2 - پیامک - روز به روز محبوبتر میشود. تعداد زیادی پیامک هر روز توسط میلیاردها کاربر ارسال و دریافت میشوند و ترافیک پیامک به طور قابل ملاحظهای درحال افزایش است. پیامک به خوبی مورد پذیرش قرار گرفته و یکی از سرویسهای ضروری خدمات ارتباطی مبتنی بر متن در تلفنهای همراه و دستگاههای دیجیتال شخصی است.
گزارش تحقیقاتی پورتیو[1] 3 نشان دهنده اهمیت خدمات پیامک و اهمیت کسب و کار و اقتصاد تلفن همراه است. همانطور که در این تحقیق اشاره شده است، بازار جهانی پیامهای موبایل در سال 2010 به ارزش 179,2 میلیارد دلار بوده است، در سال 2011 به 200 میلیارد دلار رسیده و در سال 2014 احتمالا به 300 میلیارد دلار خواهد رسید. این گزارش همچنین نشان میدهد که در سال 2010 بیش از 6,9 تریلیون ترافیک در سراسر جهان افزایش یافته است. این افزایش در حجم ترافیک پیامک، پیامهای هرز - پیامهای ناخواسته - را ایجاد کرده است.
اکثر پیامکهای دریافت شده توسط تلفنهای همراه، متاسفانه پیامهای هرز مزاحم، مانند: فرصتهای اعتباری بانکها، اطلاعیههای تبلیغاتی، تخفیف مربوط به فروشگاهها، اطلاعیههای برنده شدن در قرعه کشی و تبلیغات ناخواستهاند. از سوی دیگر، هر زمان که یک پیامک غیر هرز توسط یک کاربر دریافت میشود، یافتن ارتباط بین پیامک دریافتی جدید با پیامکهای موجود برای او دشوار است. موضوعبندی پیامک راه حل این مشکل است، جایی که یک زنجیره زمانی از پیامهای متصل، به کاربر برای درک سریع پیامهای جدید با مجموعهای از پیامهای موجود کمک میکند.
شناسایی هرزنامه و موضوع، یک مشکل بزرگ در زمینه ایمیل کاوی است که روشهایی در این راستا ارائه شده است، اما این مفاهیم برای اطلاعات ارتباطات پیامک - پیامک کاوی - 1 مورد بررسی قرار نگرفته است. کار ارائه شده در این مقاله از کارهایی است که توسط شاراف و نیگوانی [2] برای شناسایی موضوع ایمیل با استفاده از مدلسازی موضوعی2 انجام گرفته است. در اینجا، شناسایی موضوع پیامک با استفاده از الگوریتم مدلسازی موضوعی مبتنی بر تخصیص نهان دیریکله - LDA - 3 قبل از طبقهبندی پیامک به هرزنامهها و پیامکهای غیرهرز به عنوان روش انتخاب ویژگی انجام میشود. چالش اصلی در تجزیه و تحلیل پیامکها این است که اندازه استاندارد پیامک محدود به 140 کاراکتر میباشد
علاوه بر این، متن پیامک پر از اصطلاحات و اختصارات است. بنابراین، یک کار چالش برانگیز برای شناسایی پیامکهای هرز و تجزیه و تحلیلهای دیگر بر روی پیامکها داریم. در این مقاله مسائل مربوط به پالایش هرزنامهها و شناسایی موضوع مورد بررسی قرار گرفته است و یک روش جدید با استفاده از ماشین یادگیری شدید - ELM - 4 بعنوان راه حل برای این مساله ارایه شده است.
.2 کارهای مرتبط
هرچند کارهایی در زمینه تشخیص و پالایش هرزنامههای پیامکی انجام شده است، ولی با وجود اهمیت موضوعات پیامک، کم بودن کارهای انجام شده در این حوزه، به دلیل این واقعیت است که دادهها در پیامکها معمولا بسیار کوتاه، ناقص و متشکل از تعداد زیادی از همگنیها5 در پیامها میباشند. اصطلاح همگن مانند یک واژه خاص به نظر میرسد، مثلا عبارت «Hello» میتواند به صورت «Hell0» یا «He110» نوشته شود که هنگام خواندن یکسان هستند.
بنابراین فعالیتهای پیش پردازشی ویژهای، جهت پردازش پیامکهای متنی برای تشخیص هرزنامهها و شناسایی موضوع، مورد نیاز است. در این بخش کار مربوط به تشخیص پیامک هرز و شناسایی موضوع مورد بررسی قرار گرفته است. پالایش پیامکهای هرز ناخواسته، یک وظیفه حیاتی است زیرا ترافیک را افزایش میدهد و پهنای باند شبکه را مصرف میکند. طبقهبندی پیامکها یک حوزه تحقیقاتی محبوب و جدید است. برخی از روشهای پالایش هرزنامههای ایمیل میتوانند به روشهای پالایش پیامک هرز مرتبط باشند، در اینجا نیز از روشهای پالایش هرزنامه استفاده میشود.
چند روش یادگیری ماشین برای مقابله با عملکرد پیامکها جهت طبقهبندی پیامکها توسط آلمیدا مقایسه شده است [4]، که نشان داده ماشین بردار پشتیبان - SVM - 1 یک نوع طبقهبندی مناسب برای پیامک است. پیامک، وبلاگ و پیامهای هرز بر روی سه صندوق پیام کوتاه با استفاده از روش پالایش هرزنامه با استفاده از روش مبتنی بر ویژگی2 و مبتنی بر مدل فشرده سازی3 توسط Cormack و همکاران ارزیابی شده است. یک نظرسنجی از شیوههای پالایش ایمیل هرز موجود در چندین مطالعه، نمایش داده شده است
تجزیه و تحلیل امکان دو الگوریتم، به نامهای یادگیری بیزی و SVM برای پالایش هرزنامههای ایمیل، توسط یاداو انجام شده است .[6] یکی از روشهای محبوب مدلسازی موضوعی، بهنام LDA، جهت استخراج ویژگیهای ناپیوسته ناشی از ارتباطات پیامکی از طریق موبایل، برای شناسایی علاقهمندی کاربر مورد استفاده قرار میگیرد
عنوانبندی پیامک امکاناتی از قبیل بررسی سریعتر حجم زیادی از پیامکها، طبقهبندی پیامکهای مشابه و شناسایی موضوع را در حجم زیادی از پیامک، برای کاربران فراهم میکند. عنوانبندی یک مفهوم جدید در حوزه پیامک است، در حالی که این یک مفهوم موجود و محبوب در حوزه ایمیل میباشد. فرآیند استخراج مکالمه از طریق پیامهای متنی داینامیک توسط وانگ ارائه شده است
دو روش LExLinC و LExTreC، برای تجسم موضوعات ایمیل در صندوق ورودی کاربر، توسط دهقانی پیشنهاد شده است .[9] یکی دیگر از رویکردها جهت بازسازی موضوعات ایمیل، پیادهسازی مجدد ایمیل با استفاده از تطبیق شباهت توسط یاه و هارنلی ارائه شده است .[10] یک روش برای کاهش پیامهای هرز بر اساس موقعیتها4 با طبقه بندی آن به موقعیتهای خوب یا بد و منبع هرزنامه توسط Fonseca ارایه شده است
در حوزه ایمیلهای هرز ادبیات خاصی ارائه شده است. هرچند آثار محدودی در حوزه شناسایی و خلاصه سازی پیامک وجود دارد، اما هنوز در این حوزه موضوعات جدید و چالش برانگیزی وجود دارند که جزئیات آن مورد بررسی قرار نگرفته است. میتوان برای کشف نتایج مفید در خصوص مشکلات، دادههای کارآمد و روشهای استخراج متن را مورد استفاده قرار داد.
چالش اصلی در مقایسه تجزیه و تحلیل پیامک و ایمیل این است که، ایمیل ساختار دارد، یعنی دارای عنوان و فرمت است، در حالیکه پیامک ساختار ضعیفی دارد، فرمت ندارد و طول آن کوتاه است. پیامکها همچنین مشکل همگنسازی دارند، کاراکترهای مشابه در پیامک استفاده می شوند، مثلا کلمه Before را میتوان در پیامک با B4 نوشت، بنابراین پردازش و آمادهسازی پیامکها جهت تجزیه و تحلیل در مقایسه با ایمیل بسیار دشوار است. در این مقاله، از مدلسازی موضوعی مبتنی بر تخصیص نهان دیریکله - LDA - برای شناسایی موضوع پیامک استفاده شده است. پالایش و شناسایی هرزنامه نیز توسط الگوریتم مبتنی بر ماشین یادگیری شدید - ELM - انجام میشود. در ادامه روش کار توضیح داده شده است.
.3 روش پیشنهادی
روش کار پیشنهادی در شکل 1 نشان داده شده است. ابتدا پیامکها از منابع داده بازیابی شده و برای تجزیه و تحلیل آماده میشوند.