بخشی از مقاله
چکیده
برای کاربران اینترنت و شبکه های اجتماعی تبدیل به یک راه بسیار محبوب برای برای برقراری ارتباط و تعامل آنلاین شده اند. همواره کاربران زیادی از زمان خود را در شبکه های معروف اجتماعی - به عنوان مثال، فیس بوک، توییتر، گوگل پلاس، و غیره - برای خواندن اخبار، بحث در مورد وقایع و ارسال پیام صرف می کنند. متاسفانه، این محبوبیت ،خود باعث جذب مقدار قابل توجهی از اسپمرها می شود - به عنوان مثال، پیام های ارسالی حاوی URLs ها و آدرس تجاری،دنبال کردن یا فالو کردن مقدار بزرگتر کاربران، و غیره - ، که منجر به سوء تفاهم های بزرگ و یا ناراحتی و نارضایتی در فعالیت های اجتماعی کاربران می شود.
در این مقاله، یک راه حل نظارت بر یادگیری ماشین وجود دارد که برای تشخیص اسپمر کآرا، ارائه شده است. ابتدا، یک مجموعه داده از گوگل پلاس جمع آوری می شود که شامل 30116 کاربرو بیش از 16 میلیون پیام است. پس از آن، مجموعه داده نشاندار از کاربران ساخته می شود . به طور دستی کاربران را به اسپمرها و غیر- اسپمرها طبقه بندی می کند. سپس، مجموعه ای از ویژگی هایی را از محتوای پیام ها و رفتار اجتماعی کاربران استخراج می کند،در SVM که ماشین آلات بردار را پشتیبانی می کند، بر اساس الگوریتم تشخیص اسپمر اعمال می کند.
مقدمه
در چند سال گذشته، شبکه های اجتماعی آنلاین مانند فیس بوک، توییتر، گوگل پلاس و غیره تبدیل به یکی از راه های اصلی برای کاربران اینترنت برای حفظ ارتباطات با دوستان خود شده اند. [3-1] .بر اساس گزارش Statista ، تعداد کاربران شبکه های اجتماعی به 1,61 میلیارد تا اواخر سال 2013 رسیده، و تا پایان سال جاری یعنی 2017 ،کاربران جهان، حدود 3,49 میلیارد برسد. با این حال، همراه با موفقیت های بزرگ فنی و بازرگانی، پلت فرم شبکه های اجتماعی نیز مقدار زیادی از فرصت ها را برای اسپمر رادیو و تلویزیون فراهم می آورد، که پیام ها و رفتار مخرب را گسترش می دهد .
بر اساس گزارش [5] Nexgate، در طول نیمه اول سال 2013، رشد اسپم اجتماعی ، 355٪ درصد بسیار سریع تر از میزان رشد حساب و پیام در اجتماعی ترین شبکه های مارک دار و نشان دار شده است.تاثیرات پیام های اسپم اجتماعی از اهمیت بالایی برخوردار است .یک پیام اسپم اجتماعی به طور بالقوه توسط همه دنبال کنندگان و دوستان دریافت کننده دیده می شود. واین شاید سبب تفسیر اشتباه و سوء تفاهم در مبحث های خاص و روند عمومی شود .
به عنوان مثال، روند موضوعات پر طرفدار، همیشه توسط اسپمرها برای انتشار نظرات با آدرس ها URLs مود سوء استفاده قرار گرفته اند ، کلیه کاربران با وب سایت های کاملا نامربوط مورد راهنمایی غلط قرار گرفته اند. از آنجا که اکثر شبکه های اجتماعی، خدمات مربوط به URLها را در داخل پیام ارائه می دهند، بدون مراجعه به سایت شناسایی محتوای آنها بسیار مشکل است. چند طرح مطرح شده از حوزه های صنعت و دانشگاه وجود دارند که در مورد راه حل های ممکن برای تشخیص اسپم و فیلتر کردن بحث می کند - توصیف شده در بخش . - 2با این حال، آنها هم یا بی اثر هستند یا بر اساس شرایط بیش از حد سختگیرانه کمتر مورد استفاده قرار می گیرند .
به عنوان مثال، بسیاری از مطالب و ویژگی رفتاری ، و غیره. این مقاله ، محتوای اسپم اجتماعی و مسائل مربوط به رفتار را بررسی می کند، و یک مدل یادگیری ماشینی موثر برای تشخیص اسپم پیشنهاد می کند . این مقاله شامل بخش های اصلی زیر است: * مقاله، ویژگی اسپمر را برای تشخیص اسپم و تست نتایج کل گوگل پلاس تصویب و بروز رسانی می کند. بزرگترین سایت شبکه اجتماعی در چین است .تحت Google+ API ، و یک مجموعه داده های خاص برای استخراج پیامهای عمومی هر کاربر غیر مجاز در داخل پلت فرم Google+ توسعه یافته است. این اولین گام برای تجزیه و تحلیل داده ها است .
*نوآوری مهم این مقاله، بررسی مجموعه ای از مهم ترین ویژگی های مربوط به محتوای پیام و رفتار کاربران و اعمال آنها بر روی SVM بر اساس الگوریتم طبقه بندی برای تشخیص اسپمر است.
آزمایش و کار مقایسه نشان می دهد که راه حل پیشنهادی قادر به ارائه دقت و صحت بالاتر است. *از طریق الگوریتم های انتخاب ویژگی و تست کردن آزمایش، ده تا از مهم ترین ویژگی و ارزش و وزن این ویژگی ها شناخته شده است. نتایج آزمایش بیشتر به ویژگی اسپم انتخاب شده اعتبار می دهد - طبقه بندی دستی - و همچنین توضیح می دهد که چرا راه حل پیشنهادی می تواند عملکرد عالی به دست آورد .
با روابط کاربری دوستانه، کارآمد و نتیجه طبقه بندی دقیق ، کاربران عادی قادر به تشخیص هر کاربر Google+ با عملیات ساده هستند . [6]
بخش 2 پس زمینه ای از شبکه های اجتماعی Google+ ارائه می دهد و برخی از آثار مرتبط در مورد تشخیص اسپمر را نمایش می دهد .
بخش 3 نحوه جمع آوری داده های مجموعه داده و ویژگی های استخراج کردن را معرفی می کند .
بخش 4 مدل تشخیص اسپمر آزمایشات و ارزیابی مربوطه را توصیف می کند .در نهایت، نتیجه گیری و کارهای آینده در بخش 5 داده شده است.
.2 کارهای مرتبط
2,1 شبکه های اجتماعی Google+
با توجه به [3]، تعداد کاربران سایت Google+ به بیش از 500 میلیون رسیده است .آمار نشان می دهد که Google+ مداوما در میان 25 مورد برتر، بیشترین وب سایت باز دیدشده در طول چند سال گذشته است . [7] نرم افزار Google+ ، شبیه به فیس بوک هست، که در آن کاربران پیام ارسال می کنند، با دوستان ارتباط برقرار می کنند، و در مورد اخبار و به اشتراک گذاری موضوعات جالب از طریق خدمات شبکه های اجتماعی صحبت می کنند پیغام های ارسال شده به دنبال کنندگان یا اصطلاحا فالو کنندگان بلافاصله تحویل داده خواهد شد . هر کاربر ، توسط یک نام کاربری یا یوزرنیم منحصر به فرد شناسایی می شود .
کاربری که دنبال یا فالو می شود می تواند درخواست را قبول ، و یا فقط رد کند . شکل 1. یک مثال نمودار دنبال کننده ساده را توصیف می کند که در آن کاربر A کاربر B را دنبال می کند ، و کاربر B و C یک دیگر را دنبال می کنند .تعدادی عبارات در Google+ وجود دارد که به کاربران برای ارتباط برقرار کردن با دیگران با یک روش بهتر، از جمله اشاره، ریپست یا ارسال مجدد و هشتگ اجازه می دهد.
.2.1.1 اشاره کردن
یک پیام Google+،شامل یک سری از کلمات کلیدی مانند # نام کاربری است، به این معنی که فرستنده پیام مایل است تا با کاربران ذکر شده چیزی را به اشتراک بگذارد در نتیجه، Google+ به طور خودکار به کاربران با ارسال پیام اشاره شده یا ذکر شده در صفحه اصلیش اطلاع خواهد داد.