بخشی از مقاله
چکیده
امروزه سیستمهای جستجو بلادرنگ و انواع مختلف ابزار کاووش در حال ظهور به مردم اجازه پیگیری اخبار و حواشی و غیره را در شبکههای اجتماعی میدهند. از نقطه نظر محبوبیت میتوان به شبکهی اجتماعی یوتیوب به عنوان یک مکانیزم به منظور سهولت در انتشار اخبار ویدئویی اشاره کرد، اما این سرویس فرصتی را برای اشکال جدید و متفاوتی ازهرزنامهها ایجاد میکند. در این مقاله به تشخیص و شناسایی گرههای هرزنگار در گراف شبکهی یوتیوب با استفاده از روش طبقهبندی پرداخته میشود و قصد بر این است تا با استخراج ویژگیهای مناسب ساختاری و توپولوژیک گراف شبکه و همچنین ویژگیهای محتوایی پیامهای ارسالی به شناسایی هرزنگاران با استفاده از یک روش طبقهبندی مناسب پرداخته شود.
تعدادی ویژگی مرتبط با محتوای ارسالی توسط کاربر، رفتار کاربر در شبکه و همچنین ویژگیهای مبتنی بر توپولوژی گراف شبکه در نظر گرفته شده است، که میتوان از این ویژگیها به صورت بالقوه برای تشخیص هرزنگاران استفاده کرد. سپس با استفاده از معیار اطلاعات متقابل از بین آنها پر اهمیتترین ویژگی ها شناسایی شدهاند. نهایتا با بکارگیری این ویژگیها به کمک الگوریتم جنگل تصادفی مدلی برای تشخیص هرزنگاران ارائه شده است. نتایج آزمایشها بیانگر این است که این روش موفق به شناسایی درصد بالایی از هرزنگاران شده است.
کلمات کلیدی شبکه اجتماعی، هرزنگار، هرزنامه، جنگل تصادفی، اطلاعات متقابل
مقدمه
شبکههای اجتماعی به بستری از ارتباطات تبدیل شدهاند که علاوه بر ارتباطات بین دوستان و خانواده، ارتباطات تجاری را نیز شامل میشوند و کاربران زمان قابل توجهی را دراین شبکهها صرف میکنند. محبوبیت شبکه-های اجتماعیعمدتاّ نتیجهی در اختیار گذاشتن ویژگیهایی مانند پیوستن به شبکه - عضو شدن - ، امکان تعریف ترجیحات خود و به اشتراکگذاری اطلاعات دلخواه با دیگر اعضای شبکه است. با رشد عضویت و فعالیت کاربران، شبکه های اجتماعی تکامل پیدا کردهاند و امکاناتی از قبیل ساخت حساب کاربری، بازاریابی ویروسی یا بازاریابی مبتنی بر هدف، مبارزات انتخاباتی، دولت الکترونیک، تبلیغات محصول و غیره را برای کابران فراهم کردهاند.
اگرچه شبکههای اجتماعی تاثیرات زیادی داشتهاند اما یکی از بزرگترین چالشهایی که کاربران با آن مواجه میشوند مقابله با کاربران هرزنگاری است که به پخش اطلاعاتی ناخواسته در حجم وسیع میپردازند. انگیزه هرزنگاری معمولا شامل ترویج محصولات، بازاریابی ویروسی، گسترش مد و در برخی موارد آزار و اذیت کاربران قانونی برای کاهش اعتماد نسبت به یک سرویس خاص میباشد. علاوه بر این فعالیتهای هرزنگاری باعث اتلاف پهنای باند کابران میشوند.
هرزنگاران همواره به دنبال مکانی برای سواستفاده و ارسال هرزنامههای خود هستند. انواع هرزنامهها عبارتند از : نامه الکترونیکی، گروه خبری، صفحات الکترونیکی، وبلاگ، پیام گوشی همراه، پیام فوری و لحظهای و تبلیغات دستهبندی شده. هر کدام از موارد ذکر شده میتوانند انواع مختلفی داشته باشند. با توجه به اینکه همزمان با پیشرفت روشهای تشخیص هرزنگار، افراد هرزنگار هم روشهای خود را بهبود میدهند بنابراین روشهای تشخیص هرزنگار همواره نیاز به بروزرسانی و پیشرفت دارند. این مقاله قصد دارد تا ضمن مطالعه روشهای موجود تشخیص هرزنگار، مجموعهای شامل ویژگی های رفتاری کاربران، ویژگیهای آماری گرهها و ویژگیهای توپولوژیک گراف شبکه از شبکهی اجتماعی یوتیوب استخراج نماید که امکان تشخیص بهتر هرزنگاران را فراهم آورد سپس از یک روش یادگیری ماشین که کارایی لازم را برای یک شبکهی اجتماعی با تعداد گرههای بسیار زیاد را داشته باشد،
برای تشخیص هرزنگاران استفاده نماید. روش پیشنهادی استفاده از RF می-باشد. علاوه بر این، هدف دیگر این مقاله معرفی ویژگیهایی است که نسبت به دیگر ویژگیها قدرت ایجاد تمایز بیشتری داشته باشند، برای دسترسی به این هدف روش MI استفاده شده که نتیجهی آن در قسمت ارزیابی گزارش میشود. ساختار ادامه این مقاله به شرح زیر است: در بخش دوم، پیشینه تحقیق مورد مطالعه قرار می گیرد. بخش سوم به ارائه روش پیشنهادی اختصاص دارد. در بخش چهارم، روش پیشنهادی بر روی مجموعه داده یوتیوب مورد ارزیابی قرار میگیرد و نهایتا بخش پنجم به نتیجهگیری خواهد پرداخت.
مرور پژوهشهای مرتبط
با توجه به اهمیت مسئلهی هرزنامهها، مطالعات بسیاری در زمینهی شناسایی هرزنگاران انجام شده است. از موضوعات تحقیقاتی عمده در تشخیص هرزنگاران میتوان به شناسایی هرزنامههای پستهای الکترونیکی ، تشخیص هرزنامههای صفحات وب و تشخیص هرزنامههای مبتنی بر پیامهای فوری و اشاره کرد.لی و حسیهه به تحلیل لینک جهت شناسایی هرزنگاران پرداختند. طبق تحقیقات آنان با گسترش محبوبیت اینترنت، پست الکترونیکی به یک ابزار ارتباطی فوق العاده در زندگی روزانهی مردم تبدیل شده است، که به وسیله آن مردم تقریبا در هر گوشهای از دنیا میتوانند بلافاصله به دوستان، همکاران و خویشاوندان خود دسترسی داشته باشند.
البته حجم عظیمی از هرزنامههای تبلیغاتی/تجاری به طور جدی سیستم پستهای الکترونیکی را مورد تهدید قرار میدهند. آنها در تحقیقات خود ساختار خوشهای هرزنگاران را بر اساس ترافیک جمعآوری شده در یک سرور پست الکترونیکی دامنه مورد بررسی قرار دادند.طبق تحقیقات لی و همکاران ارزش شبکههای اجتماعی با فراهم کردن یک جامعه محبوب و قابل اعتماد برای شرکت کردن، اشتراک گذاری و تعامل شرکت کنندگان به دست میآید. ارزش جامعه و سرویسهای مرتبط مانند جستجو و تبلیغات توسط هرزنگاران، اشاعه بدافزار و دیگر محتواهای آلوده تهدید میشوند. در تلاش برای حفظ ارزشهای جامعه و اطمینان از موفقیت بلند مدت به طراحی و ارزیابی یک سیستم شناسایی خودکار حساب های کاربری آلوده پرداخته شد.
در طول 7 ماه مطالعه، آنها قادر به فریب حدود 36.000 حساب کاربری مورد سواستفاده قرار گرفته در توییتر برای دنبال کردن مجموعه تله عسلهای خود شدند. ژو و همکاران از رویکرد دیگری برای شناسایی هرزنگاران بهره جستند. آنان مطالعات خود را روی مجموعه دادهی عظیمی از شبکهی اجتماعی رنرن، یکی از بزرگترین سرویسهای شبکههای اجتماعی موجود در چین پیاده کردند. تکنیک اصلی استفاده شده توسط این تیم، ماتریس فاکتورگیری میباشد.
ماتریس فاکتورگیری از دسته الگوریتمهایی است که برای بسیاری از ماشینهای یادگیری کاربردی مانند 1 LSIو 2 CF مناسب است . یک مزیت ماتریس فاکتورگیری نشان دادن دانش مورد نظر در قالب مختصر و مفید است. مزیت دیگر این است که ماتریس فاکتورگیری میتواند بقیهی منابع اطلاعاتی مانند اطلاعات برچسبگذاری شده و روابط اجتماعی را ترکیب کند. برای شناسایی ویژگیهای هرزنگاران راماچاندران و همکاران مطالعاتی روی خواص شبکهای پستهای الکترونیکی هرز انجام دادهاند. تجزیه و تحلیل آنان همبستگی بین هرزنگاران و محل فیزیکی آنان را نشان میدهد و همچنین مطالعات آنان بر روی استفاده از آیپیهای سرقتی برای حملات هرزنگاران تاکید میکند.
استاوا و همکاران به شناسایی نوعی از حملات هرزنگاران در شبکههای اجتماعی به نام حمله لینک تصادفی3 یا RLA پرداختند. در RLA گروهی از کاربران مخرب به مجموعهای از قربانیان به صورت تصادفی انتخاب شده حمله میکنند. تعریف مورد نظر از RLA شامل تعداد زیادی از حملههای موجود - مانند هرزنامههای پستهای الکترونیکی و غیره - میباشد و هدف از تحقیق شناسایی ماهیت مشترک این حملات است. با توجه به سختی محاسبات تشخیص RLA از دو الگوریتم حریصانه4 و پیادهروی درخت5 برای شناسایی مجموعه حملات احتمالی استفاده شد.
گائو و همکاران از دو ویژگی تمایزدهنده هرزنگاران از کاربران عادی با عناوین پوشش توزیع شده6 و طبیعت انفجاری7 استفاده کردهاند. آنها کار خود را روی تشخیص و توصیف مبارزات انجام شده هرزنگاری با استفاده از پیامهای دیواری8 ناهمزمان در شبکهی اجتماعی فیسبوک شرح دادهاند. اردلی و همکاران در تحقیقات خود از هر دو ویژگی مبتنی بر لینک و مبتنی بر محتوا برای گردآوری مجموعهی کوچکتری از ویژگیهایی که قادر به محاسبهی تدریجی در یک روش چابک برای جلوگیری از هرزنگاری استفاده کردند. همچنین آنان نشان دادند که تکنیکهای ماشین یادگیر از جمله انتخاب گروهی9،لاجیتبوست10 و جنگل تصادفی به طور قابل توجهی باعث بهبود دقت میشوند.
ابولیش و بهات یک متد یادگیری ترکیبی برای امنیت شبکههای اجتماعی از طریق ارزیابی کارایی برخی طبقهبندیهای ترکیبی روی ویژگی-های کاربران قانونی و هرزنگاران در شبکههای اجتماعی مبتنی بر جوامع بدیع ارائه کردهاند. هدف متد ارائه شده تشخیص هرزنگاران در شبکههای اجتماعی با استفاده از شناسایی ویژگیهای توپولوژیک و مبتنی بر جوامع با استفاده از طبقهبندیهای ترکیبی مطرحی مانند، بگینگ و بوستینگ، میباشد.
ویژگی-های توپولوژیک ارائه شده شامل: درجهی خروجی کلی 12، ضریب تقابل کلی 13، نسبت ورود/خروج کلی14 و ویژگیهای مبتنی بر جوامع شامل: نود مرکزی15، عضویت جوامع16، درجهی خروجی خارجی17، نسبت ورود/خروج خارجی18، ضریب تقابل خارجی19، احتمال لینک خروجی خارجی20، گروهبندی لینک خروجی خارجی21، روی مجموعه داده شبکهی اجتماعی در دنیای واقعی بسط داده شد. نتایج بدست آمده برای هر دو طبقهبندی ترکیبی را با استفاده از درخت تصمیمگیری22 و الگوریتم ناییو بیز23 مورد ارزیابی قرار گرفته شد.
بنونوتو و همکاران به بررسی رفتار هرزنگاران در شبکهی اجتماعی یوتیوب پرداختند. آنها مجموعه دادهای استخراج کردند و به مطالعه بر روی آن پرداختند. در این تحقیق هرزنگاران به دو دسته متفاوت هرزنگار و ترویج دهنده تقسیم شدند که ترویج دهنده24 به معنی کاربری است که با ترویج ویدئوی مرتبط با موضوعی پرطرفدار و محبوب سعی بر جلب توجه و دیده شدن دارد. به هرحال هر دو از این دستهها باعث انتشار محتوای آلوده و به تبعیت آن کاهش اعتماد کاربران نسبت به سیستم میشوند.
برای رفع این مشکل به استخراج ویژگیهای متمایز کننده بر اساس نوع رفتار کاربران و همچنین ویژگیهای ساختاری پرداختند و با استفاده از این ویژگیها و الگوریتم SVM موفق به طبقهبندی صحیح درصد بالایی از کاربران به دو طبقه هرزنگار و غیر هرزنگار شدند.
روش پیشنهادی
در این مقاله مشکل شناسایی هرزنگار در شبکه اجتماعی یوتیوب در نظر گرفته شده است. برای این منظور تعدادی ویژگی مرتبط با محتوا، رفتار اجتماعی کاربر و ویژگیهای ساختاری شبکه شناسایی شد که به صورت بالقوه میتوان برای شناسایی هرزنگار استفاده کرد. از این ویژگیها به عنوان صفاتی برای یادگیری ماشین یادگیری به منظور طبقهبندی کاربران استفاده شده است. از آنجایی که هنگام کار با شبکههای اجتماعی باید با حجم عظیمی از دادهها کار کرد در نتیجه روشی قابل قبول است که در این حجم از داده نیز به درستی کار کند.
برای این منظور روش جنگل تصادفی - - RF که یک الگوریتم یادگیر قوی و مناسب برای دسته بندی دادهها میباشد مورد استفاده قرار گرفته شده است. برای بهبود و بالا بردن عملکرد RF راهکار محدود کردن تعداد ویژگیها بررسی میشود. به همین منظور روش پیشنهادی استفاده از رویکرد اطلاعات متقابل - - MI برای شناسایی ویژگیهای موثر در تشخیص هرزنگاران مورد بررسی قرار گرفت. و در انتها نتیجهی روش پیشنهادی با کارهای انجام شده در گذشته مورد مقایسه قرار گرفته شده است.
جنگل تصادفی
RF یک الگوریتم یادگیری گروهی است. اساس الگوریتم ساخت یک درخت تصمیمگیری کوچک با تعداد کمی از ویژگیها است که یک فرآیند محاسباتی ساده است. اگر بتوان تعدادی درختهای تصمیمگیری ضعیف و کوچک به صورت موازی ساخت، میتوان درختها را با یکدیگر ترکیب کرد و به یک فرم تنها و قوی یادگیر با استفاده از میانگین یا رای اکثریت تبدیل کرد. در عمل، جنگلهای تصادفی تا به امروز به عنوان الگوریتمهای یادگیر دقیق شناخته میشوند.
اطلاعات متقابل
اطلاعات متقابل یک مقدار غیر خطی است که برای اندازهگیری میزان وابستگی دو متغیر تصادفی - خطی یا غیر خطی - بکار برده میشود. به طور خاص، MI مقدار اطلاعات" بدست آمده در مورد یک متغیر تصادفی از طریق متغیر تصادفی دیگر را به صورت کمی محاسبه میکند.
مفهموم MI به صورت پیچیده با آنتروپی25 یک متغیر تصادفی مرتبط است. MI نشان دهندهی میزان وابستگی عمومی میباشد. به بیان دیگر MI مقدار اطلاعات در مورد متغیر تصادفی X، که از متغیر Y بدست میآید را بیان میکند. MI را به صورت I - X,Y - نمایش میدهند. میزان MI موجود بین دو متغیر تصادفی X و Y طبق رابطه زیر قابل محاسبه است. در رابطه تابع H - X - میزان آنتروپی متغیر تصادفی X و تابع H - Y|X - میزان آنتروپی شرطی متغیر تصادفی Y نسبت به متغیر تصادفی X را نشان میدهد. آنتروپی شرطی به معنای میزان اطلاعاتی است که از یک متغیر تصادفی - Y - با آشکار شدن و دانستن یک متغیر تصادفی دیگر - X - بدست میآید.
مجموعه داده شبکه اجتماعی یوتیوب
برای شناسایی هرزنگاران در شبکهی اجتماعی یوتیوب نیاز به دادههای کاربران در ابعاد بزرگ و واقعی است که در این مقاله از اطلاعات جمعآوری شده در آگوست 2009 توسط بنونوتو و همکارانش از سایت یوتیوب استفاده شده است. در این جمعآوری اطلاعات مربوط به بیش از 260.000 کاربر بدست آمده است. قبل از اقدام به ساخت مجموعه داده نیاز به تعریف برخی اصطلاحات بکار برده شده برای درک بیشتر طبقهبندی است. اگر یک ویدئو به یک موضوعی پاسخ داده باشد آن را ویدئوی دارای پاسخ یا ویدئوی موضوعی می-نامند همچنین به کاربری که حداقل یه ویدئو پاسخی ارسال کرده باشد، کاربر پاسخگو و کاربری که حداقل یک ویدئوی دارای پاسخ ارسال کند به آن کاربر دارای پاسخ میگویند. با توجه به این توضیحات هرزنگار به کاربری گفته می-شود که به حداقل یک ویدئوی پاسخ نامرتبط با ویدئوی اصلی ارسال کند.
مجموعه دادهای به وسیله جمعآوری اطلاعات در یوتیوب ساخته شده است. این جمعآوری که توسط بنونوتو و همکارانش [16] به مدت یک هفته اجرا شده است و ویدئوی دارای پاسخ و ویدئوی پاسخ جمع آوری شده است. برای اطلاعات بیشتر به مقاله ذکر شده مراجعه شود. در کل مجموعه دادهای از 829 کاربر بدست آمد که به 672 کاربر قانونی و 157 کاربر هرزنگار طبقه بندی شدند. این تعداد کاربران 20.644 ویدئوی پاسخی به 9.796 ویدئوی دارای پاسخ، ویدئو ارسال کردهاند.
تجزیه و تحلیل ویژگیهای رفتاری کاربران
از آنجاییکه کاربران قانونی و هرزنگاران اهداف متفاوتی را در سیستم دنبال میکنند انتظار میرود تا به صورت متفاوتی هم رفتار کنند. بنابراین در گام بعدی به تجزیه و تحلیل مجموعهی بزرگی از ویژگیها که منعکس کنندهی رفتار کاربران با هدف بررسی قدرت تبعیض آمیز نسبی آنها پرداخته میشود. در اینجا ما همانند [16] از سه مجموعه ویژگی با نامهای ویژگیهای ویدئو، ویژگیهای کاربر و ویژگیهای شبکهی اجتماعی استفاده نموده ایم.
ویژگی های ویدئو نشاندهندهی خصوصیات خاصی از ویدئوهای آپلود شده توسط کاربران است. هر یک از ویدئوها به وسیلهی ویژگیهایی مانند مدت زمان،تعداد بازدیدها و تفسیرهای دریافت شده، رتبه، تعداد دفعاتی که ویدئو به عنوان موردعلاقهمندی انتخاب شده و همچنین شماره افتخارات توصیف می-شود. علاوه بر این سه گروه جداگانه از فیلمهای متعلق به کاربر در نظر گرفته میشود. گروه اول شامل اطلاعات جمع شده از همه ویدئوهای آپلود شده توسط کاربر است، که با نشان دادن دید دیگران نسبت به همکاری این کاربر در شبکه مفید واقع میشود. گروه دوم فقط شامل پاسخهای ویدئویی است که ممکن است آلوده شده باشند. گروه آخر فقط شامل ویدئوهای دارای پاسخ است که کاربران دیگر به آن پاسخ دادهاند.