بخشی از مقاله

چکیده

گسترش روز افزون شبکههای اجتماعی و استفاده کاربران از این شبکهها جهت تبادل اطلاعات و اشتراکگذاری منابع، به محیطی مناسب جهت اطلاع از وقایع و رویدادها تبدیل شده است. توییتر یک شبکه اجتماعی بسیار عمومی میباشد که روزانه میلیونها کاربر از اقصی نقاط جهان توسط این کانال ارتباطی به تبادل اطلاعات میپردازند. این ویژگی باعث شده است که بسیاری از رخدادها قبل از خبرگزاریها در این شبکه گزارش شوند؛ از این رو کشف رخدادها و مکان وقوع آنها بسیار با اهمیت است. در این مقاله به معرفی یک سیستم تشخیص رخداد در شبکه اجتماعی توییتر پرداختهایم، که به صورت خودکار با بررسی جریانهای توییتر به شناسایی رخدادها و مکان وقوع آنها میپردازد. این سیستم با بررسی دقیق ویژگیهای متنی توییتها، ارتباط میان توییتها، تحلیل رفتار کاربران، بررسی ارتباط بین مکان کاربر و مکان وقوع رخداد و برخی ویژگیهای دیگر به شناسایی رخدادها میپردازد. همچنین سیستم پیشنهادی با استفاده از پایگاه هستیشناسی وردنت و استراتژی کشف قوانین رابطهای میان کلمات توانایی تشخیص طیف وسیعی از وقایع را دارد. این سیستم از کاربردهای زیادی برخوردار است؛ از جمله این کاربردها، در خبرگزاریها برای شناسایی رخدادهای جدید و در بازاریابی جهت کشف بازار هدف مورد استفاده قرار میگیرد. نتایج بدست آمده از آزمایشها، بهبود صحت در تشخیص رخدادها توسط این سیستم در مقایسه با الگوریتمهای MABED و MVTD را نشان میدهد.

کلید واژه- تشخیص رخداد، توییتر، شبکه اجتماعی، تعیین مکان، وردنت.

.1 مقدمه

در سالهای اخیر شبکههای اجتماعی1 مختلف مانند فیسبوک2، توییتر3 و گوگلپلاس4 بسیار گسترش یافتهاند. این شبکهها به کاربران این امکان را میدهند تا با سایر کاربران ارتباط برقرار کنند و اخبار مربوط به یک رخداد5 را پیگیری کنند و به اشتراک بگذارند. به دلیل ازدیاد کاربران شبکههای اجتماعی گاهی اوقات ممکن است اخبار مربوط به یک واقعه قبل از خبرگزاریها رسمی در این شبکهها منتشر شوند. برای نمونه خبر انفجار در ماراتن بوستون یا خبر مرگ مارگارت تاچر نخست وزیر انگلستان قبل از سایر رسانهها در این شبکهها منتشر شد 2]،.[1 همچنین برخی اخبار به دلیل شرایط سیاسی یک کشور در خبرگزاریهای آن کشور منتشر نمیشوند، که دسترسی به این اخبار برای مردم و سایر خبرگزاریها بسیار مهم و قابل توجه است. برای نمونه میتوان به "بهار عربی" در خاورمیانه و شمال آفریقا اشاره کرد .[3]

رخدادها جنبههای گوناگونی دارند؛ رویدادهای سیاسی، وقایع محلی مانند تصادفات، اعتراضات یا حوادث طبیعی اشکال متفاوتی از رخدادها میباشند. رخدادهای بحرانی مانند زمینلرزه نیاز به گزارش سریع دارند تا توسط مردم دیده شوند. شبکههای اجتماعی یک راه حل برای این نیاز است، اما وجود انبوه پیامهای نامربوط و اشتباه6، پالایش و تحلیل دستی7 پیامها را غیرممکن کرده است. در پاسخ به این نیاز، در این مقاله به ارائه سیستمی جهت تشخیص رخدادها و تعیین مکان وقوع آنها در شبکه اجتماعی توییتر پرداختهایم. این سیستم با بررسی محتوا8، ابردادگان9 و دیگر ویژگیهای پیامهای منتشر شده در این شبکه، این عمل را انجام میدهد. نتایج آزمایشات و مقایسه-های مختلف نشان میدهد که روش ارائه شده از دقت بالایی در تشخیص وقایع نسبت به دیگر روشها برخوردار است. بخشهای بعدی این مقاله به این صورت سازماندهی شده است: در بخش2 تعاریف و تحقیقات پیشین مورد بررسی قرار میگیرد، در بخش3 سیستم پیشنهادی را معرفی کرده ایم، در بخش4 ارزیابی سیستم پیشنهادی نشان داده شده است، و در نهایت در بخش5 به نتیجهگیری مباحث ذکر شده میپردازیم.

.2 تعاریف و مفاهیم مبنایی

.1-2 رخداد چیست؟

یک رخداد اغلب به عنوان یک مفهوم انتزاعی یا تبلور در یک حوزه خاص - برای مثال یک بازهزمانی، اخبار، رسانههای اجتماعی - تعریف شده است .[4] در تعریفی دیگر چیزی است که در مکان و زمان خاص با تمام شرایط لازم و اجتناب ناپذیر اتفاق بیافتد .[5]

.2-2 توییتر

توییتر یکی از مشهورترین شبکههای اجتماعی، با بیش از 316 میلیون کاربر فعال در ژانویه 2015 میباشد .[6] این سرویس به کاربران اجازه میدهد پیامهای متنی تا 140 حرف، که توییت10 نامیده میشوند را ارسال کنند. افزون بر فرستادن نوشتار میتوان فیلم، عکس و صدا نیز ارسال کرد. در توییتر ایجاد و انتشار توییتها به روشهای گوناگونی مانند وبسایت توییتر، تلفنهای هوشمند11 و حتی پیامک ممکن است. پیامهای کاربر به عنوان جریان1 در صفحه توییتر کاربر نمایش داده میشوند .[7]

.3-2 مروری بر تحقیقات پیشین

از آنجا که بسط و توسعهی مبانی جدید در امور علمی و پژوهشی، بیشک، منوط به اشراف برپیشینه آنهاست، ایجاد وتوسعهی سیستم پیشنهادی نیز، مرهون امعان نظر و بررسیهای بایسته بر روی پژوهشهایی است که در حوزهی سیستمهای تشخیص رخداد، طی - دست کم - پنج سال گذشته انجام شدهاند. بطورکلی روشهای تشخیص رخداد را میتوان به دو گروه رخدادهای مشخص2 و نامشخص3 گروهبندی کرد .[8]

.1-3-2 تشخیص رخدادهای نامشخص

طبیعت توییتر انعکاس رخدادها در قالب توییتها است. اکثر کاربران به فهمیدن رخدادهای نامشخص و برنامهریزی نشده - مانند: حوادث بحرانی و اخبار فوری - علاقه خاصی دارند. چون هیچ اطلاعاتی در مورد اینگونه رخدادها وجود ندارد، معمولأً محققان سعی به استخراج و بررسی یکسری الگوهای موقتی از جریانهای توییتر میکنند. این الگوها معمولأً به صورت تکرار یک یا چند کلمه کلیدی در حجم زیادی از توییتها، یا انتشار حجم عظیمی از توییتها از یک مکان یا در یک بازه زمانی مشخص میباشند. از این رو سیستمهای تشخیص رخداد باید از کارایی و مقیاسپذیری خوبی برخوردار باشند و قادر به استخراج موضوعات توییتها و شناسایی رخدادها و گروهبندی آنها باشند. در ادامه به معرفی چند سیستم در این گروه میپردازیم.

از جدیدترین کارهای صورت گرفته، "گوایله"4 و همکاران در سال 2015 با بررسی ویژگیهای متنی توییتها و رفتار کاربران، سیستمی جهت تشخیص رخداد در توییتر ارائه کردند .[9] این سیستم ابتدا با استفاده از یک پیکره متنی به استخراج کلماتی که حداقل همراه با یک یادکرد5 آمدهاند میپردازد. در ادامه به جستجوی این کلمات در بازههای زمانی مشخص میپردازد و بازهای که بیشترین تعداد یادکرد را دارد انتخاب میکند. سپس با بررسی توییتهای منتشر شده در آن بازههای زمانی، کلماتی که از بیشترین تکرار برخوردارند، را به عنوان کلمات کلیدی استخراج میکند. در انتها بر اساس میزان اهمیت - بیشترین تعداد یادکرد - نتایج ارائه میشود.

"فانگ"6 و همکاران در سال2014 با استفاده از خوشهبندی چندنمایی7، سیستمی جهت تشخیص رخداد در توییتر پیشنهاد دادند .[10] این سیستم ابتدا با بررسی مجموعه توییتها به استخراج روابطمعنایی8، روابط هشتگها و روابط موقتی میپردازد و نتایج را در ماتریسهایی ذخیره میکند. سپس با سه روش 9SMC، 10CMC و کلمه-برچسب11 به خوشهبندی توییتها میپردازد. در انتها کلمات کلیدی با استفاده از درخت پسوندی12 از این خوشهها استخراج می گردند. در سوی دیگر، "لی" 13 و همکاران در سال 2012 سیستمی با نام Twevent ارائه کردند .[11] این سیستم با استفاده از سرویس n-gram ماکروسافت و ویکیپدیا محتوای توییتها

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید