بخشی از مقاله
چکیده
با توسعه فناوری و رشد سیستمهای اطلاعاتی، مواجهه با حجم رو به رشد دادهها به مهمترین دغدغه متخصصان در حوزههای مرتبط تبدیل شده است. دادهکاوی پاسخی جهت استفاده موثر از این حجم بالای اطلاعات است؛ بهطوری که رویکردهای پیشگویانه و توصیفی دادهکاوی میتوانند در حوزههای گوناگون مورد استفاده قرار گیرند. شبکههای اجتماعی نیز سیستمهای تحت وبی هستند که به کاربران اجازه ایجاد پروفایل و اشتراکگذاری آن علاوه بر امکان برقراری ارتباط با دیگران را میدهند و امروزه شاهد رشد بسیار زیاد تعداد کاربران آنها در موضوعات گوناگون هستیم؛ تا جایی که تعداد کاربران فعال فیسبوک از یک میلیارد گذشته است.
روشن است که در چنین حالتی به راحتی امکان استفاده از تکنیکهای دادهکاوی جهت کشف دانش سودمند وجود دارد. یک شبکه اجتماعی به صورت یک گراف نمایش داده میشود که شامل رئوس - گرهها - و یالها است. بنابراین با توجه به ویژگیهای این محیط استفاده از تکنیکهای دادهکاوی در تجزیهوتحلیل شبکههای اجتماعی به دو رویکرد ساختاری و محتوایی تقسیم میشود. در نوع اول شبکه از دیدگاه اتصالات مورد بررسی قرار میگیرد و در نوع دوم تحلیل محتوای رسانهای شبکه مد نظر است. در این مقاله سعی شده علاوه بر تشریح این روشها، چالشهای مهم موجود مورد نقد و بررسی قرار گیرند.
-1مقدمه
دادهکاوی ابزار قدرتمندی است که میتواند برای پیدا کردن الگوها و روابط در دادهها به ما کمک کند هدف کلی فرایند استخراج دادهها، استخراج اطلاعات از مجموعه دادهها و تبدیل آن به یک ساختار قابل درک است.
ماهیت شبکههای اجتماعی باعث جمع شدن اطلاعات شده است. از زمانی که دادههای خیلی بزرگ در اینترنت بوجود آمدند استفاده از دادهکاوی هم افزایش پیدا کرد، که با ظهور غولهای شبکه های اجتماعی مثل گوگل پلاس، فیسبوک و توییتر طیف گستردهای از سوالات جدید و گزینههای تحقیق و الگوریتمی ایجاد نموده است
از آنجایی که دادهکاوی حوزهای میان رشتهای است ما نیز در این تحقیق سعی را بر آن داشتیم تا اطلاعات ادغام شده این حوزه و شبکههای اجتماعی را مورد بحث و بررسی قرار دهیم و همچنین بتوانیم با بررسی چالشهای موجود در این زمینه به راه حلهای مناسبی دست یابیم.
تقسیم بخشهای این مقاله به شرح زیر است: در بخش اول تعاریفی از شبکههای اجتماعی و دادهکاوی ارائه خواهد شد سپس راجع به اهمیت استفاده از دادهکاوی در حوزههای گوناگون و بهطور ویژه شبکههای اجتماعی بحث میشود. در ادامه خصوصیات ساختار شبکههای اجتماعی و چالشهای آن مورد بررسی قرار میگیرند.
-2شبکههای اجتماعی
شبکههای اجتماعی مجموعهای از گرهها و یالها هستند که یک گراف را تشکیل میدهند در حقیقت این شبکهها گرهای از افراد، سازمانها و سیستمهای مرتبط به هم هستند که در یک یا چند نوع وابستگی متقابل قراردارند این وابستگیها عبارتند از: مخاطبین اجتماعی، خویشاوندی، تجاری و یا عضویت در یک شبکه خاص. شبکههای اجتماعی در سالهای اخیر رشد سریعی داشتهاند.
جنبه کلیدی بسیاری از شبکههای اجتماعی این است که آنها اطلاعات غنی وجود دارند و چالشهای بیسابقهای را از منظر کشف دانش و دادهکاوی ارائه میکنند. دو نوع اصلی از داده وجود دارد که اغلب در زمینه شبکههای اجتماعی مورد تجزیهوتحلیل قرار میگیرند:
- 1 تجزیهوتحلیل مبتنی بر ساختار - 2 تجزیهوتحلیل مبتنی بر محتوا.
در این قسمت برخی از خصوصیات پس زمینهای شبکههای اجتماعی را معرفی میکنیم که از طریق نمایندگی آنها در قالب نمودارها و ویژگیهای کلیدی آغاز میشود و در مجموعه دادهها مورد استفاده قرار میگیرد. در حالی که انواع مختلفی از دادهها وجود دارد که از متن ساده تا موارد ویدئویی هستند معمولا تمرکز کاربر روی دادههایی است که به شکل خاصی ساخته شدهاند، که باید یک مدل ریاضی باشد تا بتوان به شکل کارآمد روی آن کار کرد. برای شبکههای اجتماعی کارآمدترین روش، سازماندهی دادهها به شکل نمودار است.
شکل-1مثالی از فرآیند تحلیل دادهها در شبکه اجتماعی
کاربران شبکههای اجتماعی را میتوان به عنوان گرههای حاوی اطلاعات مربوطه درمورد کاربرد آن مانند نام، سن، تاریخ تولد و غیره، بسته به نوع شبکه اجتماعی که با آن برخورد میکنیم نمایان کنیم. افراد در شبکههای اجتماعی به دنبال پیشنهادهای شغلی هستند پس لازم است اطلاعاتی مانند شغل را در مشخصات خود وارد کنند.
کاربران اغلب به گروههای بزرگتر سازماندهی می شوند، کاربرانی را که دارای مشخصات مشترک هستند ترکیب میکنند مثلا یک سرگرمی که متعلق به یک گروه سیاسی یا اجتماعی است یا یک رویداد که این افراد در کنار یکدیگر شرکت میکنند به چنین گروههایی خوشه میگوییم. گراف شامل دو مجموعه است، - 1 مجموعه تمام گرهها یا رأسهای آن - 2 . - V - مجموعه تمام یالهای آن - E - ، که رأسها را به یکدیگر وصل میکند ساختار G - V,E - شکل میگیرد در اکثریت شبکههای اجتماعی یالها غیر مستقیم هستند معمولا در رابطه بین کاربران هیچ جهتی وجود ندارد. برای ذخیره گراف به عنوان یک ساختار در یک کامپیوتر از ماتریس مجاورت لیستها استفاده میشود که در آن گرهها به هم متصل هستند و دارای ورودیهایی هستند که نشان دهنده اتصال است.
یکی دیگر از کیفیتهای مهم شبکههای اجتماعی مقدار زیادی از روابط دو گانه و سه گانه است که به عنوان زیرساخت شبکههای اجتماعی معرفی شده است. یک ستاره متشکل از دو گره است که توسط یک یال به هم متصل شدهاند اتصال در بسیاری از موارد متقارن و دو مرحله ای است همانطور که در بسیاری ازشبکههای اجتماعی دوستیابی مانند فیسبوک وجود دارد با این حال مواردی هم وجود دارد که در مورد بعضی از سلسله مراتب یا تعهدات بین کاربران صحبت از پیوندهای یکنواخت میکنند.
شکل-2نمونه ای ساختار دوگانه و سه گانه
شکل بالا یک ستاره است که از سه گره تشکیل شده است که به شیوه خاصی به هم متصل هستند که یک مورد آن درتمام ارتباطات بین کاربران متقابل است ممکن است این شکل نشان دهنده دوستی موجود بین سه کاربر باشد. دادههای مورد استفاده را می توان به روشهای مختلفی طبقه بندی کرد در مورد شبکههای اجتماعی، اندازه شبکه اتصال و همگنی آن را تحلیل میکنیم. برآوردها باتوجه به اندازه شبکه و مقدار دادههایی است که پردازش می شوند اندازه شبکه میتواند از شبکههای محلی با ده کاربر تا شبکههای اجتماعی با میلیونها کاربر متفاوت باشد
در برخی از برنامههای کاربردی ممکن است گرههای موجود برچسبگذاری شوند و برای انتشار این برچسبها هم از شبکههای اجتماعی استفاده شود مثلا ممکن است در یک برنامه نظرسنجی اجتماعی درباره موسیقی تعدادی از افراد علاقمند به یک سبک خاصی از موسیقی باشند و ممکن است با استفاده از اطلاعات ساختاری در شبکه به علاقه افراد در سبکهای دیگر موسیقی نیز پی برد. شبکههای اجتماعی حاوی اطلاعاتی درمورد ساختار و محتوای شبکه نیز هستند و از آنجایی که بعضی از این برچسبها همبسته هستند ساختار پیوند میتواند با انتشار برچسب بین گرههای مختلف مورد استفاده قرار گیرد.
-3دادهکاوی
دادهها مهمترین دارایی سازمانها هستند، اما پیدا کردن اطلاعات مفید از دادهها یک کار بسیار پیچیده است. دادهکاوی زمینهای است که درآن مطالعات و تکنیکهای تحقیق را به صورت موثر و اطلاعات واقعگرایانهتر ارائه می دهد.[2] دادهکاوی شناسایی الگوهای جدید و قابل اجرا در دادهها یا در پایگاه داده یا کشف دانش است. میتوان بازیابی اطلاعات، آمار، پایگاه دادهها، بصریسازی و یادگیری ماشین را زیربنای دادهکاوی دانست. ایده کلی در دادهکاوی استخراج دانش کاربردی از مجموعه بزرگ و پیچیده داده است.[3]
-1-3 اهمیت دادهکاوی در شبکههای اجتماعی
دادهکاوی یک ابزار در شبکههای اجتماعی مدرن بوده در سالهای گذشته استفاده فزاینده از تکنیکهای آن، باعث شده تبدیل به یک ضرورت شود. اطلاعات در شبکههای اجتماعی میتوانند در قالب رشتههای متنی، اعداد، مدلها و فرا دادهها باشد. با استفاده از دادههای موجود در شبکههای اجتماعی میتوان نتایج و اطلاعات ظاهرا نامحسوس و پنهان در لایههای مختلف را استخراج نمود. مسئله اصلی در زمینه کاوش شبکههای اجتماعی ساختار و ویژگیهای منحصر به فرد دادههای این شبکه است که البته چالشهای زیادی را پیش روی محققین قرار داده است. در بخشهای بعد، برخی از روشهای تحلیل شبکههای اجتماعی را که تکنیکهای دادهکاوی نقشی کلیدی در آن ایفا میکنند بررسی خواهیم نمود.
-2-3اهمیت دادهکاوی در صنعت
یکی از مهمترین مشوقها برای کشف قابلیتهای دادهکاوی، مزایای مستقیم آن در هنگام استفاده از شاخههای مختلف کسبوکار و صنعت بوده است. در حالی که بازاریابی در گذشته بیشتر یک رشته روانشناختی محسوب میشد اما امروزه به شدت برمبنای تفسیر ریاضی از آمار بازار استوار شده است. برای بدست آوردن - استخراج - به منظور کشف و بررسی وضعیت فعلی بازار ابتدا به اعداد نیاز است، بعد دادههای جمعآوری شده پردازش و تجزیهوتحلیل میشوند و در نهایت به شیوهای تفسیر میشوند که به بخش بازاریابی یک شرکت اجازه می دهد براساس نتایج تحقیقات تصمیمگیری کند. ممکن است مقدار و همچنین پیچیدگی دادههای استخراج شده با تجزیهوتحلیل دستی متفاوت باشد. از این رو نیاز به دادهکاوی از لحاظ بازار، الگوهای بازار به هیچ وجه نادیده گرفتنی نیست.
محققان بازار همیشه به دنبال اطلاعات درمورد عادتهای کاربر، رفتار منافع، خدمات اخیر و حتی وضعیت اجتماعی هستند. یکی از مهمترین مزایای استفاده از شبکههای اجتماعی این است که آنها تمام بخشهای ذکر شده بالا را شامل میشوند و همه آنها را در یک مکان بدون نیاز به مدیریت مکانیزم جمعآوری اطلاعات" دستی" بدست میآورند. در عوض، کاربران شبکههای اجتماعی الگوریتمهای دادهکاوی را با اطلاعات مورد نیازخود ارائه میدهند.
این اتفاق با برقراری ارتباط با دیگر کاربران و آپلود اطلاعات خود میافتد و گاهی اوقات به طور غیر ارادی بیانگر این میباشد که چه چیزهایی را دوست دارند یا علاقمند هستند. با توجه به این رویکرد، کاربر نباید فعالیت فعلی خود را برای اطلاعات شخصی خود متوقف کند و در بسیاری موارد حتی متوجه نمیشوند که عادتهایش تحت نظارت قرار می-گیرد. به عبارت دیگر دادهکاوی در شبکههای اجتماعی یک کار آسان، سریع و کارآمد برای تجزیهوتحلیل رفتار مشتری در مقایسه با روشهای بازاریابی سنتی است و به همین دلیل در اغلب موارد ترجیح داده میشود.
-3-3اهمیت دادهکاوی در مباحث علمی
دادهکاوی یکی از موضوعات علمی اصلی در مطالعات حال حاضر است، شبکههای اجتماعی آنلاین مانند فیسبوک و توییتر موارد آزمون بسیار عالی را ارائه میدهند The Guardian میگوید مسابقه شخصیتی که در فیسبوک توسط شرکت کمبریج آنالیتیکا انجام شد، اطلاعات بیش از شش میلیون نفر را جمعآوری و تحلیل نمود. در این مسابقه برخی ادعا داشتند که قادرند بهتر از خود کاربر پیشبینی شخصیتی انجام دهند. با وجود اینکه که یک کاربر ممکن است حداقل سیصد دوست در فیسبوک داشته باشد منطقی است که این نتیجه را نمیتوان با نظرسنجیهایی که بصورت سنتی انجام میشود بدست آورد. با این وجود شبکههای اجتماعی یک محیط بسیار مناسب را برای پیشبرد دادهکاوی بوجود میآورد که بعدها میتواند به زمینههای دیگر تحقیقات اجتماعی منجر شود.
درصورتی که اطلاعات کافی در شبکههای اجتماعی وجود داشته باشد از روی نمایههای روانشاختی رفتاری میتوان یک نمایه را ایجاد نمود. چنین مشخصاتی نه تنها در صنایع صرفا صنعتی که در اهداف نظارتی و اجتماعی هم بسیار کاربرد دارد. بر اساس تست شخصیت ارائه شده توسط کمبریج آنالیتیکا برای جمعآوری دادههای روانشناختی درمورد کاربران اینترنت با پیشنهاد مردم به استفاده از خدمات خاص که به طور مستقیم به مشخصات فرد تنظیم میشود، میتوان به این نتیجه رسید که فرد نظر خود را در برخی مسائل اجتماعی و سیاسی خاص تغییر میدهد.
کمبریج آنالیتیکا قبلا در آمریکا ادعا کرده است که پایگاه دادهای با مشخصات شخصی حدود 220 میلیون شهروند آمریکا را دارد که مربوط به جمعیت رأی دهنده این کشور است. چنین مقدار فراوانی داده از یک رویداد سیاسی قابل توجه است که نمونهای از جمعآوری اطلاعات شخصی در شبکههای اجتماعی است.