بخشی از مقاله
چکیده
با افزایش سیستمهای کامپیوتری و گسترش روز افزون حجم اطلاعات در فضای اینترنت، یکی از مباحث مطرح در علم کامپیوتر، استخراج دادهها و تجزیه و تحلیل این حجم وسیع اطلاعات برای دستیابی به نتایج مورد نیاز است که از جمله این نتیجهگیریها میتوان به دستیافتن به هوش تجاری و پیشبینی بر اساس اطلاعات اشارهکرد. افزایش چشمگیر و محبوبیت ناگهانی رسانههای اجتماعی در سالهای اخیر فشاری برروی سازمانها قرارداده که در سراسر کسب و کار خود از دادههای رسانههای اجتماعی استفاده کنند در این مقاله به طور عمده بر استخراج دادهها مانند: نوشتهها، سخنان، اطلاعات کاربران و... از شبکههای اجتماعی اشاره شدهاست فیسبوک یک فرایند جامع استخراج در نوبه خود ارائه میدهد که به افراد کمک میکند تا یاد بگیرند که چگونه دادههای در حال تغییر و بی شکل را میتوان از شبکههای اجتماعی استخراج کرد.
به عبارت دیگر این مقاله بیشتر به توسعه یک الگوریتم برای تجزیه و تحلیل مناسب و بهتر برای بهبود تاکتیکهای بازاریابی کمک می کند. این مقاله یک مدل برای نمایش مراحل عمومی نرمافزار ارائه میدهد. بنابراین هدف اصلی این مقاه ارتقاء سطح علمی دانشجویان برای گسترش برنامههای کاربردی با استفاده از خزندگان وب برروی شبکههای اجتماعی است. این برنامه با زبان برنامهنویسی C# و از با استفاده از سرویسهای فیسبوک که مختص برنامهنویسان است - API - پیادهسازی شدهاست.
کلمات کلیدی: دادهکاوی، خزندگان وب، استخراج دادهها، شبکههای اجتماعی
- 1 مقدمه:
سرویس شبکههای اجتماعی به عنوان یکی از امیدوارکنندهترین برنامههای کاربردی وب در جهت تحولات نسل بعدی تکنولوژی اینترنت پدیدار شدند. اساسا دنیای بیحد و مرز اعضای جامعهی آنلاین اطلاعات سودمند خود را از طریق شبکههای اجتماعی در فضای تولید شده بهازای کاربران با یکدیگر به اشتراک میگذارند. فیسبوک یکی از این شبکههاست که برای استفادهکنندگان خود رساندن محتویات دیجیتال به مصرف کنندگان مجاز و یا گروه های خاص را به صورت ساده ارائه میدهد. مردم به طور فزاینده از فیسبوک برای به اشتراک گذاشتن اخبار، نظرات، نگرانی ها، حقایق، شایعات، مشاوره، حالات و هر چیز قابل تصور استفاده میکنند. بیشتر این اطلاعات قابل دسترس در وب و مناسب برای دادهکاوی هستند. دادهکاوی فرآیندی پیچیده جهت شناسایی الگوها و مدلهای صحیح در حجم عظیمی از دادههاست، به طریقی که این الگوها برای انسان قابل درک باشند. فرآیند تحلیل دادهها از دیدگاههای متفاوت و خلاصه کردن آنها به اطلاعات مناسب میتواند باعث افزایش دانش، پیشبینی آینده، سوددهی، کاهش هزینهها و در نهایت منجر به تصمیمگیری صحیح برای افراد، سازمانها و... شود.
اینترنت شامل مقدار زیادی از اطلاعات است که این اطلاعات معمولا برای کاربران آن سایت یا منبع فرمت شدهاست، که این روند استخراج دادههای مربوطه را از منابع مختلف با مشکل مواجه میکند. قبل از فراگیرشدن شبکههای اجتماعی تلاشهای بسیاری برای ایجاد یک قالب خاص برای استخراج دادهها توسط محققان انجام گرفته بود اما به دلیل جامعهی آماری کوچک یا پراکندگی منابع، محققان با مشکل مواجه بودند. سه نوع مختلف از صفحات وب برای محققان در دسترس است از که، استخراج اطلاعات باید از طریق صفحات انجام شود:\
. صفحات بدون ساختار: این صفحات اسناد متن آزاد نیز نامیده می شود، صفحات بدون ساختار معمولا به صورت عامیانه نوشته میشوند و هیچ ساختار خاصی در آنها یافت نمیشود و تنها استخراج اطلاعات با یک مدل خاص، مخصوص به همان سایت با درجهی اطمینان پایین امکان پذیر است.
. صفحات ساختار یافته: به طور معمول از یک ساختار خاص به دست آمدهاند به عنوان مثال: یک پایگاه داده و دادهها با هم منتشر شده با اطلاعات در مورد ساختار آن منبع یا منبع مورد نظر روش خاصی برای استخراج این دادهها معرفی کرده است. استخراج دادهها از این منابع با استفاده از تکنیکهای ساده بر اساس نحوی تطابق اطلاعات با درجهی اطمینان بالا انجام پذیر است. ×
. صفحات نیمه ساختار یافته: این صفحات در موقعیت متوسط هستند میان صفحات بدون ساختار و ساختار یافته، که اطلاعاتی مطابق با شرح برای انواع دادههای منتشر شده در آن موجود نیست این صفحات در هر حال دارای یک نوع ساختار هستند اما تکنیکهای استخراج از این صفحات اغلب پیچیده و بر اساس الگوهای ایجاد شده توسط فرد استخراج کننده انجام میگیرد، به عنوان مثال جداسازی براساس دستورات یا تگهای HTML یا اطلاعات خاصی که استخراج کنندگان ممکن است آنها را مبنا قرار دهند.
شبکههای اجتماعی حتی با اشتراکگذاری نظرات، آپلود فیلم و عکس، چت با دوستان و حتی امکان تماس با نقاط مختلف دنیا جزو صفحات ساختار یافتهاند و به دلیل محبوبیت بالای این صفحات دارای حجم بسیار زیادی از اطلاعات هستند ویکی از گزینههای مناسب برای استخراج و تجزیه و تحلیل دادهها هستند.
- 2 معرفی و ثبت برنامه :
امروزه API شبکههای اجتماعی گسترش یافته و به صورت متن باز در اختیار کاربران قرار گرفته است* و به کاربران امکان ساخت برنامههای جدید و اضافه کردن ویژگیهای خاص را به آن میدهد تا کاربران انعطافپذیری بالای این شبکهها را تجربه کنند
1؛ - 2 مراحل معرفی و ثبت برنامه:
▪ ورود به آدرس https://developers.facebook.com/docs/register یا پس از ورود به سایت https://developers.facebook.com/docs وارد بخش docs در منوی Product Docs گزینهی App× Development را انتخاب کرده سپس از منوی All Docs گزینهی Creating an App ID را انتخاب کرده وارد بخش ساخت نرمافراز میشویم
▪ در ابتدا باید وارد حساب کاربری خود شوید - اگر در شبکهی اجتماعی فیسبوک حساب کاربری ندارید ابتدا باید در آن ثبت نام کنید -
▪ در مرحلهی بعد معرفی خود به عنوان یک گسترشدهنده یا برنامهنویس در این سایت و تکمیل اطلاعت خواسته شده همانند شکل 1 - ؛ - 2