بخشی از مقاله
بررسي Big Data در شبکه های اجتماعي
چکیده - امروزه چالش اصلی همه حوزه های شبکه و پایگاه داده یک موضوع است.داده های عظیم یا " Big Data". داده های عظيم مفهومی است که به تازگی مطرح شده و به طور کلی به افزایش حجم اطلاعات غیرساختارمند و یکپارچه در کنار ذخیره سازی و پردازش آن ها می پردازد.داده های عظیم اکنون چالش اصلی شبکه های گسترده و شرکت های بزرگ است و انواع راهکارهای ابر، مجازی سازی، محاسبات موبایل، مراکز داده و حتی سیستم های نظارت تصویری و بی سیم را به خود مشغول کرده است. در ابتدا این مفهوم و چالش را بررسی می کنیم و بعد به سراغ بررسی آن در
شبکه های اجتماعی خواهیم رفت.کليد واژه -Big Data ، شبکه هاي اجتماعي ، هادوپ ، NoSQL
١- مقدمه
عبارت Big Data مدت ها اسـت کـه بـراي اشـاره بـه حجـم هـاي عظيمي از داده ها که توسط سازمان هاي بزرگي مانند گوگل يا ناسا ذخيره و تحليل ميشوند مورد استفاده قرار ميگيرد. اما به تـازگي، ايـن عبـارت بيشتر براي اشاره به مجموعه هاي داده اي بزرگي استفاده ميشود کـه بـه قدري بزرگ و حجيم هستند که با ابزارهاي مـديريتي و پايگـاه هـاي داده سنتي و معمولي قابل مديريت نيستند. مشکلات اصلي در کار با اين نـوع داده هـا مربـوط بـه برداشـت و جمـع آوري، ذخيـره سـازي، جسـت وجـو، اشتراکگذاري، تحليل و نمايش آن ها است . اين مبحث ، به اين دليـل هـر روز جذابيت بيشتري پيدا ميکند کـه بـا اسـتفاده از تحليـل حجـم هـاي بيشتري از داده ها، ميتوان تحليل هاي بهتر و پيشرفته تري را براي مقاصد مختلف ، از جمله مقاصد تجـاري، پزشـکي و امنيتـي، انجـام داد و نتـايج مناسب تري را دريافت کرد. حجم داده هـاي ذخيـره شـده در مجموعـه هـاي داده ايBig Data ، عموماً به خاطر توليد و جمع آوري داده ها از مجموعه بزرگي از تجهيزات و ابزارهاي مختلف مانند گوشيهاي موبايل ، حسگرهاي محيطي، دوربين ها، ميکروفون ها، شبکه هاي حسگر بيسيم ، شبکه هاي اجتمـاعي وغيـره بـا سرعت خيره کننده اي در حال افزايش اسـت . نکتـه جالـب توجـه در ايـن زمينه آن است که ٩٠ درصد داده هايي که اکنون در اختيار ماست تنها در دو سال اخير توليد شده اند.
٢- تاريخچه Big Data
اصــطلاح داده هــاي بــزرگ ابتــدا در اواخــر دهــه ١٩٩٠ در ميــان دانشمنداني رواج پيدا کرد که نميتوانستند مقادير رو به رشـد داده هـاي توليد شده به وسيله فناوري ديجيتال را به مقدار بسيار زيادي ذخير سازي و تحليل کنند. داده هايي کـه از علـومي همچـون فيزيـک ذرات ، ژنتيـک ، هواشناسي و حتي ستاره شناسي ايجاد شده بود. اين روند رشد امروزه هم ادامه دارد. در حدود سال ٢٠٠٥ داده هاي بـزرگ تبـديل بـه يـک زمينـه پژوهشي در شرکت هاي بزرگي همچون گوگل ، ياهو، آمازون و نتفلـيکس شد؛ زيرا اين شرکت ها مقادير عظيمـي از داده هـاي مبتنـي بـر وب را در اختيار داشتند. اين شرکت ها با دو مسئله روبه رو بودند يکي حجم عظـيم داده ها و يکي سرعت ايجاد شدن آنها، که ثبت و پـردازش آنهـا را دشـوار ميکرد. علاوه بر اينها داده ها در ساختاري مختلـف دريافـت مـيشـدند و مهم تر از آن نيازهاي پردازشي غيرمنتظره و متغيري داشتند کـه توانـايي راهکارهاي سنتي مديريت داده ها براي پرداختن به آنها محدود بـود. ايـن مسائل منجـر بـه معرفـي چـارچوب مـپ رديـوس در سـال ٢٠٠٤ شـد. در سال ٢٠٠٨، هادوپ که يک سيستم پردازش موازي فاي هاي بزرگ به صورت دسته اي و با اسـتفاده از چـارچوب مـپ رديـوس و يـک سيسـتم پرونده اي به عنوان مخزن داده ها است ، يک پروژ منبع باز را به نام آپاچي در ســـــــــــطح بـــــــــــالايي طراحـــــــــــي کـــــــــــرد.
به شکلي که اين پروژه تا حدي مترادف داده هاي بزرگ دانسته شـد. امـا محدوده داده هاي بزرگ بسيار بيشتر از اينهاست . پروژه هاي بسيار متعـدد ديگري هم پيرامون اين پروژه تشکيل شد تا جنبه هاي مختلف مربوط بـه آن را تحـــــــــــت پوشـــــــــــش قـــــــــــرار دهـــــــــــد. با وجود اينکه رويکرد پروند مبناي هدوپ بسيار همه گير بود، اما اين نيز روشن بود که اين سيستم در کارکرد پايگاه داده اي خـود بـراي مـديريت انواع خاصي از داده هاي بزرگ ، به خصوص آنهايي که داراي تنوع سـاختار و تنوع پردازش هستند دچار کمبـود اسـت . بـا رشـد سـريع شـبکه هـاي اجتماعي مانند لينکدين ، فيس بوک و توييتر و رشـد همزمـان غـول هـاي اينترنــي همچــون گوگــل و آمــازون در اواخــر دهــه ٢٠٠٠، پايگــاه داده غيررابطه اي و رو هاي پردازش غيررابطه اي که اغلـب بـا نـام NoSQL شناخته ميشوند پديـدار شـدند. BigTable از شـرکت گوگـل در سـال ٢٠٠٦ و Dynamo از شرکت آمازون در سال ٢٠٠٧ پيشگام اين رويکـرد شدند. در شکل (١) دو مدل رابطه اي و NoSQL نشان داده شده است .
شکل(1)
٣- انواع اطلاعات
وقتي بحث اطلاعات مطرح مي شود بايد اين نکته را در نظر داشـته باشيم که دو نوع اطلاعات داريم : اطلاعات ساختارمند که توسـط ماشـين هاي محاسباتي و کامپيوترها توليد شـده و اطلاعـات غيرسـاختارمند کـه توسط انسان ها توليد مي شوند. اطلاعات ساختارمند، مـديريت و ذخيـره سازي به مراتـب سـاده تـر و کـم هزينـه تـري در مقايسـه بـا اطلاعـات غيرساختارمند دارند. بيش از نود درصـد اطلاعـات ديجيتـالي در جهـان ، غيرساختارمند و نامرتب و با سرعت بسيار زيادي در حال رشد و افـزايش هستند، به طوري که مديريت آن ها به يک مشکل اساسي تبديل شـده و شرکت ها به دنبال ابزارهايي براي کنترل و مـديريت اطلاعـات در حجـم هاي گسترده هستند.
شبکه هاي اجتماعي يکي از بـزرگ تـرين توليدکننـدگان اطلاعـات غيرساختارمند در شبکه هاي کنوني هسـتند. هـر شـخص روي پروفايـل خود ده ها تصوير، فـيلم ، صـوت و اطلاعـات ديگـر دارد، چـون اطلاعـات خصوصي هستند، توسط سازمان هاي بزرگ قابل مـديريت نيسـتند. ايـن داده ها همچنين ، روزانه ترافيک اينترنت را افزايش مـي دهنـد. ابزارهـاي مـديريت اطلاعـات غيرسـاختارمند مختلفـي، از شـرکت هـايي ماننـد Greenplum،IBM ، هيتاچي، اوراکل و بنياد آپاچي در اختيار شرکت ها قرار دارد، اما همگي به يک نوع داده وابسـته هسـتند و نمـي تواننـد داده هاي مختلف را مرتب سازي کنند. براي نمونـه ايـن ابزارهـا نمـي تواننـد ترافيک داده هاي توليد شده توسط گوشي هاي موبايل را کنترل کـرده و پوشش دهند. بر اساس گزارش هاي منتشر شده ، در سال آينده حجم کل اطلاعات ديجيتالي در جهان چهل درصـد افـزايش خواهـد يافـت ، يعنـي چيزي حدود ١.٤ زتابايت افزايش اطلاعات داريم (هر زتابايت تقريباً برابـر با هزار اگزابايت است ). به همين دليل ، شرکت هـاي بـزرگ ارائـه دهنـده راهکارهاي ذخيره سـازي و مـديريت اطلاعـات نسـبت بـه ايـن موضـوع حساس شده اند و درحال بررسي شيوه هـاي مختلـف آنـاليز و مـديريت اطلاعات هستند. بدون شک ، يکي از گزينه هـاي مطـرح سـرويس هـاي مبتني بر فناوري ابر است که البته به قدرت محاسبات بسيار زيادي بـراي پردازش اطلاعات نياز دارد.
4-شبکه های اجتماعی حرکت به سوی کاربری های جدید
بسـياري از کارشناسـان شـبکه سـال ٢٠١٢ را سـال «شـبکه هـاي اجتماعي» ناميدند و معتقدند، با گسترش و استقبال ازدستگاه هايي مانند تبلت ها و اسمارت فون ها، کاربران اين گونه شبکه ها چندين برابر شـده است . تعداد کاربران بزرگ ترين شـبکه اجتمـاعي فعلـي جهـان در سـال ٢٠١٢ از مرز يک ميليارد نفر گذشت (در حال حاضر، نزديک به هشتصـد ميليون کاربر در اين سايت ثبت نام کرده اند). گوگل پلاس نيـز داوطلـب بعدي رشد در سال آينده است . اين محصول گوگل با توجه به ويژگي ها و مشخصات متفاوتي که نسبت به ديگر شبکه هـاي اجتمـاعي دارد، مـورد توجه قرار خواهد گرفت و کاربران زيادي را به خود سرگرم خواهد کرد. موضوع شبکه هاي اجتماعي در آينده فقط به اين جا ختم نمي شود و شاهد افزوده شدن اين پلتفرم به سياست هـا و ابزارهـاي شـرکت هـا و کسب و کارها خواهيم بود. مزاياي بي شمار کسب و کار روي شبکه هـاي اجتماعي و ارتباطات و تعاملات کاربران در اين شبکه ها، ظرفيـت خفتـه اي است که شرکت ها در سال آينده آن را بيدار و بالفعـل خواهنـد کـرد. کارمندان قسمت هاي مختلف يک شرکت مي توانند بدون هيچ هزينه اي از اين پلتفرم براي تبادل اطلاعات استفاده کنند. شرکت هاي بازاريـابي و تبليغاتي مي توانند با کمترين هزينه محصول و پيشـنهادات خودشـان را در معرض بازديد ميليوني کاربران قرار دهند. شرکت هايي که از کارمندان راه دور يا کارمندان در حال حرکت استفاده مي کنند، مي توانند با شبکه هاي اجتماعي بهتر از هر وسيله ديگري ارتباط برقرار کرده و هميشـه بـه صــــورت آنلايــــن بــــه آن هــــا دسترســــي داشــــته باشــــند. بر اين اساس افزايش اطلاعات روي شبکه هـاي اجتمـاعي نيـز موضـوعي قابل توجه است زيرا هر کاربر به طـور خودکـار بـه توليدکننـده محتـوا و ترافيک روي وب و اينترنت تبديل شده و اشتراک گـذاري ايـن اطلاعـات يک فضاي جديد داده اي ايجاد خواهد کـرد کـه بـه يـک چـالش جـدي تبديل مي شود. شرکت هاي بزرگي مثل فيس بـوک و گوگـل فقـط داده هـاي تعـداد وسيعي از کاربران را جمع آوري نميکنند، بلکـه آن هـا عمـق غيـر قابـل باوري از داده ها را در اختيار دارند. از آن چه يک کاربر جستجو ميکنـد و جايي که کليک ميکند تا کسـاني کـه مـيشناسـد ( و کسـاني کـه او را ميشناسند، و کساني که آن ها ميشناسند)، بدين ترتيب بازيگران بـزرگ وب مالک ذخاير ارزشمندياند کـه آن هـا را در مـرز دانـايي مطلـق قـرار مــــــــــــــــــــــــــــــــيدهــــــــــــــــــــــــــــــــد. علاوه بر مواردي که در مورد کاربرد داده هاي عظيم گفته شده است ، بـه عنوان مثال مي توان به اين مورد نيز اشاره کرد که تحليل بيگ ديتا جمع آوري شده از رفتار کاربران در شبکه اجتماعي فيس بوک و توييتر، ارتباط آن ها با ديگران کاربران ، سلايق سياسي آن ها و تغيير ديدگاه آن ها نسبت به نامزدهاي مختلف رياست جمهوري، يکي از مهم تـرين دلايـل پيـروزي باراک اوباما در هر دو دوره انتخاب رياست جمهوري امريکا بود.
٥- چگونگی پردازش داده های عظیم
يکي از مهم ترين مسائل مرتبط با داده هاي عظيم ، مشکل بودن کـار با آن ها به وسيله پايگـاه هـاي داده اي رابطـه اي و بسـته هـاي نـرم افـزاري تصويرنگاري داده ها و نر افزارهاي آماري کنوني است . چراکه اين داد هـا، براي پردازش شدن در يک زمان معقول به نرم افزارهاي بـه شـدت مـوازي شده با قابليت اجرا روي ده ها، صدها يا هـزاران سـرور نيـاز دارنـد. البتـه مفهوم Big Data براي شرکت ها و سازمان هاي مختلف تعـابير متفـاوتي دارد و هر کدام ، بسته به کاربرد و نيازمنديهـايي کـه دارنـد، در حجمـي خاص و با شرايطي خاص به روش هاي جديدي براي آسان کـردن کـار بـا اين نوع داده ها روي ميآورند. بـه همـين دليـل Big Data بـراي بعضـي سازمان ها، تنها صدهاگيگابايت حجم دارد در حاليکه براي برخي، ده هـا و صدها ترابايت يا حتي مضـاربي از اگزابايـت و زتابايـت از انـواع داده هـاي
عظيم محسوب ميشوند. يکي از بهترين مفاهيمي که در زمينـه توصـيف Big Data بـه کـار رفته است ، اين است که داده ها در سهُ بعد مختلف در حال رشد هسـتند. اين سه بعد عبارتند از حجم ، سرعت و تنوع داده ها کـه روز بـه روز، نـرخ رشد آن ها با سرعتي باور نکردني افزايش مييابد. به همين دليل ، توصيف Big Data تنهـــا بـــا حجـــم هـــاي عظـــيم و نحـــوه مـــديريت آن ها کار درستي نيست و بايد جنبه هاي ديگر اين مفهوم مهم و کليـدي را نيــــــــــــــــــز در نظــــــــــــــــــر گرفــــــــــــــــــت .
بر اين اساس ، با توجه به افزايش روز افزون استفاده از تجهيزات توليد يـا جمع آوري داده ها و همچنين روي آوردن تعداد بيشـتري از شـرکت هـا و افراد به شکل هاي جديدي از زندگي ديجيتالي، اهميت مفهوم Big Data
و نحوه برنامه ريزي و تعيين راه هاي مناسب براي بهره بـرداري صـحيح از آن ، دو چندان شده و نيـاز بـه توسـعه ابزارهـا و امکانـات مناسـب بـراي مديريت بهتر آن ها بيش از پيش مشخص ميشود. شايد تا چندي پيش با رايانه هاي قوي و پرظرفيت ، حجم بزرگـي از داده ها را ذخيره و حتي تحليل مـي کردنـد، امـا بـا فـراهم شـدن امکـان جمع آوري داده در سطحي وسيع ، روش هـاي قـديمي پاسـخگوي نيازهـا نخواهند بود. به بيان ديگر، سيل عظيم ديتا آنقدر پرقدرت اسـت کـه بـه سرعت حجيم ترين حافظ هاي کامپيوتري را پر ميکند و ساختار آن ، بـه قدري سريع تغيير ميکند که روش هاي سنتي ذخيـره و تحليـل داده هـا نميتواند با سرعت لازم آن را تحليل کند. سه ويژگي حجيم بودن ، متغيـر بودن و بدون ساختار بودن بيگ ديتا، باعث شده است که تکنولوژي نـوين مديريت پايگاه داده هـا در غالـب پـروژه مـتن بـاز Hadoop ارائـه شـود. Hadoop براي تحليل داده ها در Yahoo شکل گرفت و سـپس Yahoo آنرا به Apache بخشيد تا به رايگان در دسترس عموم قرار گيرد و توسعه دهندگان مختلفي در سراسر دنيا تواناييهاي آن را روز به روز بهتـر کننـد در اين ميان ، Google به عنـوان يکـي از بـزرگ تـرين کـاربران Hadoop کمـــک فـــوق العـــاده اي بـــه توســـعه و بهبـــود آن کـــرده اســـت .
رمز موفقيت Hadoop، شکستن ساختار ديتا به بخش هـاي کوچـک تـر و پردازش هر بخش به صورت جداگانه روي سرورهاي ابري است . ايـن کـار نه تنها هزينه نگه داري و پردازش را به شدت کـاهش مـيدهـد، بلکـه بـا تقسيم داده ها در بخش هاي کوچک تر، پردازش داده هايي که تـا پـيش از اين غير ممکن بود را محقق ميسازد. در کنار تکنولوژي سخت افـزاري و نرم افزاري برايجمع آوري، ذخيره سازي و پردازش بيگ ديتـا، تحليلگـران داده ١ شبيه به جادوگراني عمل ميکنند که بيگ ديتا را به سخن گفـتن واميدارند. تحليلگران داده ، تکنيک هاي مختلف آماري و اقتصادسـنجي را براي پاسخ گويي به سئوالاتي که تا پيش از اين بيجواب بودند، به شـکلي خلاقانه به کار ميگيرند. براي پاسخ به اين نيـاز اسـت کـه مـدتي اسـت دانشگاه هاي آمريکا، رشته تحصيلي جديدي تحت همين عنوان تاسـيس کرده اند. استنفورد، برکلـي، هـاروارد و کـارنگي ملـون ، در کنـار دانشـگاه کاروليناي شمالي که با همکاري موسسه SAS اقـدام بـه تاسـيس رشـته کارشناسي ارشد در تحليل داده ها کرده است ، از پيشـگامان ايـن حرکـت هستند.