بخشی از مقاله

چکیده:

امروزه داده های حجیم به یک مسئله اساسی در حوزه هایی تحقیقاتی مانند داده کاوی، یادگیری ماشین، شبکه های اجتماعی و غیره تبدیل شده است. چارچوب هایی مانند Hadoop و Spark، برای پردازش داده های حجیم در قالب روش کاهش نگاشت، به کارگرفته می شود. ترکیب فناوری داده های حجیم و الگوریتم های یادگیری ماشین چالش های جدیدی در زمینه هایی مانند رسانه ها و شبکه های اجتماعی، ایجاد کرده است. این چالش ها به طور عمده بر مشکلاتی از قبیل پردازش، ذخیره سازی، تجزیه و تحلیل و امنیت داده ها متمرکز شده اند. در این مقاله، در یک نمای کلی چالش های جدید در حورزه ی داده های حجیم اجتماعی و روش های موجود برای برای بهبود این چالش ها،ارائه می گردد. بر اساس بررسی های انجام گرفته در مورد این موضوعات و چالش ها، مواردی همچون الگوریتم های آنلاین، مجازی سازی و ادغام داده ها به عنوان موضوعات باز و رو به پیشرفت مطرح می باشند.

واژگان کلیدی: داده های حجیم، داده کاوی، رسانه های اجتماعی، شبکه های اجتماعی.

.1مقدمه

رشد نمایی حجم داده چالش های فنی و نرم افزاری جدیدی را ایجاد نموده اند. این داده ها از مواردی مانند: ترافیک و اطلاعات پرواز، پست های موجود بر روی رسانه های اجتماعی، عکس ها و فیلم های دیجیتال و غیره بدست می آیند. [1] روش ها، الگوریتم ها و چارچوب های کلاسیک برای مدیریت و پردازش این مقدار داده ناتوان می باشند. 2]و[3 امروزه مساله مدیریت و استخراج دانش از این منابع داده یکی از محبوب ترین موضوعات تحقیقاتی در زمینه ی کامپیوتر می باشد. داده های حجیم فقط برای ذخیره سازی و یا دسترسی به داده ها نیست، بلکه راه حلی برای تجزیه و تحلیل داده ها می باشد. داده های حجیم با دیتاست هایی با اندازه ترابایت تا اگزابایت فراتر از توانایی نرم افزار های پایگاه داده معمولی می باشند.

تاکنون چالشهای زیادی در حوزه داده های حجیم مطرح شده است که تاحدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان می کنند. این چالش ها در قالب سه بعد اصلی حجم داده، نرخ تولید و تنوع به عنوان 3V مطرح شده اند. [4] حجم داده - : - Volume شاید مهمترین ویژگی داده های حجیم را بتوان حجم عظیم داده برشمرد، امروزه شرکت های صاحب نام در عرصه فناوری اطلاعات خصوصا شبکه های اجتماعی به تنهایی می توانند روزانه 500 ترابایت اطلاعات جدید تولید کنند. [5] سرعت - : - Velocity سرعت داده به معنی است که داده ها از طریق منابع اطلاعاتی مختلف با چه سرعتی تولید و منتقل می شوند، برای مثال داده هایی که توسط حسگرهای RFID در یک مجموعه تولید می شود بسیار بالا بوده، واضح است سیستم های سنتی ذخیره سازی و نحلیل اطلاعات به سادگی نمی تواند این جریان از اطلاعات را در لحظه مورد بررسی و نمایش قرار دهند. [6]

تنوع - : - Varity به انواع مختلف اطلاعات جمع آوری شده از طریق حسگرها، گوشی های هوشمند و یا شبکه های اجتماعی، مانند فیلم ها، تصاویر، متن و غیره اشاره دارد. علاوه بر این، این داده ها می توانند ساختارمند یا بدون ساختار باشند. [7] برخی از نمونه های منابع داده های بزرگ شامل داده های Open Science، اطلاعات بهداشتی، مجموعه داده های عمومی در خدمات وب سایت آمازون و غیره می باشد .[8] رسانه های اجتماعی به یکی از منابع داده برای داده های حجیم تبدیل شده است. داده های رسانه های اجتماعی از تعداد گسترده ای از برنامه های کاربردی برروی اینترنت - مانند فیس بوک، توییتر، لینکداین، یوتیوب، اینستاگرام، گوگل و ... - تولید می شود. [9] در این مقاله، فرض می کنیم که داده های حجیم اجتماعی از پیوستن دو حوزه رسانه های اجتماعی و داده های حجیم بدست می آید.

بنابراین، داده های حجیم اجتماعی از تجزیه و تحلیل داده های رسانه های اجتماعی بدست می آید. از این رو، تجزیه و تحلیل داده های حجیم اجتماعی ذاتا میان رشته ای است و زمینه هایی مانند داده کاوی، یادگیری ماشین، وب معنایی و محاسبات داده های بزرگ را شامل می شود. 10] و[11 جمع آوری، پردازش و تجزیه و تحلیل داده های حجیم اجتماعی از منابع بدون ساختار برای استخراج دانش، کاری بسیار دشوار است که به طور کامل حل نشده است. روش ها، الگوریتم ها و چارچوب ها کلاسیک برای پردازش حجم زیادی از داده ها ناکارآمد هستند .[12] به منظور تجزیه و تحلیل درست داده های رسانه های اجتماعی، روش های سنتی به تطبیق و تلفیق با روش های جدید داده های حجیم، نیاز دارند. چارچوب های داده های حجیم از جمله [13] Apache Hadoop و [14] Spark کاربردهای موثرتری را از روش های داده کاوی و الگوریتم های یادگیری ماشین ارائه می دهند.

بر اساس این چارچوب ها، چندین کتابخانه مانند [15] Mahout و SparkMLib [16] برای توسعه نسخه های جدید و کارآمدتری از الگوریتم های کلاسیک طراحی شده اند. این مقاله بر روی روش های جدید، چارچوب ها و الگوریتم های داده های حجیم، متمرکز شده است. بقیه مقاله به شرح زیر سازماندهی شده است؛ بخش 2 مقدمه ای بر اصول اولیه در مورد روش ها، چارچوب ها و ابزارهای مورد استفاده برای کار با داده های حجیم را فراهم معرفی می شود. بخش 3 شرح وضعیت آخرین تکنیک های داده کاوی و تحلیل داده ها است که در داده های حجیم اجتماعی استفاده می شوند. در بخش4 درمورد چالش و راهکاردهای امنیت و حریم شخصی بحث می شود. در نهایت، بخش 5 نتیجه گیری از مشکلات و چالش های فعلی در داده های حجیم اجتماعی می باشد؛ در این بخش نیز برخی از دستاوردهای اخیر و روند آینده در این زمینه تحقیقاتی فراهم شده است

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید