بخشی از مقاله
چکیده
افزایش مداوم حجم و جزئیات داده های ثبت شده توسط سازمان ها، پس از طلوع رسانه های اجتماعی، اینترنت اشیا و رسانه های جمعی، منجر به تغییر در جریان و نوع داده ها - هم در قالب ساختار یافته و هم در قالب بدون ساختار شده است. داده ها که از این پس آن را داده های بزرگ می خوانیم با سرعت بی سابقه ای ایجاد شده اند که همین امر پردازش و تحلیل آنها را به یکی از مهم ترین چالش های ممکن تبدیل کرده است. نحوه ی پردازش، ذخیره سازی و تحلیل این حجم انبوه از داده ها تنها گوشه ایی از چالش های موجود در این حوزه می باشد. بنابراین به منظور شناسایی چالش های دیگر این حوزه، چه از بعد تحقیقاتی و چه از بعد مهندسی، این نیاز احساس می شد که ابتدا در قالب یک کار تحقیقاتی مشخصات، ویژگی ها و نیازمندی ها بررسی شده و سپس چالش هایی که بیشترین نقش را در این حوزه ایفا می کنند به صورت جامع تحلیل شوند. بنابراین ما در این مقاله سعی کردیم تا این اهداف را تا حد ممکن پوشش دهیم و با این کار راه را برای فعالیت های تحقیقاتی آتی بر روی این حوزه تا حد ممکن هموار ساخته اییم، زیرا با شناخت بهتر نیازمندی ها و مشکلات این حوزه می توان روش های کامل تر و بهینه تری را ارایه داد. در این مقاله مفاهیم، دسته بندی و اهمیت داده های بزرگ بررسی خواهد شد و همچنین چالش ها و فرصت های موجود در این حوزه تشریح خواهند شد.
واژههای کلیدی: داده های بزرگ، دسته بندی داده های بزرگ، تجریه و تحلیل ، چالشهای داده های بزرگ
.1 مقدمه
داده های بزرگ، توجه عموم را اعم از دانشگاه ها، دولت و صنعت به سوی خود جلب کرده اند. داده های بزرگ با سه مشخصه ی اصلی زیر از داده های عادی متمایز می شوند:
- الف - داده ها بی شمار هستند.
- ب - داده ها را نمی توان در پایگاه های داده ای رابطه ای منظم دسته بندی کرد.
- پ - داده ها به سرعت ایجاد می شوند، ثبت می شوند و پردازش می شوند.
- ت - داده های بزرگ در حال تغییر شکل به مراقبت های بهداشتی، علوم مهندسی، مالی، تجارت و در نهایت جامعه است. اکنون نرخ ایجاد داده ها، گیج کننده است. چالش اصلی محققان و شاغلان این حوزه این است که این نرخ رشد، از توانایی آن ها برای طراحی سکوهای مناسب به منظور انجام محاسبات ابری برای تحلیل داده ها و به روز رسانی حجم کار فشرده جلو زده است.[4]
.1 .1 تعریف و ویژگی های داده های بزرگ
داده های بزرگ، واژه ای است که به افزایش حجم داده هایی اطلاق می شود که ذخیره سازی، پردازش و تحلیل آن ها با استفاده از تکنولوژی های پایگاه داده سنتی، سخت است. نام داده های بزرگ غیرمتمایز است و در بر گیرنده ی فرایندهای قابل توجهی برای تشخیص و ترجمه ی داده به بینش های جدید است. واژه ی »داده های بزرگ«واژه ای نسبتاً جدید در تجارت و IT است. اما، محققان و شاغلان در این حوزه، پیش از این نیز در نوشته های خود، از این واژه استفاده کرده بودند. برای مثال به داده های بزرگ، می توان به عنوان حجم بزرگی از داده های علمی برای بصری سازی اشاره کرد. تعاریف متعددی از داده های بزرگ وجود دارد.
به طور مثال داده های بزرگ را در جایی این چنین تعریف کرده اند : »میزان داده ای که از ظرفیت ذخیره سازی، مدیریت و پردازش کارآمد تکنولوژی، فراتر است.« همزمان تعریف داده های بزرگ را منوط به سه ویژگی - که هر سه، با حرف V شروع می شوند و به آن ها V3 می گویند - دانستند: حجم، تنوع و شتاب . واژه ی حجم، تنوع و شتاب در ابتدا توسط گارتنر، باب شد. او این واژه را برای توصیف المان های چالش های داده های بزرگ به کار برد. موسسه تحقیقاتی IDC1 نیز تکنولوژی های داده های بزرگ را این چنین تعریف کرد: » نسل جدیدی از تکنولوژی ها و معماری ها است که طراحی شده تا با فعال سازی ثبت سرعت بالا، کشف و یا تحلیل، مقدار را به طریقی مقرون به صرفهتر از حجم های بسیار زیادی از طیف وسیع و متنوعی از داده ها استخراج کند.
« ویژگی داده های بزرگ نه تنها به V3 که در بالا به آن ها اشاره شد محدود نمی شود، بلکه همچنین می تواند به V4 بسط پیدا کند که نام آن ها: حجم، تنوع، سرعت و مقدار است. این تعریف V4 در سطح جهانی شناخته شده است زیرا معنی و لزوم داده های بزرگ را به خوبی نشان می دهد.تعریف ذیل، بر اساس تعاریف ذکر شده در بالا، و مشاهدات و تحلیل ما از وجود داده های بزرگ پیشنهاد شده است. داده های بزرگ، مجموعه ای تکنیک ها و تکنولوژی هاست که نیازمند شکل های جدید یکپارچه سازی است تا مقادیر مخفی بسیار زیادی را از مجموعه داده های بزرگ متعدد، پیچیده و با مقیاس کلان، بیرون بکشد.[5][7][8]
.1 .1 .1 حجم
حجم مربوط می شود به میزان همه ی انواع داده های تولید شده از منابع مختلف که همچنان وسعت پیدا می کنند. مزیت جمع آوری مقادیر زیاد داده، شامل ایجاد اطلاعات و الگوهای مخفی از طریق تحلیل داده است. لوریلا و همکاران2مجموعه ای منحصر به فرد از داده های طولی از دستگاه های تلفن همراه هوشمند ارائه کردند و این مجموعه را در دسترس جامعه ی تحقیقاتی قرار دادند.[3]تنوع به انواع مختلف داده های جمع آوری شده توسط سنسورها، تلفن های هوشمند یا شبکه های اجتماعی مربوط می شود. این نوع داده شامل ویدئو، تصویر، متن، صدا و سایر انواع داده چه در قالب ساختاریافته، چه در قالب غیر ساختار یافته می شود . اکثر داده های ایجاد شده توسط برنامه های کاربردی تلفن های همراه، در قالب ساختار یافته قرار دارند. برای مثال، پیامک ها، بازی های آنلاین، وبلاگ ها، و رسانه های اجتماعی، انواع مختلفی از داده های غیر ساختاریافته، از طریق دستگاه های تلفن و حسگرها، ایجاد می کنند. کاربران اینترنت نیز مجموعه ی به شدت متنوعی از داده های ساختاریافته و ساختار نیافته تولید می کنند.[9][10]
.3 .1 .1 سرعت
سرعت مربوط می شود به سرعت انتقال داده ها. محتوای داده ها همواره به علت جذب مجموعه های داده های تکمیلی، معرفی داده هایی که قبلا آرشیو شده اند یا مجموعه های قانون و داده های که از منابع مختلف می رسند، در حال تغییر است .[6]مقدار، مهم ترین جنبه ی داده های بزرگ است که مربوط به فرایند کشف مقادیر عظیم و مخفی از مجموعه داده های عظیم با انواع مختلف و نسل سریع می شود .[7]همچنین سه V دیگر هم به عنوان ابعاد دیگر داده های بزرگ بیان شده اند. این ابعاد شامل موارد زیر می باشند:
.4 .1 .1 درستی
IBM درستی را به عنوان چهارمینv وضع کرد،که بیان می دارد عدم اطمینان در برخی منابع اطلاعات تفکیک ناپذیر است. برای مثال، احساسات مشتری در رسانه اجتماعی طبیعتا غیر قابل اطمینان هستند. با این وجود آن ها دارای اطلاعات با ارزشی هستند. از این رو ضرورت رسیدگی به اطلاعات نادرست و غیر قابل اطمینان رویه ی دیگر داده های بزرگ است ، که استفاده از ابزار و تجزیه تحلیل های گسترش یافته برای مدیریت و استخراج اطلاعات غیر قابل اطمینان مورد ملاحظه قرار داده است . تغییر پذیری و پیچیدگی به عنوان دو بعد اضافی داده های بزرگ معرفی کرده اند . تغییر پذیری به تنوع در میزان جریان اطلاعات اشاره دارد . اغلب ، سرعت داده های بزرگ پایدار نیست و بالا و پایین های دوره ای دارد . پیچیدگی به این حقیقت اشاره دارد که داده های بزرگ از طریق منابع بی شمار ایجاد شده اند .[2][2]
.5 .1 .1 ارزش
شرکت Oracle ارزش را به عنوان یک ویژگی تعیین کننده داده های بزرگ معرفی می کنند . بر اساس تعریف Oracle ، داده های بزرگ اغلب تا اندازه ای با چگالی ارزش پایین توصیف شده اند و این گونه است که ، اطلاعات به شکل اصلی دریافت می شوند و معمولا ارزش کم وابسته به حجم آن دارد . هرچند ارزش بالا را می توان با تجزیه تحلیل حجم های بزرگ چنین اطلاعاتی به دست آورد . از این رو ، معیار های جهانی برای حجم ، نوع و سرعت که داده های بزرگ را توصیف می کنند وجود ندارد . محدودیت های تعریف به اندازه ، بخش و مکان واحد های اقتصادی بستگی دارد و این محدودیت ها در طول زمان تکامل می یابد.
همچنین این واقعیت اهمیت دارد که این ابعاد مستقل از یکدیگر نیستند . به طوری که اگر یک بعد تغییر کند این احتمال افزایش می یابد که در نتیجه بعد دیگر هم تغییر خواهد کرد . از این رو واحد های اقتصادی بایستی ارزش آینده مورد انتظار از فناوری های داده های بزرگ را در مقابل هزینه های اجرای آن ها سبک سنگین کنند .[1][11]در ادامه این مقاله، در بخش دوم دسته بندی داده های بزرگ شرح داده خواهد شد، در بخش سوم اهمیت و فرصت های داده های بزرگ توصیف میشود . در بخش چهارم تجزیه و تحلیل داده های بزرگ به صورت خلاصه و دسته بندی شده بیان شده است و در انتها چالش های داده های بزرگ نیز بررسی خواهد شد.
- ث - پردازش داده ها.
همانطور که در شکل 2 مشاهده می کنید، هر یک از این دسته بندی ها، ویژگی ها و پیچیدگی های خاص خودش را دارد. منابع داده ها، در برگیرنده ی داده های اینترنتی، حسگری و همه ی منابع سنتی اطلاعات می شود که از فرمت های متعدد ساختار یافته تا فرمت های متعدد بدون ساختار را در بر می گیرد - جدول . - 1 همچنین انواع مختلف داده در ساختار کلان داده نیز در جدول 2 دسته بندی شده است. از سوی دیگر روش های مختلفی جهت ذخیره سازی این حجم عظیم از داده های تولید شده در ساختار کلان داده وجود دارد که محبوب ترین آنها، پایگاه داده ی رابطه ای است که دارای تنوع زیادی است. جدول 3 این روش های ذخیره سازی را نشان می دهد. همچنین به موجب طیف وسیع و متنوع منابع داده ها، داده های ثبت شده از نظر اندازه، افزونگی، سازگاری ، صدا و غیره با یکدیگر متفاوتند.[18]
.2 دسته بندی داده های بزرگ
داده های بزرگ را در دسته های مختلفی طبقه بندی می کنند تا ویژگی های آن ها را بهتر بتوان درک کرد. شکل 2 نشان دهنده ی طبقه بندی های داده های بزرگ است که بر اساس 5 جنبه انجام می شود:
- الف - منابع داده ها
- ب - فرمت محتوا
- پ - ذخیره ی داده ها
- ت - پاک سازی داده ها
.3 اهمیت داده های بزرگ
داده های بزرگ، بر اساس اهمیت بسیار زیادی که دارد، اساساً شیوه زندگی، کار و تفکرمان را تغییر میدهد و دگرگون میسازد. در ادامه اهمیت کلانداده را به لحاظ دیدگاههای مختلف توصیف میشود.[14]