بخشی از مقاله
با توجه به گسترش افزایش روز افزون حجم انتقال اطلاعات در فضای مجازی اینترنت به خصوص در حوزه بانکداری و تجارت الکترونیکی ،مسئله کلان داده ،ورود و ذخیره سازی حجم زیادی از اقلام اطلاعاتی داده ها و مدیریت آن،پیش پردازش و پس پردازش،سرعت،دقت و امنیت اطلاعات از امنیت بسار زیادی برخوردار شده و توجه بسیاری از متحققان و متخصصین در حوزه فناوری اطلاعات را به خود معطوف کرده است. در این مقاله ابتدا به معماری کلان داده و سپس چالش ها و ابزارها و کاربردهای آن پرداخته شده است. با گسترش روزافزون استفاده از خدمات فناوری اطلاعات و همچنین فراگیر شدن ابزارهای دیجیتالی،هرفرد به واسطه خود در فضای مجازی باعث تولید حجم زیادی از داده ها میشود.این داده ها میتواند در دو دسته بندی کلی قرار بگیرد،یک قسمت اطلاعاتی است که انسان آنرا تولید کرده و قسمت بعدی اطلاعاتی است که توسط ماشین های مختلف - همانند مسیر یاب ها،دوربین های مدار بسته،حسگرهای مختلف و... - در حال تولید است.
کلان داده به حجم عظیمی از داده ها اطلاق میشود که پردازش آنها به وسیله پایگاه داده های سنتی و ابزارهای آن غیر قابل انجام است.این حجم از داده بیش از چندین اگزا بایت بوده و شامل انواع مختلفی از داده های چند رسانه ای،متن و...میشود که به شکل قابل تصوری حجم آن در حال افزایش است. حجم عظیم اطلاعات تنها یک جنبه از کلان داده را نشان میدهد.varicty اطلاعات ذخیره سازی شده،سرعت ورود اطلاعات جدید به سیستم ،مقادیر اطلاعات و پیچیدگی آنها همگی از ویژگی های این حوزه از فناوری بوده که مفهوم کلان داده را نمایان میسازد.چالش های این حوزه صرفا منوط به ذخیره سازی و مدیریت آن نمیشود،بلکه مبحث تحلیل و پردازش کلان داده و به دست آوردن دانش ارزشمند از مهم ترین مسائل آن است .
تا سال 2003 میلادی 5 اگزا بایت - 10به توان 18 بایت - اطلاعات توسط انسان تولید شده بود اما امروزه این حجم از داده تنها در دو روز توسط انسان تولید میشود.شرکت IBM در گزارش خود اعلام کرد هر روز3.5 اگزابایت اطلاعات به داده های دنیا افزوده میشود که 90 درصد مقدار اطلاعاتی که در حال حاضر در دست داریم فقط در دوسال گذشته تولید شده است.برای مثال یکی از شبکه های اجتماعی محبوب در دنیا بیش از یک میلیارد کاربر دارد که روزانه بیش از 300 میلیون تصویر را در این شبکه اجتماعی با یکدیگر به اشتراک میگذارند.تا کنون تعداد این تصاویر بیش از 340 میلیارد گزارش شده استو بطور میانگین روزانه 500 ترابایت به حجم اطلاعات این شبکه اجتماعی افزوده میشود. - - Tam2012
داده های بزرگ یا عظیمداده ترجمه اصطلاح Big Data میباشد که معمولا به مجموعه از داده ها اطلاق میشود که اندازه آنها فرا تر از حدی است که با نرم افزار های معمول بتوان آنها را در یک زمان معقول اخذ,دقیق سازی,مدیریت و پردازش کرد.مفهوم>>اندازه<<در داده های بزرگ بطور مستمر در حال تغییر است و به مرور بزرگتر میشود. داده های بزرگ - Big Data - مجموعه ای از تکنیک ها و تاکتیک هایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزشهای بزرگی را که در مجموعه های بزرگ ,وسیع,پیچیده و متنوع داده پنهان شده اند,آشکار سازد. از این رو با رشد روز افزون داده ها و نیاز به بهره برداری و تحلیل از این داده ها ,به کار گیری زیر ساخت های Big Data از اهمیت ویژه ای برخوردار شده است.این شرکت نیز در سالهای اخیر با درک این موضوع ,توانسته است گام های موثری در راستای تسلط به این حوزه بردارد و افتخار دارد که یکی از موسسات پیشرو در این زمینه در کشور باشد .[3 , 4]
عبارت Big Data مدت هاست که برای اشاره به حجم های عظیمی از داده ها که توسط سازمان های بزرگی مانند گوگل یا ناسا ذخیره و تحلیل میشوند مورد استفاده قرار میگیرد.اما به تازگی,این عبارت بیشتر برای اشاره به مجموعه های داده ای بزرگ استفاده میشود که به قدری بزرگ و حجیم هستند که با ابزار های مدیریتی و پایگاه های داده سنتی و معمولی قابل مدیریت نیستند.مشکلات اصلی در کاربا این نوع داده ها مربوط به برداشت و جمع آوری ,ذخیره سازی ,جست وجو,اشتراک گذاری, تحلیل و نمایش آنها است.این مبحث به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا میکند که با استفاده از تحلیل حجم های بیشتری از داده ها,میتوان تحلیل های بهتر و پیشرفته تری را برای مقاصد مختلف ,ازجمله مقاصد تجاری,پزشکی و امنیتی,انجام داد و نتایج مناسب تری را دریافت کرد.بیشتر تحلیل های مورد نیاز در پردازش داده های عظیم,توسط دانشمندان در علومی مانند هواشناسی,ژنتیک,شبیه سازی های پیچیده فیزیک,تحقیقات زیست شناسی و محیطی,جست و جوی اینترنت,تحلیل های اقتصادی و مالی و تجاری مورد استفاده قرار میگیرد.حجم داده های ذخیره شده در مجموعه های داده ای Big Data ,عموما به خاطر تولید و جمع آوری داده ها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشی های موبایل,حسگرهای محیطی,لاگ نرم افزارهای مختلف,دوربین ها, میکروفون ها , دستگاههای تشخیص , RFID شبکه های حسگر بی سیم و غیره با سرعت خیره کننده ای در حال افزایش است.
برای ایجاد یک دید مناسب در خصوص کلان داده و اهمیت آن, جامعه ای را تصورکنید که در آن جمعیت بطور نمایی درحال افزایش است, اما خدمات و زیر ساخت های عمومی آن نتواند پاسخگوی رشد جمعیت باشد واز عهده مدیریت آن برآید.چنین شرایطی در حوزه داده و رشد آن در بخش هایی نظیر جمع آوری, ذخیره سازی, جست و جو, به اشتراک گذاری و تحلیل میباشیم.دستیابی به این توانمندی معادل است با شرایطی که مثلا بتوانیم"هنگامی که با اطلاعات بیشتری در حوزه سلامت مواجه باشیم, با بازدهی بیشتری سلامت را ارتقا دهیم","در شرایطی که خطرات امنیتی افزایش پیدا میکند, سطح امنیت بیشتری را فراهم کنیم","وقتی که با رویداد های بیشتری از نظر آب و هوایی مواجه باشیم, توان پیش بینی دقیقتر و بهتری بدست آوریم", "در دنیایی با خودروهای بیشتر, آمار تصادفات و حوادث را کاهش دهیم","تعداد تراکنش های بانکی, بیمه و مالی افزایش پیدا کند, ولی تقلب کمتری را شاهد باشیم","با منابع طبیعی کمتر, به انرژی بیشتر و ارزانتری دسترسی داشته باشیم"و بسیاری موارد دیگر از این قبیل که اهمیت پنهان کلان داده را نشان میدهد.مانند:
✓ کشف فساد
✓ ارائه پیشنهادهای مناسب
✓ نوآوری در محصولات
✓ کاهش زمان انجان فعالیت ها
✓ و...
2. چالش های حوزه کلان داده
در بحث کلان داده, ما نیاز داریم که داده ها را به منظور استخراج اطلاعات, کشف دانش و در نهایت تصمیم گیری در خصوص مسائل مختلف کاربردی به صورت صحیح مدیریت کنیم.مدیریت داده ها عموما شامل5 فعالیت اصلی میباشد. جمع آوری،ذخیره سازی،جست و جو،به اشتراک گذاری ،تحلیل تاکنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند.این چالش ها در ابتدا سه بعد اصلی حجم داده, نرخ تولید و تنوع به عنوان 3VʼV مطرح شدند ولی در ادامه چالش های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:
-1-2 حجم داده - - volume
حجم داده ها به صورت نمایی در حال رشد میباشد.منابع مختلفی نظیر شبکه های اجتماعی, لاگ سرورهای وب, جریان های ترافیک, تصاویر ماهواره ای, جریان های صوتی, تراکنش های بانکی, محتوای صفحات وب, اسناد دولتی و... وجود دارد که حجم داده بسیار زیادی تولید میکنند. حجم یا اندازه داده هم اکنون بزرگتر از ترابایت - 10به توان 12 بایت - و پتا بایت - 10 به توان 15 بایت - است.مقیاس بزرگ و پیشرفت داده ها،روشهای سنتی ذخیره سازی و تکنیک های تحلیل را پشت سر میگذارد. حجم داده ها از سال 1950 تا سال 1970 برابر بوده با حجم کل داده ها تا سال1950 از سال 1990 داده های تولید شده در هر2سال با حجم کل داده های قبلی برابری می کرده است. تا سال2003 حجم کل داده های موجود به 5 اگزابایت میرسید. درسال 2011،نود درصد کل داده های تولید شده داده هایی بودند که در سالهای 2011،2010 تولید شده بودند. در سال2012 حجم کل داده ها 3.2 اگزابایت و حجم داده های تولید شده در هر روز مساوی حجم کل داده ها تا سال 2010 بود. طبق پیش بینی ها حجم کل داده ها در سال 2020 به 40 زتا بایت خواهد رسید.>5 ,6@
-2-2نرخ تولید - - velocity
داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید میشوند.بسیاری از کاربرد ها نیاز دارند به محض ورود داده به درخواست کاربر پاسخ دهند.ممکن است در برخی موارد نتوانیم به اندازه کافی صبر کنیم تا مثلا یک گزارش در سیستم برای مدت طولانی پردازش شود. داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید میشوند.بسیاری از کاربردها نیاز دارند به محض ورود داده به درخواست کاربر پاسخ دهند.ممکن است در برخی موارد نتوانیم به اندازه کافی صبر کنیم تا مثلا یک گزارش در سیستم برای مدت طولانی پردازش شود. سرعت نه تنها لازمه Big Dataاست،بلکه لازمه همه پردازش ها است.برای پردازش های محدود به زمان،Big Data باید مورد استفاده قرار بگیرد همانطور که در سازماندهی به منظور به حداکثر رساندن ارزش خود،جریان دارد .>6@
-3-2 تنوع - - variety
انواع منابع داده و تنوع در نوع داده بسیار زیاد میباشد که در نتیجه ساختار های داده ای بسیار زیادی وجود دارد.مثلا در وب, افراد از نرم افزارها و مرورگر های مختلفی برای ارسال اطلاعات استفاده میکنند.بسیاری از اطلاعات مستقیما از انسان دریافت میشود و بنابراین وجود خطا اجتناب ناپذیر است.این تنوع سبب میشود جامعیت داده تحت تاثیر قرار بگیرد.زیرا هرچه تنوع بیشتری وجود داشته باشد, احتمال بروز خطای بیشتری نیز وجود خواهد داشت.