بخشی از مقاله
کلان داده، کاربردها و چالش های آن
چکیده
با توجه به افزایش و گسترش روزافزون حجم انتقال اطلاعات در فضای مجازی اینترنت به خصوص در حوزه بانکداری و تجارت الکترونیکی، مسأله کلان داده، ورود و ذخیرهسازی حجم زیادی از اقلام اطلاعاتی دادهها و مدیریت آن، پیش پردازش و پس پردازش، سرعت، دقت و امنیت اطلاعات از اهمیت بسیار زیادی برخوردار شده و توجه بسیاری از محققان و متخصصین در حوزه فناوری اطلاعات را به خود معطوف کرده است. در این مقاله پس از معرفی کلان داده، موقعیتها و کاربردهای آن در فناوری، روشی ها و چالشی های مطرح در این حوزه را، مورد بررسی قرار خواهیم داد.
کلید واژه : کلان داده (big data)، هادوپ، شبکههای اجتماعی، ذخیرهسازی، امنیت اطلاعات
با گسترش روزافزوناستفاده از خدمات فناوری اطلاعات، وهمچنین فراگیرشد نابزارهای دیجیتالی، هر فرد به واسطه حضور خود در فضای مجازی باعث تولید حجم زیادی از داده هامی شود. این داده هامی تواند در دو دسته بندی کلی قرار بگیرد، یک قسمت اطلاعاتی است که انسان آن را تولید کرده و قسمت بعدی اطلاعاتی است که توسط ماشینهای مختلف (همانند مسیریابها، دوربینها مدار بسته، حسگرهای مختلف و ...) در حال تولید است. کلان دادہ « r2లాe' عظیمی از دادهها اطلاق می شود که که پردازش آنها به وسیله پایگاه دادههای سنتی و ابزارهای آن غیرقابل انجام است». این حجم از داده بیش از چندین اگزابایت " ("۱۰) بوده و شامل انواع مختلفی از داده هایچندرسانه ای، متن و ... می شود که به شکل غیرقابل تصوری حجم آن در حال افزایش است. حجم عظیم اطلاعات تنها یک جنبه از کلان داده را نشان میدهد، گوناگونی " اطلاعات ذخیرهسازی شده، سرعت ورود اطلاعات جدید به سیستم مقادیر اطلاعات، و پیچیدگی آنها همگی از ویژگی های این حوزه از فناوری بوده که مفهوم کلان داده را نمایان میسازد. چالش های این حوزه صرفا منوط به ذخیره سازی و مدیریت آن نمی شود، بلکه مبحث تحلیل و پردازش کلان داده و به دست آوردن دانش ارزشمند از مهمترین مسائل آن است. تا سال ۲۰۰۳ میلادی ۵ اگزابایت )w ۱۰ بایت) اطلاعات توسط انسان تولیدشده بود اما امروزه این حجم از داده تنها در دو روز توسط انسان تولید می شود. شرکت IBM در گزارش خود اعلام کرد هر روز ۲/۵ اگزابایت اطلاعات به دادههای دنیا افزوده می شود که ۹۰ درصد مقدار اطلاعاتی که در حال حاضر در دست داریم فقط در دو سال گذشته تولید شده (Singh 2012) J. برای مثال یکی از شبکههای اجتماعی محبوب در دنیا بیش از یک میلیارد کاربر دارد که روزانه بیش از ۳۰۰ میلیون تصویر را در این شبکه اجتماعی با یکدیگر به اشتراک می گذارند، تا کنون تعداد این تصاویر بیش از ۲۴۰ میلیارد گزارش شده است و به طور میانگین روزانه ۵۰۰ ترابایت به حجم اطلاعات این شبکه اجتماعی افزوده می شود.(2012 Tam) امروزه کلان داده و کاربردهای آن در فناوری، بازار و صنعت، امنیت، پزشکی و... به اثبات رسیده و بشر به کمک تحلیل این حجم از عظیم از داده توانسته به دانش کارآمدی در مدیریت بهتر و مؤثرتر کسب و کار خود دست پیدا کند. مدیریت و آنالیز اطلاعات همواره برای تمامی شرکتها در هر حیطه کاری از اهمیت خاصی برخوردار است. آنها همواره تلاش دارند راه کارهای عملی در جهت به دست آوردن اطلاعات از مشتریان، محصولات و یا خدمات خود انجام دهند. زمانی که یک شرکت تعداد محدودی مشتری و یک محصول خاص دارد، تحلیل این اطلاعات کار سختی نیست اما در طول زمان مسلماً اطلاعات زیادی از فروش بازار، سلیقه مشتری و ... تولید خواهد شد و دیگر با آن حجم ابتدایی از دادهها مواجه نیستیم. در بازار رقابتی، مدیران به طور متداوم نیاز دارند با علایق و سلایق مشتری و یا کاربران شان آشنا شوند و سیاستهای جدید را طراحی کنند. حتی کاربرد کلان داده به مسائل بازار کار محدود نمی شود بلکه امروزه با استفاده از تحلیل اطلاعات شبکههای اجتماعی می توانند انتخابات یک کشور را با درصد خطای بسیار پایین پیش بینی نموده (.MahmOOd IClbal et al 2013) و یا تبلیغات نامزدهای انتخاباتی را در جهت افکار مردم و بالارفتن محبوبیت وی سمت و سو دهند (13 20 BenSThir).
حجم و پیچیدگی اطلاعات بسیار بالا است، بخشی از اطلاعات در پایگاه های داده سنتی ذخیرهسازی شده، برخی دیگر به شکل اسناد ، مجموعه سرویس هایی که به مشتری یا کاربر داده شده، حتی تصاویر و ویدئوهای مرتبط که هیچ طبقه بندی روی آن صورت نگرفته است. در این مقاله ابتدا کلان داده، کاربردها و چالش های آن را معرفی نموده و در قسمت بعدی، یکی از ابزارهای قدرتمند نگهداری و پردازش اطلاعات در این حوزه معرفی میگردد و در پایان موضوعاتی که در آینده فرصت پژوهشی مناسبی در زمینه کلان داده دارند بیان خواهد شد.
کلان داده
اگر بخواهیم معادلی فارسی برای " Big Data" در نظر بگیریم می توان به "کلان داده"، "بزرگ داده" یا "حجیم داده " اشاره نمود که در مفهوم هیچ اختلافی با یکدیگر ندارند. کلان داده به معنی مجموعه عظیمی از داده هامی باشد که پردازش آنها به وسیله پایگاه دادههای سنتی و ابزارهای آن غیرقابل انجام است(3 201 .Kai Sler, ArmOur et al). در بیشتر منابع و مقالات (2014 B.Gerhardt 2012, Singh 2012, SagirOglu and Sinanc 201 3, Gartner) برای کلان داده سه ویژگی اصلی بیان نموده اند ۱- حجم ۲۵- گوناگونی" ۳-سرعت " که اصطلاحاً به آن 3VS نیز می گویند. البته در منابعی دیگر( Kaisler, Armour et al. 2013, Katal, WaZid et al. 2013. SagirOglu and 2013 SinanC) علاوه بر سه ویژگی اصلی گفته شده مقدار داده و پیچیدگی داده را نیز به ویژگیهای آن اضافهکردهاند. اما واضح است در صورتی که یک محیط جریان اطلاعاتی یا یک شبکه بتواند هر سه مورد نام برده شده را احراز کند به آن مجموعه کلان داده گفته می شود. ۔ البته تشخیص وجه تمایز یک مجموعه اطلاعاتی که آن را کلان داده نامگذاری می کنیم و یک سیستم اطلاعاتی حجیم که ظاهراً شرایط آن را دارد بسیار مهم است. برای مثال یک سامانه دادهای که تمامی اطلاعات مردم ایران را در خود ذخیره می کند (نام، نام خانوادگی، شماره ملی و ...) نمیتواند کلان داده به شمار آید در صورتی که ظاهراً حجم بالایی از اطلاعات را در دل خود دارد.
حجم داده
شاید مهمترین ویژگی کلان داده را بتوان حجم عظیم داده برشمرد، امروزه شرکتهای صاحب نام در عرصه فناوری اطلاعات خصوصاً شبکههای اجتماعی به تنهایی می توانند روزانه ۵۰۰ ترابایت اطلاعات جدید تولید کنند، به عنوان مثال سرویس اشتراک ویدئویگوگل در هر دقیقه بیش از ۱۰۰ ساعت ویدئو بارگذاری شده توسط کاربران خود را دریافت و مدیریت می کند. (Tam 2012, Smith 2014).