بخشی از مقاله

کلان داده ، کاربردها و چالش هاي آن
چکيده
با توجه به افزايش و گسترش روزافزون حجم انتقال اطلاعات در فضاي مجازي اينترنت به خصوص در حوزه بانکداري و تجارت الکترونيکي، مسأله کلان داده ، ورود و ذخيره سازي حجم زيادي از اقلام اطلاعاتي داده ها و مديريت آن ، پيش پردازش و پس پردازش ، سرعت ، دقت و امنيت اطلاعات از اهميت بسيار زيادي برخوردار شده و توجه بسياري از محققان و متخصصين در حوزه فناوري اطلاعات را به خود معطوف کرده است . در اين مقاله پس از معرفي کلان داده ، موقعيت هاوکاربردهاي آن در فناوري، روش ها و چالش هاي مطرح در اين حوزه را، مورد بررسي قرار خواهيم داد.
کليد واژه : کلان داده (big data)، هادوپ ، شبکه هاي اجتماعي، ذخيره سازي، امنيت اطلاعات
مقدمه
باگسترشروزافزوناستفادهاز خدماتفناورياطلاعات ،وهم چنينفراگيرشدنابزارهايديجيتالي،هر فرد به واسطه حضور خود در فضاي مجازي باعث توليد حجم زيادي از داده هامي شود. اين داده هاميتواند در دو دسته بندي کلي قرار بگيرد، يک قسمت اطلاعاتي است که انسان آن را توليد کرده و قسمت بعدي اطلاعاتي است که توسط ماشين هاي مختلف (همانند مسيرياب ها، دوربين ها مدار بسته ، حسگرهاي مختلف و ...) در حال توليد است .
کلان داده « بهحجم ١ عظيمي از داده هااطلاقمي شود که که پردازش آن ها به وسيله پايگاه داده هاي سنتي و ابزارهاي آن يرقابل انجام است ». اين حجم از داده بيش از چندين اگزابايت ٢ (١٠١٨) بوده و شامل انواع مختلفي از داده هايچندرسانه اي، متن و ... ميشود که به شکل غيرقابل تصوري حجم آن در حال افزايش است .
حجم عظيم اطلاعات تنها يک جنبه از کلان داده را نشان مي دهد، گوناگوني ٣ اطلاعات ذخيره سازي شده ،سرعت ٤ ورود اطلاعات جديد به سيستم ،مقادير٥ اطلاعات ،وپيچيدگي ٦ آن ها همگي از ويژگيهاي اين حوزه از فناوري بوده که مفهوم کلان داده را نمايان مي سازد. چالش هاي اين حوزه صرفاًً منوط به ذخيره سازي و مديريت آن نمي شود، بلکه مبحث تحليل و پردازش کلان داده و به دست آوردن دانش ارزشمند از مهم ترين مسائل آن است .
تا سال ٢٠٠٣ ميلادي ٥ اگزابايت (١٠١٨ بايت ) اطلاعات توسط انسان توليدشده بود اما امروزه اين حجم از داده تنها در دو روز توسط انسان توليد مي شود. شرکت IBM در گزارش خود اعلام کرد هر روز ٢/٥ اگزابايت اطلاعات به داده هاي دنيا افزوده ميشود که ٩٠ درصد مقدار اطلاعاتي که در حال حاضر در دست داريم فقط در دو سال گذشته توليدشده است (٢٠١٢ Singh).
براي مثال يکي از شبکه هاي اجتماعي محبوب در دنيا بيش از يک ميليارد کاربر دارد که روزانه بيش از ٣٠٠ ميليون تصوير را در اين شبکه اجتماعي با يکديگر به اشتراک ميگذارند، تا کنون تعداد اين تصاوير بيش از ٢٤٠ ميليارد گزارش شده است و به طور ميانگين روزانه ٥٠٠ ترابايت به حجم اطلاعات اين شبکه اجتماعي افزوده مي شود.(٢٠١٢ Tam)
امروزه کلان داده و کاربردهاي آن در فناوري، بازار و صنعت ، امنيت ، پزشکي و ... به اثبات رسيده و بشر به کمک تحليل اين حجم از عظيم از داده توانسته به دانش کارآمدي در مديريت بهتر و مؤثرتر کسب و کار خود دست پيدا کند.
مديريت و آناليز اطلاعات همواره براي تمامي شرکت ها در هر حيطه کاري از اهميت خاصي برخوردار است . آن ها همواره تلاش دارند راه کارهاي عملي در جهت به دست آوردن اطلاعات از مشتريان ، محصولات و يا خدمات خود انجام دهند.
زماني که يک شرکت تعداد محدودي مشتري و يک محصول خاص دارد، تحليل اين اطلاعات کار سختي نيست اما در ططول زمماان ممسسللمماًًًًًًًًًاً ااططلالاععاات ززيادديي از فروش بازار، سليقه مشتري و ... توليد خواهد شد و ديگر با آن حجم ابتدايي از داده ها مواجه نيستيم .
در بازار رقابتي، مديران به طور متداوم نياز دارند با علايق و سلايق مشتري و يا کاربران شان آشنا شوند و سياست هاي جديد را طراحي کنند. حتي کاربرد کلان داده به مسائل بازار کار محدود نميشود بلکه امروزه با استفاده از تحليل اطلاعات شبکه هاي اجتماعي ميتوانند انتخابات يک کشور را با درصد خطاي بسيار پايين پيش بيني نموده ( .Mahmood, Iqbal et al
٢٠١٣) و يا تبليغات نامزدهاي انتخاباتي را در جهت افکار مردم و بالارفتن محبوبيت وي سمت و سو دهند (٢٠١٣ Bensrhir).
حجم و پيچيدگي اطلاعات بسيار بالا است ، بخشي از اطلاعات در پايگاه هاي داده سنتي ذخيره سازي شده ، برخي ديگر به شکل اسناد ، مجموعه سرويس هايي که به مشتري يا کاربر داده شده ، حتي تصاوير و ويدئوهاي مرتبط که هيچ طبقه بندي روي آن صورت نگرفته است .
در اين مقاله ابتدا کلان داده ، کاربردها و چالش هاي آن را معرفي نموده و در قسمت بعدي، يکي از ابزارهاي قدرتمند نگه داري و پردازش اطلاعات در اين حوزه معرفي مي گردد و در پايان موضوعاتي که در آينده فرصت پژوهشي مناسبي در زمينه کلان داده دارند بيان خواهد شد.
7 کلان داده
اگر بخواهيم معادلي فارسي براي ”Big Data“ در نظر بگيريم مي توان به "کلان داده "، "بزرگ داده "يا "حجيم داده " اشاره نمود که در مفهوم هيچ اختلافي با يکديگر ندارند. کلان داده به معني مجموعه عظيمي از داده هاميباشد که پردازش آن ها به وسيله پايگاه داده هاي سنتي و ابزارهاي آن غيرقابل انجام است (٢٠١٣ .Kaisler, Armour et al).
در بيش تر منابع و مقالات (٢٠١٤ Gartner ,٢٠١٣ Sagiroglu and Sinanc ,٢٠١٢ Singh ,٢٠١٢ B.Gerhardt) براي کلان داده سه ويژگي اصلي بيان نموده اند ١- حجم ٢٨- گوناگوني ٣-سرعت ١٠ که اصطلاحاً به آن Vs٣ نيز ميگويند. البته در منابعي ديگر( Sagiroglu and,٢٠١٣ .Katal, Wazid et al ,٢٠١٣ .Kaisler, Armour et al٢٠١٣ Sinanc) علاوه بر سه ويژگي اصلي گفته شده مقدار داده و پيچيدگي داده را نيز به وِِِِِيژگيهاي آن اضافهکرده اند. اما واضح است در صورتي که يک محيط جريان اطلاعاتي يا يک شبکه بتواند هر سه مورد نام برده شده را احراز کند به آن مجموعه کلان داده گفته مي شود.
البته تشخيص وجه تمايز يک مجموعه اطلاعاتي که آن را کلان داده نام گذاري ميکنيم و يک سيستم اطلاعاتي حجيم که ظاهرً شرايط آن را دارد بسيار مهم است . براي مثال يک سامانه داده اي که تمامي اطلاعات مردم ايران را در خود ذخيره مي کند (نام ، نام خانوادگي، شماره ملي و ...) نميتواند کلان داده به شمار آيد در صورتي که ظاهرً حجم بالايي از اطلاعات را در دل خود دارد.
حجم داده

شايد مهم ترين ويژگي کلان داده را بتوان حجم عظيم داده برشمرد، امروزه شرکت هاي صاحب نام در عرصه فناوري اطلاعات خصوصا شبکه هاي اجتماعي به تنهايي ميتوانند روزانه ٥٠٠ ترابايت اطلاعات جديد توليد کنند، به عنوان مثال سرويس اشتراک ويدئويگوگل در هر دقيقه بيش از ١٠٠ ساعت ويدئوبارگذاري شده توسط کاربران خود را دريافت و مديريت مي کند.(٢٠١٤ smith , ٢٠١٢ Tam)

گوناگوني داده
اطلاعات مربوط به حسگرهاي مختلف ، تلفن هاي هوشمند، ارتباطات در شبکه هاي اجتماعي، گوناگوني اطلاعاتي که به صورت ساختاري و بدون ساختار ذخيره ميشوند بسيار پيچيده است ، زيرا تمام اين اطلاعات در پايگاه داده هايرابطه اي سنتي ذخيره نشده است ، علاوه بر اين داده ها خام ، نيمه ساختاري ١١، و يا کاملاًًً بدون ساختار است مانند ايميل هاي ارسالي و دريافتي، اطلاعات شبکه هاي اجتماعي و ... همگي از نمونه هاي اطلاعات بدون ساختار است زيرا هيچ قالب از پيش تعيين شده اي براي ورود اطلاعات ندارند ( ,٢٠١٢ Zikopoulos .(Katal, Wazid et al. 2013
سرعت داده
سرعت داده به معني است که داده ها از طريق منابع اطلاعاتي مختلف با چه سرعتي توليد و منتقل ميشوند، براي مثال داده هايي که توسط يک حسگرهايRFID١٢ در يک مجموعه توليد ميشود بسيار بالا بوده که علاوه بر ذخيره سازي اين اطلاعات در لحظه ، بايد اطلاعات مورد تجزيه و تحليل نيز قرار بگيرند، واضح است سيستم هاي سنتي ذخيره سازي و تحليل اطلاعات به سادگي نمي توانند اين جريان از اطلاعات را در لحظه مورد بررسي و نمايش قرار دهند (٢٠١٣ .Katal, Wazid et al ,٢٠١٢ Zikopoulos).
اهميت و کاربرد کلان داده
دولت آمريکا اعلام نمود تا سال ٢٠١٢ ، بر روي زمينه هاي کاربردي کلان داده در حوزه سلامت ، امنيت فضاي مجازي، نظامي و دفاعي، انرژي و فعاليت هاي تحقيقاتي مرتبط بيش از ٢٠٠ ميليون دلار هزينه نموده (٢٠١٣ .Kaisler, Armour et al) و نتايج آن را در جهت بهبود تصميم گيري و سياست گذاري در زمينه هاي نام برده شده به کار گرفته است .
در واقع هدف اصلي سرمايه گذاران و سازمان ها در زمينه کلان داده و کاربردهاي آن تصميم گيري دقيق و صحيح از طريق تحليل حجم بيش تر داده ها است .
روش هاي تجزيه تحليل کلان داده زماني قدرت خود را نسبت به الگوريتم هايداده کاوي و يا سيستم هايپرس وجو پيشرفته در پايگاه داده هايرابطه اي سنتي نمايان ميسازد که مجموعه اي از داده هاي ساختاري، نيمه ساختاري و بدون ساختار از منابع مختلف اطلاعاتي وارد سيستم شود. در ادامه با چند مورد از کاربردهاي کلان داده در کسب و کار، اقتصاد و .. بيش تر آشنا مي شويم .
فناوري اطلاعات
از مهم ترين موقعيت هاي کاربردي کلان داده در عرصه فناوري اطلاعات مي توان به تجزيه و تحليل وقايع ١٣ شبکه در جهت کشف خطا و يا کشف نفوذ به شبکه اشاره نمود. از ديگر کاربردها بالا بردن عملکرد نوشتن در شبکه ، دست يابي سريع کليد- مقدار به داده ها، شماتيکقابل انعطافداده اي در عرصه فناوري اطلاعات است ( ,٢٠١٣ .Katal, Wazid et al

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید