بخشی از مقاله

بررسی ابعاد کلان داده ها در محاسبات ابري

 

خلاصه

امروزه گستره وسیعی از امور محاسباتی افراد و شرکتها توسط سیستم هاي رایانه اي صورت میگیرد . تسریع ، دقت و اطمینان از نتایج باعث توفیق روزافزون این سیستم ها شده است . در این میان اگر حجم داده اي براي محاسبات از حدي عبور کند نه تنها سیستم هاي معمولی قادر به پاسخگویی نخواهند بود بلکه ممکن است نتایج نادرست بعنوان خروجی به کاربر ارایه دهند. اینجا نقطه ظهور کلان داده است ، داده هایی حجیم و متنوع و بت سرعت رشد نمایی و غیر قابل مهار .

در این میان ابزارهایی هم براي کنترل و مدیریت و تبدیل این تهدید به فرصت بوجود آمده است که کاربردي ترین و نوین ترین آن رایانش ابري است .

در این مقاله ضمن ترسیم ابعاد کلان داده به بررسی راهکارهاي موجود براي مدیریت آن خ.اهیم پرداخت و بطور خاص توانمندیهاي رایانش ابري در این حوزه را بیان کرده و نتایجی عملی از کاریرد ترکیبی آن خواهیم پرداخت .

کلمات کلیدي : کلان داده ، رایانش ابري ، هادوپ

-1 مقدمه

1-1 رایانش ابري :

سبک جدیدي از محاسبات که پس از شبکه هاي گرید2 ﻣﻘﺒﻮﻟﯿﺖ عمومی یافت رایانش ابري 3 است که در آن منابع بصورت پویا و مقیاس پذیر و اغلب مجازي هستند . بهره ﻣﻨﺪي از خدمات ابر4 نیازمند سرمایه گذاري اولیه نمی باشد و پرداخت هزینه بواسطه میزان بهره مندي از خدمات است . همین امر شرکتها و بخصوص شرکتهاي نوپا و کوچک را به بهره مندي از خدمات ابر ترغیب می کند و این یعنی بازاري بزرگ براي شرکتهاي ارائه دهنده سرویس در فضاي ابر . طبق تعریف موسسه NIST رایانش ابري یک مدل براي دسترسی بنابر تقاضا و راحت تحت شبکه به یک مجموعه اشتراکی از منابع محاسباتی قابل

1

پیکربندي ( از جمله سرورها، شبکه ها، دستگاههاي ذخیره سازي، برنامه هاي کاربردي و سرویسها ) است که این منابع به سرعت فراهم، استفاده و با کمترین تلاش و هزینه آزاد میشوند. پلتفرم رایانش ابري به برنامه هاي کاربردي شبکه ها و رایانش توزیع شده موجود وابسته نیست. ممکن است سرویسهاي زیرساخت مبتنی بر ابر شامل منابع چند دامنه و چند ارائه دهنده سرویس باشد. به این ترتیب ، ابرها با معرفی نوع جدیدي از سرویسها، براي مجازي سازي گام جدیدي در زنجیره توسعه تکنولوژیهاي ارتباطی ارائه می کنند تا بتوان به قابلیت هاي بیشتري در برنامه هاي کاربردي توزیع شده دست یافت. ارائه سرویس به سرویس گیرندگان از طریق رایانش ابري زمان پاسخگویی را کاهش داده و با توزیع حجم کاري روي ابرها و در نقاط مختلف در مصرف زمان صرفه جویی می گردد. از ویژگیهاي اساسی رایانش ابري می توان به انعطاف پذیري سریع، سرویس هاي اندازه گیري شده ،تحمل پذیري خطا، مجازي سازي، استقلال از وسیله و تداوم اشاره کرد.

شکل شماره 1 فضاي متصور از محیط ابر را به تصویر میکشد . شرکتهاي ارائه دهنده سرویس در داخل ابر قرار دارند و براي جلب مشتري بیشتر رقابت می کنند .این شرکتها میتوانند باهم ارتباط هم داشته باشند . کاربران با انواع دستگاهها اعم از کامپیوتر هاي شخصی ، لپ تاپ ، تبلت و تلفن همراه بواسطه اتصال به اینترنت از خدمات مختلف بهره مند میشوند . این

خدمات شامل فضاي نامحدود براي ذخیره سازي ، زیرساختهاي سخت افزاري ، استفاده از نرم افزارهاي کاربردي بدون خرید نرم افزار و ... می باشد .

شکل .1 شرکت هاي ارائه دهنده سرویس و نحوه اتصال کاربران [1]


2

1-2 نگاه آماري :

با بررسی آمار منتشر شده توسط شرکت 1 BIکه در تصویر شماره 2 قابل روﯾﺖ است [1]، میتوان به این واقعیت اذعان کرد که مقبولیت و محبوبیت خدمات ابر رو به افزایش است چراکه تا پایان سال 2014 میلادي تعداد کاربران پنج شرکت مطرح در این زمینه به بیش از 1100 میلیون کاربر می رسد که ﺷﺮﮐﺖ اپل2 با ارائه سرویس Icloud و جذب 300 میلیون کاربر پیشتاز این عرصه میباشد . dropbox هم با همین تعداد کاربر رقابت تنگاتنگی با شرکت اپل دارد . البته لازم به توضیح است این تعداد کاربران براي سال جدید میلادي بسیار بیشتر از این محدوده خواهد بود ، چرا که نیازهاي موجود در زمینه آي تی بدون استفاده از خدمات رایانش ابري هزینه بر و گاها غیر ممکن است .


شکل .2 نمودار تعداد کاربران شرکتهاي ارائه دهنده خدمات ابر[1]

این حجم کاربران که روز به روز رو به افزایش است، موجب تولید داده هایی با حجم زیاد و البته سرعت رشد بالا خواهد شد که بحث مدیریت و تامین امنیت داده اي و بهره مندي از اطلاعات مفید داده اي را تحت تاثیر قرار خواهد داد . لذا بنظر میرسد بررسی این نوع داده ها در فضاي ابر مهم و اجتناب ناپذیر باشد .

در ادامه به بررسی کلان داده3 در رایانش ابري خواهیم پرداخت .

3

-2 کلان داده

2-1 تعریف :

کلان داده اصطلاحی است که به داده هایی اطلاق میگردد که چهار ویژگی مطرح در شکل 3 را داشته باشند که شامل: حجم زیاد ، سرعت رشد نمایی ، تنوع و ارزش است [2].


شکل .3 ویژگیهاي داده هاي حجیم [2]

مهمترین ویژگی کلان داده حجم آن است که محدوده اي بالغ بر اگزا بایت و پتابایت را شامل میشود. از نظر تنوع هم در سه گروه ساخت یافته1 ، کمتر ساخت یافته2 و غیر ساخت یافته3 طبقه بندي میشود . ویژگی دیگر مطرح در این خصوص سرعت رشد است که براي کلان داده طبق تعریف همانطور که در شکل شماره 4 ملاحظه میشود ، این سرعت بصورت نمایی مطرح است . و نهایتا ویژگی ارزش که داده ها را از نظر باارزش بودن مورد بررسی قرار میدهد .

4

شکل . 4 نمودار رشد داده هاي حجیم به تفکیک نوع داده اي [1]

با دقت در شکل بالا این نکته قابل باور است که رشد داده ها با شتاب نمایی رو به افزایش است چراکه شیب نمودار بصورت قوسی است . همینطور بیان این نکته خالی از لطف نیست که رشد داده هاي ساخت یافته کند و پیرو تابع خطی است در حالی که داده هاي غیر ساخت یافته و کمتر ساخت یافته سرعت رشد نمایی دارند . به این مهم هم باید توجه کرد که این نمودار تا پایان سال 2014 رسم شده است و اگر آن را به سال 2015 ادامه دهیم شاهد شتاب بیشتري خواهیم بود .

2-2 پروژه [6] : SKA 1

سوالی که با بیان ویژگیهاي کلان داده مطرح میشود این است که آیا در عمل داده هایی با این حجم و سرعت رشد وجود دارند ؟ آیا پروژه اي ملموس در این زمینه وجود دارد ؟

پروژه SKA پاسخ به این سوالات است که در ادامه توضیح آن خواهد گذشت .

طبق تئوریهاي مختلف میلیونها سال پیش ﻃﯽ حادثه اي که به بینگ بنگ 2معروف است کهکشانها با فعل و انفعالات فیزیکی و شیمیایی تشکیل زمین را رقم زدند . اما هیچ اطلاعاتی از زمان دقیق این حادثه و کیفیت و کمیت آن در دسترس نیست و سوالاتی در این خصوص همچنان بی پاسخ باقی است : اینکه بدو خلقت زمین دقیقا چند میلیون سال پیش است ؟ قبل از زمین منطومه شمسی به چه شکل بوده است ؟ و آیا موجوداتی قبل از دایناسورها وجود داشته اند یا خیر ؟

در سال 1994 میلادي در مجمعی که با حضور بیش از بیست کشور در ایالات متحده برگزار شد استارت پروژه SKA زده شد و این پروژه هم اکنون با بودجه اي بالغ بر 1.5 میلیارد یورو و وسعت بالاي 5000 کیلومتر مربع و گستره اي مشتمل بر 5

5

قاره جهان براي پاسخ به سوالات مطرح در خصوص حادثه بینگ بنگ فعالیت میکند . حجم داده هاي تولیدي در یک روز توسط این پروژه با دوبرابر کل ترافیک اینترنت جهان برابري میکند و این یعنی مواجهه با داده هاي حجیم واقعی .


2-3 کلاس بندي1 کلان داده ها [2 ]:

کلان داده ها با توجه به حجم و تنوع بالایی که دارند معمولا مطالعه در خصوص آنها با موانع و سختیهایی مواجه میشود . دانشمندان براي رفع این مشکلات و محدود کردن افسارگسیختگی این نوع از داده ها ، آن را در کلاسهاي مختلفی از جهات متفاوت دسته بندي می کنند . هدف از این کار شناسایی بهتر داده ها و امکان مطالعه بهتر در مورد آن است . در مقالات مختلف کلاس بندي هاي مختلفی ارائه میشود که در این پژوهش یکی از جامع ترین کلاس بندیها به اختصار توصیف خواهد شد .

 

شکل . 5 کلاس بندي داده هاي حجیم [2]

شکل شماره 5 کلاس بندي داده هاي حجیم را در پنج کلاس مطرح میکند . در کلاس اول داده ها از نظر منابع تقسیم بندي میشوند و در کلاس دوم همانطور که توضیح کامل آن گذشت از لحاظ ساختاري به سه دسنه ساخت یافته ، کمتر ساخت یافته و غیر ساخت یافته تقسیم میشود. و سه کلاس بعدي به ترتیب داده ها را از نظر ذخیره شدن ، قالب نمایشی و پروسه اي دنبال میکنند تقسیم بندي می کند .

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید