بخشی از مقاله
مروري بر مفهوم کلان داده
چکیده
کلان دادهها به هر مجموعهي بسیار وسیع و پیچیدهاي اطلاق میشود که پردازش آن با استفاده از برنامههاي پردازش دادهي سنتی مشکل است. کار باکلان دادهها با استفاده از سامانههاي مدیریت پایگاه دادههاي منطقی و آمار کتابخانهاي سخت است و در مقابل نیازمند نرمافزارهاي موازي بسیاري است که روي دهها، صدها یا حتی هزاران سرور اجرا میشوند. کلان دادههامعمولاً شامل مجموعه دادههایی هستند که داراي اندازهاي میباشند کهمعمولاً فراتر از توانایی معمول ابزار نرمافزاري براي گرفتن، انتخاب، مدیریت و پردازش دادهها در یکزمان معین میباشند. "اندازهاي دادههاي عظیم یک موضوع متغیر است که از چند ده ترابایت تا چندین پتابایت داده متغیر است. کلان دادهها مجموعهاي از تکنیکها فنّاوريهایی است که نیازمند فرمهاي جدید اختلاط براي آشکار کردن مقادیر پنهان وسیع از روي مجموعه دادههایی است که متنوع، پیچیده و بزرگمقیاس میباشند. محیط دادههاي وسیع براي کسب، سازماندهی و تجزیهوتحلیل انواع مختلف دادهها مورداستفاده قرار میگیرد . یک مشاهده در مورد چارچوب نگاشت کاهش وجود دارد که این چارچوب میزان وسیع دادههاي متوسط را تولید میکند.. در این مقاله مروري بر مفهوم کلان داده و مهمترین مسائل پیرامون آن خواهیم داشت.
کلمات کلیدي: کلان دادهها، هادوپ، HDFS، پیگ، هایو
2
.1 مقدمه
کلان داده شعار یا تکیه کلامی است که براي توصیف یک حجم بزرگ دادههاي ساختاري و نیز غیر ساختاري استفاده میشود که به قدري عظیم هستند که پردازش آنها با استفاده از تکنیکهاي نرم افزارها و دادههاي سنتی، مشکل است. در اکثر طرحهاي سرمایه گذاري، دادهها یا بسیار وسیع هستند، یا بسیار سریع حرکت میکنند و یا از ظرفیت پردازش حاضر تجاوز میکند.[ کلان دادههاي داراي پتانسیل کمک به سازمانها براي بهبود عملکردها و تصمیم گیريهاي سریع تر و عاقلانه تر، میباشد . 14] کلان دادهها؛ امروزه این واژه در صنعت فناوري اطلاعات (IT) متداول شده است. با این که مقدار زیاد داده در این صنعت وجود دارد، قبل از به وجود آمدن کلان دادهها چیزي وجود نداشت. کلان دادهها در واقع یک کلمهی در حال تحول است که هر گونه میزان حجیم دادههاي ساختاري، نیمه ساختاري و غیر ساختاري داراي پتانسیل استخراج اطلاعات باشد را توصیف میکند، با اینکه کلان دادهها به هیچ مقدار خاصی اشاره نمیکند، اما اغلب در هنگام صحبت در مورد پتابایت ها و اگزابایت هاي دادهها مورد استفاده قرار میگیرد. کلان دادهها، یک کلمهی همه جانبه براي مجموعهی وسیع دادههاي وسیع و پیچیده اي است که کاربري آنها با استفاده از برنامههاي پردازش دادههاي سنتی مشکل میشود . در تعامل با مجموعه دادههاي وسیع، سازمانها در ایجاد، جمع آوري و مدیریت کلان دادهها با مشکلاتی روبرو میشود. کلان دادهها یک مشکل در تحلیلات تجاري میباشد. چرا که در روشهاي ابزار استاندارد براي جستجو و تجزیه و تحلیل مجموعه دادههاي حجیم طراخی نشدهاند.
یک نمونهی دادههاي کلان ممکن است پتابایت ها یا اگزابایت هاي دادههاي متشکل از میلیونها یا میلیاردها رکورد میلیونها نفر باشد که از منابع مختلفی به دست میآیند. دادهها زمانی که داراي ساختار آزاد میباشند، اغلب غیر کامل و غیر قابل دسترسی میباشند.
چالشها شامل تجزیه و تحلیل، گرفتن، گزینش، تحقیق، اشتراك گذاري، نگه داري، انتقال، تجسم و نقض حریم خصوصی میباشد. گرایش به مجموعه دادههاي بزرگتر اطلاعات اضافی قابل اشتقاق میباشد که اجازهی یافت تعاملات را براي گرایشات کسب و کار نقطه اي، جلوگیري از اختلالات و مبارزه با جرائم ایجاد میکند . دانشمندان به طور مرتب، به دلیل وجود مجموعه دادههاي وسیع در بسیاري از مناطق، شامل هواشناسی، ژنومیک، کانکتومیک، شبیه سازي هاي پیچیدهی فیزیکی و تحقیقات بیولوژیکی و محیطی با محدودیتهایی روبرو میشوند. این محدودیتها همچنین جستجوي تعاملی، انفورماتیکهاي تجاري و مالی را تحت تأثیر قرار میدهد . مجموعه دادهها به صورت قسمی افزایش سایز پیدا میکنند. چرا که آنه به صورت فزاینده اي به وسیلهی ابزارهاي سنجش اطلاعات متداول، تکنولوژيهاي حسی هوایی گزارشات نرم افزاري، دوربینها، میکروفنها، شناسایی فرکانس رادیویی ( RFID) و شبکههاي حسی بی سیم جمع آوري شدهاند. ظرفیت سرانهی تکنولوژي دنیا، براي نگه داري اطلاعات، از سال 1980 در هر 40 ماه دو برابر میشود . که از سال 2012 روزانه 2.5 اگزابایت داده ایجاد میشود. چالشها براي شرکتهاي وسیع تعیین میکند که چه کسی باید ابتکار عمل دادههاي کلان را که سازمان را طرفداري میکند را تصاحب کند.[1] کلان دادهها از سال 2011 توسط تحلیل گر صنعتی داگ لانی 1 تعریف شده است، تعریف اصلی کنونی کلان دادهها را به عنوان سه تقابل تعریف کرده است : حجم، سرعت و تنوع. کلان دادهها با سه تقابل مشهور زیر شروع میشود: حجم وسیع دادهها، تنوع گستردهی دادههاي متنوع، و سرعتی که در آن دادهها باید پردازش شود. با اینکه دادههاي وسیع به هیچ مقدار خاصی اشاره نمیکند، این کلمهمعمولاً در صحبت در مورد پتابایت ها و اگزابایت هاي داده مورد استفاده قرار میگیرد که به آسانی قابل تلفیق
نیستند.
3
• حجم: عوامل بسیاري مربوط به افزایش حجم دادهها میباشد. دادههاي دادههاي مبتنی بر اجرا، میزان فزایندهی دادههاي ماشین به ماشین و حسگر جمع آوري شدهاند. در گذشته، حجم دادههاي بیش از اندازه یک مسئلهی مهم در نگه داري بود. اما با کاهش هزینههاي نگه داري، مسئلهی دیگري ظاهر میشود که شامل چگونگی تأمین ارتباط در حجم دادههاي وسیع و چگونگی تأمین ارتباط در حجم دادههاي وسیع و چگونگی استفاده از تحلیلات براي ایجاد ارزش از دادههاي مربوطه است.
• سرعت: دادهها در یک سرعت بی سابقه جریان مییابند و باید با آنها کنار آمد. برچسبهاي RFID، حسگرها و ابزارهاي اندازه گیري هوشمند، نیاز به تعامل با میزان زیاد دادهها در زمان تقرباًی مناسب پاسخ میدهند. واکنش در حداقل زمان ممکن براي برخورد با سرعت داده به صورت یک چالش براي بیشتر سازمانها در آمده است.
• تنوع: امروزه دادهها در تمام انواع قالبها وجود دارد. دادههاي ساختاري، دادههاي عددي، در پایگاه دادههاي سنتی، اطلاعات به دست آمده از برنامههاي خط تجاري و اسناد مکتوب غیر ساختاري، ایمیل، ویدئو، صدا، دادههاي تلگرافی
سهام و تعاملات مالی، میباشد. سازماندهی، ایجاد و مدیریت انواع دادهها مسئله اي است که هنوز هم بسیاري از سازمانها با آن درگیرند.
در تفکر در مورد کلان دادهها، ما دو بعد دیگر را در نظر میگیریم:
• تغییر پذیري : علاوه بر افزایش سرعت و تنوع دادهها، جریانات واژههاي میتواند بسیار ناسازگار با قلههاي تناوبی باشد. آیا چیزي در شبکههاي اجتماعی متداول است؟ مدیریت قلههاي بارگیريهاي دادهی روزانه، فصلی و وابسته به رویداد ممکن است مشکل باشد.
پیچیدگی: امروزه دادهها از منابع جداگانه اي میآیند و همچنان یک جوابگوي براي ارتباط، انطباق، تصفیه و انتقال دادهها در سیستمها میباشد. با این حال، اتصال و ارتباط اطلاعات، سلسله مراتبها و ارتباطات دادههاي چندگانه ضروري است و در غیر این صورت دادههاي شما میتواند سرعاًی از کنترل خارج شود.
نگهداري دادهها به صورت چشمگیري رشد یافته است و پس از سال 2000 از آنالوگ به دیجیتال تغییر یافته است. کلان دادهها، تجزیه و تحلیل مقادیر زیاد داده براي به دست آوردن دیدگاه جدید، یک شعار جدید است که در سالهاي اخیر ایجاد شده است. از آنجایی که می دانیم دادهها به صورت روزانه در حال رشد در یک سرعت سرسام آور هستند. یکی از فناوريهاي مشهور سودمند که با دادههاي کلان سرو کار دارد، هادوپ میباشد.
.2 هادوپ
هادوپ در سال 2005 توسط داگ کاتینگ 1 و مایک لافارلا 2 ساخته شد. داگ کاتینگ که در یاهو کار میکرد، این نامگذاري را از روي فیل اسباب بازي پسرش انجام داد. که در اصل براي حمایت از توزیع پروژهی موتور جستجوي Nutch ایجاد شده بود. هادوپ یک نرم افزار تک منبعی است که محاسبهی توزیع شده، قابل تغییر مقیاس، و قابل اعتماد را در گروه سرورهاي غیر گران قیمت مقدور میسازد. در ادامه به ذکر ویژگیهاي مهم هادوپ میپردازیم.
• قابل اعتماد: این برنامه داراي تلورانس خطا میباشد که به اختلالات نرم افزاري و سخت افزاري نظارت و رسیدگی میکند.
• مقیاس پذیر: براي مقیاس بزرگ پردازشگرها، حافظه و مخزن متصل قسمی طراحی شده است.
• توزیع شده: به تکرارها رسیدگی میکند و نگاشت کاهش و مدل طراحی موازي حجیم را ایجاد میکند.
هادوپ یک اجراي متن باز یک سیستم پردازش بستهی بزرگ مقیاس میباشد که از چارچوب نگاشت کاهش معرفی شده توسط گوگل، از طریق اعمال نفوذ مفهوم عملکردهاي طرح و کاهش مشهور مورد استفاده در طراحی کاربردي، مورد استفاده قرار
4
گرفتهاند. با اینکه چارچوب هادوپ در جاوا نوشته شده است، به توسعه دهندگان اجازه میدهد که برنامههاي سفارشی نوشته شدهی کد شده در جاوا یا هر زبان دیگر براي پردازش داده در یک مدل موازي روي صدها یا هزاران سرور دیگر مستقر کند. این وضوع براي درخواستهاي خواندن به هم پیوسته بهینه سازي شده است که در آنها پردازش شامل اسکن تمام دادهها میباشد. بسته به پیچیدگی پردازش حجم دادهها، زمان پاسخگویی میتواند از چند دقیقه تا چند ساعت تغییر کند. در حالی که هادوپ میتواند دادهها را به سرعت پردازش کند، فایدهی اصلی آن مقیاس پذیري کلان آن است.[3]
شکل .1 ساختار سیستم هادوب
هادوپ در حال حاضر براي جستجوي شاخص تحت وب، شناسایی اسپم ایمیلها، موتورهاي توصیه، پیش بینیها در خدمات مالی، دستکاري ژنوم در علوم زیستی، و براي تجزیه و تحلیل دادههاي غیر ساختاري مثل متن و کلیکها مورد استفاده قرار میگیرند. در حالی که بسیاري از این کاربردها در واقع میتوانند در یک پایگاه داده هاب وابستگی (RDBMS) اجرا شوند، هستهی اصلی چارچوب هادوپ از لحاظ عملکرد، متفاوت با RDBMS بود. در ادامه برخی از این تفاوتهاي هادوپ که نسبتاً مفید هستند، عبارتاند از: پردازش اطلاعات پیچیده مورد نیاز نیست؛ دادههاي غیر ساختاري نیازمند تبدیل به داده هاب ساختاري دارد؛ نمایشها نمیتوانند از لحاظ منطقی با SQL نمایش داده شوند؛ الگوریتمهاي بسیار بازگشتی؛ الگوریتمهاي پیچیده و در عین حال همگون، مثل تجزیه و تحلیل مکانی-جغرافیایی یا توالی ژنومی مورد نیاز است؛ فراگیري ماشینی؛ مجموعه دادهها براي تناسب در پایگاه RAM دادهها و دیسکها بسیار وسیع هستند و یا نی از به هستههاي بسیار حساس دارند؛ میزان داده، مصرف دسترسی واقعی ثابت، مثل آرشیوها یا اطلاعات خاص را که میتواند به هادوپ انتقال یابد و با هزینهی کمتر در دسترس بماند را پاسخ میدهد؛ نتایج آنی لازم نیست؛ تلورانس خطا مهم است؛ کدگذاري سفارشی چشمگیر براي رسیدگی به برنامهی شغلی لازم است.[5] هادوپ به وسیلهی نگاشت کاهش گوگل، یک چارچوب نرم افزاري که در آن یک برنامهی کاربردي به قسمتهاي کوچک تر
متعددي تقسیم میشود، ایجاد شد. هریک از این قسمتها (که قطعه یا بلوك نام دارند) میتوانند روي هر گره موجود در دسته اجرا شوند. داگ کاتینگ، ایجاد کنندهی هادوپ، چارچوب را از روي فیل اسباب بازي بچهاش نامگذاري کرد . اکوسیستم هادوپ آپاچی کنونی متشکل از هستهی آدوپ، نگاشت کاهش، سیستم فایل توزیع شدهی هادوپ (HDFS) و تعدادي از پروژههاي مرتبط
5
مثل آپاچی هایو1، Hbase ، و زوکیپر میباشد. چارچوب هادوپ به وسیلهی بازیگران بزرگ مثل گوگل، IBM، مورد استفاده قرار میگیرد. این شرکتها از این چارچوب براي برنامههاي کاربردي مرتبط با موتورهاي جستجو و تبلیغات بهره میگیرند. سیستمهاي عامل ترجیحی براي هادوپ، ویندوز یا لینوکس است. هرچند که با XSD و OSX نیز کار میکند.
سیستم فایل توزیع شده یک برنامهی کاربردي مبتنی بر صدور/مشتري است که به مشتریان اجازهی دسترسی و پردازش دادهی موجود در سرور، در صورت وجود در کامپیوترشان را میدهد . در صورتی که یک کاربر به یک فایل در سرور دست یابد، سرور یک کپی فایل را به کاربر میفرستد، که روي کامپیوتر کاربر ذخیره میشود. در حالی که داده پردازش میشود و سپس به سرور باز میگردد. به صورت ایده آل، یک سیستم فایل توزیع شده، فایل را مدیریت میکند و سرویس دایرکتوري سرورهاي فردي در یک دایرکتوري کلی است که در آن کنترل دسترسی به داده مخصوص مکان نیست و در هر مشتري ثابت است. تمامی فایل براي تمام کاربران سیستم فایل جهانی قابل دسترسی است و این سازمان دهی سلسله مراتبی و مبتنی بر دایرکتوري میباشد.
از آنجایی که بیشتر از یک مشتري ممکن است به طور همزمان به یک داده دسترسی یابند، سرور باید داراي مکانیسمهاي به جا براي ادارهی به روز رسانیها باشد، که در نتیجه، مشتريها همواره جدیدترین ورژن هاي دادهها را دریافت میکنند و بنابراین تعارض دادهها افزایش مییابد. سیستمهاي فایل توزیع شده به صورت متداولی از همتاسازي پایگاه دادهها یا فایلها براي محافظت در مقابل اختلالات دستیابی به داده استفاده میکنند. میکروسیستم هاي سان سیستم فایلهاي توزیع شدهی مایکروسافت، شبکه افزار ناول 2، DFS مربوط به /IBMترانسارك 3 برخی نمونههاي سیستمهاي فایل توزیع شده میباشد.