مقاله مروری بر مفهوم کلان داده

word قابل ویرایش
12 صفحه
دسته : اطلاعیه ها
8700 تومان

مروری بر مفهوم کلان داده

چکیده

کلان دادهها به هر مجموعهی بسیار وسیع و پیچیدهای اطلاق میشود که پردازش آن با استفاده از برنامههای پردازش دادهی سنتی مشکل است. کار باکلان دادهها با استفاده از سامانههای مدیریت پایگاه دادههای منطقی و آمار کتابخانهای سخت است و در مقابل نیازمند نرمافزارهای موازی بسیاری است که روی دهها، صدها یا حتی هزاران سرور اجرا میشوند. کلان دادههامعمولاً شامل مجموعه دادههایی هستند که دارای اندازهای میباشند کهمعمولاً فراتر از توانایی معمول ابزار نرمافزاری برای گرفتن، انتخاب، مدیریت و پردازش دادهها در یکزمان معین میباشند. “اندازهای دادههای عظیم یک موضوع متغیر است که از چند ده ترابایت تا چندین پتابایت داده متغیر است. کلان دادهها مجموعهای از تکنیکها فنّاوریهایی است که نیازمند فرمهای جدید اختلاط برای آشکار کردن مقادیر پنهان وسیع از روی مجموعه دادههایی است که متنوع، پیچیده و بزرگمقیاس میباشند. محیط دادههای وسیع برای کسب، سازماندهی و تجزیهوتحلیل انواع مختلف دادهها مورداستفاده قرار میگیرد . یک مشاهده در مورد چارچوب نگاشت کاهش وجود دارد که این چارچوب میزان وسیع دادههای متوسط را تولید میکند.. در این مقاله مروری بر مفهوم کلان داده و مهمترین مسائل پیرامون آن خواهیم داشت.

کلمات کلیدی: کلان دادهها، هادوپ، HDFS، پیگ، هایو

۲

.۱ مقدمه

کلان داده شعار یا تکیه کلامی است که برای توصیف یک حجم بزرگ دادههای ساختاری و نیز غیر ساختاری استفاده میشود که به قدری عظیم هستند که پردازش آنها با استفاده از تکنیکهای نرم افزارها و دادههای سنتی، مشکل است. در اکثر طرحهای سرمایه گذاری، دادهها یا بسیار وسیع هستند، یا بسیار سریع حرکت میکنند و یا از ظرفیت پردازش حاضر تجاوز میکند.[ کلان دادههای دارای پتانسیل کمک به سازمانها برای بهبود عملکردها و تصمیم گیریهای سریع تر و عاقلانه تر، میباشد . ۱۴] کلان دادهها؛ امروزه این واژه در صنعت فناوری اطلاعات (IT) متداول شده است. با این که مقدار زیاد داده در این صنعت وجود دارد، قبل از به وجود آمدن کلان دادهها چیزی وجود نداشت. کلان دادهها در واقع یک کلمهی در حال تحول است که هر گونه میزان حجیم دادههای ساختاری، نیمه ساختاری و غیر ساختاری دارای پتانسیل استخراج اطلاعات باشد را توصیف میکند، با اینکه کلان دادهها به هیچ مقدار خاصی اشاره نمیکند، اما اغلب در هنگام صحبت در مورد پتابایت ها و اگزابایت های دادهها مورد استفاده قرار میگیرد. کلان دادهها، یک کلمهی همه جانبه برای مجموعهی وسیع دادههای وسیع و پیچیده ای است که کاربری آنها با استفاده از برنامههای پردازش دادههای سنتی مشکل میشود . در تعامل با مجموعه دادههای وسیع، سازمانها در ایجاد، جمع آوری و مدیریت کلان دادهها با مشکلاتی روبرو میشود. کلان دادهها یک مشکل در تحلیلات تجاری میباشد. چرا که در روشهای ابزار استاندارد برای جستجو و تجزیه و تحلیل مجموعه دادههای حجیم طراخی نشدهاند.

یک نمونهی دادههای کلان ممکن است پتابایت ها یا اگزابایت های دادههای متشکل از میلیونها یا میلیاردها رکورد میلیونها نفر باشد که از منابع مختلفی به دست میآیند. دادهها زمانی که دارای ساختار آزاد میباشند، اغلب غیر کامل و غیر قابل دسترسی میباشند.

چالشها شامل تجزیه و تحلیل، گرفتن، گزینش، تحقیق، اشتراک گذاری، نگه داری، انتقال، تجسم و نقض حریم خصوصی میباشد. گرایش به مجموعه دادههای بزرگتر اطلاعات اضافی قابل اشتقاق میباشد که اجازهی یافت تعاملات را برای گرایشات کسب و کار نقطه ای، جلوگیری از اختلالات و مبارزه با جرائم ایجاد میکند . دانشمندان به طور مرتب، به دلیل وجود مجموعه دادههای وسیع در بسیاری از مناطق، شامل هواشناسی، ژنومیک، کانکتومیک، شبیه سازی های پیچیدهی فیزیکی و تحقیقات بیولوژیکی و محیطی با محدودیتهایی روبرو میشوند. این محدودیتها همچنین جستجوی تعاملی، انفورماتیکهای تجاری و مالی را تحت تأثیر قرار میدهد . مجموعه دادهها به صورت قسمی افزایش سایز پیدا میکنند. چرا که آنه به صورت فزاینده ای به وسیلهی ابزارهای سنجش اطلاعات متداول، تکنولوژیهای حسی هوایی گزارشات نرم افزاری، دوربینها، میکروفنها، شناسایی فرکانس رادیویی ( RFID) و شبکههای حسی بی سیم جمع آوری شدهاند. ظرفیت سرانهی تکنولوژی دنیا، برای نگه داری اطلاعات، از سال ۱۹۸۰ در هر ۴۰ ماه دو برابر میشود . که از سال ۲۰۱۲ روزانه ۲٫۵ اگزابایت داده ایجاد میشود. چالشها برای شرکتهای وسیع تعیین میکند که چه کسی باید ابتکار عمل دادههای کلان را که سازمان را طرفداری میکند را تصاحب کند.[۱] کلان دادهها از سال ۲۰۱۱ توسط تحلیل گر صنعتی داگ لانی ۱ تعریف شده است، تعریف اصلی کنونی کلان دادهها را به عنوان سه تقابل تعریف کرده است : حجم، سرعت و تنوع. کلان دادهها با سه تقابل مشهور زیر شروع میشود: حجم وسیع دادهها، تنوع گستردهی دادههای متنوع، و سرعتی که در آن دادهها باید پردازش شود. با اینکه دادههای وسیع به هیچ مقدار خاصی اشاره نمیکند، این کلمهمعمولاً در صحبت در مورد پتابایت ها و اگزابایت های داده مورد استفاده قرار میگیرد که به آسانی قابل تلفیق

نیستند.

۳

• حجم: عوامل بسیاری مربوط به افزایش حجم دادهها میباشد. دادههای دادههای مبتنی بر اجرا، میزان فزایندهی دادههای ماشین به ماشین و حسگر جمع آوری شدهاند. در گذشته، حجم دادههای بیش از اندازه یک مسئلهی مهم در نگه داری بود. اما با کاهش هزینههای نگه داری، مسئلهی دیگری ظاهر میشود که شامل چگونگی تأمین ارتباط در حجم دادههای وسیع و چگونگی تأمین ارتباط در حجم دادههای وسیع و چگونگی استفاده از تحلیلات برای ایجاد ارزش از دادههای مربوطه است.
• سرعت: دادهها در یک سرعت بی سابقه جریان مییابند و باید با آنها کنار آمد. برچسبهای RFID، حسگرها و ابزارهای اندازه گیری هوشمند، نیاز به تعامل با میزان زیاد دادهها در زمان تقرباًی مناسب پاسخ میدهند. واکنش در حداقل زمان ممکن برای برخورد با سرعت داده به صورت یک چالش برای بیشتر سازمانها در آمده است.

• تنوع: امروزه دادهها در تمام انواع قالبها وجود دارد. دادههای ساختاری، دادههای عددی، در پایگاه دادههای سنتی، اطلاعات به دست آمده از برنامههای خط تجاری و اسناد مکتوب غیر ساختاری، ایمیل، ویدئو، صدا، دادههای تلگرافی
سهام و تعاملات مالی، میباشد. سازماندهی، ایجاد و مدیریت انواع دادهها مسئله ای است که هنوز هم بسیاری از سازمانها با آن درگیرند.
در تفکر در مورد کلان دادهها، ما دو بعد دیگر را در نظر میگیریم:

• تغییر پذیری : علاوه بر افزایش سرعت و تنوع دادهها، جریانات واژههای میتواند بسیار ناسازگار با قلههای تناوبی باشد. آیا چیزی در شبکههای اجتماعی متداول است؟ مدیریت قلههای بارگیریهای دادهی روزانه، فصلی و وابسته به رویداد ممکن است مشکل باشد.

پیچیدگی: امروزه دادهها از منابع جداگانه ای میآیند و همچنان یک جوابگوی برای ارتباط، انطباق، تصفیه و انتقال دادهها در سیستمها میباشد. با این حال، اتصال و ارتباط اطلاعات، سلسله مراتبها و ارتباطات دادههای چندگانه ضروری است و در غیر این صورت دادههای شما میتواند سرعاًی از کنترل خارج شود.

نگهداری دادهها به صورت چشمگیری رشد یافته است و پس از سال ۲۰۰۰ از آنالوگ به دیجیتال تغییر یافته است. کلان دادهها، تجزیه و تحلیل مقادیر زیاد داده برای به دست آوردن دیدگاه جدید، یک شعار جدید است که در سالهای اخیر ایجاد شده است. از آنجایی که می دانیم دادهها به صورت روزانه در حال رشد در یک سرعت سرسام آور هستند. یکی از فناوریهای مشهور سودمند که با دادههای کلان سرو کار دارد، هادوپ میباشد.

.۲ هادوپ

هادوپ در سال ۲۰۰۵ توسط داگ کاتینگ ۱ و مایک لافارلا ۲ ساخته شد. داگ کاتینگ که در یاهو کار میکرد، این نامگذاری را از روی فیل اسباب بازی پسرش انجام داد. که در اصل برای حمایت از توزیع پروژهی موتور جستجوی Nutch ایجاد شده بود. هادوپ یک نرم افزار تک منبعی است که محاسبهی توزیع شده، قابل تغییر مقیاس، و قابل اعتماد را در گروه سرورهای غیر گران قیمت مقدور میسازد. در ادامه به ذکر ویژگیهای مهم هادوپ میپردازیم.

• قابل اعتماد: این برنامه دارای تلورانس خطا میباشد که به اختلالات نرم افزاری و سخت افزاری نظارت و رسیدگی میکند.
• مقیاس پذیر: برای مقیاس بزرگ پردازشگرها، حافظه و مخزن متصل قسمی طراحی شده است.

• توزیع شده: به تکرارها رسیدگی میکند و نگاشت کاهش و مدل طراحی موازی حجیم را ایجاد میکند.

هادوپ یک اجرای متن باز یک سیستم پردازش بستهی بزرگ مقیاس میباشد که از چارچوب نگاشت کاهش معرفی شده توسط گوگل، از طریق اعمال نفوذ مفهوم عملکردهای طرح و کاهش مشهور مورد استفاده در طراحی کاربردی، مورد استفاده قرار

۴

گرفتهاند. با اینکه چارچوب هادوپ در جاوا نوشته شده است، به توسعه دهندگان اجازه میدهد که برنامههای سفارشی نوشته شدهی کد شده در جاوا یا هر زبان دیگر برای پردازش داده در یک مدل موازی روی صدها یا هزاران سرور دیگر مستقر کند. این وضوع برای درخواستهای خواندن به هم پیوسته بهینه سازی شده است که در آنها پردازش شامل اسکن تمام دادهها میباشد. بسته به پیچیدگی پردازش حجم دادهها، زمان پاسخگویی میتواند از چند دقیقه تا چند ساعت تغییر کند. در حالی که هادوپ میتواند دادهها را به سرعت پردازش کند، فایدهی اصلی آن مقیاس پذیری کلان آن است.[۳]

شکل .۱ ساختار سیستم هادوب

هادوپ در حال حاضر برای جستجوی شاخص تحت وب، شناسایی اسپم ایمیلها، موتورهای توصیه، پیش بینیها در خدمات مالی، دستکاری ژنوم در علوم زیستی، و برای تجزیه و تحلیل دادههای غیر ساختاری مثل متن و کلیکها مورد استفاده قرار میگیرند. در حالی که بسیاری از این کاربردها در واقع میتوانند در یک پایگاه داده هاب وابستگی (RDBMS) اجرا شوند، هستهی اصلی چارچوب هادوپ از لحاظ عملکرد، متفاوت با RDBMS بود. در ادامه برخی از این تفاوتهای هادوپ که نسبتاً مفید هستند، عبارتاند از: پردازش اطلاعات پیچیده مورد نیاز نیست؛ دادههای غیر ساختاری نیازمند تبدیل به داده هاب ساختاری دارد؛ نمایشها نمیتوانند از لحاظ منطقی با SQL نمایش داده شوند؛ الگوریتمهای بسیار بازگشتی؛ الگوریتمهای پیچیده و در عین حال همگون، مثل تجزیه و تحلیل مکانی-جغرافیایی یا توالی ژنومی مورد نیاز است؛ فراگیری ماشینی؛ مجموعه دادهها برای تناسب در پایگاه RAM دادهها و دیسکها بسیار وسیع هستند و یا نی از به هستههای بسیار حساس دارند؛ میزان داده، مصرف دسترسی واقعی ثابت، مثل آرشیوها یا اطلاعات خاص را که میتواند به هادوپ انتقال یابد و با هزینهی کمتر در دسترس بماند را پاسخ میدهد؛ نتایج آنی لازم نیست؛ تلورانس خطا مهم است؛ کدگذاری سفارشی چشمگیر برای رسیدگی به برنامهی شغلی لازم است.[۵] هادوپ به وسیلهی نگاشت کاهش گوگل، یک چارچوب نرم افزاری که در آن یک برنامهی کاربردی به قسمتهای کوچک تر

متعددی تقسیم میشود، ایجاد شد. هریک از این قسمتها (که قطعه یا بلوک نام دارند) میتوانند روی هر گره موجود در دسته اجرا شوند. داگ کاتینگ، ایجاد کنندهی هادوپ، چارچوب را از روی فیل اسباب بازی بچهاش نامگذاری کرد . اکوسیستم هادوپ آپاچی کنونی متشکل از هستهی آدوپ، نگاشت کاهش، سیستم فایل توزیع شدهی هادوپ (HDFS) و تعدادی از پروژههای مرتبط

۵

مثل آپاچی هایو۱، Hbase ، و زوکیپر میباشد. چارچوب هادوپ به وسیلهی بازیگران بزرگ مثل گوگل، IBM، مورد استفاده قرار میگیرد. این شرکتها از این چارچوب برای برنامههای کاربردی مرتبط با موتورهای جستجو و تبلیغات بهره میگیرند. سیستمهای عامل ترجیحی برای هادوپ، ویندوز یا لینوکس است. هرچند که با XSD و OSX نیز کار میکند.

سیستم فایل توزیع شده یک برنامهی کاربردی مبتنی بر صدور/مشتری است که به مشتریان اجازهی دسترسی و پردازش دادهی موجود در سرور، در صورت وجود در کامپیوترشان را میدهد . در صورتی که یک کاربر به یک فایل در سرور دست یابد، سرور یک کپی فایل را به کاربر میفرستد، که روی کامپیوتر کاربر ذخیره میشود. در حالی که داده پردازش میشود و سپس به سرور باز میگردد. به صورت ایده آل، یک سیستم فایل توزیع شده، فایل را مدیریت میکند و سرویس دایرکتوری سرورهای فردی در یک دایرکتوری کلی است که در آن کنترل دسترسی به داده مخصوص مکان نیست و در هر مشتری ثابت است. تمامی فایل برای تمام کاربران سیستم فایل جهانی قابل دسترسی است و این سازمان دهی سلسله مراتبی و مبتنی بر دایرکتوری میباشد.

از آنجایی که بیشتر از یک مشتری ممکن است به طور همزمان به یک داده دسترسی یابند، سرور باید دارای مکانیسمهای به جا برای ادارهی به روز رسانیها باشد، که در نتیجه، مشتریها همواره جدیدترین ورژن های دادهها را دریافت میکنند و بنابراین تعارض دادهها افزایش مییابد. سیستمهای فایل توزیع شده به صورت متداولی از همتاسازی پایگاه دادهها یا فایلها برای محافظت در مقابل اختلالات دستیابی به داده استفاده میکنند. میکروسیستم های سان سیستم فایلهای توزیع شدهی مایکروسافت، شبکه افزار ناول ۲، DFS مربوط به /IBMترانسارک ۳ برخی نمونههای سیستمهای فایل توزیع شده میباشد.

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
wordقابل ویرایش - قیمت 8700 تومان در 12 صفحه
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد