بخشی از پاورپوینت

اسلاید 1 :

طبقه بندی کلان داده ها

اسلاید 2 :

مقدمه

کلان داده: مجموعه دادههایی که آنقدر بزرگ یا پیچیده هستند که روشهای سنتی پردازش داده برای کار با آنها کافی نیستند
تولید شده توسط:
روشهای سنتی تبادل اطلاعات
نرمافزارهای دسکتاپ و موبایل و .
هزاران حسگر در محیطهای مختلف
دوربینها و میکروفونها در خیابانهای شهر
سنسور دما در موتور جت و .
روزانه ۲.۵ quintillion بایت داده تولید میشود
حدود ۹۰ درصد داده تولید شده در جهان امروز در دوسال گذشته تولید شده است(سال ۲۰۱۳)

اسلاید 3 :

مقدمه

سرعت، حجم و تنوع کلانداده
ذخیرهسازی، محاسبات، امنیت و حریم خصوصی و تحلیل را پیچیدهتر میکند
زیرساختهای مقیاسبزرگ ابری
تنوع منابع و قالبهای داده
ماهیت جریانی دسترسی به دادهها
مهاجرت بین ابری دادههای با حجم بالا

اسلاید 5 :

۱-داده

نیازمندیهای تاخیر
بازه زمانی که داده باید تحلیل شود:
بلادرنگ (Real-time)
نزدیک بلادرنگ(Near real-time)
دستهای (Batch)
مثالهایی از کاربردهایی که در آن دادهها به صورت بلادرنگ میرسند:
بهینهسازی برخط تلبیغات
نظارت بر رویدادهای امنیتی
نظارت بر تراکنشهای مالی و تشخیص کلاهبرداری
تحلیل وب
Churn Prediction
بهینهسازی دستگاهها، کارخانهها یا سیستمهای لجستیک بر اساس رفتار و کارکرد
تحلیل احساسات در نظرات درباره یک موضوع
در بیشتر این کاربردها داده مدام در حال تغییر است

اسلاید 6 :

۲-داده

ساختار
ساختیافته (فروش، مالی، بیوانفورماتیک، دادههای جغرافیایی)
نیمه ساختیافته (لاگ وب، ایمیل، اسناد)
بدون ساختار (تصاویر، ویدئو، داده حسگر، صفحات وب)
دامنه

اسلاید 9 :

۲-زیرساخت محاسباتی

یک گزینه رایج برای پردازش دیتاستهای بزرگ اکوسیستم هدوپ است.
الگوهای محاسباتی روی کلانداده بر اساس نحوه اجرا متفاوت هستند:
پردازش به صورت دستهای ← هدوپ
پردازش بلادرنگ/نزدیک بلادرنگ روی جریان داده ← اسپارک

اسلاید 10 :

۲-زیرساخت محاسباتی

اسلاید 11 :

۲-زیرساخت محاسباتی
MapReduce:
یک مدل برنامهنویسی و پیادهسازی مرتبط با آن برای پردازش دیتاستهای بزرگ
کاربر یک تابع نگاشت توصیف میکند که یک جفت کلید/مقدار را برای تولید مجموعهای از زوجهای کلید/مقدار پردازش میکند.
و یک تابع کاهش توصیف میکند که تمام این نتایج میانی را که به یک کلید میانی مربوط هستند را ادغام میکند.
بسیاری از وظایف دنیای واقعی با استفاده از این مدل قابل بیان هستند.
برنامههایی که با این روش نوشته شدهاند به صورت خودکار موازیسازی شده و روی خوشه بزرگی از ماشینها اجرا میشوند.

اسلاید 12 :

Hadoop 1.0
هدوپ یک زیرساخت متن باز برای برنامهنویسی و ذخیرهسازی است.
برپایه MapReduce و سیستم فایل گوگل
ورودی محاسبات بین نودهای کاری پخش میشود (map)
پاسخ زیرمسائل جمع آوری و ترکیب میشود تا خروجی مساله به دست بیاید (reduce)
به جای انتقال داده برای محاسبه، محاسبه به محل ذخیرهسازی داده منتقل میشود
تحمل خطای چارچوب از طریق تکرار داده بسیار بالاست.

اسلاید 13 :

اکوسیستم هدوپ شامل پروژههای زیر است:
Pig: بستری که زبانی سطح بالا برای بیان برنامههای تحلیل دیتاستهای بزرگ فراهم میکند. کامپایلری دارد که برنامهها را به دنبالهای از وظایف MapReduce ترجمه میکند
Hive: راهکار انبارداده که مفاهیم پایگاههای رابطهای را به دنیای بدون ساختار هدوپ میآورد.
Hbase: یک محیط ذخیره داده NoSQL مبتنی بر ستون برای پشتیبانی از جداول بزرگ و تنک در هدوپ
Flume: یک خدمت توزیع شده، مطمئن و در دسترس برای انتقال مقادیر زیاد داده هنگام تولید.
Lucene: یک کتابخانه موتور جستجو که امکان جستجوی متنی با کارایی بالا را فراهم میکند.
Avro: یک فنآوری خطیسازی داده که از JSON برای تعریف انواع داده و پروتکلها استفاده میکند
ZooKeeper: یک خدمت متمرکز برای نگهداری اطلاعات پیکربندی و نامگذاری.
Oozie: یک سیستم زمانبند کارروند برای مدیریت اجرای وظایف هدوپ.

اسلاید 14 :

جریان MapReduce هدوپ

اسلاید 15 :

هدوپ برای پردازش دستهای خوب است
عموما برای پردازش دادههای جریانی که تمام نمیشوند مناسب نیست.
به این دلیل که هدوپ فرض میکند که تمام دادهها روی نودها موجود است.
برای کاربردهای جریانی این مدل بهینه نیست.
هدوپ همچنین برای الگوریتمهای ترتیبی که به مقادیر محاسبه شده قبلی نیاز دارند مناسب نیست
بسیاری از الگوریتمهای یادگیری ماشین مانند الگوریتمهای یادگیری برخط
هدوپ همچنین برای الگوریتمهایی که وابسته به یک حالت سراسری اشتراکی هستند مناسب نیست

اسلاید 16 :

۲-زیرساخت محاسباتی – اکوسیستم هدوپ

اسلاید 17 :

۲-زیرساخت محاسباتی – Hadoop 2.0

اسلاید 18 :

rkley SparkBa
اسپارک یک سیستم محاسباتی خوشهای است که برای افزایش سرعت تحلیل داده هدفگذاری شده است.
برای اجرای سریعتر برنامهها یک وظیفه میتواند داده را به حافظه آورده و نسبت به دیسک بسیار سریعتر در آن جستجو کند
اسپارک قصد دارد تا پشته پردازشی را یکپارچه کند:
پردازش دستهای (MapReduce)
پرسشهای تعاملی (HBase)
پردازش جریانها برای تحلیل برخط (Storm)
اسپارک به خوبی در اکوسیستم هدوپ به عنوان جایگزین MapReduce مینشیند
Graphx: الگوریتمهای پیچیده گراف
Mllib: الگوریتمهای پیچیده یادگیری ماشین
BlinkDB: موتور پرسوجوی موازی و تخمینی برای اجرای پرسوجوهای SQL
نشان داده شده که با نرخ خطای ۲ تا ۱۰ درصد تا ۲۰۰ برابر سریعتر از Hive است.

اسلاید 19 :

۲-زیرساخت محاسباتی-اسپارک

اسلاید 20 :

۳-زیرساخت ذخیرهسازی
تولید حجم وسیعی از دادهها با سرعت و گوناگونی فراوان نظیر چندرسانهای و متن که به سادگی در ساختار سطر و ستون پایگاه داده نمیگنجند.
برای مدیریت حجم، سرعت و گوناگونی داده
افزایش مقیاس باید به صورت افقی باشد:
افزودن سرورهای بیشتر
و به صورت عمودی نباشد:
به روز کردن یک سرور منفرد (افزایش حافظه یا دیسک)
چالش تمام سیستمهای توزیع شده: نظریه CAP:
یک سیستم توزیع شده ذخیرهسازی باید یکی از این موارد را فدا کند:
سازگاری: همه یک داده یکسان را مشاهده کنند.
دسترسپذیری: همیشه امکان خواندن/نوشتن باشد
تحمل افراز: ادامه کار سیستم با وجود شکست بخشی از سیستم یا از دست رفتن پیامها

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید