بخشی از پاورپوینت

اسلاید 1 :

درس: مهندسی اینترنت

کلان داده
BIG DATA

اسلاید 2 :

اگر بخواهیم تعریفی از کلان داده ارائه کنیم می توانیم آنرا مجموعه دادههایی بدانیم که اندازه آنها فراتر از حدی است که با نرم افزارها و روشهای معمول بتوان آنها را در یک زمان قابل قبول، دریافت، ذخیره، مدیریت و پردازش کرد. دراین تعریف، حجم داده مشخص نشده است چون میزان کلان بودن داده همزمان با پیشرفت فناوریهای ذخیرهسازی و پردازش اطلاعات روز به روز و عموماً بهخاطر تولید داده توسط تجهیزات و ابزارهای مختلف دیجیتال در حال افزایش است.

اسلاید 3 :

گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم، ایستگاههای هواشناسی، سامانههای امواج رادیویی، مبادلات شبکههای اجتماعی آنلاین، متون و اسناد اینترنتی، دادههای نجوم، اطلاعات پزشکی و سلامت بیماران، اطلاعات سامانههای خرید از فروشگاهها، پژوهشهای زمینشناسی و غیره نمونههایی از دادهها در مقیاس کلان هستند. مقیاسی که امروزه از گیگابایت و ترابایت به پتا بایت و اگزا بایت و زتا بایت در حال حرکت است .
برای ایجاد یک دید مناسب در خصوص کلان داده و اهمیت آن، جامعه ای را تصور کنید که در آن جمعیت بطور نمایی در حال افزایش است، اما خدمات و زیرساخت های عمومی آن نتواند پاسخگوی رشد جمعیت باشد و از عهده مدیریت آن برآید. چنین شرایطی در حوزه داده در حال وقوع است.

اسلاید 4 :

بنابراین نیازمند توسعه زیرساخت های فنی برای مدیریت داده و رشد آن در بخش هایی نظیر جمع آوری، ذخیره سازی، جستجو، به اشتراک گذاری و تحلیل می باشیم..
دستیابی به این توانمندی معادل است با شرایطی که در هر یک از موارد زیر با افزایش داده ها :
در حوزه سلامت : بازدهی در ارتقای سلامت
در حوزه خطرات ایمنی : سطح امنیت بیشتر در حوزه رویدادهای آب و هوایی : قدرت پیشبینی در حوزه تعداد خودروها : تعداد و حوادث ناشی از تصادفات
در حوزه تعداد تراکنشات مالی، بیمه و بانکی : تعداد تقلبات
و .

اسلاید 5 :

تعریف :
با توجه به چالشهای موجود در حوزه کلاندادهها تعاریف مختلفی در این زمینه وجود دارد که تا حدودی از جنبه تئوری ابعاد مختلفی در این زمینه را تحت شعاع قرار میدهد.
این چالشها در ابتدا مربوط به 3 پارامتر حجم داده (Volume) ،نرخ تولید (Velocity) و تنوع (Variety) بود که به همین خاطر ابتدایی ترین تعریف به تعریف 3v شهرت یافت.
بعدها این تعریف به تعاریف 4V و 8V بسط یافتند که در ادامه به توضیح آنها میپردازیم.

اسلاید 6 :

تعریف (ادامه) : " تعریف (V) های موجود در تعریف معروف به 3V ":
Volume: حجم خیلی زیاد داده

حجم داده های درون سازمان و خارج آن به کمک اینترنت، دستگاههای الکترونیکی و موبایلها، زیرساختهای شبکه و سایر منابع هر ساله رشد نمایی دارد و پیشبینی میشود که تا سال ۲۰۲۰ ده زتابایت داده در جهان خواهیم داشت.

اسلاید 7 :

Variety: تنوع داده و عدم ساختار
انواع منابع داده و تنوع در نوع داده بسیار زیاد میباشد که در نتیجه ساختارهای دادهای بسیار زیادی وجود دارد. بیشتر حجم داده دنیا بی­ساختار و بسیارمتنوع است.
امروزه داده ها در بانکهای اطلاعاتی، صفحات وب، بخشی به صورتXML,JSON و بقیه در فایلهایی با فرمتهای مختلف ذخیره شدهاند که عمل پردازش دادهها را دشوار میکند.

اسلاید 8 :

تعریف (ادامه) : " تعریف (V) های موجود در تعریف معروف به 8V ":
Veracity: صحت
با توجه به اینکه داده ها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. موضوع مهمی که وجود دارد باید بررسی شود که آیا میتوانیم به درستی دادههای موجود اعتماد کنیم یا خیر؟

اسلاید 9 :

تعریف (ادامه) : " تعریف (V) های موجود در تعریف معروف به 8V ":
Validity: اعتبار
با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.

اسلاید 10 :

تعریف (ادامه) : " تعریف (V) های موجود در تعریف معروف به 8V ":
Volatility: نوسان
سرعت تغییر ارزش دادههای مختلف در طول زمان میتواند متفاوت باشد.
نگهداری اطلاعات در زمان طولانی برای تحلیل تغییرات و نوسان داده ها حائز اهمیت است؛ اما افزایش دوره نگهداری اطلاعات، هزینهی پیاده سازی زیادی دارد که باید در نظر گرفته شود.

اسلاید 11 :

تعریف (ادامه) : " تعریف (V) های موجود در تعریف معروف به 8V ":
Visualization: نمایش
یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است.
اینکه بخواهیم کاری کنیم که حجم زیاد اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و مطالعه باشد از طریق روشهای تحلیلی و بصری سازی مناسب اطلاعات ممکن است.

اسلاید 12 :

تعریف (ادامه) : " تعریف (V) های موجود در تعریف معروف به 8V ":
Value: ارزش
آیا هزینهای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده موردنظر را برای یک سازمان خواهند داشت؟

اسلاید 13 :

تاریخچه

اسلاید 14 :

حدود 70 سال پیش مردم برای اولین بار با موضوع تعیین نرخ رشد در حجم داده ­ها چیزی که مردم ازش با نام "انفجار اطلاعات" یاد میکنند روبرو شدند.
برای اولین بار در سال 1944 شخصی به نام “فرمونت رایدر" که کتابدار کتابخانه دانشگاه "وسلین" بود آینده پژوهشی کتابخونه رو اینگونه تخمین زد که میگفت :("کتابخانه های دانشگاه آمریکایی هر 16 سال دو برابر میشود و با این تخمین به عددی معادل 200.000.000 جلد کتاب میرسید و برای فهرست برداری از این حجم کتاب که بیش از 6000 مایل قفسه اشغال میکند نیاز به 6000 نفر داریم. ")

پس از این صحبت در سال 1967 مقاله ای منتشر شد که بیان کرد فضای ذخیره­ سازی باید کاهش یافته و نرخ اطلاعات از طریق استفاده از فضای مجازی برای نگهداری اطلاعات باید افزایش یابد.

اسلاید 15 :

وزارت پست و مخابرات ژاپن اقدام به سرشماری مردم ژاپن کرد که در این راه سرعت عرضه اطلاعات بسیار بالاتر از مصرف آنها بود
دفتر مرکزی آمار مجارستان، یک پروژه تحقیقاتی صنایع اطلاعات کشور را شروع کرد که حجم زیادی از اطلاعات در یک بیت قرار داشت و این بررسی ادامه داشت تا سال 1993
یک دانشمند آمریکایی موضوعی به نام ذخیره تمامی بیتها را منتشر کرد. او بیان کرد که برای دانشمندان ذخیره تمام بیت­ها برای حفظ وضعیت ضروری است. نرخ و حجم جریان برای جلوگیری از اختلال اطلاعات شبکه، دستگاه­ های ذخیره­ سازی، سیستم­ های بازیابی و همچنین به عنوان ظرفیت انسان برای درک اینکه چه ماشینی جریان داده­ ها را به وجود آورده و از چه ابزار نظارتی برای غربال کردن پایگاه داده باید استفاده شود زیاد است، پس باید به دنبال یک الگو و تشریح بیت­هایی که قرار است ذخیره کنیم باشیم.

در این سال دانشمندی به نام لِکس پیشبینی کرد دادهها در حد پتابایت وجود دارد که تا سال 2000 این داده ها را میتوان در دیسک ها و نوارهایی ذخیره کرد در همین سال ایسورت مقاله ای داد که داده هایی وجود دارد که قابل ذخیره سازی روی دیسک های محلی و قابل کنترل از راه دور نیست که همان کلاندادهها بود
مطالعه جامعی بر روی تعیین کمیت داده در شرایط ذخیره­ سازی انجام شد. داده­ هایی که در سالهای قبل تولید شده و به حد 1.5 اگزابایت رسیده بودند در همین سال مقاله ای تحت عنوان "مدل فاکتور پویا" منتشر شد و نویسنده این مقاله اذعان کرد که اطلاعات بزرگ در مقدار خود به حد انفجار رسیده ­اند و پیشرفت­های اخیر در زمینه فن­ آوری ذخیره­ سازی و ثبت اطلاعات بسیار مؤثر بوده است

اسلاید 16 :

تیم اوریِلی در مقاله «وب 2.0 چیست»، بیان کرد پایگاه داده­ای باید وجود داشته باشد تا تمامی اطلاعات را در خود قرار داده، سپس آنها را مدیریت کند و ما آنها را به عنوان افزار اطلاعاتی و نه به عنوان یک نرم افزار، بشناسیم.
کوکییِر در گزارشی مبتنی بر داده­ها در همه جا می­نویسد جهان شامل مقدار گستردهای از اطلاعات دیجیتال است که با سرعت زیادی رو به افزایش و پیشرفت است و آنها این ویژگی داده­ای را داده بزرگ نامیدند.
مجله بین المللی ارتباطات بخش ویژه با عنوان ظرفیت اطلاعات منتشر شد. آن­ها در این مقاله بیان داشتند عرضه رسانه­ ها در اماکن مسکونی خصوصاً در آمریکا از سال 1960 تا 2005 افزایش یافته است و اگر نسبت عرضه به تقاضا به همین صورت پیش برود به حدود سه برابر داده­ای که در سال 2003 در اختیار کاربران قرار داشت، می­ رسیم.

اسلاید 17 :

کاربرد کلانداده در دنیای امروز

اسلاید 19 :

در حوزه شبکه:
کشف خطا و یا کشف نفوذ به شبکه با ذخیره و آنالیز لاگ شبکه در یک سازمان یا وب سایت

در حوزه فروشگاههای بزرگ:
تنظیم قیمت صحیح محصول در جهت فروش بیش تر
طراحی محل قرارگیری محصولات در فروشگاه با توجه به اطلاعات آماری حرکت خریداران
طراحی محل قرارگیری محصولات در فروشگاه با توجه به اطلاعات آماری حرکت خریداران
مدیریت زنجیره عرضه
تقسیم بندی مشتریان
پیشنهاد دقیق کالا در زمان مناسب

اسلاید 20 :

در حوزه مالی و تراکنشات بانکی:
پیش بینی میزان ریسک مرتبط با یک طرح اقتصادی
تشخیص الگوی شک برانگیز در استفاده از کارت اعتباری
کشف نفوذ و یا تقلب
کلاهبرداری و یا پولشویی با استفاده از تجزیه و تحلیل تراکنشهای مالی مشتریان با دیگر منابع اطلاعاتی
در حوزه شخصی سازی خدمات بسته به رفتار قبلی کاربر و دادههایی که از او داریم :
پیشنهاد وام به یک مشتری
نمایش تبلیغات
پیشنهاد خودرو

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید