بخشی از پاورپوینت

اسلاید 2 :

داده کاوی و دلایل پیدایش آن

رشد انفجاری داده ها در گستره وسیعی از زمینه ها
توسعه تکنولوژي های ذخيره و بازيابی اطلاعات
توسعه تکنولوژی های مربوط به ثبت
و اندازه گیری اطلاعات
افزایش قدرت پردازش کامپیوتری

اسلاید 3 :

فرایند یافتن و استخراج اطلاعات پنهان، الگوها و روابط مشخص در حجم انبوهی از دادهها با هدف پیشبینی رویدادها و نتایج آتی
داده کاوی

اسلاید 4 :

هرم دانش
داده ها: حقایق و واقعیتهای خام
اطلاعات: تفسیر داده ها و بیان ارتباط آنها با یکدیگر
خرد: همان کاربرد دانش است
دانش: تلفیق تفکر با اطلاعات؛ تفسیر فردی از اطلاعات
، بر پایه تجربیات، مهارتها و توانمندیها ی شخصی
مثال: ریاضیات
داده ها: اعداد و ارقام
اطلاعات: فرایندهای ریاضی مثل جمع و تفریق و .
شاخه های دانش: مثل جبر و هندسه
خرد: کاربرد علوم ریاضی در جاهای خاص

اسلاید 5 :

نیاز دنیای امروز به آنالیزگر داده

اسلاید 6 :

حوزه های مرتبط با داده کاوی

اسلاید 7 :

فرایند داده کاوی

اسلاید 9 :

انواع مجموعه داده ها
رکوردها
رکوردهای رابطه ای
بردار تکرار واژه ها در اسناد داده ای
داده های تراکنشی
گراف ها و شبکه ها
وب
شبکه های اجتماعی یا اطلاعاتی
ساختار ملکولی
داده های مرتب
داده های ویدئویی: دنباله ای از تصاویر
داده های وابسته به زمان
دنباله ای از تراکنش ها
داده های فضایی (spatial)، تصویر و چند رسانه ای
داده های فضایی: نقشه
داده های تصویری
داده های ویدئویی

اسلاید 10 :

مجموعه داده ها

اسلاید 11 :

خصوصیات یک مجموعه داده
ابعاد (Dimensionality)
Attribute, feature, dimension, variable
Curse of dimensionality

پراکندگی یا تنک بودن (Sparsity)

تجزیه تحلیل، رفع ابهامات

توزیع (Distribution)

اسلاید 12 :

انواع ویژگی ها
ترتیبی
Ordinal
دودویی
Binary
عادی
گسسته
Discrete
پیوسته
Continuous

اسلاید 13 :

انبار داده (Data Warehouse)
در یک سازمان یا شرکت نرمافزارهای مختلفی جهت ذخیرهسازی دادهها وجود دارند.
اگر بخواهیم برای هر پرس و جو به این نرمافزارها درخواستی دهیم، احتمالا وقت و زمان خود را هدر دادهایم.
بهتر است دادهها با توجه به موضوعی که میخواهیم تحلیل کنیم در یک مکان انبار شوند.
ویژگی های انبار داده
موضوعگرا(Subject Oriented)
مجتمع (Integrated)
نگهدار زمان های مختلف (Time varying)
غیر فرار (Non-volatile)

اسلاید 14 :

پایگاه های داده، انبار داده

اسلاید 16 :

چهار عمل اصلی در پیش پردازش داده ها
پاکسازی داده ها (Data Cleaning)

تجمیع داده ها (Data Integration)

کاهش داده ها (Data Reduction)

تغییر شکل (Transformation) و گسسته سازی (Discretization) داده ها

اسلاید 17 :

پاک سازی داده ها:
مدیریت داده های مفقود
حذف رکوردهای دارای مقادیر مفقود

حذف ویژگی (مثل کد پستی)

حدس زدن داده های مفقود از روی سایر نمونه ها

استفاده از اطلاعات نزدیک ترین همسایه برای پر کردن مقادیر مفقود

اسلاید 18 :

پاک سازی داده ها:
شناسایی و حذف داده های پرت

از بین بردن تناقضات
سن="42"، تاریخ تولد="89/4/23"

اسلاید 19 :

تجمیع داده ها (Data Integrity)

اسلاید 20 :

کاهش داده (Data Reduction)
انتخاب نمونه
(Instance Selection)
انتخاب ویژگی
(Feature Selection)

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید