بخشی از پاورپوینت
اسلاید 1 :
تکنيکهای داده کاوی رايج
آناليز سبد بازاری Market Basket Analysis
استنتاج مبتنی بر حافظه Memory based reasoning
روشهای آماری، خوشه بندی و دسته بندی
درختهای تصميم گيری Decision tree
روشهای مبتنی برگراف، Link Analysis
شبکه های عصبی
الگوريتمهای ژنتيک
برای هر تکنيک ممکن است الگوريتمهای زيادی موجود باشد.
اسلاید 2 :
يادگيری بانظارت
يک فرآيند دو مرحله ای است:
ساختن يک مدل يادگيری با استفاده از نمونه های داده ای آموزشی موجود
استفاده از مدل ساخته شده برای مشخص کردن خروجی برای داده های تست
اسلاید 3 :
يادگيری بانظارت، يک مثال برای credit card promotion
اسلاید 4 :
يادگيری بانظارت، يک مثال برای credit card promotion(ادامه)
يک hypothesis برای پايگاه داده اسلايد قبل:
ترکيب يک يا بيشتر از فيلدها برای دسته بندی کردن افرادی که از ارتقاء بيمه عمر استفاده
می کنند و آنها که استفاده نمی کنند.
يک قاعده برای دسته بندی کردن افراد می تواند بصورت زير باشد:
IF Sex = Female & 19 <=Age <= 43
THEN Life Insurance Promotion = Yes
اسلاید 5 :
دسته بندی Classification
تخصيص شئ های آموزشی به کلاسهای گسسته از قبل مشخص شده
از نظر تکنيکی يعنی : بروز کردن فيلد دسته بندی هر رکورد با يک کد کلاس
اين عمليات نيازمند موارد زير است:
کلاسهايی با تعريف مناسب well-defined
روالها، سيستمها و پرسنل آموزش ديده
مثالهای دسته بندی :
کلمات کليدی keywords
گروه اعتباری credit(low,medium,high)
دانشجوی سال اول کارشناسی ، سال دوم، دانشجوی ارشد، دکتری
اسلاید 6 :
تخمين Estimation
تخصيص مقدار برای يک متغير پيوسته
نيازمند کلاسهای با تعريف مناسب well-defined می باشد.
ممکن است پايه ای برای دسته بندی باشد.
مرتب کردن و رنکينگ را ممکن می سازد.
از يک مقدار آستانه threshold استفاده می کند. مانند:
مقدار اعتبار credit score
مثالهای تخمين :
تعداد فرزندان
حق بيمه insurance premium
درآمد خانه داری household income
اسلاید 7 :
پيشگويی Prediction
دسته بندی/تخمين بر اساس مقادير و رفتارهای آينده صورت می گيرد.
ويژگی خروجی ممکن است مقدار عددی يا دسته ای categorical باشد.
استفاده از گذشته برای يادگرفتن درباره آينده :
از يک مدل وابستگی بين متغيرهای هدف و متغيرهای مستقل و يا بين رفتار کنونی و گذشته استفاده می شود.
مدل بر روی نتايج گذشته مشاهده شده اعمال می شود.
مثالها:
مدت زمان گرفتن يک درجه
پاسخ گويی به رقابتهای بازاريابی marketing campaign
تعداد مسافران درتعطيلات آخر هفته
اسلاید 8 :
پيشگويی Prediction(ادامه)
مثال: مجموعه داده بيماران قلبی
اسلاید 9 :
مثال: مجموعه داده بيماران قلبی(ادامه):
اسلاید 10 :
مثال: مجموعه داده بيماران قلبی(ادامه) :
يک قاعده برای تشخيص کلاس سلامتی:
IF 169 <= Maximum Heart Rate <=202 THEN Concept Class = Healthy
nRule accuracy: 85.07%
nAccuracy: If patient has heart rate in this range, in 85% of cases the “healthy” is correct
nRule co erage: 34.55%
nCo erage: 34% of all patients of “healthy” ha e heart rate in this range
يک قاعده برای تشخيص کلاس بيمار:
IF Thal = Re & Chest Pain Type = Asymptomatic THEN Concept Class = Sick
nRule accuracy: 91.14%
nRule co erage: 52.17%