بخشی از پاورپوینت
اسلاید 1 :
بسم الله الرحمن الرحیم
اسلاید 2 :
انتخاب ويژگی برای مقاصد داده کاوی بر مبنای ترکيب الگوريتم ژنتيک و مورچگان
اسلاید 3 :
فهرست مطالب
آشنایی با داده کاوی
آشنایی با الگوریتم ژنتیک
آشنایی با الگوریتم مورچگان
روش های انتخاب ویژگی
انتخاب ویژگی توسط ترکیب الگوریتم ژنتیک و مورچگان
مراجع
اسلاید 4 :
گرایشات جریان داده ها
تولید داده های زیاد
بانک، دیگر تراکنش های تجاری
داده : ستاره شناسی، زیست شناسی، و غیره
وب، متن، و تجارت الکترونیکی
اسلاید 5 :
بزرگترین پایگاه های داده در 2003
پایگاه داده های تجاری
طبق گزارش winter Corp. 2003 Survey : France Telecom بزرگترین پایگاه داده حمایت از تصمیم گیری دارند تقریبا 30TB وب جستجوی Google در 4 بیلیون صفحه شامل صدها ترابایت می باشد
اسلاید 6 :
نرخ رشد داده
دو برابر اطلاعات در سال 2002 نسبت به سال 1999ایجاد شده بود. (تقریبا 30 درصد نرخ رشد)
داده کمی بوسیله یک انسان مورد نگرش قرار می گیرد
کشف دانش برای حس و استفاده از داده مورد نیاز است
اسلاید 7 :
نواحی کاربرد یادگیری ماشین/داده کاوی
علم
ستاره شناسی، زیست شناسی، کشف دارو، و .
تجاری
تبلیغات، مدیریت ارتباط با مشتری (CRM) ، سرمایه گذاری، کارخانه سازی، تجارت الکترونیکی، ارتباطات، مراقبت پزشکی، و .
وب
موتورهای جستجو، و .
دولتی
اعمال قانون، تاریخچه متقلبان مالیات، و .
اسلاید 8 :
مطالعه موردی : ارزیابی مخاطره موجودی
وضعیت : شخصی برای یک وام اقدام می کند
وظیفه : آیا بانک اعطای وام را تصویب نماید؟
توجه : افرادی که بالاترین موجودی را دارند نیازی به وام ندارند، و افرادی که پایین ترین موجودی را دارند احتمالا قدرت بازپرداخت را ندارند. بهترین مشتریان بانک در میانه این دو هستند.
اسلاید 9 :
مخاطره موجودی - نتایج
بانک ها مدل های موجودی را با استفاده از روش های متنوع یادگیری ماشین توسعه می دهند
افزایش وام مسکن و کارت اعتباری نتایج قادر بودن به تخمین اینکه یک فرد احتمالا وام را بازپرداخت ننماید، ارائه می نمایند.
در بسیاری از کشورها توسعه یافته است
اسلاید 10 :
تجارت الکترونیکی موفق – مطالعه موردی
یک شخص یک کتاب (محصول) از Amazon.comخریداری می کند.
وظیفه : توصیه دیگر کتابها (محصولاتی) که این فرد احتمالا خریداری می کند.
آمازون بر اساس کتاب های خریداری شده، خوشه بندی را انجام می دهد
مشتریانی که کتاب “Advances in Knowledge Discovery and Data Mining” را خریداری کرده اند، همچنین کتاب “Data Mining: Practical MachineLearning Tools and Techniques with Java Implementations” را خریداری کرده اند.
برنامه توصیه کاملا موفق بوده است
اسلاید 11 :
مسائل مناسب برای داده کاوی
به تصمیمات مبتنی بر دانش نیاز دارند
دارای محیط متغیر هستند
دارای روش های جاری زیر بهینه هستند
دارای داده های قابل دسترسی، کافی، و مربوط هستند
دارای هزینه های بالایی برای تصمیمات درست می باشند
در صورتیکه نیاز به نگهداری داده های شخصی باشد به ملاحظات پنهان کاری نیاز داریم
اسلاید 12 :
تعریف کشف دانش
کشف دانش در داده عبارت است از
فرآیند غیر جزئی شناسایی الگوهای
معتبر
جدید
مفید
و قابل درک در داده
اسلاید 13 :
Related Fields
Statistics
Machine
Learning
Databases
Visualization
Data Mining and
Knowledge Discovery
اسلاید 14 :
آمار، یادگیری ماشین و داده کاوی
آمار
بیشتر مبتنی بر نظریه
بیشتر متمرکز بر روی آزمایش نظریه ها
یادگیری ماشین
مکاشفه ای تر
متمرکز بر روی بهبود کارآیی یک عامل یادگیرنده
نگرشی بر یادگیری بلادرنگ و رباتیک ، این نواحی بخشی از داده کاوی نیستند
داده کاوی و کشف دانش
نظریه و مکاشفه را یکپارچه می نماید
متمرکز بر روی فرآیند کامل کشف دانش، شامل پاکسازی داده، یادگیری، و یکپارچه سازی و بصری سازی نتایج
تمایزات فازی می باشند
اسلاید 15 :
CRISP-DM جریان فرآیند کشف دانش بر اساس
اسلاید 16 :
نکات تاریخی : چندین نام برای داده کاوی
جستجو و لاروبی داده ها
Data Fishing, Data Dredging: 1960-
بوسیله آمارگران استفاده می شد
داده کاویData Mining :1990 --
در پایگاه داده و تجارت استفاده شد
کشف دانش در پایگاه های داده Knowledge Discovery in Databases (1989-)
بوسیله انجمن هوش مصنوعی و یادگیری ماشین استفاده شد
امروزه داده کاوی و کشف دانش بصورت قابل معاوضه استفاده می شوند
اسلاید 17 :
وظایف اساسی در داده کاوی
طبقه بندی Classification : تخمین کلاس یک قلم
خوشه بندی Clustering : یافتن خوشه ها در داده
استخراج روابط انجمنی Associations : مثلا غالبا A & B & C رخ می دهند
بصری سازی Visualization : برای تسهیل کشف انسان
خلاصه سازی Summarization : توصیف یک گروه
کشف انحراف Deviation Detection : یافتن تغییرات
تخمین Estimation : پیش بینی یک مقدار پیوسته
تحلیل پیوند Link Analysis : یافتن ارتباطات
…
اسلاید 18 :
وظایف داده کاوی : طبقه بندی
یادگیری روشی برای تخمین کلاس نمونه از روی نمونه های (طبقه بندی شده) پیش برچسب خورده
روشهای متنوع :
آمار
درختهای تصمیم گیری
شبکه های عصبی
.
اسلاید 19 :
وظایف داده کاوی : خوشه بندی
یافتن گروه بندی ”طبیعی“ از نمونه های داده ای که برچسب ندارند
اسلاید 20 :
یافتن الگوها
هدف : برنامه هایی که الگوها و نظام ها در داده را کشف می کنند
الگوهای قوی منجر به تخمین های خوب می شوند
مسئله1 : اکثر الگوها مورد علاقه نیستند
مسئله2 : الگوها ممکن است غیر دقیق باشند
مسئله3 : داده ممکن است منحرف و یا گم شود