بخشی از پاورپوینت
اسلاید 1 :
MIS
DATA MINING
اسلاید 2 :
داده کاوی چیست؟
استخراج اطلاعات و دانش ناشناخته که احتمالا بدرد بخور هستند.
شناسایی و تجزیه و تحلیل حجم بالایی از داده بوسیله ابزار اتوماتیک یا نیمه اتوماتیک برای بدست آوردن الگوهای معنادار.
اما داده کاوی(Data Mining) معنا و مفهوم واقعی آن را ارائه نمی دهد و بهتر است از دانش کاوی از داده (Knowledge Mining from Data) استفاده کرد.
اسلاید 3 :
چرا داده کاوی؟؟؟
اسلاید 4 :
2500000000000000000
2.5 Quintillion
اسلاید 5 :
حجم بسیار بالای داده(Big Data)
اسلاید 6 :
ما در عصر اطلاعات هستیم و داده کاوی بخشی از تکامل آن است
اسلاید 7 :
کاربردهای بسیار از تشخیص کلاهبرداری تا بیوانفورماتیک
اسلاید 8 :
تفاوت داده کاوی (Data Mining) با علم داده(Data Science)
داده كاوي :
يه تكنيك است
هدف، كشف الگوهاي ناشناخته،مدل پيش بيني
داده كاوي زير مجموعه علم داده است
عموما با داده هاي ساختار يافته سر كار داره
كاربرد بيشتر در كسب و كار
كاربردي كردن داده
علم داده:
يه حوزه دانش است
هدف، آناليز اجتماعي،توليد مدل هاي پيش بيني، كشف حقايق ناشناخته
علم داده يك علم چند رشته اي است
با همه نوع داده سر و كار دارد
كابرد بيشتر بصورت علمي و تحقيقاتي
توليد محصولات داده محور
اسلاید 9 :
تفاوت بين داده كاوي و آمار
داده كاوي:
داده را زير و رو ميكند تا الگوهاي جديدي پيدا كند و نظريه اي بر مبناي آن بسازد
مرحله برا پاكسازي داده و آماده سازي آن دارد
با مجموعه داده هاي بزرگ سروكار دارد
استقرايي است
با داده هاي عددي و غير عددي سروكار دارد
به جمع آوري داده توجهي ندارد
آمار:
يكسري نظريه بدست مي آورد و با ابزارهاي مختلف آماري آن را تست ميكند
از داده هاي تميز استفاده ميكند
با مجموعه داده هاي كوچك سركار دارد
استنتاجي است
با داده هاي عددي سروكار دارد
به جمع آوري داده توجه دارد
اسلاید 10 :
تفاوت بين داده كاوي و یادگیری ماشین(Machine Learning)
داده كاوي:
قدمت آن از 1930
استخراج قاعده از مقدار زیادی داده
از داده های خام استفاده میکند
به دخالت انسان وابسته است
به یادگیری ماشین نیازمند است
توانایی یادگیری ندارد
کاربرد: در تشخیص عادات خرید مشتریان، تشکیل استراتژی های خرید
یادگیری ماشین:
قدمت آن از 1950
به کامپیوتر آموزش میده تا فعالیت های پیچیده ای رو استفاده کند و داده جمع آوری کند یادبگیرد و باهوش تر شود
سروکارش با الگوریتم است نه داده خام
سعی در خودکفایی از دخالت انسان با یادگیری
لزوما نیازی به داده کاوی ندارد
هدف اصلی آن یادگیری است
کاربرد:تشخیص اسپم در ایمیل ها، ماشین هایی بدون نیاز به فرمان گیری از سرنشین
اسلاید 11 :
داده كاوي و "كشف دانش از داده" (KDD:Knowledge Discovery in Database)
را بسيار بجاي همديگر استفاده ميكنند ولي داده كاوري تنها يك مرحله از فرايند KDD ميباشد.
اسلاید 12 :
مراحلي كه در داده كاوي طي ميكنيم
درك كسب و كار
درك داده
آماده سازي داده
مدلسازي داده
ارزيابي
بكارگيري
اسلاید 13 :
ساختار داده كاوي
اسلاید 14 :
در داده كاوي چه كارهاي صورت ميگيرد؟
توصيفي:
توصيف كلاس/مفهوم
استخراج الگوهاي تكراري
كشف ارتباط
استخراج همبستگي
كشف خوشه يا دسته (Cluster)
دسته بندي و پيش بيني:
توصیف داده
تمیز دادن داده
مجموعه اقلام تکراری
دنباله تکراری
زیرساختار تکراری
دسته بندی
پیش بینی
آنالیز منزوی (Outlier Analysis)
آنالیز تکامل
آنالیز رگرسیون
اسلاید 15 :
فرایند های داده کاوی به دو دسته تقسیم میشوند:
یادگیری نظارت شده(Supervised Learning):
رگرسیون خطی
رگرسیون منطقی
دسته بندی و درخت های رگرسیون
شبکه های عصبی
K تا همسایه نزدیک
یادگیری نظارت نشده(Unsupervised Learning):
خوشه بندی (Clustering)
آنالیز روابط
آنالیز مولفه های اصلی
اسلاید 17 :
درخت تصمیم
فواید:
نیازی به دانش تخصصی ندارد
به راحتی قابل فهم است
مراحل یادگیری و طبقه بندی آن آسانتر است
هرس درخت:
پیش از فرایند هرس کردن(Prepruning)
پس از فرایند هرس کردن (Postpruning)
اسلاید 18 :
طبقه بندی بیز
طبقه بندی بیزی مبتنی بر قضیه بیز است. طبقه بندی کننده های بیزی طبقه بندی کننده آماری هستند. طبقه بندی کننده های Bayesian می توانند احتمال عضویت در کلاس مانند احتمال اینکه یک دسته خاص به یک کلاس خاص تعلق داشته باشد پیش بینی کند.
اسلاید 19 :
طبقه بندی بیز
اسلاید 20 :
خوشه بندی (Clustering)
به طور کلی، گروهی از اشیاء انتزاعی به طبقات اشیاء مشابه ساخته می شوند.
ما با یک دسته از اشیاء داده ها به عنوان یک گروه رفتار می کنیم.
در حین انجام تجزیه و تحلیل خوشه ای، ابتدا مجموعه داده ها را به گروه ها تقسیم می کنیم. بر اساس شباهت داده ها و سپس برچسب ها را به گروه ها اختصاص دهید.
مهمترین مزیت طبقه بندی این است که با تغییرات سازگار است. و به جدا کردن ویژگی های مفید و متمایز کننده گروه های مختلف کمک می کند.