بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
مقدمه
پيشينه طرح موضوع دادهكاوي به دهه 1980 و به صورت جدي، به دهه 1990 برميگردد. پيش از آن٬ از سيستمهاي جمعآوري و مديريت دادهها و اصطلاحاً لايروبي دادهها استفاده ميشد٬ اما به مرور زمان٬ استخراج و كشف سريع و دقيق اطلاعات با ارزش و پنهان از پايگاه دادهها بهعنوان دادهكاوي مورد توجه قرار گرفت. به اين شكل بود كه فرايند دادهكاوي به عنوان فرايند آماري و تجزيه و تحليل درفرايند كشف دانش در پايگاه دادهها (KDD) پررنگ شد ،به حدي كه گاه٬ دادهكاوي (DM) بهعنوان مترادف كشف دانش در پايگاه دادهها(KDD) مورد استفاده قرار ميگرفت[2]. امروزه فرايند استخراج اطلاعات معتبر٬ از پيش ناشناخته٬ قابل فهم و قابل اعتماد از پايگاه دادههاي بزرگ و استفاده از آن در تصميمگيري و در فعاليتهاي تجاري دادهكاوي ناميده ميشود[1]. در تعاريف متعدد و متنوع براي دادهكاوي برموضوعاتي نظير: استخراج دانش كلان٬ كاوش در دادهها٬ تجزيه و تحليل دادهها و يافتن روابط و الگوهاي مطمئن بين دادهها تاكيد ميشود. هدف نهايي دادهكاوي٬ ايجاد سيستمهاي پشتيباني تصميمگيري سازماني است. دادهكاوي به استخراج اطلاعات مفيد و دانش از حجم زياد دادهها ميپردازد. دادهكاوي٬ الگوهاي حاوي اطلاعات را در دادههاي موجود جستوجو ميكند. اين الگوها و الگوريتمها، ميتوانند توصيفي باشند يعني دادهها را توصيف كنند و يا جنبه پيشبيني داشته باشند، يعني از متغيرها براي پيشبيني ارزشهاي ناشناخته ساير متغيرها بهكار روند. دادهكاوي توصيفي، بهدنبال يافتن اگرها در فعاليتها يا اقدامات گذشته است و دادهكاوي پيشبينانه با نگاه به سابقه٬ رفتار آینده را پيشبيني ميكند[1].
اسلاید 2 :
حوزه فعالیتهای داده کاوی
هدف دادهكاوي٬ تجزيه و تحليلاكتشافي دادهها٬ كشف الگوها و قواعد و الگوريتمها٬ مدلسازي پيشبينانه وجستوجوي انحرافات است. براي انجام اين هدف٬ فرايند دادهكاوي درجهت كشف دانش درمراحل مختلف انجام ميشودكه عبارت است از:
- شناسايي هدف و فهم حوزه كاربرد آن است و مشخص ميكند كه چهكاري٬ در چه حوزهايانجام خواهد شد.
- انتخاب دادهها يعني تعيين اهداف براي تجزيه و تحليل و كشفآن
- آمادهسازي دادهها شامل تميزسازي دادهها
- اتخاذ بهترين روشدادهكاوي براي دستيابي به اهداف
- اجراي دادهكاوي يعني بهكارگيريالگوريتم
- ارزيابي و اعتبارسنجي يافتهها
- استفاده از نتايج و تثبيت وتحكيم دانش كشف شده
- تصميم گيري براساس دانش كشف شده
اکتشاف در این مرحله معمولا با آماده سازی داده ها که ممکن است شامل تمیز کردن داده ها ، تبدیل داده ها ، زیر مجموعه های انتخاب آثار ضبط شده و انجام برخی از عملیات اولیه انتخابشروع می شود . سپس بسته به ماهیتتحلیلی ، این مرحله از فرایند استخراج داده ها ممکن است شامل هر انتخاب ساده و سرراست برای یک مدل رگرسیون استادانه درست شده را به تجزیه و تحلیل اکتشافی با استفاده از طیف گسترده ای از روش های گرافیکی و آماری به منظور شناسایی متغیرهای مربوطه و تعیین پیچیدگی از طبیعت مدل ها باشد. البته ناگفته نماند که داده کاوی معمولا با نوشتنمقدار زیادی گزارش و تحقیق و استعلام در آنها اشتباه گرفته می شود. اما در واقعداده کاوی هیچ کدام از اینها را شامل نمی شود. داده کاوی توسط تجهیزات خاصی صورتمی پذیرد، که عملیات کاوش را بر اساس تجزیه و تحلیل مکرر داده ها انجام می دهد
اسلاید 3 :
داده کاوي با آنالیز های متداول آماری نیز متفاوت است؛در زیرمی توان برخی ازاصلی ترین تفاوت های داده کاوي و آنالیز آماری را مشاهده نمود:
آنالیز آماری:
- آمار شناسان همیشه با یک فرضیه شروع بهکار می کنند
- آنها از داده های عددی استفاده می کنند
- آمارشناسان بایدرابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است
- آنها می توانند دادههای نابجا و نادرست را در طول آنالیز مشخص کنند
- آنها می توانند نتایج کار خودرا تفسیر و برای مدیران بیان کنند
داده کاوی :
- به فرضیه احتیاجیندارد
- ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می تواننداستفاده کنند
- الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد میکنند
- داده کاوی به داده های صحیح و درست نیاز دارد
- نتایج داده کاوینسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد
جهتدرک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناختکلاهبرداری های شرکت بیمه می باشد، توجه کنید.
اسلاید 4 :
روش آنالیز آماری :
یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. براساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگرنتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگریمجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسرنیز بستگی دارد.مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگریرا که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.
روش داده کاوی :
یک مفسر سیستم های داده کاوی را ساخته و پس از طی مراحلی ازجمله جمع آوری داده ها، یکپارچه سازی و اخلاص داده ها به انجام عملیات دادهکاوی می پردازد. داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمالانحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند. نتایج دادهکاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. درنهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیشبینی نمایند.
تحلیلهاي دادهکاوي به دو روش با ناظر و بدون ناظر و از طریق الگوریتمهایی چون شبکه هاي عصبی((NN، طبقه بندي و درخت تصمیم( (C&RT، ژنتیک، تحلیل سبد خرید، شبکه کوهونن قابل اجراست. علاوه بر این الگوریتمهاي رایج، همچنان الگوریتمهاي جدیدي براي اهداف تحقیقات علمی یا تجاري از طریق طرحهاي پژوهشی دانشگاهی، تولید میشود.
اسلاید 5 :
ویژگیهاي منحصر بفرد داده کاوي را می توان به صورت زیر برشمرد[3]:
- نه تنها بر فاز تحلیل، بلکه بر طراحی مطالعه و جمع آوري داده نیز تاثیر می گذارند
- امکان جستجوي پاسخ سؤالات دقیق و با پیچیدگی بالا را در دادههاي جمعآوري شده فراهم می کنند.
- قادرند که به سؤالات بطور واضح و مشخص پاسخ دهند. مزیت اصلی و تفاوت آنها با سایر تکنیکها نیز در همین است که بجاي ارائه صرف استراتژي کلان، پاسخهاي دقیق در اختیار محقق قرار می دهند.
- امکان سنجش اثر متغیرهاي مختلف بر روي متغیرهاي وابسته را فراهم می کنند.
- به مدیران کمک میکنند که تأثیر سناریوهاي آتی را مورد ارزیابی قرار دهند و با مدلسازي گزینه هاي متعدد و کمک به تصمیم گیري در شرایط عدم قطعیت به انتخاب مسیر حرکت بپردازند.
محققینی که تنها روابط دو به دو را در نظر میگیرند و از داده کاوی استفاده نمی کنند، ابزار قدرتمندی را از دست می دهند که می تواند اطلاعات سودمندی را در اختیار آنان قرار دهد. در مسائل واقعی چندین متغیر به طور همزمان بر روي پاسخ تاثیر می گذارند، از این رو آنالیزهاي چندمتغیره جواب هاي دقیقتر و نزدیک به واقع تري را فراهم می کند. در شکل (1) فرایند کسب دانش از پایگاه دادهها به صورت شماتیک بیان شده است[4] همانطور که ملاحظه می شود یکی از گام هاي این فرایند، داده کاوي می باشد. موفقیت در این مرحله کاملا متاثر از سه گام قبل است بگونه اي که اگر هر کدام از مراحل قبلی به درستی انجام نپذیرد، نتایج حاصل از داده کاوي نه تنها مفید نبوده ممکن است گمراه کننده نیز باشد.
اسلاید 6 :
تکنیکهاي داده کاوي از جمله تکنیکهاي نوین علمی هستند که در توصیف، تشریح، پیش بینی و کنترل پدیدهها به کار می روند[3]. این تکنیکها به اندازهگیري، تشریح و پیشبینی درجه وابستگی میان متغیرها میپردازند. روشهاي دادهکاوي نه تنها بر جنبه هاي تحلیلی مطالعات، بلکه در طراحی و ابزارهاي جمع آوري داده براي تصمیمگیري و حل مسائل نیز تأثیر میگذارند. موفقترین پروژههاي دادهکاوي، در چارچوب فرآیند استانداردي اجرا می شودکه توسط یک تیم کاري در شرکت SPSS در قالب پروژهاي به نام CRISP-DM ارائه شده است[5]. برطبق CRISP-DM یک پروژه دادهکاوی معین شامل چرخه حیاط شش مرحلهای است که توالی مراحل را نشان می دهد شکل (2). هر مرحله از ترتیب مراحل اغلب نتیجه وابستگی مراحل قبلی را نیز دربر دارد. مهمترین وابستگی بین مراحل نمایش پیکانها می باشد. خاصیت تکراری CRISP حاکی از چرخه بیرونی است که اغلب منجر به راه
حلی برای مسئله تحقیقی یا تجاری با سوالات اضافی جالب توجه می شود.
اسلاید 7 :
در زیر مراحل کاری در دادهکاوی را توضیح میدهیم:
مرحله درک پروژه و فهم حوزه کاربرد: اولین مرحله پردازش استاندارد CRISP–DM می باشد که به صورت آشکار اهداف و نیازمندیها آن مشخص می شود. ترجمه اهداف و محدودیت آن در قاعدهسازی، تعریف مسئله دادهکاوی و مهیا کردن استراتژی اولیه برای نائل شدن به اهداف تعریف میشود.
مرحله انتخاب دادها : این مرحله شامل جمع آوری دادها برای استفاده از تحلیل اکتشافی و مشخص کردن اطلاعات اولیه برای ارزیابی دادههای با کیفیت و انتخاب دادهای مفید و مورد نیاز می باشد.
مرحله آماده سازی دادهها: آماده کردن دادههای اولیه خام به دادههای نهایی، این دادها در کلیه مراحل بعدی استفاده می شود و از این نظر این مرحله تحلیل و تلاش بیشتری را می طلبد. انتخاب عناصر و شناسههای تحلیل شده را برای کاوش دادهها اختصاص می دهیم. و با تمیز کردن دادهای خام آن را برای ابزارهای مدلسازی آماده میکنیم.
مرحله مدلسازی: با انتخاب و بهکار بستن تکنیکهای مدلسازی مناسب و روش دادهکاوی معین نتایج مدلسازی را بهینه میکنیم که در صورت نیاز می توانیم با برگشت به عقب تحلیل مدلسازی را بهینه تر نماییم.
مرحله ارزیابی: مشخص کردن اینکه آیا مدل انتخابی، ما را به اهدافمان که در اولین مرحله تعیین کردیم میرساند. اتخاذ تصمیم راجع به استفاده از نتایج دادهکاوی برای اعتبارسنجی نیز در این مرحله انجام میشود.
مرحله تحکیم و گسترش :استفاده کردن از مدل ایجاد شده، برای مثال می تواند تولید یک گزارش ساده از خروجیها را نام برد، و برای یک مثال پیچیده تکمیل کردن پردازش دادهکاوی موازی در سایر حوزهها می باشد که این الگوها به یک دانش مفید و قابل استفاده تبدیل می شوند و پس از بهبود آنها، الگوهایی که کارا محسوب میشوند در یک سیستم اجرایی به کار گرفته خواهند شد.
اسلاید 8 :
مثال تفهیمی در مورد داده کاوی
یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند .
برای مثال طی یک عملـیات داده کاوی گستـرده در یـک فروشـگاه زنجیره ای در آمریکای شمالی که بر روی حجـم عظیمـی از داده های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می روند معمولا آب جو نیز خریداری می کنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند. نمونه مشابه عملیات داده کاوی را می توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود، به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند.
به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند.
نمونه دیگر استفاده از داده کاوی در زمینه فروش را می توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی، روابط مشتریان و هنرپیشه های سینمایی و نیز گروه های مختلف مشتریان بر اساس سبک فیلم ها ( ترسناک، رمانتیک، حادثه ای و ...) مشخص گردید.
بنابراین آن شرکت به صورت کاملا هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را بر اساس علاقه مشتریان به هنرپیشه های مختلف و سبک های سینمایی شناسایی کند.
از دیگر زمینه های به کارگیری داده کاوی، استفاده بیمارستانها و کارخانه های داروسازی جهت کشف الگوها و مدلهای ناشناخته تاثیر دارو ها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را می توان نام برد.
استفاده از داده کاوی در زمینه های مالی و بانکداری به شناخت مشتریان پر خطر و سودجو بر اساس معیار هایی از جمله سن ، درآمد، وضعیت سکونت، تحصیلات، شغل و غیره می انجامد.
از کاربرد های داده کاوی می توان به نمونه های زیر اشاره کرد :
▪ بانکداری :
ـ از جالب توجه ترین کاربرد های داده کاوی می توان به کشف پول شویی اشاره کرد.
ـ تشخیص مشتریان ثابت و همیشگی
ـ تعیین مشتریان استفاده کننده از یک سرویس خاص
▪ بیمه :
ـ پیش گویی میزان استقبال از بیمه نامه های جدید
ـ تشخیص کلاهبرداری ها و مشخص کردن رفتار های نا متناسب
ـ تشخیص نیاز مشتریان و خواسته های آنها
ـ تشخیص تخلفات پزشکی
واضح است که زمینه استفاده از داده کاوی بی نهایت گسترده است.و دو مثال فوق به خاطر درک راحت تر انتخاب شده اند.
اسلاید 9 :
نتیجه گیری
بررسی اجمالی پژوهشهاي صورت گرفته در حوزه دانش ابزراهای دادهکاوی نشان می دهد که تحقیقات عمیق و اساسی در این باره خصوصاً در ایران اندك شمار است. از سوي دیگر با افزایش سرعت تحول در علوم، ضرورت استفاده از دانشهاي نوین بیش از پیش محرز شده است . داده کاوي به عنوان یک رشته علمی نوین در زمینه بازیابی و استخراج اطلاعات می تواند نقش مهمی در جهت دستیابی به این اهداف داشته باشد. امروزه اکثر نرم افرار های پایگاه داده ای مثل ORACLE و SQL Server نیز شامل ابزارهایی داده کاوی شده اند ولی نرم افزار های تخصصی دادهکاوی همچون Intelligent Miner , Darwin , Mine Set, Knowledge Studio, Data Mind از مهمترین ابزار های داده کاوی به شمار می روند. در این مقاله قابلیتهاي داده کاوي و مراحل کاری آن معرفی شد که در گامهای بعد می توان تأثیر آن را در عملآ زمود.