بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

مقدمه

پيشينه طرح موضوع داده‏كاوي به دهه 1980 و به صورت جدي، به دهه 1990 برمي‏گردد. پيش از آن٬ از سيستم‏هاي جمع‏آوري و مديريت داده‏ها و اصطلاحاً لايروبي داده‏ها استفاده مي‏شد٬ اما به مرور زمان٬ استخراج و كشف سريع و دقيق اطلاعات با ارزش و پنهان از پايگاه داده‏ها به‏عنوان داده‏كاوي مورد توجه قرار گرفت. به اين شكل بود كه فرايند داده‏كاوي به عنوان فرايند آماري و تجزيه و تحليل درفرايند كشف دانش در پايگاه داده‏ها (KDD) پررنگ شد ،به حدي كه گاه٬ داده‏كاوي (DM) به‏عنوان مترادف كشف دانش در پايگاه داده‏ها(KDD) مورد استفاده قرار مي‏گرفت[2]. امروزه فرايند استخراج اطلاعات معتبر٬ از پيش ناشناخته٬ قابل فهم و قابل اعتماد از پايگاه داده‏هاي بزرگ و استفاده از آن در تصميم‏گيري و در فعاليت‏هاي تجاري داده‏كاوي ناميده مي‏شود[1]. در تعاريف متعدد و متنوع براي داده‏كاوي برموضوعاتي نظير: استخراج دانش كلان٬ كاوش در داده‏ها٬ تجزيه و تحليل داده‏ها و يافتن روابط و الگوهاي مطمئن بين داده‏ها تاكيد مي‏شود. هدف نهايي داده‏كاوي٬ ايجاد سيستم‏هاي پشتيباني تصميم‏گيري سازماني است. داده‏كاوي به استخراج اطلاعات مفيد و دانش از حجم زياد داده‏ها مي‏پردازد. داده‏كاوي٬ الگوهاي حاوي اطلاعات را در داده‏هاي موجود جست‌وجو مي‌كند. اين الگوها و الگوريتم‏ها، مي‏توانند توصيفي باشند يعني داده‏ها را توصيف كنند و يا جنبه پيش‏بيني داشته باشند، يعني از متغيرها براي پيش‏بيني ارزش‏هاي ناشناخته ساير متغيرها به‏كار روند. داده‏كاوي توصيفي، به‏دنبال يافتن اگرها در فعاليت‏ها يا اقدامات گذشته است و داده‏كاوي پيش‏بينانه با نگاه به سابقه٬ رفتار آینده را پيش‏بيني مي‏كند[1].

اسلاید 2 :

حوزه فعالیتهای داده کاوی

هدف داده‏كاوي٬ تجزيه و تحليلاكتشافي داده‏ها٬ كشف الگوها و قواعد و الگوريتم‏ها٬ مدل‏سازي پيش‏بينانه وجست‌وجوي انحرافات است. براي انجام اين هدف٬ فرايند داده‏كاوي درجهت كشف دانش درمراحل مختلف انجام مي‌شودكه عبارت است از:

  1. شناسايي هدف و فهم حوزه كاربرد آن است و مشخص مي‏كند كه چه‏كاري٬ در چه حوزه‏ايانجام خواهد شد.
  2. انتخاب داده‏ها يعني تعيين اهداف براي تجزيه و تحليل و كشفآن
  3. آماده‏سازي داده‏ها شامل تميزسازي داده‏ها
  4. اتخاذ بهترين روشداده‏كاوي براي دست‏يابي به اهداف
  5. اجراي داده‏كاوي يعني به‏كارگيريالگوريتم
  6. ارزيابي و اعتبارسنجي يافته‏ها
  7. استفاده از نتايج و تثبيت وتحكيم دانش كشف شده
  8. تصميم گيري براساس دانش كشف شده

اکتشاف در این مرحله معمولا با آماده سازی داده ها که ممکن است شامل تمیز کردن داده ها ، تبدیل داده ها ، زیر مجموعه های انتخاب آثار ضبط شده و انجام برخی از عملیات اولیه انتخابشروع می شود . سپس بسته به ماهیتتحلیلی ، این مرحله از فرایند استخراج داده ها ممکن است شامل هر انتخاب ساده و سرراست برای یک مدل رگرسیون استادانه درست شده را به تجزیه و تحلیل اکتشافی با استفاده از طیف گسترده ای از روش های گرافیکی و آماری به منظور شناسایی متغیرهای مربوطه و تعیین پیچیدگی از طبیعت مدل ها باشد. البته ناگفته نماند که داده کاوی معمولا با نوشتنمقدار زیادی گزارش و تحقیق و استعلام در آنها اشتباه گرفته می شود. اما در واقعداده کاوی هیچ کدام از اینها را شامل نمی شود. داده کاوی توسط تجهیزات خاصی صورتمی پذیرد، که عملیات کاوش را بر اساس تجزیه و تحلیل مکرر داده ها انجام می دهد

اسلاید 3 :

 داده کاوي با آنالیز های متداول آماری نیز متفاوت است؛در زیرمی توان برخی ازاصلی ترین تفاوت های داده کاوي و آنالیز آماری را مشاهده نمود:

آنالیز آماری:

  • آمار شناسان همیشه با یک فرضیه شروع بهکار می کنند
  • آنها از داده های عددی استفاده می کنند
  • آمارشناسان بایدرابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است
  • آنها می توانند دادههای نابجا و نادرست را در طول آنالیز مشخص کنند
  • آنها می توانند نتایج کار خودرا تفسیر و برای مدیران بیان کنند

داده کاوی :

  • به فرضیه احتیاجیندارد
  • ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می تواننداستفاده کنند
  • الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد میکنند
  • داده کاوی به داده های صحیح و درست نیاز دارد
  • نتایج داده کاوینسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد

جهتدرک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناختکلاهبرداری های شرکت بیمه می باشد، توجه کنید.

اسلاید 4 :

روش آنالیز آماری :

یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. براساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگرنتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگریمجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسرنیز بستگی دارد.مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگریرا که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.

روش داده کاوی :

یک مفسر سیستم های داده کاوی را ساخته و پس از طی مراحلی ازجمله جمع آوری داده ها، یکپارچه سازی و اخلاص داده ها به انجام عملیات دادهکاوی می پردازد. داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمالانحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند. نتایج دادهکاوی   حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. درنهایت مدل های به دست آمده  می توانند مشتریانی را که امکان کلاهبرداری دارند، پیشبینی نمایند.

تحلیلهاي داده‏کاوي به دو روش با ناظر و بدون ناظر و از طریق الگوریتمهایی چون شبکه هاي عصبی((NN، طبقه بندي و درخت تصمیم( (C&RT، ژنتیک، تحلیل سبد خرید، شبکه کوهونن قابل اجراست. علاوه بر این الگوریتمهاي رایج، همچنان الگوریتمهاي جدیدي براي اهداف تحقیقات علمی یا تجاري از طریق طرحهاي پژوهشی دانشگاهی، تولید می‏شود.

اسلاید 5 :

ویژگیهاي منحصر بفرد داده کاوي را می توان به صورت زیر برشمرد[3]:

  • نه تنها بر فاز تحلیل، بلکه بر طراحی مطالعه و جمع آوري داده نیز تاثیر می گذارند
  • امکان جستجوي پاسخ سؤالات دقیق و با پیچیدگی بالا را در دادههاي جمع‏آوري شده فراهم می کنند.
  • قادرند که به سؤالات بطور واضح و مشخص پاسخ دهند. مزیت اصلی و تفاوت آنها با سایر تکنیکها نیز در همین است که بجاي ارائه صرف استراتژي کلان، پاسخهاي دقیق در اختیار محقق قرار می دهند.
  • امکان سنجش اثر متغیرهاي مختلف بر روي متغیرهاي وابسته را فراهم می کنند.
  • به مدیران کمک می‏کنند که تأثیر سناریوهاي آتی را مورد ارزیابی قرار دهند و با مدلسازي گزینه هاي متعدد و کمک به تصمیم گیري در شرایط عدم قطعیت به انتخاب مسیر حرکت بپردازند.

محققینی که تنها روابط دو به دو را در نظر میگیرند و از داده کاوی استفاده نمی کنند، ابزار قدرتمندی را از دست می دهند که می تواند اطلاعات سودمندی را در اختیار آنان قرار دهد. در مسائل واقعی چندین متغیر به طور همزمان بر روي پاسخ تاثیر می گذارند، از این رو آنالیزهاي چندمتغیره جواب هاي دقیقتر و نزدیک به واقع تري را فراهم می کند. در شکل (1) فرایند کسب دانش از پایگاه دادهها به صورت شماتیک بیان شده است[4] همانطور که ملاحظه می شود یکی از گام هاي این فرایند، داده کاوي می باشد. موفقیت در این مرحله کاملا متاثر از سه گام قبل است بگونه اي که اگر هر کدام از مراحل قبلی به درستی انجام نپذیرد، نتایج حاصل از داده کاوي نه تنها مفید نبوده ممکن است گمراه کننده نیز باشد.

اسلاید 6 :

تکنیکهاي داده کاوي از جمله تکنیکهاي نوین علمی هستند که در توصیف، تشریح، پیش بینی و کنترل پدیدهها به کار می روند[3]. این تکنیکها به اندازه‏گیري، تشریح و پیش‏بینی درجه وابستگی میان متغیرها میپردازند. روشهاي داده‏کاوي نه تنها بر جنبه هاي تحلیلی مطالعات، بلکه در طراحی و ابزارهاي جمع آوري داده براي تصمیم‏گیري و حل مسائل نیز تأثیر می‏گذارند. موفق‏ترین پروژههاي داده‏کاوي، در چارچوب فرآیند استانداردي اجرا می شودکه توسط یک تیم کاري در شرکت SPSS در قالب پروژهاي به نام CRISP-DM ارائه شده است[5]. برطبق CRISP-DM یک پروژه داده‏کاوی معین شامل چرخه حیاط شش مرحله‏ای است که توالی مراحل را نشان می دهد شکل (2). هر مرحله از ترتیب مراحل اغلب نتیجه وابستگی مراحل قبلی را نیز دربر دارد. مهمترین وابستگی بین مراحل نمایش پیکانها می باشد. خاصیت تکراری CRISP حاکی از چرخه بیرونی است که اغلب منجر به راه

حلی برای مسئله تحقیقی یا تجاری با سوالات اضافی جالب توجه می شود.

اسلاید 7 :

در زیر مراحل کاری در داده‏کاوی را توضیح می‏دهیم:

مرحله درک پروژه و فهم حوزه کاربرد: اولین مرحله پردازش استاندارد CRISP–DM   می باشد که به صورت آشکار اهداف و نیازمندیها آن مشخص می شود. ترجمه اهداف و محدودیت آن در قاعده‏سازی، تعریف مسئله داده‏کاوی و مهیا کردن استراتژی اولیه برای نائل شدن به اهداف تعریف می‏شود.

مرحله انتخاب دادها : این مرحله شامل جمع آوری دادها برای استفاده از تحلیل اکتشافی و مشخص کردن اطلاعات اولیه برای ارزیابی داده‏های با کیفیت و انتخاب دادهای مفید و مورد نیاز می باشد.

مرحله آماده سازی داده‏ها: آماده کردن داده‏های اولیه خام به داده‏های نهایی، این دادها در کلیه مراحل بعدی استفاده می شود و از این نظر این مرحله تحلیل و تلاش بیشتری را می طلبد. انتخاب عناصر و شناسه‏های تحلیل شده را برای کاوش داده‏ها اختصاص می دهیم. و با تمیز کردن دادهای خام آن را برای ابزارهای مدلسازی آماده می‏کنیم.

مرحله مدلسازی: با انتخاب و به‏کار بستن تکنیکهای مدلسازی مناسب و روش داده‏کاوی معین نتایج مدلسازی را بهینه می‏کنیم که در صورت نیاز می توانیم با برگشت به عقب تحلیل مدلسازی را بهینه تر نماییم.

مرحله ارزیابی: مشخص کردن اینکه آیا مدل انتخابی، ما را به اهدافمان که در اولین مرحله تعیین کردیم می‏رساند. اتخاذ تصمیم راجع به استفاده از نتایج داده‏کاوی برای اعتبارسنجی نیز در این مرحله انجام می‏شود.

مرحله تحکیم و گسترش :استفاده کردن از مدل ایجاد شده، برای مثال می تواند تولید یک گزارش ساده از خروجیها را نام برد، و برای یک مثال پیچیده تکمیل کردن پردازش داده‏کاوی موازی در سایر حوزه‏ها می باشد که این الگو‏ها به یک دانش مفید و قابل استفاده تبدیل می شوند و پس از بهبود آنها، الگوهایی که کارا محسوب می‏شوند در یک سیستم اجرایی به کار گرفته خواهند شد.

اسلاید 8 :

مثال تفهیمی در مورد داده کاوی

یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند .

برای مثال طی یک عملـیات داده کاوی گستـرده در یـک فروشـگاه زنجیره ای در آمریکای شمالی که بر روی حجـم عظیمـی از داده های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می روند معمولا آب جو نیز خریداری می کنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند. نمونه مشابه عملیات داده کاوی را می توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود، به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند.

به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند.

نمونه دیگر استفاده از داده کاوی در زمینه فروش را می توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی، روابط مشتریان و هنرپیشه های سینمایی و نیز گروه های مختلف مشتریان بر اساس سبک فیلم ها ( ترسناک، رمانتیک، حادثه ای و ...) مشخص گردید.

بنابراین آن شرکت به صورت کاملا هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را بر اساس علاقه مشتریان به هنرپیشه های مختلف و سبک های سینمایی شناسایی کند.

از دیگر زمینه های به کارگیری داده کاوی، استفاده بیمارستانها و کارخانه های داروسازی جهت کشف الگوها و مدلهای ناشناخته تاثیر دارو ها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را می توان نام برد.

استفاده از داده کاوی در زمینه های مالی و بانکداری به شناخت مشتریان پر خطر و سودجو بر اساس معیار هایی از جمله سن ، درآمد، وضعیت سکونت، تحصیلات، شغل و غیره می انجامد.

از کاربرد های داده کاوی می توان به نمونه های زیر اشاره کرد :

▪ بانکداری :

ـ از جالب توجه ترین کاربرد های داده کاوی می توان به کشف پول شویی اشاره کرد.

ـ تشخیص مشتریان ثابت و همیشگی

ـ تعیین مشتریان استفاده کننده از یک سرویس خاص

▪ بیمه :

ـ پیش گویی میزان استقبال از بیمه نامه های جدید

ـ تشخیص کلاهبرداری ها و مشخص کردن رفتار های نا متناسب

ـ تشخیص نیاز مشتریان و خواسته های آنها

ـ تشخیص تخلفات پزشکی

واضح است که زمینه استفاده از داده کاوی بی نهایت گسترده است.و دو مثال فوق به خاطر درک راحت تر انتخاب شده اند.

اسلاید 9 :

نتیجه گیری

بررسی اجمالی پژوهشهاي صورت گرفته در حوزه دانش ابزراهای داده‏کاوی نشان می دهد که تحقیقات عمیق و اساسی در این باره خصوصاً در ایران اندك شمار است. از سوي دیگر با افزایش سرعت تحول در علوم، ضرورت استفاده از دانشهاي نوین بیش از پیش محرز شده است . داده کاوي به عنوان یک رشته علمی نوین در زمینه بازیابی و استخراج اطلاعات می تواند نقش مهمی در جهت دستیابی به این اهداف داشته باشد. امروزه اکثر نرم افرار های پایگاه داده ای مثل ORACLE و SQL Server نیز شامل ابزارهایی داده کاوی شده اند ولی نرم افزار های تخصصی داده‏کاوی همچون Intelligent Miner , Darwin , Mine Set, Knowledge Studio, Data Mind از مهمترین ابزار های داده کاوی به شمار می روند. در این مقاله قابلیتهاي داده کاوي و مراحل کاری آن معرفی شد که در گامهای بعد می توان تأثیر آن را در عملآ زمود.

 

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید