بخشی از پاورپوینت
اسلاید 1 :
بسم الله الرحمن الرحیم
داده کاوی: مفاهيم، روشها، کاربردها، آينده
اسلاید 2 :
فهرست مطالب
مقدمه
معرفی دادهکاوی و دلايل پيدايش آن
جايگاه دادهکاوی در علوم کامپيوتر
مراحل و اجزای يک فرآيند دادهکاوی
کاربردهای دادهکاوی
کاربردهای تجاری
کاربردهای علمی
کاربردهای امنيتی
تکنيکهای دادهکاوی
دسته بندی
قوانين تداعی
خوشه بندی
آينده دادهکاوی: کاربردهای جديد، چالشها و دستاوردها
تشخيص ناهمگونی
دادهکاوی توزيع شده
داده کاوی و حريم خصوصی
اسلاید 3 :
داده کاوی و دلايل پيدايش آن
توسعه تکنولوژيهای ذخيره و بازيابی اطلاعات
افزايش روزافزون حجم اطلاعات ذخيره شده
تنوع بسيار زياد در اطلاعات موجود
بانکهای اطلاعاتی
فايلهای چندرسانه ای (تصاوير متحرک، فايلهای صوتی)
اطلاعات متنی و فاقد ساختار
آرشيوهای اطلاعاتی، به دليل حجم بسيار زياد، غالبا به مقبره های اطلاعات تبديل می شوند.
عليرغم هزينه های سنگين در بخش تکنولوژی اطلاعات، بسياری از تصميمها همچنان در فقر اطلاعاتی اتخاذ می گردند.
از قابليتهای بالقوه اطلاعات ذخيره شده استفاده نمی شود.
نياز به تبديل اطلاعات به دانش در بسياری زمينه ها آشکار گرديده است.
وقايعی نظير 11 سپتامبر، لزوم خودکار يا حداقل نيمه خودکار بودن فرآيند تبديل اطلاعات به دانش را به خوبی نشان می دهند.
داده کاوی به دهه 80 برمی گردد.
داده کاوی با تلاش برای اعمال تکنيکهای هوش مصنوعی بر روی بانکهای اطلاعاتی آغاز گرديد.
اسلاید 4 :
پردازش اطلاعات: از فايلهای متنی تا داده کاوی
حرکت از روشهای ابتدائی پردازش اطلاعات به داده کاوی، همواره برحسب نياز حوزه های مختلف بوده است.
سير کلی تکنولوژی پردازش اطلاعات را می توان به صورت زير خلاصه کرد:
فايلها: اطلاعات ناهمگون، فاقد ساختار مشخص، اشتباهات متعدد، پردازش در حد تهيه فهرست
بانکهای اطلاعاتی خاص: اطلاعات ناهمگون، اشتباهات نسبتا کمتر، گزارشات آماری ساده
بانکهای اطلاعاتی رابطه ای: اطلاعات همگون، ارتباطات مشخص، اشتباهات کمتر، گزارشات آماری پيچيده و مقايسه ای و شامل ارتباطات عناصر مختلف
بانکهای اطلاعاتی تحليلی: ويژه تحليل اطلاعات، ارائه يک مدل چندوجهی و امکان ساخت و مشاهده سريع گزارشات خاص، توانائی محدود در ذخيره سازی و پردازش انواع اطلاعات (معمولا فقط اطلاعات عددی)
داده کاوی: امکان پردازش انواع اطلاعات، قابليت کشف دانش از اطلاعات موجود
اسلاید 5 :
يک تعريف تئوريک از داده کاوی
داده کاوی عبارت است از فرآيند (نيمه)خودکار استخراج دانش (در قالب الگوهای پنهان) از مجموعه اطلاعات ورودی.
معمولا آگاهی اندکی در مورد دانش هدف وجود دارد.
ورودی عمدتا بسيار حجيم و پردازش دستی آن ناممکن است.
نتايج حاصل از داده کاوی، با روشهای سنتی پردازش اطلاعات (گزارش گيری) قابل دستيابی نيست.
خودکار يا نيمه خودکار بودن داده کاوی به معنای حداقل نياز به دخالت کاربر است.
انواع اطلاعات (و نه صرفا اطلاعات عددی) قابل پردازش می باشند.
اسلاید 6 :
جايگاه داده کاوی
داده کاوی را می توان يک شاخه از يادگيری ماشين دانست.
به دليل عدم وجود يک چارچوب تئوريک برای داده کاوی، در نظر گرفتن آن به عنوان زير مجموعه ای از يادگيری ماشين می تواند مورد بحث قرار گيرد.
تلاشهای اندکی برای توسعه يک چارچوب تئوريک برای داده کاوی انجام گرفته است.
اين ميزان تلاش کافی نبوده و به نتيجه قابل قبولی نرسيده است.
تفسير داده کاوی به عنوان زير مجموعه ای از آمار، چندان قانع کننده نيست: مسائل با فضای حالت دارای ابعاد زياد مهمترين وجه اين تمايزند.
تفسير داده کاوی به عنوان فرآيندی جهت تخمين تابع توزيع احتمال توأم نمونه ها: تکراری بودن داده کاوی چنين طبقه بندی را رد می کند.
نظريه داده کاوی معادل فشرده سازی، داده کاوی را فرآيندی برای فشرده سازی اطلاعات ورودی، از طريق پيدا کردن يک ساختار مناسب برای آن در نظر می گيرد.
اسلاید 7 :
چند واقعيت
تعريف موجود، سبب ايجاد انتظاراتی غيرواقعی از داده کاوی می شود.
تا کنون، هيچ سيستم/فرآيند داده کاوی کاملا خودکاری که منطبق بر شرايط واقعی باشد، ساخته نشده است.
دخالت مستقيم کاربر، به خصوص در مراحل اوليه يک فرآيند داده کاوی، اجتناب ناپذير است.
داده کاوی به يک هيولای پرقدرت شبيه است: رها کردن بدون هدف آن در سرزمين اطلاعات، مطمئنا نتايج خوبی در پی نخواهد داشت.
تمام قدمهای يک فرآيند داده کاوی توسط انسان تعريف می شود.
چند مرحله کلی در هر فرآيند داده کاوی وجود دارد.
اسلاید 8 :
مراحل يک فرآيند داده کاوی
هريک از مراحل، با مشکلات خاص خود مواجه است.
پيرايش و تجميع اطلاعات، معمولا حجم عمده کار را به خود اختصاص می دهند.
بازنمائی دانش، به خصوص در مورد داده کاوی، در موارد متعددی هيچ راه حل قابل قبولی ندارد.
انتخاب
اطلاعات هدف
پيرايش
اطلاعات
تجميع
اطلاعات
استخراج
دانش
بازنمائی دانش
استخراج شده
تفسير نتايج
اسلاید 9 :
پايه های يک فرآيند داده کاوی
5 پايه اصلی
مجموعه نمونه های آموزشی: بايد انتخاب، جمع آوری و پيرايش شوند.
نوع دانش: نوع دانش مورد انتظار، تکنيک داده کاوی مورد استفاده را مشخص خواهد کرد.
دانش پايه: انتقال دانش موجود در مورد مسئله به فرآيند داده کاوی، غالبا به صورت سلسله مراتبی از مفاهيم
معيارهای ارزيابی: ملاکهای ارزش دانش حاصل از داده کاوی، چه در زمان استخراج دانش و چه در زمان بازنمائی از اهميت کليدی برخوردار بوده و راهنمای فرآيند داده کاوی خواهند بود.
نحوه ارائه: معمولا بر حسب نوع دانش استخراج شده تعيين می شود. در موارد متعددی نيز روش مناسبی برای بازنمائی وجود ندارد.
اسلاید 10 :
دانش پايه
دانش فعلی کاربر در مورد نمونه های آموزشی
غالبا به صورت سلسله مراتب مفهومی (Concept Hierarchy)
به صورت ترتيب جزئی بين سطوح تجرد مطرح می شود
مثال: کشور > استان > شهر > منطقه
اسلاید 11 :
مقدمه: خلاصه مطالب
عدم کفايت روشهای سنتی در بهره برداری از پتانسيل اطلاعات در دسترس.
سير کلی روشهای پردازش اطلاعات، بر حسب نياز حوزه های متفاوت، از فايلهای ساده تا داده کاوی.
تعريف داده کاوی به عنوان يک فرآيند نيمه خودکار برای استخراج دانش از انواع اطلاعات ذخيره شده.
جايگاه داده کاوی در يادگيری ماشين و نياز به چارچوبهای تئوريک و فراگير.
ابهام زدائی از تعريف موجود و جداکردن واقعيات از اهداف ايده آل و بلند مدت.
مراحل اصلی يک فرآيند داده کاوی عبارتند از: انتخاب، پيرايش و تجميع اطلاعات، استخراج دانش، بازنمائی و تفسير دانش حاصل.
پايه های اصلی يک فرآيند داده کاوی عبارتند از: اطلاعات ورودی، نوع دانش، دانش پايه، معيارهای ارزيابی دانش و روشهای بازنمائی آن.
اسلاید 12 :
کاربردهای داده کاوی
کاربردهای تجاری
کاربردهای علمی
کاربردهای امنيتی
اسلاید 13 :
کاربردهای تجاری
تقريبا در تمام سازمانها و انواع تجارتها، به دليل وجود اطلاعات، می توان داده کاوی را مورد استفاده قرار داد.
پيش بينی مربوط به بازار بورس
تحليل سبد خريد
شناسائی طبقات و گروههای اصلی مشتريان
تعيين ميزان تاثير عوامل مختلفی نظير تبليغات، تخفيف، . بر ميزان و الگوهای فروش
اسلاید 14 :
کاربردهای علمی
اطلاعات جمع آوری شده در حوزه های مختلف: اطلاعات جغرافيائی، اطلاعات اقليمی، اطلاعات پزشکی
حجم بسيار بالا و خصايص متعدد
تنوع اطلاعات
نويز شديد در غالب اطلاعات جمع آوری شده توسط سنسورها
نياز مبرم به تکنيکهای داده کاوی، حداقل جهت ايجاد امکان تصور اطلاعات برای متخصصان
اسلاید 15 :
کاربردهای علمی (ادامه)
حوزه پزشکی:
تشخيص بيماريها براساس انواع اطلاعات (تصاوير پزشکی، مشخصات بيمار احتمالی)
تشخيص ناهنجاريهائی که توسط انسان به سختی قابل تشخيص خواهند بود (لکه ها و نقاط خاص داخل چشم که نشانه شروع کوری ناشی از ديابت می باشد)
حوزه اطلاعات جغرافيائی و اقليمی
کشف پديده های اقليمی جديد
تکنيکهای بصری سازی و بازنمائی اطلاعات
پردازش انواع اطلاعات (تصاوير، اطلاعات به دست آمده از سنجنده ها)
اسلاید 16 :
مثالی از کاربردهای داده کاوی: اطلاعات ژنتيک (1)
آرايه ای از نمونه های DNA
انجام تعدادی آزمايش بر روی يک تراشه
اسلاید 17 :
مثالی از کاربردهای داده کاوی: اطلاعات ژنتيک (2)
معيار شباهت ژن ها: رفتار مشابه در آزمايش ها
اسلاید 18 :
کاربردهای علمی (ادامه)
حوزه کاربردی فضا و سفرهای فضائی
حجم بسيار زيادی از اطلاعات
نويز بسيار بالا
ارزش بسيار زياد دانش قابل استخراج
پردازش اطلاعات جمع آوری شده از فضا
پردازش اطلاعات مربوط به سفينه های فضائی
ارائه دانش مفيد برای اتخاذ تصميم نهائی جهت پرتاب يا عدم پرتاب يک سفينه به فضا
اسلاید 19 :
کاربردهای امنيتی
سيستمهای تشخيص نفوذ
روشهای سنتی، نظير تشخيص حملات با استفاده از قوانين ارائه شده توسط متخصصان، علاوه بر نياز به اصلاح دائم، برای مقابله با انواع جديد حملات کافی نيستند.
حجم اطلاعات بسيار زياد و فضای حالت غيرقابل تصور
عدم امکان بررسی تمام گزارشهای فعاليت توسط متخصصان شبکه
نياز به شناسائی خودکار الگوهای جديد و مشکوک به تلاش برای نفوذ
لزوم همکاری با متخصصان شبکه، از طريق خلاصه سازی وضعيت موجود و درخواست نظر متخصص در موارد مشکوک
لزوم اجتناب از سيستمهای بسيار بدبين که موجب بی اعتنايی متخصصان به هشدارهای سيستم خواهد شد.
مقابله با تروريسم
در سالهای اخير، به خصوص پس از واقعه 11 سپتامبر، به صورت فزاينده ای مطرح شده است.
به دليل عدم امکان انتشار تمامی اطلاعات مفيد، پيشرفت کندتری (حداقل از نظر افراد عادی) دارد.
در حالت ايده آل، داده کاوی بايد بتواند با پردازش اطلاعات از انواع مختلف، نسبت به احتمال وقوع حملات تروريستی، با ذکر جزئيات کافی، هشدار دهد.
نتايج حاصل از آن می تواند در صورت عدم وجود دقت کافی، فاجعه آميز باشد.
اسلاید 20 :
کاربردهای داده کاوی: جمع بندی
حوزه های اصلی شامل کاربردهای علمی، تجاری و امنيتی می باشد.
در تمام حوزه ها با حجم بسيار زياد اطلاعات و خصايص متعدد مواجهيم.
در تمام حوزه ها با انواع اطلاعات مفيد روبرو هستيم.
کاهش شديد هزينه ها، افزايش درآمدها و نجات زندگی انسانها از دستاوردهای داده کاوی در هريک از حوزه های کاربردی آن است.
کاربردهای تجاری: تشخيص صحت ادعای خسارت در بيمه، تشخيص سوء استفاده از کارتهای اعتباری، تحليل اطلاعات مشتريان يک سازمان،.
کاربردهای علمی: حوزه های پزشکی، جغرافيائی و اقليمی، فضا و سفرهای فضائی
کاربردهای امنيتی: مبارزه با تروريسم، مقابله با نفوذگران به شبکه های کامپيوتری