دانلود پاورپوینت داده‌کاوی جریان‌داده‌ها با درخت‌های تصمیم‌گیری

PowerPoint قابل ویرایش
18 صفحه
11900 تومان
119,000 ریال – خرید و دانلود

لطفا به نکات زیر در هنگام خرید دانلود پاورپوینت داده‌کاوی جریان‌داده‌ها با درخت‌های تصمیم‌گیری توجه فرمایید.

1-در این مطلب، متن اسلاید های اولیه دانلود پاورپوینت داده‌کاوی جریان‌داده‌ها با درخت‌های تصمیم‌گیری قرار داده شده است

2-در صورت مشاهده بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل اسلاید ها میباشد ودر فایل اصلی این پاورپوینت،به هیچ وجه بهم ریختگی وجود ندارد

اسلاید ۱ :

کلاسه بندی

■ فرایندی دو مرحله ای است :

■ساخت مدل :

■تحلیل یک مجموعه آموزشی که مجموعه‌ای از تاپل‌های پایگاه است و مشخص کردن برچسب کلاس‌های مربوط به این تاپل‌ها .

■ یک تاپل X با یک بردار صفت X=(x1,x2,…,xn) نمایش داده می‌شود . فرض می شود که هر تاپل به یک کلاس از پیش تعریف شده متعلق است .

■هرکلاس با یک صفت که به آن صفت برچسب کلاس می‌گوییم مشخص می‌شود .

■ مجموعه آموزشی به صورت تصادفی از پایگاه انتخاب می شود .

■به این مرحله ، مرحله یادگیری نیز می گویند .

■استفاده از مدل :

■از طریق یک تابع y=f(X) برچسب  کلاس هر تاپل X از پایگاه را پیش بینی می شود .

■این تابع به صورت قواعد کلاسه‌بندی ، درخت‌های تصمیم گیری یا فرمول‌های ریاضی است .

اسلاید ۲ :

درخت های تصمیم گیری

■یکی از روش های کارآمد و با کاربرد گسترده کلاسه بندی است .

■مدل حاصل از این روش به صورت درختهای تصمیم گیری است :

■هر گره در این درخت نشان دهنده یک آزمون بر روی یک صفت است .

■هر شاخه خارج شونده از یک گره نشان دهنده خروجی های ممکن آزمون است .

■هر برگ نشان دهنده یک برچسب کلاس است .

■نحوه استفاده از درخت تصمیم گیری :

■اگر تاپلی چون X که برچسب کلاس آن نامشخص است داشته باشیم صفات این تاپل در درخت مورد آزمون قرار می گیرند و یک مسیر از ریشه به سمت یک برگ که برچسب یک کلاس را دارد ایجاد می شود .

اسلاید ۳ :

الگوریتم برای درخت های تصمیم گیری

■الگوریتم پایه

■درخت به صورت بالا-پایین بازگشتی ساخته می شود .

■در آغاز تمام مجموعه آموزشی در ریشه قرار دارند .

■فرض می کنیم صفات مقادیر گسسته دارند .

■صفات به صورت بازگشتی بر حسب صفات انتخاب شده بخش بندی می شوند .

■صفات آزمون بر اساس یک روال هیوریستیک مانند بهره اطلاعاتی ، شاخص جینی یا نسبت بهره انتخاب می شوند .

■شرایط توقف الگوریتم

■تمام نمونه های مربوط به یک نود متعلق به یک کلاس باشند .

■صفتی برای بخش بندی بیشتر باقی نمانده باشد .

■نمونه ای باقی نمانده باشد .

اسلاید ۴ :

چالش ها

■روش های ساختن درختان تصمیم گیری فرض می کنند که تمام مجموعه آموزشی به طور همزمان می تواند در دیسک ذخیره شود .

■روش های مذکور بصورت پیاپی مجموعه آموزشی را از دیسک می خوانند .

■هدف : طراحی درخت های تصمیم گیری که هر نمونه آموزشی را فقط یکبار بخواند زمان کوتاه ثابتی را برای پردازش آن صرف کند .

اسلاید ۵ :

نکات کلیدی

■برای یافتن بهترین صفت در هر گره ، در نظر گرفتن یک زیرمجموعه کوچک از نمونه های آموزشی که از آن گره عبور می کنند کافی است .

■با در دست داشتن جریانی از نمونه ها ، اولین نمونه ها برای انتخاب صفت ریشه استفاده می شوند .

■با تعیین شدن صفت ریشه ، نمونه های بعدی به سمت پایین و برگهای مربوطه عبور داده می شوند تا برای انتخاب صفت در آنجا استفاده شوند .

■این عمل به صورت بازگشتی تکرار می شود .

■چه تعداد نمونه در هر گره لازم است ؟

■از یک نتیجه آماری به نام Hoeffding bound  استفاده می کنیم .

اسلاید ۶ :

Hoeffding Bound

■یک متغییر تصادفی با نام r که دارای مقادیر حقیقی و برد R است را در نظر بگیرید .

■فرض کنید که n مشاهده مستقل از این متغیر انجام می‌دهیم .

■میانگین این مشاهدات :

■Hoeffding Bound نشان می‌دهد که میانگین واقعی متغیر r  بعد از این n مشاهده با احتمال ۱-δ حداقل برابر –ε       است که در آن : 

اسلاید ۷ :

چه تعداد نمونه کافی است ؟

■فرض کنید G(Xi)  روال ابتکاری برای انتخاب صفات آزمون باشد مانند بهره اطلاعاتی و شاخص جینی .

■فرض کنید که Xa  صفت دارای بالاترین مقدار ارزیابی بعد از n نمونه باشد .

■فرض کنید که Xb صفت دارای دومین بالاترین مقدار ارزیابی بعد از n نمونه باشد .

■آنگاه با یک δ مناسب اگر  بعد از مشاهده n نمونه :                                            آنگاه :

■گره می تواند بر حسب Xa شکافته شود و نمونه های بعدی به سمت برگهای جدید عبور داده می شوند .

اسلاید ۸ :

درختان تصمیم گیری بسیار سریع VFDT

■برابری‌‌ها :

■وقتی که دو یا بیشتر صفت در G بسیار شبیه هستند نمونه‌های زیادی برای تصمیم‌گیری بین آنها ، با اطمینان بالا نیاز است .

■در این مورد ، اینکه چه صفتی انتخاب می شود اختلاف اندکی را بوجود می‌آورد .VFDT  بصورت انتخابی تصمیم می‌گیرد که یک برابری وجود دارد و شکاف را روی یکی از بهترین صفت‌های جاری انجام می‌دهد .

■محاسبه G  :

■بخش قابل توجهی از زمان به ازای هر نمونه برای محاسبه G صرف می شود .

■محاسبه دوباره G برای هر نمونه جدید ناکارا است ، چون احتمال تصمیم برای شکاف در آن نقطه مشخص غیر محتمل است .

■ بنابراین VFDT به کاربر اجازه می‌دهد تا یک حداقل تعداد برای نمونه های جدید یا nmin  را مشخص کند که باید در هر برگ انباشته شود قبل از اینکه G دوباره محاسبه شود .

اسلاید ۹ :

درختان تصمیم گیری بسیار سریع VFDT

■ حافظه :

■بسیاری از برنامه های کاربردی RAM محدودی برای یادگیری مدلهای پیچیده دارند .

■حافظه مورد استفاده VFDT همان حافظه مورد نیاز برای نگهداری شمارنده‌ها در برگهای در حال رشد است .

■اگر به حداکثر حافظه برسیم VFDT برگهایی را که احتمال شکاف در آنها کم است غیرفعال می کند تا حافظه برای برگهای جدید فراهم شود .   

■هنگامی که احتمال شکاف یک برگ غیرفعال از برگهای موجود  بیشتر شود آن برگ دوباره می‌تواند فعال شود .  

 

 

مطالب فوق فقط متون اسلاید های ابتدایی پاورپوینت بوده اند . جهت دریافت کل ان ، لطفا خریداری نمایید .
PowerPoint قابل ویرایش - قیمت 11900 تومان در 18 صفحه
119,000 ریال – خرید و دانلود
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد