بخشی از پاورپوینت

اسلاید 1 :

کلاسه بندی

■ فرايندی دو مرحله ای است :

■ساخت مدل :

■تحليل يک مجموعه آموزشی که مجموعه‌ای از تاپل‌های پايگاه است و مشخص کردن برچسب کلاس‌های مربوط به اين تاپل‌ها .

■ يک تاپل X با يک بردار صفت X=(x1,x2,…,xn) نمايش داده می‌شود . فرض می شود که هر تاپل به يک کلاس از پيش تعريف شده متعلق است .

■هرکلاس با يک صفت که به آن صفت برچسب کلاس می‌گوييم مشخص می‌شود .

■ مجموعه آموزشی به صورت تصادفی از پايگاه انتخاب می شود .

■به اين مرحله ، مرحله يادگيری نيز می گويند .

■استفاده از مدل :

■از طريق يک تابع y=f(X) برچسب  کلاس هر تاپل X از پايگاه را پيش بينی می شود .

■اين تابع به صورت قواعد کلاسه‌بندی ، درخت‌های تصميم گيری يا فرمول‌های رياضی است .

اسلاید 2 :

درخت های تصميم گيری

■يکی از روش های کارآمد و با کاربرد گسترده کلاسه بندی است .

■مدل حاصل از اين روش به صورت درختهای تصميم گيری است :

■هر گره در اين درخت نشان دهنده يک آزمون بر روی يک صفت است .

■هر شاخه خارج شونده از يک گره نشان دهنده خروجی های ممکن آزمون است .

■هر برگ نشان دهنده يک برچسب کلاس است .

■نحوه استفاده از درخت تصميم گيری :

■اگر تاپلی چون X که برچسب کلاس آن نامشخص است داشته باشيم صفات اين تاپل در درخت مورد آزمون قرار می گيرند و يک مسير از ريشه به سمت يک برگ که برچسب يک کلاس را دارد ايجاد می شود .

اسلاید 3 :

الگوريتم برای درخت های تصميم گيری

■الگوريتم پايه

■درخت به صورت بالا-پايين بازگشتی ساخته می شود .

■در آغاز تمام مجموعه آموزشی در ريشه قرار دارند .

■فرض می کنيم صفات مقادير گسسته دارند .

■صفات به صورت بازگشتی بر حسب صفات انتخاب شده بخش بندی می شوند .

■صفات آزمون بر اساس يک روال هيوريستيک مانند بهره اطلاعاتی ، شاخص جينی يا نسبت بهره انتخاب می شوند .

■شرايط توقف الگوريتم

■تمام نمونه های مربوط به يک نود متعلق به يک کلاس باشند .

■صفتی برای بخش بندی بيشتر باقی نمانده باشد .

■نمونه ای باقی نمانده باشد .

اسلاید 4 :

چالش ها

■روش های ساختن درختان تصميم گيری فرض می کنند که تمام مجموعه آموزشی به طور همزمان می تواند در ديسک ذخيره شود .

■روش های مذکور بصورت پياپی مجموعه آموزشی را از ديسک می خوانند .

■هدف : طراحی درخت های تصميم گيری که هر نمونه آموزشی را فقط يکبار بخواند زمان کوتاه ثابتی را برای پردازش آن صرف کند .

اسلاید 5 :

نکات کليدی

■برای يافتن بهترين صفت در هر گره ، در نظر گرفتن يک زيرمجموعه کوچک از نمونه های آموزشی که از آن گره عبور می کنند کافی است .

■با در دست داشتن جريانی از نمونه ها ، اولين نمونه ها برای انتخاب صفت ريشه استفاده می شوند .

■با تعيين شدن صفت ريشه ، نمونه های بعدی به سمت پايين و برگهای مربوطه عبور داده می شوند تا برای انتخاب صفت در آنجا استفاده شوند .

■اين عمل به صورت بازگشتی تکرار می شود .

■چه تعداد نمونه در هر گره لازم است ؟

■از يک نتيجه آماری به نام Hoeffding bound  استفاده می کنيم .

اسلاید 6 :

Hoeffding Bound

■يک متغيير تصادفی با نام r که دارای مقادير حقيقی و برد R است را در نظر بگيريد .

■فرض کنيد که n مشاهده مستقل از اين متغير انجام می‌دهيم .

■ميانگين اين مشاهدات :

■Hoeffding Bound نشان می‌دهد که ميانگين واقعی متغير r  بعد از اين n مشاهده با احتمال 1-δ حداقل برابر –ε       است که در آن : 

اسلاید 7 :

چه تعداد نمونه کافی است ؟

■فرض کنيد G(Xi)  روال ابتکاری برای انتخاب صفات آزمون باشد مانند بهره اطلاعاتی و شاخص جينی .

■فرض کنيد که Xa  صفت دارای بالاترين مقدار ارزيابی بعد از n نمونه باشد .

■فرض کنيد که Xb صفت دارای دومين بالاترين مقدار ارزيابی بعد از n نمونه باشد .

■آنگاه با يک δ مناسب اگر  بعد از مشاهده n نمونه :                                            آنگاه :

■گره می تواند بر حسب Xa شکافته شود و نمونه های بعدی به سمت برگهای جديد عبور داده می شوند .

اسلاید 8 :

درختان تصميم گيری بسيار سريع VFDT

■برابری‌‌ها :

■وقتی که دو يا بيشتر صفت در G بسيار شبيه هستند نمونه‌های زيادی برای تصميم‌گيری بين آنها ، با اطمينان بالا نياز است .

■در اين مورد ، اينکه چه صفتی انتخاب می شود اختلاف اندکی را بوجود می‌آورد .VFDT  بصورت انتخابی تصميم می‌گيرد که يک برابری وجود دارد و شکاف را روی يکی از بهترين صفت‌های جاری انجام می‌دهد .

■محاسبه G  :

■بخش قابل توجهی از زمان به ازای هر نمونه برای محاسبه G صرف می شود .

■محاسبه دوباره G برای هر نمونه جديد ناکارا است ، چون احتمال تصميم برای شکاف در آن نقطه مشخص غير محتمل است .

■ بنابراين VFDT به کاربر اجازه می‌دهد تا يک حداقل تعداد برای نمونه های جديد يا nmin  را مشخص کند که بايد در هر برگ انباشته شود قبل از اينکه G دوباره محاسبه شود .

اسلاید 9 :

درختان تصميم گيری بسيار سريع VFDT

■ حافظه :

■بسياری از برنامه های کاربردی RAM محدودی برای يادگيری مدلهای پيچيده دارند .

■حافظه مورد استفاده VFDT همان حافظه مورد نياز برای نگهداری شمارنده‌ها در برگهای در حال رشد است .

■اگر به حداکثر حافظه برسيم VFDT برگهايی را که احتمال شکاف در آنها کم است غيرفعال می کند تا حافظه برای برگهای جديد فراهم شود .   

■هنگامی که احتمال شکاف يک برگ غيرفعال از برگهای موجود  بيشتر شود آن برگ دوباره می‌تواند فعال شود .  

 

 

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید