بخشی از پاورپوینت
اسلاید 1 :
درخت های تصميم
درختهاي تصميم ابزار قدرتمند و درعين حال رايجي هم براي دسته بندی و هم برای پيشبيني هستند.
جذابيت روشهاي درخت مبنا بيش از هرچيز به اين واقعيت برميگردد كه درختهاي تصميم نمايانگر قوانين ميباشند. به راحتي ميتوان قوانین را به زبان فارسی و یا هر زبان دیگری در آورد تا براي همگان قابل فهم باشند. همچنین ميتوان آنها را به زبان قابل دسترسی پایگاه داده ها مانند SQL درآورد و مثلا اطلاعات يك گروه خاص را استخراج نمود.
درخت تصميم براي بررسي داده ها برای کسب بينش بهتر درباره روابط موجود بين تعداد زيادي از متغیرهای ورودي کاندیدا شده برای یک متغیر هدف نيز مفيد ميباشد. ازآنجايي كه درخت تصميم بررسي داده و مدلسازي را باهم تركيب ميكند، گام اوليه قدرتمندي در فرآيند مدلسازي به شمار می روند حتی هنگامی که برای تهیه مدل نهايي از برخي تکنیکهای دیگر استفاده شود.
اسلاید 2 :
معمولاً بين صحت مدل و شفافيت مدل توازن وجود دارد. دربرخي كاربردها، صحت دسته بندی يا پيشبيني تنها مسئله مهم است، اگر مثلاً يك شركت پست مستقیم مدلي را دراختيار داشته باشد که با استفاده از آن بتوان به درستی پيشبيني کرد که کدامیک از مشتریان بالقوه احتمالاً به پیشنهاد عرضه شده پاسخ خواهند داد، آنگاه شايد براي اين شركت اهميتي نداشته باشد چرا و چگونه مدل پيشبينيكننده عمل ميكند.
درساير شرايط، توانايي بیان علت يك تصمیم حیاتی است. براي مثال، در غرامتهاي بیمه، برخي ممانعتهاي قانوني دربرابر تبعيضها براساس متغیرهای خاصی وجود دارد. شايد يك شركت بيمه در وضعيتي قرار بگيرد كه مجبور شود به دادگاه ثابت كند هيچگونه تبعيض غيرقانوني در دادن یا ندادن خسارت به افراد مرتكب نشده است. همچنين بیشتر اين پذیرفته شده است كه وام دهنده و وام گیرنده بدانند كه بر اساس سيستم رايانهاي با اعطاي وام موافقت نشده است (مثلاً درمواردي كه محاسبات رايانهاي نشان دهد درآمد ماهيانه متقاضي كمتر از سطح لازم است یا آنکه ظرفيت وام گيرندگان پرشده است) تا اينكه بفهمند تصميمگيري درباره عدم اعطاي وام توسط يك شبكه عصبي هوشمند بدون هيچگونه توضیحی در مورد عملکردش صورت گرفته است.
اسلاید 3 :
درخت تصميم چيست ؟
درخت تصميمگيري ساختاري است كه براي تقسيم مجموعهاي بزرگ از داده های جمعآوري شده به مجموعههاي كوچكتر زنجيرهوار داده ها بواسطه يك سري قوانين ساده تصميمگيري به كار ميرود.
در هر تقسيمبندي متوالي، اعضاي مجموعه های حاصل بيش از پيش به همدیگر مشابه می شوند. تقسيمبندي موجودات زنده براساس قلمروها، سلسله مراتب پيدايش، دسته ها، نظام تولد، خانواده، جنسيت و گونه ها كه در دهه 1730 توسط گياهشناس سوئدي كارل لينوس ابداع شد نمونه خوبي دراين زمينه است.
در قلمروي حیوانات چنانچه موجود زندهاي داراي ستون فقرات باشد جزو دسته مهره داران قرار ميگيرد. از ديگر ويژگيهاي مهره داران براي تقسيمبندي آنها به پرندگان، پستانداران، خزندگان و غيره استفاده ميشود. اين دسته بندی آنقدر ادامه مييابد تا در پايينترين ردهبندي، اعضای يك گونه هم ازنظر شکل شناسی و هم توانايي زاد و ولد و پرورش بچه های خود بهم شبيه باشند.
اسلاید 4 :
يك مدل درخت تصميمگيري از مجموعه ای از قوانين براي تقسيم جمعيت ناهمگن وسيعي به گروههاي كوچكتر و همگن تر با توجه به يك متغیر هدف خاص تشکیل شده است. شايد تهیه درخت تصميمگيري مشابه مدل كارل لينوس كه به صورت دستي آماده شده طاقت فرسا باشد و شايد اين كار به طور خودكار با اعمال برخي الگوريتمهاي درخت تصميمگيري دريك مجموعه مدل حاوي دادههاي از قبل دسته بندی شده انجام شود.
معمولاً متغیر هدف، دسته ای است و از مدل درخت تصميمگيري استفاده می شود تا احتمال تخصیص داده های موجود به هر کدام از دسته ها محاسبه شود یا برای دسته بندی داده ها با تخصیص آن به محتمل ترین دسته به کاررود. همچنين ميتوان از درختهاي تصميمگيري براي برآورد مقدار متغیرهای پیوسته استفاده كرد هرچند كه تکنیک های مناسبتری نيز براي انجام اين كار وجود دارد.
اسلاید 5 :
دسته بندی
آنهايي كه با بازي بيست سؤالي آشناهستند خوب ميدانند چگونه يك درخت تصميم، دادهها را دسته بندی ميكند. دراين بازي یک بازيكن، مكان ، شخص، يا شيئی خاص را كه براي ديگر شركتكنندگان آشنا است درنظر ميگيرد ولي وي سرنخی به ديگران در این رابطه نميدهد. بقيه بازیكنان سعي ميكنند با طرح يك سري سؤالات و گرفتن پاسخ بله يا خير آن را حدس بزنند. يك بازيكن خوب به ندرت نياز به پرسيدن همه بيست سوال مجاز در بازي دارد تا از اولين سؤال خود که "درجيب جا ميشود؟" به پاسخ اصلي "برج میلاد" برسد.
يك درخت تصميم نیز یک سری و زنجيره از این سوالات را مطرح می کند. همچون بازي بيست سؤالي، پاسخ به اولين سؤال تعيين كننده سوال بعدي است. سؤالات اوليه به ایجاد گروههای بسیار گسترده ای با اعضای فراوان کمک می کند و سؤالات بعدی اين گروههای گسترده را به مجموعههاي کوچکتر و كوچكتری محدود ميكند. اگر سؤالات به خوبی انتخاب شوند آنگاه با یک سری محدود از سئوالات می توان به دسته بندی صحیح داده های ورودی پرداخت.
اسلاید 6 :
بازي بيست سؤالي نشان دهنده فرآيند استفاده از یک درخت براي گنجاندن امتیاز یا دسته ای در داده ها است. يك سابقه اطلاعاتي در گره ريشه قرار ميگيرد. دراينجا براي تعيين اينكه بعداً اطلاعات درج شده به كدام ريشه نونهال پيوند ميخورد يك آزمايش صورت ميگيرد. الگوريتمهاي گوناگوني براي انتخاب آزمايش اوليه وجود دارد اما هدف همه آنها يكي است و آن چیزی نیست جز انتخاب آزمايشي كه بتواند بين دسته های هدف بهترين تمايز را قايل شود. اين فرآيند آنقدر تكرار ميشود تا يك سابقه اطلاعاتي به يك گره برگ برسد. تمام اطلاعاتی كه به یک برگ در درخت تبدیل ميشوند به طريقي مشابه دسته بندی ميشوند و يك مسيرمنحصر به فرد از ريشه به برگ وجود خواهد داشت. چنين مسيري نشانگر یک قانون به كاررفته در دسته بندی سوابق اطلاعاتي است.
شاید برگهاي گوناگون دارای دسته بندی های مشابهي باشند هرچند كه هر برگ به علت متفاوتي دسته بندی را انجام می دهد. به عنوان مثال درختي كه ميوه جات و سبزيجات را براساس رنگ آن میوه یا سبزی دسته بندی می کند، برگ درخت تصمیم سیب و گوجه فرنگي و گيلاس می تواند رنگ قرمز را پیش بینی کند هر چند احتیاطهایی را هم باید در نظر داشت چراكه سيبهاي سبز، گوجه فرنگيهاي زرد و گيلاسهاي سياه رنگ هم وجود دارد.
اسلاید 7 :
درخت تصميمگيري موجود در شكل 1-6 فهرست گیرندگان احتمالی يك كاتالوگ خريد كالا را به صورت محتمل (1) و غیر محتمل (2) برای سفارش دادن پس از فرستادن کاتالوگ جدید دسته بندی می کند.
اين درخت براساس قواعد رايج در چرخه های داده كاوي تنظيم شده است بطوري كه ريشهها در بالا و برگها در پايين واقع شده اند. درسمت راست فوقاني هر گره یک شماره قراردارد و دسته پيش بيني شده هركدام درمركز درج شده است. قوانين تصميمگيري براي تقسيم هر گره روي خطوطي كه هر گره را به نونهالان خود وصل ميكند چاپ شده است. تقسيم در گره ريشهاي که "سفارشات مادام العمر" نام دارد صورت گرفته است و شاخه سمت چپ به مشترياني اختصاص یافته که شش سفارش یا کمتر داشته اند و شاخه سمت راست به مشتریانی با 7 سفارش و بيشتر تعلق گرفته است.
هر داده ای كه به گرهها ي برگي 19 ، 14 ، 16 ، 17 يا 18 برسد با عنوان متحمل به پاسخگویی دسته بندی می شود چرا که دسته پيشبيني شده دراين مورد یک است. مسيرهاي منتهي به اين گرههاي برگي قوانين درخت را بیان می کنند. به عنوان مثال، قانون مربوط به برگ 19 از این قرار است: "اگر مشتري بيش از 5/6 سفارش داشته باشد و كمتر از 765 روز از آخرين سفارش وی بگذرد، احتمالا به کاتالوگ پاسخ خواهد داد."
اسلاید 8 :
شايد خوانندگان هوشيار متوجه شوند كه برخي تقسيمهاي درخت تصميم در ظاهر تغییري نمی کنند. مثلاً گرههاي 17 و 18 براساس تعداد سفارشاتي كه شامل سفارشاتي از دسته خوراكيها است متمايز شده اند. اما هر دو گره به عنوان پاسخ دهنده تعیین شده اند. علت این مسئله آن است كه گذشته از بالاتر بودن احتمال پاسخ در گره 18 نسبت به گره 17، احتمال پاسخ در هر دو مورد بيش از حدي است كه براي طبقهبندي يك سابقه اطلاعاتي به عنوان پاسخ دهنده تعيين شده است. اين مدل به عنوان یک دسته بندی کننده فقط دو خروجي صفر و يك دارد. اين دسته بندی دوگانه، اطلاعات سودمندي را نادیده می گیرد كه مبحث جديد ما درباره استفاده از درختهاي تصميم برای تهيه امتیازات و احتمالات است.
اسلاید 9 :
امتيازدهي
شكل 2-6 تصويري از همان درخت تصميمگيري شكل 1-6 است كه از يك آرايه درختي ديگر با وضعيت اصلاح شده استفاده شده است به طوريكه اينك درخت با اطلاعات بيشتر يعني درصد اطلاعات در دسته یک در هر گره حاشيه نويسي شده است.
حال به وضوح ميتوان ديد كه اين درخت يك پايگاه اطلاعاتي حاوي نيمياز پاسخ دهنده ها و نيمياز غیر پاسخ دهنده ها را نشان ميدهد چرا كه گره ريشهاي داراي نسبت 50 درصد است. اين وضعيت دريك مجموعه آموزشي براي يك مدل پاسخگویی با متغیر هدف دوگانه رايج است. در شكل 1-6 هر گره با بيش از 50 درصد پاسخ دهنده ها با عدد یک نشان داده شده است كه شامل گرههاي 17 و 18 نيز ميشود. شكل 2-6 تفاوت بين اين گرهها را روشن ميسازد. در گره 17 به ميزان 8/52 درصد سوابق اطلاعاتي نمايانگر واكنش است حال آنكه در گره 18 اين رقم به 9/66 درصد ميرسد. معلوم است كه يك سابقه اطلاعاتي در گره 18 بيشتر ميتواند نمايانگر يك پاسخ دهنده باشد تا يك سابقه داده در گره 17.
از نسبت اطلاعات در دسته دلخواه ميتوان به عنوان يك امتياز استفاده کرد كه اغلب از دسته بندی صرف مفيدتر است. براي يك نتیجه دوگانه، دسته بندی فقط ميتواند داده ها را به دو گروه تقسيم كند ولی يك امتياز به داده ها امکان ميدهد تا اطلاعات را از محتمل ترین تا کم احتمال ترین افراد برای عضویت در دسته دلخواه مرتب کرد.
اسلاید 10 :
دربسياري از كاربردها به دست آوردن يك امتياز كه قادر به رتبه بندي يك فهرست باشد كافي خواهد بود. اين دستاورد نيز براي انتخاب بالاترين درصد N براي ارسال کاتالوگ پستي و براي محاسبه صعود در ابعاد گوناگون فهرست كفايت خواهد كرد.
اما در برخي كاربردها، علم به اينكه احتمال پاسخگویی A از B بيشتر است كافي نخواهد بود. ما می خواهیم درباره احتمال پاسخ گویی توسط A بیشتر بدانیم. با فرض اينكه احتمالت قبلي يك پاسخ را بدانيم آنگاه با آن ميتوانيم احتمال واکنش ناشي از امتياز به دست آمده از دادههایی را که براي تهیه درخت تصميمگيري نمونه گیری شده اند محاسبه کنیم. يا اينكه ميتوانيم مدل را برای دادههاي از پيش دسته بندی شدهاي كه داراي توزيع پاسخ ها و منعكسكننده آمار واقعي جمعيت است بكار ببریم.
اين روش با استفاده از نسبتهای دسته ها، در برگهاي درخت امتیازاتی را ايجاد ميكند كه این احتمال را نشان می دهد که اطلاعات استخراج شده از يك جمعیت مشابه، عضو دسته مزبور باشد.