بخشی از پاورپوینت


اسلاید 1 :


درخت های تصميم

درخت‌هاي تصميم‌ ابزار قدرتمند و درعين حال رايجي هم براي دسته بندی و هم برای پيش‌بيني هستند.
جذابيت روش‌هاي درخت مبنا بيش از هرچيز به اين واقعيت برمي‌گردد كه درخت‌هاي تصميم‌ نمايانگر قوانين مي‌باشند. به راحتي مي‌توان قوانین را به زبان فارسی و یا هر زبان دیگری در آورد تا براي همگان قابل فهم باشند. همچنین مي‌توان آنها را به زبان قابل دسترسی پایگاه داده ها مانند SQL درآورد و مثلا اطلاعات يك گروه خاص را استخراج نمود.
درخت تصميم‌ براي بررسي داده ها برای کسب بينش بهتر درباره روابط موجود بين تعداد زيادي از متغیرهای ورودي کاندیدا شده برای یک متغیر هدف نيز مفيد مي‌باشد. ازآنجايي كه درخت تصميم‌ بررسي داده و مدلسازي را باهم تركيب مي‌كند، گام اوليه قدرتمندي در فرآيند مدلسازي به شمار می روند حتی هنگامی که برای تهیه مدل نهايي از برخي تکنیکهای دیگر استفاده شود.


اسلاید 2 :


معمولاً بين صحت مدل و شفافيت مدل توازن وجود دارد. دربرخي كاربردها، صحت دسته بندی يا پيش‌بيني تنها مسئله مهم است، اگر مثلاً يك شركت پست مستقیم مدلي را دراختيار داشته باشد که با استفاده از آن بتوان به درستی پيش‌بيني کرد که کدامیک از مشتریان بالقوه احتمالاً به پیشنهاد عرضه شده پاسخ خواهند داد، آنگاه شايد براي اين شركت اهميتي نداشته باشد چرا و چگونه مدل پيش‌بيني‌كننده عمل مي‌كند.
درساير شرايط، توانايي بیان علت يك تصمیم حیاتی است. براي مثال، در غرامت‌هاي بیمه، برخي ممانعت‌هاي قانوني دربرابر تبعيضها براساس متغیرهای خاصی وجود دارد. شايد يك شركت بيمه در وضعيتي قرار بگيرد كه مجبور شود به دادگاه ثابت كند هيچگونه تبعيض غيرقانوني در دادن یا ندادن خسارت به افراد مرتكب نشده است. همچنين بیشتر اين پذیرفته شده است كه وام دهنده و وام گیرنده بدانند كه بر اساس سيستم رايانه‌اي با اعطاي وام موافقت نشده است (مثلاً درمواردي كه محاسبات رايانه‌اي نشان دهد درآمد ماهيانه متقاضي كمتر از سطح لازم است یا آنکه ظرفيت وام گيرندگان پرشده است) تا اينكه بفهمند تصميم‌گيري درباره عدم اعطاي وام توسط يك شبكه عصبي هوشمند بدون هيچگونه توضیحی در مورد عملکردش صورت گرفته است.

اسلاید 3 :

 

درخت تصميم‌ چيست ؟

درخت تصميم‌گيري ساختاري است كه براي تقسيم مجموعه‌اي بزرگ از داده های جمع‌آوري شده به مجموعه‌هاي كوچكتر زنجيره‌وار داده ها بواسطه يك سري قوانين ساده تصميم‌گيري به كار مي‌رود.
در هر تقسيم‌بندي متوالي، اعضاي مجموعه های حاصل بيش از پيش به همدیگر مشابه می شوند. تقسيم‌بندي موجودات زنده براساس قلمروها، سلسله مراتب پيدايش، دسته ها، نظام تولد، خانواده، جنسيت و گونه ها كه در دهه 1730 توسط گياه‌شناس سوئدي كارل لينوس ابداع شد نمونه خوبي دراين زمينه است.
در قلمروي حیوانات چنانچه موجود زنده‌اي داراي ستون فقرات باشد جزو دسته مهره داران قرار مي‌گيرد. از ديگر ويژگي‌هاي مهره داران براي تقسيم‌بندي آنها به پرندگان، پستانداران، خزندگان و غيره استفاده مي‌شود. اين دسته بندی آنقدر ادامه مي‌يابد تا در پايين‌ترين رده‌بندي، اعضای يك گونه هم ازنظر شکل شناسی و هم توانايي زاد و ولد و پرورش بچه های خود بهم شبيه باشند.

اسلاید 4 :


يك مدل درخت تصميم‌گيري از مجموعه ای از قوانين براي تقسيم جمعيت ناهمگن وسيعي به گروه‌هاي كوچكتر و همگن تر با توجه به يك متغیر هدف خاص تشکیل شده است. شايد تهیه درخت تصميم‌گيري مشابه مدل كارل لينوس كه به صورت دستي آماده شده طاقت فرسا باشد و شايد اين كار به طور خودكار با اعمال برخي الگوريتم‌هاي درخت تصميم‌گيري دريك مجموعه مدل حاوي داده‌هاي از قبل دسته بندی شده انجام شود.
معمولاً متغیر هدف، دسته ای است و از مدل درخت تصميم‌گيري استفاده می شود تا احتمال تخصیص داده های موجود به هر کدام از دسته ها محاسبه شود یا برای دسته بندی داده ها با تخصیص آن به محتمل ترین دسته به کاررود. همچنين مي‌توان از درخت‌هاي تصميم‌گيري براي برآورد مقدار متغیرهای پیوسته استفاده كرد هرچند كه تکنیک های مناسبتری نيز براي انجام اين كار وجود دارد.

اسلاید 5 :

 


دسته بندی

آنهايي كه با بازي بيست سؤالي آشناهستند خوب مي‌دانند چگونه يك درخت تصميم‌، داده‌ها را دسته بندی مي‌كند. دراين بازي یک بازيكن، مكان ، شخص، يا شيئی خاص را كه براي ديگر شركت‌كنندگان آشنا است درنظر مي‌گيرد ولي وي سرنخی به ديگران در این رابطه نمي‌دهد. بقيه بازیكنان سعي مي‌كنند با طرح يك سري سؤالات و گرفتن پاسخ بله يا خير آن را حدس بزنند. يك بازيكن خوب به ندرت نياز به پرسيدن همه بيست سوال مجاز در بازي دارد تا از اولين سؤال خود که "درجيب جا مي‌شود؟" به پاسخ اصلي "برج میلاد" برسد.
يك درخت تصميم‌ نیز یک سری و زنجيره از این سوالات را مطرح می کند. همچون بازي بيست سؤالي، پاسخ به اولين سؤال تعيين كننده سوال بعدي است. سؤالات اوليه به ایجاد گروههای بسیار گسترده ای با اعضای فراوان کمک می کند و سؤالات بعدی اين گروههای گسترده را به مجموعه‌هاي کوچکتر و كوچكتری محدود مي‌كند. اگر سؤالات به خوبی انتخاب شوند آنگاه با یک سری محدود از سئوالات می توان به دسته بندی صحیح داده های ورودی پرداخت.

اسلاید 6 :


بازي بيست سؤالي نشان دهنده فرآيند استفاده از یک درخت براي گنجاندن امتیاز یا دسته ای در داده ها است. يك سابقه اطلاعاتي در گره ريشه قرار مي‌گيرد. دراينجا براي تعيين اينكه بعداً اطلاعات درج شده به كدام ريشه نونهال پيوند مي‌خورد يك آزمايش صورت مي‌گيرد. الگوريتم‌هاي گوناگوني براي انتخاب آزمايش اوليه وجود دارد اما هدف همه آنها يكي است و آن چیزی نیست جز انتخاب آزمايشي كه بتواند بين دسته های هدف بهترين تمايز را قايل شود. اين فرآيند آنقدر تكرار مي‌شود تا يك سابقه اطلاعاتي به يك گره برگ برسد. تمام اطلاعاتی كه به یک برگ در درخت تبدیل مي‌شوند به طريقي مشابه دسته بندی مي‌شوند و يك مسيرمنحصر به فرد از ريشه به برگ وجود خواهد داشت. چنين مسيري نشانگر یک قانون به كاررفته در دسته بندی سوابق اطلاعاتي است.
شاید برگ‌هاي گوناگون دارای دسته بندی های مشابهي باشند هرچند كه هر برگ به علت متفاوتي دسته بندی را انجام می دهد. به عنوان مثال درختي كه ميوه جات و سبزيجات را براساس رنگ آن میوه یا سبزی دسته بندی می کند، برگ درخت تصمیم سیب و گوجه فرنگي و گيلاس می تواند رنگ قرمز را پیش بینی کند هر چند احتیاطهایی را هم باید در نظر داشت چراكه سيب‌هاي سبز، گوجه فرنگي‌هاي زرد و گيلاس‌هاي سياه رنگ هم وجود دارد.


اسلاید 7 :


درخت تصميم‌گيري موجود در شكل 1-6 فهرست گیرندگان احتمالی يك كاتالوگ خريد كالا را به صورت محتمل (1) و غیر محتمل (2) برای سفارش دادن پس از فرستادن کاتالوگ جدید دسته بندی می کند.
اين درخت براساس قواعد رايج در چرخه های داده كاوي تنظيم شده است بطوري كه ريشه‌ها در بالا و برگ‌ها در پايين واقع شده اند. درسمت راست فوقاني هر گره یک شماره قراردارد و دسته پيش بيني شده هركدام درمركز درج شده است. قوانين تصميم‌گيري براي تقسيم هر گره روي خطوطي كه هر گره را به نونهالان خود وصل مي‌كند چاپ شده است. تقسيم در گره ريشه‌اي که "سفارشات مادام العمر" نام دارد صورت گرفته است و شاخه سمت چپ به مشترياني اختصاص یافته که شش سفارش یا کمتر داشته اند و شاخه سمت راست به مشتریانی با 7 سفارش و بيشتر تعلق گرفته است.
هر داده ای كه به گره‌ها ي برگي 19 ، 14 ، 16 ، 17 يا 18 برسد با عنوان متحمل به پاسخگویی دسته بندی می شود چرا که دسته پيش‌بيني شده دراين مورد یک است. مسيرهاي منتهي به اين گره‌هاي برگي قوانين درخت را بیان می کنند. به عنوان مثال، قانون مربوط به برگ 19 از این قرار است: "اگر مشتري بيش از 5/6 سفارش داشته باشد و كمتر از 765 روز از آخرين سفارش وی بگذرد، احتمالا به کاتالوگ پاسخ خواهد داد."


اسلاید 8 :


شايد خوانندگان هوشيار متوجه شوند كه برخي تقسيم‌هاي درخت تصميم‌ در ظاهر تغییري نمی کنند. مثلاً گره‌هاي 17 و 18 براساس تعداد سفارشاتي كه شامل سفارشاتي از دسته خوراكي‌ها است متمايز شده اند. اما هر دو گره به عنوان پاسخ دهنده تعیین شده اند. علت این مسئله آن است كه گذشته از بالاتر بودن احتمال پاسخ در گره 18 نسبت به گره 17، احتمال پاسخ در هر دو مورد بيش از حدي است كه براي طبقه‌بندي يك سابقه اطلاعاتي به عنوان پاسخ دهنده تعيين شده است. اين مدل به عنوان یک دسته بندی کننده فقط دو خروجي صفر و يك دارد. اين دسته بندی دوگانه، اطلاعات سودمندي را نادیده می گیرد كه مبحث جديد ما درباره استفاده از درخت‌هاي تصميم‌ برای تهيه امتیازات و احتمالات است.  

اسلاید 9 :


امتيازدهي

شكل 2-6 تصويري از همان درخت تصميم‌گيري شكل 1-6 است كه از يك آرايه درختي ديگر با وضعيت اصلاح شده استفاده شده است به طوريكه اينك درخت با اطلاعات بيشتر يعني درصد اطلاعات در دسته یک در هر گره حاشيه نويسي شده است.
حال به وضوح مي‌توان ديد كه اين درخت يك پايگاه اطلاعاتي حاوي نيمي‌از پاسخ دهنده ها و نيمي‌از غیر پاسخ دهنده ها را نشان مي‌دهد چرا كه گره ريشه‌اي داراي نسبت 50 درصد است. اين وضعيت دريك مجموعه آموزشي براي يك مدل پاسخگویی با متغیر هدف دوگانه رايج است. در شكل 1-6 هر گره با بيش از 50 درصد پاسخ دهنده ها با عدد یک نشان داده شده است كه شامل گره‌هاي 17 و 18 نيز مي‌شود. شكل 2-6 تفاوت بين اين گره‌ها را روشن مي‌سازد. در گره 17 به ميزان 8/52 درصد سوابق اطلاعاتي نمايانگر واكنش است حال آنكه در گره 18 اين رقم به 9/66 درصد مي‌رسد. معلوم است كه يك سابقه اطلاعاتي در گره 18 بيشتر مي‌تواند نمايانگر يك پاسخ دهنده باشد تا يك سابقه داده در گره 17.
از نسبت اطلاعات در دسته دلخواه مي‌توان به عنوان يك امتياز استفاده کرد كه اغلب از دسته بندی صرف مفيدتر است. براي يك نتیجه دوگانه، دسته بندی فقط مي‌تواند داده ها را به دو گروه تقسيم كند ولی يك امتياز به داده ها امکان مي‌دهد تا اطلاعات را از محتمل ترین تا کم احتمال ترین افراد برای عضویت در دسته دلخواه مرتب کرد.


اسلاید 10 :


دربسياري از كاربردها به دست آوردن يك امتياز كه قادر به رتبه بندي يك فهرست باشد كافي خواهد بود. اين دستاورد نيز براي انتخاب بالاترين درصد N براي ارسال کاتالوگ پستي و براي محاسبه صعود در ابعاد گوناگون فهرست كفايت خواهد كرد.
اما در برخي كاربردها، علم به اينكه احتمال پاسخگویی A از B بيشتر است كافي نخواهد بود. ما می خواهیم درباره احتمال پاسخ گویی توسط A بیشتر بدانیم. با فرض اينكه احتمالت قبلي يك پاسخ را بدانيم آنگاه با آن مي‌توانيم احتمال واکنش ناشي از امتياز به دست آمده از داده‌هایی را که براي تهیه درخت تصميم‌گيري نمونه گیری شده اند محاسبه کنیم. يا اينكه مي‌توانيم مدل را برای داده‌هاي از پيش دسته بندی شده‌اي كه داراي توزيع پاسخ ها و منعكس‌كننده آمار واقعي جمعيت است بكار ببریم.
اين روش با استفاده از نسبتهای دسته ها، در برگ‌هاي درخت امتیازاتی را ايجاد مي‌كند كه این احتمال را نشان می دهد که اطلاعات استخراج شده از يك جمعیت مشابه، عضو دسته مزبور باشد.

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید