بخشی از مقاله
خلاصه
در مدل سازی پدیده ها، وجود شرایط محلی ممکن است باعث شود تا استفاده از یک رابطه کلی نتایج خوبی را به همراه نداشته باشد و تغییرات محلی به خوبی دیده نشوند . در صورت امکان، شناسایی محدوده های همگن و ارایه روابط ساده خطی برای هر یک از این محدوده ها می تواند باعث افزایش دقت مدل شود. بر این اساسمعمولاً برای حل مسایل پیچیده، آن را به چند مسأله کوچک تر و ساده تر تقسیم نموده و سپس جوابهای به دست آمده را با هم ترکیب می کنند.
همین ایده ساده در مدل های درخت تصمیم مورد استفاده قرار می گیرد. به این منظور، فضا یا محدوده مقادیر داده های ورودی به چند زیربازه یا ناحیه تقسیم شده و برای هر ناحیه یک معادله یا مدل مناسب استخراج می شود. در این تحقیق به عنوان یک راه حل جدید، روش درخت تصمیم M5 برای محاسبه دقیق دبی جریان در مقاطع مرکب پیشنهاد شده است. مدل M5 در مقایسه با روش های دیگر، دقت محاسبه های دبی جریان در مقاطع مرکب آزمایشگاهی را تا حد زیادی بهبود داده است. بطوریکه در اینحالت ریشه دوم میانگین مجموع مربعات خطا به 20 درصد، ضریب تعیین 0/981 رسید.
-1 مقدمه
-1-1 آشنایی با درخت تصمیم
درخت های تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدارمی شوند. درخت های تصمیم به کمک جداسازی متوالی داده ها به یک سری گروه مجزا تشکیل شده و سعی می شود در فرآیند جداسازی، فاصله بین گروه ها افزایش یابد. ساختار یک مدل درختی شامل ریشه، گره های داخلی و برگ می باشد. از مدل های درخت تصمیم در حل بسیاری از مسایل طبقه بندی و رگرسیون استفاده شده است.
-2-1 مزایا و معایب درخت تصمیم
در میان ابزارهای پشتیبانی تصمیم، درخت تصمیم و دیاگرام تصمیم دارای مزایایی هستند که سبب برتری و کاربرد وسیع آن شده است. مزایای این روش عبارتند از:
-1 فهم ساده: هر انسان با اندکی مطالعه و آموزش میتواند، طریقه کار با درخت تصمیم را بیاموزد.
-2 کارکردن با دادههای بزرگ و پیچیده: درخت تصمیم در عین سادگی میتواند با دادههای پیچیده به راحتی کار کند و از روی آنها تصمیم بسازد.
-3 استفاده مجدد آسان: در صورتی که درخت تصمیم برای یک مسئله ساخته شد، نمونههای مختلف از آن مسئله را میتوان با آن درخت تصمیم محاسبه کرد.
-4 قابلیت ترکیب با روشهای دیگر: نتیجه درخت تصمیم را میتوان با تکنیکهای تصمیم سازی دیگر ترکیب کرده و نتایج بهتری بدست آورد.
-5 درخت تصمیم گیری به ما این توانایی را می دهد که پیش بینی های خود را در قالب یکسری قوانین ارائه دهیم.
-6 درخت تصمیم گیری نیاز به محاسبات خیلی پیچیده ای برای دسته بندی داده ها ندارد.
-7 درخت تصمیم گیری برای انواع مختلف داده ها از قبیل پیوسته و رده ای قابل استفاده می باشد.
-8 درخت تصمیم گیری به ما نشان می دهد که کدام فیلد یا متغیرها تاثیرات مهمی در پیش بینی و دسته بندی ما دارند.
-9 درخت تصمیم پیش بینی خود را در قالب یکسری قوانین توضیح می دهد در حالیکه در شبکه های عصبی تنها پیش بینی بیان می شود و چگونگی آن در خود شبکه پنهان باقی می ماند. همچنین در درخت تصمیم گیری بر خلاف شبکه های عصبی لزومی ندارد که داده ها لزوماً بصورت عددی باشند. مشکل استفاده از درخت های تصمیم آن است که به صورت نمایی با بزرگ شدن مسئله بزرگ می شوند. به طور کلی معایب درخت تصمیم به شرح زیر می باشد :
-1 بعضی از روشهای درخت تصمیم گیری تنها می تواند در مورد متغیرهای هدف دوتایی - بله یا خیر - پذیرش یا عدم پذیرش - دسته بندی و پیش بینی انجام دهند و در بعضی از آنها هنگامی که تعداد مثالهای هر کلاس کم باشد نرخ خطا بالا می رود.
-2 این الگوریتم به حافظه زیادی نیاز دارد. در هر گره برای مقایسه فیلدها و محاسبه بهترین فیلد نیاز به بخاطر سپردن وضعیت هر فیلد می باشد که این حافظه زیادی نیاز دارد. همچنین در قسمت برش شاخه ها نیز برای انتخاب بهترین زیر درختی که می توان برش داد وضعیت هر زیر شاخه را بایستی بخاطر سپرد. اکثر الگوریتم های درخت تصمیم گیری در هر گره تنها یک فیلد را برای شاخه زدن در نظر می گیرند.
-2مدل درخت تصمیم M5
در مدل سازی پدیده ها، وجود شرایط محلی ممکن است باعث شود تا استفاده از یک رابطه کلی نتایج خوبی را به همراه نداشته باشد و تغییرات محلی به خوبی دیده نشوند . در صورت امکان، شناسایی محدوده های همگن و ارایه روابط ساده خطی برای هر یک از این محدوده ها می تواند باعث افزایش دقت مدل شود. بر این اساسمعمولاً برای حل مسایل پیچیده، آن را به چند مسأله کوچک تر و ساده تر تقسیم نموده و سپس جوابهای به دست آمده را با هم ترکیب می کنند.
همین ایده ساده در مدل های درخت تصمیم مورد استفاده قرار می گیرد. به این منظور، فضا یا محدوده مقادیر داده های ورودی به چند زیربازه یا ناحیه تقسیم شده و برای هر ناحیه یک معادله یا مدل مناسب استخراج می شود .[1] برای اولین بار کوینلان - - 1992 مدل درخت تصمیم موسوم به M5 را برای پیش بینی داده های پیوسته ارایه نمود. این مدل، بر خلاف مدل های درخت تصمیم معمول که کلاس یا رده های گسسته را به عنوان خروجی ارایه می نمایند، یک مدل خطی چندمتغیره را برای داده ها در هر گره از مدل درختی می سازد.
تشکیل ساختار مدل های درخت تصمیم گیری شامل مراحل ایجاد درخت و هرس کردن آن است .[2] در مرحله ساختن درخت، از یک الگوریتم استنتاجی یا معیار تقسیم - انشعاب - برای تولید یک درخت تصمیم استفاده می شود. معیار تقسیم برای الگوریتم مدل M5، ارزیابی انحراف معیار مقادیر کلاسی است که به عنوان کمیتی از خطا به یک گره می رسد و کاهش مورد انتظار در این خطا را به عنوان نتیجه آزمون هر صفت در آن گره محاسبه می نماید. کاهش انحراف معیار - SDR - ، از رابطه زیر به دست می آید:
که در آن T، بیانگر یک سری نمونه هایی است که به گره می رسد. Ti، بیانگر نمونه هایی است که i امین خروجی سری پتانسیلی را دارند و sd بیانگر انحراف معیار است. به دلیل فرآیند انشعاب داده های قرار گرفته در گرههای فرزند، انحراف معیار کم تری نسبت به گره مادر داشته و بنابراین خالص تر هستند. پس از حداکثرسازی تمامی انشعاب های ممکن، M5 صفتی را انتخاب می کند که کاهش مورد انتظار را بیشینه نماید. این تقسیم بیشتر ساختار شبه درختی بزرگی را تشکیل می دهد که باعث بیش برازش می گردد. برای غلبه بر مسأله بیش برازش، درخت تشکیل شده باید هرس شود. این کار با جایگزینی یک درخت فرعی با یک برگ انجام می شود. بنابراین، مرحله دوم در طراحی مدل درختی شامل هرس نمودن درخت رشدیافته و جایگزینی درختان فرعی با توابع رگرسیونی خطی است.
این تکنیک تولید مدل درختی، فضای پارامترهای ورودی را به نواحی یا زیر فضاهای کوچک تر تقسیم نموده و در هر کدام از آن ها، یک مدل رگرسیونی خطی برازش می دهد. بعد از اینکه مدل خطی به دست آمد برای کمینه کردن خطای تخمین با حذف کردن پارامترها، ساده سازی مدل انجام می شود. در مدل M5 از یک جستجوی حریصانه برای حذف متغیرهایی که مشارکت کمی در مدل دارند، استفاده می شود. البته گاهی اوقات همه متغیرها حذف شده و فقط یک مقدار ثابت باقی می ماند.