بخشی از مقاله

چکیده

مسئله یادگیری ماشین زمینه تحقیقاتی نوینی در هوش مصنوعی است که در حال حاضر دوران رشد و تکامل خود را میگذراند و زمینهای بسیار فعال به عنوان یکی از گرایشهای پرکاربرد هوش مصنوعی است که به تنظیم و اکتشاف شیوهها و الگوریتمهایی میپردازد که براساس آنها رایانهها و سامانها توانایی تعلٌم و یادگیری پیدا میکنند و یادگیری ماشین عبارت است از اینکه چگونه میتوان برنامهای نوشت که از طریق تجربه، یادگیری کند و عملکرد خود را بهتر کند و یکی از بارزترین الگوریتمهای یادگیری ماشین همان درختان تصمیمگیری هستند که با توجه به حجم بالای اطلاعات در بانکهای داده و یافتن اطلاعات مفید و مناسب در آنها ضرورت پیدا کرده.

از سویی دیگر یادگیری درخت تصمیم C4.5، یکی از پرکاربردترین و کارآمدترین متدهای یادگیری استقراریی برای پردازش داده ها میباشد که برخلاف روشهایی مانند شبکههای عصبی مصنوعی، که چگونگی عملکرد خود را ارائه نمیکنند، پیش بینی خود را در قالب قوانینی از نظر پارامترهای آماری وپردازشی مناسب، ارائه میکند. هدف این مقاله، ارائه کارا بودن روش یادگیری درخت تصمیمگیری به عنوان روشی مناسب و قوی برای دادههایی با حجم بالا، نسبت به شبکه عصبی مصنوعی میباشد.

در روش تحقیق، ارزیابی از عملکردهای الگوریتمهای یادگیری ماشین یعنی درخت تصمیمگیری و شبکه عصبی انجام گردیده که سرانجام در بخش یافتهها و نتایج تجربی الگوریتمهای یادگیری پیشنهادی مبتنی بر توابع محک پیاده سازی گردیده که در نهایت الگورتیم یادگیری درخت تصمیمگیری C4.5، نسبت به رقیب خود یعنی شبکه عصبی مصنوعی توانست به نتایج بهینهتری دست یابد.

-1 مقدمه

-1-1 شرح مسئله کاری هرچه زمان میگذرد اطلاعات بیشتری جمع آوری شده و در بانکهای داده ذخیره میگردد به گونهای که حجم دادههای ثبتشده بطور متوسط هر پنج سال نیز دو برابر میشود و ضرورت وجود ابزاری برای پردازش دادههای ذخیره شده و نمایش اطلاعات مفید حاصل از این پردازشها مهم نمایان میشود. استخراج اطلاعات مناسب از میان انبوه دادهها و تبدیل آنها به دانش مورد نیاز سازمان-ها، بویژه در تصمیمگیریهای سازمانی، نیازمند استفاده از روشهای نوین در این حوزه است یعنی تحقیقات انجام شده بیانگر این است که سازمانها کمتر از یک درصد از دادههای خود را برای تحلیل بکار میبرنند پس اهمیت دادهکاوی دو چندان میگردد.

دادهکاوی به مفهوم استخراج اطلاعات نهان و یا الگوها و روابط مشخص در حجم زیادی از داده ها در یک یا چند بانک اطلاعاتی بزرگ است که پایگاه ها و مجموعه حجیم داده ها را در پی کشف و استخراج، مورد تحلیل قرار میدهد. این گونه مطالعات و کاوشها را میتوان همان امتداد و استمرار دانش کهن و فراگیر آمار دانست که ممکن است مدلهای آماری، الگوریتم های ریاضی و روش های یاد گیرندهٌ باشند که کار خود را به صورت خودکار و براساس تجربهای که از طریق شبکههای عصبی ٍ یا درختهای تصمیم گیریَ به دست می آورند، بهبود بخشیده و تفاوت عمده در مقیاس، وسعت، گوناگونی زمینه ها ، کاربردها، ابعاد و اندازه های داده های امروزی است که شیوه های ماشینی مربوط به یادگیری، مدل سازی و آموزش را طلب مینماید.

دادهکاوی در اواخر دهه 1980 میلادی پدیدار گشت که هدف آن همان، استخراج و تحلیل مقدار زیادی داده است و به منظور کشف قوانین و الگوهای معنیدار، افزایش ارزش اصلی آنها و انتقال دادهها بصورت دانش و پیش گویی از آینده میباشد و از پیشرفتهای هوش مصنوعی و آمار نیز بهره میگیرد. یعنی داده کاوی وارث روشهای آماری میباشد که با تغییر و گسترش آنان برای متناسبسازی با حجم دادهها بهکار میروند.

ازجمله کاربردهای داده-کاوی میتوان به "بررسی و جایگزینی دادههای مفقود شده"، بانکداری، "تشخیص و حذف دادههای تکراری و اضافه"،کارخانهداری، تجارت الکترونیک، "نرمال سازی داده ها"،کشف جرایم، "تبدیل داده های پیوسته به گسسته"، ارزیابی میزان ریسک و فروش محصولات "فشرده سازی داده ها"، بازاریابی و غیره اشاره کرد. از سویی دیگر تکنیک یادگیری ماشین برای استنتاج یک درخت تصمیمگیری از دادهها، یادگیری درخت تصمیمگیری نامیده میشود که یکی از رایجترین روشهای دادهکاوی است و این متد یادگیری برای توابع گسسته با مقدار دادههای خطادار به کار میرود

-2 -1 درخت تصمیمگیری

درخت تصمیم گیری، ابزاری برای پشتیبانی از تصمیم و برای مدل کردن بوده یعنی درخت تصمیم گیری به طور خاص در آنالیز تصمیم و برای مشخص کردن استراتژی که با بیشترین احتمال به هدف برسد، بکارمیرود و به بیانی دیگر استخراج اطلاعات مناسب از میان انبوه دادهها و تبدیل آنها به دانش مورد نیاز سازمانها، بویژه در تصمیمگیریهای سازمانی، نیازمند استفاده از روشهای نوین در این حوزه است و به عنوان ابزاری برای به تصویر کشیدن و آنالیز تصمیم، در جایی که در واقع مقادیر مورد انتظار رقابت هاست، متناوباً محاسبه و استفاده میگردد.
با این اوصاف یک درخت تصمیم دارای سه نوع گره است که عبارتند از:

*    گره تصمیم: به طور معمول با مربع نشان داده میشود.

*    گره تصادفی: با دایره مشخص میشود.

* گره پایانی: با مثلث مشخص میشود.

نمایش درخت تصمیم گیری بدین صورت است که:

یک درخت تصمیمگیری بطور معمول از گرههاُ، ریشه - گره اول - ، شاخهها و برگهاِ تشکیل شده. درخت تصمیمگیری با ترتیب کردن نمونهها از ریشه به سمت برگهای درخت، نمونهها را دسته بندی میکند. در این درخت هر گره، ویژگیای را در مورد نمونه و هر شاخه که از آن گره خارج میشود، مقادیر مربوطهی آن ویژگی را مشخص میکند. برای دسته بندی هر نمونه ابتدا از ریشه شروع کرده و به هر ویژگی که رسیده، از شاخهای از درخت که ویژگی نمونه با آن مطابق است نیز پایین رفته.

براساس مجموعه آموزشی، یک درخت زمانی ایجاد میشود که در این درخت هر گره داخلی یک آزمون را روی یک صفت نشان میدهد و هر شاخه نتیجهای از تست را نشان میدهد و هر برگ برچسب یک کلاس را نگهداری میکند و هر گره داخلی یا غیر برگّ با یک ویژگی7 مشخص میشود.[Kotsiantis, 2011] در هر گره داخلی به تعداد جوابهای ممکن با این سؤال شاخه َ وجود دارد که هریک با مقدار آن جواب مشخص میشوند. از انواع درخت تصمیمگیری میتوان به درخت رگراسیون و درخت دسته بندی اشاره نمود که بارزترین تفاوت آنان عبارت است : 

*    معیار تقسیم و شاخه زدن در درختان رگراسیون براساس حداقل کردن گوناگونی زیرمجموعهی داخلی است.

*    معیار هرس در درختان رگراسیون براساس معیار خطای عددی میباشد.

*    گرههای برگ، میانگین مقادیر دسته برای نمونههای آموزشی افراز شده به این گره را پیش بینی میکنند.

شکل -1 نمونهای از درخت تصمیم گیری

-3 -1 شبکه عصبی مصنوعی9

شبکه عصبی مصنوعی یک سامانه پردازشی داده ها است که از مغز انسان ایده گرفته و پردازش داده ها را به عهده پردازنده های کوچک و بسیار زیادی سپرده که به صورت شبکه ای به هم پیوسته و موازی با یکدیگر رفتار می کنند تا یک مسئله را حل نمایند. در این شبکه ها به کمک دانش برنامه نویسی، ساختار داده ای طراحی می شود که میتواند همانندنرونًٌ عمل کند که به این ساختارداده،گرهٌٌ گفته می شود

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید