بخشی از مقاله

مقایسه چند الگوریتم دادهکاوی در تخمین تبخیرتعرق پتانسیل ماه بعد در سه ایستگاه هواشناسی ایران
چکیده
به منظور تعیین مدل مناسبی از تخمین تبخیر و تعرق پتانسیل ماه بعد، برای ایستگاه اراک، رشت و شیراز، الگوریتمهای M5P، Kstar، M5Rules، REPTree، CHID و CART مقایسه شدند. پس از معرفی کردن دادههای هواشناسی به صورت متوسط ماهانه که شامل متوسط دمای هوا ، ساعات آفتابی، دمای نقطه شبنم، متوسط رطوبت نسبی ، متوسط سرعت باد، کمبود فشار بخار اشباع طی دوره چهل و شش ساله، از سال 1960 تا 2005 میلادی به الگوریتمهای مذکور، به عنوان متغییرهای ورودی و تبخیرتعرق پتانسیل ماهانه در تخمین تبخیرتعرق پتانسیل ماه بعد، به روش پنمن- مونتیث، به عنوان متغیرهای خروجی، الگوریتمهای مذکور مورد ارزیابی قرار گرفتند. سپس بعد از برنامه نویسی الگوریتمهای مذکور برای تخمین تبخیرتعرق پتانسیل ماه بعد، ما از طریق مقایسه بین ضریب رگرسیون و متوسط مطلق خطا بدست آمده، از طریق الگوریتمها، مناسبترین الگوریتم را انتخاب میکنیم. به این ترتیب الگوریتم CART، M5P و Kstar برای ایستگاه اراک، رشت و شیراز در میان این هفت الگوریتم بهترین تخمین تبخیر و تعرق پتانسیل برای ماه بعد، را از دادههای هواشناسی ماه قبل برای ایستگاههای مذکور داشته اند.

واژههای کلیدی - دادهکاوی وکا، معادله پنمنمانتیث، تبخیر وتعرق پتانسیل، ایستگاه اراک، ایستگاه رشت، ایستگاه شیراز


-1 مقدمه
تخمین مناسب تبخیر و تعرق به منظور مدیریت منابع آب، برنامهریزی آبیاری و ارزیابی اثرات تغییر کاربری اراضی بر روی بازده و تامین نیاز آبی گیاهان بسیار مهم و حیاتی می باشد(امین علیزاده، سال .(1385 دادهکاوی فرآیند انتخاب، شناسایی و مدل سازی از مقادیر زیاد دادهها برای کشف نظم یا رابطهای که در ابتدا ناشناخته هستند با هدف بدست آوردن نتایج مفید و شفاف برای مالک پایگاه داده میباشد. به کمک دادهکاوی، می توان مقدار تبخیر و تعرق ماه بعدی را تخمین زد که در صورت مورد قبول بودن نتایج، استفاده از آن قابل توصیه خواهد بود. در همین راستا ما از نتایج بدست آمده از شش الگوریتم با نتایج بدست آمده از معادله پنمن مانتیث که با توجه به گرفتن دادههای نسبتا زیاد تخمین قابل قبولی میدهد با چند شاخص آماری مقایسه میشود که مناسبترین الگوریتم با نزدیکترین جوابش به جواب معادله پنمن مانتیث انتخاب میشود.

-2-1 دادهکاوی

دادهکاوی در تعریف کلی به مجموعهای از روشها برای دریافت اطلاعات از یک مجموعه داده و تبدیل آن به نتیجهای معنادار گفته میشود. در حالت عمومی این روشها زمانی ارزش خود را نشان میدهند که روی مجموعه بزرگی از دادهها پیادهسازی شده و الگو و قوانین موجود در آنها را نمایان سازند. (ویتن و فرنک،.(2005

- 3 -1 معرفی نرم افزار داده کاوی وکا

طی سالهای گذشته جریان سریعی از تمایل به دادهکاوی در بازارهای نرم افزاری به وجود آمده است. بیشتر کاربران نرم افزارهای دادهکاوی با تفکر استفاده تجاری از این نرم افزارها، خواهان استفاده از آن شدهاند.(کانو، (2003

نرم افزارweka (وکا) در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت Waikato Environment for knowledge Analysis استخراج گشته است. همچنین weka نام پرندهای با طبیعت جستجوگر است که پرواز نمیکند و در نیوزلند، یافت میشود(فرانک و همکاران، .(2005
این سیتم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU الگوریتمهای مختلف یادگیری را فراهم میکند و به آسانی میتوان آنها را به مجموعه های دادههای خود اعمال کرد. توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند(کوئینلن،.(1992 تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است(پتکر، .(2005

- 4-1 معرفی الگوریتمهای دادهکاوی وکا

عبارت دادهکاوی مترادف با یکی از عبارت های استخراج دانش، برداشت اطلاعات، وارسی دادهها و حتی لایروبی کردن داده-هاست که در حقیقت کشف دانش در پایگاه دادهها را توصیف میکند. اصطلاح دادهکاوی را آمار شناسان، تحلیلگران دادهها و انجمن سیستمهای اطلاعات مدیریت به کار بردهاند در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی از کشف دانش در پایگاه دادهها بیشتر استفاده میکنند (غضنفری، (1387 تلاش اصلی تحقیقات روی تحلیل الگوریتم های دادهکاوی جهت استخراج الگوها از داده ها بوده است.

-1 الگوریتمM5P مدل درختی است که یک درخت رگرسیونی دودویی است و در گرههای نهایی خود (برگها) توابع رگرسیونی خطی دارند که میتواند صفات عددی پیوستهای تولید کند . -2 الگوریتم M5Rules از مدل درختی ساخته شده توسط مدل M5P قانون رگرسیونی تولید مینماید.-3الگوریتم REPTree با استفاده از بهره اطلاعبعدی/کاهش واریانس درخت تصمیم یا درخت رگرسیونی میسازد و با استفاده از هرس خطای کاهش یافته، آن هرس مینماید. برای بهبود سرعت، این روش تنها یکبار مقادیر را برای صفات عددی مرتب مینماید. -4 الگوریتم KStar روش نزدیکترین همسایگی با تابع فاصلهی تعمیم یافته بر مبنای تبدیلات (انتقلات) میباشد. روشهای مختلف زیادی برای تعاریف تابع فاصله وجود دارد که پیدا کردن زمینههای منطقی برای هر انتخاب بخصوصی مشکل است (سافوین، .(1991

- 5 -1 معرفی نرم افزار دادهکاوی کلمنتاین

نرمافزار کاوی SPSS Clementine یکی از مطرحترین نرمافزارها در زمینه دادهکاوی است. این نرمافزار از سری نرمافزارهای معروف SPSS بوده و مانند نرمافزارهای آماری قبلی از امکانات بسیار زیادی در زمینه تحلیل دادهها برخوردار است.
آخرین نسخه این نرمافزار 12 است که پس از انتشار این نسخه، نسخه بعدی با نام PASW Modeler منتشر شد. از مزایای این نرمافزار میتوان به موارد زیر اشاره نمود:
- داشتن روشهای بسیار متنوع برای تحلیل دادهها
- سرعت بسیار بالا در انجام محاسبات و استفاده از اطلاعات پایگاه دادهها
- داشتن محیط گرافیکی به منظور راحتی بیشر کاربر برای انجام کارهای تحلیلی
در نسخه جدید امکان پاک سازی و آماده سازی دادهها به صورت کاملاً اتومبعدیک انجام میشود. این نرمافزار تمامی نرمافزارهای پایگاه داده معروف مانند Microsoft Office، SQL و ... را پشتیبانی میکند (کلمنتاین، .(2007

- 6 -1 معرفی الگوریتمهای دادهکاوی کلمنتاین

-1 الگوریتم CART مخففی برای درختان طبقهبندی و رگرسیونی است همانطور که نام آن نشان میدهد، CART ساخت درختان رگرسیونی دودویی را نیز تامین مینماید.CHAID -2 مخفف تخصیص متقابل خودکار کای-اسکوئر است. با استفاده از معیار معنیدار یک آزمون آماری، CHID همه مقادیر صفات متغیر هدف را ارزیابی میکند. (سافوین، .(1991

-3 مواد روشها


-1 -3 منطقه مطالعاتی

به منظور انجام این تحقیق ابتدا شناسنامه اطلاعاتی آب و هوایی سه ایستگاه هواشناسی سینوپتیک از سازمان هواشناسی کشور تهیه گردید. علل انتخاب این ایستگاهها، طول دوره آماری نسبتا طولانی و همچنین پراکنش مکانی مناسب آنها در کشور بوده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید