بخشی از مقاله

چکیده
در این مقاله توانایی ارزیابی هشت مدل نرم افزار weka که شامل additiveRegression, Bagging, LinearRegression, Zero, M5P، Kstar، M5Rules، REPTree میباشد در تخمین تبخیرتعرق پتانسیل ماهانه برای ماه بعد برای ایستگاه هواشناسی سینوپتیک بابلسر مورد ارزیابی قرار گرفتهاند. دادههای مورد استفاده در این مقاله دادههای متوسط ماهانه ایستگاه هواشناسی بابلسر شامل متغیرهای متوسط دمای هوا ، ساعات آفتابی، دمای نقطه شبنم، متوسط رطوبت نسبی، متوسط سرعت باد و کمبود فشار بخار اشباع طی دوره چهل و شش ساله از سال 1960 تا 2005 میلادی است. متغیرهای خروجی مورد استفاده، تبخیرتعرق پتانسیل ماهانه ماه بعد به صورت ماهانه بود. پس از معرفی کردن دادههای هواشناسی به صورت متوسط ماهانه به الگوریتم مذکور، به عنوان متغییرهای ورودی و تبخیرتعرق پتانسیل ماهانه ماه بعد، به عنوان متغیرهای خروجی، مدلهای دادهکاوی با استفاده از ضریب همبستگی، ریشه میانگین مربعات خطا و متوسط مطلق خطا مورد ارزیابی قرار گرفتند. با توجه به سه شاخص آماری مذکور مدل درختی Bagging در تخمین متوسط دمای ماهانه برای ماه بعد عملکرد بهتری داشته است.

واژههای کلیدی
دادهکاوی وکا، معادله پنمنمانتیث، تبخیر وتعرق پتانسیل، ایستگاه هواشناسی سینوپتیک، بابلسر

- 1 مقدمه
تخمین مناسب تبخیر و تعرق به منظور مدیریت منابع آب، برنامهریزی آبیاری و ارزیابی اثرات تغییر کاربری اراضی بر روی بازده و تامین نیاز آبی گیاهان بسیار مهم و حیاتی می باشد. مدلهای فیزیکی و نیمه تئوری پیشنهاد شده برای مدلسازی تبخیرتعرق پتانسیل، اغلب پیچیده بوده و به متغیرهای هواشناسی زیادی نیاز دارد. به همین دلیل مدلها و تکنیکهای دیگری نظیر رگرسیون چندگانه، تحلیل عاملی، شبکه مصنوعی و روشهای نوین دادهکاوی جهت برآورد این کمیت و تعیین عوامل تاثیر گذار به کار میروند. اخیرا روشهای جدید دادهکاوی به طرز موفقیتآمیزی در علوم محیطی استفاده شدهاند.
دادههای که در ایستگاههای مختلف هواشناسی اندازهگیری و بایگانی می-شوند حجم زیادی از اطلاعات را شامل میشود و به مرور زمان بر حجم آنها افزوده میشود. بر این اساس لزوم استفاده از روشهای جدید استخراج اطلاعات از آنها بیشتر احساس میشود. در برخی موارد متغیرهای زیادی مورد استفاده قرار میگیرند که ممکن است برخی از آنها در تمام ایستگاههای هواشناسی اندازهگیری نشوند بنابراین ضرورت ایجاب میکند تا از روش های نوین مدلسازی مانند دادهکاوی استفاده کرد.


1-2 تعاریف دادهکاوی
دادهکاوی دارای تعاریف متنوعی است. این تعاریف به مقدار زیادی به پیش زمینهها و نقطه نظرهای افراد بستگی دارد. پس میتوان گفت دادهکاوی مجموعهای از روشها در فرآیند کشف دانش میباشد که برای تشخیص الگوها و روابط نامعلوم در دادهها مورد استفاده قرار میگیرد.
به عبارت دیگر دادهکاوی به فرآیند استخراج اطلاعات نهفته، قابل فهم، قابل پیگیری ازپایگاه دادههای بزرگ و استفاده از آن در تصمیمگیریهای تجاری مهم، اطلاق میشود.
همچنین میتوان گفت دادهکاوی یک فرآیند شناخت الگوهای معتبر، جدید، ذاتا مفید و قابل فهم از دادهها میباشد.

دادهکاوی تکنیکی است که آزمونهای فرض را ترکیب میکند و داده-های مشتقی را کشف میکند. در آزمونهای فرض، محقق ایده را در برابر داده آزمون میکند تا اعتبار آن را تایید یا رد کند. واندربرگ 1 و همکاران (1999) توضیح میدهند که در کشف، محقق نتیجه را از دادهها ترسیم میکند و به دادهها اجازه میدهد تا نتیجه را بپذیرد. اغلب مسائل دادهکاوی با استفاده از یک ترکیب از هر دو روش حل میشود. به طور مثال از نتیجه ممکن است فرضیه جدیدی برخبابلسر که میتواند آزمون شود و این آزمون تایید یا رد شود.
دادهکاوی فرآیند انتخاب، شناسایی و مدلسازی از مقادیر زیاد دادهها برای کشف نظم یا رابطهای که در ابتدا ناشناخته هستند با هدف بدست آوردن نتایج مفید و شفاف برای مالک پایگاه میباشد(.(Giudici , 2003 و در تعریف دیگری، فرآیند انتخاب، کاوش و مدلبندی دادههای حجیم، جهت کشف روابط نهفته با هدف بدست آوردن نتایج واضح و مفید برای مالک پایگاه دادهها را، دادهکاوی میگویند (مشکانی،.(1388

دادهکاوی فرآیندی است که ابزارهای مختلف تحلیل داده را به کار می-گیرد تا الگوها و روابط فیزیکی متغیرها را در مجموعه دادههای مختلف کشف کند(.(Two Crows , 1999

تفاوت اصولی که بین دادهکاوی و آمار وجود دارد این است که که دادهکاوی یک رهیافت بدون پیش فرض است در حالیکه بیشتر تکنیکهای آماری معمول نیاز به پیش فرض دارند و آماردارانها در جستجوی معادلاتی برای مطابقت دادن با پیش فرضها هستند. در مقابل الگوریتم-های دادهکاوی میتوانند این معادلات را به طور اتوماتیک از اطلاعات موجود در مجموعه دادهها توسعه دهند(.(Cabena et al., 1998
-2 مواد و روشها

شهر بابلسر مرکز شهرستان بابلسر ، در پسکرانه دریای خزر در دو سوی رود بابل واقع است. این شهر 21 متر پایینتر از سطح دریای آزاد، در 20 کیلومتری شمال شهر بابل و 231 کیلومتری شمال شرقی شهر تهران ، قرار دارد.میانگین دمای آن 8ر16 درجه است و گاهی گرمترین دمای آن به 42 درجه و سردترین دمای آن به -7 درجه میرسد. میزان بارندگی سالیانه آن حدود 886 میلیمتر است.

بسیاری از دانشمندان قابلیت معادله پنمن-مونتیث برای تخمین ETO را مطالعه نمودهاند(آلن و همکاران، 1998؛ دی یودر و همکاران .(1995 جنسن2 و همکاران(( 1990 عملکرد 20 روش مختلف را در مقابل تبخیرتعرق اندازهگیری شده برای 11 ایستگاه واقع در مناطق اقلیمی مختلف جهان تحلیل نمودند. روش پنمن -مونیث به عنوان بهترین روش برای تمامی شرایط اقلیمی رتبهبندی شد.

کاربرد معادله پنمن-مونتیث فائو 56 به داده تابش خورشید، سرعت باد، دمای هوا، فشاربخار و رطوبت نیاز دارد. اما تمامی این متغیرهای ورودی در هر مکانی به آسانی در دسترس نیستند. در کشورهای در حال توسعه، با مشکلات جمع آوری داده صحیح تمامی متغیرهای اقلیمی مواجه هستند و این میتواند در کابرد معادله پنمن -مونتیث فائو56 مشکل جدی به حساب آید.
نرمافزار وکا در دانشگاه Waikato نیوزلند توسعه یافته است و اسم آن از عبارت""Waikato Environment for knowledge Analysis استخراج شده گشته است. همچنین وکا، نام پرندهای با طبیعت جستجوگراست که پرواز نمیکند و در نیوزلند، یافت میشود. این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است. وکا تقریبا روی هر پلت فرمی اجرا میشود و نیز تحت سیستم عاملهای لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخص، آزمایش شده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید