بخشی از مقاله
*** اين فايل شامل تعدادي فرمول مي باشد و در سايت قابل نمايش نيست ***
انتخاب مناسبترین الگوریتم دادهکاوی در تخمین تبخیر تعرق پتانسیل دشت قزوین
چکیده
به منظور تعیین تبخیر و تعرق پتانسیل دشت قزوین مدل مناسبی توسط الگوریتمهایM5P ، Kstar، M5Rules و REPTreeبررسی شد. پس از وارد کردن دادههای هواشناسی به الگوریتمهای مذکور و مقایسه آن با معادله پنمن مانتیث الگوریتم M5P در میان این الگوریتمها بهترین برآورد تبخیر و تعرق را از دادههای هواشناسی داشته است. بنابراین الگوریتم M5Pمدل مناسبی برای محاسبه تبخیر و تعرق پتانسیل دشت قزوین میباشد.
کلید واژه: دادهکاوی وکا، معادله پنمنمانتیث، تبخیر وتعرق پتانسیل، دشت قزوین
مقدمه
تخمین مناسب تبخیر و تعرق به منظور مدیریت منابع آب ، برنامهریـزی آبیـاری و ارزیـابی اثـرات تغییـر کاربری اراضی بر روی بازده و تامین نیاز آبی گیاهان بسـیار مهـم و حیـاتی مـی باشـد (امین علیـزاده، سـال .(1385 دادهکاوی فرآیند انتخاب ، شناسایی و مدل سازی از مقادیر زیاد دادهها برای کشف نظم یـا رابطـهای که در ابتدا ناشناخته هستند با هدف بدست آوردن نتایج مفید و شفاف برای مالک پایگاه داده مـیباشـد . بـه کمک دادهکاوی ، می توان مقدار تبخیر و تعرق را تخمین زد که در صورت مورد قبول بودن نتایج ، استفاده از آن قابل توصیه خواهد بود. در همین راستا ما از نتایج بدست آمده از چهار الگوریتم با نتـایج بدسـت آمـده از معادله پنمن مانتیث که با توجه به گرفتن دادههای نسبتا زیاد تخمین قابل قبولی میدهد بـا چنـد شـاخص آماری مقایسه میشود که مناسبترین الگوریتم با نزدیکترین جوابش به جواب معادله پنمن مانتیث انتخاب میشود.
معرفی نرم افزار داده کاوی وکا
طی سالهای گذشته جریان سریعی از تمایل به دادهکاوی در بازارهای نرم افزاری به وجـود آمـده اسـت . بیشتر کاربران نرم افزارهای دادهکاوی با تفکر استفاده تجاری از این نرم افزارها، خواهان استفاده از آنشـده - اند.(کانو، (2003 نرم افزارweka (وکا) در دانشـگاه Waikato واقـع در نیوزلنـد توسـعه یافتـه اسـت و اسـم آن از عبـارت Waikato Environment for knowledge Analysis استخراج گشته است. همچنین weka نامپرنـده ای بـا طبیعت جستجوگر است که پرواز نمیکند و در نیوزلند، یافت میشود(فرانک وهمکاران، .(2005
این سیتم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافتـه اسـت . نـرم افزارWeka، پیادهسازی الگوریتمهای مختلف یادگیری را فراهم میکنـد وبـه آسـانی مـیتـو ان آنهـا را بـه مجموعه های دادههای خود اعمال کرد. توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هسـتند . تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یـک متغیـر وطـرح ریـزی کـردن رونـد مثـالی از توانـایی پیشـگویانه دادهکـاوی است(پتکر، .(2005
معرفی الگوریتمهای دادهکاوی وکا
عبارت دادهکاوی مترادف با یکی از عبارت های استخراج دانش، برداشت اطلاعات، وارسی دادهها و حتـی لایروبی کردن دادههاست که در حقیقت کشف دانش در پایگاه دادهها را توصیف میکند. اصطلاح دادهکـاوی را آمار شناسان، تحلیل گران داد هها و انجمن سیستمهای اطلاعات مدیریت بـه کـار بـردهانـد در حـالی کـه پژوهشگران یـادگیریماشـین وهـوش مصـنوعی از کشـف دانـش در پایگـاه دادههـا بیشـتر اسـتفاده مـی - کنند(غضنفری، (1387 تلاش اصلی تحقیقات روی تحلیل الگوریتم های دادهکاوی جهت استخراج الگوهـا از داده ها بوده است
-1 الگوریتمM5P مدل درختی است که یک درخت رگرسیونی دودویی است و در گرههای نهایی خود (برگها ) توابع رگرسیونی خطی دارند که میتواند صفات عددی پیوستهای تولید کند. -2 الگوریتم M5Rulesاز مدل درختی ساخته شده توسط مدل M5P قانون رگرسیونی تولید مینماید.-3الگوریتم REPTreeبا استفاده از بهره اطلاعاتی/کاهش واریانس درخت تصمیم یا درخت رگرسیونی میسازد و با استفاده از هرس خطای کاهش یافته، آن هرس مینماید. برای بهبود سرعت، این روش تنها یکبار مقادیر را برای صفات عددی مرتب مینماید . -4 الگوریتم KStar روش نزدیکترین همسایگی با تابع فاصلهی تعمیم یافته بر مبنای تبدیلات (انتقلات) میباشد. روشهای مختلف زیادی برای تعاریف تابع فاصله وجود دارد که پیدا کردن زمینههای منطقی برای هر انتخاب بخصوصی مشکل است(سافوین، .(1991
مشخصات منطقه مورد مطالعه منطقه دشت قزوین به همراهحـوزههـای آبخیـز مربوطـه بـا مسـاحتی معـادل 9300 کیلومترمربـع در محدوده 25، 49 الی 35 ، 50 طول شرقی و 25 ، 35 الی 25، 36 عرض شمالی قرار دارد. مسـاحت خـود دشت قزوین حدود 450000 هکتار است،که شهرهای آبیک، قزوین، تاکستان و بوئین زهرا در حاشیه شمالی و جنوبی آن قرار دارند(معلمی، .(1380
معادلات استفاده شده
معادله پنمن مانتیث که برای تخمین تبخیر و تعرق در این مقاله مورد استفاده قرار گرفت به قرار زیر است
در این رابطه، = ETo تبخیر و تعرق استاندارد سطح مرجع چمن برحسـب میلـیمتـر بـر روز، es،= ea فشار بخار اشباع و فشار واقعی بخار آب در هوا برحسب میلیبار ، =U2 سرعت باد در روز در ارتفاع دو متری از سطح زمین برحسب شیب منحنـی تغییـرات فشـار بخـار اشـباع (es) نسبت به درجه حرارت (T)، = ثابت سایکرومتری برحسب Kpa c-1 معادله رگرسیون که برای مقایسه بین معادله پنمن مانتیث و چهار الگوریتمهای دادهکاوی مورد استفاده قرار گرقت به قرار زیر است
:n تعداد داده های مشاهدهشـده ، :yobsتبخیـر وتعـرق پتانسـیل مشـاهده شـده ، :ypred تبخیـر وتعـرق پتانسیل پیشبینی شده، :ymean تبخیر وتعرق پتانسیل میانگین. صفحه آغازین نرم افزار دادهکاوی وکا دارای چهـار گزینـهاسـت کـه شـامل Explorer، Experimenter KnowledgeFlow و Simple CLI است. صفحه آغازین شامل 4 گزینه است:
::Explorer محیطی برای مکاشفه در دادهها بـا اسـتفاده از وکـا ، :Experimenter محیطـی بـرای انجـام آزمون و انجام آزمایش های آماری میان روشهای مختلف یادگیری، :KnowledgeFlow محیطیکـهتقریبـاً تمام کارایی اکسپلورر را پیشتیبانی می کند، اما در عوض از یـک رابـط drag-and-drop اسـتفاده مـی کننـد.، :SimpleCLI رابط ساده خط فرمان که به شما اجازه دسترسی مستقیم به دستورات WEKA را میدهد.
وکا نرم افزاری آزاد و اپن سورس است که توسط دانشگاه وایکاتو در نیوزلند طراحی شدهاسـت کـه یـک محیط دادهکاوی، با منبع باز، بـا زبـان جـاوا و شـامل الگـوریتمهـای متعـدد دادهکـاوی و یـادگیریماشـین است(فرانک و همکاران، .(2005
رگرسیون مورد استفاده در این مدل به این صورت است که باید رابطه میان یک سری متغیر مستقل و یک متغیر وابسته کشف شود. بهاین ترتیب، ما قادر خواهیم بود تا با داشتن مقادیر متغیرهای مستقل، متغیر وابسته را پیش بینی کنیم.
برای وارد کردن دادهها به وکا باید اول آنها بـه فرمتـی درآوریـمکـه بـرای وکـا قابـل فهـم باشـد .روش ترجیحی وکا برای انجام این کار استفاده از ARFF (سرنام(Attribute-Relation File Format است. در این روشها ما ابتدا نوع دادههایی را که قرار است بارگزاری شوند،انتخاب کرده، سپس خود دادههـا را تـامین مـی سازیم. با توجه به محدودیتهای عددی که برای مدل رگرسیون وجود دارد ، در این حالت تنها میتـوان داده ها را دو نوع DATA و NUMERIC تعریف کرد ، سپس باید به وارد کردن خود دادهها بپردازیم. برایایـن کار باید دادهها را با جدا کننده کاما وارد سازید. یعنی برای هر سطر، بین هر دو Attribute آن یک کاما قـرار میدهیم.
برای بارگذاری داده به وکا برای شروع این بخش وکا را باز کرده و روی اکسپلور کلیک کرده وبعـد وارد صفحه اکسپلور خواهیم شد که در آن بخش Preprocess انتخاب شده است. روی Open File کلیک کـرده و فایل ARFF ساخته شده در بخش قبل را انتخاب کنید. حال باید WEKA Explorer مان شبیهشـکل زیـر شود.این صفحه قابلیت مرور و کار با دادهها را به شما میدهد.
برای ایجاد مدل رگرسیون روی تب Classify کلیک کنید. در این بخش بایـد در ابتـدا مـدل را انتخـاب کنیم که در اینجا رگرسیون خطی است. برای کار رویChoose کلیک کـرده ، سـپس بـه بخـش Function رفته و LinearRegression را انتخاب کنید. چهار گزینه در صفحهمـورد نظـر وجـود داردکـه مـا از گزینـه Training Set استفاده کردهایم. این گزینه به آن معنا است که WEKA باید دادهها را از فایل ARFF که در بخش قبل وارد کردیم، بگیرد.
بعد انجام رگرسیون مراحل کار با نرم افزار وکا تمام شده و بعد باید به مقایسه بین رگرسیونهایحاصـل از چهار الگوریتم و معادله پنمن مانتیث بپردازیم تا بهترین همبستگی بین آنها را که نشان دهنـدهمناسـب - ترین الگوریتم است بدست آوریم.
نمودارهای مقایسه تبخیرتعرق محاسبه شده و برآورد شده
با استفاده از دادههای هواشناسی برای دوره پانزده سـاله کـه از ایسـتگاه هواشناسـی قـزوینبـه بررسـی الگوریتمهای دادهکاوی وکا و مقایسه آنها با جواب معادله پنمن مانتیث پرداختهایم.
برای انتخاب مناسبترین الگوریتم داده کاویوکـا در زمینـه بـرآورد تبخیـر و تعـرق پتانسـیل ،پـس از محاسبه تبخیر وتعرق پتانسیل به کمک معادله پنمن مانتیث ما با کمک نمـودار و محاسـبه رگرسـیون بـین دادههای بدست آمده از معادله پنمن مانتیث و الگوریتم داده کاوی وکا بهترین همبستگی موجود بینآنهـا را انتخاب کرده و با بدست آوردن بیشترین RP2P (ضریب همبستگی)مناسبترین الگوریتم بدست میآید.
در جدول زیر مشاهده میشود که بهترین عملکرد از اجزای الگوریتم M5P بدست میآیدکـه نسـبت بـه سایر مدلها ضریب همبستگی بالاتری دارد.پس از آن M5Rules، REPTree، Kstarبه ترتیب در رتبـههـای دوم و سوم و چهارم قرار گرفتهاند.