بخشی از مقاله
چکیده
در این مقاله توانایی مدلهای درختیM5P برای تخمین متوسط دما و درصد رطوبت نسبی هوا برای ماه بعد به صورت ماهانه برای ایستگاه سینوپتیک یزد مورد ارزیابی قرار گرفته است . دادههای مورد استفاده در این مقاله دادههای متوسط ماهانه ایستگاه هواشناسی یزد شامل متغیرهای متوسط دمای هوا ، ساعات آفتابی، دمای نقطه شبنم، متوسط رطوبت نسبی ، متوسط سرعت باد و کمبود فشار بخار اشباع طی دوره چهل و شش ساله از سال 1960 تا 2005 میلادی است. متغیرهای خروجی مورد استفاده، متوسط دما و درصد رطوبت نسبی هوا ماه بعد به صورت ماهانه هست. پس از معرفی کردن دادههای هواشناسی به صورت متوسط ماهانه به الگوریتم مذکور، به عنوان متغییرهای ورودی و متوسط دما و درصد رطوبت نسبی هوا ماهانه در تخمین متوسط دما و درصد رطوبت نسبی هوا ماه بعد به صورت ماهانه، به عنوان متغیرهای خروجی، الگوریتم M5P با استفاده از ضریب همبستگی، ریشه میانگین مربعات خطا و متوسط مطلق خطا مورد ارزیابی قرار گرفت. با توجه به سه شاخص آماری مذکور مدل درختی M5P در تخمین متوسط دمای ماهانه برای ماه بعد عملکرد بهتری داشته است.
واژههای کلیدی - دادهکاوی وکا، مدل درختی M5P، معادله پنمنمانتیث، تبخیر وتعرق پتانسیل، ایستگاه سینوپتیک، یزد
مقدمه
دادههای که در ایستگاههای مختلف هواشناسی اندازهگیری و بایگانی میشوند حجم زیادی از اطلاعات را شامل میشود و به مرور زمان بر حجم آنها افزوده میشود. بر این اساس لزوم استفاده از روشهای جدید استخراج اطلاعات از آنها بیشتر احساس می- شود. در برخی موارد متغیرهای زیادی مورد استفاده قرار میگیرند که ممکن است برخی از آنها در تمام ایستگاههای هواشناسی اندازهگیری نشوند بنابراین ضرورت ایجاب میکند تا از روش های نوین مدلسازی مانند دادهکاوی استفاده کرد.
تعاریف دادهکاوی
دادهکاوی دارای تعاریف متنوعی است. این تعاریف به مقدار زیادی به پیش زمینهها و نقطه نظرهای افراد بستگی دارد. پس میتوان گفت دادهکاوی مجموعهای از روشها در فرآیند کشف دانش میباشد که برای تشخیص الگوها و روابط نامعلوم در دادهها مورد استفاده قرار میگیرد.
و یا به عبارت دیگر دادهکاوی به فرآیند استخراج اطلاعات نهفته، قابل فهم، قابل پیگیری ازپایگاه دادههای بزرگ و استفاده از آن در تصمیمگیریهای تجاری مهم، اطلاق میشود.
و همچنین میتوان گفت دادهکاوی یک فرآیند شناخت الگوهای معتبر، جدید، ذاتا مفید و قابل فهم از دادهها میباشد.
دادهکاوی تکنیکی است که آزمونهای فرض را ترکیب میکند و دادههای مشتقی را کشف میکند. در آزمونهای فرض، محقق ایده را در برابر داده آزمون میکند تا اعتبار آن را تایید یا رد کند. واندربرگ 1 و همکاران (1999) توضیح میدهند که در کشف، محقق نتیجه را از دادهها ترسیم میکند و به دادهها اجازه میدهد تا نتیجه را بپذیرد. اغلب مسائل دادهکاوی با استفاده از یک ترکیب از هر دو روش حل میشود. به طور مثال از نتیجه ممکن است فرضیه جدیدی برخیزد که میتواند آزمون شود و این آزمون تایید یا رد شود.
دادهکاوی فرآیند انتخاب، شناسایی و مدلسازی از مقادیر زیاد دادهها برای کشف نظم یا رابطهای که در ابتدا ناشناخته هستند با هدف بدست آوردن نتایج مفید و شفاف برای مالک پایگاه میباشد(.(Giudici , 2003 و در تعریف دیگری، فرآیند انتخاب، کاوش و مدلبندی دادههای حجیم، جهت کشف روابط نهفته با هدف بدست آوردن نتایج واضح و مفید برای مالک پایگاه دادهها را، داده- کاوی میگویند (مشکانی،.(1388
دادهکاوی فرآیندی است که ابزارهای مختلف تحلیل داده را به کار میگیرد تا الگوها و روابط فیزیکی متغیرها را در مجموعه داده- های مختلف کشف کند(.(Two Crows , 1999
تفاوت اصولی که بین دادهکاوی و آمار وجود دارد این است که که دادهکاوی یک رهیافت بدون پیش فرض است در حالیکه بیشتر تکنیکهای آماری معمول نیاز به پیش فرض دارند و آماردارانها در جستجوی معادلاتی برای مطابقت دادن با پیش فرضها هستند. در مقابل الگوریتمهای دادهکاوی میتوانند این معادلات را به طور اتوماتیک از اطلاعات موجود در مجموعه دادهها توسعه دهند(.(Cabena et al., 1998
الگوریتم M5P
مدلهای درختی مفاهیم رگرسیون درختی را با مقادیر ثابت در برگهایش کلی میکنند (ویتن و فرنک،.(2005 آنها شبیه سازی به توابع رگرسیون piece – wise (و بنابراین غیرخطی) هستند. مدل .(Quinlan , 1992) M5P یک درخت رگرسیونی دودویی است که در گرههای نهای خود (برگها) توابع رگرسیونی خطی دارند که میتواند صفات عددی پیوسته تولید نمایند. مدلهای بر مبنای درخت به روش تقسیم و نتیجهگیری ساخته میشوند. تولید مدل درختی به دو مرحله نیاز دارد. اولین مرحله شامل استفاده از یک معیار انشعاب برای تولید یک تصمیم درختی است. معیار انشعاب برای الگوریتم مدل درختیM5P براساس رفتار انحراف معیار مقادیر کلاسی است که به عنوان کمیتی از خطا به یک گره میرسد و کاهش مورد انتظار در این خطا را به عنوان نتیجهی آزمون هر صفت در آن گره محاسبه مینماید. فرمول محاسبه کاهش انحراف معیار((SDR بصورت زیر است
که T بیانگر یکسری نمونههایی است که به گره میرسد؛ Ti بیانگر یکسری نمونههایی است که i امین برآمد تست پتانسیلی را دارند؛ sd بیانگر انحراف معیار است. بدلیل فرآیند انشعاب، داده در گرههای فرزند انحراف معیار کمتری از گره مادر داشته و بنابراین خالصتر است. پس از ماکزیمم نمودن تمامی انشعابهای ممکن، M5P صفتی را انتخاب میکند که کاهش مورد انتظار را ماکزیمم مینماید. این تقسیم اغلب ساختار شبه درختی بزرگی میسازد که باعث بیشبرازش میگردد. برای غلبه بر مسئلهی بیشبرازش، درخت بایستی به عقب هرس شود، برای مثال با جایگزینی یک درخت فرعی با یک برگ. بنابراین، مرحله دوم در طراحی مدل درختی شامل هرس نمودن درخت رشد یافته و جایگزینی درختان فرعی با توابع رگرسیونی خطی است. این تکنیک تولید مدل درختی، فضای پارامتر را به نواحیای (زیرفضاهایی) منشعب نموده و در هر کدام از آنها یک مدل رگرسیونی خطی میسازد. برای جزئیات بیشتر به مدل درختی (Quinlan , 1992) M5P رجوع کنید.
مواد و روشها
یزد
استان یزد در مرکز ایران در قلمرو سلسله جبال مرکزی ایران موقعیت جغرافیایی استان یزد
بین عرض های جغرافیایی 29 درجه و 48 دقیقه تا 33 درجه و 30 دقیقه شمالی و طول جغرافیایی 52 درجه و 45 دقیقه تا 56 درجه و30 دقیقه شرقی از نصف النهار مبدأ قرار گرفته است. استان یزد از شمال و غرب به استان اصفهان از شمال شرقی به استان خراسان از جنوب غربی به استان فارس و از جنوب شرقی به استان کرمان محدود می شود .استان یزد در حدود 72156 کیلومتر مربع وسعت داشته و تقریباً 4/37 درصد از وسعت کل ایران را در بر می گیرد .
آب و هوای استان یزد به علت قرار داشتن بر روی کمربند خشک جهانی دارای زمستانهای سرد و نسبتاً مرطوب و تابستانهای گرم و طولانی و خشک است. بر اساس سرشماری عمومی نفوس و مسکن سال 1375، جمعیت استان 750769 نفر بوده که از این تعداد 75/15 درصد جمعیت شهری و 24/85 درصد جمعیت روستایی را تشکیل داده اند .