بخشی از مقاله


تخمین پارامترهاي هواشناسی با استفاده از تکنیک هاي داده کاوي در پایگاه داده هاي منابع آب

خلاصه

مدیریت منابع طبیعی به خصوص منابع آب از دیرباز محور توجه و تصمیمگیري مدیران در جوامع مختلف بوده است. با افزایش جمعیت و توسعهها بخش ي مختلف کشاورزي و صنعت که نیاز روز افزون به منابع آب را نیز به دنبال داشت، ناپایداريهایی را در مدیریت سنتی منابع آب ایجاد نمود. بخش عمدهاي از عدم تعادل در منابع آب، ناشی از چرخه آب شناسی و محدودیت طبیعی منابع آب بوده و بخش دیگر تأثیرگذاري اقدامات و فعالیتهاي انسانی بر روي منابع آب است که جملگی زمینهساز چالشهاي سنگینی در امر بهرهگیري از منابع آب شیریندیگ گشته است. از طرف تصمیمگیرندگان در این بخش با حجم بسیار زیادي از دادههاي جمعآوري شده با خصوصیات بسیار متنوع و با روابط پیچیده در بین آنها مواجه هستند که آنالیز و مدیریت آنها به وسیلهي تجزیه و تحلیلهاي تجربی و آماري، امري دشوار و در بسیاري از حوضههاعملاً ناممکن میباشد. دادهکاوي یک فناوري توانمند در مدیریت و سازماندهی اطلاعات با حجم بالا میباشد. در واقع داده کاوي، مجموعه اي از فنون است که وراي داده پردازي معمولی بوده و به استخراج اطلاعاتی که در انبوه داده ها مخفی و پنهان است، کمک می کند. در این مقاله با استفاده از تکنیک هاي داده کاوي، به تخمین رطوبت پرداخته شده است. رطوبت نسبی یکی از پارامتر هاي بسیار مهم می باشد که تاثیر بسزایی بر کیفیت هوا و شاخص هاي مدیریتی منابع آب دارد و در ایستگاه هاي سینوپتیک، با استفاده از جداول و اصول محاسباتی سایکرومتري محاسبه می شود. در انتها نتایج مدل هاي داده کاوي با نتایج روش محاسباتی سایکرومتري مقایسه شده که نشان از دقت خوب مدلسازي با تکنیک هاي داده کاوي می باشد.

کلمات کلیدي: پایگاه داده، داده کاوي، تخمین، رطوبت نسبی، سایکرومتري


1. مقدمه:


یک سیستم اطلاعات منابع آب، با توجه به ذات پیچیده داده هاي زیست محیطی، انواع مختلفی از مشکلات که در رابطه با مسائل زیست محیطی وجود دارد را می تواند نمایان سازد. از جمله مسائلی که می تواند وجود داشته باشد، کشف و مطالعه ارتباطات مابین اشیاي زیست محیطی و نیز مدیریت سریهاي زمانی گسترده می باشد. در حقیقت یک سیستم اطلاعات منابع آب در مدیریت محیط زیست به مدیریت اجزایی چون منابع آب سطحی و زیرزمینی، خاك، هوا، گونه هاي زیستی و اعمال انسانها که برهم کنش دارند، می پردازد. بنابراین سامانه اطلاعاتی مورد بررسی، شامل یک مجموعه ي عظیم از داده هاي زیست محیطی با خصوصیات پیچیده ي مکانی و زمانی است که دربرگیرنده ي مسائل مختلف مرتبط با موضوع چون برنامه ریزي و مدیریت یکپارچه منابع آب، مدیریت ریسک، پایش و پیش بینی خشکسالی و سیل، مدیریت کیفی منابع آبها و... می باشد. جریان داده براي یک سیستم اطلاعات منابع آب می تواند در چهار فاز زیر خلاصه شود: جمع آوري داده از جهان واقعی، ذخیره سازي داده، آنالیز داده، مدیریت فراداده. در زمینه مدیریت منابع آب با حجم بسیار زیادي داده هاي مکانی- زمانی مواجه هستیم که استفاده از روشهاي تجربی و آماري در تبدیل چنین داده هایی به دانش کاربرديعملاً غیر ممکن می باشد. در حالی که چنین داده هایی در استخراج گزارشهاي مفید و شناسایی روند رویدادها میتوانند بسیار مورد توجه گیرند. بنابراین نیاز به روشی جهت پاسخگویی به چنین مسائلی در زمینه ي مدیریت منابع آب احساس می شود و از دانش حاصل می توان به صورت بهینه جهت مدیریت یکپارچه منابع آب استفاده نمود.[1]


پیشرفت شگفت انگیز فنآوري و مجهز شدن بشر به ابزارهاي نوین، سبب پیشرفت فوقالعاده در کسب و ذخیرهسازي دادهها و همچنین به وجود آمدن پایگاه دادههاي بزرگ در زمینههاي مختلف شده است. باید توجه داشت که دنیاي مدرن امروزي، در حقیقت دنیاي دادهگرا میباشد و ما درمحاصره دادهها، چه عددي و چه انواع دیگري قرار گرفتهایم. امروزه حجم عظیمی از دادهها وجود دارد که کامپیوترها، شبکهها و در حقیقت تمام زندگی ما را فرا گرفته است. سازمانهاي مختلف هزینههاي هنگفتی را براي جمعآوري و ذخیره دادهها اختصاص میدهند در حالی که فقط مقدار کمی از این دادهها مورد استفاده قرار میگیرند. زیرا در بسیاري از موارد حجم دادههاي لازم براي سازماندهی بسیار بالا بوده یا ساختار آنها براي تحلیل مؤثر و کارا، بسیار پیچیده است. لذا مشکل دنیاي امروز فقدان داده کافی براي تصمیمگیري مدیران صنایع نیست بلکه مسئله اصلی فقدان روشها یا تکنیک- هایی جهت استخراج دانش کاربردي از بطن این حجم انبوه دادهها است. استخراج دانش کاربردي از این دادهها با استفاده از روشهاي سنتی امکانپذیرنمی باشد. روشهاي سنتی تبدیل دادهها به دانش، متکی به تجزیه و تحلیل و تفسیر دستی یا تجربی میباشد. این تجزیه و تحلیلهاي دستی یا تجربی مجموعههاي دادهاي، مشمول صرف هزینه و زمان بسیار زیادي بوده و مقرون به صرفه نیست. همچنین با رشد نمایی حجم دادهها، این نوع تجزیه و تحلیل تجربی در بسیاري از حوزهها،عملاً غیرممکن میگردد. از جهتی دیگر حجم بالاي دادههايدائماً در حال رشد، در همهي حوزهها و نیز تنوع آنها به شکل دادههاي متنی، اعداد، گرافیکها، نقشهها، عکسها، تصاویر ماهوارهاي و عکسهاي گرفته شده با اشعهي ایکس، نمایانگر پیچیدگی کار تبدیل
دادهها به اطلاعات است. در نتیجه نیاز به یک روش اتوماتیک و مؤثر، جهت استخراج اطلاعات و الگوهاي مفید از یک چنین آرشیوهاي دادهاي بزرگ با تنوع دادهاي، احساس میشد. دادهکاوي، یکی از پیشرفتهاي اخیر در راستاي فنآوریهاي مدیریت دادههاست. دادهکاوي، مجموعهاي از فنون است که وراي داده پردازي معمولی حرکت کرده و به استخراج اطلاعاتی که در انبوه دادهها مخفی و پنهان است،کمک میکند. با توجه به ذات مسئله و طبیعت داده کاوي، می توان گفت که داده کاوي یک روش کارآمد در تحلیل مسائل مرتبط با مؤلفههاي مختلف منابع آب است.
مکویکار و نیرویت در سال 2001، سودمندي دادههاي هواشناسی به همراه داده هاي ماهوارهاي را براي تخمین خشکسالی سال 1997 گینه نو، مورد مطالعه قرار دادند و یک همبستگی قوي بین بارندگی و Ts و NDVI به دست آمده از ایستگاههاي هواسنجی، پیدا کردند. مرکز ملی مقابله با خشکسالی در آمریکا در دانشگاه نبراسکا با همکاري آژانس مدیریت خشکسالی طرحی را براي تهیه ابزاري جدید، جهت پایش خشکسالی آغاز نموده-اند. این ابزار با ارائه وضعیتی از پوشش گیاهی با توجه به اطلاعات هواشناسی و اقیانوسی و استفاده از تصاویر ماهوارهاي به پایش وضعیت موجود و پیشبینی میپردازد. تکنیک دادهکاوي درخت رگرسیون براي تعیین رابطه بین شرایط پوشش گیاهی و اطلاعات اقلیمی و اقیانوسی استفاده شده است تا به وسیله آن و بدست آوردن زمان تأخیر، به پیشبینی وضعیت پوشش گیاهی در 2،4و 6 هفته آینده بپردازند. تکنیکهاي مدلسازي دیگري نیز جهت افزایش دقت پیشبینیها در حال بررسی است. هدف از این مطالعه شناسایی بهترین و بالاترین رابطه بین پارامترهاي هواشناسی و اقیانوسی با تغییرات پوشش گیاهی براي بهبود پیشبینیها میباشد.[2]
تادسه و همکاران در سال 2005 با استفاده از دادهکاوي و تکنیکهاي پردازش تصویر، به مطالعاتی در جهت پایش و پیشبینی خشکسالی پرداختند.
مطالعه موردي این تحقیق، ایالات نبراسکا و داکوتاي جنوبی بود. در این مطالعه از نرم افزار Cubist جهت کاوش دادهها استفاده شد. دادههایی که در این تحقیق مورد استفاده قرار گرفت، در سه گروه دادههاي اقلیمی، ماهوارهاي و بیوفیزیکی طبقه بندي می شد. از دادههاي اقلیمی دو شاخص SPI وPDSI براي تعیین و اندازهگیري کمبود بارندگی، استخراج و مورد استفاده قرار گرفت. این دو شاخص به منظور هماهنگی با دادههاي ماهوارهاي که هر 14 روز یکبار تعیین می شدند، در بازههاي 14 روزه مورد اندازهگیري قرار گرفتند. در این تحقیق همچنین شاخص NDVI در بازههاي زمانی 14 روزه
از سنجنده AVHRR تهیه شد و متغیرهایی چون پوشش سطحی زمین، درصد زمین زیر کشت آبی، نواحی اکولوژیکی و ظرفیت آب موجود در خاك به عنوان مجموعه دادههاي بیوفیزیکی مورد استفاده قرار گرفت. این دادهها از 224 ایستگاه هواشناسی در نبراسکا و داکوتاي جنوبی براي 14 سال
از سال 1989 تا 2002 تهیه شدند و پس از ترکیب این دادهها از تکنیک مدلسازي درخت رگرسیون جهت کاوش دادهها استفاده شد.[3]
از دیگر رویکرد این تیم، استفاده از دادهکاوي در طراحی یک سیستم پیشرفته مکانی پشتیبانی تصمیمگیري در مدیریت ریسک خشکسالی می- باشد. این طرح به عنوان یک قسمت از پروژه دولت الکترونیک مطرح است. شناسایی رابطه بین رژیم تغییر رطوبت خاك با وقایع اقلیمی مانند النینو می-
تواند کمک شایانی در تصمیمگیري کشاورزان براي کاشت نوع محصول، نوع رقم اصلاح شده آن، تراکم آن و نحوه چرخش در کاشت کند.[4]
توسعهي بخش کشاورزي به خصوص در شمال تایلند، منابع آب را بسیار تحت تأثیر قرار داده و مدیران را در تصمیمگیریهاي خود دچار محدودیت ساخته است. اکاسینق و همکاران در سال 2005 به بررسی و مطالعاتی در این زمینه پرداختند. آنها با بهکارگیري تکنیکهاي دادهکاوي به توصیف و شبیهسازي قوانین تصمیمگیري کشاورزان در حوضه آبریز شمال تایلند، پرداختند. این روش می تواند جهت شبیهسازي محدودیتهاي بیوفیزیکی، اقتصادي و اجتماعی تصمیمگیریهاي کشاورزان در این ناحیه، به عنوان بخشی از مدل مدیریت یکپارچه منابع آب، مورد استفاده قرار بگیرد.[5]
سال در 2006 نیز مطالعهاي توسط شارما انجام شد. در این تحقیق، دو شاخص مورد شاخصاستفاده قرار گرفت: یکی SPI که دادههاي بارندگی 175 ایستگاه هواشناسی از سال 1970 تا 2004 جهت تعیین آن مورد استفاده قرار گرفته بود و دیگري شاخص VCI که از تصاویر به دست آمده از

سنجندهي AVHRR ماهواره NOAA، از سال 1981 تا 2003 جهت تعیین آن استفاده شده بود و همچنین از دو تکنیک قوانین همبستگی و تحلیل اجزاي مستقل جهت استخراج الگوهاي مکانی- زمانی براي پایش خشکسالی استفاده شد. در تکنیک قوانین همبستگی از هر دو شاخص و در تکنیک ICA فقط از VCI استفاده شد. جهت ارزشیابی نتایج از گزارشهاي تشخیص خشکسالی دولت هند استفاده شد و به ظریب همبستگی 0.89 رسیدند که نشان دهندهي وجود یک ضریب همبستگی قوي بود.[6] در این مقاله با استفاده از تکنیک دادهکاوي رگرسیون به تخمین رطوبت نسبی در ایستگاه هواشناسی اصفهان پرداخته و نتایج آن با روش متداول سایکرومتري مقایسه گردیده است.

.2 مواد و روشها:

دادهکاوي به عنوان یک مرحله از فرایند استخراج دانش شناخته میشود. فرایند استخراج دانش را میتوان به طور کلی به سه فاز زیر تقسیم نمود: پیش پردازش دادهها، دادهکاوي، پردازش دانش استخراج شده. در اغلب اوقات، قبل از اجراي الگوریتمهاي دادهکاوي، لازم است که برحسب نیاز، پیش پردازشهایی بر روي دادهها انجام شود. مانند جمعآوري دادههاي مرتبط، یکی کردن منابع دادهها، پاکسازي دادهها، تبدیل مقادیر پیوسته به گسسته(در صورت نیاز)، انتخاب ویژگیهاي مناسب، کاهش حجم دادهها (ملاًث با استفاده از تکنیکهاي کاهش ابعاد.) و ... [7]. دادهکاوي، به معنی استخراج اتوماتیک (یا نیمه اتوماتیک) دانش از دادهها است. دادهکاوي ترکیبی از علوم آمار، هوش مصنوعی، پایگاه دادهها و یادگیري ماشین می-
شکل باشد.( (1

شکل – 1 داده کاوي[8]


گاهی تکنیکهاي دادهکاوي با آمار اشتباه گرفته میشوند اما در حقیقت دادهکاوي و آنالیزهاي آماري تفاوتهاي اساسی دارند. در علم آمار، آمار شناسان همیشه با یک فرضیه شروع به کار میکنند. آنها از دادههاي عددي استفاده میکنند. آمارشناسان باید رابطههایی را ایجاد کنند که به فرضیه آنها مربوط است. آنها میتوانند دادههاي نابجا و نادرست را در طول آنالیز مشخص کنند. آنها میتوانند نتایج کار خود را تفسیر و براي مدیران بیان کنند. دادهکاوي، به فرضیه احتیاجی ندارد. ابزارهاي داده کاوي از انواع مختلف داده، نه تنها عددي میتوانند استفاده کنند. الگوریتمهاي داده کاوي به طور اتوماتیک روابط را ایجاد میکنند. دادهکاوي، به دادههاي صحیح و درست نیاز دارد. نتایج داده کاوي نسبتا پیچیده میباشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد.

مهمترین فعالیتی که در مرحله آخر، یعنی پردازش دانش استخراج شده انجام میشود، نمایش دانش استخراج شده به کاربر است به نحوي است که براي وي قابل درك باشد. به طور کلی تکنیکهاي دادهکاوي به دو دسته تکنیکهاي پیشگویانه و توصیفی تقسیم میشوند(شکل .(2 مدلسازي پیش-گویانه بر مبناي دادههاي تاریخی است و پیشگوییهایی را بر اساس آنچهقبلاً رخ داده است، انجام میدهد. مدلهاي توصیفی، بر خلاف مدلهاي پیش-گو، جهت جستجو و توصیف مشخصههاي دادههاي مورد آزمایش به کار میروند.

شکل - 2 طبقه بندي تکنیک هاي داده کاوي[6]

بدون شک تحلیل رگرسیون یکی از مشهورترین و پرکاربردترین تکنیکهاي داده کاوي در تخمین و پیشبینی می باشد. تحلیل رگرسیونی فن و تکنیکی آماري براي بررسی و به مدل درآوردن ارتباط مابین متغیرهاست. منظور از رگرسیون، تعیین وجود یا عدم وجود ارتباط ما بین مقادیر دو متغیر میباشد. در این رابطه دو سؤال مطرح میشود: آیا بین دو متغیر رابطه و همبستگیاي وجود دارد یا نه؟ و اگر رابطهاي بین دو متغیر مزبور وجود دارد، آیا میتوان این رابطه را به وسیلهي معادلهاي بیان نمود؟

.1.2 الگوریتمهاي مبتنی بر رگرسیون:

رگرسیون، مسئله تخمین یک مقدار خروجی بر اساس مقادیر ورودي است. رگرسیون، میتواند جهت حل مسائل کلاسبندي مورد استفاده قرار بگیرد. زمانی که رگرسیون براي کلاسبندي مورد استفاده قرار میگیرد، مقادیر ورودي همان رکوردهاي پایگاه داده D و خروجی همان متغیر کلاس میباشد. در واقع تکنیک رگرسیون، یک مجموعهاي از دادههاي آزمایشی را دریافت نموده و فرمولی را به آن دادهها برازش مینماید. رگرسیون همچنین میتواند جهت پیشگویی نیز مورد استفاده قرار بگیرد.

مسائل رگرسیون به دو دسته خطی و غیرخطی تقسیم میشوند. مسئله رگرسیون خطی مسئلهاي جهت تخمین یک فرمول براي یک خط راست است. همچنین میتواند جهت جدا کردن و دستهبندي دادهها به دو قسمت مورد استفاده قرار گیرد. یک خط راست میتواند به عنوان خطی جهت برازش دادهها و یا خطی براي تمایز میان دو کلاس مورد استفاده واقع شود. به اختصار، رگرسیون خطی از فرمول زیر پیروي مینماید:

y = c0 + c1x1 + … + cnxn ( 1)


با تعیین ضرایب رگرسیون( c0 , c1 , … , cn )، رابطه مابین پارامتر خروجی y و پارامترهاي ورودي x1 , x2 , … ,xn ، میتواند تخمین زده شود.

گاهی ممکن است که دادهها داراي ماهیت خطی باشند اما مدل خطی تولید شده به دلیل وجود نویز و استثناها، مدل خوبی نباشد. نویز به وجود مقادیر نادرست در داده گفته میشود و استثنا به وجود مقادیر استثنا و نامتعارف و غیرمنتظره در داده گفته میشود. در چنین مواردي فرمول زیر براي توصیف داده مورد استفاده قرار میگیرد:

y = c0 + c1x1 + … + cnxn +  ( 2)


که  نمایش دهنده خطاي تصادفی با میانگین صفر میباشد. میتوان دقت برازش یک مدل رگرسیون خطی را با استفاده از تابع میانگین مربعات خطا مورد محاسبه قرار داد.[8]

.2.2رطوبت نسبی:

رطوبت نسبی یکی از پارامتر هاي بسیار مهم می باشد که تاثیر بسزایی بر کیفیت هوا و سیکل گردش آب در طبیعت دارد و در ایستگاه هاي سینوپتیک، با استفاده از جداول و اصول محاسباتی سایکرومتري محاسبه می شود. براي محاسبه رطوبت نسبی از جداول سایکرومتریک استفاده می شود. بر اساس دماي خشک، دماي تر و تفاوت این دو دما در این جداول رطوبت نسبی محاسبه می گردد. لازم به ذکر است که در این روش به طور غیرمستقیم از دما به عنوان عامل مؤثر در رطوبت استفاده گردد. [11]

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید