بخشی از مقاله
*** اين فايل شامل تعدادي فرمول مي باشد و در سايت قابل نمايش نيست ***
روش ترکیبی تحلیل مولفه هاي اصلی با رگرسیون خطی چندگانه (MLR-PCA) درپیشبینی تبخیر از تشت ( مطالعه موردي: ایستگاه مراغه، آذربایجان شرقی)
چکیده
یکی از پارامترهاي مهم در برنامه ریزي و بهره برداري از مخازن، طراحی سیستمهاي آبیاري و مدیریت علمی منابع آب، تبخیر میباشد. اهمیت کاربردي تخمین تبخیر، پیچیدگی و ناشناخته بودن رابطه علت و معلولی پدیده، لزوم استفاده از روشهاي جدید دادهکاوي را نشان میدهد. به همین دلیل در این پژوهش امکان شبیه سازي تبخیر از تشت در شهرستان مراغه با استفاده از مدلهاي رگرسیون چندگانه و مدل ترکیبی رگرسیون چندگانه و تحلیل مولفههاي اصلی بررسی شد. درنهایت نتایج مدلها با در نظر گرفتن معیارهاي ارزیابی باهم مقایسه شدند. بدین ترتیب که RMSE روشهاي رگرسیون چندگانه و ترکیب رگرسیون چندگانه با مولفه هاي اصلی برابر 0/53 و 0/5 بدست آمد که نشان دهنده دقت مدل ترکیبی با وجود استفاده از دو مولفه اصلی از بین هفت مولفه بدست آمده میباشد.
واژگان کلیدي: تبخیر از تشت، تحلیل مولفه ، شبیه سازي، مراغه، مدلهاي رگرسیونی.
مقدمه
تبخیر یکی از اجزاي اصلی چرخهي هیدرولوژي و توازن آب، در طبیعت و اکوسیستمهاي کشاورزي است. اگرچه بیشترین تبخیري که رخ میدهد از سطح آزاد آب است ولی درصورت وجود انرژي، تبخیر از سطح خاك مرطوب یا از سطح گیاه نیز رخ میدهد که این مسئله از نقطه نظر کشاورزي و امر آبیاري مزارع اهمیت بهسزایی دارد .(Martinez et al, 2006) در پدیدهي تبخیر عوامل متعددي دخالت دارند که از مهمترین آنها میتوان به دماي هوا، سرعت باد، رطوبت نسبی، تابش خورشیدي اشاره کرد .(Chow et al, 1988) از آنجایی که دادههاي مربوط بـه همـه متغیرهاي موثر بر تبخیر در اکثر ایستگاه ها وجود نداشته و یا ثبت نشده است لذا باید روي متغیرهاي موجود آنالیز مناسبی انجام داد تا بتوان تاثیر نسبی آنهـا را روي ایـن پدیـده بررسـی کـرد. یکی از روشهاي آمـاري چند متغیره که امروزه به طور وسیعی مورد استفاده قرار میگیرد، روش ترکیبی تحلیل مولفههاي اصلی1 با رگرسیون خطی چندگانه(MLR-PCA) 2 است. روش PCA بین مجموعهاي بزرگ از متغیرهاي اصلی و چند مولفه اصلی، رابطه خاصی را برقرار میکند، طوري که هر مولفه را بـه صورت ترکیب خطی از متغیرهاي اصلی در نظر میگیرد. هدف اصـلی روش PCA، یافتن چند مولفه اصلی است که به کمک آنها درصد زیادي از واریانس اطلاعات مشاهده شده با آنها قابل توجیه باشد. در ایـن روش مجموعهي متغیرها (با n عضو) به مجموعه کـوچکتري از مولفههاي اصلی حاوي اطلاعات مـوثر بـر پدیـده تبـدیل میشوند (یزدان خواه، .(1387 کوور و لاکشمن (2007) مدل رگرسیونی خطی چندگانه را براي پیشبینی تبخیر روزانه از تشت تبخیر با استفاده از مشاهدات پارامترهاي هواشناسی توام با PCA بکار بردند. نتایج نشان داد که پیش بینی تبخیر با این روش ترکیبی بسیار به مشاهدات نزدیک بود. نامبردگان هر 6 متغیر را بعنوان ورودي در روش PCA استفاده کردند. تیانخو و همکاران (2009) تاثیر مولفههاي بدست آمده از روش PCA را در پیشبینی مقدار تبخیر در قطب شمال بررسی کردند. دادههاي مورد استفاده ایشان براي روش PCA شامل دما، رطوبت نسبی، سرعت باد، فشار بخار واقعی هوا و تابش خورشیدي بود. نتایج نشان داد که تغییرات مقادیر محاسبهاي تبخیر متاثر از ترکیب پارامترهاي ورودي در مدل و همچنین عکسالعمل وروديها نسبت به هم بود. سیفی و همکاران (1389) تبخیر و تعرق مرجع ایستگاه کرمان را با استفاده از مدل ترکیبی MLR و PCA مطالعه و اهمیت نسبی متغیرهاي موثر بر تبخیر و تعرق مرجع را با استفاده از تحلیل عاملی بررسی کرد. در نهایت نتایج نشان داد که متغیرهاي شدت تابش، رطوبت نسبی، ساعات آفتابی و دماي حداکثر و حداقل هوا براي برآورد تبخیر و تعرق این منطقه از اهمیت بیشتري نسبت به سایر پارامترها برخوردار بودند. نتایج نشان دهنده کاهش تعداد متغیرهاي مورد استفاده با روش PCA در ایستگاه کرمان بود. آلمیدیج (2012) پیش بینی تبخیر روزانه و ماهانه را در کویت توسط مدل رگرسیون خطی انجام داد. درنهایت رابطه بین تبخیر با دما و رطوبت نسبی هوا بصورت خطی ایجاد شد. نتایج نشان داد که مدل ایجاد شده با این پارامترها داراي همبستگی بسیار بالایی با دادههاي مشاهداتی بودند. شیخ الاسلامی و همکاران (1393) تبخیرو تعرق ایستگاه مشهد را با ترکیب روشهاي MLR و با مدل ترکیبی PCA-MLR توسعه دادند. در نتیجه دماي حداقل، متوسط، حداکثر و رطوبت نسبی براي برآورد تبخیروتعرق از اهمیت بیشتري نسبت به سایر متغیرها (ساعات آفتابی و سرعت باد) برخوردار بودند. در نهایت مقادیر ضریب تبیین روشهاي MLR-PCA و MLR بترتیب برابر 0/903 و 0/89 بدست آمده که بیانگر توانایی خوب روش PCA در مدلسازي میباشد. اسکافی نوغانی و همکاران (1387) با تدوین مدل رگرسیونی چندگانه با استفاده از پارامترهاي هواشناسی، اندازهگیري تبخیر از تشتک توسط این پارامترها را براي حوزه گرگانرود فراهم ساخته است. مقایسه نتایج مدل تدوین شده در این حوزه با مقادیر اندازه گیري شده تبخیر دقت مناسب این مدل را تایید میکند. کوئیشی و رائو (2014) روش PCA را براي دادههاي همخانواده بکار بردند. آنها توزیعهاي آماري نزدیک بهم را با کاهش تعداد بعدهاي همانند بدست آوردند. نتایج در ایجاد ضریب اطمینان قابل اعتماد براي ضرایب و واریانسهاي مولفههاي اصلی میتوانن بکار روند. در این تحقیق براي جلوگیري از مشکلات ذکرشده در مدل رگرسیونی، از روش تحلیل مؤلفه اصلی براي پردازش متغیرهاي ورودي، حذف همبستگی بین متغیرهاي مستقل و تفسیر بهتر نتایج مدل رگرسیون خطی چندمتغیره نیز استفاده شده است. بنابراین، هدف این مطالعه بسط مدل رگرسیونی چندگانه- تحلیل مولفه-هاي اصلی در پیشبینی از تشت تبخیر در ایستگاه مراغه میباشد.
روش تحقیق
منطقه مورد مطالعه
شهرستان مراغه با وسعت 2597 کیلومتر مربع 4,8) درصد مساحت استان) در 130 کیلومتري تبریز واقع شده و در عرض شمالی 37 درجه و 1 دقیقه الی 37 درجه و 45 دقیقه و در طول شرقی 46 درجه و 9 دقیقه الی 46 درجه و 44 دقیقه قرار گرفته است. بخش شمالی که شامل دامنههاي جنوبی ارتفاعات سهند میباشد، به صورت کوهستانی و ناهموار بوده و بخش مرکزي و جنوبی شهرستان، به صورت دشت و جلگه میباشد. میزان نزولات جوي در استان بطور متوسط از 250 الی 600 میلیمتر در سال در نوسان و تبخیر در حدود 1700 میلی متر در سال است. فصول زمستان و بهار، فصول بارندگی منطقه محسـوب مـیشـوند و بیشترین شدت بارندگی در بهار مشاهده میشود. فصل پاییز نیز در رده سوم از لحاظ بارندگی پس از بهـار و زمستان است.
داده هاي مورد استفاده
در این مطالعه از دادههاي تبخیر، دماي حداکثر و حداقل، رطوبت نسبی حدکثر و حداقل، ساعات آفتابی و سرعت باد استفاده شده است. دادهها از سازمان آب منطقهاي آذربایجان شرقی اخذ شده و پس از بررسی اشتراك زمانی پارامترهاي ذکر شده در بالا، سال 1371 بعنوان مبدا مطالعات انتخاب شد. بدلیل نبود یا گم شدن برخی دادهها، از روش رگرسیونی براي تخمین این دادهها استفاده شد. تعداد 10 ایستگاه از دیگر شهرستانهاي استان انتخاب شده و ماتریس همبستگی بین ایستگاه مراغه و دیگر ایستگاهها بصورت ماهانه و بعضا فصلی تشکیل یافت. بعد از تشکیل ماتریس همبستگی معنی داري مقادیر همبستگی بین این مقادیر توسط آزمون t در سطح احتمال %5 بررسی شد و توسط رابطه رگرسیونی معادله هرکدام بدست آمد. درنهایت با استفاده از دادههاي مشترك ایستگاههاي مجاور، دادههاي گمشده تخمین زده شدند. آزمون t براي بررسی معنی داري همبستگی بین متغیرها، توسط رابطه شماره (1) به شرح زیر است :(Madement, 2009)
مدل رگرسون خطی چندگانه MLR
با این روش میتوان همزمان به تحلیل و بررسـی چنـدین متغیـر مختلف پرداخت. براي بدست آوردن نتایج مطلوبتر از طریق MLR، نمونهها باید زیاد و دقیق باشند. زیـرا ایـن روش در مقابـل اطلاعـات نادرست، حساسیت بالایی دارد و ورود چنین دادههـایی ممکـن اسـت منجر به بروز خطاهاي بزرگی در نتایج بدست آمده شود. علاوه بر این، براي استفاده از این روش، متغیرها باید توزیع نرمال داشته باشند و تغییر آنها از یک رابطه خطی پیروي کند. رگرسیون چندگانه در حقیقت، ارتباط بین یک سري از متغیرهـاي پیشگو را با متغیر پاسخ مورد نظر بیان میکنـد .(Balan et al, 1995)
در صـورت وجـود متغیرهاي مستقل xn,... ,x2 ,x1 اگر بخواهیم ارتباط خطی بین آنها و متغیر Y که وابسته به آنهاست ایجاد کنیم، رابطه زیـر بایـد بـین آنهـا برقرار باشد:
که در این رابطه، از مقادیر an ,... ,a2 ,a1 با عنوان ضرایب رگرسیون یاد میشود. این ضرایب، ضرایب نامشخصی هسـتند کـه در حقیقـت، مسئول برآورد پارامتر پاسخ هستند .(Balan et al, 1995)
لازم اسـت قبـل از سـاخت مـدل رگرسـیونی، همبـستگی بـین متغیرهاي مستقل را از بین برد. در این خصوص، روش مناسب استفاده از تحلیل مؤلفههاي اصلی روي متغیرهاي مستقل ورودي بـه مـدل است. ماتریس همبستگی بین متغیرهاي تبخیر، دماي حداکثر و حداقل، رطوبت نسبی حداکثر و حداقل، ساعات آفتابی و سرعت باد تشکیل شد تا همبستگی بین آنها بررسی شود. جدول 1 نشان دهنده این ماتریس همبستگی میباشد. بررسی اولیه نـشان داد کـه بـین متغیرهاي ورودي مورد استفاده در این تحقیق همبستگی معنـیداري وجود دارد که براي از بین بردن این مـشکل، از روش PCA اسـتفاده شد.
روش آنالیز مولفههاي اصلی((PCA
تحلیل مولفه اصلی از روشهاي آماري چندمتغیره است که میتوان از آن براي کاهش پیچیـدگی تحلیـل متغیرهـاي اولیه مسئله در مواردي که با حجم زیادي از اطلاعات روبرو هستیم و همچنین براي تفسیر بهتر اطلاعات استفاده نمود(.(Camdevyren et al, 2005 در روش آنالیز مؤلفههاي اصلی P متغیـر اصـلی همبـسته بـه P مؤلفـه غیرهمبـسته یـا متعامـد تبـدیل مـی شـوند. بـا اعمـال PCA متغیرهاي ورودي اصلی به متغیرهـاي جدیـد کـه بـدون همبـستگی میباشند، تبدیل میشوند. مؤلفههاي ایجاد شده ترکیبـی خطـی از متغیرهاي اصلی میباشند(.(Lin et al, 2003 به علاوه چون در تشکیل مولفههـا از تمام متغیرها استفاده میگردد، در نتیجه اطلاعات متغیرهاي اولیـه بـا کمترین تلفات به وسیله مولفههاي حاصل ارائـه مـیشـود و باعـث از دست دادن جنبههاي اطلاعاتی دادههاي اصلی نمیشـود .(Konishi and Rao, 2014)
روش کار براي ایجاد مولفههاي اصلی و تعیین متغیرهاي اصلی بـه صـورت زیر میباشد:
الف- محاسبه فاکتور 3KMO
این عامل با استفاده از ضرایب همبستگی ساده و جزئی طبق رابطه (3) محاسبه میشود. در این رابطه، rij و aij ضـرایب همبـستگی سـاده و جزئی بین متغیرهاي i وj بوده و p تعداد دادهها میباشد. با توجه بـه رابطـه مقـادیر بزرگتـر KMO
مستلزم کوچک بودن ضرایب همبـستگی جزئـی مـیباشـد و بیانگر دقت محاسبات مربوطه، با استفاده از PCA است
در صورتی که این عامل بزرگتـر از 0/5 بـه دسـت آیـد، نـشان دهندهي امکان اجراي این روش بر دادههاي اصلی میباشد.
ب- استاندارد نمودن متغیرهاي ورودي
در این مرحلـه دادههـاي ورودي بر اساس فرمول زیر به نحوي استاندارد مـیشـوند کـه داراي میانگین صفر و انحراف معیار یک باشند.
در این فرمول، Z معادل مقادیر استاندارد شده دادهها، X دادههاي ورودي، μ میانگین هر متغیر و σ نیز مقادیر انحرافv معیـار بـراي هـر متغیر است (نوري و همکاران، 1387 (
ج- محاسبه ماتریس همبستگی (R)
براي متغیرهاي اولیـه، ایـن ماتریس، که ماتریسی متقارن است، میزان تغییرات در نمونه و میـزان همبستگی P متغیر را با هم نشان میدهد (نوري و همکاران، .(1387
د- محاسبه مقادیر ویژه (λ) و بردارهاي ویژه مربوطه از مـاتریس همبستگی
بدین منظور معادله زیر حل می شود: Ip یک ماتریس واحد با بعد p × p میباشد.
بنابراین میتـوان p مقــدار ویــژه مرتــب شــده λP ≤ ... ≤ λ2 ≤ λ1 را بدســت آورد، بطوري که مجموع مقادیر ویژه برابر بـا p باشـد. هـر مقـدار ویـژه بـا اطلاعات مربوط به آن (بردارهاي ویژه) ویژگیهاي یک مولفه را ارائه میدهد. انتخاب چنـد مولفـه اول کـه بیشترین مقدار واریانس را دارند و به عنوان مولفههاي اصـلی شـناخته میشوند، از اساسیترین اقدامات در تجزیه و تحلیل مولفههاي اصـلی میباشد. نمودار واریزهاي یکی از روشهاي تـشخیص آسـتانه حـذف میباشد که در آن مقادیر ویژه در مقابل شماره مولفهها رسم میشـود. در این روش، مرز بین مولفههاي اصلی و غیراصلی محلی است که نمودار میل به خطی شدن مینماید 1)ناظمالسادات و همکاران، .(1382 به منظور دستیابی به ماتریـسی سـاده و از نظـر تئوریکی معنادار و قابل تفسیر از چرخش عاملها استفاده مـیشـود. در نتیجه، روش واریماکس اسـتفاده وسیعتري در بین محققین دارد و یکی از انواع چرخشهـاي عمـودي است .(Jahnson and Wichem, 1982) براي اجراي تحلیل مولفههاي اصـلی از نرم افزارهاي آماري مختلفی میتوان بهـره گرفـت و در ایـن تحقیق از نرمافـزار آمـاري بـراي ایـن منظـور
استفاده گردید.
معیارهاي ارزیابی عملکرد
به منظور مقایسه و ارزیابی عملکـرد مـدلهـاي مـورد بررسـی از پارامترهاي میانگین مربعات خطا (RMSE) و ضریب همبستگی (R) استفاده میگردد. فرمولهـاي ارائـه شده براي این پارامترها بصورت زیر میباشد:
در این معادلات، n تعداد دادهها، Pi معـادل مقـادیر مشاهده شده از تشت تبخیر ، Oi مقـادیر تبخیر از روش MLR- PCA و MLR میباشند و مقدار میانگین این پارامترها میباشد. پارامتر RMSE هم بعد با پارامترهایی هستند که از آنها بدست آمدهاند و R بدون بعد است.
نتایج و بحث
در ابتدا نتایج روش تحلیل مولفههاي اصلی ارائه شده و در ادامـه نتــایج رگرســیون چندگانــه ترکیبــی مستقل ارائه شده است.
پیش پردازش متغیرهـاي ورودي بـه مـدل رگرسـیونی بـا PCA
براي بررسی امکان اجـراي آنـالیز مولفـه هـاي اصـلی از آزمـون KMO استفاده شـد. مقـدار KMO=0/727 امکـان اجـراي PCAرا تأیید کرد. براي اجراي این روش، پس از نرمالسازي متغیرهـاي ورودي مـاتریس متقـارن همبـستگی از مرتبـه 6 (معـادل بـا تعـداد متغیرهاي ورودي) تشکیل شد که نتایج آن در جدول 1 ارائـه شـده است. با حل دستگاه معادله 7، 6 مقدار ویـژه و بـه ازاي مقـادیر ویژه 6 بردار ویژه، حاصل میشود که با اسـتفاده از آنهـا، مولفـههـاي اصلی از متغیرهاي اولیه به دست مـیآیـد. مشخـصات هـر مولفـه در جدول 2 آورده شده است. در جدول 3 مقادیر بردارهاي ویژه آمـده است که ضرایب هر مولفـه را بـراي محاسـبه آنهـا تعیـین مـیکنـد. همانطور که در جدول2 نشان داده شده است، مقـدار اولـین مولفـه برابر 3/706 میباشد که 61/762 درصد از کل واریانس موجـود در سري دادهها را توجیه مینمایـد. دومـین مقـدار ویـژه نیـز 18/871درصد از کل واریانس را توجیه مینماید و ایـن دو مولفـه حـدود 81 درصد کل پراکندگی دادههاي اصلی را بیان می-کنند. بنـابراین، تقریبـا میتوان دو مولفه اول را به عنوان مولفه اصلی قلمـداد نمـود. مـی تـوان دو مؤلفـه اول را به عنوان مؤلفه اصلی انتخاب کرد زیرا در نمودار واریزه اي (شکل (1 نیـز تغییـرات مقـادیر ویـژه بـا شـماره مؤلفه ها براي مؤلفه هاي بزرگ تر از 2 تقریبا تشکیل خطـی کم شیب را داده اند. نـوري قیداري (1389) در مطالعه اي در مورد منطقه سیلابی دریاچه ارومیه، سـه مؤلفه اول که 87/5 درصد از پراکندگی داده ها را بیان می کردند، بـه عنوان مؤلفه هاي اصلی در نظر گرفت. در جدول 3 مقادیر بردارهاي ویژه مربوط به ایستگاه مراغه آورده شده است که ضرایب هر مؤلفه را براي محاسبه آنها تعیین مـی-کنـد. براي تشکیل مؤلفه اول بایستی مقادیر متغیر پارامترها را در بردارهـاي ویژه مربوط به هر متغیر ضرب نموده و حاصل را بـا هـم جمـع کـرد .یعنی دمـاي حـداکثر را در 0/948، مقـادیر متغیـر دمـاي حـداقل را در 0/86 و به همین ترتیب مقادیر بقیـه متغیرهـا را در ضـرایب مربـوط ضرب کرد.