مقاله روش ترکیبی تحلیل مولفههای اصلی با رگرسیون خطی چندگانه (MLR-PCA) درپیشبینی تبخیر از تشت ( مطالعه موردی: ایستگاه مراغه، آذربایجان شرقی)

word قابل ویرایش
18 صفحه
دسته : اطلاعیه ها
12700 تومان
127,000 ریال – خرید و دانلود

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

روش ترکیبی تحلیل مولفه های اصلی با رگرسیون خطی چندگانه (MLR-PCA) درپیشبینی تبخیر از تشت ( مطالعه موردی: ایستگاه مراغه، آذربایجان شرقی)

چکیده

یکی از پارامترهای مهم در برنامه ریزی و بهره برداری از مخازن، طراحی سیستمهای آبیاری و مدیریت علمی منابع آب، تبخیر میباشد. اهمیت کاربردی تخمین تبخیر، پیچیدگی و ناشناخته بودن رابطه علت و معلولی پدیده، لزوم استفاده از روشهای جدید دادهکاوی را نشان میدهد. به همین دلیل در این پژوهش امکان شبیه سازی تبخیر از تشت در شهرستان مراغه با استفاده از مدلهای رگرسیون چندگانه و مدل ترکیبی رگرسیون چندگانه و تحلیل مولفههای اصلی بررسی شد. درنهایت نتایج مدلها با در نظر گرفتن معیارهای ارزیابی باهم مقایسه شدند. بدین ترتیب که RMSE روشهای رگرسیون چندگانه و ترکیب رگرسیون چندگانه با مولفه های اصلی برابر ۰/۵۳ و ۰/۵ بدست آمد که نشان دهنده دقت مدل ترکیبی با وجود استفاده از دو مولفه اصلی از بین هفت مولفه بدست آمده میباشد.

واژگان کلیدی: تبخیر از تشت، تحلیل مولفه ، شبیه سازی، مراغه، مدلهای رگرسیونی.

مقدمه
تبخیر یکی از اجزای اصلی چرخهی هیدرولوژی و توازن آب، در طبیعت و اکوسیستمهای کشاورزی است. اگرچه بیشترین تبخیری که رخ میدهد از سطح آزاد آب است ولی درصورت وجود انرژی، تبخیر از سطح خاک مرطوب یا از سطح گیاه نیز رخ میدهد که این مسئله از نقطه نظر کشاورزی و امر آبیاری مزارع اهمیت بهسزایی دارد .(Martinez et al, 2006) در پدیدهی تبخیر عوامل متعددی دخالت دارند که از مهمترین آنها میتوان به دمای هوا، سرعت باد، رطوبت نسبی، تابش خورشیدی اشاره کرد .(Chow et al, 1988) از آنجایی که دادههای مربوط بـه همـه متغیرهای موثر بر تبخیر در اکثر ایستگاه ها وجود نداشته و یا ثبت نشده است لذا باید روی متغیرهای موجود آنالیز مناسبی انجام داد تا بتوان تاثیر نسبی آنهـا را روی ایـن پدیـده بررسـی کـرد. یکی از روشهای آمـاری چند متغیره که امروزه به طور وسیعی مورد استفاده قرار میگیرد، روش ترکیبی تحلیل مولفههای اصلی۱ با رگرسیون خطی چندگانه(MLR-PCA) 2 است. روش PCA بین مجموعهای بزرگ از متغیرهای اصلی و چند مولفه اصلی، رابطه خاصی را برقرار میکند، طوری که هر مولفه را بـه صورت ترکیب خطی از متغیرهای اصلی در نظر میگیرد. هدف اصـلی روش PCA، یافتن چند مولفه اصلی است که به کمک آنها درصد زیادی از واریانس اطلاعات مشاهده شده با آنها قابل توجیه باشد. در ایـن روش مجموعهی متغیرها (با n عضو) به مجموعه کـوچکتری از مولفههای اصلی حاوی اطلاعات مـوثر بـر پدیـده تبـدیل میشوند (یزدان خواه، .(۱۳۸۷ کوور و لاکشمن (۲۰۰۷) مدل رگرسیونی خطی چندگانه را برای پیشبینی تبخیر روزانه از تشت تبخیر با استفاده از مشاهدات پارامترهای هواشناسی توام با PCA بکار بردند. نتایج نشان داد که پیش بینی تبخیر با این روش ترکیبی بسیار به مشاهدات نزدیک بود. نامبردگان هر ۶ متغیر را بعنوان ورودی در روش PCA استفاده کردند. تیانخو و همکاران (۲۰۰۹) تاثیر مولفههای بدست آمده از روش PCA را در پیشبینی مقدار تبخیر در قطب شمال بررسی کردند. دادههای مورد استفاده ایشان برای روش PCA شامل دما، رطوبت نسبی، سرعت باد، فشار بخار واقعی هوا و تابش خورشیدی بود. نتایج نشان داد که تغییرات مقادیر محاسبهای تبخیر متاثر از ترکیب پارامترهای ورودی در مدل و همچنین عکسالعمل ورودیها نسبت به هم بود. سیفی و همکاران (۱۳۸۹) تبخیر و تعرق مرجع ایستگاه کرمان را با استفاده از مدل ترکیبی MLR و PCA مطالعه و اهمیت نسبی متغیرهای موثر بر تبخیر و تعرق مرجع را با استفاده از تحلیل عاملی بررسی کرد. در نهایت نتایج نشان داد که متغیرهای شدت تابش، رطوبت نسبی، ساعات آفتابی و دمای حداکثر و حداقل هوا برای برآورد تبخیر و تعرق این منطقه از اهمیت بیشتری نسبت به سایر پارامترها برخوردار بودند. نتایج نشان دهنده کاهش تعداد متغیرهای مورد استفاده با روش PCA در ایستگاه کرمان بود. آلمیدیج (۲۰۱۲) پیش بینی تبخیر روزانه و ماهانه را در کویت توسط مدل رگرسیون خطی انجام داد. درنهایت رابطه بین تبخیر با دما و رطوبت نسبی هوا بصورت خطی ایجاد شد. نتایج نشان داد که مدل ایجاد شده با این پارامترها دارای همبستگی بسیار بالایی با دادههای مشاهداتی بودند. شیخ الاسلامی و همکاران (۱۳۹۳) تبخیرو تعرق ایستگاه مشهد را با ترکیب روشهای MLR و با مدل ترکیبی PCA-MLR توسعه دادند. در نتیجه دمای حداقل، متوسط، حداکثر و رطوبت نسبی برای برآورد تبخیروتعرق از اهمیت بیشتری نسبت به سایر متغیرها (ساعات آفتابی و سرعت باد) برخوردار بودند. در نهایت مقادیر ضریب تبیین روشهای MLR-PCA و MLR بترتیب برابر ۰/۹۰۳ و ۰/۸۹ بدست آمده که بیانگر توانایی خوب روش PCA در مدلسازی میباشد. اسکافی نوغانی و همکاران (۱۳۸۷) با تدوین مدل رگرسیونی چندگانه با استفاده از پارامترهای هواشناسی، اندازهگیری تبخیر از تشتک توسط این پارامترها را برای حوزه گرگانرود فراهم ساخته است. مقایسه نتایج مدل تدوین شده در این حوزه با مقادیر اندازه گیری شده تبخیر دقت مناسب این مدل را تایید میکند. کوئیشی و رائو (۲۰۱۴) روش PCA را برای دادههای همخانواده بکار بردند. آنها توزیعهای آماری نزدیک بهم را با کاهش تعداد بعدهای همانند بدست آوردند. نتایج در ایجاد ضریب اطمینان قابل اعتماد برای ضرایب و واریانسهای مولفههای اصلی میتوانن بکار روند. در این تحقیق برای جلوگیری از مشکلات ذکرشده در مدل رگرسیونی، از روش تحلیل مؤلفه اصلی برای پردازش متغیرهای ورودی، حذف همبستگی بین متغیرهای مستقل و تفسیر بهتر نتایج مدل رگرسیون خطی چندمتغیره نیز استفاده شده است. بنابراین، هدف این مطالعه بسط مدل رگرسیونی چندگانه- تحلیل مولفه-های اصلی در پیشبینی از تشت تبخیر در ایستگاه مراغه میباشد.

روش تحقیق
منطقه مورد مطالعه
شهرستان مراغه با وسعت ۲۵۹۷ کیلومتر مربع ۴,۸) درصد مساحت استان) در ۱۳۰ کیلومتری تبریز واقع شده و در عرض شمالی ۳۷ درجه و ۱ دقیقه الی ۳۷ درجه و ۴۵ دقیقه و در طول شرقی ۴۶ درجه و ۹ دقیقه الی ۴۶ درجه و ۴۴ دقیقه قرار گرفته است. بخش شمالی که شامل دامنههای جنوبی ارتفاعات سهند میباشد، به صورت کوهستانی و ناهموار بوده و بخش مرکزی و جنوبی شهرستان، به صورت دشت و جلگه میباشد. میزان نزولات جوی در استان بطور متوسط از ۲۵۰ الی ۶۰۰ میلیمتر در سال در نوسان و تبخیر در حدود ۱۷۰۰ میلی متر در سال است. فصول زمستان و بهار، فصول بارندگی منطقه محسـوب مـیشـوند و بیشترین شدت بارندگی در بهار مشاهده میشود. فصل پاییز نیز در رده سوم از لحاظ بارندگی پس از بهـار و زمستان است.

داده های مورد استفاده
در این مطالعه از دادههای تبخیر، دمای حداکثر و حداقل، رطوبت نسبی حدکثر و حداقل، ساعات آفتابی و سرعت باد استفاده شده است. دادهها از سازمان آب منطقهای آذربایجان شرقی اخذ شده و پس از بررسی اشتراک زمانی پارامترهای ذکر شده در بالا، سال ۱۳۷۱ بعنوان مبدا مطالعات انتخاب شد. بدلیل نبود یا گم شدن برخی دادهها، از روش رگرسیونی برای تخمین این دادهها استفاده شد. تعداد ۱۰ ایستگاه از دیگر شهرستانهای استان انتخاب شده و ماتریس همبستگی بین ایستگاه مراغه و دیگر ایستگاهها بصورت ماهانه و بعضا فصلی تشکیل یافت. بعد از تشکیل ماتریس همبستگی معنی داری مقادیر همبستگی بین این مقادیر توسط آزمون t در سطح احتمال %۵ بررسی شد و توسط رابطه رگرسیونی معادله هرکدام بدست آمد. درنهایت با استفاده از دادههای مشترک ایستگاههای مجاور، دادههای گمشده تخمین زده شدند. آزمون t برای بررسی معنی داری همبستگی بین متغیرها، توسط رابطه شماره (۱) به شرح زیر است :(Madement, 2009)

مدل رگرسون خطی چندگانه MLR
با این روش میتوان همزمان به تحلیل و بررسـی چنـدین متغیـر مختلف پرداخت. برای بدست آوردن نتایج مطلوبتر از طریق MLR، نمونهها باید زیاد و دقیق باشند. زیـرا ایـن روش در مقابـل اطلاعـات نادرست، حساسیت بالایی دارد و ورود چنین دادههـایی ممکـن اسـت منجر به بروز خطاهای بزرگی در نتایج بدست آمده شود. علاوه بر این، برای استفاده از این روش، متغیرها باید توزیع نرمال داشته باشند و تغییر آنها از یک رابطه خطی پیروی کند. رگرسیون چندگانه در حقیقت، ارتباط بین یک سری از متغیرهـای پیشگو را با متغیر پاسخ مورد نظر بیان میکنـد .(Balan et al, 1995)
در صـورت وجـود متغیرهای مستقل xn,… ,x2 ,x1 اگر بخواهیم ارتباط خطی بین آنها و متغیر Y که وابسته به آنهاست ایجاد کنیم، رابطه زیـر بایـد بـین آنهـا برقرار باشد:

که در این رابطه، از مقادیر an ,… ,a2 ,a1 با عنوان ضرایب رگرسیون یاد میشود. این ضرایب، ضرایب نامشخصی هسـتند کـه در حقیقـت، مسئول برآورد پارامتر پاسخ هستند .(Balan et al, 1995)

لازم اسـت قبـل از سـاخت مـدل رگرسـیونی، همبـستگی بـین متغیرهای مستقل را از بین برد. در این خصوص، روش مناسب استفاده از تحلیل مؤلفههای اصلی روی متغیرهای مستقل ورودی بـه مـدل است. ماتریس همبستگی بین متغیرهای تبخیر، دمای حداکثر و حداقل، رطوبت نسبی حداکثر و حداقل، ساعات آفتابی و سرعت باد تشکیل شد تا همبستگی بین آنها بررسی شود. جدول ۱ نشان دهنده این ماتریس همبستگی میباشد. بررسی اولیه نـشان داد کـه بـین متغیرهای ورودی مورد استفاده در این تحقیق همبستگی معنـیداری وجود دارد که برای از بین بردن این مـشکل، از روش PCA اسـتفاده شد.

روش آنالیز مولفههای اصلی((PCA
تحلیل مولفه اصلی از روشهای آماری چندمتغیره است که میتوان از آن برای کاهش پیچیـدگی تحلیـل متغیرهـای اولیه مسئله در مواردی که با حجم زیادی از اطلاعات روبرو هستیم و همچنین برای تفسیر بهتر اطلاعات استفاده نمود(.(Camdevyren et al, 2005 در روش آنالیز مؤلفههای اصلی P متغیـر اصـلی همبـسته بـه P مؤلفـه غیرهمبـسته یـا متعامـد تبـدیل مـی شـوند. بـا اعمـال PCA متغیرهای ورودی اصلی به متغیرهـای جدیـد کـه بـدون همبـستگی میباشند، تبدیل میشوند. مؤلفههای ایجاد شده ترکیبـی خطـی از متغیرهای اصلی میباشند(.(Lin et al, 2003 به علاوه چون در تشکیل مولفههـا از تمام متغیرها استفاده میگردد، در نتیجه اطلاعات متغیرهای اولیـه بـا کمترین تلفات به وسیله مولفههای حاصل ارائـه مـیشـود و باعـث از دست دادن جنبههای اطلاعاتی دادههای اصلی نمیشـود .(Konishi and Rao, 2014)

روش کار برای ایجاد مولفههای اصلی و تعیین متغیرهای اصلی بـه صـورت زیر میباشد:

الف- محاسبه فاکتور ۳KMO
این عامل با استفاده از ضرایب همبستگی ساده و جزئی طبق رابطه (۳) محاسبه میشود. در این رابطه، rij و aij ضـرایب همبـستگی سـاده و جزئی بین متغیرهای i وj بوده و p تعداد دادهها میباشد. با توجه بـه رابطـه مقـادیر بزرگتـر KMO
مستلزم کوچک بودن ضرایب همبـستگی جزئـی مـیباشـد و بیانگر دقت محاسبات مربوطه، با استفاده از PCA است
در صورتی که این عامل بزرگتـر از ۰/۵ بـه دسـت آیـد، نـشان دهندهی امکان اجرای این روش بر دادههای اصلی میباشد.
ب- استاندارد نمودن متغیرهای ورودی
در این مرحلـه دادههـای ورودی بر اساس فرمول زیر به نحوی استاندارد مـیشـوند کـه دارای میانگین صفر و انحراف معیار یک باشند.

در این فرمول، Z معادل مقادیر استاندارد شده دادهها، X دادههای ورودی، μ میانگین هر متغیر و σ نیز مقادیر انحرافv معیـار بـرای هـر متغیر است (نوری و همکاران، ۱۳۸۷ (
ج- محاسبه ماتریس همبستگی (R)
برای متغیرهای اولیـه، ایـن ماتریس، که ماتریسی متقارن است، میزان تغییرات در نمونه و میـزان همبستگی P متغیر را با هم نشان میدهد (نوری و همکاران، .(۱۳۸۷

د- محاسبه مقادیر ویژه (λ) و بردارهای ویژه مربوطه از مـاتریس همبستگی

بدین منظور معادله زیر حل می شود: Ip یک ماتریس واحد با بعد p × p میباشد.

بنابراین میتـوان p مقــدار ویــژه مرتــب شــده λP ≤ … ≤ λ۲ ≤ λ۱ را بدســت آورد، بطوری که مجموع مقادیر ویژه برابر بـا p باشـد. هـر مقـدار ویـژه بـا اطلاعات مربوط به آن (بردارهای ویژه) ویژگیهای یک مولفه را ارائه میدهد. انتخاب چنـد مولفـه اول کـه بیشترین مقدار واریانس را دارند و به عنوان مولفههای اصـلی شـناخته میشوند، از اساسیترین اقدامات در تجزیه و تحلیل مولفههای اصـلی میباشد. نمودار واریزهای یکی از روشهای تـشخیص آسـتانه حـذف میباشد که در آن مقادیر ویژه در مقابل شماره مولفهها رسم میشـود. در این روش، مرز بین مولفههای اصلی و غیراصلی محلی است که نمودار میل به خطی شدن مینماید ۱)ناظمالسادات و همکاران، .(۱۳۸۲ به منظور دستیابی به ماتریـسی سـاده و از نظـر تئوریکی معنادار و قابل تفسیر از چرخش عاملها استفاده مـیشـود. در نتیجه، روش واریماکس اسـتفاده وسیعتری در بین محققین دارد و یکی از انواع چرخشهـای عمـودی است .(Jahnson and Wichem, 1982) برای اجرای تحلیل مولفههای اصـلی از نرم افزارهای آماری مختلفی میتوان بهـره گرفـت و در ایـن تحقیق از نرمافـزار آمـاری بـرای ایـن منظـور
استفاده گردید.
معیارهای ارزیابی عملکرد
به منظور مقایسه و ارزیابی عملکـرد مـدلهـای مـورد بررسـی از پارامترهای میانگین مربعات خطا (RMSE) و ضریب همبستگی (R) استفاده میگردد. فرمولهـای ارائـه شده برای این پارامترها بصورت زیر میباشد:

در این معادلات، n تعداد دادهها، Pi معـادل مقـادیر مشاهده شده از تشت تبخیر ، Oi مقـادیر تبخیر از روش MLR- PCA و MLR میباشند و مقدار میانگین این پارامترها میباشد. پارامتر RMSE هم بعد با پارامترهایی هستند که از آنها بدست آمدهاند و R بدون بعد است.
نتایج و بحث
در ابتدا نتایج روش تحلیل مولفههای اصلی ارائه شده و در ادامـه نتــایج رگرســیون چندگانــه ترکیبــی مستقل ارائه شده است.
پیش پردازش متغیرهـای ورودی بـه مـدل رگرسـیونی بـا PCA
برای بررسی امکان اجـرای آنـالیز مولفـه هـای اصـلی از آزمـون KMO استفاده شـد. مقـدار KMO=0/727 امکـان اجـرای PCAرا تأیید کرد. برای اجرای این روش، پس از نرمالسازی متغیرهـای ورودی مـاتریس متقـارن همبـستگی از مرتبـه ۶ (معـادل بـا تعـداد متغیرهای ورودی) تشکیل شد که نتایج آن در جدول ۱ ارائـه شـده است. با حل دستگاه معادله ۷، ۶ مقدار ویـژه و بـه ازای مقـادیر ویژه ۶ بردار ویژه، حاصل میشود که با اسـتفاده از آنهـا، مولفـههـای اصلی از متغیرهای اولیه به دست مـیآیـد. مشخـصات هـر مولفـه در جدول ۲ آورده شده است. در جدول ۳ مقادیر بردارهای ویژه آمـده است که ضرایب هر مولفـه را بـرای محاسـبه آنهـا تعیـین مـیکنـد. همانطور که در جدول۲ نشان داده شده است، مقـدار اولـین مولفـه برابر ۳/۷۰۶ میباشد که ۶۱/۷۶۲ درصد از کل واریانس موجـود در سری دادهها را توجیه مینمایـد. دومـین مقـدار ویـژه نیـز ۱۸/۸۷۱درصد از کل واریانس را توجیه مینماید و ایـن دو مولفـه حـدود ۸۱ درصد کل پراکندگی دادههای اصلی را بیان می-کنند. بنـابراین، تقریبـا میتوان دو مولفه اول را به عنوان مولفه اصلی قلمـداد نمـود. مـی تـوان دو مؤلفـه اول را به عنوان مؤلفه اصلی انتخاب کرد زیرا در نمودار واریزه ای (شکل (۱ نیـز تغییـرات مقـادیر ویـژه بـا شـماره مؤلفه ها برای مؤلفه های بزرگ تر از ۲ تقریبا تشکیل خطـی کم شیب را داده اند. نـوری قیداری (۱۳۸۹) در مطالعه ای در مورد منطقه سیلابی دریاچه ارومیه، سـه مؤلفه اول که ۸۷/۵ درصد از پراکندگی داده ها را بیان می کردند، بـه عنوان مؤلفه های اصلی در نظر گرفت. در جدول ۳ مقادیر بردارهای ویژه مربوط به ایستگاه مراغه آورده شده است که ضرایب هر مؤلفه را برای محاسبه آنها تعیین مـی-کنـد. برای تشکیل مؤلفه اول بایستی مقادیر متغیر پارامترها را در بردارهـای ویژه مربوط به هر متغیر ضرب نموده و حاصل را بـا هـم جمـع کـرد .یعنی دمـای حـداکثر را در ۰/۹۴۸، مقـادیر متغیـر دمـای حـداقل را در ۰/۸۶ و به همین ترتیب مقادیر بقیـه متغیرهـا را در ضـرایب مربـوط ضرب کرد.

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
word قابل ویرایش - قیمت 12700 تومان در 18 صفحه
127,000 ریال – خرید و دانلود
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد