بخشی از مقاله
چکیده
داده ي پرت مشاهدهاي است که به طور غیر عادي یا اتفاقی از وضعیت عمومی دادههاي تحت آزمایش و نسبت به قاعدهاي که بر اساس آن آنالیز میشود، انحراف داشته باشد. در آنالیز منطقهاي سیلاب دادههاي پرت بالا باعث برآورد زیاد سیلاب طرح شده که این موجب بالا رفتن هزینههاي ساخت سازههاي آبی میگردد. دادههاي حدي پایین نیز به علت برآورد کم سیلاب طرح سبب افزایش هزینههاي تخریب سازهها میشود. براي به دست آوردن دادههاي پرت راههاي گوناگونی وجود دارد ولی در علم هیدرولوژي هنوز راهی با دقت بالا به طور جامع یافت نمیشود.
در این تحقیق با استفاده از روش تجزیه به مولفه اصلی - PCA - به شناسایی دادههاي پرت حداکثر سیلاب سالانه در دوحوضهي گاماسیاب و قرهچاي واقع در استان همدان در 22 ایستگاه هیدرومتري و در طی سالهاي 1379-1334 پرداخته شد . در این روش با توجه به سه مولفهي اصلی و روابط بین این سه مولفه میتوان پی به وجود دادهي پرت برد. روش تجزیه به مولفه اصلی - PCA - در شناسایی دادهي پرت سیلاب نتایج خوبی را ارائه داد. نتایج حاصل نشان داد که سالهاي آماري 1357، 1364 و 1373 در ایستپاههاي هیدرومتري مورد مطالعه به عنوان دادهي پرت شناسایی شدند.
-1 مقدمه
تعاریف متعددي در رابطه با دادههاي پرت موجود است است و عموما این دادهها به نقاطی اطلاق میشوند که از حدود متغیر یا جامعه خارجاند. هاوکینز - - 1980 دادههاي پرت را مشاهداتی میدانند که مقادیر دادههاي مورد استفاده به حدي از بقیه داده هاي جدا باشد که این تصور را ایجاد کند که دادهها مربوط به یک مکانیزم دیگر است.
نقاط پرت می توانند اثرات نامطلوبی بر تحلیل هاي آماري بگذارند: .1آنها باعث افزایش واریانس خطا و کاهش توان آزمون می گردند،.2 اگر به طور تصادفی توزیع نیافته باشند، باعث برهم زدن نرمال بودن داده ها می شوند و از این رو مفروضه ي نرمال بودن توزیع داده ها را از بین می برند . وجود دادههاي باعث بروز مشکلاتی در برآورد سیلاب طرح میگردد که چند نمونه آن عبارتند از: وجود دادههاي پرت باعث انتخاب توزیع احتمالاتی غیر واقعی میگردد، برآورد پارامترهاي توزیعهاي احتمالاتی تحت تاثیر دادههاي پرت قرار گرفته و برآورد همراه با خطا خواهد بود، دادههاي حدي پایین باعث برآورد کم سیلاب شده که این باعث برآورد کم سیلاب طرح و در نتیجه موجب تخریب سازه در سیلابهاي بزرگتر میشود و دادههاي حدي بالا باعث برآورد زیاد سیلاب طرح شده که این موجب بالا رفتن هزینههاي ساخت سازههاي آبی میشود.
در این تحقیق جهت شناسایی دادههاي پرت سیلاب از روش تجزیه به مولفه اصلی - PCA - 1 استفاده گردید. تجزیه به مؤلفه اصلی از روش هاي آماري چند متغیره است که میتوان از آن براي کاهش تعداد متغیرها و تفسیر بهتر اطلاعات استفاده کرد.[2] هدف از تجزیه به مولفههاي اصلی آن است که واریانس موجود در دادههاي چندمتغیره را به مولفههایی تجزیه کند که اولین مولفه تا آنجا که ممکن است علت بیشترین واریانس موجود در دادهها باشد. دومین مولفه علت بیشترین واریانس ممکن باشد و همچنین هیچ گونه همبستگی بین مولفهها موجود نباشد. با اعمال این روش، متغیرهاي ورودي اولیه به مؤلفه هاي جدید بدون همبستگی تبدیل میشوند؛ به طوري که مؤلفه هاي ایجاد شده، ترکیبی خطی از متغیرهاي ورودياند
در روش آنالیز مولفههاي اصلی دادههاي پرت یک ایستگاه در مقایسه با دادههاي ایستگاههاي موجود در منطقه تعیین میشود که این ناشی از چند متغیره بودن این روش است. در این روش اگر مقدار سه مولفهي اصلی نخست بطور چشمگیر براي یک سال آماري در مقایسه با بقیه سالهاي آماري متفاوت باشد آنگاه داده ثبت شده در آن سال آماري به عنوان داده پرت تلقی میگردد. در سالهاي اخیر روشهاي آماري چند متغیره در موضوعات مرتبط با منابع آب، هیدرولوژي و محیط زیست به طور گستردهاي استفاده شدهانداخیراً،. استفاده از روش تجزیه به مولفه اصلی - PCA - براي کاهش تعداد متغیرهاي ورودي و تفسیر بهتر نتایج به دست آمده از تحلیل دادههاي کیفیت آب، رواج یافته است
از جمله تحقیقات انجام شده در رابطه با کاربرد تجزیه به مولفه اصلی - PCA - در رابطه با مسائل هیدرولوژي و کیفیت میتوان به مطالعه ساکوایت وهمکارن - 2000 - براي بررسی رژیم رودخانه و بررسی روند تغییر آن با استفاده از روش مولفههاي اصلی اشاره کرد. گاندوپایهاي و همکاران - - 2001 به اعمال تکنیک هاي PCA وPCF جهت شناسایی چاههاي تحت نظارت مهم در پیش بینی تغییرات دینامیکی در هد پیزومتري در بانکوك تایلند پرداختند و نتیجه خوبی را از این دو تکنیک گزارش دادند. اویانگ - - 2005 عملکرد تکنیکهاي PCA و PFA در شناسایی ایستگاه-هاي نظارت که به ارزیابی تغییرات سالانه کیفیت آب رودخانه ها میپردازند، بررسی کردند و این دو تکنیک را ابزاري مفید براي این هدف معرفی کردند.
قیداري - - 1389 به شناسایی دادههاي پرت جهت آنالیز منطقهاي سیلاب حوزهي دریاچه ي ارومیه با استفاده از آنالیز تجزیه به مولفه اصلی پرداخت. نتایج به دست آمده از این روش براي حوزه دریاچه ارومیه نشاندهندهي دقت بالاي این روش بود. از مطالعات انجام شده در رابطه با تجزیه به مولفه اصلی - PCA - در زمینه هواشناسی میتوان به مطالعه گرامی مطلق و شبانکاري - 1385 - که با استفاده از تکنیک هاي آماري، تجزیه به مولفه اصلی و تحلیل خوشه اي پهنه بندي استان بوشهر را انجام دادند اشاره کرد. نتایج نشان داد که این استان داراي چهار عامل سازنده وشش ناحیه اقلیمی است.
سیفی و همکاران - 1389 - به توسعه مدل ترکیبی رگرسیون چندگانه تحلیل مولفه ها و عامل-هاي اصلی در برآورد ET0 در قالب مطالعه موردي، ایستگاه سینوپتیک کرمان پرداختند و اهمیت نسبی متغیرهاي موثر بر تبخیر- تعرق مرجع مورد ارزیابی دادند. در این تحقیق به شناسایی دادههاي پرت سیلاب در استان همدان در دوحوضه گاماسیاب و قرهچاي که شامل 22 ایستگاه هیدرومتري طی سالهاي 1379-1334 با استفاده از روش تجزیه به مولفه اصلی - PCA - پرداخته شد.