بخشی از مقاله
*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
شناسايي داده هاي پرت سيلاب با استفاده از روش تجزيه به مولفه اصلي
چکيده
دادهي پرت مشاهدهاي است که به طور غير عادي يا اتفاقي از وضعيت عمومي دادههـاي تحـت آزمايش و نسبت به قاعدهاي که بر اساس آن آناليز ميشود، انحراف داشته باشـد. در آنـاليز منطقـه اي سيلاب دادههاي پرت بالا باعث برآورد زياد سيلاب طرح شده که اين موجب بالا رفتن هزينـه هـاي ساخت سازههاي آبي ميگردد. دادههاي حدي پايين نيز به علت برآورد کـم سـيلاب طـرح سـبب افزايش هزينه هاي تخريب سازهها ميشود. براي به دست آوردن دادههاي پـرت راههـاي گونـاگوني وجود دارد ولي در علم هيدرولوژي هنوز راهي با دقت بالا به طـور جـامع يافـت نمـيشـود. در ايـن تحقيق با استفاده از روش تجزيه به مولفه اصلي (PCA) به شناسايي دادههـاي پـرت حـداکثر سـيلاب سالانه در دوحوضه ي گاماسياب و قرهچاي واقع در استان همدان در ٢٢ ايستگاه هيدرومتري و در طـي سالهاي ١٣٣٤-١٣٧٩ پرداخته شد. در اين روش با توجه به سه مولفه ي اصلي و روابـط بـين ايـن سـه مولفه ميتوان پي به وجود دادهي پرت برد. روش تجزيه به مولفه اصـلي (PCA) در شناسـايي دادهي پرت سيلاب نتايج خوبي را ارائه داد. نتايج حاصل نشان داد که سالهـاي آمـاري ١٣٥٧، ١٣٦٤ و ١٣٧٣ در ايستپاههاي هيدرومتري مورد مطالعه به عنوان دادهي پرت شناسايي شدند.
کلمات کليدي: تجزيه به مولفه اصلي،دادههاي پرت، سيلاب و همدان.
١- مقدمه
تعاريف متعددي در رابطه با دادههاي پرت موجود است است و عموما اين دادهها به نقاطي اطلاق ميشوند که از حدود متغير يا جامعه خارجاند. هاوکينز(١٩٨٠) دادههاي پرت را مشاهداتي ميدانند که مقـادير دادههـاي مـورد اسـتفاده بـه حدي از بقيه داده هاي جدا باشد که اين تصور را ايجاد کند که دادهها مربوط به يک مکانيزم ديگر اسـت [١]. نقـاط پـرت مي توانند اثرات نامطلوبي بر تحليل هاي آماري بگذارند: ١.آنها باعث افزايش واريانس خطـا و کـاهش تـوان آزمـون مـي گردند،٢. اگر به طور تصادفي توزيع نيافته باشند، باعث برهم زدن نرمال بـودن داده هـا مـي شـوند و از ايـن رو مفروضـه ي نرمال بودن توزيع داده ها را از بين مي برند . وجود دادههاي باعث بروز مشکلاتي در برآورد سيلاب طرح ميگـردد کـه چند نمونه آن عبارتند از: وجود دادههاي پرت باعث انتخاب توزيع احتمالاتي غير واقعي ميگردد، بـرآورد پارامترهـاي توزيع هاي احتمالاتي تحت تاثير دادههاي پرت قرار گرفته و برآورد همراه با خطـا خواهـد بـود، دادههـاي حـدي پـايين باعث برآورد کم سيلاب شده که اين باعث برآورد کم سيلاب طرح و در نتيجه موجب تخريب سازه در سيلابهـاي بزرگتر ميشود و دادههاي حدي بالا باعث برآورد زياد سيلاب طرح شده که اين موجب بالا رفـتن هزينـه هـاي سـاخت سازههاي آبي ميشود.
در اين تحقيق جهت شناسايي دادههاي پرت سيلاب از روش تجزيه بـه مولفـه اصـلي١ (PCA) اسـتفاده گرديـد.
تجزيه به مؤلفه اصلي از روش هاي آماري چند متغيره است که ميتوان از آن براي کاهش تعداد متغيرهـا و تفسـير بهتـر اطلاعات استفاده کرد[٢]. هدف از تجزيه به مولفه هاي اصلي آن است که واريانس موجـود در دادههـاي چنـدمتغيره را بـه مولفه هايي تجزيه کند که اولين مولفه تا آنجا که ممکن است علت بيشترين واريانس موجود در دادهها باشـد. دومـين مولفـه علت بيشترين واريانس ممکن باشد و همچنـين هـيچ گونـه همبسـتگي بـين مولفـه هـا موجـود نباشـد. بـا اعمـال ايـن روش، متغيرهاي ورودي اوليه به مؤلفه هاي جديد بدون همبستگي تبديل ميشوند؛ به طوري که مؤلفه هاي ايجاد شده، ترکيبي خطي از متغيرهاي ورودياند [٣].
در روش آناليز مولفه هاي اصلي دادههاي پرت يک ايستگاه در مقايسه با دادههاي ايستگاههاي موجود در منطقه تعيين ميشود که اين ناشي از چند متغيره بودن اين روش است . در اين روش اگر مقدار سه مولفه ي اصلي نخست بطور چشمگير براي يک سال آماري در مقايسه با بقيه سالهاي آماري متفاوت باشد آنگاه داده ثبت شده در آن سال آماري به عنوان داده پرت تلقي ميگردد. در سالهاي اخير روشهاي آماري چند متغيره در موضوعات مرتبط با منابع آب، هيدرولوژي و محيط زيست به طور گستردهاي استفاده شدهاند. اخيرًا، استفاده از روش تجزيه به مولفه اصلي (PCA) براي کاهش تعداد متغيرهاي ورودي و تفسير بهتر نتايج به دست آمده از تحليل دادههاي کيفيت آب، رواج يافته است [٤]. از جمله تحقيقات انجام شده در رابطه با کاربرد تجزيه به مولفه اصلي (PCA) در رابطه با مسائل هيدرولوژي و کيفيت ميتوان به مطالعه ساکوايت وهمکارن (٢٠٠٠) براي بررسي رژيم رودخانه و بررسي روند تغيير آن با استفاده از روش مولفه هاي اصلي اشاره کرد. گاندوپايهاي و همکاران(٢٠٠١) به اعمال تکنيک هاي PCA وPCF جهت شناسايي چاههاي تحت نظارت مهم در پيش بيني تغييرات ديناميکي در هد پيزومتري در بانکوک تايلند پرداختند و نتيجه خوبي را از اين دو تکنيک گزارش دادند. اويانگ (٢٠٠٥) عملکرد تکنيک هاي PCA و PFA در شناسايي ايستگاه - هاي نظارت که به ارزيابي تغييرات سالانه کيفيت آب رودخانه ها ميپردازند، بررسي کردند و اين دو تکنيک را ابزاري مفيد براي اين هدف معرفي کردند. قيداري(١٣٨٩) به شناسايي دادههاي پرت جهت آناليز منطقه اي سيلاب حوزهي درياچه ي اروميه با استفاده از آناليز تجزيه به مولفه اصلي پرداخت . نتايج به دست آمده از اين روش براي حوزه درياچه اروميه نشاندهندهي دقت بالاي اين روش بود. از مطالعات انجام شده در رابطه با تجزيه به مولفه اصلي (PCA) در زمينه هواشناسي ميتوان به مطالعه گرامي مطلق و شبانکاري (١٣٨٥) که با استفاده از تکنيک هاي آماري، تجزيه به مولفه اصلي و تحليل خوشه اي پهنه بندي استان بوشهر را انجام دادند اشاره کرد. نتايج نشان داد که اين استان داراي چهار عامل سازنده و شش ناحيه اقليمي است . سيفي و همکاران (١٣٨٩) به توسعه مدل ترکيبي رگرسيون چندگانه تحليل مولفه ها و عامل - هاي اصلي در برآورد ET٠ در قالب مطالعه موردي ، ايستگاه سينوپتيک کرمان پرداختند و اهميت نسبي متغيرهاي موثر بر تبخير- تعرق مرجع مورد ارزيابي دادند.
در اين تحقيق به شناسايي دادههاي پرت سيلاب در استان همدان در دوحوضه گاماسياب و قرهچاي که شامل ٢٢ ايستگاه هيدرومتري طي سالهاي ١٣٣٤-١٣٧٩ با استفاده از روش تجزيه به مولفه اصلي (PCA) پرداخته شد.
٢- مواد و روشها
با استفاده از اين روش، ترکيباتي ازP متغير براي ايجـاد P مولفـه مسـتقل
برقرار ميشود. نبود همبستگي بين اين مؤلفه ها يک ويژگي مفيد است به اين معني که مؤلفـه هـا جنبـه هـاي متفاوتي از پارامترهاي اصلي را نمايان ميسازند (١٩٨٦,Manly).
در اين روش اطلاعات پارامترهاي اصلي با کمترين تلفات در مؤلفه هاي حاصل آورده ميشـود( &Johnson١٩٨٢,Wichern). هر مؤلفه اصلي مي تواند با دنباله زير مشخص شود:
که در فرمول (١) ، معرف مولفه مورد نظر ، بردار ويژه (Eigenvectors) مربوطـه و نيـز متغيرهـاي اصلي است . اين اطلاعات از حل معادله زير به دست مي آيد(١٩٨٢,Johnson& Wichern) .
که در آن I ماتريس واحد، A ماتريس دترمينان متغيرهاي ورودي و λ نيـز مقـادير ويـژه (Eigenvalues) ايـن ماتريس است .از اين مقادير ويژه، بردارهاي ويژه به دست مي آيند.
مي توان از اين روابط دو نتيجه گرفت :
١. دترمينال يک ماتريس برابر با حاصلضرب مقادير ويژه آن است .
٢. اثر يک ماتريس برابر با جمع مقادير ويژه آن است .
تعريف اثر ماتريس
براي ماتريس A مجموع عناصـر روي قطـر را اثـر مـاتريس A گوينـد، کـه بـا نمـايش مـي دهنـد. معيـار پراکندگي در تجزيه چندمتغيره ماتريس واريانس -کوواريانس است که به صورت زير تعريف ميشود:
بر مبناي ماتريس واريانس -کوواريانس دو معيار پراکندگي مي توان تعريف کرد:
١. واريانس کل که برابر است با :
پس اجزاي روي قطر ماتريس واريانس -کوواريانس نمايانگر واريانس هـا مـيباشـند. در واقـع واريـانس کـل همان اثرماتريس ، ماتريس ∑ است يعني (∑)tr برابر جمع مقادير ويژه است :
پس مي توان گفت که مجموع واريانس هاي مولفه هاي اصلي برابر مجموع واريانس هاي متغيرهاي اوليه ميباشد.
بنابراين ، مولفه هاي اصلي کليه ي تغييرات دادههاي اصلي را در برميگيرند.
٢. واريانس تعميم يافته که برابر با دترمينال∑ است و با G نمايش مي دهند. اين واريانس تابعي از ميانگين هندسي مقادير ويژه است .
لازم به ذکر است که مولفه هاي اصلي را ميتوان از سه ماتريس واريانس -کوواريانس ، ماتريس مجموع مربعـات و حاصلضربها و نيز ماتريس ضريب همبستگي به دست آورد.
شرايط موجود براي جواب مطلوب PCA
١. همبستگي شديد مثبت و منفي بين متغيرهاي اوليه وجود داشته باشد
٢. به منظور اينکه بيشترين تغييرات را در برگيرد بايد رابطه زير برقرار باشد:
دومين مولفه اصلي نيز طوري تعيين ميشود کـه واريـانس بعـد از ଵ بيشـترين مقـدار را بـه خـود اختصاص داده و شرط زير حاکم باشد:
منطقه مورد مطالعه
حوضه ي گاماسياب در مختصات ٥٧و٣٣ تا ٢٧و٣٤ درجه ي عرض جغرافيايي و ٥٣و٤٧ تا ٣٧و٤٨ درجـه ي طـول شرقي واقع شدهاست . اين حوضه بر حسب انـدازهگيـريهـاي انجـام شـده مجموعـاً ١٧٠٦٣٨.٦ هکتـار يـا معـادل ١٧٠٦.٣٨ کيلومترمربع مساحت دارد. مرتفع ترين قله در محدودهي مورد مطالعه ، ورخاش کوه در رشته کوه گرين به ارتفاع ٣٦٣٩ متر و کمترين ارتفاع در خروجي رود گاماسياب از حوضـه ي مـورد مطالعـه در مجـاورت روسـتاي دوآب و در محـل ايسـتگاه اندازهگيري هيدرولوژيکي دوآب، با ١٤٢٠ متر ارتفاع است که بدين ترتيب تفاوت ارتفاع در حوضه ي مورد بررسي ٢٢١٩ متر ميباشد.حوضه ي قرهچاي با مساحت ١٧٥٠.٩٢ کيلومتر مربع در بين عرض جغرافيايي ٣٣ درجه و٤٥ دقيقه تا ٣ درجه و ١١ دقيقه شمالي و طول ٤٩ درجه و ٧ دقيقه تا ٤٩ درجه و ٥٠ دقيقه شرقي قرار دارد. طول آبراهـه اصـلي ايـن حوضـه ٧١.٢ کيلومتر و ارتفاع حداقل آن ١٨٣٤.٢ متر و حداکثر ارتفاع ٣٢٨٠ متر ميباشد.
از ايـن دو حوضـه در مجمـوع از دادههـاي حـداکثر سـيلاب سـالانه ٢٢ ايسـتگاه هيـدرومتري در دورهي آمـاري ١٣٧٩-١٣٣٤ براي شناسايي دادههاي پرت با استفاده از روش تجزيه به مولفه اصلي (PCA) استفاده گرديد.
٣- جمع بندي و نتيجه گيري