بخشی از مقاله
چکیده
گروهی از سایتها با همگنی کافی در فرآیندهاي تولید سیلاب، یک منطقهي همگن یا گروه ادغام شده براي تحلیل فراوانی منطقهاي سیلاب را تشکیل میدهند. تحلیل خوشهاي روشی استاندارد براي تحلیل چند متغیري آماري براي تقسیم یک سري داده به چندین گروه است و با موفقیت براي تحلیل فراوانی منطقهاي استفاده شده است.
با هر یک ازسایتها یک بردار دادهها همراه میشود و سایتها با توجه به شباهت بردارهاي دادهشان به گروههایی تقسیم میشوند یا با هم در یک گروه قرار میگیرند.
در این مقاله با کدنویسی در نرم افزار R، تحلیل خوشهاي بر اساس گشتاورهاي خطی مرتبه دوم دادههاي حداکثر لحظهاي 34 ایستگاه هیدرومتري واقع در استان لرستان و در محدوده حوضه سدهاي رودبار و بختیاري براي حالات 2 تا 6 خوشه صورت میگیرد.
در تحلیل خوشهاي، از الگوریتم خوشهبندي meansزء که در نوع خوشهبندي افرازي دستهبندي میشود، بهره گرفته شده است. پس از تشکیل گروههاي ادغام شده از ایستگاه ها با انجام آزمون همگنی oskingج و Walliss گروههاي همگن حوضه سدهاي رودبار و بختیاري تعیین میشوند.
-1 مقدمه
خوشهها از گروههایی از سایتها با ویژگیهاي سایت مشابه تشکیل میشوند. بیشتر الگوریتمهاي خوشهبندي شباهت را به وسیلهي معکوس فاصله اقلیدسی در فضایی از ویژگیهاي سایت میسنجند. این معیار فاصله تحت تأثیر مقیاس اندازهگیري ویژگیهاي سایت است و در عمل معمول است که ویژگیهاي سایت را براي اینکه همهي آنها مقدار متغیري یکسانی داشته باشند، مقیاسبندي مجدد میکنند، که این مقیاس جدید با توجه به دامنهي تغییرات و انحراف معیار در تمام سایتها در سري دادهها سنجیده و تعیین میشود.
این باز مقیاس بندي به شکل مؤثري وزن مساوي را به هر یک از ویژگیهاي سایت در تعیین خوشهها اختصاص میدهد؛ این مسئله ممکن است چندان مناسب نباشد، زیرا برخی از ویژگیهاي سایت تأثیر بیشتري روي حالت توزیع فراوانی دارد و باید در خوشهبندي به آنها وزن بیشتري اختصاص یابد. انتخاب وزن هاي مناسب کار دشواري است.
با این حال، این یک مسئلهي بحرانی نیست، زیرا صحت قابل قبول بودن مناطق نهایی میتواند به وسیلهي شاخص همگنی، مورد آزمایش قرار گیرد بدون این که نیاز باشد که وزنها به طور دقیق مشخص شوند. براي حصول اطمینان از اینکه تأثیر ویژگیهاي سایت بر روي حالت توزیع فراوانی در سراسر دامنهي مقادیر ویژگیهاي سایت یکنواخت است، تبدیل غیرخطی ویژگیهاي سایت هم میتواند مناسب باشد.
تصور این نیست که خوشههاي واضح و مجزایی از سایتها وجود دارندکه شرایط همگنی را ارضا میکنند. بنابراین تعداد مشخصی براي خوشهها وجود ندارد، در عوض بایستی تعادلی بین استفاده از مناطقی که خیلی بزرگ و خیلی کوچک هستند جستوجو شود. روشهایی که به تشکیل خوشه هایی با اندازهي مساوي تقریبی تمایل دارند، باید نتایج خوبی در پی داشته باشند. روشهایی که به تشکیل تعدادکمی از خوشههاي بسیار بزرگ با تعداد بسیاري کمی ازخوشههاي پرت روي کنارههاي فضاي ویژگیهاي سایت تمایل دارد، کمتر براي حصول مناطق مناسبی براي تحلیل فراوانی منطقهاي مطلوب هستند.
-2 الگوریتم خوشه بندي
در این مقاله از الگوریتم خوشهبندي K-means در تحلیل خوشهاي1 بهره گرفته شده است. این الگوریتم در روش خوشهبندي افرازي دستهبندي میشود. در روش K-means، هر خوشه توسط مرکز خود که میانگین وزنی یا غیر وزنی بردارهاي مشخصهي موجود در خوشه است، معرفی میشود. این روش به دلیل کارایی خود در خوشهبندي مجموعههاي بزرگ دادهها با ویژگیهاي عددي مشهور است. به علاوه، این روش نسبت به وجود دادههاي پرت حساس است. انتخاب اولیهي مراکز خوشهها به صورت بهینه، یکی از مسائل مهم در استفاده از این الگوریتم است.
در انجام عملیات تحلیل خوشهاي، تابع هدف به صورت رابطه - 1 - تعریف میشود که در آن، K نشان دهندهي تعداد خوشهها، N معرف تعداد بردارهاي مشخصه در خوشهي k ام، x نمایندهي مقدار باز مقیاس بندي شدهي ویژگی j ام در بردار مشخصهي iام اختصاص داده شده به خوشهي kام، و x∗ مقدار میانگین ویژگی jام براي خوشهي k ام است. با کمینه سازي تابع هدف، فاصلهي هر بردار مشخصه از مرکز خوشهاي که به آن تعلق دارد به حداقل میرسد. در الگوریتم عددي K-means، بردارهاي مشخصه در تکرارهاي متعدد از خوشهاي به خوشهي دیگر انتقال مییابند تا مقدار تابع هدف کمینه شود.
براي اجراي الگوریتم K-means باید ابتدا به تعداد خوشههاي مورد نظر مرکز خوشه تعریف شود. هر یک از این مراکز یک بردار مشخصه است که اختصاص دادهها به خوشههاي مختلف بر اساس دوري و نزدیکی به آن بردار مشخصه انجام میگیرد. پس از اتمام عملیات خوشهبندي مراکز دستهها با توجه به بردارهاي مشخصهي موجود در آنها به هنگام سازي شده و عملیات اختصاص بردارهاي مشخصه تکرار میشود. این عملیات تا زمانی که بهترین نتیجه از نظر کمینه سازي تابع هدف حاصل شود، تکرار میگردد.
-3 آزمون همگنی
به منظور تعیین مناطق همگن، تمام گروههاي ادغام شونده تحت آزمون همگنی Hosking - 1997 - و Wallis
مطابق جدول - 1 - قرار گرفتند. از آنجا که تست همگنی H1 یک آزمون بسیار ضروري نسبت به گشتاورهاي بزرگتر H2 - و - H3 است، بر روي تست همگنی H1 متمرکز می شویم. تمام مناطق داراي مقدار H1 کمتر از 2 براي تعیین مناطق همگن مورد استفاده قرار میگیرد.
جدول:1 تفسیر معیار همگنی
-4 شاخص ناجوري
با در اختیار داشتن اطلاعات گروهی از سایتها، هدف تشخیص سایتهایی است که بهصورت فاحشی با گروه، به عنوان یک مجموعهي ناجور هستند. ناجوري بر اساس گشتاورهاي خطی، سایتهایی که در دادههایشان داراي خطاهاي فاحش هستند از دادههاي دیگر جدا شده و به عنوان سایتهاي ناجور مشخص میشوند. هنگامی که مناطق همگن حداقل به صورت نسبی مشخص شدند، شاخص ناجوري میتواند در طی فرآیند تحلیل، براي هر سایت در یک منطقهي مورد نظر محاسبه شود. چنانچه سایتی در مقایسه با سایر سایتهاي منطقه به عنوان یک کل واحد ناجور باشد، امکان انتقال آن سایت به مناطق دیگر بایستی مورد تأمل قرار گیرد. شاخص ناجوري را براي سایت تعریف میشود
در رابطه - 2 - ، N تعداد سایتها، u بردار شامل گشتاورها، A ماتریس مجموع مربعات میباشد. سایت در صورتی ناجورشناخته میشود که بزرگ باشد. مفهوم بزرگ بودن به تعداد سایتهاي گروه بستگی دارد. چنانچه مقدار یک سایت از مقدار بحرانی داده شده در جدول - 2 - تجاوز کند آن سایت ناجور در نظر گرفته میشود.
جدول:2 مقادیر بحرانی شاخص ناجوري