بخشی از مقاله
استفاده از ماشینهای بردار پشتیبان در طبقه بندی پدیده تغذیه گرایی و بررسی تاثیر پیش پردازش متغیرهای ورودی با آنالیز مولفه های اصلی
چکیده
پدیده تغذیهگرایی یکی از پیامدهای غیرمستقیم فرایندهای توسعهمحور است، که اثرات نامطلوبی بر کیفیت آب دریاچه ها و مخازن سدها دارد. این پدیده در شرایط حاد، بسیاری از اهداف اقتصادی ساخت مخازن را با مشکلات جدی روبرو ساخته و مسائل عدیدهای را فـراروی مدیریت کیفی این سازه های آبی قرار میدهد. از این رو بکارگیری تکنیک ها و روش های نوینی که قادر به شناخت الگوی حاکم بـر ایـن سیستمهای غیرخطی و سپس پیش بینی و مدلسازی رفتار آنها باشد، میتواند موجب ایجاد تحولات فراوانی در مدیریت کیفی منابع آبـی شود. در این تحقیق برای طبقهبندی فرایند تغذیهگرایی از ماشینهای بردار پشتیبان استفاده شده است. به علـت تعـداد زیـاد متغیرهـای ورودی، شناخت متغیرهای موثر میتواند باعث بهبود نتایج گردد. بدین منظور، از تکنیک آنالیز مولفه های اصلی که باعـث کـاهش تعـداد متغیرها و ورود متغیرهای موثر به مدل میشود، به پیش پردازش داده های ورودی پرداخته شد. استفاده از این تکنیک تعـداد متغیرهـای ورودی را از 20 به 4 عدد کاهش داده و سپس مدل طبقهبندی کننده ماشینهای بردار پشتیبان با استفاده از این 4 پـارامتر توسـعه داده شد. نتایج بدست آمده حاکی از نقش موثر پیش پردازش متغیرها توسط آنالیز اجزای اصلی بود. از سوی دیگر دقـت 98 درصـدی بدسـت آمده توسط ماشینهای بردار پشتیبان در طبقهبندی پدیده تغذیهگرایی نشان از توانایی این روش در شناخت الگوهای حاکم بر این پدیده بوده و میتواند به عنوان ابزاری در جهت توسعه راهکارهای نوین مدیریتی بکارگرفته شود.
واژه های کلیدی
مدلسازی، طبقهبندی اطلاعات، ماشینهای بردار پشتیبان، آنالیز مولفه اصلی، سد دز
-1 مقدمه
از آنجایی که تامین آب همواره نیاز اساسی بشر برای مصارف کشاورزی، صنعتی و آب شرب شهرها بوده، لذا مهار سیلاب و آبهای جاری از طریق احداث سدها، از کارهای اساسی و زیربنایی محسوب شده و برای نیل به خودکفایی اقتصادی از اهمیت ویژهای برخوردار است .[1] اما از یک سو خصوصیات طبیعی حوضه آبخیز، کمیت و کیفیت آبهای ورودی به مخزن، خصوصیات اقلیمی منطقه(درجه حرارت، وزش باد، میزان نزولات جوی و...) و میزان فعالیتهای مختلف انسان در حوضه آبخیز کیفیت آب مخازن سدها را تحت تاثیر قرار می-دهند و از سوی دیگر، احداث سد و ذخیره جریانهای سطحی، خود میتواند به سبب مجموعه عواملی مانند تبخیر، ساکن بودن آب، لایه-بندی حرارتی در مخزن، رسوبگذاری، غنی شدن آب دریاچه از عناصر غذایی و ... موجبات تغییر در خصوصیات فیزیکی، شیمیایی و بیولوژیکی آب مخزن را فراهم آورد. یکی از این عوامل که خصوصیات آب دریاچه ها و مخازن سدها را به شدت تحت تأثیر خود قرار می-دهد، پدیده تغذیهگرایی است .[2] این پدیده به معنای رسیدن مواد مغذی به رسوبات و پیکره آب مخزن یا دریاچه و به تبع آن رشد بی رویه گیاهان آبزی تا حدی است، که کیفیت مخزن آب را کاهش میدهد. از مهمترین عوامل ایجاد این پدیده، حضور کربن، سیلسیوم، نیتروژن و به ویژه فسفر در آب است که سلولها برای رشد به میزان نسبتا بالایی از آنها نیاز دارند. منابع اصلی تولیدکننده این مواد مغذی شامل منابع آلاینده شهری و روستایی، صنعتی، منابع گسترده کشاورزی(کودها و سموم کشاورزی) میباشند. از مهمترین عوامل بروز تغذیهگرایی، رشد بی رویه جلبکها، گیاهان و علفها در کنار پیکره آبی، کاهش شفافیت و تغییر رنگ آب به سبز، قرمز و یا قهوهای، کاهش میزان اکسیژن محلول و حتی حذف کامل آن از اعماق مخزن در فصل تابستان و رشد گیاهان و جلبکهای سبز یا سبز-آبی در سطح آب است .[3]
بهطور معمول در مراحل اولیه شکلگیری دریاچه ها مقدار مواد مغذی کم بوده و این مسئله بستگی به شکلگیری و ترکیبات معمول رسوبات دارد. در این مرحله مواد مغذی متعلق به خود دریاچه بوده و معمولا سیکل کامل است و هیچ ماده ای از محیط خارج وجود ندارد. با ورود نوترنیتها، فرآیند تغذیهگرایی آغاز و درهنگام مرگ و تجزیه جلبکها، وجود این مواد مغذی مازاد سبب رشد دوباره جلبک-های جدید شده و در طول هر سیکل مقدار نوترنیتها در پیکره آبی بیشتر از سیکل قبلی میشود. با افزایش مواد مغذی تعادل بین تولید و تجزیه به هم خورده و فرایند تغذیهگرایی تکمیل میگردد .[4] در این راستا هدف از مدیریت کیفیت آب در دریاچه ها و سدها، جلوگیری، کند و یا معکوس نمودن فرایند تغذیهگرایی به گونهای است، که کیفیت آب جهت مصارف مختلف مناسب باشد .[5]
امروزه جامعنگری و برخورد سیستمی در مدیریت کمی و کیفی منابع آب به علت افزایش مولفه های این سیستمها و پیچیدگی ارتباط و اثرات متقابل آنها از اهمیت ویژهای برخوردار است. برنامه ریزی درست این منابع، یک عمل انتزاعی و مجرد نبوده، و تحت تاثیر متغیرهای متعددی مانند برنامه های جامع کشاورزی و تولید غذا، گسترش صنایع، توسعه شهرها و شهرکها، افزایش جمعیت، مدیریت کشور به خصوص مدیریت بهرهبرداری از منابع و طرحهای آب و ... قرار دارد. چنین است که نیاز به مدیریت دریاچه های طبیعی و مصنوعی، بهمنظور پیشگیری یا به تعویق انداختن این مشکل بسیار حائز اهمیت است. مدیریت کیفی دریاچه ها و مخازن، عموما از طریق کنترل آلودگیهای ورودی، تغییر رژیم هیدرولیکی، تغییر وضعیت فرآیندهای شیمیایی و بیولوژیکی داخل مخزن و برداشت انتخابی از لایه های مختلف صورت میگیرد .[6] در طی سالهای گذشته روشهای متعددی برای بررسی شرایط تغذیهگرایی مخازن سدها و طبقه-بندی روند این پدیده مورد استفاده قرار گرفته که رایجترین آنها مبتنی بر تغییرات غلظت توده زیستی((Chla و یا مواد مغذی بوده است .[7] در سال 1977، کارلسون شاخصی را برای تعیین پدیده تغذیهگرایی ارائه نمود. در این شاخص عدد مشخصی برای بیان شرایط تغذیه گرایی مخزن سد ارائه نشده و برای تعیین آن تنها از یکی از پارامترهای موثر در تغذیهگرایی استفاده میشد. از این رو در پژوهشهای بسیاری با بهرهگیری از سایر پارامترها سعی شد تا این شاخص اصلاح شده و نتایج بهتری حاصل شود. در تحقیقی با بررسی پارامتر نیتروژن کل((TN در کنار شاخص کارلسون و لحاظ نمودن نسبت ( ) در برآوردهای انجام شده، شاخص اصلاح شده کارلسون را برای بررسی شرایط تغذیهگرایی سدهای واقع در ایالت فلوریدای امریکا مورد استفاده قرار دادند .[8] شاخص تغذیهگرایی پیشنهاد شده سازمان حفاظت محیط زیست فلوریدا به عنوان روشی منتخب و دائمی در بررسی شرایط تغذیهگرایی مخازن سدها در این ایالت معرفی و پس از آن شاخص تغذیهگرایی کارلسون به شکل اصلاح شده، مبنای بررسی شرایط تغذیهگرایی مخازن سد این ایالت قرار گرفته و در سراسر جهان نیز کاربرد گستردهای یافت. این اصلاح را میتوان بهترین و پرکاربردترین اصلاح شاخص کارلسون به شمار آورد. در ادامه فرمول-های مربوط به محاسبه این شاخص تغذیهگرایی مشاهده میشود :[4]
با توجه به اینکه تغذیهگرایی فرایندی دینامیک و غیرخطی است، ارائه الگوهای نو و بکارگیری تکنیکهای پیشرفته میتواند موجب ایجاد تحول در برآورد این سیستم شود. مدلسازی با سیستمهای هوشمند، یکی از این روشها است که در سال های اخیر در علوم مختلف مورد توجه بسیاری قرار گرفته اند. ماشینهای بردار پشتیبان یکی از این ابزارها محسوب میشوند که در سـال 1963 ابـداع و در 1995 بـرای حالت غیرخطی تعمیم داده شدهاند.[9] این ماشینها که مشابه سایر روشهای مرسوم در هوش مصنوعی نیازمند آموزش هستند، ابزاری قوی در حوزه شناسایی الگو و رگرسیون به شمار میروند و در چند سال اخیر برای شناسایی و شبیهسازی مشخصات کمی و کیفی منابع آبهای سطحی و زیرزمینی بکار رفتهاند .[ 10] در تحقیقی این روش به منظور دستیابی به توسعه پایدار در دریاچه ها وحفاظـت کیفـی از آنها در حالت الیگوتروف مورد استفاده قرار گرفت. در این تحقیق فسفر به عنوان مهمترین عامل ایجادکننده تغذیهگرایـی منظـور شـده و برای مدلسازی، مقدار موجود آن در آب، مقادیر سالیانه ورودی و رسوبات ملاک عمل قرار گرفت .[11] در مطالعهای دیگر، از سیستمهای طبقهبندی و شناسایی برای ارزیابی رشد جلبکها استفاده گردید. بدین منظور، از شبکه عصبی مصنوعی برای شبیهسازی، جهـت حـذف نویزهای تصویری از پردازش تصویر و برای افزایش دقت تشخیص مرزهای رشد جلبک از تقسیمبندی تصـویر اسـتفاده شـد. در نهایـت بـا استفاده از آنالیز اجزای اصلی موثرترین پارامترها استخراج شده و دقت %93 برای این روش طبقه بندی حاصـل گردیـد. در ایـن تحقیـق پیشنهاد شده برای طبقهبندی بهتر از ماشینهای بردار پشتیبان به همراه کرنـل RBF اسـتفاده شـود .[12] در مطالعـهای دیگـر، بـرای ارزیابی شرایط تغذیهگرایی مدلی براساس روش فازی توسعه داده شد. نتایج نشان داد که مدل ارائـه شـده روشـی بهینـه بـوده و قابلیـت انعطافپذیری بالایی برای توصیف تغذیهگرایی دارد .[13] با توجه به مطالب ذکر شده، در این تحقیق تلاش گردید تا نقش پیش پردازش داده های ورودی مدل ماشینهای بردار پشتیبان با تکنیک PCA برای طبقهبندی پدیده تغذیهگرایی در دوره یک ساله مورد ارزیابی قرار گیرد، که در این خصوص سد دز به عنوان منطقه مورد مطالعه در نظر گرفته شد.
-2مواد و روشها
-1-2 منطقه مورد مطالعه
با توجه به اهمیت مطالعه مناطق بحرانی و دارای حساسیت خاص اقتصادی، اجتماعی و منطقهای، در این تحقیق محدوده مورد مطالعه حوزه آبریز دز به دلیل دارا بودن شرایط استراتژیک در تامین نیازهای آبی منطقه برای بررسی انتخاب گردید. حوزه آبریز سد دز در گستره سلسله جبال زاگرس و بین طولهای جغرافیایی َ48o 31 و"49o 35 شرقی و عرضهای جغرافیایی 33o 39" و"32o 40 شمالی قرار گرفته است. این حوزه آبریز در استان خوزستان، 25 کیلومتری شمال شرقی شهر دزفول و 23 کیلومتری شمال شرقی شهر اندیمشک و در محدوده حوزه آبریز دز-کارون که در حدود یک پنجم منابع آبی سطحی کشور را تشکیل میدهد، واقع شده است.[14] سد بتنی دوقوسی دز با ارتفاع 203 متر از پی و طول تاج 212 متر در زمان احداث خود، بزرگترین سد خاکی خاورمیانه و سومین سد بزرگ جهان بوده است. درحال حاضر نیز این سد نقش مهمی را در تأمین نیاز آبی استان خوزستان بر عهده دارد.
برای انجام مطالعات لیمنولوژی دریاچه سد دز، دو ایستگاه نمونهبرداری یکی ایستگاه شماره یک در پشت تاج سد با طول و عرض جغرافیایی به ترتیب 48o 27' 45" و 32o 36' 27" و دیگری ایستگاه شماره 2 روبروی روستای پامنار با طول و عرض جغرافیایی" ' 13 48o 27 و 3o 38' 36" انتخاب شده و از آبانماه 1386 لغایت مهرماه 1387، کلیه نمونه های فیزیکوشیمیایی و بیولوژیکی توسط ابزار و روشهای استاندارد بصورت ماهانه و در هر ماه 4 نمونه برای هر یک از پارامترها برداشت گردید. به منظور انجام مطالعه پیرامون تغذیهگرایی سد از هریک پارامترهای pH، NH4، مواد جامد معلق((TSS و مواد جامد محلول((TDS، کربن آلی و معدنی کل(TIC و (TOC، BOD5، قلیاییت، دمای آب، اکسیژن محلول، هدایت الکتریکی، نیترات، فسفات، نیتروژن و فسفر کل، کلیفرم کل، دمای هوا، کلروفیل a، غلظت آهن و عمق سچی در سطح آب و عمقهای 2/5، 5 و 10 متر نمونه برداری انجام شد.
-2-2 روش بررسی
در این تحقیق برای انجام طبقه بندی از نرم افزار Matlab2011 استفاده شده است. شکل 2 ساختار کلی مدل پیشنهادی را برای طبقه-بندی پدیده تغذیهگرایی نشان میدهد.
-3مفاهیم پایه
-1-3ماشین های بردار پشتیبان
ماشینهای بردار پشتیبان از شیوه های نسبتا جدید و قدرتمند در کلاسبندی و تشخیص الگو میباشند، که در پی یافتن یک ابرصفحه جداساز خطی با حداکثر حاشیه هستند. در مواردی که کلاسهای داده ها، در فضای ورودی اولیه به شکل خطی جدایی پذیر نیستند، در ابتدا ماشینهای بردار پشتیبان فضای ورودی اولیه را به فضای مشخصهای با ابعاد بالاتر تبدیل میکنند. این تبدیل میتواند توسط توابع تصویرکننده(توابع کرنل) مختلف غیرخطی مانند توابع RBF انجام شود.
در حالت کلی، SVM برای طبقهبندی دو کلاسه طراحی میشود، که در این تحقیق نیز از همین روش استفاده شده است. در این حالت چنانچه l بردار آموزشی وجود داشته باشد، هر مشاهده به صورت یک دوتایی (xi,yi) که در آن xi R, و i=1 , 2 , ...,l و
yi است، نشان داده میشود. به عبارتی برای هر ورودی یک خروجی (برچسب) برابر با 1 یا -1 وجود دارد. در کلاسبندی توسط ماشینهای بردار پشتیبان، مسئله اولیه زیر حل می شود.[9]
با توجه به محدودیت
که مسئله دوگان آن برابر است با
با توجه به محدودیت که دراین روابط e، برداری (ماتریسی) است که همه درایه های آن برابر 1 هستند، بوده و به ترتیب متغیرهای غیرمنفی کمبود و ضریب لاگرانژ و C حد بالای i و بزرگتر از صفر است. Q یک ماتریس یک دریک مثبت نیمه معین است، به طوری که میتوان هر را بهعنوان یک تابع کرنل تعریف نمود. در اینجا بردارهای آموزشی xi، توسط تابع به یک فضای داده با ابعاد بیشتر تصویر میشوند. نکته قابل توجه این است که روشهای کلاسیک یادگیری، که از جمله متداولترین آنها شبکه های عصبی مصنوعی هستند، برای حداقل کردن خطا بر روی مجموعه داده های آموزش، (حداقلسازی خطای تجربی) طراحی شده اند. برخلاف این روشها، ماشینهای بردار پشتیبان مبتنی بر حداقلسازی خطای ساختاری هستند. به عبارت سادهتر ساختار سیستم برخلاف شبکه های عصبی از ابتدا مشخص نبوده و در طول فرایند آموزش، علاوه بر حداقلسازی خطای تجربی، خطای ساختاری نیز حداقل شده و بهینهترین ساختار سیستم تعیین میگردد .[9] ماشینهای بردار پشتیبان و شبکه های عصبی مصنوعی هر دو از سرعت محاسبه و دقت بالای برخوردارند، ولی در مقایسه با شبکه های عصبی، ماشینهای بردار پشتیبان از پایداری بالاتر و قابلیت اجرای ساده تری برخوردار است .[15] این ماشینها نسبت به بقیه روشهای یادگیری از قدرت بالاتری برای داده های غیرآموزشی(داده های آزمایش) برخوردار می باشند. در مدلهای کلاسیک مانند شبکه های عصبی مصنوعی، ساختار شبکه قبل از آموزش مشخص است و عملا بهینه نمیشود ولی در مدلهای SVM ساختار شبکه نیز به همراه وزن ها بهینه میشود .[9] به هر حال مشابه با هر مدل ریاضی و آماری مدلهای SVM نیز دارای معایبی هستند. وجود تعداد زیاد متغیر ورودی، اصلیترین مشکل در توسعه این مدلها بوده، که ممکن است مانع از یافتن مدل بهینه توسط SVM شود. ازدیاد تعداد متغیرهای ورودی به دلیل افزایش تعداد وزنها نسبت به تعداد ورودیها باعث پیچیدگی ساختار مدل و ناپایداری آن میگردد. همچنین در برخی از مواردی متغیرها از همبستگی بالایی برخوردار هستند که استفاده از همگی آنها نوعی ورود اطلاعات تکراری را به همراه خواهد داشت. این مسائل ممکن است مانع از یافتن مدلهای بهینه شود. لذا توصیه میگردد که تا حد امکان تعداد ورودیها کاهش یابند، حتی اگر باعث از دست رفتن پارهای از اطلاعات موجود شوند .[16] جهت رفع این مشکل، روشهای متعددی برای کاهش تعداد متغیرهای ورودی پیشنهاد شده است که از آن جمله میتوان به روش آنالیز مؤلفه اصلی و آنالیز جدا کننده های خطی((LDA اشاره نمود .[17]
-2-3آنالیز مولفه اصلی (PCA)
PCA از جمله روشهای آماری چند متغیره است که در صورت رویارویی با حجم زیادی از اطلاعات، میتوان از آن برای کاهش پیچیدگی تحلیل متغیرها و تفسیر بهتر اطلاعات استفاده نمود.[18] با اعمال این روش، متغیرهای اولیه به مؤلفه های اصلی و مستقل از یکدیگر تبدیل شده و هر مؤلفه اصلی را میتوان با دنباله زیر مشخص نمود:
که در این رابطه Zi مولفه مورد نظر، aij ضرایب مربوط به متغیرهای اولیه و Xi نیز متغیر اولیه است. ضرایب مربوط به متغیرهای اولیه از حل معادله زیر به دست میآید.
که در آن I ماتریس واحد، R ماتریس همبستگی بین متغیرهای اولیه و مقادیر ویژه است که از این مقادیر ویژه، بردارهای ویژه به دست میآیند .[19]
-3-3 معیار ارزیابی جهت محاسبه دقت طبقهبندی (CCR)
برای تعیین دقت مدل طبقهبندی، مقدار CCR برای آن محاسبه میشود. برای انجام این کار باید ماتریس Confusion تشکیل شود .[20] مطابق جدول 2، هریک از مقادیر a، b، c و d به صورت زیر تعریف میشود:
= a تعداد داده هایی که مربوط به کلاس 1 بوده و تشخیص مدل درست بوده است.
= b تعداد داده هایی که مربوط به کلاس 1 بوده و مدل بطور اشتباه آن را به عنوان کلاس 2 تشخیص داده است. = c تعداد داده هایی که مربوط به کلاس 2 بوده و مدل بطور اشتباه آن را به عنوان کلاس 1 تشخیص داده است. = d تعداد داده هایی که مربوط به کلاس 2 بوده و تشخیص مدل درست بوده است.
بر اساس مفاهیم بالا، دقت مدلسازی توسط فرمول ارائه شده در جدول 2 محاسبه میشود.
-4 نتایج
مطابق با متدولوژیکی پیشنهادی در بخش 2-2، نتایج کلی در این تحقیق را میتوان در سه بخش زیر ارائه نمود:
-1-4 محاسبه شاخص تغذیهگرایی
در این بخش شاخص تغذیهگرایی بر اساس رابطه های (1) محاسبه شد. بر اساس نتایج بدست آمده، مشخص شد که سد دز در بازه زمانی بین آبان ماه 1386 تا پایان دی ماه همان سال در وضعیت اوتروفیک قرار داشته، و از بهمن ماه 1386 در حالت مزوتروفیک قرار گرفته و این روند تا فروردین ماه 1387 ادامه پیدا کرده است. این شرایط با توجه به کاهش شدت تابش نور خورشید و کاهش دما و همینطور افزایش میزان بارش قابل توجیه است. از سویی از فروردین تا پایان اردیبهشت سال 1387 با افزایش تدریجی دمای هوا، نمودار حرکت صعودی یافته و در تابستان با افزایش قابل توجه دما و کاهش میزان بارش، مشاهده میشود که مخزن سد دوباره در حالت اوتروفیک قرار گرفته و ماندگاری در این وضعیت تا پایان مهرماه 1387 ادامه پیدا کرده است. این روند در شکل 4 قابل مشاهده است:
با توجه به مطالب ارائه شده هر یک از حالتهای مزوتروفیک و اوتروفیک در مخزن سد در بازه زمانی مورد نظر به عنوان کلاسهای مربوط به طبقهبندی انتخاب شدند. این دو کلاس در بخشهای بعدی برای انجام طبقه بندی توسط ماشینهای بردار پشتیبان موردبررسی قرار گرفت.
-2-4 بررسی سناریوهای مختلف
فرایند یادگیری و آزمایش مربوط به ماشینهای بردار پشتیبان از یک سو و شرایط زیستمحیطی متفاوت در هر یک از دو ایستگاه از سوی دیگر، سبب میشود که انتخاب داده های مربوط به مرحله یادگیری مدل به گونهای باشد که طبقهبندی انجام شده قابلیت تعمیم به سایر بخشهای مخزن سد را دارا باشد. از اینرو، انتخاب داده های مربوط به این مرحله باید با دقت فراوانی انجام شود. هر یک از سناریوهای زیر به بررسی حالتهای مختلف انتخاب داده ها پرداخته و در نهایت بهترین حالت انتخاب شده است.
• سناریوی اول:
در این سناریو بررسی کلاسها در هر یک از دو ایستگاه انجام شده و از هر یک از کلاسها به تعداد مساوی داده برای یادگیری انتخاب گردید. قابل ذکر است که در گزینش داده های این سناریو تعداد برابر داده ها از هر ایستگاه لحاظ نمیگردد.
• سناریوی دوم:
در این حالت به بررسی ایستگاه ها در کلاسها پرداخته شده و بر اساس انتخاب تصادفی داده ها، به تعداد مساوی داده از هر یک از ایستگاه ها برای یادگیری انتخاب گردید. در این سناریو برخلاف سناریوی اول، تعداد داده های انتخابی مربوط به هر کلاس از ایستگاه ها، برابر نمیباشد.
• سناریوی سوم:
در آخرین سناریوی مورد بررسی، از هر یک از ایستگاه ها و هریک از کلاسها به صورت مساوی داده برای یادگیری انتخاب شده است.
-3-4 طبقه بندی با مدل SVM
هر یک از سناریوهای تعریف شده، برای انجام فرایند طبقهبندی توسط ماشینهای بردار پشتیبان اعمال شده و نتایج زیر بدست آمد.
مقدار CCR بدست آمده در سناریوی اول نشاندهنده دقت بالای طبقهبندی انجام شده می باشد. اما با توجه به داده های یادگیری انتخاب شده در این سناریو که از هر ایستگاه تعداد داده های متفاوتی انتخاب گردید این احتمال وجود دارد که این سناریو قابلیت تعمیم به سایر بخشهای سد نداشته باشد. نتیجه بدست آمده از سناریوی دوم نشان داد انتخاب داده ها در این سناریو مناسب نبوده و مدل طبقهبندی کننده SVM در سد دز وابستگی زیادی به هر یک از دو ایستگاه دارد. بنابراین سناریوی انتخابی اول نیز مناسب نبوده و نمیتوان از آن برای مدلسازی سایر بخشهای سد استفاده نمود. نتایج حاصل از سناریوی سوم با توجه به مقدار CCR بدست آمده، نشاندهنده دقت بالای طبقهبندی انجام شده است. از سوی دیگر با توجه به انتخاب داده ها در این سناریو که از هریک از کلاسها و هر یک از ایستگاه ها به تعداد مساوی داده انتخاب شد، این سناریو قابلیت تعمیم بالایی برای سایر بخشهای سد داشته و در نهایت سناریوی سوم به عنوان بهترین حالت برای انجام طبقه بندی انتخاب گردید.