بخشی از مقاله
*** اين فايل شامل تعدادي فرمول مي باشد و در سايت قابل نمايش نيست ***
مقايسه و ارزيابي مدل هاي شبکه عصبي بيزين ، برنامه ريزي بيان ژن ، ماشين بردار پشتيبان و رگرسيون خطي در تخمين بده جريان ؛ مطالعه موردي حوضه صوفي چاي
چکيده
پيش بيني جريان رودخانه براي برنامه ريزي طراحي و مديريت مطمئن پروژه هاي منابع آب مهم است . در اين پژوهش قابليت کاربرد شبکه عصبي بيزين ، برنامه ريزي ژن ، ماشين بردار پشتيبان و رگرسيون خطي چندمتغيره براي پيش بيني سري زماني جريان رودخانه صوفي چاي بررسي شد. سري زماني جريان روزانه رودخانه براي دوره ١٣٧٦ تا ١٣٨٩ براي ايستگاه هيدرومتري تازه کند رودخانه صوفي چاي مورد استفاده واقع شد. جهت بدست آوردن بهترين نگاشت ورودي و خروجي؛ ترکيبات مختلف ورودي با استفاده از داده هاي پيشين جريان روزانه رودخانه محاسبه شد. کارايي مدل ها با استفاده از چهار معيار خطاي: ضريب همبستگي (CC)، ريشه جذر ميانگين خطا (RMSE ) و ضريب نش ساتکليف و باياس محاسبه شد.
مقايسه مدل ها نشان داد که شبکه عصبي بيزين با ضريب همبستگي (٠.٩٩١)، جذر ميانگين مربعات خطا (s.m٠٠٣١٣)، نش ساتکليف (٠.٩٨١) و مقدار باياس (٠.٠٠٦-) بهترين تخمين را از داده هاي روزانه جريان رودخانه نسبت به مدل هاي برنامه ريزي بيان ژن ، ماشين بردار پشتيبان و رگرسيون خطي چندمتغيره داشته است .
واژه هاي کليدي: برنامه ريزي بيان ژن ، دبي جريان ، شبکه عصبي بيزين ، ماشين بردار پشتيبان .
مقدمه
امروزه با توجه به اهميت و حساسيت امر مهار آب هاي سطحي خصوصا در کشور ما که اکثر رودخانه هاي مناطق مختلف فصلي بوده و کمبود آبي که در پهنه وسيعي از کشور وجود دارد، نياز به شناسايي و به مدل درآوردن رفتار رودها و شريان هاي آبي جهت برنامه ريزيهاي بلندمدت و استفاده بيشتر و بهتر از پتانسيل هاي آن ها ضروري است . لذا انتخاب مدلي که بتواند با استفاده از عوامل تأثيرگذار، جريان ورودي را به طور قابل قبولي برآورد نمايد امري ضروري به نظر مي رسد. امروزه سيستم هاي هوشمند به طور گسترده براي پيش بيني پديده هاي غيرخطي مورداستفاده قرار ميگيرد، که روش شبکه عصبي بيزين (BNN1)، برنامه ريزي بيان ژن (GEP2) و ماشين بردار پشتيبان (S.V.M3( از جمله ي اين روش ها است . شبکه هاي عصبي بيزين به عنوان يکي از روش هاي مبتني بر شبکه هاي عصبي در مدل کردن مسايل غيرخطي و پيچيده از طريق الگوريتم هاي خاص و روش هاي آماري است . با استفاده از اين روش مي توان به مدل کردن روابط علت و معلولي يک فرآيند، آناليز وضعيت موجود و تخمين وضعيت آينده يک سيستم پرداخت (طباطبايي و دشتي زاده ،١٣٨٧). برنامه ريزي ژن يک تکنيک برنامه ريزي خودکار است که راه حل مساله را با استفاده از برنامه ريزي کامپيوتر ارايه کرده و عضوي از خانواده الگوريتم تکاملي مي باشد (قرباني و صالحي،١٣٩٠). ماشين بردار پشتيبان نيز يک سيستم يادگيري کارآمد بر مبناي تئوري بهينه سازي مقيد است .
در سال هاي اخير استفاده از روش هاي هوشمند موردبررسي در مطالعات پيش بيني جريان ورودي به مخازن سدها موردتوجه محققين قرارگرفته است ، که ازجمله مي توان به موارد ذيل اشاره نمود: در پژوهشي به منظور پيش بيني جريان روزانه رودخانه ليقوان از مدل برنامه ريزي بيان ژن استفاده نمودند نتايج اين تحقيق نشان داد که مدل برنامه ريزي بيان ژن از دقت بسيار بالايي نسبت به روش شبکه هاي عصبي مصنوعي و مدل هاي سري زماني برخوردار است (فربودنام و همکاران ، ١٣٨٨). در پژوهشي ديگر جهت بررسي همبستگي روزانه بين ايستگاه هاي هيدرومتري در پيش بيني جريان ورودي به مخزن سد دز از مدل شبکه عصبي مصنوعي و رگرسيون خطي چند متغيره استفاده نمودند نتايج نشان داد با در نظر گرفتن ضريب همبستگي و معيار ميانگين مربعات خطاها، مدل شبکه عصبي مصنوعي عملکرد بهتري نسبت به مدل رگرسيون خطي دارد (بنيحبيب و همکاران ، ١٣٨٩). نتايج حاصل از پژوهش استفاده از مدل ماشين بردار پشتيبان جهت پيش بيني دبي روزانه رودخانه قره سو حاکي از دقت و کارايي مناسب اين مدل است (محرم پور و همکاران ، ١٣٩٠). از سوي ديگر در پژوهشي کاربرد شبکه عصبي بيزين را جهت شبيه سازي فرآيند بارش – رواناب با استفاده از داده هاي روزانه حوضه ساگوني ٤ در کانادا موردبررسي قراردادند که نتايج حاصله نشان داد مدل شبکه عصبي بيزين خطايي ناچيز در تخمين رواناب داشته و نيز نسبت به روش شبکه عصبي مصنوعي در تخمين اکثر مقادير دقت بالايي دارد (٢٠٠٦ ,.Khan and Coulibaly). جهت پيش بيني دبي جريان روزانه رودخانه شويل ٥ در آمريکا از روش برنامه ريزي بيان ژن و شبکه عصبي مصنوعي استفاده نمود و نشان داد که هر دو روش نتايج قابل قبولي داشته ، ولي برنامه ريزي بيان ژن از دقت بالاتري نسبت به شبکه عصبي مصنوعي برخوردار است (٢٠٠٩ ,.Guven). در پژوهشي کاربرد شبکه عصبي بيزين را در ايستگاه جاتيسرنو واقع در اندونزي جهت تخمين بارش ساعتي موردبررسي قراردادند و نتايج نشان داد که شبکه عصبي بيزين دقت بالا و خطايي ناچيز نسبت به شبکه هاي عصبي مصنوعي دارد (٢٠١٣ ,.Fithriasari et al). در پژوهشي ديگر جهت پيش بيني جريان رودخانه در منطقه اي کوهستاني و نيمه خشک واقع در شمال غربي 66 چين از ماشين بردار پشتيبان استفاده نمودند و دريافتند که مدل ماشين بردار پشتيبان عملکردي مناسب جهت پيش بيني جريان رودخانه در مناطق کوهستاني نيمه خشک داشته و نسبت به مدل هاي شبکه عصبي مصنوعي و سيستم استنتاج فازي از دقت مطلوبي برخوردار است )2014,.He et al.(در مجموع با توجه به پژوهش هاي انجام شده و ذکر اين نکته که ايستگاه هاي هيدرومتري بالادست سد علويان به عنوان مهم ترين منبع تأمين کننده آب بخش هاي مختلف و نواحي مجاور خود مي باشد، بنابراين اهميت تخمين جريان و اقدامات مديريتي جهت بهبود بهره برداري بهينه از مخازن سد ضروري است . لذا، هدف از اين تحقيق تخمين دبي جريان در ايستگاه هيدرومتري بالادست سد علويان با کمک شبکه عصبي بيزين و مقايسه نتايج آن با برنامه ريزي بيان ژن ، ماشين بردار پشتيبان و رگرسيون خطي مي باشد.
شبکه هاي عصبي بيزين
اين روش يکي از روش هاي سيستم پشتيبان تصميم گيري مي باشد که ابزار قدرتمندي در مدل کردن روابط علي و معلولي در قالب شبکه اي از احتمالات است .
نکته بسيار مهم در مورد روش شبکه عصبي بيزين اين است که اين روش به اطلاعات دقيق و تاريخچه کامل يک واقعيت نياز ندارد بلکه مي تواند با استفاده از اطلاعات ناقص و غيردقيق نيز به نتايج بسيار قانع کننده اي در زمينه تخمين وضعيت فعلي يا آينده يک سيستم دست يابد. همچنين يک روش سازگار و انعطاف پذير براي مدل کردن موقعيت هاي غيرقطعي و يک مدل گرافيکي مبتني بر ادراک مستقيم از اندرکنش ميان علل و معلول هاي مختلف ارائه مي نمايد. همچنين يک روش بسيار مفيد در مدل کردن موقعيت هاي نامطمئن و غيرقطعي بر اساس روابط علت و معلولي است . در شبکه هاي عصبي يکي از روش هاي دست يابي مؤثر به پارامترهاي بهينه ، استفاده از تنظيم بيزين ١ است که به طور اتوماتيک مقاديري مناسب که بصورت زير نشان داده شده است استفاده شود(١٩٩٢,.MacKay).
که در آن EW مجموع مربعات وزن هاي شبکه و ED مجموع مربعات باقي مانده بين پاسخ شبکه و تابع هدف ميباشد. نيز پارامترهاي تابع هدف ميباشند (پارامترهاي تنظيم ). که هر يک از اين پارامترها به آموزش شبکه در کاهش باقي مانده خروجيها يا حجم شبکه بستگي دارد. نکته اساسي روش تنظيم اين است که پارامترهاي تابع هدف را چگونه از طريق داده هاي آماري بيزين انتخاب و بهينه نمايد. بطوريکه اگر بعنوان متغيرهاي تصادفي در نظر گرفته شوند قانون بيزين بصورت فرمول زير تعريف ميشود (١٩٩٢,.MacKay).
در فرمول بالا D داده هاي آموزش ، M مدل شبکه و W نيز وزن شبکه ميباشد. بر طبق قانون بيزين اگر از توزيع يکنواخت پيروي نمايند در اين صورت احتمال زماني ماکزيمم ميشود که احتمال توزيع اوليه در معادله (٢) حداکثر به مقدار ماکزيمم خواهد رسيد. با فرض اينکه باقي مانده ها و وزن ها متغيرهاي تصادفي باشند و براساس قانون بيزين معادله (٣) بصورت زير ميباشد.
در صورتی که فرض شود باقی مانده ها و وزن ها از توزیع گوسین پیروی کرده داریم
براي اطمينان از اينکه بعنوان فاکتور تنظيم در معادله (٣) گردد معادله (4-b) بصورت زير ميباشد.
اگر معادله هاي 4-a و ٤ -b با هم در فرمول (٣) جايگذاري شوند آنگاه خواهيم داشت .
ماتريس Hessian تابع هدف F ميباشد. در معادله (٥) روش هاي لگاريتم و مشتق گيري به ترتيب بکار گرفته شده است با فرض اينکه معادله تفاضلي تابع برابر صفر قرار گيرد مقدار به بيشينه شده و احتمال اوليه وزن ها مينيمم ميشود. سپس و بصورت زير بيان ميشوند (١٩٩٢,.MacKay).
که در آن n تعداد نمونه ، N مقدار کل پارامترهاي شبکه ، تعداد پارامترهاي موثر که نسبتا اثر بيشتري در کاهش ميزان خطاي توابع دارند. در ابتدا بر طبق الگوريتم لونبرگ مارکوانت فرض ميشود و تابع هدف )F(w با آموزش شبکه منظم بيزين به کم ترين مقدار خود ميرسد. بر طبق معادلات ٦، ٧و ٨ بروزرساني شده و سپس مقادير بهينه توزيع اوليه بدست ميايد و حداقل مقدار جديد F(w) محاسبه ميگردد و در نهايت آموزش شبکه آنقدر تکرار ميشود تا به همگرايي برسد
١٩٩٧,.Foresee. نمونه ايي از ساختار شبکه چهار لايه اي متشکل از يک لايه ورودي، يک لايه مخفي، و يک لايه خروجي در شکل (٣) نشان داده شده است .
برنامه ريزي بيان ژن
روش برنامه ريزي بيان ژن ، در سال ١٩٩٩ توسط فريرا ارايه شد )2001,.Ferreira(. اين روش ترکيبي از روش هاي برنامه ريزي ژنتيک (GP) و الگوريتم ژنتيک بوده (GA) که در آن ، کروموزوم هاي خطي و ساده با طول ثابت ، مشابه با آنچه که در الگوريتم ژنتيک استفاده مي شود و ساختارهاي شاخه اي با اندازه ها و اشکال متفاوت ، مشابه با درختان تجزيه در برنامه ريزي ژنتيک ، ترکيب مي شوند. از آنجاييکه در اين روش تمام ساختارهاي شاخه اي با اندازه و اشکال متفاوت ، در کروموزوم هاي خطي با طول ثابت کدگذاري ميشوند، سبب گرديده که در اين روش فنوتيپ و ژنوتيپ از هم جدا شوند و سيستم بتواند از تمام مزاياي تکاملي به سبب وجود آنها بهره مند شود. اکنون باوجوداينکه فنوتيپ در GEP، همان نوع از ساختارهاي شاخه اي مورد استفاده در GP را شامل مي شود، اما ساختارهاي شاخه اي که به وسيله GEP استنتاج مي شوند (که بيان درختي نيز ناميده مي شود) مبين تمامي ژنوم هاي مستقل هستند.
به طور خلاصه ميتوان گفت در GEP به سازيها در يک ساختار خطي اتفاق افتاده و سپس به صورت ساختار درختي بيان مي شود و اين موجب مي شود تنها ژنوم اصلاح شده به نسل بعد منتقل شده و نيازي به ساختارهاي سنگين براي تکثير و جهش وجود نداشته باشد(فريرا، ٢٠٠١). در اين روش پديده هاي مختلف با استفاده از مجموعه اي از توابع و مجموعه اي از ترمينال ها، مدل سازي ميشوند. مجموعه توابع ، معمولا شامل توابع اصلي حسابي {. ,× ,- ,+}، توابع مثلثاتي يا هر نوع تابع رياضي ديگر
{... ,exp, log, sin, cos ,x٢ ,√} و يا توابع تعريف شده توسط کاربر است که براي تفسير مدل مناسب ميباشند.
مجموعه ترمينال ها، از مقادير ثابت و متغيرهاي مستقل مساله تشکيل شده اند (٢٠٠١,.Ferreira). براي به کارگيري روش برنامه ريزي بيان ژن از نرم افزار ٤.٠ GenXproTools
استفاده گرديد. براي کسب اطلاعات بيشتر مي توان به (٢٠١٢,.Ghorbani et al) مراجعه نمود.
ماشين بردار پشتيبان
اولين کاربرد اين روش در مسائل آب توسط ديباک و همکاران در سال ٢٠٠١ با مدل سازي بارندگي- رواناب ارائه شد. ماشين بردار پشتيبان يک سيستم يادگيري کار آمد بر مبناي تئوري بهينه سازي مقيد است که از اصل استقراي کمينه سازي خطاي ساختاري استفاده کرده و منجر به يک جواب بهينه کلي ميگردد. در مدل رگرسيون SVM تابعي مرتبط با متغير وابسته Y که خود تابعي از چند متغير مستقل x است ، برآورد ميشود. مشابه ساير مسائل رگرسيوني فرض ميشود رابطه ميان متغيرهاي مستقل و وابسته با تابع جبري مانند F(x) به علاوه مقداري اغتشاش (خطاي مجاز ε) مشخص شود.
چنانچه W بردار ضرايب و b ثابت مشخصه هاي تابع رگرسيوني و نيز تابع کرنل باشد، آنگاه هدف پيدا کردن فرم تابعي براي F(x) است . اين مهم با آموزش مدل SVM توسط مجموعه اي از نمونه ها (مجموعه آموزش ) محقق ميشود. براي محاسبه w و b لازم است تابع خطا (معادله ١١) در مدل SVM رگرسيوني با در نظر گرفتن شرايط مندرج (قيود) در معادله (١٢) بهينه شود
در معادلات بالا C عددي صحيح و مثبت است ، که عامل تعيين جريمه در هنگام رخ دادن خطاي آموزش مدل ميباشد، تابع کرنل ، N تعداد نمونه ها و دو مشخصه متغيرهاي کمبود هستند. در نهايت تابع SVM رگرسيوني را ميتوان به فرم زير باز نويسي کرد:
در معادله (١٣)، ميانگين ضرايب لاگرانژ مي باشد.
محاسبه در فضاي مشخصه آن ممکن است بسيار پيچيده باشد. براي حل اين مشکل روند معمول در مدل SVM رگرسيون انتخاب يک تابع کرنل است . ميتوان توابع مختلف کرنل براي ساخت انواع مختلف SVM رگرسيوني را به کار برد. در١مطالعات هيدرولوژي عمدتا از تابع کرنل پايه شعاعي (RBF) استفاده ميگردد
(اسکندري و نوري، ١٣٨٩)، که رابطه آن به صورت ژیر میباشد .
فرآيند محاسبات اين مدل ، با کدنويسي در محيط متلب ، انجام شد و پارامتر ها از طريق سعي و خطا بهينه گرديدند.
رگرسيون خطي چند متغيره
تحليل رگرسيون روشي آماري است که در آن از رابطه بين دو يا چند متغير کمي (متغيرهاي مستقل و يا پيش بيني کننده ) براي پيش بيني متغير وابسته (متغير پاسخ ) استفاده ميشود . يک مدل رگرسيون خطي چند متغيره به صورت زير بيان ميشود:
که در آن ضرايب رگرسيون (پارامترهاي رگرسيون )، متغير مستقل ، خروج از مرکز و N تعداد متغيرهاي مستقل است . به منظور تخمين ضرايب رگرسيون از روش حداقل مربعات استفاده مي شود (بنيحبيب و همکاران ، ١٣٨٩).
معيارهاي ارزيابي
به منظور ارزيابي دقت و کارايي مدل ها، از نمايه هاي ضريب همبستگي (CC )، ريشه ميانگين مربعات خطا ( RMSE)، ضريب ناش ساتکليف NS و باياس (Bias) به صورت زير محاسبه شد. بهترين مقادير براي اين چهار معيار به ترتيب يک ، صفر، يک و صفر مي باشند.
در روابط بالا، به ترتيب مقادير مشاهداتي محاسباتي در گام زماني i ام ،N تعداد گام هاي زماني، x- وy- نيز به ترتيب ميانگين مقادير مشاهداتي و محاسباتي مي باشد. يک نکته مهم در آموزش شبکه هاي عصبي نرمال سازي داده ها قبل از استفاده در مدل مي باشد اين عمل خصوصا وقتي دامنه تغييرات ورودي ها زياد باشد کمک شاياني به آموزش بهتر و سريع تر مدل مي کند.
اصولا واردکردن داده ها بصورت خام باعث کاهش سرعت و دقت شبکه مي شود (٢٠٠٧,.Xu et al). براي نرمال سازي داده هاي تحقيق از رابطه زير استفاده شده است :