بخشی از مقاله
1- مقدمه:
پيش بيني يك عنصر كليدي در تصميم گيري مديريت است. كار آيي نهائي هر تصميميبستگي به طبيعت يك دنباله از حوادث دارد كه متعاقب آن تصميم ميآيد. توانايي براي حدس زدن جنبه هاي غير قابل كنترل اين حوادث قبل از تصميم گيري بايد به امكان انتخاب بهتري نسبت به موردي كه اين توانايي در دسترس نباشد بيانجامد. به اين دليل سيستمهاي مديريت براي طرح ريزي و كنترل عمليات يك سيستم نوعا از يك تابع پيش بيني برخوردارند.
براي مثال در علم هيدرولوژي هر گونه طرح و برنامه ريزي كه در حوضه هاي آبريز ومخازن مربوط به آن صورت ميگيرد بايستي بر اساس تجزيه و تحليل داده ها و شناخت الگويي براي سيستم و اطلاعات مربوط به خواص هيدرولوژيكي آن حوضه باشد به اين داده هاي متغيرهاي هيدرولوژيكي گفته ميشود و شامل اطلاعاتي است كه در تصميم گيري نقش موثر وحياتي دارد. ملاحظه ميشود كه پيش بيني حدس وتخميني از رويدادهاي آينده است..هدف پيش بيني كاهش ريسك در تصميم گيري است. با تخصيص منابع بيشتري به پيش بيني قادر به اصلاح وتكميل دقت پيش بيني ميشويم.
يكي از روشهاي تجزيه وتحليل داده ها در هيدرولوژي روش استوكستيكي و استفاده از مدلهاي استوكستيكي است. در اين پروژه هدف نهايي تجزيه و تحليل سري زماني مربوط به دبي متوسط سالانه رودخانه اي براي مدت 50 سال و مدل سازي و پيش بيني براي 50 سال آينده خواهد بود.
2- تعاريف
1-2 سري زماني
مشاهدات وآماري كه بافاصله زماني يكسان به دست آمده باشند سري زماني ناميده ميشوند. اگر پديده اي معين باشد سري زماني آن معين واگر احتمالي باشد سري زماني آن احتمالي ناميده ميشود.
چند الگوي مشخصات سريهاي زماني در شكل زير نشان داده شده اند كه در آن Xt مشاهده براي پريود t است
شكل 1- مشخصات سريهاي زماني
الف) فرآيند ثابت ب) روند خطي ج) تغييرات سيكلي د) ضربه ه) تابع پله اي
و) جهش
هر يك از حالات در شكل فوق توصيف كننده الگو و مثال خاصي ميباشد در اين پروژه بعلت سالانه بودن داده ها ما با حالتهاي الف وب سرو كار خواهيم داشت كه در قسمت مربوطه توضيح داده ميشود.
2-2 مدلهاي استوكستيكي
قبل از اينكه با در دست داشتن يك سري آماري بخوايم مدل استوكستيكي مناسب را انتخاب كنيم، ميبايست خواص اوليه آماري داده ها را تعيين كرد. اين خواص شامل ميانگين، واريانس، انحراف استاندارد و ضريب چولگي ميباشد. از ديگر خواص آماري در سريهاي زماني، تعيين و محاسبه اتوكواريانس (Auto covariance) است كه درجه خود وابستگي سري زماني را نشان ميدهد. براي مثال جهت تعيين تاخير k از سري زماني از رابطه زير استفاده مينماييم.
از خواص ديگر تابع همبستگي (Auto correlation function) است تابع همبستگي با تاخير k را با نمايش داده و داريم
روش ديگر براي عنوان نمودن وابستگي زماني از ساختار يك سري زماني, تابع همبستگي جزئي (Partial Auto correlation function) است و با تاخير k بصورت نمايش ميدهند و نمودار و k را Partial correlogram مينامند.
با توجه به مطالب ذكر شده مدلهاي ا ستوكستيكي عبارتند از
الف) مدل اتورگرسيو Auto regressive (AR)
اين مدل از مدلهاي متداول در استوكستيك است از خصوصيات اين مدل وابسته بودن مقدار عددي يك متغير به مقدار عددي متغير در گذشته است. اين مدل براي سريهاي زماني ايستا و نا ايستا بكار برده ميشود فرم اصلي اين مدل به صورت زير است
ضرايب اتوگريسوي ناميده ميشوند at مستقل از زمان بوده و noise ناميده ميشود.
در مدل فوق در صورتيكه همگرا باشد فرآيند ايستا خواهد بود. معمولا در مدلسازي سري زماني از مدل اتورگرسيو مرتبه اول يا دوم استفاده ميشود (p=1,2)
ب) مدل ميانگين متحركت Moving Average (MA)
فرم عموميمدل با مرتبه q بصورت زير است.
ج) مدل(ARMA) Auto Regressive moving Avarage
از تركيب كردن مدل اتورگرسيو با مرتبه p و مدل ميانگين متحرك با رتبهq به مدلي خواهيم رسيد كه مدل ARMA با مرتبه (p,q) ناميده ميشود فرم كلي مدل بصورت زير است.
د) مدل ARIMA
اين مدل حالت خاصي از مدل ARMA است و در سري زماني هائيكه وابستگي زماني زياد است با گرفتن اختلاف بين مقادير Xt آنرا به شكل منظم در آورده و به اين صورت اين اختلاف ميتواند با مرتبه يك يا دو يا d باشد. فرم كلي اين مدل بصورت زير ميباشد
.
3- انجام، تجزيه و تحليل پروژه:
گام اول - رسم سري زماني و تعيين مقادير آماره هاي نمونه
اولين گام در تجزيه و تحليل سريهاي زماني، رسم داده ها ميباشد. با توجه به اطلاعات موجود نمودار سري زماني دبيهاي 50 ساله ترسيم شده است.
شكل 2- ترسيم سري زماني
مقادير آماره هاي توصيفي و هيستو گرام داده ها نيز در شكل زير آورده شده است
شكل 3- آماره هاي توصيفي
گام دوم - بررسي وجود مولفه هاي روند (Trend) و دوره اي Periodic و حذف آنها
همانطور كه در قسمت تعاريف آورده شده است در بررسي بعضي از سريهاي زماني ديده ميشود كه فرآيند در طول زمان در يك سطح ثابتي باقي ميماند و به علت دلايل و عوامل تصادفي داراي تغييراتي از يك پريود به پريود ديگر است (شكل 1- الف) در حالت ديگري فرآيند داراي (Trend) است. به نحوي كه تغيير از يك پريود به پريود بعدي قابل تخصيص به روند و تغيير تصادفي است. روند ميتواند رو به بالا يا رو به پايين باشد. همچنين اگر سري داده ها در دوره كوتاه مدت نوسانات منظميداشته باشد( شكل 1- ج)
اين تغييرات را تغييرات فصلي يا دوره اي (Periodic) گويند. تغييرات فصلي به طور معمول در داده هاي هفتگي، ماهانه و فصلي بروز ميكند. قبل از پردازش مدلهاي مانا بر سري زماني بايد مولفه هاي روند و دوره اي بررسي شده و در صورت وجود حذف شود. در اين پروژه چون سري سالانه است لذا سري دوره اي نميباشد و با رسم سري ديده ميشود كه داراي روندي به صورت زير است.
شكل 4- سري زماني به همراه روند كاهشي
شكل 5- سري زماني پس از حذف روند
كه پس از حذف آن تبديل به خط مستقيميخواهد شد كه در شكل5 نشان داده شده است.
گام سوم- بررسي نرمال بودن داده ها
با توجه به اينكه تئوري سريهاي زماني با توجه به نرمال بودن داده ها توسعه يافته است. لذا بايستي اين مساله مورد نظر قرار گيرد و در صورت عدم فرض نرمال بودن داده ها بايستي داده ها را با تبديل Y1=lnY1 تبديل كرد.
در اين پروژه با استفاده از نرم افزار Minitab و با استفاده از روش تست نيكوئي برازش (كلموگرف اسميرنوف) نرمال بودن داده ها تست شد. در اين روش مقدار D (حداكثر تفاوت داده ها از مقدار متناظر در توزيع نرمال) بايد از مقدار c حد آستانه تعريف شده در روش فوق با توجه به جدول مربوطه كمتر باشد تا فرض نرمال بودن داده ها تاييد شود. با توجه به شكل 6 مقدار D برابر با 0.09
بدست ميآيد و مقدار C در سطح اعتماد 95 درصد از جدول (1) برابر است با
لذا مقدار D از C كمتر بوده و فرض نرمال بودن داده ها تاييد ميشود
شكل 6- بررسي نرمال بودن داده ها
لازم به ذكر است كه روش ديگري به نام ضريب چولگي نيز براي تست نرمال بودن داده ها وجود دارد كه در اين پروژه به روش تست نيكوئي برازش اكتفا ميشود.
جدول 1- مقادير c حد آستانه
سطح اعتماد
99 درصد 95 درصد 90 درصد تعداد داده ها
0.67 0.56 1.061 5
0.49 0.41 0.986 10
0.4 0.34 0.923 15
0.35 0.29 0.87 20
0.32 0.26 0.825 25
0.29 0.24 0.787 30
0.25 0.21 0.723 40
1.63/
1.36/
1.22/
C حد آستانه
گام چهارم- شناسايي مرتبه مدل با مشاهده منحني سري زماني:
صرفا با توجه به منحني سري زمانه نميتوان به طور دقيق مرتبه مدل را تعيين كرد با توجه به سالانه بودن سري و عدم وجود مولفه دوره اي در سري مدل هاي ARMA، AR از مرتبه 1 و 2 ميتوانند براي پردازش بر داده ها مناسب باشند. ياد آوري ميشود كه مدل اتوگرسيو (AR) از ساده ترين مدلها بوده معمولا در مدل سازي سري زماني از مدل اتورگريسو مرتبه اول و يا دوم استفاده ميشود فرم عمومياين مدلها بصورت زير خواهد بود.
مرتبه اول AR(1)
مرتبه دوم AR(2)
گام پنجم- توليد سري زماني يا ميانگين صفر (استاندارد كردن داده ها)
همانطور كه ميدانيم يكي از روشهاي تبديل كردن داده ها به صورت استاندارد كسر ميانگين از داده ها ميباشد با توجه به معادله زير مقدار ميانگين داده ها محاسبه شده و از داده ها كسر ميگردد.
در شكل زير هيستوگرام داده هاي نرمال استاندارد بدست آمده است.
شكل 7- هيستوگرام داده هاي نرمال استاندارد
گام ششم – ترسيم Partial correlogram, corrleogram
اولين قدم در تحصيل سري زماني رسيم كلو گرامهاي خود همبستگي و خود همبستگي جزئي داده ها ميباشد. تابع خود همبستگي جزئي در فرآيند تشخيص مفيد است. تابع خود همبستگي جزئي به عنوان خود همبستگي ساده ما بين دو متغير تصادفي در يك توزيع شرطي تعريف ميشود.
با توجه به روش بازگشتي ساده با كس وجنكيس ميتوان با محاسبه توابع خود همبستگي و خود همبستگي جزئي نمونه آنها را بر روي يك گراف نمايش داد و يك مدل آزمايشي از طريق مقايسه الگوهاي مشاهده شده با الگوهاي توابع خود همبستگي تئوريك مشخص كرد. اين الگوهاي تئوريك در جدول زير نمايش داده شده اند.
جدول 2- خصوصيات نظري PACF,ACF فرآيندهاي ايستا
PACF ACF فرآيند
بعد از تاخير p قطع ميشود به صورت يك تنزل نمائي يا موج سينوسي ميرا به سمت صفر ميل ميكند AR(P)
به صورت يك تنزل نمائي با موج سينوسي ميرا به سمت صفر ميل ميكند بعد از تاخير q قطع ميشود MA(q)
بعد از تاخير p-q به سمت صفر ميل ميكند بعد از تاخير p-q به سمت صفر ميل ميكند ARMA(p,q)
شكل 8- تابع خود همبستگي داده ها
شكل 9- تابع خود همبستگي جزئي داده ها
با توجه به اشكال بالا و جدول 2 در مرحله اول مدلهاي MA(2),MA(1), AR(2),AR(1) و از تركيب آنها مدلهاي ARMA (2,2), ARNA (2,1), ARMA(1,2), ARMA(1,1), براي برازش بر داده ها انتخاب ميشوند. بعد از محاسبه پارامترهاي مدلها واريانس باقيمانده ها و ضريب آكائي نتايج حاصله در جدول زير آورده شده است.
جدول 3- نتايج برازش مدلهاي مختلف بر داده ها و مقادير پارامترهاي محاسبه شده براي مدلها
AIC واريانس مانده ها
747.936 35811.4 - - - 0.345 AR(1)
765.625 33967.5 - - -0.227 0.423 AR(2)
754.75 26896.1 - 0.39 - - MA(1)
762.423 26258.9 -0.97 0.398 - - MA(2)
761.334 - - 0.643 - -0.245 ARMA(1,1)
- - -0.98 -2.04 - 2.41 ARMA(1,2)
802.147 - - 0.601 -0.605 -0.23 ARMA(2,1)
821.5 - -0.186 -0.636 -0.282 1.004 ARMA(2,2)
گام هفتم- بررسي مدلهاي انتخاب شده و انتخاب الگوي مناسب
پيدا كردن الگوهاي مناسب براي سريهاي زماني كاري مهم است. جهت اين كار استراتژي چند مرحله اي كه براي ساختن يك الگو توسط باكس و جنكيس وضع شده است وجود دارد. در اين روش سه مرحله عمده وجود دارد كه از هر يك از آنها ممكن است چندين بار استفاده كرد.
1- تشخيص (يا شناسائي) الگو
2- برازش الگو
3- تشخيص درستي الگو
در تشخيص يا شناسائي الگو، دسته اي از الگوهاي سريهاي زماني را كه براي سري زماني مشاهده شده مناسب است انتخاب ميكنيم در اين مرحله نمودار زماني سري را مورد توجه قرار داده، و با محاسبه پارامترهاي الگو استفاده از دانشمان در زمينه موضوع كه داده ها از آنجا ناشي شده اند استفاده ميكنيم تاكيد ميكنيم الگوئي كه در اين مرحله انتخاب ميشود آزمايشي است و به تجديد نظري كه بعدا در تجزيه و تحليل ميشود بستگي دارد در انتخاب الگو اصل امساك را در نظر ميگيريم، يعني الگوئي كه به كار برده ميشود بايد كمترين تعداد پارامترها را داشته باشد بطور قطع الگو شامل يك يا چند پارامتر است كه بايد مقاديرشان از سري مشاهده شده بر آورد شود.
برازش الگو پيدا كردن بهترين برآوردهاي ممكن پارامترهاي نامعلوم الگوي داده شده را شامل ميشود. محكهائي مانند كمترين مربعات و ضريب آكائي را براي برآورد در نظر ميگيريم. بررسي درستي الگو به تجزيه و تحليل كيفيت الگوئي كه ما تشخيص و برآورد كرديم مربوط ميشود. در صورتي كه عدم كفايتي پيدا نشود الگوي انتخابي مناسب است. در غير اينصورت بايستي الگوي ديگري انتخاب شود.
تعريف ضريب آكائي
از اين ضريب در مقايسه مدلهاي مختلف ميتوان استفاده كرد كم بودن مقدار اين ضريب براي مدلي در مقايسه با ساير مدلها نشان از مناسب بودن آن ميباشد.
ضريب آكائي از رابطه زير محاسبه ميشود.
AIC=-2ln(MLk)+2k
كد MLk مقدار بيشينه تابع احتمال كه بصورت رابطه زير تعريف ميشود ميباشد.
در مدلهاي ARMA كمينه سازي AIC
معادل با كميته سازي عبارت زير است
و مقدار از رابطه زير محاسبه ميشود
با توجه به مدلهاي انتخابي در گام ششم (مرحله اول) مقادير پارامترها ضريب آكائي و واريانس باقيمانده هاي مدلها بوسيله نرم افزار ITSM محاسبه ميشود. مطابق جدول (3)
با توجه به جدول (3) مدل ARMA (1,2) به دليل داشتن پارامترهاي بزرگتر از يك حذف ميشود.
مدل ARMA (2,2) نيز به دليل داشتن پارامتر بزرگتر از يك و همچنين تعداد پارامترهاي بيشتر حذف ميشود.
مدل ARMA(2,1) نيز بعلت داشتن تعداد پارامتر ها و ضريب آكائي بيشتر حذف ميشود.