بخشی از مقاله

پیش بینی آب و هوا با استفاده از ترکیب الگوریتم های درخت تصمیم گیری و شبکه های عصبی


خلاصه

امروزه با پیشرفت علم و تکنولوژی در صنایع گوناگون حجم داده ها روز به روز افزایش می یابد به طوری که توانایی های ما در تحلیل این داده ها با چالش جدی روبرو شده است. همین مساله موجب شده است تا نیاز به رویکردهای نوین در این زمینه از جمله امور مهمی مانند پیش بینی آب و هوا و پیش بینی بارش باران، به منظور تولید، جمع آوری و تحلیل داده ها بیش از پیش احساس شود. داده کاوی و الگوریتم های یادگیری ماشین در واقع ابزاری است برای تحلیل داده ها که شامل رویکرد های جدید است، ابزاری که به طور بالقوه به منظور آشکارسازی اطلاعات نهان در داده ها بسیار مفید است. در حقیقت در این پژوهش به دنبال این مساله هستیم که بتوانیم برای طبقه بندی یک مساله چند کلاسی بهترین دقت ممکن را ارائه دهیم. به عبارت شفاف تر پایه این پژوهش بر اساس درخت تصمیم گیری و الگوریتم شبکه عصبی پس انتشار خطا می باشد. می دانیم که هدف از هرس کردن درخت کاهش خطا می باشد. اما بامطالعه روش های پیشین در زمینه پیش بینی آب و هوا مشخص است که با توجه به تنوع پارامترها وبعضاً مبهم بودن داده های آب و هوایی در خت تصمیم در قسمت هرس کردن به مشکل بر خورده و در نتیجه دقت پیش بینی، پایین می آید. نتایج این پژوهش نشان داد که ترکیب الگوریتم یادگیر شبکه پس انتشار خطا و الگوریتم دسته بندی کننده درخت تصمیم نتایج قابل قبولی را در زمینه پیش بینی دما و به صورت کلی پیش بینی هوا ارائه می دهد.

کلمات کلیدی: پیش بینی آب و هوا، داده کاوی، شبکه عصبی مصنوعی، درخت تصمیم گیری.


.1 مقدمه
پیش بینی آب و هوا تلاش هواشناسان برای گمانه زنی شرایط جوی و وضعیت آب و هوا در آینده است.[1] پیش بینی آب و هوا مهمترین دلیل عملی است که به هواشناسی به عنوان یک علم نگاه می کنیم. بدیهی است که شناخت آینده آب و هوا برای افراد و نیز سازمان ها دارای اهمیت فراوانی است.[2] پیش بینی دقیق آب و هوا می تواند بهترین زمان کاشت را به کشاورز نشان دهد، برای برج مراقبت پرواز اطلاعات مناسب را جهت ارائه به هواپیماهای در حال برخاستن و یا فرود فراهم آورد و همچنین به ساکنان مناطق ساحلی هشدار به موقع بروز طوفان را بدهد5]،4،.[3 داده کاوی ابزاری است برای تحلیل داده ها که شامل رویکرد های جدید است، ابزاری که به طور بالقوه به منظور آشکارسازی اطلاعات نهان در داده ها بسیار مفید می باشد.[6] دادهکاوی آب و هوا شکلی از دادهکاوی مرتبط با الگوهای پنهان از اطلاعات هواشناسی موجود است، به طوریکه اطلاعات بازیابی شده را میتوان به دانش قابل استفاده تبدیل کرد.[7] ازاین رو در این پژوهش به اطلاع رسانی به موقع در خصوص سرمازدگی و راهکارهای پیشگیری با توجه به داده های هواشناسی و دستورالعمل فنی در خصوص زمان کاشت و برداشت محصول، به منظور کاهش ضرر ناشی از سرمازدگی محصولات اشاره شده است.[8] در حقیقت در بحث پیش بینی آب و هوا، با استفاده از ورودی های مساله، مانند میانگین دمای هوا، رطوبت و فشار هوا، با استفاده از ابزارهایی مانند درخت تصمیم گیری، می توان رویدادهایی مانند مه، بارش باران و رعد و برق را پیش بینی کرد.[9] این فعالیت ها می تواند برای کشاورزان و برخی دیگر از مردمی که پیش بینی آب و هوا برای آنها اهمیت دارد مورد استفاده قرار گیرد. اینگونه مدل های پیشنهادی برای پیش بینی آب و هوا می توانند در حوزه یادگیری ماشین مورد بحث و بررسی قرار گیرند.[10]

.2 روش

ساختار درخت تصمیم در یادگیری ماشین، یک مدل پیش بینی کننده می باشد که حقایق مشاهده شده در مورد یک پدیده را به استنتاج هایی در مورد مقدار هدف آن پدیده نقش می کند.[11] تکنیک یادگیری ماشین برای استنتاج یک درخت تصمیم از داده ها، یادگیری درخت تصمیم نامیده می شود که یکی از رایج ترین روش های داده کاوی است.[12]

شبکه های عصبی مصنوعی نیز یک تکنیک پردازش اطلاعات مبتنی بر روش سیستم های عصبی بیولوژیکی مانند مغز و پردازش اطلاعات هستند. مفهوم بنیادی شبکه های عصبی ، ساختار سیستم پردازش اطلاعات است که از تعداد زیادی واحدهای پردازشی (نورون) مرتبط با شبکه ها تشکیل شده اند . یک سیستم شبکه عصبی از تکنیکهای مورد استفاده انسان در یادگیری از طریق استناد به مثالهایی از حل مسائل استفاده میکند.[13]

در این پژوهش قصد داریم جهت بررسی وضعیت آب و هوا و به خصوص در زمینه گمانه زنی آب و هوا و پیش بینی بارش باران از روش های داده کاوی و به خصوص از الگوریتم درخت تصمیم بهره ببریم. ابزار مورد استفاده جهت رسیدن به این هدف، الگوریتم داده کاوی درخت تصمیم رگرسیونی به عنوان یکی از انواع درختان تصمیم جهت پیش بینی بارش 30 ماه قبل از وقوع است.

.3 یافته ها

همان گونه که پیش تر نیز ذکر شد، در این پژوهش قصد داریم با ایده ترکیب شبکه های عصبی و درخت تصمیم در این حوزه مطالعاتی عمل کنیم. در واقع با ترکیب این دو روش از مزایای هر دوی آنها در امر پیش بینی آب و هوا استفاده خواهیم کرد. در روش پیشنهادی پایه یادگیری بر اساس شبکه عصبی پس انتشار خطا می باشد. اما موازی با این روش از روش در خت تصمیم نیز برای تشخیص دو کلاس منفی و مثبت بودن دما استفاده می کنیم.

مجموعه داده مورد استفاده در این تحقیق مجموعه داده Beijing PM2.5 می باشد. این مجموعه داده یکی از معتبرترین مجموعه داده های سایت UCI می باشد. این مجموعه داده دارای 43824 نمونه و هر نمونه دارای 13 صفت می باشد. نوع داده ها اعداد صحیح و اعشاری می باشند.

صفات مربوط به نمونه های این مجموعه داده در جدول 1 نمایش داده شده است.

جدول:1 ویژگی های مربوط به نمونه های مجموعه دادهBeijing PM2.5

در ابتدا باید شبکه عصبی مورد نظر با استفاده از نمونه های مورد نظر در مجموعه داده آموزش ببیند. در این مرحله ما ویژگی دما را به عنوان خروجی و هدف و به غیر از دو ویژگی شماره سطر و سال، از بقیه ویژگی ها به عنوان ورودی شبکه عصبی استفاده شد. شبکه عصبی مورد نظر دارای تعداد 10 نود ورودی و تعداد یک نود خروجی می باشد. تعداد نود های لایه میانی و محاسباتی شبکه عصبی به صورت داینامیک است که در آزمایشات انجام شده مورد بررسی قرار می گیرد. در شکل 1 نمونه ای از شبکه عصبی مورد استفاده در این تحقیق مشاهده می شود.

همانگونه که بیان شد، با استفاده از درخت تصمیم در بخش یادگیری سعی می شود با استفاده از 10ویژگی مربوط به بخش ورودی، مقدار مثبت یا منفی بودن دما را مشخص نماییم. در حقیقت با استفاده از مجموعه داده آموزشی مورد نظر قوانین درخت تصمیم مورد نظر را به گونه ای اصلاح می شود که در مورد مثبت یا منفی بودن دما به درستی قادر به تصمیم گیری باشد. به نوعی می توانیم این گونه بیان کنیم که وزن های شبکه عصبی اگر در نسلی مقادیر مفیدی نباشند و موجب بدتر شدن اوضاع یادگیری شوند، درخت تصمیم گیری باعث می شود آن وزن ها اعمال نشده و شبکه عصبی برای ادامه یادگیری به مسیر درست تری باز گردد. لازم به توضیح است که در این بخش از درخت تصمیم ID3 استفاده شده است.

دیاگرام روش پیشنهادی در شکل 2 مشاهده می شود.


پیاده سازی را با استفاده از زبان برنامه نویسی MATLAB نسخه 2016 انجام داده و نتایج را مورد بررسی قرار می دهیم. همچنین از بین تمامی نمونه های مجموعه داده آموزشی تعداد 40000 داده به عنوان داده آموزشی و تعداد 3824 داده به عنوان داده تست در نظر گرفته شد. در ابتدا مقایسه ای بین اجرای دو الگوریتم پس انتشار خطا و الگوریتم پیشنهادی انجام شد که نتیجه آن در شکل 3 قابل مشاهده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید