بخشی از پاورپوینت
اسلاید 2 :
دانشگاه علوم کشاورزی و منابع طبیعی
داده و پردازش آن
اسلاید 3 :
2. آزمونهای آماری برای تعیین داده پرت
آزمون آماری گوناگونی برای تعیین دادههای پرت وجود دارد که بعضی از آنها برای آزمون پرت بودن تنها یک مشاهده (داده) مناسبند و از بعضی دیگر میتوان برای آزمودن پرت بودن چندین داده بهره جست. نکته دیگر محدودیت یا عدم محدودیت در تعداد دادههای مشاهداتی (اندازهگیری شده) است. بهطوریکه بعضی از آنها تنها میتوانند برای تعداد محدودی از دادههای مشاهداتی به کار روند و برعکس. علاوه بر موارد مطرح شده که زمینه تمایز میان آزمونهای آماری را برای تعین دادههای پرت فراهم میکنند، باید توجه داشت که فرض را بر این میگذارند که نمونه مشاهداتی (اندازهگیری شده) به جمعیتی تعلق دارد که از توزیع نرمال پیروی میکند. آزمونهای شوونه، دیکسون-تامپسون و رزنر در شمار پرکاربردترین آنها هستند.
بررسی دادههای پرت
اسلاید 4 :
بررسی همگنی واریانس، برخلاف مواردی که در بخش حاضر مطرح شده، کاری است که باید پس از ساخت مدل صورت بپذیرد. در مدلهای احتمالی، بررسی همگنی واریانس با استفاده از مقادیر باقیمانده (مقادیر خطای مدل) انجام میگیرد. برای این کار لازم است مقادیر باقیمانده و مقادیر برازش شده (مقادیر پیشبینی شده) توسط مدل روی یک نمودار پراکنش نقاط ترسیم شود. شکل 3-5 حالتهای گوناگون پراکنش نقاط را برای بررسی همگنی واریانس مدل مفروض نشان میدهد.
بررسی همگنی واریانس
بررسی پدیده همخطی
همخطی بهمعنای وجود همبستگی میان دو متغیر مستقل در یک مجموعه داده است. نمونه بارز پدیده همخطی را میتوان در رابطه میان قد و وزن، عمق آب و فاصله تا ساحل جستوجو کرد (زور و همکاران، 2010).
اسلاید 6 :
در صورت وجود همخطی میان متغیرها، فرآیند ساخت مدل به برآورد غیرقابل اعتمادی از ضرایب (پارامترای) مدل رگرسیونی منجر خواهد شد. با بررسی و کنترل نشانههای زیر میتوان به وجود همخطی در یک مجموعه داده پی برد (گزینه، 2000).
1- نوسانات گسترده در پارامترهای مدل بهواسطه تغییرات اندک در مقادیر دادههای اندازهگیری شده
2- وجود خطای استاندارد بزرگ در پارامترهای مدل
3- پایین بودن سطح معنیداری ضرایب مدل
4- بالا بودن بسیار زیاد مقدار ضریب تعیین مدل
5- غیرمنطقی و باورپذیر نبودن مقدار عددی ضرایب مدل و
6- مواجهه با علامتهای (+ و -) اشتباه در ضرایب مدل.
بررسی پدیده همخطی
اسلاید 7 :
قابل گفتن است که علامتهای (+ و -) در ضرایب مدل نشان میدهد که متغیر مستقل مربوطه چه نوع رابطهای با متغیر وابسته در مدل مورد نظر دارد. چنانچه علامت ضریب یک متغیر مستقل در یک مدل مفروض، منفی باشد، نشاندهنده وجود رابطه غیرمستقیم میان آن متغیر مستقل و متغیر وابسته است. بهطوریکه افزایش مقدار عددی متغیر مستقل مذکور به کاهش در متغیر وابسته در آن مدل منجر میشود و یا برعکس.
بهمنظور پرهیز از بروز مشکلات ناشی از پدیده همخطی، لازم است وجود این پدیده را میان متغیرهای مستقل موجود در یک مجموعه داده بررسی کرد و به انتخاب خود مدلساز نسبت به کنار گذاشتن یکی از زوج متغیرهایی که همخط هستند، اقدام شود. برای تعیین وجود پدیده همخطی میتوان از یکی از روشهای تحلیلی زیر بهره جست:
اسلاید 8 :
1- روش ماتریس ضریب همبستگی
در این روش باید ضریب همبستگی میان زوج متغیرهای مستقل محاسبه شود. در صورتی که مقدار ضریب همبستگی میان یک زوج متغیر مستقل بیش از 70 درصد باشد، مدلساز میتواند به انتخاب خود، یکی از آن متغیرها را کنار بگذارد (دورمان و همکاران، 2013). برای این کار میتوان، آن متغیر مستقلی که مقدار ضریب همبستگی کوچکتری با متغیر وابسته دارد را کنار گذاشت.
2. روش ضریب تورش واریانس
با محاسبه ضریب تورش واریانس نیز میتوان به وجود پدیده همخطی در مدل پی برد. بهطوریکه ضریب تورش واریانس برای همه متغیرهای مستقل مدل، محاسبه شده، سپس بهطور متوالی و یک به یک متغیری که بیشترین (بالاترین) ضریب تورش را دارد، از مدل کنار گذاشته شود.
اسلاید 9 :
بررسی پدیده همخطی
اسلاید 10 :
مثال نحوه محاسبه ضریب تورش واریانس
اسلاید 11 :
مثال نحوه محاسبه ضریب تورش واریانس
طبقهبندی مقدار عددی ضریب تورش واریانس برای تصمیمگیری
اسلاید 12 :
یکی از شرطهای مهم مدلسازی احتمالی آن است که بین متغیرهای مستقل و متغیر وابسته، رابطه خطی وجود داشته باشد. از این رو، لازم است با ترسیم ابر نقاط مقادیر متغیر وابسته با هر یک از متغیرهای مستقل در یک مجموعه داده، این اطمینان بهدست آید که میان متغیرهای مستقل و متغیر وابسته رابطه مستقیم (+ یا -) وجود دارد. با ترسیم ابر نقاط متغیر وابسته و متغیر مستقل، امکان بررسی موارد زیر هم در اختیار مدلساز قرار میگیرد (مککوئن، 2003).
1- تعیین دامنه و پراکنش نقاط دادهها
2- تعیین نوع رابطه میان متغیر وابسته و متغیر مستقل
3- وجود دادههای مقادیر حدی و
4- تعیین شکل یا نوع روابط میان متغیر وابسته و متغیر مستقل
بررسی رابطه میان متغیرهای تابع و مستقل
اسلاید 13 :
3. رهیافتهای انتخاب متغیرهای ورودی
هنگام مدلسازی، همواره این سوال چالش برانگیز است: چه تعداد یا چه نوعی از متغیرها برای مدل انتخاب شوند؟ گزینش متغیرهای ورودی باید از هر گونه افراط یا تفریطی به دور باشد، زیرا هر کدام آثار و پیامدهای ویژهای بر مدل خواهند گذاشت. بهطوریکه بهترتیب موجب بهوجود آمدن مدلهای بیش از حد پیچیده یا ساده میشوند که میتواند تصویر غیر واقعی از سیستم در اختیار مدلساز بگذارد. بهعلاوه کاربرد مدلهای پیچیده برای کاربران آتی آن مشکل خواهد شد و در موارد مدلهای ساده، از میزان کاراییشان در کار پیشبینی خواهد کاست. در زیر رهیافتهای گزینش متغیرهای ورودی (به مدل) تشریح میشود.
الف) طراحی و تحلیل سیستم ادراکی
ابتداییترین کار در مدلسازی، طراحی ادراکی سیستمی است که قصد مدلسازی آن را داریم و گام بعد، تجزیه و تحلیل آن سیستم ادراکی با استفاده از روش ماتریس متقابل است (جباریان، 1393).
اسلاید 14 :
بدین طریق میتوان درجه اهمیت اجرای سیستم را که همان متغیرهای ورودی مدل هستند، تعیین کرد و براساس درجه اهمیت متغیر دست به انتخاب آنها زد.
ب) رهیافت مبتنی بر دانش اکولوژیک پیشین
این رهیافت استفاده گستردهای دارد و مبتنی بر دانش پیشین مدلساز در مورد متغیرهای علی و بصیرت فیزیکی یا اکولوژی او نسبت به سیستمی است که درصدد مدلسازی آن است. آشکار است که لحاظ نکردن متغیرهای مهم سبب میشود مقداری از اطلاعات آن سیستم از نظرها دور بماند و برعکس وارد کردن بیش از اندازه متغیرهای ورودی موجب ایجاد اختلال در نتایج مدلسازی در گامهای کالیبراسیون، اعتبارسنجی، تحلیل حساسیت و تحلیل عدم قطعیت میشود (مایر و همکاران، چن و ماینت، 2003؛ لی و همکاران، 2004؛ ماتیل و لی، 2005).
اسلاید 15 :
آشکار است متغیرهایی که ضریب همبستگی آنها کمتر از 0/4 باشد بهتر است که از فرآیند مدلسازی کنار گذاشته شوند. همچنین آن زوج متغیرهای مستقلی که ضریب همبستگی آنها بیش از 0/70 باشد، چون میتوانند موجب پدیده همخطی در مدل شوند، یکی به انتخاب مدلساز، کنار گذاشته میشود.
اسلاید 16 :
طبقهبندی کمی و کیفی ضریب همبستگی ( رضایی، میرمحمدی، 1393)
مشکل پیش روی این رهیافت آن است که تحلیل ضریب همبستگی پیرسون بر این اصل استوار است که بین متغیرها رابطه خطی حکم فرماست. بهطوریکه در صورت وجود یک رابطه غیرخطی، امکان کشف و درک رابطه میان متغیرها میسر نیست.
اسلاید 17 :
د) رهیافت مبتنی برتکنیک دادهکاوی
براساس این رهیافت، از تکنیکهای متعارف دادهکاوی همچون تحلیل اجزای اصلی، تحلیل خوشهای و غیره برای انتخاب دادههای ورودی استفاده میشود (ماتیل و چائو، 2007). برای مثال میتوان به یانژکویچ و نواک (2012) که از تحلیل اجزای اصلی برای مدلسازی آشیان اکولوژیک؛ اوبرین و همکاران (2017) در مدلسازی توان تکاملی و توان سازشی حیات وحش؛ آلمنه و همکاران (2017) برای مدلسازی آثار تخریب اکولوژیک در حوزههای آبخیز و جوامع مهرهداران بزرگ و کیفیت آب؛ امیری و ناکانه (2009) برای یافتن دادههای ورودی برای مدلسازی رابطه بین تغییر در سنجههای سیمای سرزمین و کیفیت آب رودخانهها اشاره کرد. قابل ذکر است این رهیافت نیز مبنای کار خود را بر وجود رابطه خطی میان متغیرها میگذارد و باید در نظر داشت که بسیاری از پدیدهها در اکولوژی و محیط زیست لزوما از روابط خطی پیروی نمیکنند.
اسلاید 18 :
ر) رهیافت مبتنی بر انتخاب پیشرونده یا حذف پسرونده
در این رهیافت، با استفاده از یکی از روشهای انتخاب پیشرونده یا حذف پسرونده از میان مجموعه دادههای ورودی، بهینهسازی صورت میپذیرد. در روش انتخاب پیشرونده، طی یک فرآیند تکرار شونده، در هر بار آن متغیری که ورودش به مدل، موجب بهبود کارایی میشود، امتحان میشود. برعکس در روش حذف پسرونده، با انتخاب همه متغیرها، بهترتیب متغیری که کمترین تغییر را در کاهش کارایی مدل دارد، از مجموعه خارج میشود (ماتیل و چائو، 2007). در میان تحقیقات انجام شده، مایر و همکاران (1998) از رهیافت انتخاب پیشرونده برای تعیین مهمترین متغیرهای ورودی برای مدلی که قرار بود تعداد نوعی باکتری را در آب رودخانه پیشبینی کند، بهره گرفتند.
اسلاید 19 :
ز) رهیافت مبتنی بر تحلیل حساسیت
این کار معمولا پس از ساخت مدل انجام میگیرد. سپس از طریق تحلیل حساسیت متغیر یا مجموعه متغیرهای ورودی که تغییرات آنها (درفضای پارامتری خودشان) تأثیر معنیداری بر خروجی مدل ندارد، از مجموعه متغیرهای ورودی کنار گذاشته میشود و فرآیند مدلسازی با مجموعه متغیرهای ورودی باقیمانده، دوباره تکرار میشود.