بخشی از پاورپوینت
اسلاید 2 :
داده و پردازش آن
فصل سوم
اسلاید 3 :
1- پیش پردازش دادهها
2- پیشفرضهای مدلهای احتمالی
هر کدام از انواع مدلهای معرفی شده، خود مبتنی بر یک مجموعه اصول یا بهعبارتی دیگر، پیشفرضهایی هستند که نقض یا در نظرنگرفتن هر یک از آن پیشفرضها میتواند به اعتبار مدل خدشه وارد آورد. از اینرو، با توجه به نوع مدل مورد نظر مدلساز، لازم است مشخص شود که مدل بر چه پیشفرضهایی استوار است، سپس، مدلساز پیش از مبادرت ورزیدن به مدلسازی، مجموعه دادههای خود را بررسی کند. با توجه به این مسئله در فصل حاضر پیشفرضهایی معرفی میشوند که مبنای کار مدلهای احتمالی بهشمار میروند، چرا که این دسته از مدلها کاربرد گستردهای در محیط طبیعی دارند.
2-1. پیروی از توزیع نرمال
پیش از مدلسازی با بهکارگیری مجموعه دادهها، باید مشخص شود که آیا متغیر وابسته در مجموعه دادهها از توزیع نرمال پیروی میکند یا خیر؟
اسلاید 4 :
پیروی از توزیع نرمال
برای مدلهای احتمالی در حالت عام و مدلهای رگرسیونی در حالت ویژه، فرض بر این است که متغیر وابسته از توزیع نرمال پیروی میکند. مونتگمری و پیک (1992) این پیشفرض را به متغییرهای مستقل نیز بسط دادهاند. برای تعیین اینکه مقادیر یک متغیر از توزیع نرمال پیروی میکند یا نه، میتوان به یک یا ترکیبی از روشهای زیر عمل کرد.
اسلاید 5 :
پیروی از توزیع نرمال
اسلاید 6 :
از اینرو، رهیافتی که بتواند مدلساز را از سردرگرمی دربیاورد، بهرهگیری از آزمونهای آماری در این زمینه است. در این روش، با بهکارگیری یکی از آزمونهای آماری همچون شاپیرو-ویلک و کولموگروف-اسمیرنوف و ژاکارد-برا، میتوان تعیین کرد که آیا مقادیر متغیر موردنظر از توزیع نرمال پیروی میکند یا خیر؟ قابل گفتن است که انتخاب میان دو آزمون نخست، به تعداد مشاهدات بستگی دارد. بهطوریکه اگر تعداد دادههای مشاهداتی بیش از 50 باشد، آزمون شاپیرو-ویلک و در غیر این صورت بهتر است از آزمون کولموگروف-اسمیرنوف استفاده شود (ایوت و وودوارد، 2007).
اسلاید 7 :
الف) روش گرافیکی
بهطور کلی برای یافتن پاسخ این پرسش که آیا مقادیر متغیر وابسته از توزیع نرمال پیروی میکند یا خیر، میتوان به دو روش گرافیکی زیر اقدام کرد:
نمودار هیستوگرام
برای تحلیل گرافیکی نرمال بودن مقادیر یک متغیر مفروض، نخست باید یک نمودار هیستوگرام با استفاده از مقادیر متغیر موردنظر تهیه شود. سپس نمودار ترسیم شده با نمودار توزیع نرمال رویهم گذاری شود. با نگاه به نمودار بهدست آمده، باید بتوان به این پرسش پاسخ داد که توزیع فراوانی مقادیر متغیر مورد نظر از توزیع نرمال پیروی میکند یا خیر؟ عدم پیروی از توزیع نرمال برای مقادیر یک متغیر ممکن است ناشی از وجود دادههای پرت در آن باشد.
اسلاید 10 :
الف) روش گرافیکی
نمودار چارک-چارک
این نمودار بهسادگی یک نمودار پراکنش نقاط است که دو نمونه با اندازههای یکسان را میتواند مقایسه کند. این نمودار برای تعیین اینکه مقادیر یک متغیر مفروض میتواند از توزیع نرمال پیروی کند، استفاده میشود.
اسلاید 11 :
لازم است این بررسی هم برای متغیرهای مستقل و هم برای متغیر وابسته انجام گیرد (زور و همکاران، 2010). این نوع دادهها ممکن است در تحلیل مجموعه داده در وهله نخست و در کار مدلسازی در مراحل بعدی مشکلاتی را بهوجود آورند. برای مثال وجود یک یا چند داده پرت فوقالعاده بزرگ ممکن است سبب شود که میانگین و انحراف معیار نمونه خیلی بزرگتر از میانگین و انحراف معیار جمعیت شوند.
وجود داده یا دادههای پرت در مجموعه داده هنگام تحلیل دو متغیره ممکن است اثر ناخواسته و بدی بر مقدار ضریب همبستگی بگذارد و هنگام ابداع یک مدل رگرسیونی با ایجاد انحراف در ضرایب خط رگرسیون، اثری را ایجاد کند که مدل دیگر نتواند رابطه واقعی میان متغیر و متغیرهای مستقل و متغیر وابسته را نشان دهد (مک کوئن، 2003). براساس تعریف، داده پرت یک مقدار اندازهگیری شده یا مشاهده شدهای است که در یک فاصله غیرعادی از مقادیر سایر دادههای مشاهداتی یا اندازهگیری شده یک نمونه تصادفی از یک جمعیت آماری قرار دارد (مک کوئن، 2003).
بررسی دادههای پرت
اسلاید 12 :
در میان مدلسازی دو نگرش کلی در مورد دادههای پرت وجود دارد: گروه نخست راهبرد کنار گذاشتن (حذف) را در پیش میگیرند؛ در حالیکه گروه دوم با کنار گذاشتن دادههای پرت موافقت چندانی ندارند و از زوایه دیگری به دادههای پرت مینگرند و اعتقاد دارند که دادههای پرت همچون سایر دادههای دیگر در یک مجموعه داده، از طریق اندازهگیری یا مشاهده بهدست آمدهاند و نمیتوان بهآسانی از کنار آنها گذشت؛ بهطوریکه میتوان آنها را بهعنوان مقادیر حدی در نظر گرفت. از این رو نخست، پیش از کنار گذاشتن آنها، باید به بررسی علت یا علتهایی پرداخت که سبب افزایش یا کاهش بیش از حد در مقدار یا مقادیر یک متغیر مستقل یا یک متغیر وابسته شده است.
بهطور کلی، وجود یک یا چند داده پرت یا به بیان دیگر داده مقادیر حدی میتواند به دو دلیل بروز خطا و ویژگی ذاتی سیستم در دست مدلسازی باشد.
بررسی دادههای پرت
اسلاید 13 :
قابل گفتن است خطا که در نوع خود نیز به خطای تصادفی و خطای منظم تقسیم میشود، ممکن است در فرآیند جمعآوری، ثبت، پردازش، ذخیرهسازی و بازیابی دادهها رخ دهد. از نظر منشأ نیز خطا ممکن است ناشی از کوتاهی یا اشتباه انسان (کاربر) باشد یا اینکه در اثر بروز نقص فنی در دستگاههای جمعآوری، ثبت، پردازش، ذخیرهسازی و بازیابی دادهها بهوجود آید.
آشکار است چنانچه در سیستم، دادههای نامتعارفی وجود داشته باشد که پس از بررسی مشخص شود ناشی از بروز یکی از دو نوع خطای پیشتر گفته شده نیست، بلکه مربوط به سیستمی است که درحال مدلسازی آن هستیم و در دنیای واقعی رخ داده است، دیگر نمیتوان نام داده پرت بر آن نهاد، بلکه آنها دادههای مقادیر حدی هستند و لازم است در مجموعه داده نگهداری شده و در فرآیند مدلسازی استفاده شوند.
برای تعیین داده یا دادههای پرت در یک مجموعه داده میتوان از روشهایی که دربرگیرنده روشهای تحلیل گرافیکی یا روشهای مبتنی بر آزمونهای آماری است، بهره جست.
اسلاید 14 :
1-روش گرافیکی تعیین داده پرت
بهطور کلی با سه روش زیر میتوان به تعیین داده یا دادههای پرت در یک مجموعه داده اقدام کرد:
روش نمودار جعبهای
ترسیم نمودار جعبهای در تعیین و شناسایی داده یا دادههای پرت در یک مجموعه داده بسیار متداول است. شکل 3-3 (الف) نمونهای از یک نمودار جعبهای را نشان میدهد. مطابق این شکل، میانه بهصورت یک خط افقی نشان داده میشود و با استفاده از چارک 25 درصد و چارک 75 درصد حول خط افقی (میانه)، جعبهای بهوجود میآید که نیمی از دادههای مشاهداتی (اندازهگیری شده) را شامل میشود. براساس نمودار جعبهای، هر نقطه را که همان داده مشاهداتی (اندازهگیری شده) است، اگر در فراسوی آن خطوط قرار گیرد، داده پرت در نظر میگیرند (زور و همکاران، 2010).
روش نمودار کلیولند
یک روش گرافیکی دیگر برای تعیین دادههای پرت، نمودار کلیولند است.
اسلاید 15 :
نمودار کلیولند نموداری است که در آن شماره ردیف داده مشاهداتی (اندازهگیری شده) نسبت به مقدار عددی آن مشاهده بر روی یک نمودار ترسیم میشود. شکل 4-3 (ب) نمونهای از یک نمودار کلیولند را نشان میدهد. این نمودار در مقایسه با نمودار جعبهای اطلاعات بیشتر و دقیقتری را در اختیار قرار میدهد. دادههایی که در گوشه سمت راست یا گوشه سمت چپ نمودار قرار میگیرند، دادههایی هستند که از اکثریت دادهها در میان یک مجموعه داده مفروض بزرگتر یا کوچکترند و میتوان آنها را بهعنوان داده پرت یا داده مقادیر حدی در نظر گرفت (زور و همکاران، 2010).
روش نمودار دو متغیره
در این روش مقادیر داده متغیرهای مستقل یک به یک با مقادیر داده متغیر وابسته بر روی نمودار پراکنش نقاط ترسیم میشود. شکل 3-5 نمونهای از بهکارگیری نمودارهای دو متغیره را برای تشخیص و تعیین دادههای پرت نشان میدهد.