بخشی از مقاله
چکیده
در تحلیل آماری معمولاً اطلاعات برخی واحدها یا متغیرها ثبت نشده یا به عبارتی با داده گمشده مواجهایم. در این مقاله روش جدیدی را بر اساس قضیه تصویر برای بازسازی یا جانهی این دادهها ارایه میدهیم. با یک مطالعه شبیه سازی نشان میدهیم که در چه شرایطی روش جدید از برخی روشهای معمول دیگر عملکرد بهتری دارد. در پایان با استفاده از داده واقعی عملکرد این روش را ارزیابی میکنیم.
-1 مقدمه
به طور معمول در بیشتر اوقات بنا به دلایلی، اطلاعات برخی از متغیرهای مورد بررسی ثبت نشده یا از دست میرود. در چنین شرایطی با مسأله گمشدهگی داده مواجه هستیم. از آنجا که همه روشهای استاندارد آماری بر پایه مشاهده همه متغیرها بنا شده است، بنابراین وجود داده گمشده این روشها را دچار مشکل میکند. پیش فرض همه نرم افزارهای آماری بر این اساس است که واحد آماری حاوی داده گمشده را از لیست دادهها خارج کنیم و بر اساس دادههای موجود و با فرض داده کامل تحلیل را انجام دهیم . اما این کار در بیشتر اوقات باعث از دست رفتن حجم زیادی از اطلاعات میشود. راه حل دیگر جانهی دادههای گم شده با مقادیر مناسب مثل میانگین دادههای مشاهده شده و ... میباشد. در این مقاله روش جدیدی برای بازسازی داده گمشده بر اساس قضیه تصویر و آمارههای ترتیبی را ارائه میدهیم.
-2 روشهای برخورد با دادههای گمشده
در طی سالهای اخیر روشهای متعددی برای جانهی مقادیر گمشده پیشنهاد شده است. یکی از این روشها جانهی با میانگین کل - MI - هست. در این روش میانگین کل مشاهدات هر متغیر جایگزین مقادیر گمشده میشود. اگرچه این روش سادهترین نوع جانهی است اما شاید بتوان گفت غیرجذابترین نوع جانهی نیز باشد. جانهی تمام مقادیر براساس میانگین موجب ایجاد اختلال در توزیع دادهها و کم برآورد شدن واریانس میشود. اگرچه جانهی با میانگین روش نسبتاً آسانی است ولی دو اشکال مهم در آن دیده میشود، یکی این که شکل توزیع متغیر مورد نظر را دگرگون میکند.
دوم اینکه چون به جای تعدادی از اعضای نمونه - گمشدهها - یک مقدار ثابت مانند میانگین جایگزین میشود، تغییرات در بین اعضای نمونه کاهش پیدا میکند و این سبب میشود واریانس حاصل کمتر از واریانس واقعی نشان داده شود. در اینجا منظور از واریانس واقعی، واریانس همه اعضای نمونه به شرط عدم وجود داده گمشده میباشد. بنابراین جانهی با مقدار میانگین برای تحلیلهای سادهای کاربرد دارد که برآوردهای نقطهای چون میانگین یا مجموع بدون توجه به واریانس مورد نظر باشد. روش دیگر جانهی رگرسیونی - CMI - میباشد. در این روش مقادیر گمشده بر اساس پیشبینی از یک مدل رگرسیونی برای تمامی موارد جایگزین میشوند.