بخشی از مقاله
*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
برآورد تفاضل مخاطره های کولبک - لیبلر برای مشاهدات سانسوریده از راست نوع II تحت مدل های غیر آشیانه ای عبدالرضا سیاره، پریسا ترکمان
چکیده : معیار آکائیک به طور گسترده در تئوری انتخاب مدل برای داده های کامل به کار گرفته می شود، اما برای داده های ناقص وقتی مدلها غیر آشیانه ای و بد توصیف شده هستند کمتر مورد توجه قرار گرفته است. در این مقاله به انتخاب یک مدل مناسب از بین مدلهای رقابتی برای داده های سانسوریده از راست نوع II پرداخته می شود و اقدام به برآورد تفاضل مخاطره های بین دو مدل غیر آشیانه ای میگردد. سپس نشان داده می شود استنباط براساسی داده های مشاهده شده و سانسوریده به طور همزمان به جای در نظر گرفتن فقط داده های مشاهده شده به نتایج بهتری منتهی خواهد شد. فاصله ردیابی مناسب برای تفاضل امید کولبک - لیبلر مشاهدات سانسوریده با احتمال مشخصی معرفی می شود و از انجا که هر فاصله اطمینان مجموعه ای از فرضی های پذیرفتنی تحت فرض صفر است، فاصله به دست
آمده برای انتخاب مدل مناسب به کار گرفته میشود.
واژه های کلیدی : س. مانسور راست نوع II، مدلهای غیر آشیانه ایی، معیار آکائیک، معیار اطلاع کولبک-لیبلر.
وقتی که از توزیع واقعی جامعه بی اطلاع هستیم، انتخاب مدل مناسب برای دادهها به منظور پیش بینی، کنترل، تصمیم گیری و استخراج اطلاعات، اهمیت فراوانی پیدا می کند. انتخاب مدل توسط ازمون فرضی یا به کمک معیارهای انتخاب مدل انجام می گیرد. اطلاع کولبک - لیبلر (۱۹۵۱)، بر پایه تابع مخاطره، برای بررسی واگرایی مدل رقابتی از مدل درست نامعلوم مطرح شده است. هر چه مقدار کمیت کولبک - لیبلر کوچک تر باشد، مدل رقابتی به مدل درست نزدیک تر است. فرض کنید X ۱,..., Xn یک نمونه تصادفی از جامعه ای با تابع چگالی نامعلوم f باشد، {G = {g(p) : 3 G B C RP مدل رقابتی برای f است و سعی می شود به گونه ای انتخاب شود که برازش مناسبی به دادهها داشته باشد. اطلاع کولبک - لیبلر به صورت
کولبک - لیبلر به صورت
معرفی کرد، که در آن موفق برآوردگر شبه ماکسیمم درست نمایی" (QMLE) برای از است. در عمل تعدادی مدل پارامتری رقابتی به عنوان جایگزین مدل درست در نظر گرفته می شوند. اگر 0 = G H باشد، دو مدل رقابتی G و {H = {h (T), Y ∈ T C R غیر آشیانهایی و در غیر این صورت متداخل یا آشیانهایی نامیده می شوند. اگر یک مدل رقابتی شامل مدل درست باشد، آن را
خوب - توصیف شده " و در غیر این صورت آن را بد - توصیف شده " می نامیم. برای
تعریف میشود. وونگ (۱۹۸۹) آزمون انتخاب مدل غیر آشیانه ای برای داده های Ü> - Usur-la H. : Er |og - o کامل را معرفی کرد، که در آن فرضیه صفر دو مدل رقابتی غیر آشیانه ای از نظر نزدیکی به مدل درست داده ها است و فرضیه مقابل آن به یکی از صورتهای
هستند. انتخاب مدل مناسب از میان مدل های رقابتی غیر آشیانه ایی، وقتی که دادهها سانسوریده باشند از جنبه های مختلف تئوری و کاربردی مورد توجه آمارشناسان قرار دارد. در چنین وضعیتی دادههای قابل مشاهده X o به همراه دادههای سانسوریده Xc به جای داده های کامل (X = (X ۱,..., Xn، در اختیار هستند. با تا چاریا (۱۹۸۵) برآوردگر ماکسیمم درست نمایی تعمیم یافته برای داده های سانسوریده نوع II را بررسی و توزیع مجانبی آن را به دست آورد. لینهارت و زوکچینی (۱۹۸۶) به بررسی خطاهای انتخاب مدل برای داده های کامل پرداختند. تیکو (۱۹۶۸) تقریبی برای برآوردگرهای درست نمایی تعمیم یافته پارامترهای مدل لگ - نرمال سانسوریده را بدست آورد. سگوان و همکاران (۲۰۰۵) براساس معیار کولبک متقارن، معیاری برای انتخاب مدل معرفی کردند تا به کمک آن اطلاعات از دست رفتهٔ حاصل از داده های گمشده را بازیابی کنند. هافیدی و همکاران (۲۰۰۷) به تعمیم معیار آکائیک برای انتخاب مدل با دادههای گمشده پرداختند. کومانژ و همکاران (۲۰۰۸) شکل وزنی تفاضل معیارهای آکائیک را به منظور برآورد تفاضل های مقدار مورد انتظار توابع مخاطره کولبک - لیبلر بین برآوردگرهای ماکسیمم درست نمایی توزیع در دو مدل بررسی کردند و فاصله ردیابی با احتمال از پیش مشخص شده ای را برای مشاهدات کامل به دست آوردند. سیاره و همکاران (۲۰۱۱) معیارها و آزمونهای انتخاب مدل را مقایسه نموده نشان دادند که پس از انتخاب مدلهای معادل توسط یکی از معیارها یا آزمونها به منظور دست یابی به
9 در بخشی دوم نشان داده می شود که استفاده دادههای مشاهده شده
سانسوریده به طور همزمان بهتر از استفاده از داده های ناقص در تحلیل این گونه yo داده هاست. در بخش سوم به بررسی رفتار برآوردگرهای ماکسیمم درست نمایی دو حالت که مادل رقابتی داده های سانسوریده نوع II خوب - توصیف شده یا بد توصیف شده هستند، پرداخته شده است و آزمونی برای انتخاب مدل برای داده های سانسوریده معرفی می شود. در بخش چهارم فاصله ردیابی برای تفاضلی ریسک های کولبک - لیبلر دو مدل رقابتی به دست آمده و استنباط برای انتخاب مدل بر اساس فاصلهٔ ردیابی در سطح اطمینان مشخص شده برای این نوع سانسور مورد مطالعه
۲ انتخاب مدل براساس دادههای کامل یا داده های ناقص
بسیاری از مدلهای آماری ویژگیهای داده های کامل را توصیف می کنند. این در حالی است که گاهی اوقات تنها دستیابی به زیر مجموعه ای از مشاهدات امکانپذیر است. از طرفی بسیاری از مدلها حساسیت زیادی به فرضی کامل بودن مشاهدات دارند و هنگامی که برای تحلیل دادههای ناقص به کار برده میشوند، خواص مطلوب خود را از دست می دهند. اگر چه روشهایی برای بازسازی یا تقریب داده های ناقص، از جمله الگوریتم EM، معرفی شدهاند، اما شیمود ایرا (1994) معیارهای انتخاب مدل بر پایهٔ داده های کامل را برای بررسی داده های ناقص مورد استفاده قرار داده است. در این بخش نشان داده می شود وقتی که دادهها سانسوریده هستند عملکرد معیار کولبک - لیبلر براساسی داده های مشاهده شده و سانسوریده، بهتر از حالتی است که داده های سانسوریده در نظر گرفته نمی شوند. تفاضل
کولبک - لیبلرهای دو مدل G و H را برای (Y ,3) = () به صورت
(\)
تعریف می شود، که در آن (Er(X برای امید ریاضی تحت چگالی درست f است. بطور مشابه
امید ریاضی K L را هنگامی که در را ارزیابی می شود با روابط
نشان می دهیم. لذا ریسک کولبک - لیبلر ارزیابی شده در 6 عبارت خواهد بود از
چگالی داده های کامل به حاصل ضرب چگالی داده های مشاهده شده و چگالی شرطی داده های سانسوریده به شرط دادههای مشاهده شده به صورت
جملهٔ اول عبارت سمت راست رابطه اخیر برابر (K Lo(6), f است. پس از رابطه (۱)
خواهیم داشت
ریسک کولبک - لیبلر شرطی را به صورت
و بنابر نامساوی جنس
در نتیجه
بنابراین
سمت چپ نامساوی اخیر امید ریاضی تفاضل ریسک های کولبک - لیبلسر برای دادههای کامل و سمت راست نامساوی امید ریاضی تفاضل ریسک های کولبک - لیبلر برای داده های ناقص است. بنابراین در مقایسه با دادههای سانسوریده، معیار واگرایی برای دادههای کامل حساسیت بیشتری از خود نشان می دهد و اخذ تصمیم بر اساسی داده کامل منجر به تصمیم محافظه کارانه تری می شود؛ لذا در
بخشهای بعدی استنباط بر اساس تجزیه دادههای کامل صورت می پذیرد.
Yo توسعه آزمون وونگ برای داده های سانسوریده
در یک آزمون طول عمر فرض کنید طول عمرهای Tl مؤلفه، متغیر های تصادفی مستقل X ۱۰ ..., Xn از یک توزیع پیوسته و در Y > ... > ۲۹ آماره های مرتب نمونه تصادفی باشند. در سانسور راست نوع II مطالعه تا زمان شکست r امین مؤلفه ادامه مییابد و تعداد شکست ها از قبلی تعیین شده است. مثالی از اهمیت کاربرد نمونه
های سانسوریده از راست نوع II این است که به دلیل صرفه جویی در زمان، به جای انتظار کشیدن تا زمان شکست تمام m نمونه با ثبت زمان شکست T مؤلفهٔ اول آزمون متوقف می شود. اگر g تابع چگالی، G و G = ۱ - G به ترتیب تابع توزیع و تابع بقا یک مدل رقابتی در نظر گرفته شوند، تابع شبه لگاریتم درست نمایی داده های
سانسوریده از راست نوع II به صورت
سست. برآوردگر شبه درست نمایی ماکسیمم، باید در رابطه
صدق کند. در فضای پارامتر، B، یک {(3)}{arg maX,3e B {L = 3 وجود دارد که مقدار شبه درست پارامتر نامیده می شود و ((K L(J, g(X به ازای آن مینیمم می شود. وایت (۱۹۸۲) مرجع مناسبی برای مطالعهٔ رفتارهای مجانبی برآوردگرهای (شبه) ماکسیمم درست نمایی است. در حالتی که مدل رقابتی شامل چگالی درست
نباشد و 3 در احتمال به مقدار شبه درست پارامتر، هوا، همگرا می شود که از رابطه
به دست میآید. این همگرایی منتج از این واقعیت است که (log g(y با ۱ - m X P و (log G(J با ۱ - n X P به ترتیب به ))p) log G ) ( pE [log go(Y - ۱) همگرا خواهند بود. بنابراین برآورد کننده شبه ماکسیمم درست نمایی در احتمال به مقدار شبه درست پارامتری همگرا می شود که (6)logg(Y)] + (۱ - p) log G] پpE را ماکسیمم کند. این پارامتر شبه درست با به از نشان داده شده است. تفاضلی تابع شبه لگاریتم درست نمایی دو مدل
رقابتی بصورت
است. توزیع بریده شده از راست یک توزیع شرطی است که به ازای مقادیر کوچکتر از نقطه n ) دارای تابع چگالی (f(r|ir < , , ,) = F(i است. فرض کنید ۱ - ۲ ک... که ۲۱ متغیرهای تصادفی از یک توزیع بریده شده در Y با تابع چگالی ( A برای در یک X باشد، که در آن و چندک Dام توزیع اصلی و (۰,۱) ∋ p احتمال ثابت و به این معناست که در جامعه مورد بررسی p ۱۰۰ درصد از مؤلفه ها شکست خورده و طول عمر آنها ثبت شده است و بقیهٔ مؤلفه ها طول عمر بیشتری از طول عمر مؤلفه " ام دارند. T تعداد شکست ها و برابر با جزء صحیح Tup است. n = Y ) چندک نمونه ای است که F(p) = ( n و p,x = i در احتمال همگرا به p
است. توزیع مجانبی چندک نمونه ای با استفاده از قضیه دلتا به صورت
است، که در آن p = ۱ - q و ) با Y = (n. وقتی که مدل خوب توصیف شده است، باتاچاریا (۱۹۸۵) با اثبات دو قضیه توزیع مجانبی برآوردگر درست نمایی را برای داه های سانسوریده به دست آورد. در ادامه به کمک این دو قضیه و تحت شرایط وایت (۱۹۸۲)، برای حالتی که مدل رقابتی شامل چگالی درست داده ها نباشد، توزیع مجانبی برآوردگر شبه ماکسیمم درست نمایی به دست آورده شده است و آزمونی بر اساس معادل بودن دو مدل رقابتی یا بهتر بودن یکی از آنها معرفی خواهد شد. همگرایی جملهٔ اول و دوم، تفاضل تابع شبه لگاریتم درست نمایی دو مدل رقابتی به صورت
است و
در نتیجه رابطه همگرایی
به دست می آید. برای یافتن توزیع مجانبی برآوردگر ماکسیمم درست نمایی در حالتی که مدل بد - توصیف شده باشد، بسط تیلور لالآباد ۲/ - n حول و B را به
صورت
در نظر بکیرید. از طرفی
که در آن
بطوری که
لذا توزیع مجانبی برآوردگر شبه ماکسیمم درست نمایی از به صورت
به دست می آید. در صورتی که مدل خوب - توصیف شده باشد، به f3 = B (.3 همی صنسور نی حورسب --- دور
مقدار درست پارامتر است)، Bye = Age و توزیع مجانبی وفق به صورت
خواهد بود. آماره سمت راست رابطه (۲) دارای واریانسی به صورت