بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

رگرسيون چندکي دودويي با تاوان لاسو از ديدگاه آمار بيزي
خلاصه
اخيرًا روشهاي بيزي براي مدلهاي رگرسيون چندکي دودويي مورد توجّه قرار گرفته است . در اين مقاله روش رگرسيون چندکي دودويي با تاوان لاسو از ديدگاه آمار بيزي ارائه مي شود. در اين روش جهت کاهش اريبي در برآورد ضرايب رگرسيوني ، از طريق تعريف توزيع هاي پيشيني مناسب تابع تاوان روي ضرايب در نظر گرفته مي شود. با توجه به اين که توزيع هاي پسيني پارامترها به شکل بسته در اين روش قابل حصول نيستند، توزيع هاي پسيني شرطي کامل پارامترها محاسبه شده و سپس از روش مونت کارلو براي استنباط استفاده مي شود. در پايان نيز نحوهي کاربست روش پشنهادي در قالب مثال کاربردي شرح داده خواهد شد.
کلمات کليدي : رگرسيون چندکي دودويي ، تاوان لاسو، نمونه گيري گيبس ، استنباط بيزي.

١. مقدمه
اولين بار کوئنکر و باست (١٩٧٨)، رگرسيون چندکي ١ را مورد مطالعه قرار دادند. ايـن روش بـر ويژگـي هـاي نظري استوار است و داراي دو مزيت مهم مي باشد. ١- روش رگرسيون چندکي نسبت به ناپايداري واريـانس حساس نيست . ٢- اين روش اطلاعات جزيي تري نسبت به تأثير متغيرهاي کمکي در چنـدکهـاي مختلـف توزيع پاسخ را ارايه مي دهد. امّا در بسياري از مطالعه ها، متغيرهاي پاسخ ، ممکن است کمّي به ويژه دو حالته باشند، مثل وجود يا عدم وجود درد. بديهي است تجزيه و تحليل اين گونه دادهها با توجّه به نوع متغيّر پاسخ روشهاي خاص خود را مي طلبد. يکي از روشهاي تجزيه و تحليل ايـن مسـايل ، روش رگرسـيون چنـدکي دودويي است . اين روش توسط منسکي (١٩٨٥،١٩٧٥) ارائـه شـده و همچنـين او نتيجـه گرفـت کـه مزاياي روش رگرسيون چندکي در رگرسيون چندکي دوديي نيز صادق است . کـيم و پـلارد (١٩٩٠) نشـان دادند برآوردهاي روش منسکي داراي نرخ همگرايي پايين پايين و توزيع هـاي مجـانبي پيچيـده اسـت . لـذا استفاده از آنها در استنباطهاي آماري داراي محدوديت هـاي زيـاد اسـت . دلگـادو و همکـاران (١ ٠ ٢٠)، آبروي و هوانگ (٠٥ ٢٠) و کرداس (٠٦ ٢٠) نيز روشهايي از ديدگاه آمار فراواني گـرا بـراي مسـئله ارائه کردهاند. بنويت و همکاران (١٢ ٢٠) رگرسيون چندکي دودويي را از ديدگاه آمار بيزي مورد بررسي قرار دادند. در بسياري از مدلها ممکن است تعداد پارامترهاي مدل زياد باشد در اين صورت تعبير و تفسير مدل مشکل مي شود. براي رفع اين مشکل تيبشيراني (١٩٩٦) رگرسيون لاسو را ارائه کرد. رگرسيون لاسو با ايجاد تاوان لاسو روي پارامترها، آنها را به سمت صفر منقبض کرده و پارامترهاي کـم اهميـت را از مـدل حـذف مي کند. در ادامه کار تيبشيراني (١٩٩٦) زو (٠٦ ٢٠) رگرسيون لاسوي تطبيق پذير را پشـنهاد کـرد در ايـن روش برخلاف رگرسيون لاسو که تاوان را براي کليه پارامترها يکسان در نظر مي گيـرد تـاوانهـاي مختلفـي روي ضرايب رگرسيوني متفاوت لحاظ مي کند. سپس لي و زو (٠٨ ٢٠) رگرسيون چندکي بـا تـاوان لاسـو را ارائه کردند. در اين مقاله هدف بررسي رگرسيون چندکي دودويي با تاوان لاسـو روي ضـرايب رگرسـيوني از ديدگاه آمار بيزي است بدين منظور تاوان لاسو روي ضرايب رگرسيوني تعريف مي شود و سـپس بـا تعريـف توزيع هاي پيشيني مناسب روي کليه پارامترها مدل از ديدگاه آمار بيزي مورد تحليل و ارزيابي قرار مي گيرد.
٢. رگرسيون چندکي دودويي با تاوان لاسو يکي از روشهاي معمول براي تعريف مدلهاي رگرسيوني با پاسخ هاي دودويي استفاده از متغيرهاي پنهان است (بنويت و وندنپل ، ٢٠١٢). با استفاده از اين روش مدل رگرسيون دودويي به صورت


تعريف مي شود که در آن تابع (.)g تابع پيوند است که به صورت تعريف شده و (.)Iتابع مشخصه است . yi ،i -امين پاسخ مشاهده شده و *yi متغير پنهان و غير قابل مشاهده است . چون چندک -ام eها برابر صفر فرض شده اند، لذا چندک خواهد بود. از آنجايي که تابع پيوند يک تابع يکنوا است ، لذا ()xi'b چندک -ام متغير است . بنابراين در اين مدل تابع زيان با تاوان لاسو روي ضرايب رگرسيوني ، به صورت

به دست مي آيد که در آن به عبارت b ف  تاوان لاسو گويند. نيز پارامتر انقباض ناميده مي شود که هر j1 چه اندازه ي آن بزرگتر باشد ميزان انقباض ٢ پارامترها به سمت صفر بيشتر شـده و ضـرايب رگرسـيوني کـم اهيت از مدل حذف و مدلي تنک ٣ ايجاد مي شود.
با فرض اين که (,,٠)ALD ∽eij و توزيع پيشيني براي bرا به صورت

در نظر بگيريم و قرار دهيم v ، آنگاه توزيع پسيني  به صورت

به دست مي آيد. لذا مينيمم کردن تابع هدف (٣) نسبت به  معادل ماکزيمم کردن تابع درستنمايي (٤) در حضور پارامتر مزاحم است . بنابراين مي توان توزيع لاپلاس نامتقارن را براي اين مدل مورد استفاده قرار داد. با استفاده از خاصيت توزيع لاپلاس نامتقارن که مي توان آن را به صورت يک توزيع آميخته از توزيع نمايي با پارامتر  و توزيع نرمال استاندارد نوشت ، لذا اگر فرض کنيم که (,,٠)ALD ∽eij است ، آنگاه مدل رابطه ي (١) به صورت

خواهد بود که در آن zi و ei به ترتيب داراي توزيع نرمال استاندارد و نمايي با ميانگين  و مستقل
(1)
از هم هستند. چون توزيع پيشيني روي b ها توزيع لاپلاس متقارن است ، لذا مي توان آن را به صورت توزيع آميخته از دو توزيع

نوشت يا به بيان ديگر توزيع پيشيني b ها را مي توان به صورت زير نوشت

چون هدف تحليل بيزي است ، لذا براي ابرپارامتر u٢(به جاي ) توزيع پيشيني مزدوج را به صورت

قرار داده و توزيع پيشيني توأم ابر پارامترهاي  و به صورت t(μ١) و براي  توزيع پيشيني مزدوج گاما در نظر مي گيريم . حال با توجه به مدل رابطه ي (٥ )، ( ٦ ) و توزيع هاي پيشيني تعريف شده، مدل سلسله مراتبي را مي توان به صورت

در نظر گرفت . با توجه به شکل مدل سلسله مراتبي فوق، توزيع پسيني کليه ي پارامترها و متغيرهاي پنهان به صورت

به دست مي آيند که در آن (sn ,...,s١ s است . ملاحظه مي شـود کـه توزيـع پسـيني کامـل پارامترهـا و متغيرهاي پنهان توزيع شناخته شدهاي نيست .
اما توزيع هاي پسيني شرطي کامل پارامترها و متغيرهاي پنهان به صورت زير به دست مي آيند:

با توجه به رابطه ي فوق توزيع پسيني شرطي کامل *yi به صورت نرمال بريده شده در نقطه صفر خواهد بود، لذا

توزيع پسيني ساير پارامترها و ابرپارامترها به صورت زير به دست مي آيند:

بنابراين توزيع پسيني شرطي کامل ei به صورت

به دست مي آيد که در آن است و توزيع تعميم يافته ي معکوس نرمال ٤ با تابع چگالي

به دست مي آيد که در آن
است .



بالاخره توزيع پسيني شرطي کامل به صورت

به دست مي آيد که براي توليد داده از اين توزيع پسيني از روش متروپليس - هستينگز در هر تکـرار استفاده مي شود. براي استفاده از اين روش ، توزيع پيشنهادي را نمايي به صورت در نظـر مــي گيــريم کــه در آن d همــان مقــدار  در زمــان (١− t) اســت . لــذا δt بــا احتمــال پذيرفته مي شود که در آن

است . حال با مشخص شدن توزيع پسيني شرطي کامل پارامترها و ابرپارامترها مي توان با استفاده از روش نمونه گيري گيبس نمونه هاي کافي توليد کرده و استنباطها را انجام داد.
٣- مطالعه ي شبيه سازي
در ايــن مقالــه بــراي مقايســه کــارايي روشهــاي ارائــه شــده بــا روشهــاي متــداول ديگــر بــه
مطالعه ي شبيه سازي مي پردازيم . در اين شبيه سازي مدل را به صورت

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید