بخشی از مقاله
چکیده:
زمانی که متغیر پاسخ گسسته گروهی و متغیرهاي مستقل پیوسته باشند در اینصورت از رگرسیون لجستیک استفاده می کنیم. رگرسیون لجستیک بر سه نوع است : رگرسیون لجستیک دوتایی، اسمی و رگرسیون لجستیک ترتیبی.
از آنجا که ممکن است درجمع آوري داده هاي انبوه، بعضی از متغیرهاباعدم پاسخ روبه روشوند - به این داده ها، داده هاي گمشده می گویند - و چون این داده هاي گمشده ممکن است در متغیر پاسخ یا در متغیرهاي کمکی به وجود آیند در اینصورت ممکن است روش هاي معمولی براي برآورد پارامترهاي مدل رگرسیون لجستیک کاربردي نداشته باشد
در این مقاله ضمن تشریح خلاصه اي از رگرسیون لجستیک روشی ارائه می دهیم که در آن پارامترهاي مدل رگرسیون لجستیک با وجود مقادیر گمشده در متغیر کمکی برآورد شوند.
رگرسیون لجستیک
هدف از رگرسیون لجستیک پیدا کردن بهترین برازش - مدل - براي تشریح رابطه میان برآمد - متغیر وابسته یا پاسخ - و مجموعه اي از متغیرهاي مستقل می باشد. در رگرسیون لجستیک متغیرهاي مستقل می توانند گسسته - دوتایی - ، طبقه اي و پیوسته نیز باشند. بنابراین رگرسیون لجستیک رویکردي براي پیش بینی طبقه اي است. به عنوان مثال اگر بخواهیم اثر چند متغیر مستقل از قبیل میزان مصرف سیگار و میزان مصرف الکل را بر تشخیص وضعیت خونی افراد بسنجیم و فرض شود از 100 نفر، 25 نفر وضعیت خونی مورد نظر را دارند و 75 نفر ندارند، آنگاه این اعداد را می توان این گونه بیان کرد که شانس1 داشتن این وضعیت 25 به 75 - یعنی 1 به - 3 است. به عبارت دیگر احتمال داشتن وضعیت مورد نظر 25 از 100 است.
متأسفانه شانس به عنوان شاخصی از احتمال وقوع یک حادثه، داراي این اشکال است که وقتیکه یک حادثه احتمال بالایی دارد شانس آن می تواند مقادیر بی نهایت بزرگی بگیرد، در حالیکه اگر احتمال آن خیلی کم باشد، شانس تنها می تواند کسري بین صفر و یک باشد. این اشکال را می توان با گرفتن لگاریتم طبیعی از شانس برطرف کرد. این حالت را لگاریتم شانس2 یا لوجیت3 می نامند.اگر لوجیت، یک مقدار منفی گرفت بدان معنی است که شانس، بر علیه وقوع حادثه است و اگر لوجیت یک مقدار مثبت گرفت بدان معنی است که شانس، به نفع وقوع حادثه است.
هنگامیکه شانس یک حادثه، پنجاه پنجاه باشد، مقدار لوجیت صفر می شود. رگرسیون لجستیک بسته به نوع متغیر پاسخ به سه دسته تقسیم می شود:
-1 رگرسیون لجستیک دوتایی: که زمانی مورد استفاده قرار می گیرد که متغیر پاسخ یک متغیر دو حالتی - دوبخشی - است از قبیل healthy/ill,pass/fail,yes/no و غیره.
-2 رگرسیون لجستیک ترتیبی: که زمانی مورد استفاده قرار می گیرد که متغیر ترتیبی باشد. متغیرهاي ترتیبی متغیرهاي گروه بندي شده اي هستند که داراي سه سطح ممکن یا بیشتر از سه سطح می باشند که ترتیب طبیعی دارند. همانند کاملاً مخالف، مخالف، طبیعی، موافق، و کاملاً موافق.
-3 رگرسیون لجستیک اسمی: که زمانی مورد استفاده قرار می گیرد که متغیر پاسخ یک متغیر اسمی است.
متغیرهاي اسمی، متغیرهاي گروه بندي هستند که داراي سه سطح یا بیشتر بدون ترتیب طبیعی هستند. به عنوان مثال این سطوح در یک مطالعه بر روي طعم غذا ممکن است عبارت باشند از ترد و برشته، خمیرمانند، سفت و غیره.
در حالتی که متغیر پاسخ دو بخشی است، مدل رگرسیون لجستیک می تواند به صورت زیر بیان شود:
که Yi ها متغیرهاي تصادفی برنولی هستند که ضرایب این مدل با استفاده از روش MLبرآوردمی شود
برآورد پارامترهاي رگرسیون لجستیک با داده هاي گمشده براي تحلیل داده هایی که داراي خصوصیت گمشده هستند روشهاي مختلف وجوددارد. ساده ترین روش این است که موارد داراي مقادیر گمشده را حذف کنیم وتجزیه و تحلیل براساس داده هاي کامل صورت پذیرد.
این امر باعث از دست رفتن اطلاعات و حتی در بعضی از موارد سبب اریبی می شود. روش دیگر این است که برآوردهایی جانشین مقادیر گمشده گردند و سپس با روشهاي استاندارد، تحلیل آماري براي کل داده ها، شامل مشاهده شده و گم شده صورت پذیرد. در این روش اشکالات جدي به وجود می آید که ازجمله اینها میانگین، واریانس و خطاي معیار پارامتر به دلیل اضافه شدن تعدادي مقادیر یکسان تغییر خواهد یافت.