بخشی از مقاله
چکیده
امروزه در بسیاری از مطالعات پزشکی، از تکنولوژی ریزآرایهها استفاده میشود تا بتواند ارتباط بین رفتار ژنها و ویژگیهای مختلف بالینی بیماران را پیدا کند. از آنجایی که تعداد ژنها بسیار زیاد است، به منظور صرفهجویی در هزینه و زمان، تعیین ژنها و بهطور کلی متغیرهای موثر در پیشبینی یک بیماری - زمان فوت یک بیمار - از اهمیت بسزایی برخوردار است. در این مقاله، با به کارگیری توابع تاوان ریج، لاسو و ترکیبی از این دو تابع، الاستیکنت، در رگرسیون نرخ خطر کاکس، مدل مناسب برای پیشبینی الگوریتمهای مختلف معرفی و مورد مقایسه قرار میگیرد. در این راستا کاربرد روش های بهینه سازی مقید در قابلیت اطمینان مورد استفاده قرار می گیرد.
-1 مقدمه
گاهی اوقات در بررسی یک پدیده، زمان رخدادن آن از اهمیت بسزایی برخوردار است. بررسی و یافتن یک مدل برای زمانهای ثبت شده از وقوع این نوع از پدیدهها، هدف شاخهای از علم آمار به نام »قابلیت اطمینان« یا تجزیه و تحلیل بقا است. معمولا در مطالعات بقا، اتفاق موردنظر »مرگ« میباشد.
در این مطالعات، عدهای را برای مدتی تحت مراقبت و پیگیری قرار میدهند تا تعداد »مرگ و میر« مشخصی که به دلیل خاصی مورد بررسی قرار گرفتهاست، مشاهده گردد. حوزهی کاربرد قابلیت اطمینان، تنها به پزشکی محدود نمیشود و در رشتههای دیگر مانند جامعهشناسی برای تحلیل رویدادهای تاریخی، علوم مهندسی برای بررسی زمانهای شکست در یک تکنولوژی یا از کار افتادن یک دستگاه بهکار میرود اما از آنجا که برای اولین بار، برای بررسی دادههای مربوط به پزشکی و پیشبینی زمان مرگ استفاده شده است، بسیاری از اصطلاحات در این بحث نیز وابسته به این مثال است که در ادامه بهصورت مختصر، برخی از این اصطلاحات را تعریف میکنیم.
فرض کنید زمان بقا، یک متغیر تصادفی با تابع توزیع تجمعی - - = Pr - ≤ - و تابع چگالی احتمال - - = d - - /d است. تابع بقای - - ، متمم تابع توزیع تجمعی است و بهصورت - - = 1 − Pr - ≤ - = Pr - T > t - تعریف میشود. تابع خطر، مخاطره - خطر - آنی مرگ را در زمان به شرط اینکه تا آن زمان زنده باشد را نشان میدهد و به صورت زیر در نظر گرفته میشود.
برای مدلبندی دادهها معمولا تابع خطر یا لگاریتم تابع خطر را بهکار میگیرند. برای مثال، فرض کنید این تابع، فقط یک عدد ثابت باشد،ℎ - - = ، که در این صورت دادهها باید دارای یک توزیع نمایی با تابع چگالی - - = exp - − - باشند. مدل دیگری که معمولا برای تابع خطر به کار برده میشود بهصورت log ℎ - - = + log میباشد که دادهها در این حالت، توزیع وایبل دارند.
ویژگی دیگر دادههای بقا، وجود دادههای سانسورشده است. همانطور که از نام آن مشخص است، بخشی از اطلاعات در این نوع از دادهها وجود ندارد که به سه گروه سانسور راست - حذف از مطالعه قبل از پایان آن و عدم حضور در انتهای بررسی - ، سانسور چپ - عدم حضور در ابتدای بررسی و وروبه مطالعه پس از گذشت مدت زمان مشخصی - و بازه-سانسور - ترکیب سانسور راست و چپ - تقسیم میشوند. مثلا فرض کنید فردی قبل از پایان یک کارآزمایی بالینی به دلایلی مختلفی از مطالعه خارج شود، یک سانسور راست است. سانسورها، تابع درستمایی و بنابراین برآورد مدلهای بقا را پیچیده میکنند.
اگرچه روشهای شناختهشدهای برای برآورد توزیعهای غیرشرطی بقا وجود دارد، جالبترین مدلبندی بقا، مدل رگرسیون نسبتهای خطر کاکس است که اثرات چند متغیر بر روی زمان بقا را بهطور همزمان بررسی میکند. اولین بار کاکس در یک سمینار در سال 1972 آن را معرفی کرد.
ساختار این مقاله، در ادامه بهصورت زیر است: در بخش 2 ، مدل رگرسیونی کاکس تعریف میشود و پس از آن برآورد ضرایب رگرسیونی کاکس تاوانیده با تابعهای جریمه ریج، لاسو و الاستیکنت مطرح و الگوریتم محاسبهی آنها بیان میشود. در بخش 3، برآوردگرها را در یک مجموعه دادههای سرطان تخمدان مورد مقایسه قرار داده شده است. در بخش 4 نیز نتیجهگیری مطرح میشود.
-2 محاسبهی برآوردگرها
مجموعه دادههای بقا را بهصورت - 1. 1. 1 - ، ....، - . . - در نظر بگیرید که زمان بقا، بردار متغیرهای پیشگوی 1، 2، .... و است. مشاهدهی ام زمان بقا است اگر = 1 و آن، یک زمان سانسور شده است اگر = 0 باشد. فرض کنید زمانهای متمایز شکست بهصورت 1 < 2 < ⋯ < و مجموعهی خطر در زمان باشد.
مدل رگرسیون کاکس در زمان بهصورت زیر تعریف میشود:
که در آن، ℎ0 - - تابع خطر پایهی نامشخص، = - 1. 2. … . - بردار ضرایب رگرسیونی است که میتوان آن را با ماکزیمم کردن تابع درستنمایی جزیی زیر برآورد کرد
مدلهای رگرسیون تاوانیده، یک روش کاربردی آماری را برای ساختن مدلهای پیشگو از دادههای بقا با تعداد متغیرهای زیاد - ریزآرایهها - فراهم میکند که بهطور همزمان متغیرهای مهم و معنیدار را انتخاب میکند و نیز مدل را برازش میدهد. برآورد ضرایب رگرسیون کاکس تاوانیده از ماکزیمم کردن تابع درستنمایی تاوانیده زیر بهدست میآیند.
از آنجایی که بیشتر روشهای رگرسیونی بر پایهی روش کمترین توانهای دوم است، میتوان برآوردگر را بهصورت زیر تعریف نمود:
1-2 رگرسیون کاکس با تابع تاوان ریج
ورویج و ونهاولینجن - 1994 - 1 برآورد درستنمایی تاوانیده در رگرسیون کاکس را با تابع جریمه ریج بهصورت زیر معرفی کردند.
تابع جریمهی ریج منجر به برآوردهایی میشود که دقیقا بعضی از ضرایب را صفر قرار نمیدهد و در نتیجه منجر به انتخاب متغیر نمیشود. بهعبارت دیگر، این نوع رگرسیون، مدلهایی با کارایی مطلوب در پیشگویی تولید میکند - بولستاد و همکاران2، - 2007 بهویژه، اگر متغیرهای پیشگو بهشدت همبسته باشند.
2-2 رگرسیون کاکس با تابع تاوان لاسو
تیبشیرانی - 1997 - 3 پیشنهاد کرد که از مدل رگرسیون کاکس تاوانیده با تابع جریمه زیر استفاده شود:
و این تکنیک را با نام »لاسو« توصیف کرد که برآوردگری است که علاوه بر اینکه مانند برآوردگر ریج، برخی از ضرایب را به سمت صفر منقبض میکند، بهطور خودکار انتخاب متغیر نیز انجام میدهد.
3-2 رگرسیون کاکس با تابع تاوان الاستیکنت
ژو و هیستی - 2005 - 4 تابع جریمهی الاستیکنت را بهصورت زیر معرفی کردند:
که ∈ - 0.1] تاثیر جریمهی لاسو را نسبت به جریمهی ریج تعیین میکند. مقادیر کوچک منجر به مدلی با تعداد متغیرهای بیشتر میشود که ضرایب برآوردشدهی آن نیز به مقادیر برآوردگر ریج نزدیکتر است. تابع، ترکیبی از جریمههای ریج و لاسو است. مانند تابع جریمعی لاسو، تابع الاستیکنت نیز بهطور خودکار با قرار دادن بعضی از ضرایب مساوی صفر، انتخاب متغیر انجام میدهد اما اضافه کردن جملهی جریمهی ریج وزنها را به بیشتر متغیرها توزیع میکند و بنابراین برآوردگری که از تابع جریمهی الاستیکنت بهدست میآید، متغیرهای بیشتری را در مقایسه با لاسو انتخاب میکند. بهویژه، در حالتیکه با دادههایی با همبستگی زیاد مواجه هستیم و برآوردگر لاسو فقط میتواند یک متغیر از بین مجموعهی متغیرهای همبسته انتخاب کند در حالی که برآوردگر ریج، وزنهای یکسانی به آنها میدهد.
بهازای = 0، تابع الاستیکنت معادل با تابع لاسو و برای = 1، معادل با تابع جریمهی ریج خواهد بود. بنابراین، در ادامه، تنها الگوریتم دستیابی به برآوردگر الاستیکنت در رگرسیون کاکس مطرح میشود.
تیبشیرانی - 1997 - برای محاسیهی برآوردگر کاکس جریمهشدهی لاسو، پیشنهاد کرد در الگوریتم تکراری نیوتن-رافسون به جای کمینه کردن تابع کمترین توانهای دوم وزنی، تابع کمترین توانهای دوم وزنی با شرط ∑| | ≤ - - را کمینه کند.
در سال 2007، پارک و هیستی5 الگوریتم تصحیحکنندهی متغیرهای پیشگو را برای محاسبهی مدل رگرسیون کاکس با جریمهی الاستیکنت پیشنهاد کردند، جیومن - 2010 - 6 الگوریتم گرادیان نزولی7 را برای یافتن پاسخ مدل رگرسیون کاکس با جریمهی لاسو معرفی کرد. در این مقاله، بر اساس یانگ و ژو - 2013 - 8 الگوریتم CMD9 را برای محاسبهی برآوردگر الاستیکنت پیشنهاد میشود.