بخشی از مقاله
چكيده
پيشبيني متغير پاسخ به كمك چندين متغير توضيحي همواره مورد توجه محققين است. هدف ساختن مدلي است كه متغير پاسخ را به متغيرهاي توضيحي مرتبط كند. وقتي تعداد متغيرهاي توضيحي مدل زياد باشد، تفسير مدل مشكلتر و هزينه محاسبات افزايش مييابد. لذا، شناسايي متغيرهاي توضيحي مؤثر بر پاسخ بسيار مهم است. در دادههاي با بعد بالا مانند دادههاي پزشكي و ژنتيكي كه تعداد متغيرهاي مهم زياد است، انتخاب اين متغيرهامعمولاً با استفاده از يك روش بهينهسازي درجه دوم مانند مينيمم كردن مجموع مربعات خطا تحت يك شرط محدودكننده انجام ميشود. با استفاده از روش لاگرانژ، ميتوان اين مسئله را بهصورت يك تابع هدف جريمهشده در نظر گرفت.
حل اين مسئله مينمم سازي مستلزم استفاده از روشهاي بهينهسازي است. در اين مقاله، فرض ميكنيم رابطه بين متغيرهاي توضيحي و متغير پاسخ بهصورت جمعي ناپارامتري است و براي انتخاب متغيرهاي مهم، توابع جريمه مختلف را در نظر ميگيريم. حل اين مسئله بهينهسازي به وسيله الگوريتم مختصات نزولي گروهي انجام ميشود. در پايان، عملكرد اين الگوريتم را تحت انواع توابع جريمه، براي متغيرهاي گروهي، با يك مثال شبيهسازي بررسي ميكنيم.
١- مقدمه
پيشرفت فناوري اطلاعات در دهه اخير و امكان ذخيرهسازي دادهها در ابعاد بزرگ موجب شده است كه مسئله مدلسازي پديدهها، با تعداد صدها يا هزاران متغير توضيحي مواجه باشد و در نتيجه، تفسيرپذيري اين مدلها كه معروفترين آنها، مدلهاي رگرسيوني است، به دليل تعداد زياد اين متغيرها غير ممكن شود. اين موضوع موجب شده است كه سرفصلبسيار مهم و نسبتاَ جديدي تحت عنوان انتخاب متغير پيش روي آماردانان قرار گيرد. بهعنوان مثال، دادههاي بيان ژني شامل اطلاعات هزاران ژن براي بيماران است و تشخيص ژنهاي مؤثر در بروز يك بيماري خاص، مصداقي از ضرورت اجتنابناپذير انتخاب متغير ميباشد.
اضافه شدن موضوع مهم انتخاب متغير به مسئله رگرسيون باعث ميشود كه مسئله مينيمم سازي مذكور، بطور مقيد انجام شود و بدينوسيله تشخيص متغيرهاي مهم و همچنين پيشبيني پاسخ در گرو حل مسائل بهينهسازي باشد. اين قيود بسيار متنوع بوده و برحسب نوع ساختار آن، اين نكته حائز اهميت است كه در مطالعه رابطه بين متغيرهاي توضيحي و متغير پاسخ، اطلاعات پيشيني كه نشاندهنده وجود يك رابطه خطي - همانند رابطه ١ - باشد، بهندرت در دسترس است. بنابراين منطقي به نظر ميرسد كه بهجاي مدل خطي از مدلهايي با انعطافپذيري بيشتري استفاده كنيم. يكي از اين مدلها، مدل جمعي ناپارامتري است كه توسط هستي و تيبشيراني - ١٩٩٠ - معرفي شد.
در اين مقاله، با هدف نشان دادن نقش بسزاي مسائل بهينهسازي در پيشبيني دقيقتر مدلهاي رگرسيوني و در قالب بحث انتخاب متغير كه منجر به تفسيرپذيري آسانتر نيز مي-شود، مسئله انتخاب متغيرهاي مهم را در يك مدل جمعي ناپارامتري با توابع جريمه مختلف در نظر گرفته و براي حل مسئله بهينهسازي مرتبط، از الگوريتم مختصات نزولي گروهي ارائهشده توسط برهني و هوآنگ - ٢٠١٥ - استفاده ميكنيم. ابتدا در بخش ٢، مدل رگرسيون جمعي ناپارامتري را معرفي كرده و سپس، به دليل نامعلوم بودن مؤلفههاي جمعي، از توابع اسپلاين براي تقريب مدل استفاده ميكنيم.
با تقريب مؤلفهها توسط توابع اسپلاين، مدل جمعي ناپارامتري به يك مدل خطي با ساختار گروهي تبديل ميشود و لذا توابع جريمه ساده براي آنها قابلاستفاده نيست; بنابراين، در بخش ٣، توابع جريمه گروهي را شرح ميدهيم. در بخش ٤، با ذكر الگوريتم مختصات نزولي گروهي به حل مسئله بهينهسازي براي انتخاب متغير ميپردازيم. سرانجام در بخش ٥ با يك مثال عددي عملكرد الگوريتم مذكور را تحت توابع جريمه مختلف بررسي ميكنيم.