بخشی از مقاله
بهبود دسته بندي سرطان ريه با استفاده از دسته بند جنگل تصادفي
چکيده
شناسايي دقيق سرطان به اميد درمان بيماراني که از اين بيماري سخت رنج مي برند بسيارکمک م کند.امروزه ميکرو آرايه هاي DNA به دانشمندان اجازه ي نمايش هزاران ژن را بطور شبيه سازي شده داده اند و همچنين مي توانند آن ژن هايي که فعال ، فرا فعال ، يا آرام هستند را در بافتهاي سرطاني يا نرمال ، شناسايي کنند. انتخاب ژن ،شناسايي ژن هاي مهم شاخص تحت شرايط متفاوت است .تحليل داده هاي ميکرو آرايه براي در گير شدن با تعداد زيادي ژن در مقابل تعداد نسبتا کم نمونه ها معروف است . براي مقابله با اين مشکل در اين مقاله روشي پيشنهاد شده است که از يکسو براي کاهش چند بعدي پايگاه داده (ژن ها)مناسب است و از سوي ديگربه بالا بردن دقت دسته بندي نمونه هاي سرطان کمک مي کند.در اين مقاله براي رسيدن به هدف شناسايي دقيق و سريع سرطان ابتدا پايگاه داده آموزشي به دسته هاي ژن ۲۰۰۰تايي (بطور ترتيبي ) تقسيم مي شود، دقت دسته بندي توسط الگوريتم جنل تصادفي بدست آمده و توسط روش ترکيبي انتخاب ژن GA-Cfs براي هردسته ، تعداد ژن ها کاهش داده مي شود، سپس با تعداد ژن هاي کاهش يافته نمونه هاي آموزشي و آزمايشي توسط الگوريتم داده کاوي stacking (پشته سازي) و جنگل تصادفي دسته بندي ميشوند.آزمايشات کارايي بالاي روش پيشنهادي را نسبت به روش هاي گذشته مشخص مي سازد.
واژگان کليدي
انتخاب ژن CFs، دسته بندي سرطان ، جنگل تصادفي، الگوريتم Stacking، سرطان ريه .
۱. مقدمه
سرطان بيماري اي است که درآن سلول هاي بدن دريـک تومـور بدخيم به طورغيرعادي تقسيم وتکثيرمي شوند. آزمايشـات ميکـرو آرايه DNA، هزاران مقدار مبين ژن توليد مي کنندکـه مـي تواننـد براي تشخيص بيماري و تشخيص نوع بخصوصي تومور مفيد باشـند.
تمييـز بيمـاران سـرطاني از روي داده هـاي مبـين ژن ، يـک مسـا ه بحراني با انشعابات باليني مي باشد. تکنيکهاي انتخاب ويژگـي (ژن ) به نيازي آشـکار دربسـياري ا کـاربرد بيوانفورماتيـک تبـديل شـده است [٣ ,٢ ,١]. علاوه بر اين تکنيـک هـاي زيـادي در حـال حاضـر درزمين هاي يادگيري ماشين ،داده کاوي توسعه يافته است وکـاربرد هـاي خاصـي در بيوانفورماتيــک بــه ارائـه ي روش هـاي پيشـنهادي جديدي منجر شده اسـت .انتخـاب ژن ، شناسـايي ژن هـاي شـاخص تحت شرايط متفاوت است . يکي از مشکلات انتخاب ژن زماني اسـت که تعداد ژن ها زياد باشد و يا اندازه کلاس نمونه هـا متـوازن نباشـد، اين موضوع کانون مرکزي توجه تحقيقات را بخود جلب کـرده اسـت .
عموما، يک روش انتخاب ژن بهتر، مي تواند بطور موثر کـارايي دسـته بندي بيماري ها(زيرانواع سرطان ) را بهبود بخشد. براي مقابله با ايـن مشکل الگوريتم هاي مختلف داده کاوي براي کاهش چند بعدي پايگاه داده (ژن ها)بسيار مناسب هستند و شانس براي دسته بنـدي بهتـر، پيش بيني نوع سرطان و.....را افزايش مي دهند [٢,٣]. درپايگاه داده - هاي اين مقاله ويژگي هاهمان ژن ها هستند کـه مـورد بررسـي قـر ر مي گيرند.
دراين مقاله داده هاي دو نوع سرطان ريه نيز در اين مقاله بررسـي شـده اســت : Mesothelioma - MPM و ADCA(ســرطان غــدد مترشـحه لمفـاوي Adenocarcinoma) [١,٤]. Mpm يـک نـوع سرطان ريه نادر است که در ۶ ماه کل ريه را مي پوشاند وبيشـتر در افرادي که در مقابل پنبه نسوز هستند ديده ميشود،اين نوع ميتواند بطور خوش خيم يا بدخيم باشد. ADCA يک نـوع سـرطان از گـرو small cell lung cancer است . يک پايگاه داده آموزشي شامل ۳۲ نمونه (۱۶تا ADCA و۱۶تـا MPM) بـراي آن در نظرگرفتـه شـده است .
در اين مقالـه بـراي هـر سـرطان از يـک پايگـاه داده آموزشـي و آزمايشي بمنظورتحليل کيفيت ژن ها استفاده شده است . الگـوريتم - هاي داده کاوي [٦,٧,١٢]مختلفي از جمله : ADTREE, Stacking و جنگل تصادفي براي مسائل دسته بندي داده هـاي ژن بيـان شـده بکاربرده شده اند که با کمک اين دسته بندها مي توان به دقت قابـل - اعتمادي رسيد. از الگوريتم ژنتيـک و CFS بـراي بهبـود بخشـي بـ تعداد ژن ها وبهينه سازي آن ها براي دسته بندي بهتر نمونه استفاده شـده اســت .بــراي نشــان دادن توانــايي روش ترکيبــي پيشــنهادي آزمايشات مختلفي صورت گرفته و نتايج بدست آمـده بـا منـدرجا قبلي مقايسه و بررسي شده اند. در ادامه خـواهيم داشـت : بخـش ۲ شـامل تحليـل و بررسـي روش پيشـنهادي مـي باشـد. در بخــش ۳ آزمايشات اين مقاله بررسي و نتايج آن ها مورد تحليل قرار گرفته اند.
در نهايت بخش ۴شامل جمع بندي و نتيجه گيـري از کـل مطالـب اين مقاله است .
۲. روش پيشنهادي
جنگل تصادفي يک مجموعه از درختان تصميم گيري (تجميعي ) است . اين يک روش تجميعي رايج در شناخت الگوست . جنگل تصادفي ميتواند ارزش زيادي را به هرژن اختصاص دهد که ممکن است روي ارتباط ژن ها تاثيرگزار باشد.روش پشته سازي به ترکيب چند دسته بندباالگوريتم هاي مختلف يادگيري روي يک پايگاه داده مشترک S مي پردازدکه شامل نمونه هاي بردارهاي ويژگي (X) ودسته ي آن ها (Y) مي - باشد[١٠ ,٩]. الگوريتم ترکيبي ژنتيک و داده کاوي [١,٣] داراي دوفاز است که در فاز اول (بازگشتي )ابتدا پايگاه داده آموزشي سرطان به دسته هاي ژن ۱۰۰۰تايي (بصورت ترتيبي يا تصادفي ) تقسيم مي - شود و براي هر دسته ، ژن هاي مهم باروش انتخاب ژن GA-Cfs شناسايي مي شوند و سپس درفاز دوم با کمک آن ژن هاي مهم به دسته بندي نمونه ها پرداخته مي شود.براي بررسي دقت دسته بندي از روش هاي SVM, Bagging, DT, Stacking استفاده کرده اند و در نهايت با مقايسه نمونه هاي آزمايشي و آموزشي تعدادي ژن مهم بدست آورده اند.
همانطور که گفته شد الگوريتم ترکيبي GA-CFS [٤]يک روش ترکيبي انتخاب ژن از الگوريتم هاي داده کاوي و ژنتيک است
الگوريتم ژنتيک يک الگوريتم جستجو تحت مفهومي از ژنتيک طبيعي مي باشد. براي شناسايي مهمترين ژن ها از الگوريتم ژنتيک استفاده شده و همچنين از يک روش فيلتر CFs (Correlation based Feature Selection) براي ارزيابي سولوشن ها و انتخاب بهترين feature ها(ژن ها)استفاده مي شود [١,٧,١١,١٢,١٥].
روش فيلتر CFs ارزش پارامترها را به طور مکاشفه اي با استفاده از همبستگي ،ارزيابي مي کند.فيلتر CFs راه سريع و موثر در انتخاب ويژگي است و ارزش ژن ها را بدست مي آورد. CFs بطور مستقل از الگوريتم هاي يادگيري است بطوريکه براي هر زير مجموعه ويژگي يک مقدار منحصر به فرد را ارزيابي مي کند وآن برچسب کلاس يا دسته مي شود.بهترين زير مجموعه ويژگ ،ويژگي هايي هستند که بيشترين همبستگي را براي پيش بيني کلاس دارند اما ازسوي ديگر درجه همبستگي بين خود اين فيچرهاکم است ، که از فرمول (۱) براي بدست آوردن درجه شايستگي اين زير مجموعه هااستفاده مي شود:
در حقيقت هر کدام از اين زير مجموعه فيچر ها به نحوي که توضيح داده شد به عنوان يک parent براي الگوريتم ژنتيک محسوب مي شوند و جمعيت اوليه را تشکيل مي دهند که هر کدام fitness مربوط به خود را دارندو تحت همين درجه شايستگي ارزيابي مي شوند. اين روش در تشخيص شناسايي ژن هاي مهم با کاهش دادن تعداد پارامترهاي پايگاه داده مفيد است [١٣,١٤,١٥].
در حقيقت Cfs نقش تابع fitness الگوريتم ژنتيک مربوط به اين پژوهش را دارد . بطوريکه هرزيرمجموعه فيچري که توسط Cfs انتخاب ميشود يک درجه شايستگي براي آن محاسبه ميشود،اگر اين درجه بالا بود اين زير مجموعه ژن بعنوان يکي از کروموزم هاي جمعيت اوليه ، شانس بيشتري براي توليد مثل دارد و با ژن هاي ديگر که درجه شايستگي مناسب دارند مي تواند cross over انجام دهد و در نهايت تعداد ژن هاي مهم کمتر و بهينه تر مي شود.
با کمک الگوريتم انتخاب ژن GA+ Cfs [١,٤]براي سرطان ريه ۸ ژن مهم شناخته شدند و دقت دسته بندي براي کل نمونه هاي آزمايشي (134ADCA 15MPM,) به ۹۸,۶۶% رسيد.در اين مقاله روشي بسيارموثر براي بهبود دسته بندي سرطان ارائه شده است .
پايگاه داده آموزشي سرطان ريه به دسته هاي کامل ژن ٢٠٠٠ تايي تقسيم شدند. سپس براي ارزيابي بهتردر فاز اول از الگوريتم جنگل تصادفي استفاده کرده ايم و شرط موجود براي تعداد ژن ها را به ۲۰۰ کاهش داديم تا فاز اول الگوريتم بمنظور کاهش بهينه تعداد ژن ، چندبار تکرار شود. درفاز دوم از دسته بند stacking نيزاستفاده شده است . همين نحوه ي دسته بندي پايگاه داده موجب شد (بخاطر وابستگي بين ژن هاي هر دسته ) که با تفاوت چشم گيري در نتايج روبرو شويم . به ترتيبي که هم دقت آزمايشي و هم دقت آموزشي بالايي براي الگوريتم داده کاوي رسيديم .
يکي از دلايل اصلي اين تفاوت بهينه در اين است که در مقاله مرجع [٤]بطور ترتيبي پايگاه داده به دسته هاي ١٠٠٠تايي تقسيم شده است و بسياري از ژن هايي که وابستگي خاصي با هم دارند از هم جدا شدند و همين امرباعث شده بود برخي ژن هاي مهم ،بي - اهميت شناخته شوند و برخي از ژن هاي غير مهم ، جزو ژن هاي با اهميت قرار گيرند و روي دقت دسته بندي تاثير مستقيم بگذارند.
۳. نتايج آزمايشات