بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

بکارگيري الگوريتم ترکيبي AdaBoost در آناليز ميکروآرايه هاي DNA


چکيده
گسترش فن آوري ميکروآرايه حجم اطلاعات زيادي را براي بسياري از زمينه ها فراهم کرده است . اين نوع اطلاعات بويژه در پيشگويي وتشخيص سرطان بکار ميروند. يکي از عمده ترين مشخصات داده هاي ميکروآرايه اي تعداد بسيار زياد ژن ها ( هزارها تا دهها هزار ) در مقايسه با تعداد نمونه ها است . لذا، با توجه به ويژگيهاي ذکر شده ي فوق که داده هاي ميکروآرايه اي از خود نشان ميدهند، بکارگيري الگوريتم هاي مناسب استخراج ويژگيها از اهميت بسيار بالايي برخوردار است . اين فرآيند باعث استخراج ژن - هاي موثرتر از بين تمامي ژن ها به منظور تشخيص پيشگويي موثرتر سرطان گرديد. هدف اين تحقيق تجزيه و تحليل چندين مجموعه داده ي ژن هاي ميکروآرايه اي موجود و پياده سازي يک سيستم بهينه ي پشتيباني کننده تصميم تشخيص و پيشگويي سرطان به منظور شناسايي سريعتر و دقيق تر اين بيماري است .
بر اساس آناليز هاي صورت گرفته ،سيستم بهينه ي طراحي شده توسط اين تحقيق شامل بخش هاي پيش پردازش ،استخراج ژن - ها و دسته بندي آنها از طريق يک دسته بندي کننده ي ترکيبي است و کارايي برابر ٩٨%، ٩٤% و ١٠٠% به ازاء مجموعه داده هاي بيماري سرطان خون ، SRBCT و سرطان لنفاوي جهت تشخيص سرطان ارائه نموده است .
واژگان کليدي
دسته بندي، داده هاي DNA،Ensemble classifier ،AdaBoost ،PCA ،KNN ،Decision Tree ،SVM .
١-مقدمه
دسته بندي انواع مختلف تومورها در تشخيص سرطان و کشف دارو از اهميت بسياري بر خوردار است . اما بيشتر مطالعات قبلـي در مـورد دسته بندي سرطان باليني بوده و توانايي تشـخيص محـدودي دارنـد.
دسـته بنـدي سـرطان بـا اسـتفاده از داده هـاي بيـان ژن بـه عنـوان دربردارنده ي نکات کليدي در زمينه ي بررسي مسائل اساسـي مربـوط به تشخيص سرطان و کشف دارو شناخته شده اسـت . پيـدايش اخيـر تکنيک ميکروآرايه ي DNA نظارت هم زمـان بـر هـزاران بيـان ژن را امکان پذير ساخته است .شکل ١تکنولوژي ميکروآرايه را نشـان مـي- دهد.

محققان با کمک اين داده هاي بسيار زياد بيان ژن بررسي احتمالات دسته بندي سرطان را آغاز کردند. روشهاي بسياري با نتايج اميدوارکننده در سالهاي اخير پيشنهاد شده اند اما هنوز مسائل بسياري وجود دارد که بايد بررسي و فهميده شود. متدهاي دسته بندي مختلفي از زمينه هاي آماري و يادگيري ماشيني براي دسته بندي سرطان به کار بسته شده اند اما مسائلي وجود دارند که آن را امري مهم ميسازند. اطلاعات بيان ژن با اطلاعات ديگري که اين روشها تا قبل از اين با آنها سرو کار داشتند بسيار متفاوت است . اول اينکه داراي ابعاد گسترده اي مي باشد و معمولا هزاران تا ده ها هزار ژن را دربر دارد.
دوم اينکه ميزان نمونه هاي در دسترس بسيار کم و زير صد نمونه است . سوم بيشتر ژن ها ربطي به تشخيص سرطان ندارند. مشخص است که همه ي روشهاي موجود دسته بندي جهت پرداختن و رسيدگي موثر و کارآمد اين نوع داده ها طراحي نشده اند. بعضي از محققان گزينش ژن را نسبت به دسته بندي سرطان در اولويت قرار ميدهند. انجام دادن گزينش ژن به کاهش ميزان داده ها و افزايش وقت تلف شده کمک ميکند و مهم تر از آن اينکه گزينش ژن تعداد زيادي از ژن هاي نامربوط که وقت دسته بندي را افزايش ميدهند را حذف ميکند.
٢-پس زمينه
DNA -1-2
سلول ها مهمترين واحدهاي فعـال و مـوثر هـر سيسـتم زنـده اي هستند. تمام دستورهاي مورد نياز براي هدايت فعاليـت هـاي آنهـا در اسيد دئوکسي ريبونوکلئيک ١يا DNA قرار گرفته اسـت . تـوالي DNA که يک موجود زنده را کد گذاري مي کند ژنوم ٢آن مي گوينـد. ژنـوم مجموعه اي کامل از DNA يـک ارگانيسـم اسـ . بيـان ژن اطلاعـات ژنتيکي در DNA در دو مرحله رخ مي دهد:
١) مرحلـه ي رو نويسـي کـه مولکـول DNA رو نويسـي شـده و mRNA به وجود مي آيد.
٢) مرحله ي mRNA به توالي آمينواسيدهاي پروتئين که اعمـال مختلف سلولي را انجام مي دهند ترجمه مي شود.
پروسه ي رونويسي ژن DNA و ايجاد RNA را بيان ژن ٣مي گويند. بيان ژن ميزان فعاليت يک ژن تحت شرايط خاص بيوشيميايي را نشان مي دهد .

شکل ٢:فرآيند بدست آوردن بيان ژنها از روي ميکروآرايه هاي
DNA
واضح است که بيماري هاي خاص مانند سرطان ، در تغيير مقـادير بيان ژن هاي مشخصي منعکس ميشوند . سلولهاي نرمال مي توانند از طريق جهش هايي در ژن که چرخه ي سلول وانسجام ژنـوم را کنتـرل ميکند به سلولهاي بدخيم سرطان تبديل شوند. مطالعات انجـام شـده بر روي کاربرد ميکروآرايه هاي DNA، کارايي و تاثير الگوهاي بيان ژن را در تشخيص عملکردهاي متفاوت ژن و تشـخيص سـرطان حمايـت ميکند .
٢-٢-مجموعه ي داده ها
در حال حاضر هيچ منبع بنيادي براي داده هاي بيان ژن در انسان ها وجود ندارد. در زير چند مجموعه ي داده ي عمومي در مورد بيـان ژن از ريزآرايه ي DNA را آورده ايم اين اطلاعات به طور وسيعي مورد استفاده ي محققان در آزمايش هاي دسته بندي سرطان قرار ميگيرند.
٢-٢-١- داده هاي سرطان خون (Leukemia)
سرطان خون شامل ٧٢نمونه اسـت .نمونـه هـا از دو نـوع لوسـم هستند، ٢٥تا AML و ٤٧تا ALL.اين نمونه ها از ٦٣نمونه ي مغـز استخوان و ٩نمونه ي محيطي خون گرفته شده اند. ٣٨تا از ٧٢نمونه به عنوان داده هاي آزمايشي و ٣٤ نمونه بـه عنـوان داده هـاي تسـ استفاده ميشوند. تعـداد ژن هـا موجـود در ايـن مجموعـه ٧١٢٩ژن است [١].
٢-٢-٢- داده هاي سرطان روده (Colon)
اين داده ها شامل ٦٢نمونه ي سلولهاي مخاط روده هسـتندکه از بيماران سرطان روده گرفته شده اند. هر نمونه ٢٠٠٠سـطح بيـان ژن دارد. با وجود اينکه داده هاي اصلي شامل ٦٠٠٠سطح بيان ژن مـي- باشد، که ٤٠٠٠ تا از ٦٠٠٠ ژن که براي اطمينـان از سـطح بيـان ژن اندازه گيري شده اند، از بين رفته اند. ٤٠نمونه از داده ها سرطان روده دارند و بقيه نرمال هستند[٢].
٢-٢-٣- داده هاي سرطان (SRBCT)
مجموعه داده هاي SRBCT شامل ٢٣٠٨ژن و ٨٨نمونه است . اين مجموعه شامل ٦٣نمونه آموزشي و ٢٥نمونه براي تست است که ٥ تا از نمونه هاي تست مربوط به SRBCT نميباشد. از ٦٣نمونه آموزشي
٢٣نمونــه داراي توم ور EWS٤، ٢٠نمونــه داراي تومــور RMS٥، ١٢ نمونــه داراي تومــور NB٦و ٨نمونــه داراي تومـور BL٧مــيباشــند. و همچنين از ٢٠نمونه تست ٦نمونه داراي تومور EWS، ٥نمونه داراي تومور RMS، ٦نمونه داراي تومور NB و ٣نمونه داراي تومـور BL مـي باشند[٣].
٣-يادگيري ماشين براي ميکروآرايه هاي DNA
کاربرد الگوريتم هاي يادگيري ماشين در مـورد داده هـاي DNA
اين است که داده هاي بيان ژن را ابتدا نرمال ميکنيم سپس ژن هاي متمايز مربوط به دسته بندي نمونه ها را انتخاب مي کنيم وبا استفاده از ژن هاي متمايز دسته بندي کننده ها آموزش ميبينند و در نهايـت يک مجموعه ي داده جديد را با استفاده از دسته کننده هـاي آمـوزش ديده دسته بندي ميکنيم . شکل ٣مراحل دسته بندي را نمايش مي - دهد.

شکل :مراحل دسته بندي سرطان
٣-١- نرمال سازي داده ها
دربسياري ازکاربردهابازه تغييرات ويژگي هايکسان نمـي باشـد براي مثال اگرسن وقد به عنوان دوويژگي درانسانهادرنظربگيريم داراي بازه تغييرات متفاوتي هستند همچنين مقادير به دسـت آمـده براي هرويژگي نيزبه واحد استفاده شده براي اندازه گيري آن ويژگي ارتباط مستقيم دارد. ويژگي هاي بامقاديربزرگ تاثيربيشتري بر تابع هزينه ميگذارند که لزومابه معني مهمتربودن آنهادرطراحي دسـته بندي کننده نميباشد و بنابراين اثري نامطلوب تلقي ميگـردد.بـراي رفع اين مشکل معمولاازدوروش استفاده ميشود:
درروش اول ،بايک تبديل خطي ياغيرخطي،داده هارادربـازه هايي که به وسيله کاربرانتخاب مي شودقرارمي دهند .اين بـازه در کاربردهاي شبکه عصبي معمولا [١ ,١-] يا [ ٠,١ ] انتخاب ميشود.
اگرفرض کنيم مقاديرکمينه وبيشينه داده هادرويژگـيi ام بـه ترتيب باشند وبخواهيم xij رابـه yij تبـديل کنـيم بـه گونه اي که دربازه بين yi,max و yi,min قرارگيرداز رابطه (١)اسـتفاده مينماييم :


اين تبديل خطي بوده ومقياس داده هاراتغييرميدهـد. درايـن تبديل تابع توزيع داده هاتغيير نميکند.درمواردي که توزيع داده ها حول ميانگين شان يک دست نباشد ميتوان ازتبديل هايي بر اسـاس توابع غيرخطي مانند لگاريتمي [٤]استفاده نمود.
درروش دوم سعي ميشودازخواص آماري داده هااستفاده گردد.
براي اينکاراگر تخمين ميانگين ويژگي تخمين واريانس آن ويژگي برروي n نمونه داده باشد،ويژگي iاُم رابه وسيله رابطـه (٢)نرمال ميسازيم [٤،٥]:

که درآن داده هاي تبديل يافته ي y، درهربعد (ويژگـي)داراي ميانگين صفر وواريانس يک ميباشند.
بعد از نرمال سازي داده ها نوبت به انتخاب ژن هاي حاوي اطلاعات براي پيش گويي سرطان ميباشد. براي مثال در داده هاي سرطان خون احتمال بسيار کمي وجود دارد که تمام ٧١٢٩ژن اطلاعات مربوط بـه سرطان را داشته باشند. پس بعد از اکتساب داده هاي بيان ژن و نرمال سازي، سيستم پيشگويي داراي دو مرحله است : ١) مرحله انتخاب ژن ٢) مرحله دسته بندي سرطان .
٣-٢-انتخاب ژن
ابتدا فرض کنيد الگوي بيان ژن به صورت در داده هــاي ســرطان خــون ، در داده هــاي ســرطان روده ، در داده هاي سرطان لنفاوي است . هر gi يک بـردار از داده هاي سطح بيان ژن از N نمونه مي باشد عنصر از Nنمونه از نمونه هاي تومور هستند و N-M نمونه از نمونه هاي نرمال مـيباشـند. بـراي N نمونه بردار کـلاس را در نظـر مـيگيـريم بـه طوري که براي نمونه هاي تومور عدد ١و نمونـه هـاي نرمـال عـدد ٠ فرض ميشود.
٣-٢-١-آناليز اجزاي اصلي ٨
بيشترين روش مورد استفاده براي کاهش ابعاد ورودي در آناليز داده هاي بيان ژن ، روش آناليز اجزاء اصلي (PCA) ميباشد. اساس اين روش بر پايه انتقال فضاي ورودي به فضاي جديدي است که توسط اجزاء اصلي (PCها)بيان ميشود . تمام PCهابر يکديگر عمودند و با توجه به مقدار قدر مطلق بردارهاي ويژه شان ، تنظيم ميشوند. k امين pc، برداري است با k امين مقدار ويژه بزرگ . از آنجا که PCA، بردارهاي داراي مقدار ويژه بزرگتر را انتخاب ميکند، با کنار گذاشتن بردارهاي مقدار ويژه کوچک ، ابعاد فضاي ورودي کاهش مييابد.شکل ٤ قسمت a درجه اهميت ويژگي ها را بر اساس مقادير ويژه آنها نشان ميدهد. همانطور که مشاهده ميشود هر چه تعداد ويژگيها زيادتر شود از درجه اهميت ويژگي ها کاسته ميشود. شکل ٤ قسمت b ميزان دقت يک الگوريتم دسته بندي داده هاي کاهش يافته سرطان خون راتوسط آناليز مولفه هاي اصلي نشان مي دهد.


شکل 4:آناليز اجزاء اصلي براي مجموعه داده هاي لنفاوي .
a: تغيير مقادير ويژه
b: نتايج حاصل از دسته بندي با استفاده از PCA جهت کاهش ورودي.
(محور افقي نمايانگر تعداد PCها با بزرگترين مقادير ويژه است که مورد
استفاده قرار گرفته اند)
٣-٢-٢- تست T
روش تست Tيک روش آماري است که توسط WELCH پيشنهاد شده است [٧].توسط آن بزرگي اختلاف بين نمونه هاي دو گروه اندازه - گيري ميشود. جهت انتخاب ژن هاي مهم با استفاده از روش تست T، مراحل مختلفي بايد طي شود. در ابتدا، بايد پايه امتياز هر ژن در تست T محاسبه گردد که به آن امتياز T يا TS گويند. در قدم دوم ، تمام ژن ها را براساس امتياز T آنها مرتب ميکنند. به اين صورت که ژن داراي بيشترين TS در صدر قرار ميگيرد و الي آخر. در نهايت فقط چند ژن بالاي ليست در فرايند دسته بندي مورد استفاده قرار ميگيرد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید