بخشی از مقاله

چکیده

سرطان سلول غیرکوچک ریه، به عنوان رایج ترین نوع سرطان ریه، یکی از عوامل اصلی مرگ و میر در جهان است. این مسئله به علت تشخیص دیرهنگام این بیماری، که اغلب در مراحل پیشرفته صورت می گیرد، می باشد. جراحی به همراه شیمی درمانی کمکی، درمان های پیشنهاد شده برای سرطان سلول غیرکوچک ریه می باشد. این مطالعه برآن است تا به کمک متد پیش پردازش هوشمند، سودمندی/ بیهودگی شیمی درمانی روی بیماران مبتلا به این سرطان را پیش بینی نماید. جهت انتخاب ژن های مرتبط با شیمی درمانی از یک الگوریتم تجمیعی هدفمند انتخاب زن، بهره گرفتیم. دسته بند NB برای دسته بندی نمونه ها به کار گرفته شده است و ارزیابی نتایج، به کمک 10-fold cross validation صورت پذیرفته است.

با استفاده از الگوریتم تجمیعی پیشنهادی، و به کمک 2 ژن، به دقتی بالاتر از دقت کارهای انجام شده در این حوزه دست یافته ایم. از آنجا که شیمی درمانی فرایندی پرهزینه از بعد زمانی و اقتصادی می باشد، مدل پیشگوی ما می تواند از انجام شیمی درمانی غیر ضروری در موارد بیهوده پیشگیری نماید. هدف اصلی این پژوهش، یافتن ژن های مرتبط با شیمی درمانی و دسته بندی بیماران به کمک آن می باشد. با توجه به نتایج امید بخش به دست آمده، می توان گفت، متد انتخاب ژن هوشمند تجمیعی پیشنهادی، کیفیت دسته بندی را به طور چشم گیری بهبود بخشیده است.

-1 مقدمه

سرطان ریه به عنوان یکی از عوامل اصلی مرگ و میر در دنیا بر دو نوع می باشد: سرطان سلول کوچک ریه و سرطان سلول غیر کوچک ریه. NSCLC1 از نظر بافت شناسی به سه دسته squamous cell carcinoma، adenocarcinoma و large cell تقسیم می شود.

جراحی، شیمی درمانی مبتنی بر سیس پلاتینیوم و رادیوتراپی راهکارهای درمانی پیشنهادی در NSCLC می باشند. از آنجا که شیمی درمانی کمکی، از بازگشت مجدد بیماری و یا پیشرفت آن جلوگیری به عمل می آورد، مطالعات متعددی تلاش کرده اند تا مزایای شیمی درمانی را روی بیماران NSCLC تحلیل و بررسی نمایند. به دلیل نتایج متضاد گزارش شده[4-1]، شیمی درمانی کمکی روی بیماران مبتلا به NSCLC همچنان محل مباحثه می باشد.

برخی از بیماران سرطانی، تنها اندکی پس از شروع فرایند شیمی درمانی جان خود را از دست می دهند. درحالی که در مواردی بیمار، مدت طولانی پس از اتمام دوره شیمی درمانی، زنده می ماند. در عین حال مواردی هم مشاهده شده است که بیماران سرطانی بدون دریافت هیچ کمکی از شیمی درمانی برای مدتی نسبتاً طولانی در قید حیات می مانند. این نکته بیانگر آنست که همه ی بیماران سرطانی الزاماً نیازمند شیمی درمانی نیستند. علاوه براین از آنجا که شیمی درمانی حاوی مواد سمی قابل توجهی می باشد، تأثیرات ناخوشایندی نیز روی بیمار خواهد داشت که با توجه به میزان تأثیرگذاری روی حیات وی، ممکن است غیرضروی باشد. از این رو چنان چه بتوان بیماران را از حیث سودمندی/ بیهودگی شیمی درمانی کمکی، تحلیل و دسته بندی نمود، کمک بزرگی برای بیماران و جامعه پزشکان خواهد بود.

در این پژوهش با استفاده از رویکرد یادگیری ماشین به تحلیل سودمندی/ بیهودگی شیمی درمانی کمکی، روی بیماران مبتلا به NSCLC می پردازیم. براساس اطلاعات ما، تحلیل رفتار ژن ها در حوزه سرطان شناسی و شیمی درمانی به منظور پیش بینی سودمندی/ بیهودگی شیمی درمانی کمکی، در بیماران مبتلا به NSCLC ، به کمک الگوریتم تجمیعی مجهز به تکنیک پیش پردازش هوشمند و با استفاده از داده های توصیف ژنی و رویکرد یادگیری ماشین کاملاً بدیع می باشد. الگوریتم تجمیعی ما شامل انتخاب ژن ترکیبی-افزایشی: آزمون کای2، SVM-RFE3 و ماتریس همبستگی، جهت انتخاب ارزشمندترین و مرتبط ترین ژن ها و دسته بندی از نقطه نظر سودمندی/ بیهودگی دریافت شیمی درمانی به کمک دسته بند NB4 می باشد.

-2 کارهای مرتبط

برخی از محققین کوشیده اند مزیت شیمی درمانی را در NSCLC به کمک داده های بیمارستانی و توصیف ژنی مورد تحقیق و بررسی قرار دهند-5] .[9 برجسته ترین پژوهش صورت گرفته در رابطه با بررسی سودمندی/ بیهودگی شیمی درمانی روی بیماران NSCLC توسط چن و همکارانش انجام شده است.[10] در[10] زیر مجموعه ای از ژن های سرطانی از پیش شناخته شده از بین ده ها هزار ژن حاضر در مسئله انتخاب شدند. سپس 10 ویژگی برتر به کمک آزمون کای - 2 - از این زیرمجموعه استخراج گردید. در نهایت ترکیب های دو تایی مختلفی از این 10 ویژگی و یک داده بیمارستانی، به عنوان ورودی به دسته بند شبکه های عصبی تزریق گردید. چن و همکارانش به کمک 3 ویژگی به دقت %65,71 دست یافتند. دراین پژوهش برآن هستیم تا با اعمال یک متد انتخاب ویژگی کارآمد بر روی تمام فضای مسئله و داده های توصیف ژنی ، ژن های مرتبط با شیمی درمانی کمکی، را شناسایی نموده و مدل پیشگوی دقیق تری را طراحی نماییم.

-3 روش کار

از آنجا که داده ی توصیف ژنی حاوی ده ها هزار پراب ژن میباشد که تنها تعداد اندکی از آن ها ارزشمند هستند، نیازمند کاهش ابعاد داده هستیم. ابتدا در مرحله انتخاب ژن، ژن های حاوی اطلاعات مفید را انتخاب نموده و در گام بعد، آن ها را به دسته بند تزریق می نماییم.

-1-3 برچسب زدن نمونه ها

از آنجا که نزدیک به نیمی از بیماران مبتلا در مجموعه داده ی ما حدود 40 ماه در قید حیات بوده اند، آستانه دسته بندی را روی 40 تنظیم می نماییم. ازین رو بیمارانی که شیمی درمانی را انجام داده و بیش از 40 ماه زنده مانده اند و یا بیمارانی که بدون انجام شیمی درمانی کمتر از 40 ماه در قید حیات بوده اند در دسته سودمند قرار می گیرند. در سمت دیگر، بیمارانی که با وجود دریافت شیمی درمانی در کمتر از 40 ماه از دنیا رفته اند و یا بیمارانی که بدون دریافت شیمی درمانی بیش از40 ماه زیسته اند، در دسته بیهوده قرار می گیرند.

-2-3 انتخاب ژن

بخش مهمی از تحلیل داده های توصیف ژنی شامل فرایند انتخاب ژن می باشد. چرا که می توان به کمک آن ژن های غیر مرتبط را از مجموعه داده حذف نمود. تکنیک مایکروآرایه در تحلیل داده ی توصیف ژنی به دانشمندان امکان بررسی ده ها هزار بیان ژن را در یک آزمایش ساده می دهد. این نوع داده با نام داده عظیم شناخته می شود که دارای ویژگی منحصر به فرد تولید حجم بالای داده با سرعت زیاد می باشد 

به علت آنچه که از آن با نام طلسم ابعاد یاد می شود، به کاربستن روشهای آماری و محاسباتی روی این نوع داده بسیار دشوار می باشد. به منظور غلبه بر این دشواری ها روش های متعدد کاهش ابعاد و انتخاب ژن پیشنهاد شده است.[13-12] در مجموع باید گفت، کاهش تعداد ژن ها به منظور یافتن ژن های مرتبط و ارزشمند، فرایندی حیاتی و تأثیرگذار در تحلیل داده ی توصیف ژنی می باشد.

-1-2-3 الگوریتم انتخاب ژن تجمیعی افزایشی پیشنهادی،-Chi SVM-RFE به همراه ماتریس همبستگی، انتخاب ژن افزایشی بدون جایگزاری.

استفاده از رویکردهای فیلتر و توکار در انتخاب ویژگی ضعف ها و کاستی هایی به همراه دارد که می تواند روی کیفیت فرایند انتخاب ژن و به تبع آن روی دسته بندی تأثیر نامطلوبی بگذارد. جهت غلبه بر این کمبودها، ما به جای استفاده از یک متد انتخاب ژن، از ترکیبی از دو رویکرد کارا و متفاوت فیلتر و توکار، به صورت متد تجمیعی Chi-SVM-RFE بهره می گیریم.

ابتدا آزمون کای را روی کل ویژگی ها اعمال می نماییم. آزمون کای یک فیلتر تک متغیره، ساده، سریع، به سادگی مقیاس پذیر برای داده هایی با ابعاد بالا و مستقل از دسته بند می باشد.

به کمک آزمون کای، ویژگی ها را رتبه بندی می نماییم و زیرمجموعه ای کوچک از ژنها را برای گام بعدی الگوریتم برمی گزینیم.

بعد از محاسبه ی X2، مجموعه ی 1000 ویژگی با رتبه ی بالاتر را از بین مجموعه رتبه بندی شده انتخاب می کنیم. سپس الگوریتم SVM-RFE را روی این زیرمجموعه 1000 تایی اعمال می نماییم. SVM-RFE توسط گایون و همکارانش جهت انتخاب ژن معرفی گردید

SVM -RFE یک متد توکار مبتنی بر SVM خطی است. در هر دور، ویژگی هایی با وزن پایین تر که کم ترین تأثیر را روی دسته بندی دارند، کنار گذاشته می شوند. این متد وابستگی های بین ویژگی ها را در نظر گرفته و نسبت به متدهای انحصاری، پیچیدگی محاسباتی کمتری دارد.

SVM-RFE در هرمرحله %20 از ویژگی هایی را که ارزش پایین تری دارند حذف نموده و %80 آن ها را برای دور بعد نگه می دارد. حذف کردن ویژگی ها تا جایی ادامه می یابد که فقط 2 ویژگی از مجموعه اولیه باقی بماند. اگر این دو ویژگی شرط مورد نظر - به دست آمدن دقتی بالاتر از دقت آستانه،%65,71، که بالاترین دقت گزارش شده با کمترین تعداد ویژگی ممکن - 3 ویژگی - تا به امروز می باشد - [10] را ارضاء نمایند، در مجموعه بهترین درج می شوند.

در غیر این صورت در مجموعه بدترین جای می گیرند. در هر دور این دو ویژگی انتخاب شده ی برتر، از مجموعه 1000 تایی خارج شده و کار با باقی ویژگی ها به همین ترتیب ادامه می یابد. این روند انتخاب افزایشی بدون جایگزاری چندین مرتبه - بیش از 150 دور - تکرار می شود تا جایی که - برای بیش از 50 دور - هیچ افزایشی در مجموعه بهترین روی ندهد. اکنون مجموعه بهترین مشتمل بر 4 ویژگی/پراب ژن برتر ایجاد شده است. حال از بین این مجموعه بهترین، کوچکترین زیرمجموعه با بهترین دقت ممکن را به کمک ماتریس همبستگی استخراج خواهیم کرد.

-2-2-3 ماتریس همبستگی همبستگی عددی است بین-1 و +1 که بیانگر درجه ارتباط بین دو ویژگی می باشد - دو ویژگی را X و Y در نظر بگیرید - . همبستگی مثبت بیانگر ارتباط مثبت و همبستگی منفی نشانه ی ارتباط منفی یا معکوس می باشد.

ماتریس همبستگی این 4 ویژگی برتر، در جدول 1 نشان داده شده است. همانطور که می بینید میزان همبستگی بین این 4 ویژگی بسیار ضعیف می باشد. با این حال، ما برای انتخاب مفیدترین و مرتبط ترین پراب ژن ها، دو ویژگی، با مقدار کمینه همبستگی را از ماتریس همبستگی بر می گزینیم. این دو ویژگی عبارتند از : TGFA و .SEMA6C در ادامه دسته بندی بیماران را براساس این دو ژن انجام می دهیم.

-3-3 دسته بندی

دراین گام نمونه ها را با کمک ژن های انتخاب شده در مرحله قبلی، دسته بندی می نماییم. بر اساس اطلاعات ما، دسته بند NB تاکنون جهت تحلیل ریسک شیمی درمانی کمکی، در بیماران مبتلا به NSCLC مورد استفاده قرار نگرفته است. به طور کلی دسته بند NB یک دسته بند احتمالاتی مبتنی بر نظریه بیز می باشد که دسته بندی را با فرض استقلال بین ویژگی ها انجام می دهد:

نتایج دسته بندی در بخش 4 تحلیل و بررسی خواهد شد.

-4-3 ارزیابی

برای بررسی کارایی الگوریتم پیشنهادی، از تکنیک 10-fold cross-validation بهره می گیریم. محققین متعددی از این تکنیک به عنوان متد ارزیابی به ویژه روی داده های توصیف ژنی استفاده کرده اند10]و.[16 در 10-fold مجموعه داده به صورت خودکار به ده بخش تقسیم می شود. در هر دور، نه بخش برای آموزش و یک بخش برای آزمایش مورد استفاده قرار می گیرد. این عمل ده مرتبه تکرار شده و میانگین نتایح - دقت،specificity و - sensitivity به عنوان معیارهای ارزیابی در نظر گرفته می شوند. اگر گروهی که شیمی درمانی کمکی در آن ها اثر بخش ارزیابی شده است را به عنوان دسته yes و گروهی که شیمی درمانی روی آن ها بیهوده می باشد به عنوان دسته no در نظر بگیریم:

روند نمای الگوریتم پیشنهادی ما در شکل 1 نشان داده شده است.

-4 دست آوردها و مباحثه

این برای نخستین بار است که یک الگوریتم تجمیعی نوآورانه براساس متد پیش پردازش هوشمند و روشمند، جهت ارزیابی بیماران مبتلا به NSCLC از لحاظ سودمندی/ بیهودگی شیمی درمانی ارائه می شود. در این پژوهش، به کمک رویکرد یادگیری ماشین، ژنهای مرتبط با شیمی درمانی را شناسایی کرده و در نهایت بیماران مناسب برای دریافت شیمی درمانی را پیش بینی نموده ایم.

در بخش حاضر به تحلیل نتایج و دست آوردها در زیربخش های زیر می پردازیم: - 1 - تحلیل مجموعه داده، - 2 - دست آوردهای عددی و محاسباتی، - 3 - خصوصیات بایولوژیکی ژن های انتخاب شده، - 4 - مقایسه ی نتایج به دست آمده با پژوهشهای مرتبط و در نهایت - 5 - مباحثه پیرامون نتایج.

-1-4 داده

به علت قدرت داده های توصیف ژنی در پیش بینی، پیش آگهی و تشخیص بیماری ها و به ویژه سرطان، شاهد بروز تمایلات فزاینده ای جهت تحلیل داده های توصیف ژنی در این حوزه می باشیم. در این پژوهش جهت ارزیابی سودمندی/ بیهودگی شیمی درمانی روی بیماران مبتلا به NSCLC، داده های توصیف ژنی از [10] استخراج شده است. این مجموعه داده شامل 462 نمونه از 4 انستیتو : دانشگاه مرکزی سرطان میشیگان، مرکز سرطان مافیت، مرکز سرطان یادبود اسلوان-کترینگ وانستیتوی سرطان دانا-فاربر جمع آوری شده است.

پلتفرم بیان ژن ها Affymetrix Human Genome U133A Array می باشد که توسط Affymetrix فراهم شده است. در شروع فرایند پیش پردازش، نمونه هایی که مقدار مربوط به مدت زمان حیات آن ها از دست رفته است، اطلاعات مربوط به شیمی درمانی آنها ناشناخته بوده است و نمونه های تکراری را از مجموعه داده حذف نمودیم. لازم به ذکر است که 2 نوع مجموعه داده داریم.

مجموعه داده بالینی یا بیمارستانی که برای تقسیم مشاهدات به دو گروه شیمی درمانی- سودمند: گروهی که براساس الگوریتم پیشنهادی ما شیمی درمانی برای آنها پیشنهاد می شود، و شیمی درمانی-بیهوده: که بایستی از شیمی درمانی پرهیز نمایند، مورد استفاده قرار گرفته است. نوع دوم داده، مجموعه داده توصیف ژنی می باشد که برای طراحی و توسعه مدل پیشگوی پیشنهادی، از آن بهره گرفتیم.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید