بخشی از مقاله
چکیده
مطالعات اخیر نشان میدهد، ریزآرایه داده بیان ژن برای دستهبندی تعداد زیادی از بیماریها مفید میباشد. چالش اصلی در دستهبندی مساله مورد نظر، این است که عدم تقارن شدید در تعداد ژنها و نمونهها وجود دارد. انتخاب مجموعه کوچکی از ژنهایی که دارای بار اطلاعاتی هستند موجب بهبود دقت دستهبندی میشود. متدهای اخیر با استفاده از محاسبات آماری و آنتولوژی ژن سعی دارند تعداد ژنها را کاهش دهند. در این مقاله روشی ارائه گردیده است که علاوه بر در نظر گرفتن ارتباط زیستی میان ژنها، ژنهای افزونه را با استفاده از خوشهبندی سلسله مراتبی حذف میکند و موجب بهبود دقت دستهبندی میگردد. ساختار و عملکرد این روش به صورت جزئی در متن مقاله مطرح شده است. آزمایشها با استفاده از یک مجموعه داده واقعی نشان میدهند روش پیشنهادی در مقایسه با روشی که از شباهت معنایی استفاده میکند، علاوه بر انتخاب تعداد ژنهای کمتر دارای دقت دستهبندی - Loocv - بیشتری میباشد.
کلید واژه- آنتولوژی، انتخاب ژن، شباهت معنایی، دستهبندی داده بیان ژن.
.1 مقدمه
در دهه اخیر ریزآرایه به عنوان ابزاری قدرتمند در بیوانفورماتیک1 جهت انجام آزمایشها ژنتیکی شناخته شده است. داده بیان ژن2 بدست آمده از ریزآرایه را نمیتوان بدون کمک ابزارهای خبره ریاضی و الگوریتمهای دادهکاوی مانند دستهبندی3 و خوشهبندی4، تحلیل کرد. تفکیک نمونههای انسانی از نظر ابتلا به بیماری، به طور گسترده از تکنیکهای دستهبندی استفاده میشود که در آن، ژنها به عنوان خصیصه و نمونههای داده بیان ژن به عنوان نمونه در نظر گرفته می-شوند. در دستهبندی نمونههای داده بیان ژن به دلیل آنکه تعداد ژنها بسیار بیشتر از تعداد نمونهها میباشد، دستهبندی با مشکل اساسی مواجه است. بخشهای مقاله به شرح زیر است:
در بخش 2 کارهای مرتبط، در بخش 3 روش پیشنهادی، در بخش 4 آزمایشها تجربی، در بخش 5 نتیجهگیری و در پایان مراجع قرار دارد. برای فائق آمدن بر این مسئله تا کنون چندین متد پیشنهاد شده است که اکثر آنها از آنالیز آماری استفاده میکنند و هدفشان بهبود دقت دستهبندی میباشد.[2] در این مقاله بر روی مساله انتخاب ژنها تمرکز شده و راه ترکیبی جدیدی برای یافتن مجموعه کوچکی از ژنها با دقت دستهبندی بالا پیشنهاد گردیده است.
.2 کارهای مرتبط
.1-2 انتخاب ژن
مطالعات و پژوهشهای بسیار زیادی بر روی روشهای انتخاب ویژگی در الگوشناسی آماری صورت پذیرفته است. پیدا کردن یک مجموعه مناسب از ویژگیها در مسئله انتخاب ویژگی، یکی از مهمترین و چالشبرانگیزترین کارها میباشد. در الگوریتمهای انتخاب ویژگی، ویژگیهای نامرتبط، تکراری و دارای نویز برای نمایش واضحتر داهها و اهداف دیگ حذف میشوند و یک دسته از ویژگیهای مهم انتخاب میشوند. در بیوانفورماتیک وقتی ژنها را به عنوان خصیصه در نظر بگیریم با مسئلهای از انتخاب ژن مواجه میشویم. متداولترین روش-های انتخاب ژن بر اساس رتبهبندی ژنها میباشد. در روش-های رتبهبندی، هر ژن به صورت مجزا ارزیابی میگرددو به هر یک بر اساس میزان بار اطلاعاتی5، رتبهای داده میشود.
سپس تعدادی ژن با بالاترین رتبهانتخاب میگردند.[3] روشهای رتبهبندی عبارت است از[4]t-statistic، [5] information gain،[6] -statistic و غیره. روش های رتبهبندی از نظر محاسباتی موثر هستند اما دارای دو نقض میباشند: اگر یک ژن دارای رتبه بالا باشد آنگاه ژنهای دیگر که همبستگی6 زیادی با آن ژن دارند نیز دارای رتبه بالا میگردند. در نتیجه استخراج ژنها با بالاترین رتبه شامل ژنهای افزونه7 میگردد و موجب کاهش دقت دستهبندی داده بیان ژن می-شود. اخیرا بعضی از محققان تخمین زدهاند که اطلاعات یا دانش قبلی میتواند موجب بهبود دقت دستهبندی دادهبیان ژن شود اما در روشهای رتبهبندی، ژنها به صورت منفرد آنالیز می گردند و ارتباط زیستی میان آنها در نظر گرفته نمیشود.[7]
.2-2 خوشهبندی ژنها
در مساله دستهبندی، ژنها به عنوان خصیصه در نظر گرفته میشوند اما درمساله خوشهبندی، نمونههای انسانی به عنوان خصیصه در نظر گرفته میشوند. هدف از خوشهبندی ژنها، این است که آنها را بر اساس میزان همبستگی الگوهای بیان ژن در نمونههای مختلف، خوشهبندی کند به دلیل آنکه اگر تعدادی از ژنها به صورت همبسته بیان شوند، آنگاه ممکن است از نظر عملکردی نیز یکسان باشند .روشهای بسیاری برای خوشهبندی ژنها ارائه شده است که از جمله آنها در زیر بیان شده است. [8]
.1-2-2 الگوریتمK_means
الگوریتمK_menas یک الگوریتم خوشهبندی بر اساس قسمتبندی میباشد. با مقدار از قبل تعیین شده پارامتر K، دادهها را بهK زیر مجموعه مجزا براساس بهینه بودن تابع هدف E که در رابطه 1 آمده است، تقسیم میکند: که در آن O داده موجود در خوشه و میانگیندادهها در خوشه میباشد.در واقع تابع هدف E برای به حداقل رساندن مجموع مربعات فاصله داده از مرکز خوشه خود تلاش میکند. الگوریتم K_means ساده و سریع است. پیچیدگی زمانی این الگوریتم - L*N*K - میباشد که در آن L تعداد تکرار و K تعداد خوشهها و N تعداد دادهها میباشد. الگوریتمK_means تعداد تکرار کمی دارد اما اشکالاتی در خوشهبندی کردن داده بیان ژن دارد. از جمله آن، نامعلوم بودن تعداد خوشهها در داده بیان ژن میباشد. برای کشف تعداد خوشهها، کاربران معمولا الگوریتم را با مقادیر مختلف K اجرا میکنند و نتایج خوشهبندی را مقایسه میکنند اما در داده بیان ژن با هزاران ژن این کار عملی نیست. [9]
.2-2-2 نقشه خودسازمانده
کوهونن الگوریتم نقشه خود سازمانده1 را بر اساس یک شبکه واحد لایه عصبی گسترش داد. ورودی نرونها، دادهها هستند و خروجی آن، ساختار ساده همسایگی مانند شبکه دو بعدی .p*q هر نرون از شبکه عصبی متناسب با یک بردار است و هر داده به یک نرون نگاشت میشود. در این الگوریتم، دادهها به عنوان داده آموزشی عمل میکنند و بردارها را به سمت ناحیه متراکمتر ورودی سوق میدهند. بعد از اتمام آموزش، با نگاشت دادهها به نرون خروجی، خوشهها تعیین میشوند. الگوریتم نقشه خود سازمانده بهتر از روش K_means عمل میکند اما مانندK_means تعداد خوشهها باید از قبل مشخص باشد .[10]
.3-2-2 خوشهبندی سلسلهمراتبی
بر خلاف خوشهبندی بر اساس قسمتبندی، که دادهها را به مجموعه خوشههای مجزا تقسیم میکند، خوشهبندی سلسله-مراتبی2 مجموعه سلسلهمراتبی از خوشههای تو در تو را گردآوری میکند که به صورت گرافیکی توسط درخت که دندروگرام فراخوانی میشد، ارائه میگردد. با قطع کردن دندروگرام به صوت افقی میتوان خوشههای موجود در آن سطح را به دست آورد. الگوریتم خوشهبندی سللسهمراتبی نه تنها ژنها را بر اساس تشابه الگوی بیان ژن خوشهبندی میکند بلکه راهی طبیعی برای نمایش گرافیکی داده بیان ژن نیز ارائه میدهد. یکی از مشکلات الگوریتم خوشهبندی، پیچیدگی زمانی میباشد و مشکل دیگر، این است که به دلیل حریصانه بودن این الگوریتم از اصلاح خوشه قبلی جلوگیری میکند و اگر تصمیمگیری درستی در مرحله قبل انجام نشود در مرحله-های بعدی امکان تصحیح آن وجود ندارد .[11]