بخشی از مقاله

چکیده

امروزه سرطانها یکی از مهمترین عوامل مرگ ومیر انسانها محسوب میشوند که فناوری ریز آرایه نقش مهمی در تشخیص، درمان و طبقه بندی انواع بافتهای سرطانی دارد. وجود ژنهای زیاد و تعداد اندک نمونهها باعث ایجاد مشکلاتی در طراحی طبقه بندها شده است. بنابراین کاهش ابعاد و انتخاب تعداد کمی از ژنها با دقت پیش بینی بالا برای طبقه بندی سرطان از چالشهای مهم تحلیل دادههای ریز آرایه است. در این مقاله مطالعه تاثیر روش های انتخاب ویژگی با استفاده از روش های فیلتر در دقت و خطای طبقه بندی نظارت شده سرطان را ارائه می کند .

مقایسه بین روش های مختلف فیشر، -Tآماری، SNR و ReliefF با استفاده ازمجموعه داده های مختلف سرطان شامل سرطان خون، پروستات و روده بزرگ ارزیابی شده است. نتایج طبقه بندی با استفاده از طبقه بندی K نزدیک ترین همسایه - KNN - و ماشین بردار پشتیبان - SVM - که ترکیبی بین روش های SNR و طبقه بندی SVM با بالاترین دقت را نشان می دهد.

مقدمه

فناوری ریزآرایه در سال 1996 متولد و با عناوین آرایههای DNA، تراشههای ژنی، تراشههای DNA و تراشههای زیستی نامگذاری شده است. فناوری ریزآرایه یکی از آخرین پیشرفتها در زمینه زیست شناسی ملکولی است که اجازه نظارت بر بیان هزاران ژن را بهصورت همزمان تنها در یک آزمایش هیبریداسیون میدهد. علاوه بر پتانسیل علمی این فناوری در مطالعه بنیادین بیان ژن؛ یعنی تنظیم و تعاملات ژنها، کاربردهای مهمی در پژوهشهای دارویی و کلینیکی دارد.

برای مثال، با مقایسه بیان ژن در سلولهای سالم و ناسالم، ریزآرایه میتواند در شناسایی ژنهای ناسالم برای داروهای درمانی یا ارزیابی تاثیر آنها استفاده شود. ریزآرایه دارای هزاران نقطه بوده، هریک از این نقاط حاوی دنبالههای مختلف شناخته شده DNA، بهنام نشانگر هستند. این نقاط روی یک اسلاید شیشهای توسط یک arrayer رباتیک چاپ میشوند. توسعه در بیوتکنولوژی زیست شناسی ملکولی اطلاعات موجود در ژن ها را با ارائه میکرو آرایه ابزار تشخیصی برای به رسمیت شناختن بافت سالم/ بافت سرطانی یا تمایز بین انواع سرطان را اندازه گیری می کند.

داده های موجود شامل تعداد زیادی از ویژگی ها - ژن - و تعداد محدود از نمونه ها است. با استفاده از دو طبقه بندی KNN و SVM، تمرکز برروی تاثیر روش های انتخاب ویژگی شامل فیشر، -Tآماری، SNR و ReliefF بر نرخ طبقه بندی نظارت شده است. این کار درمجموعه داده های گوناگون شامل سرطان خون، پروستات و روده بزرگ انجام شده و پس از استخراج و انتخاب ویژگی های مربوط به طبقه بندی نظارت شده با استفاده از طبقه بندی KNN و SVM تست می شود.

-1 اساس و روش ها

-1-1 سیستم های تشخیص خودکار

یک سیستم تشخیصی به وسیله ی کامپیوتر برای تشخیص پزشکی به اسم CAD تخصیص داده شده و هدفش کمک به یک پزشک در تفسیر و طبقه بندی موارد پزشکی در کارهای حساس است. فرایند تشخیص خودکار شامل مراحل اصلی زیر است:

·    پیش پردازش داده های خام از یک تصویر اسکن شد دیجیتال یا تراشه DNA است.

·    استخراج برخی از توصیف ها پس از مرحله انتخاب ویژگی های مربوطه است.

·    طبقه بندی و تصمیم گیری

-1-2 انتخاب ویژگی

دادههای ریزآرایه بهصورت ماتریسی از هزاران ستون و چند صد سطر هستند که هر سطر نشاندهنده یک نمونه و هر ستون نیز نشان دهنده یک ژن است. ابعاد بالای ویژگیها تعدادنسبتاً کم نمونهها باعث ایجاد مشکلاتی در آنالیز دادههای ریزآرایه شده است. این مشکلات عبارتند از: افزایش هزینه محاسباتی، پیچیدگی طبقهبندی ها، کاهش توانایی تعمیم طبقهبندی ها و کاهش اعتبار آنها در پیشبینی نمونههای جدید که به علت بالا بودن تعداد ویژگیها نسبت به نمونهها، احتمال آنکه ژنهای نامربوط خود را در هنگام یافتن ژنهای با بیان مختلف و در ساختن مدلهای پیشبینیکننده نشان دهند، بسیار زیاد است وتفسیر ژنهای مسبب بیماری مشکل است؛ زیرا از دیدگاه بیولوژیکی تنها مجموعه کوچکی از ژنها مربوط به بیماری هستند.

در نتیجه، دادههای مربوط به اکثریت ژنها در واقع نقش یک پسزمینه نویزی را دارند که میتواند اثر آن زیرمجموعه کوچک را محو کند. بنابراین، تمرکز بر روی مجموعه کوچکتری از دادههای بیان ژن، باعث تفسیر بهتر نقش ژنهای حاوی اطلاعات می شوند.از اینرو، اولین قدم مهم در آنالیز دادههای ریزآرایه کاهش تعداد ژنها یا به عبارتی، انتخاب ژنهای متمایزکننده بهمنظور طبقه بندی است.

یافتن یک زیر مجموعه بهینه از ویژگی های مرتبط با اجتناب از ویژگی های زائد از اهداف انتخاب ویژگی است. این زیرمجموعه باید اجازه براورد بهتر دقت وسرعت طبقه بندی های ارائه شده را بدهد که در این کار روش فیلتر به کار رفته است. روند انتخاب مستقل از روند طبقه بندی است. از آنجا که اجرای تکراری الگوریتم یادگیری در زیرمجموعه مختلف از متغییرها اجتناب می کند اما زمان محاسبه در روش فیلتر ارزان تر است. روش های انتخاب ویژگی مورد مطالعه عبارتند از فیشر ، -T آماری، SNR و ReliefF که بر اساس نمره تخمینی مربوط به هر ویژگی - ژن - به منظور K انتخاب در میان D توصیف مناسب تر است.

RelifF -1-2-2

این الگوریتم به عنوان یک جانشین معرفی شده، سپس توسط Kononenko به عنوان RelifF چند کلاسه بهبودیافته است که در این روش افزونگی از بین نمی رود اما ملاک مناسب را تعریف می کند. این ملاک توانایی اندازه گیری هر یک از ویژگی ها به گروه مشابه برچسب داده و تبعیض برچسب های گوناگون را دارد.

-3-1 طبقه بندی

پژوهش ها نشان داده که تشخیص دقیق سرطان میتواند با طبقهبندی دادههای ریزآرایه عملی شود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید