بخشی از مقاله
چکیده
تشخیص بیماریها یکی ازموارد مهم درعلم پزشکی میباشد و یکی ازکاربردهای مهم داده کاوی مربوط به تشخیص بیماریها درعلم پزشکی می باشد. هدف از این پژوهش، تشخیص سرطان پستان بر اساس ویژگی های استخراج شده تومور می باشد. برای استخراج اطلاعات مفید و تشخیص تومور، ترکیبی از الگوریتم های کامیانگین و ماشین بردار پشتیبان - K-SVM - توسعه پیدا کرده است.
الگوریتم کامیانگین برای شناسایی الگوهای پنهان تومور های خوش خیم و بد خیم به طور جداگانه استفاده شده است. عضویت هر تومور در این الگوها محاسبه شده و به عنوان یک ویژگی جدید در مدل آموزش تلقی شده است. سپس از الگوریتم ماشین بردار پشتیبان جهت دسته بندی تومورهای متفاوت دریافتی استفاده می شود. از مجموعه داده های مرکز تشخیص سرطان پستان ویسکانزین - WDBC - که در مخزن یادگیری ماشین دانشگاه کالیفرنیا-ایروین قرار دارد، استفاده شده است . نتایج نه تنها توانایی روش پیشنهادی با دقت 95,2 درصد در تشخیص سرطان پستان را نشان می دهد، بلکه صرفه جویی در زمان در مرحله آموزش را نیز نشان می دهد.
-1مقدمه
سن ابتلا به سرطان پستان در ایران 10 تا 12 سال کمتر از کشورهای توسعهیافته است. 98 تا 99 درصد سرطان پستان در زنان اتفاق میافتد. متوسط سن ابتلا در ایران 50 سال است. نیمی از افراد مبتلا به سرطان پستان زیر 50 سال و نیمی از آنها بالای 50 سال دارند. تشخیص سنتی سرطان به یک مسئله ی دسته بندی در حوزه ی داده کاوی پایگاه های داده موجود برای ویژگی های تومور تبدیل شده است ، که داده های مربوط به تومور ها را به 2 دسته ی خوش خیم و بدخیم به طور جداگانه طبقه بندی می کند.
با درک دسته بندی به 2 نوع تومور، نوع یک تومور ورودی جدید می تواند بر اساس داده های تومورهای قبلی - با ارزیابی دسته بندی کننده - تشخیص داده شود. هدف در این پژوهش استفاده از تکنیک ها ی داده کاو ی برای کمک به تشخیص سرطان پستان می باشد. در این پژوهش از الگوریتم های کاهش ویژگی در جهت حذف ویژگی های غیرمرتبط و بهبود عملکرد سیستم دسته بندی استفاده خواهد شد. در نهایت از یک الگوریتم دسته بندی جهت دسته بندی تومورها ی متفاوت دریافتی استفاده می شود.
قابل ذکر است که در این پژوهش از مجموعه داده های مرکز تشخیص سرطان پستان ویسکانزین که در مخزن یادگیری ماشین دانشگاه کالیفرنیا-ایروین قرار دارد، استفاده خواهد شد. در ادامه به ادبیات موضوع می پردازیم و کارهای انجام شده در این زمینه و مطالبی درباره روش خوشه بندی مورد نظر را مطرح می کنیم . سپس روش پیشنهادی و داده های مورد استفاده در این مطالعه را توضیح می دهیم و در بخش چهارم نتایج به دست آمده از مطالعه را نشان داده و در آخر به نتیجه گیری و پیشنهادات آتی می پردازیم .
-2 ادبیات موضوع
در این بخش ما به مرور پژوهش های انجام شده در حوزه ی تشخیص سرطان پستان بر اساس ویژگی های تومور می پردازیم. در سال 1995ولبرگ و همکارانش از تکنیک های پردازش تصویر برای استخراج ویژگی های هسته سلول های سرطانی استفاده کردند.[1]آنها از نتایج نمونه برداری سوزنی که به صورت عکس دیجیتالی تبدیل شده بودند برای این کار بهره جستند
با توجه به اینکه داده کاوی برای تشخیص سرطان پستان بر اساس ویژگی های تومور عمل می کند، با افزایش ویژگی های توصیفی تومور، زمان محاسبات به سرعت افزایش پیدا می کند، از این رو تحقیقات بعدی در ادبیات تشخیص سرطان پستان بر روی استفاده از الگوریتم هایخاص برای کاهش ویژگی های تومور تمرکز دارند. در همین راستا نظافت و همکارانش از روش های جستجوی ترکیبی رو به جلو رو به عقب و استفاده از شبکه عصبی برای انتخاب موثرترین ویژگی ها استفاده کردند.
هوآنگ و همکارانش نیز از روش امتیاز اف - F_Score - جهت انتخاب زیر مجموعه بهینه از ویژگی ها استفاده کردند و در نهایت هم برای دسته بندی نیز الگوریتم ماشین بردار پشتیبان را مورد استفاده قرار دادند.[3] هوآنگ و همکاران در سال 2010 انتخاب ویژگی و الگوریتم های بهینه سازی را با هم برای بهبود دقت پیش بینی دسته بندی پایگاه داده ی سرطان پستان ویسکانزین مورد استفاده قرار دادند.[4]، آن ها همچنین برای به دست آوردن پارامترهای مناسب شبکه عصبی از الگوریتم های لونبرگ-مارکارد و الگوریتم بهینه سازی دسته ای ذرات استفاده کردند.
سالاما و همکاران در سال 2012 یک مقایسه میان روش های مختلف دسته بندی برای تشخیص سرطان پستان بر اساس سه پایگاه داده ی مختلف را انجام دادند.[5]روش های مورد استفاده ی آن ها عبارت بود از: درخت دسته بندی، پرسپترون چند لایه، روش دسته بندی بیزی، روش بهینه سازی متوالی کمینه و یادگیری بر مبنای نمونه برای کا همسایه ی نزدیک.
خاریا و همکاران در سال 2016 روش دسته بندی ساده ی بیزی را همراه با یک رویکرد وزن دار جدید در تشخیص سرطان پستان مورد استفاده قرار دادند .[6]هوآنگ و همکاران در سال 2017 الگوریتم های ماشین بردار پشتیبان گروهی را در تشخیص سرطان پستان پیشنهاد کردند.[7]در این مقاله برای استخراج ویژگی های تومور، استفاده از الگوریتم کا میانگین [ 8]، به عنوان یک الگوریتم یادگیری بدون نظارت یشنهاد می شود و در نهایت از الگوریتم دسته بندی ماشین بردار پشتیبان .[8]جهت دسته بندی تومورهای متفاوت دریافتی استفاده می شود.
-3روش تحقیق
1-3توصیف داده
در این تحقیق از مجموعه داده ی »سرطان پستان تشخیصی ویسکانزینWDBC « دانشگاه کالیفرنیا استفاده شده است. همانطور که گفته شد این مجموعه داده در سال 1995 جمع آوری شده است.
این مجموعه دارای 31 ویژگی در 10 دسته برای هر هسته می باشد که شامل شعاع - میانگین فاصله مرکز تا نقاط روی محیط - ، بافت - انحراف معیار مقادیر مقیاس خاکستری - ، محیط، مساحت، صافی - تغییرات محلی در طول شعاع - ، غلظت − 1 - مساحتمحیط - ، تقعر - شدت قسمت های مقعر محیط - ، نقاط مقعر - تعداد قسمت های مقعر در محیط - ، تقارن و بعد فرکتال است.برای هر دسته 3 مشخصه اندازه گیری می شود:
میانگین، انحراف معیار و مقدار حداکثر، که در جدول - 1 - نشان داده شده است. چون ویژگی ها در مقیاس های مختلف اندازه گیری شده اند بنابراین نرمال کردن داده ها برای کاهش خطا ضروری می باشد. به طور کلی 569 نمونه جمع آوری شده است. ویژگی آخر این مجموعه داده مربوط به تشخیص خوش خیم و یا بدخیم بودن سرطان پستان می باشد
جدول - : - 1 خلاصه داده ها
- 1 - نشان داده شده است. در این مقاله روش های دسته بندی و خوشه بندی برای تشخیص سرطان پستان ترکیب شده اند. به منظور کاهش ویژگی قبل از انجام دسته بندی، الگوی تومورهای خوش خیم و بدخیم توسط الگوریتم K_means به طور جداگانه استخراج می شود، سپس میزان عضویت هر داده در هر الگو - خوشه - توسط یک تابع عضویت فازی محاسبه می شود و این میزان عضویت به عنوان ویژگی جدید برای داده ها در نظر گرفته می شود. بنابراین مجموعه داده ای خواهیم داشت که تعداد ویژگی های آن برابر با تعداد خوشه هاست. در نهایت هم از داده های جدید برای دسته بندی به روش الگوریتم ماشین بردار پشتیبان و یافتن مرز بین تومورهای خوش خیم و بدخیم استفاده می شود.
شکل - : - 1 چهارچوب کلی فرآیند داده کاوی انجام شده
1؛2؛3خوشه بندی بوسیله الگوریتم K_means
در این مقاله برای تشخیص الگوی تومورهای خوش خیم وبدخیم به منظور استخراج ویژگی از الگوریتم استفاده شده است. این الگوریتم داده های مربوط به تومورهای خوش خیم و بدخیم را به طور جداگانه خوشه بندی می کند. الگوریتم K_means در قالب یک مسئله ی بهینه سازی برای کاهش فاصله ی کلی بین مراکز خوشه ها و اعضای خوشه ها می تواند به صورت معدله - 1 - فرموله شود