بخشی از مقاله

 

تشخیص سرطان سینه با استفاده از تکنیک های پیش بینی داده کاوی


چکیده


تشخیص بیماری ها یکی از موارد مهم در علم پزشکی می باشد و یکی از کاربردهای مهم داده کاوی، مربوط به تخشیص بیماری ها در علم پزشکی می باشد. در این مقاله با استفاده از الگوریتم های پیش بینی داده کاوی همچون CART، C5.0 و neural network به مساله تشخیص و پیش بینی سرطان سینه می پردازیم. مجموعه داده مورد استفاده، از پایگاه تشخیص سرطان Wisconsin می باشد که این مجموعه داده شامل 699 رکورد می باشد که در دو دسته خوش خیم و بد خیم فراهم می باشد. بعد از ایجاد مدل ها در نرم افزار داده کاوی Clementine 12.0 با استفاده از گره analysis، مدل ها از نظر دقت پیش بینی ارزیابی می گردند.


واژههای کلیدی: داده کاوی، سرطان سینه، متدهای عددی داده کاوی، کلمنتاین


-1 مقدمه

سرطان سینه، شایع ترین سرطان در میان زنـان مـی باشـد که هر 6 ماه، بیش از یک میلیون مورد جدید از ابتلا به ایـن بیماری تشخیص داده می شود؛ این بیمـاری دومـین دلیـل اصلی مرگ سرطانی در میان زنان مـی باشـد. بـا توجـه بـه هزینه بالای تشخیص و درمان بیماری، همواره پیش گیـری موثرترین و کم هزینه ترین راه حفظ سلامت می باشد. .[1] هنگامی که تعداد پارامترها در تشخیص بیمـاری زیـاد شـود ممکن است تشخیص بیمـاری حتـی بـرای یـک متخصـص خبره پزشکی نیز بـه سـختی امکـان پـذیر باشـد. از ایـن رو انتخـاب الکـوریتم بهینـه جهــت تشـخیص زود هنگـام ایــن بیماری جهـت درمـان بـه موقـع بـه عنـوان یـک سیسـتم هوشمند، به پزشک کمک شایانی خواهد نمود. هـدف اصـلی این مقاله استفاده از متـد داده کـاوی در تشـخیص سـرطان سینه، با استفاده از سه متـد عـددی داده کـاوی و انتخـاب مناسب ترین الگوریتم بوده که به عنوان یک سیستم خبـره بتواند به پزشک کمک شایانی نماید.

-2 متدولوژی CRISP-DM

تکنیکهای دادهکاوی از جمله تکنیکهای نوین علمی هسـتند که در توصیف، تشریح، پیش بینی و کنترل پدیدهها بـه کـار می روند. این تکنیکها به اندازهگیـری، تشـریح و پـیشبینـی درجه وابستگی میان متغیرها می پردازند. روشهای دادهکاوی نه تنها بر جنبههای تحلیلـی مطالعـات، بلکـه در طراحـی و ابزارهای جمع آوری داده برای تصمیمگیـری و حـل مسـائل نیز تأثیر میگذارنـد. موفـقتـرین پروژههـای دادهکـاوی، در چارچوب فرآیند استانداردی اجرا می شود که توسط یک تیم کاری در شرکت SPSS در قالب پروژه های بـه نـام CRISP-DM ارائــه شــده اســت. برطبــق CRISP-DM یــک پــروژه دادهکاوی معین شامل چرخه حیاط شش مرحلهای است که توالی مراحل را نشان می دهد. هر مرحلـه از ترتیـب مراحـل اغلب نتیجه وابستگی مراحل قبلی را نیز دربر دارد. مهمترین وابستگی بین مراحل نمایش پیکانها است. خاصـیت تکـراری


CRISP-DM حاکی از چرخه بیرونی است کـه اغلـب منجـر به راه حلی برای مسئله تحقیقی یا تجاری با سوالات اضـافی جالب توجه می شود. در زیر مراحـل کـاری در دادهکـاوی را توضیح میدهیم((N.balac 2006

شکل : 1 مراحل و وظایف متدولوژی CRISP-DM (غضنفری و دیگران، (1387

-3 پایگاه تشخیص سرطان سینه:

-4

پایگاه تشـخیص سـرطان Wisconsin نتیجـه تـلاش هـای انجام شده در بیمارستان دانشـگاه Wisconsin در تشـخیص دقیق چربی های سینه است که با تست FNA بدست آمـده اند. نه ویژگی بدسـت آمـده از یـک نمونـه FNA بـه عنـوان پارامترهای مرتبط برای تعیین شدت سرطان سینه تعریـف می شود که یک مقدار صحیح بـین 1 تـا 10 بـه آن نسـبت داده می شود. این 9 پارامتر می توانند خوش خیم یا بدخیم بودن سرطان را مشخص نمایند. این متغیرهای اندازه گیـری شده را میتوان در جدول1 مشاهده کرد. این بانک اطلاعـاتی شامل 699 نمونه می باشد [2]

جدول-1 اطلاعات پایه


-5 معرفی الگوریتم ها:

-1-5 درخت تصمیم:CART

الگــوریتم CART نخســتین بــار توســط اولشــن، فریــدمن، برمیمان واستون در سال 1984 برای درختـان رگرسـیون و کلاسه بندی طراحی شـد. ایـن الگـوریتم شـامل یـک متـد بازگشتی است. الگوریتم CART در هـر مرحلـه رکوردهـای آموزشی را به دو زیر مجموعه تقسیم می کند. به طوری کـه رکوردهای هر زیر مجموعه نسبت به زیر مجموعه های قبلی همگن تر باشد. این تقسیم شدن هـا بـه دفعـات انجـام مـی شود تا شـرایط توقـف برقـرار شـود.[3] در CART بهتـرین نقطه شکست با تعیین مقدار پـارامتر impurity تعیـین مـی شود. اگر بهترین شکست بـرای یـک شـاخه، impurity را از حد تعریف شده کمتر کند، آن انشعاب سـاخته نمـی شـود. مفهوم impurity در اینجا میزان شباهت مقدار فیلد هـدف و رکوردهای رسیده به یک گـره اطـلاق مـی شـود. اگـر 100


درصد نمونه های موجـود در گـره، در یـک دسـته خـاص از فیلد هدف قرار گیرد، آن گره pure نامیده می شود. در ایـن الگوریتم یک فیلد پیشگو ممکن است به دفعـات در سـطوح مختلف درخت تصمیم گیری به کارگرفتـه شـود. همچنـین این الگوریتم، فیلدهای هدف و پیشگو از نـوع categorical و continues را پشتیبانی می کند[4]

-2-5 درخت تصمیم C5.0

الگوریتم C5.0 یک نوع درخت تصمیم گیری تک متغیـره و بهبود یافته الگوریتم C4.5 است که توسط محقق استرالیایی J.Ross quinlan در سال 1993 طراحی شـد. ایـن الگـورتم مشابه الگوریتم CART، ابتدا درختـی کـاملا پـر ایجـاد مـی کند. ولـی اسـتراتژی هـرس آن کـاملا متفـاوت اسـت. ایـن الگوریتم، کلاسه بندی را با تقسیم داده ها به زیـر مجموعـه هایی که شامل رکوردهای همگن تـر از والـد خـود هسـتند، انجام می دهد. در c5.0 تقسیم کردن نمونـه هـا بـر اسـاس فیلدی که بیشترین بهره اطلاعات را دارد، صورت می گیـرد. هر زیر نمونه توسط اولین انشعاب تعیین مـی شـود. سـپس معمولا بر اساس فیلدی دیگر مجددا تقسیم بندی انجام مـی گیرد و این فرآیند به دفعات تکرار مـی شـود تـا اینکـه زیـر نمونه ها قابلیت تقسـیم شـدن را نداشـته باشـند. سـرانجام انشعاب های پایین ترین سطح، از نو آزموده می شـوند. و آن انشعاب هایی که ارزش چندانی ندارنـد از مـدل حـذف مـی شوند. [5]استنتاج قانون از طریق الگوریتم C5.0 بـر اسـاس درخت تصمیم گیری است. این احتمال وجود دارد که بیش از یک قانون به ازای هر رکورد خاص صدق کنـد و یـا هـیچ قانونی به کار نـرود. اگـر چنـدین قـانون بـرای یـک رکـورد مناسب باشند هر قانون مبتنی بـر اطمینـان مربـوط بـه هـر قانون، وزنی تحت عنوان " vote " می گیرد. در اینصورت بـر اساس ترکیب وزن همه قوانین مناسب بـرای رکـورد، پـیش بینی نهایی تعیـین مـی شـود و اگـر هـیچ قـانونی مناسـب نباشند، یک پیش گویی پیش فرض به آن رکورد نسبت داده می شود[6]

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید