بخشی از مقاله
.1 مقدمه
با پیشرفت کاربرد کامپیوتر و ذخیره سازی داده هـا درتمـامی علـوم از جملـه پزشـکی، امکـان پـیش بینـی و تشخیص زود هنگام بسیاری از بیماریها با کمک تکنیک های داده کاوی امکان پذیر شده اسـت. زمـانی کـه سـلول هـا بطور کنترل نشده ای شروع به رشد و تکثیر کنند بیماری سرطان آغاز شده است.[15] بمنظور توسعه سرطان بایستی ژن تنظیم رشد و تکثیر سلولی دگرگون شود. سپس این جهش ها از طریق تکثیر سلولی تبدیل به یک تـوده خواهنـد شد. با شناسایی ژن انتقال دهنده این سرطان می توان گام مهمی در زمینه پیش بینی سرطان سینه برداشت. تشخیص
1هنرآموز دانشگاه فنی و حرفه ای دختران کرمان
2هیات علمی دانشگاه آزاد اسلامی واحد کرمان
بیماری ها و سرطان ها در کوتاه ترین زمان ممکن بسیار حائز اهمیت است و طبق آمار بدسـت آمـده یکـی از سـرطان های شایع در زنان ، سرطان سینه می باشد که تشخیص به موقع آن در ادامه حیات بیمار نقش مهمی را ایفا می کنـد. در کشورهای توسعه یافته از هر هشت زن، یک زن در طول دوران حیات خود سرطان سینه را تجربه می کند. یکـی از کاربرد های مهم تکنیک داده کاوی مربوط به حوزه پزشکی و تشخیص بیماری ها می باشد. داده کاوی تکنیکی بـرای پردازش ، تجزیه و تحلیل داده های حجیم است و می توان از نتایج آن به یک سری اطلاعات مفیـد دسـت پیـدا کـرد. تکنیک داده کاوی به کشف الگوهای نهان در میان داده های عظیم می پردازد و نتایج آن مـی توانـد الگوهـای پنهـان شده از دید پزشکان را آشکار سازد که در پیشگیری و درمان حائز اهمیت می باشد. یکی از تکنیـک هـای داده کـاوی، خوشه بندی اطلاعات است[14] و یکی از الگوریتم معروف در این زمینه الگوریتم K-means می باشـد. همچنـین در سال های اخیر الگوریتم های تکاملی مثل الگوریتم رقابت استعماری توانسته است روش های نـوینی بـرای داده کـاوی اطلاعات ارائه دهند.
هدف این تحقیق بررسی چند سیستم تشخیص اتوماتیک برای طبقه بندی تومور سرطان سینه خوش خـیم از بدخیم است و همچنین مقایسه آنها با یکدیگر و سایر تکنیکهای به کار رفته در این تشخیص.
روش های قدیمی برای تشخیص سرطان سینه به یک مسئله کلاس بندی حوزه داده کاوی تبدیل شده اسـت. با تعیین یک کلاسیفایر جدید برای جداسازی این دو نوع تومـور، یـک تومـور جدیـد مـی توانـد بـر اسـاس داده هـای تومورهای موجود و ارزیابی کلاسیفایر، پیش بینی شـود. بـه طـور کلـی، تکنیکهـای داده کـاوی بـر اسـاس داده هـای ویژگیهای مربوط به تومورها افزایش پیدا می کنند.
المور و همکـاران [6] در پژوهشـی در سـال 1994 از 10 رادیولوژیسـت بـرای تحلیـل و تفسـیر 150 مـورد ماموگرافی و برای پیش بینی نوع تومور سینه، دعوت کردند. با وجود اینکه اعتبـار اسـتفاده از مـاموگرافی اثبـات شـده است، اما تفاوت تفاسیر رادیولوژیسـتها باعـث کـاهش دقـت پـیش بینـی هـا مـی شـود. در ایـن تحقیـق، 90 در صـد رادیولوژیستها تنها کمتر از 3 درصد از سرطانها را تشخیص دادند. امروزه، تکنولوژی های بسـیار بیشـتری بـرای جمـع آوری و تحلیل داده ها به کار گرفته می شود. برای یک پزشک، یادگیری تمامی جزئیات ویژگی هـای سـرطان در بـین حجم بسیار زیاد موارد سرطانی، بسیار مشکل است. بنابراین در هنگام تصمیم گیـری در مـوارد تشخیصـص سـرطانها، متدلوژی های آنالیز داده ها می توانند دستیاران مناسب و مفیدی برای پزشکان باشند. بـرای افـزایش دقـت و کنتـرل ویژگی های رو به افزایش تومورها و اطلاعات داده های مربوط به آنها، تعدادی از محققین برای تشخیص سرطان سینه به تکنولوژیهای داده کاوی و رویه های یادگیری ماشین روی آوردند.
.2 تعاریف
در این قسمت به معرفی برخی مفاهیم و الگوریتم های استفاده شده در این تحقیق میپردازیم.
.1 .2 ماشین بردار پشتیبان))SVM
در سال 1965 محققـی روسـی بـه نـام ولادیمیـرپنیـک توسط ایده ی حداقل سازی ریسـک، گــامی بــسیار مهـم در طراحـی طبقه بندی کننده ها برداشت. ماشین بردار پشتیبان یک طبقه بندی کننده ی دودویی است کـه دو کلاس را با استفاده از یک مرز خطی یا ابرصفحه از هم جدا می کند بطوریکه حداکثر حاشـیه ابر صفحه را حاصل کند. حـداکثر کـردن حاشـیه ابـر صـفحه منجـر بـه حـداکثر شـدن تفکیـک بـین طبقـات میشـود. بـه نزدیکتـرین نقـاط
آموزشی به حـداکثر حاشـیه ابـر صـفحه، بردارهای پشتیبان گفته می شود. تنها از این بردارها (نقاط) بـرای مشـخص کردن مـرز بـین طبقات استفاده میشود. در این روش مرز خطی بین دو کلاس به گونه ای محاسبه می شود که :
▪ تمام نمونه های کلاس 1+ در یک طرف مرز و تمام نمونه های کلاس 1- در طرف دیگر مرز واقع شوند.
▪ مرز تصمیم گیری به گونه ای باشد که فاصله نزدیک ترین نمونه های آموزشی هر دو کلاس از یکدیگر در راستای عمود بر مرز تصمیم گیری تا جایی که ممکن است حداکثر شود.
▪ یک مرز تصمیم گیری خطی را در حالت کلی می توان به صورت فرمول((1 نوشت:
W.x+b=0 (1)
X یک نقطه روی مرز تصمیم گیری و w یک بردار n بعدی عمود بر مرز تصمیم گیری است. فاصله مبدا تا مـرز تصمیم گیری و w.x بیانگر ضرب داخلی دو بردار w,x است.[3]
.2 .2 الگوریتم کی مینز (k-means)
در تکنیک خوشه بندی یکی از تکنیک های معروف در داده کاوی محسوب می شود که در آن از طریق فرآیند خودکاری نمونه های موجود در یک فضای داده را بر اساس ویژگی هایشان به دسته های متمایز تقسیم بندی می کند که به هر دسته خوشه گفته می شود. بنابراین خوشه مجموعه ای از اشیاء مـی باشـد کـه اشـیاء موجـود در آن دارای بیشترین میزان شباهت با هم و کمترین میزان شباهت با اشیاء درون خوشه های دیگر هستند. برای شباهت می تـوان معیار های مختلفی از جمله معیار فاصله را در نظر گرفت یعنی نود هایی که کمترین فاصله را باهم دارند در یک خوشه قرار می گیرند که به این نوع خوشه بندی ، خوشه بندی مبتنی بر فاصله گفته می شود. [9] سپس از طریـق بررسـی داده های هر خوشه و مقایسه آن ها با هم به اطلاعات مفیدی دسترسی پیدا کرد.
یکی از الگوریتم های مشهور در زمینه خوشه بندی اطلاعات الگوریتم کی مینز اسـت. ایـن الگـوریتم از جملـه الگوریتم های مبتنی بر مرکز خوشه می باشد که مراحل انجام الگوریتم به شرح زیر است :[16]
▪ به دست آوردن نقاطی به عنوان مراکز خوشهها به صورت رندوم
▪ نسبت دادن هر نمونه داده به یک خوشه که آن داده کمترین فاصله تا مرکز آن خوشه را دارا باشد.
در حالت استاندارد این الگوریتم ، ابتدا به تعداد خوشههای مورد نیـاز((K ، بـه صـورت تصـادفی نقـاطی انتخـاب میشود. سپس دادهها با توجه با میزان نزدیکی (شباهت) به یکی از این خوشـهها تخصـیص مییابنـد و بـدین ترتیـب خوشههای جدیدی حاصل میشود. با تکرار همین روال میتوان در هر تکرار با میانگینگیری از دادهها مراکـز جدیـدی برای آنها محاسبه کرد و مجدد دادهها را به خوشههای جدید اختصاص داد. این روند تا زمانی ادامه پیـدا میکنـد کـه دیگر تغییری در خوشهها حاصل نشودمعمولاً. شرط توقف الگـوریتم و معیـار همگرایـی آن، عـدمتغییر در خوشـههای موجود ،دستیابی به تعداد تکرارهای از پیش تعیینشده یا بر اساس معیار اتمام زمـان میباشـد. انتخـاب دقیـق مراکـز خوشه اولیه تأثیر بسزایی بر روی همگرایی این الگوریتم و خوشههای بهینه نهـایی دارد. ایـن مراکـز بایسـتی بـا دقـت انتخاب شوند و فاصله مناسبی نسبت به یکدیگر داشته باشند.
.3 .2 الگوریتم رقابت استعماری
الگوریتمهای تکاملی زیرمجموعهای از محاسبات تکاملی بوده که در شـاخه هـوش مصـنوعی قـرار میگیـرد و شـامل الگوریتمهایی است که در آنها عمل جستجو از چندین نقطه در فضای مسئله صـورت میپـذیرد. ایـن الگوریتمهـا بـر مبنای جستجوی تصادفی بوده و از تکامل بیولوژیکی طبیعی الگـوبرداری نمودهانـد و بـر روی پاسـخهای ممکنـی کـار میکنند که از ویژگی برتری برخوردار باشند و بتوانند تخمین نزدیکتری از پاسخ بهینه ارائه دهند