بخشی از مقاله
خلاصه
تومر سرطانی مزوتلیومای بدخیم از جمله تومورهای غیرشایع و مهاجم میباشد که تشخیص آن بسیار دشوار است. با توجه به نشانههای پنهان و علائم غیراختصاصی این بیماری، فرد مبتلا به آن ممکن است تا چندین دهه بعد از ابتلا، بدرستی تشخیص داده نشود. از آنجا که پس از تشخیص، احتمال زنده ماندن بیمار تا یک سال بعد کمتر از 50 درصد است نیاز به یافتن راهی برای تشخیص زودهنگام این سرطان ضروری به نظر میرسد.
دادهکاوی یکی از کارآمدترین روشهای پیشبینی و تشخیص بیماریهاست و استفاده از این علم در جهت تشخیص بیماریهای خاص و نادر میتواند تحولی در علم پزشکی ایجاد نماید. ما در این مقاله الگوریتمهای طبقهبندی J48، Naïve Bayes، K نزدیکترین همسایه، Random Committee و شبکه عصبی مصنوعی را برای تشخیص این بیماری بکار میگیریم.
مجموعه دادهای که در این مقاله استفاده شده، براساس گزارشات واقعی بیماران است که توسط دانشکده پزشکی در ترکیه تهیه شده است. در این تحقیق بوسیله روشهای طبقهبندی J48 و شبکه عصبی مصنوعی، با %100 صحت بر روی این مجموعهداده، بیماری را تشخیص میدهیم که این نتیجه نشاندهنده قدرت بالای این دو الگوریتم در تشخیص بیماری مزوتلیوما است.
.1 مقدمه
در سالهای اخیر دادههای چندین حوزه شامل بانکداری، خرده فروشی، مخابرات و تشخیصهای پزشکی دارای اطلاعات و دانش ارزشمندی هستند که اغلب پنهان میماند. پردازش این داده های بزرگ و بازیابی اطلاعات معنیدار از آن امری دشوار است. دادهکاوی یک ابزار قدرتمند برای رسیدگی به این کار است
تعداد زیادی از مقالات در مورد استفاده از روشهای یادگیری ماشین برای تجزیه و تحلیل بقای بیماران وجود دارد. از این میان، مطالعات متعددی گزارش دادهاند که آنها بر اهمیت تکنیک استفاده شده در زمینه تشخیص پزشکی تمرکز کردهاند. این مطالعات رویکردهای مختلفی را برای حل مسئله داده شده بکار بردهاند و به نتایجی با دقت و صحت بالا در طبقهبندی دست یافتهاند
دادهکاوی در تحقیقات سرطان یکی از موضوعات مهم تحقیق در علوم پزشکی در سالهای اخیر بوده است.
بیماری سرطان به حدود 25 درصد از تمام مرگ و میرها منجر می شود، و این بیماری دومین علت مرگ در ایالات متحده است . در ایران نیز طی سال های متوالی سرطان به عنوان دومین یا سومین عامل مرگ و میر شناخته شده، این درحالی است که اکثر سرطانها در مراحل اولیه قابل درمان هستند و فقط درصورتی مرگبار میشوند که دیر تشخیص داده شوند و هیچ کنترلی در جهت جلوگیری از پیشرفت آنها صورت نگیرد.
مطالعات کنونیاکثراً بر روی سرطانهای رایج بودهاند و تحقیقاتی برای تشخیص سرطانهای غیرشایع، که در برخی موارد مرگبارتر نیز هستند، کمتر به چشم میخورد. بیماری مزوتلیوما* که جزو یکی از تهاجمیترین سرطانهاست در این دسته از سرطانها قرار میگیرد با این تفاوت که تشخیص آن به کمک علائم و نشانهها بسیار دشوار است
در این مقاله الگوریتمهای گوناگون طبقهبندی از دادهکاوی را برای تشخیص مزوتلیوما بکار گرفته و نتایج را با یکدیگر مقایسه خواهیم نمود. ساختار ادامه تحقیق به این صورت است که در بخش 2 به بررسی ادبیات موضوع خواهیم پرداخت که شامل مختصر توضیحی در مورد داده کاوی، بیماری مزوتلیوما و الگوریتمهای طبقهبندی است. در بخش 3 مجموعه داده بکار گرفته شده در این مقاله بررسی خواهد شد. در بخش 4 الگوریتمها بر روی مجموعه داده پیاده سازی و نتایج عملی آنها مطالعه خواهد شد و در بخش پایانی یعنی بخش 5 یک نتیجهگیری جامع از این مقاله و برخی دیگر از تحقیقات پیشنهادی ارائه خواهد شد.
.2 مرور ادبیات تحقیق
.2.1 دادهکاوی
دادهکاوی فرآیند استخراج دانش پنهان از داده است. این فرآیند میتواند الگوها و روابط بین مقادیر زیادی از دادهها را در یک یا چند مجموعه داده نشان دهد .به عبارت دیگر دادهکاوی یکی از مراحل کشف دانش برای استخراج الگوهای ضمنی از دادههای وسیع، ناقص و آشفته است .این زمینه از علم با ترکیب رشتههای مختلف است که تجزیه و تحلیل آماری، روشهای یادگیری ماشین، هوش مصنوعی و سیستمهای مدیریت پایگاهداده را باهم برای رسیدگی به مسائل بکار میگیرد
.2.2 بیماری مزوتلیوما
مزوتلیوما، سرطان بدخیم و نادری است که منشأ آن سلولهای مزوتلیوم هستند . سلولهای مزوتلیوم سازنده پردههای پوشاننده ریهها، قلب و فضای شکم هستند. اکثر کسانی که دچار مزوتلیومای ریوی میشوند، در تماس طولانی با آزبست - پنبه نسوز - قرار داشتهاند
این بیماری همچنان یک بیماری مرگبار جهانی است که در سراسر جهان افزایش مییابد. بقای متوسط از زمان تشخیص 9 الی 12 ماه است. براساس گزارشهای سازمان بهداشت جهانی، میزان مزوتلیوما از کشورهای مختلف تفاوتهای زیادی با جنسیت و کشور دارد. نرخ ابتلای مردان تقرباًی در تمام کشورها بسیار بالاتر از نرخ ابتلای زنان هست و مقدار آن از تقریبا 1 در میلیون به بیش از 40 در میلیون در برخی کشورها افزایش مییابد .[12] کشورهای صنعتی دارای نرخ بسیار بالاتری نسبت به کشورهای غیرصنعتی هستند، که منعکس کننده تولید گذشته و استفاده از آزبست در صنعت میباشد
برای مثال، بیش از 20 میلیون نفر در ایالات متحده در خطر ابتلا به این سرطان بواسطه قرار گرفتن در معرض آزبست هستند. بروز مزوتلیوما در مردان در طول 50 سال گذشته افزایش یافته است، در حالیکه میزان بروز آن در زنان به طور عمده تغییری نکرده است. همچنین مطالعات نشان داده که میزان مرگ و میر سالانه آن در حدود 5 الی 10 درصد در اکثر کشورهای صنعتی تا سال 2020 افزایش مییابد
در ایران تعداد بیماران مزوتلیومای تشخیص داده شده و ثبت شده کمتر از 100 نفر در سال است. طبق تحقیقات صورت گرفته در دادههای اداره سرطان از نظر استان محل تولد بیماران، رتبههای اول تا سوم به ترتیب متعلق به استان خوزستان با ، 21.6% اصفهان با % 16.6 و یزد با 6.6% و از نظر استان محل سکونت بیمارانی که با آنها مصاحبه شده، رتبههای اول تا سوم به ترتیب متعلق به استان خوزستان با 20%، اصفهان با 15% و تهران با 11.6% است
.2.3 طبقهبندی دادهها
طبقهبندی در واقع یافتن خواص مشترک در میان مجموعهای از اشیاء در یک پایگاهداده و طبقهبندی آنها به کلاسهای مختلف است
مشکلات طبقهبندی به شدت با مشکلات خوشهای ارتباط دارند، زیرا هر دو اشیاء مشابه را به همان دسته قرار می دهند. در طبقهبندی، برچسب هر کلاس یک رده گسسته و شناخته شده است، در حالی که برچسب یک طبقه در مسائل خوشهبندی ناشناخته است .[14] در ادامه بخش به توضیح مختصری از الگوریتمهای طبقهبندی بکار رفته در این مقاله میپردازیم :
این الگوریتم برپایه تئوری بیض شکل گرفته است و یک روش ساده براساس روشهای آمار و احتمالات معرفی می-کند و به کمک آن مدلی را برای یادگیری ماشین ایجاد میکند که در بسیاری از مطالعات علمی مورد استفاده قرار می-گیرد. برای مثال یک میوه میتواند سیب باشد اگر قرمز باشد، کروی شکل باشد و قطر آن حدود 10 سانتیمتر باشد. طبقهبند Naïve Bayes هر یک از این ویژگیها را مستقل از ویژگی دیگر در نظر میگیرد و احتمال اینکه این میوه یک سیب است را صرف نظر از هرگونه ارتباط احتمالی بین ویژگی رنگ، شکل و ویژگی قطر، بررسی مینماید. از مزایای این روش میتوان انعطاف پذیری، سرعت بالای یادگیری و همچنین قابلیت اجرا بر روی مجموعه دادههایی که تعدادشان کم است، اشاره نمود .
J48 .2.3.2
الگوریتم J48 در واقع یک پیادهسازی منبع باز جاوا از الگوریتم شناخته شده درخت تصمیم C4.5 در ابزار داده-کاوی WEKA است که یک درخت دو دویی* ایجاد میکند. درختهای تصمیم یکی از کاربردیترین روشهای دادهکاوی در جهت حل مسائل طبقهبندی هستند و روش J48 میتواند یک درخت تصمیم C4.5 هرس شده یا هرس نشده تولید نماید
K .2.3.3 نزدیکترین همسایه
این الگوریتم با استفاده از مفهوم شباهت برای پیدا کردن نزدیکترین نمونه مرحله آموزش با نمونهای که در مرحله آزمون انتخاب شده، استفاده میکند و نمونه را به عنوان همان کلاس نمونه آموزشی طبقهبندی میکند - کلاسی که بیشترین شباهت را به نمونه انتخابی داشته باشد - . در این الگوریتم اگر چندین نمونه بیشترین شباهت را با نمونه آزمایش داشته باشند، اولین مورد یافت شده مورد استفاده قرار میگیرد. باید دانست که خود مفهوم شباهت میتواند به روشهای گوناگونی تعریف شود