بخشی از مقاله
*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
استفاده از کلاسه بندي ترکیبی در داده کاوي پزشکی
چکیده
از دیدگاه داده کاوي تشخیص بیماري ها جزء مسائل کلاسه بندي داده ها محسوب می شود. اگر چه بعضی از کلاسه بندها نسبت به بقیه بهتر عمل می کنند ولی هیچ یک نمی تواند بر دیگري برتري داشته و یا داده ها را بدون هیچ خطایی کلاسه بندي کند. هر کلاسه بند تواناییها و ضعف هاي مربوط به خود را دارد. در چند سال اخیر ترکیب کلاسه بندها با هدف غلبه بر محدودیتهاي کلاسه بندها به طور وسیعی مورد مطالعه قرار گرفته است.
در این مقاله با بکارگیري روش هاي کلاسه بندي ترکیبی مشهور براي تشخیص سرطان سینه روي مجموعه داده سرطان سینه Wisconsin، ضمن ارزیابی و مقایسه این روش ها یا یکدیگر نشان داده می شود که در مقایسه با کلاسه بندهاي شبکه عصبی، نزدیکترین -k همسایه، بیز ساده ي به کار رفته در ترکیب نتایج دقیق تري تولید می کنند.
کلمات کلیدي
داده کاوي پزشکی، کلاسه بندي ترکیبی، تشخیص سرطان سینه
.1 مقدمه
استفاده از داده کاوي در پزشکی یکی از زمینه هاي پرکاربرد داده کاوي محسوب می شود که در سال هاي اخیر تحقیقات و مطالعات زیادي پیرامون آن انجام شده است. دسته مهمی از مسائل در علم پزشکی مربوط به تشخیص بیماري ها می باشد که بر اساس آزمایشات مختلف بر روي بیمار انجام می گیرد. هنگامی که تعداد پارامترها در تشخیص بیماري زیاد شود ممکن است تشخیص بیماري حتی براي یک متخصص خبره پزشکی نیز به سختی امکانپذیر باشد. همین دلیل موجب شده است که در چند دهه اخیر ابزار تشخیص کامپیوتري با هدف کمک به پزشک مورد استفاده قرار گیرد تا به نحوي بی نظمی را از داده ها خارج کند. یک هدف اصلی براي چنین ابزار کامپیوتري شده اي مربوط به تشخیص سرطان سینه است. پزشک معالج علاقه مند است که مشخص کند بیمار تحت چه نشانه هایی از آزمایشات انجام شده، یک مورد خوش خیم یا بدخیم سرطان را از خود نشان می دهد.
از دیدگاه داده کاوي، پیش بینی در تشخیص بیماري، جزء مسائل کلاسه بندي داده ها محسوب می شود. در داده کاوي پزشکی و بخصوص در مسائل مربوط به تشخیص بیماري ها استفاده از الگوریتم هاي کلاسه بندي با بالاترین درجه اعتماد و دقت، همیشه مورد توجه بوده است.
روش ها و الگوریتم هاي کلاسه بندي مختلفی وجود دارد. این روش ها در معماري، الگوریتم یادگیري یا نحوه آموزش و نمایش ویژگی ها با یکدیگر متفاوتند 1]و.[2
اگر چه بعضی از کلاسه بندها نسبت به بقیه بهتر عمل می کنند ولی هیچ کلاسه بندي نمی تواند همیشه و در هر وضعیتی بر دیگري برتري داشته و یا داده ها را بدون هیچگونه خطایی طبقه بندي کند .[1]
در چند سال اخیر توجه قابل ملاحظه اي به سیستم هاي کلاسه بندي ترکیبی شده است. به صورت تئوري ثابت شده است که یک گروه از کلاسه بندها نتایج دقیق تري از بهترین آنها ارائه می دهند .[3-8]
در این مقاله با بکارگیري روش هاي کلاسه بندي ترکیبی مشهور رأي اکثریت1، بیزین2، 3 BKS، Borda Count، و تئوري شواهد دمستر- شافر براي تشخیص سرطان سینه روي مجموعه داده ي سرطان سینه Wisconsin ضمن ارزیابی و مقایسه این روش ها نشان داده می شود که در مقایسه با کلاسه بندهاي شبکه عصبی MLP)،) نزدیکترین -k همسایه (KNN) و بیز ساده (NB) به کار رفته در ترکیب از دقت بهتري درخوردار هستند. دلیل انتخاب این سه کلاسه بند براي مقایسه و ترکیب، برتري و موفقیت آنها در پیش بینی سرطان سینه نسبت به سایر کلاسه بندها می باشد 9]و.[10
از آنجایی که اطلاعات خروجی کلاسه بندها بعنوان ورودي ماژول ترکیب استفاده می شوند، نوع این خروجی ها حائز اهمیت می باشد. کلاسه بندهاي مختلف با توجه به اطلاعات خروجی تولیدي به سه سطح تقسیم می شوند AbstractLevel :[1]، RankLevel و .Measurement Level اطلاعات خروجی کلاسه بند Abstract Level، فقط یک برچسب کلاس است. کلاسه بند Rank Level، یک لیست مرتب از برچسب کلاس ها تولید می کند که برچسب ابتدا و انتهاي لیست بترتیب بیشترین و کمترین احتمال را دارند که برچسب کلاس نمونه ورودي باشند. کلاسه بند Measurement Level، براي هر کلاس یک مقدار بین صفر و یک تولید می کند که بیانگر میزان احتمال تعلق نمونه ورودي به آن کلاس می باشد. این نوع کلاسه بند، اطلاعات بیشتري نسبت به دو نوع دیگر تولید می کند.
در ادامه این مقاله و در بخش دوم، پس از معرفی سیستم هاي کلاسه بندي ترکیبی، پنج روش کلاسه بندي ترکیبی مشهور رأي اکثریت، بیزین، BKS، Borda Count و دمستر- شافر معرفی می گردند. بخش سوم به معرفی سرطان سینه و مجموعه داده مورد استفاده پرداخته و نتایج حاصل از بکارگیري کلاسه بندهاي معمولی و همچنین روش هاي ترکیبی مذکور بر روي مجموعه داده ها و مقایسه و ارزیابی آنها در بخش چهارم مطرح می گردد. نتیجه گیري و کارهاي آتی نیز بخش پنجم را تشکیل می دهند.
.2 سیستم هاي کلاسه بندي ترکیبی
طول یک سیستم کلاسه بندي ترکیبی(MCS) 4 شامل دو بخش اساسی است. اولین بخش بستگی به کاربردي دارد که کلاسه بندي داده ها به آن منظور باید انجام بگیرد. مواردي از قبیل تعداد و نوع کلاسه بندهایی که باید انتخاب شوند، نوع ویژگی هایی که توسط هر کلاسه بند باید استفاده شود و مسائل مربوط به ساختار هر کلاسه بند جزء این بخش محسوب می شوند. بخش دوم که اغلب در همه کاربردها یکسان است، مسائل مرتبط با این پرسش است که چگونه نتایج حاصل از کلاسه بندهاي مختلف ترکیب شوند تا بهترین نتیجه بدست آید .[8] در ادامه پنج روش کلاسه بندي ترکیبی مشهور معرفی می گردند.
.1-2 روش رأي اکثریت
در این روش که مشهورترین روش ترکیب می باشد، [1] در بین خروجی هاي کلاسه بندها، کلاسی به عنوان نتیجه نهایی انتخاب می شود که توسط تعداد کلاسه بند بیشتري به عنوان خروجی پیشنهاد شده است. این روش، علی رغم سادگی، کارایی تمام کلاسه بندها را بدون توجه به ویژگی هاي هر یک، یکسان در نظر می گیرد.
.2-2 روش Borda Count
روش [8] Borda Count تعمیمی از روش رأي اکثریت می باشد. در این روش هر کلاسه بند براي نمونه ورودي X یک لیست مرتب از کلاس ها را تولید می کند که کلاس بالاي لیست بهترین انتخاب براي نمونه X و کلاس انتهاي لیست بدترین انتخاب می باشد. فرض کنید تعداد T کلاسه بندها وجود داشته و تعداد کلاس نیز برابر M باشد. همچنین رتبه یا امتیازي که کلاسه بند t ام به کلاس Ck می دهد برابر rkt باشد k=1,…,M) و .(t=1,…,T این امتیازها توسط کلاسه بند به کلاس ها به اینصورت داده می شود که به اولین عنصر لیست امتیاز M-1، به عنصر i ام لیست امتیاز M-i و به آخرین عنصر لیست، امتیاز صفر می دهد. سپس امتیاز کلی براي هر کلاس Ck توسط رابطه زیر به دست می آید:
با توجه به امتیاز کلی که براي هر کلاس به دست می آید، نمونه X به کلاسی تعلق می گیرد که بیشترین امتیاز کل را دارد. پیاده سازي روش Borda Count بسیار ساده و محاسبات آن آسان است و نیازي به آموزش ندارد [6] ولی این روش، کارایی همه کلاسه بندها را یکسان در نظر می گیرد و قابلیت ها و دقت کلاسه بندي هر یک را به حساب نمی آورد .[11] براي رفع این عیب و بهبود کارایی، این روش را می توان اصلاح کرد به طوري که قابل آموزش بوده و به هر کلاسه بند یک وزن تخصیص داده شود .[1]
.3-2 روش بیزین
در روش بیزین، از ماتریس تداخل5 براي بیان خطاي ناشی از کلاسه بندي غلط انجام شده توسط هر کلاسه بند استفاده می شود. ماتریس تداخل براي کلاسه بند et در شکل 1 مشاهده می شود. در این ماتریس، تعداد کلاس ها برابر M می باشد. nij(t) بیانگر تعداد نمونه هایی است که کلاس واقعی آنها Ci است و توسط کلاسه بند et کلاس Cj به آنها انتساب شده است i=1,…,M) و n(t)i(M+1) .(j=1, …,M+1 تعداد نمونه هایی است که متعلق به کلاس Ci می باشند ولی کلاسه بند هیچ کلاسی براي آنها تعیین نمی کند.
با استفاده از ماتریس تداخل، مقادیر باور انتساب کلاس درست به ازاي هر 1 ≤ i ≤ M به صورت زیر به دست می آیند :[11]
براي دست یافتن به مقادیر باور کل براي هر کلاس در یک سیستم کلاسه بندي ترکیبی، مقادیر باور مربوط به آن کلاس در کلاسه بندها با هم ترکیب می شوند:
کلاس Ci با ماکزیمم مقدار Bel(i)، به عنوان تصمیم نهایی کلاسه بندي انتخاب می گردد. در صورتی که مقدار Bel(i) کلاس انتخاب شده کوچکتر از مقدار آستانه باشد، سیستم ترکیبی هیچ کلاسی براي نمونه X تعیین نمی کند .[1]
.4-2 روش BKS
در روش (Behavior Knowledge Space) BKS نیازي
نیست که نتایج خروجی هر کلاسه بند از هم مستقل باشند .[11] این روش از دو مرحله تشکیل شده است. در مرحله اول با استفاده از مجموعه داده هاي آموزشی یک فضاي دانش یا جدول جستجو ساخته می شود. در مرحله دوم، نمونه داده X با توجه به این جدول جستجو کلاسه بندي می شود.
شکل 2 مثالی از این روش را نشان می دهد. فرض کنید سه کلاسه بند e1 و e2 و e3 و سه کلاس با برچسب هاي L1 و L2 و L3 وجود دارد. کلیه ترکیب هاي ممکن که کلاسه بندها می توانند برچسب کلاس را تولید کنند، 27 33 = حالت می باشد. بنابراین جدول جستجو شامل 27 سطر می باشد. در مرحله آموزش، براي هر سطر یک کلاس نامزد انتخاب می شود.
به عنوان مثال اگر خروجی سه کلاسه بند در کلاسه بندي براي 28 نمونه آموزشی به صورت {L1 L2 L1} باشد که در 10 نمونه برچسب کلاس واقعی، L1، در 15 نمونه برچسب کلاس واقعی، L2 و در 3 نمونه برچسب کلاس واقعی، L3 می باشد. بنابراین برچسب کلاس با بیشترین تکرار، یعنی L2 به عنوان برچسب کلاس نامزد تعیین انتخاب می گردد که در شکل دور آن دایره کشیده شده است.
اکنون فرض کنید براي کلاسه بندي نمونه جدید X، خروجی سه کلاسه بند به صورت { L1 L2 L1 } باشد.
سطر متناظر با این حالت در جدول جستجو پیدا شده و چون برچسب کلاس نامزد آن L2 است لذا برچسب کلاس L2 به نمونه X انتساب می گردد.
روش BKS، براي داشتن یک کارایی قابل قبول، نیاز دارد که با مجموعه داده ي بزرگی آموزش ببیند تا همه حالت هاي ترکیب در جدول جستجو بدست آیند .[6] بنابراین این روش براي مسائل با تعداد نمونه آموزشی کم پاسخ خوبی ارائه نمی کند .[11]
.5-2 روش ترکیب شواهد دمستر - شافر