بخشی از مقاله

چکیده

در این مقاله یک سیستم کمکیار پزشک طراحی شده است که توانایی تشخیص قابل درمان بودن یا نبودن بیماری هپاتیت را دارا است. در این زمینه تحقیقهای زیادی صورت گرفته است و به نتایج گوناگونی دست یافتهاند، اما به ناقصبودن اطلاعات افراد و مجهز نبودن تجهیزات آزمایشگاهی که عامل مهمی در تصمیمگیری میباشد توجهی نشده است. در این مقاله، رویکرد نوینی برای کاهش تعداد ویژگیها با توجه به وجود خطا در نتایج آزمایشگاهی و ناقص بودن اطلاعات در نظر گرفته شده است.

تشخیص مهمترین ویژگیهای بیماری هپاتیت از مجموعه اطلاعات بالینی و نتایج آزمایشهای کلینیکی با کاهش تعداد ویژگیها، منجر به صرف هزینه کمتر، زمان کوتاهتر و دقت بیشتر در تشخیص میشود. سیستم مورد نظر شامل 3 مرحله اصلی پیشپردازش، انتخاب ویژگی و دستهبندی است. مجموعه داده از مخزن داده دانشگاه کالیفرنیا جمعآوری شده است

. این مجموعه داده شامل 155 نمونه میباشد. بهترین روش انتخاب ویژگی در این مقاله تئوری مجموعه فازی راف میباشد که توانسته با تعداد 4 ویژگی و دقت 91 درصد، قابل درمان یا نبودن بیماری هپاتیت را تشخیص دهد. با روش انتخاب شده در این مقاله به علت امکان ناقص بودن اطلاعات بعضی بیماران و وجود خطا در نتایج آزمایشگاههای غیرمجهز مقادیر مفقود شده و دادهها به صورت فازی در نظر گرفته شدهاست و با انتخاب 4 ویژگی از میان 19 ویژگی علاوه بر کاهش زمان و هزینه تشخیص و بر خلاف بسیاری از روشهای انجام شده در گذشته که روی دقت تمرکز کردهاند نتایج قابل قبولتر شدهاست.

مقدمه

گسترش استفاده از کامپیوترها، منجر به رشد سریع مجموعههای اطلاعاتی شده است. هر روز حجم عظیمی از دادهها تولید شده و در مجموعهدادههای مختلف ذخیره میشود. در سالهای اخیر دادهکاوی جهت استخراج اطلاعات نهان و مهم یا الگوها و روابط مشخص در حجم زیادی از دادهها، اهمیت بسزایی پیدا کردهاست. با استخراج دانش از میان حجم انبوهی از دادههای پزشکی مرتبط، با استفاده از فرآیند دادهکاویٌ میتوان قوانین حاکم بر ایجاد، تسری و رشد بیماریها شناسایی شود. در بسیاری از کاربردهای دنیای واقعی کاوش دادهها، حتی با وجودمقدار دادههای حجیم و فضای ذخیرهسازی مناسب، ممکن است در نمونههای موجود، مقادیری از دادهها از دست رفته باشند که به آنها مقادیر مفقود شدهٍ، گفته میشود.

به دلیل اینکه انتخاب درمان نامناسب برای بیمار، علاوه بر هدر دادن وقت و پول، میتواند اثرات زیانباری را نیز به همراه داشته باشد، تشخیص به موقع و مناسب جهت درمان و جلوگیری از پیشرفت بیماری بسیار حائز اهمیت است. در این مقاله به تشخیص یکی از شایعترین بیماریها در جهان به کمک دادهکاوی پرداخته شده است

هپاتیتَ به معنای التهاب در کبد است. این بیماری یکی از شایعترین بیماریهای عفونی است که به دلایل مختلف و در تمام گسترههای سنی ایجاد میشود و هر سالحدوداً باعث مرگ 1/5 میلیون نفر در سراسر جهان شده است

با توجه به تحقیقهای انجام شده و نتایج به دست آمده در این مقاله، یافتن مهمترین ویژگیهای مجموعه دادههای پزشکی امری ضروری است، زیرا در مجموعه دادههای پزشکیمعمولاَ اطلاعات ناقص وجود دارد. با کاهش تعداد ویژگیها، تعداد آزمایشهای مورد نیاز کمتر میشود و و امید است که بتوان با دقت بیشتر، در زمان کوتاهتر و با صرف هزینه کمتری به تصمیمگیری و تشخیص پرداخت .

در کارهای انجام شده در گذشته، هنگام انتخاب ویژگی از مجموعه دادهای که دارای اطلاعات ناقص است، تصمیمگیری تنها بر اساس ویژگیهایی انجام میشود که برای همه افراد در دسترس هستند. به عبارت دیگر اگر یک ویژگی برای یک فرد مفقود باشد، آن ویژگیکلاً در نظرگرفته نمیشود . حالت بهتر این است که میانگین مقادیر آن ویژگی در افراد دیگر جایگزین مقادیر مفقود میشود .

این دو روش انجام شده منطقی به نظر نمیرسد زیرا در روش حذف، اطلاعاتی از مجموعه داده از بین میروند و در روش جایگزینی، به دلیل اینکه مقدار جایگزینی مقدار واقعی نیست و در تصمیمگیری اثر دارد، نتیجه حاصل از این مجموعه داده، قابل اطمینان نمیباشد. مورد دیگری که در گذشته به آن توجه نشده امکان وجود خطا در نتایج آزمایشهای انجام شده در بعضی آزمایشگاهها با توجه به ناقص بودن اطلاعات بیماران میباشد. به همین دلیل با وجود دقت بالای تشخیص در تحقیقهای انجام شده در گذشته هنوز به یک سیستم کمکیار پزشک نیاز میباشد. در بسیاری از تحقیقهای انجام شده در گذشته با پایگاه داده مورد استفاده در این مقاله کار کردهاند اما وضعیت نمونههای دارای مقادیر مفقود شده در الگوریتمهای انتخاب ویژگی به درستی بیان نشده است.

در این مقاله سعی شده است با استفاده از روش تئوری مجموعه فازی راف و روش جدید به دست آوردن درجه وابستگی که اساس انتخاب زیرمجموعهای از ویژگیها در این الگوریتم میباشد، وجود خطا در نتایج آزمایشگاهی و ناقص بودن اطلاعات به گونه مناسبی لحاظ شود. طوری که در نهایت زیرمجموعهای از ویژگیها انتخاب شود که به مناسبترین تصمیم در جهت تشخیص بیماری هپاتیت منجر شود. با انتخاب ویژگیهای ضروری، دیگر تمام آزمایشهای مشخص شده برای تشخیص این بیماری نیازنمیباشد. این در حالی است که دقت تشخیص با استفاده از دادههای محدود کمتر نشدهاست؛ به عبارت دیگر، در هزینه و وقت تشخیص بیماری صرفهجویی قابل توجهی حاصل میشود.

ساختار این مقاله به صورت زیر است. در بخش 2 کارهای انجام شده در گذشته بررسی شده است. در بخش 3 الگوریتمهای دادهکاوی به کار گرفته شده و در بخش 4 در مورد پایگاه داده هپاتیت بحثشدهاست. در بخش 5 نتایج به دست آمده و در بخش پایانی نتیجهگیری مطرح گردیده است.

مروری بر کارهای پیشین

تحقیقهای انجام شده از سال 2003 تاکنون نشان میدهد تکنیکهای مختلفی در خصوص تشخیص بیماری هپاتیت استفاده شده است. اغلب، این روشها شامل 3 مرحله پیشپردازش، انتخاب ویژگی و دستهبندی هستند .

تحقیقهای بسیاری در زمینه تشخیص بیماری هپاتیت بدون استفاده از تئوری مجموعه راف انجام شده است. در سال 2007 برای تشخیص بیماری هپاتیت از روش ترکیبی الگوریتم درخت تصمیم C4.5 جهت کاهش تعداد ویژگها و روش سیستم تشخیص ایمنی مصنوعی  ُAIRS به عنوان دستهبند استفاده شده است

در سال 2009 دوگانتکینِ و همکاران، یک سیستم  تشخیص بر اساس تحلیل تفکیک خطی - LDA - ّ  و شبکه تطبیقی مبتنی بر سیستم استنتاج فازی  - ANFIS - ْ  ارائه نمودند - . - Dogantekin, Dogantekin, & Avci, 2009 در سال 2011 یک سیستم هوشمند را با استفاده از تحلیل اجزا اصلی - PCA - َ و حداقل مربعات ماشین بردار پشتیبان - LSSVM - ُ ارائه داده شد

در همان سال یک روش ترکیبی شامل تجزیه و تحلیل تفکیک فیشر محلی 10 - LFDA - و ماشین بردار پشتیبان 11 - SVM - ارائه شد

در سال 2016 از الگوریتم بهینهسازی کلونی مورچه 12 - ACO - برای انتخاب ویژگی و ماشین بردار پشتیبانی - SVM - به عنوان دستهبنداستفاده شده است

در سال 2016 با استفاده از ترکیب دو روش انتخاب ویژگی مجموعه راف و مجموعه فازی راف با الگوریتم بیزین به تشخیص بیماری هپاتیت پرداختهاند

علاوه بر مراجع فوق، یکی از روشهایی که در سالهای اخیر به علت ناقص و غیرقطعیبودن مجموعه دادههای پزشکی، در مرحله انتخاب ویژگی الگوریتمهای تشخیصی، مورد استفاده قرارگرفته است، تئوری مجموعه رافٌَ و تئوری مجموعه فازی رافٌُ میباشد.

در سال 2013 از روش مجموعه راف برای کاهش تعداد ویژگیهای مجموعه داده هپاتیت و یادگیری ماشین قوی - ELM - ٌِ به عنوان دستهبند استفاده شده است

در سال 2014، شریماتیٌّ و همکاران برای تشخیص هپاتیت، روش ترکیبی مجموعه راف - RS - ٌْ و مجموعه قوانین انفصال - DRS - ٌَ را به کار بردند

در سال 2015 روش RS-BPNN به عنوان ترکیب روش مجموعه راف و شبکه عصبی پسانتشارٌُ مورد استفاده قرار گرفت

روش پژوهش

روش پیشنهادی انجام شده در این مقاله شامل 3 مرحله کلی پیشپردازش، انتخاب ویژگی، دستهبندی و در پایان ارزیابی میباشد. روش پیشنهادی جهت انتخاب ویژگی بهمنظور تشخیص اتوماتیک بیماری هپاتیت ارائه شده است. شکل 1 ساختار کلی روش پیشنهادی را نشان می دهد. مجموعه داده مورد استفاده در این روش در جدول 2 نشان داده شده است.

تئوری مجموعه راف

تئوری مجموعه راف در اوایل سال 1980 میلادی توسط پروفسور پاولاک پایهگذاری شد. این یک روش ریاضی برای مقاصد مختلف مانند انتخاب ویژگی، استخراج ویژگی و استخراج قوانین تصمیمگیری در دادهها به خصوص در مورد دادههای غیرقطعی و ناقص استفاده میشود. هدف این تئوری کاهش افزونگی دادهها به وسیله کم کردن تعداد ویژگیها در یک مجموعه داده است، به طوری که معنای دادهها پس از کاهش ویژگیها حفظ شود و هنوز امکان تفکیک آنها اغلب سادهتر از حالت بدون کاهش با دقت بالا میسر باشد

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید