بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

کاربرد داد ه کاوی در تشخیص و درمان بیماری های قلبی: مقاله مروری
خلاصه
بیماری قلبی یکی از بیماری های شایع در جهان می باشد. از سوی دیگر تشخیص بیماری قلبی کاری بسیار پیچیده در علم پزشکی محسوب می شود. صنعت پزشکی با حجم بسیار بالایی از داده روبروست که این حجم داده باعث می شود به ابزارهای آنالیز داده ای قوی نیاز داشته باشیم تا اطلاعات مفید را از آنها استخراج کنیم. تشخیص بیماری قلبی یکی از حوزه هایی است که در آن ابزارهای داده کاوی نتایج موفقیت آمیزی را ثبت کرده اند. تعدادی از محققان از ابزارهای داده کاوی و آماری استفاده می کنند تا به متخصصان در این امر یاری رسانند. بهره گیری از یک تکنیک داده کاوی در تشخیص بیماری قلبی به صورت جامعی بررسی شده است که سطح قابل قبولی از دقت را نشان می دهداخیراً. محققان در حال بررسی اثرات ترکیب بیش از یک تکنیک می باشند تا کیفیت نتایج را برای تشخیص بیماری های قلبی ارتقاء دهند. اما به استفاده از تکنیک های داده کاوی در یافتن درمان مناسب برای بیماران قلبی توجه کمتری شده است.در مقاله حاضر نگاهی خواهیم داشت به شکاف های میان پژوهش هایی که در زمینه تشخیص و درمان بیماری قلبی صورت گرفته اند.
واژه های کلیدی: داده کاوی ، تکنیک های داده کاوی ، تشخیص و درمان بیماری قلبی
.1 مقدمه
داده کاوی کاوش در مجموعه داده های بزرگ است تا الگوها، روابط و دانش مجهولی که نمایان ساختن آنها با روش های آماری قدیمی مشکل است را استخراج کند.[1] داده کاوی پزشکی دارای پتانسیل زیادی برای کشف الگوهای پنهان موجود در داده ها است که این الگوها می توانند در تولید مدل های پیش بینی کننده در علوم پزشکی مورد استفاده قرار گیرند. لذا امروزه استفاده از روش های متنوع داده کاوی برای تشخیص های بالینی از طرف محققان بسیار مورد توجه قرار گرفته است. تا کنون آنها از داده کاوی برای تشخیص بیماری های مختلفی همچون دیابت ، سرطان ، سکته مغزی و بیماری قلبی استفاده کرده اند که به موفقیت های چشم گیری هم دست یافته اند.
سازمان جهانی بهداشت و سلامت در سال 2007 اعلام کرد [4] بیماری قلبی یکی از علل اصلی مرگ و میر در یک دهه اخیر می باشد . کمسیون اقتصادی و اجتماعی آسیا و اقیانوسیه گزارش داده اند که در یک پنجم کشورهای آسیایی اکثریت مردم بخاطر بیماری های غیر مسری از جمله بیماری های قلبی و عروقی ، سرطان ها ، دیابت و بیماری افراد بالاتر از 35 سال است.
این افزایش سالانه مرگ و میر بیماران قلبی در سراسر جهان و در دست داشتن حجم بالایی از داده های مربوط به بیماران که می توان از آنها دانش مفیدی استخراج کرد، محققان را ترغیب کرده تا با استفاده از تکنیک های داده کاوی به پزشکان متخصص در تشخیص این بیماری یاری رسانند. ایجاد یک ابزار که در سیستم مدیریتی بیمارستان ها جای گیرد و به متخصصان در امر تشخیص و درمان مناسب بیماران قلبی مشاوره دهد می تواند بسیار مؤثر باشد ، زیرا متخصصان علاوه بر تخصص و تجربه خود می توانند از آنالیز داده هایی که از ثبت سوابق بیماران گذشته بدست آمده هم بهره کافی را برده و از اشتباهات پزشکی بکاهند. در نتیجه عملکرد پزشکان متخصص ارتقاء پیدا کرده و امنیت بیماران بالا می رود. با وجود اینکه بکاربردن داده کاوی در تشخیص و درمان بیماری بسیار مثمرثمر می باشد ، تحقیقات کمی در زمینه یافتن طرح های درمانی برای بیماران و به خصوص بیماران قلبی صورت گرفته است . اگر بتوان در یافتن درمان مناسب هم به پزشکان یاری رساند آنگاه متخصصان می توانند کیفیت خدمات را بهبود بخشند ؛ درنتیجه نه تنها از اشتباهات غیرعمدی پزشکان که گاه منجر به مرگ بیماران می شود کاسته بلکه از هزینه های زیادی که بیماران متحمل می شوند نیز جلوگیری میکند.
در این مقاله مروری خواهیم داشت بر برخی از تکنیک هایی که اخیراً در تشخیص و درمان بیماری قلبی استفاده شده اند و توانسته اند در این زمینه به موفقیت هایی دست پیدا کنند. این تحقیق شامل بخش های زیر می شود : در بخش 2 تعریف بیماری قلبی و در بخش 3 تکنیک های داده کاوی که در این مقاله مورد ارزیابی قرار خواهند گرفت را خواهیم داشت؛ در بخش 4 تکنیک های داده کاوی که در تشخیص بیماری قلبی بکار رفته اند آمده است که خود شامل سه زیر بخش است : توصیفی از مجموعه داده ای که در تمامی این تکنیک ها مورد آزمایش قرار گرفته ، و در ادامه تقسیم بندی این تکنیک ها به صورت ساده و مرکب آورده شده است ؛ در بخش 5 تکنیک داده کاوی که در درمان مناسب برای بیماران قلبی استفاده شده است ، بیان می شود و در بخش پایانی بحث و نتیجه گیری از مباحث بیان شده ، خواهد آمد.

.2 بیماری قلبی
بیماری قلبی به هر اختلالی که عملکرد نرمال قلب را تحت تأثیر قرار دهد اطلاق می شود. باریک شدن یا انسداد رگ های کرونری که مسئول خونرسانی به خود قلب هستند، رایجترین علت بیماری قلبی شناخته می شود.[25]پیدایش لخته درون رگ های کرونر سبب می شود که خون رسانی به سلول های عضله قلب کاهش یابد. در نتیجه کمبود اکسیژن و مواد غذایی و انباشت مواد زائد در عضله قلب، دردی پدید می آید که به " درد قلبی " یا "آنژین صدری" معروف است.
در تعیین عوامل مؤثر در ابتلا به بیماری های قلبی- عروقی بررسی های زیادی انجام گرفته و عوامل متعددی در آنها ذکر شده است. آنالیزهای آماری ، فاکتورهای تهدیدکننده* مربوط به بیماری قلبی را از جمله این موارد مشخص کرده اند: سن ، فشارخون ، کلسترول و مصرف سیگار [6] ، دیابت [7] ، سابقه خانوادگی[8 ]، چاقی و نداشتن فعالیت فیزیکی . [9 ] دانستن فاکتورهای تهدید کننده به متخصصان کمک می کند تا بیمارانی که در معرض خطر بیشتری قرار دارند را شناسایی کنند. متخصصان قلب مقدار قابل توجهی داده مربوط به بیماری ها و ارتباط آنها با یکدیگر و عوامل ایجادکننده بیماریها را بدست می آورند. اما این مجموعه داده های خام به خودی خود ارزشی ندارند، برای معنا بخشیدن به این داده ها باید آنها را تحلیل و تبدیل به اطلاعات یا بهتر از آنها دانش کرد که داده کاوی یک ابزار مؤثر برای این مهم می باشد .
.3 روش ها
تکنیک های داده کاوی مختلفی به منظور استخراج دانش از عوامل خطری که باعث بیماری قلبی می شوند، استفاده شده اند . ما در این مقاله سعی کردیم چند تکنیک داده کاوی که در چند سال اخیر بیشتر مورد استقبال قرار گرفته اند را از دیدگاه های مختلف مورد بررسی قرار دهیم. تکنیک هایی که در اینجا مطرح خواهند شد شامل درخت تصمیم گیری C4.5 ، J4.8 ،C5 ، بیز ساده ، الگوریتم بگینگ * ، شبکه های عصبی ensemble و سیستم تشخیص ایمنی مصنوعی فازی (AIRS)همراه با -k نزدیکترین همسایه می شوند.
این تکنیک های مطرح شده بر اساس نوع خروجی هایشان به دو دسته کلی تقسیم خواهند شد :
تکنیک هایی که خروجی آنها تشخیص بیماری قلبی است.
تکنیک هایی که خروجی آنها درمان بیماری قلبی است .
سپس با توجه به اینکه تکنیک ها هم به صورت منفرد و هم به صورت ترکیبی برای تشخیص بیماری قلبی (دسته اول) مورد استفاده قرار گرفته اند ، آنها را هم از این نظر مورد مطالعه قرار داده و به دو دسته تقسیم خواهیم کرد : ساده یا مرکب . در بخش 4 و 5 به بررسی و تحلیل بیشتر این دسته بندی ها می پردازیم.
تکنیک های داده کاوی برای تشخیص بیماری قلبی
همانطور که در بخش قبل بیان شد محققان از تکنیک های داده کاوی متفاوتی استفاده کرده اند تا بتوانند بیماری قلبی را پیش بینی کنند. برخی از محققان روش های داده کاوی را به صورت مجزا بررسی کرده و برخی این روش ها را با هم ترکیب و سپس مورد بررسی قرار داده اند. بنابراین در این بخش تکنیک هایی که در بخش 3 نام برده شدند را به دو دسته ساده و مرکب تقسیم کرده و مورد مقایسه قرار می دهیم.
در این مقاله اساس مقایسه بر مبنای دقت محاسبه شده برای این تکنیک ها می باشد. دقت یکی از معیارهای ارزیابی عملکرد تکنیک های مختلفی است که برای تشخیص بیماری قلبی استفاده شده اند ، که از رابطه زیر محاسبه می شود:



: TP (True Positive) تعداد نمونه هایی که سیستم به درستی آنها را به عنوان بیمار شناسایی می کند. : TN (True Negative) تعداد نمونه هایی که سیستم به درستی آنها را به عنوان سالم شناسایی می کند. :FP (False Positive) تعداد نمونه های سالمی که سیستم به غلط آنها را به عنوان بیمار شناسایی می کند. :FN (False Negative) تعداد نمونه های بیماری که سیستم به غلط آنها را به عنوان سالم شناسایی می کند.
قبل از آن که به بررسی دو دسته ساده و مرکب بپردازیم ، لازم است مجموعه داده ای که در این تکنیک ها مورد آزمایش قرار گرفته شده اند را توصیف کنیم .

. 1.4 توصیف مجموعه داده معیار *
به طور کلی روش ها و الگوریتم هایی که برای پیش بینی بیماری قلبی مورد ارزیابی قرار گرفته اند بر روی مجموعه داده های متفاوت اعمال شده اند . نتایج این تکنیک ها را نمی توان با هم مقایسه کرد زیرا بر روی مجموعه داده های متفاوت اعمال شده و تحت شرایط متفاوتی مورد آزمایش قرار گرفته اند. لذا در طول زمان یک معیار استاندارد واقعی از مجموعه داده ها به وجود آمده است که تحت عنوان Cleveland Heart Disease Dataset (CHDD) در دسترس است [10] که یکی از مجموعه داده های مخزن داده UCI دانشگاه کالیفرنیا می باشد.این مجموعه داده معیار برای این است که بتوان نتایج تکنیک ها را با یکدیگر مقایسه کرد . به همین منظور ، تمامی این تکنیک هایی که در این تحقیق نام برده شده اند هم از مجموعه داده ی معیار استفاده کرده اند تا عملکرد تکنیک ها هر چه بهتر مورد ارزیابی قرار گیرند.
این مجموعه داده 76 صفت خاصه ی خام دارد. اما ، تمام تحقیقاتی که بر روی این داده صورت گرفته است تنها به 14 صفت خاصه آن اشاره کرده اند. محققان 13 صفت را به عنوان ورودی و 1صفت را به عنوان نتیجه خروجی در نظر گرفته اند. در جدول 1 ، این 14 صفت خاصه مجموعه داده بیماری قلبی Cleveland نشان داده شده است . این مجموعه دارای 303 نمونه می باشد که 297 نمونه کامل و6 ردیف آن دارای مقادیر نامشخص می باشند.
محققان تکنیک های داده کاوی را بر روی مجموعه داده ی معیار اعمال می کنند تا روند و ارتباط بین متغییرهای مختلف مانند فشارخون ، کلسترول و آنژین ناپایدار را کشف کنند.

.2.4 تکنیک های داده کاوی ساده برای تشخیص بیماری قلبی
در این بخش می خواهیم تکنیک هایی که به صورت مجزا برای پیش بینی افراد مبتلا به بیماری قلبی بکار گرفته شده اند را با هم مقایسه کنیم .
الف ) درخت تصمیم گیری
درخت تصمیم گیری یکی از پر استفاده ترین الگوریتم های داده کاوی برای تشخیص بیماری قلبی است. درخت تصمیم گیری یک الگوریتم یادگیری استنتاج بر اساس داده ی آموزشی است که برای دسته بندی و پیش بینی استفاده می شود. پیش بینی به دست آمده از درخت در قالب یک سری قواعد توضیح داده می شود. از جمله این درخت های تصمیم گیری شامل C4.5 و J4.8 می باشند که بر اساس Gain Ratio قوانین درخت تصمیم گیری را استخراج می کنند.
درخت تصمیم C4.5 یک سری قوانین به فرم " اگر A ، B ، C و ... آنگاه کلاس "X بوجود می آورد ، در جایی که قوانین مربوط به هر کلاس گرد هم آمده اند. [11 ] یک نمونه با پیدا کردن اولین قانونی که شرایطش نمونه مورد نظر را ارضاء کند، کلاس بندی می شود ؛ اگر هیچ قانونی واجد شرایط نبود نمونه به کلاس پیش فرض اختصاص داده می شود.

درخت تصمیم J4.8 از Gain Ratio به عنوان معیار انتخاب یک صفت خاصه برای انتخاب یک درخت استفاده می کند. [12 ] این الگوریتم ابتدا Gain Ratio هر صفت خاصه را انتخاب می کند. نود ریشه آن متغیری خواهد بود که Gain Ratio آن ماکزیمم است. J4.8 از هرس بدبینانه* برای از بین بردن شاخه های اضافی در درخت تصمیم گیری استفاده می کند تا دقت کلاس بندی را بالا ببرد.
Cheung در سال [13] 2001 برای تشخیص بیماری قلبی الگوریتم C4.5 را بر روی داده های معیار اجرا کرد که دقت بدست آمده برابر %81.11 است.
Tu وهمکارانش در سال 2009 با استفاده از ابزار وکا ، الگوریتم J4.8) J4.8 پیاده سازی جاوا از C4.5 نسخه 8 است) با [15] 10-cross-validation را برای پیش بینی بیماری قلبی کرونری اجرا کرد. [14 ] دقتی که آنها پس از اجرای این الگوریتم بدست آوردند برابر با %78.9 است.
ب) بیز ساده
بیز ساده یکی از تکنیک های داده کاوی است که در کلاس بندی تشخیص بیماران قلبی موفقیت آمیز عمل کرده است 13]، . [11 الگوریتم بیز ساده هم برای ساخته شدن و هم برای تفسیر کردن بسیار ساده است. بیز ساده بر اساس تئوری احتمال می باشد تا کلاسی را که احتمالش بیشتر است را بیابد. کلاس بندی در این الگوریتم مبتنی بر قانون احتمال شرطی است. این الگوریتم تمام صفات خاصه که در مجموعه داده آورده شده را استفاده کرده و آنها را به طور جداگانه آنالیز می کند.
Cheung در سال [13] 2001در کار خود علاوه بر بررسی عملکرد C4.5 که در بالا به آن اشاره شد ، بیز ساده را هم بر روی داده های معیار مورد آزمایش قرار داد. این بار دقتی که او مشاهده کرد %81.48 بود که اختلاف کمی نسبت به دقت روش C4.5 دارد.
در سال Srinvas 2010 و همکارانش [ 11 ] با اجرای بیز ساده دقت پیش بینی بیماری قلبی را به %84.14 رساند. او برای گام پیش پردازش [16] JNCC2 را بکار برد. JNCC2 تمام متغیرهای عددی را با استفاده از الگوریتم گسسته سازی نظاراتی Fayyad و (1993 ) Irani گسسته سازی می کند. گسسته سازی [26] تقسیم کردن مقادیر یک صفت خاصه عددی (پیوسته) به تعدادکمی فاصله می باشد ، جایی که هر فاصله به یک سمبل گسسته نگاشت می شود.
به وضوح مشخص است که از میان 3 الگوریتم مطرح شده که به صورت ساده برای تشخیص بیماری قلبی بکار رفته اند بالاترین دقت متعلق به بیز ساده است که Srinvas و همکارانش به آن دست یافته اند.


.3.4 تکنیک های داده کاوی مرکب برای تشخیص بیماری قلبی
الف ) الگوریتم بگینگ
بگینگ به معنای اجتماع [17] Bootstrap یک روش گروهی برای طبقه بندی داده می باشد که دارای دقت مطلوبی هم هست . همان طور که در شکل 1دیده می شود ، در این روش درختان تصمیم با ساختن کلاس بندی کنندگان پایه c1،c2 ،...،cn به ترتیب بر روی نمونه های D1 ، D2،…،Dn با جایگزینی از مجموعه داده D ، استنتاج می شوند. سپس مدل نهایی یا درخت تصمیم به عنوان یک ترکیب از تمام کلاس بندی کنندگان c1،c2 ،...،cn توسط رأی اکثریت بدست می آید.

Tu وهمکارانش در سال 2009 از الگوریتم بگینگ هم برای مقایسه با درخت تصمیم J4.8 استفاده نمودند.[14] آنها آزمایشات خود را بوسیله ی ابزار وکا، ورژن 6 انجام دادند. آنها الگوریتم بگینگ را با درخت تصمیم J4.8 و یک گزینه که خطای هرس کردن درخت را کاهش می دهد ، بر روی داده های معیار اجرا کردند .دقتی که برای این الگوریتم محاسبه شد %81.41 بوده که بیشتر از دقت محاسبه شده برای درخت تصمیم گیری است که به صورت ساده بکار رفته است.
ب) شبکه های عصبی ensemble
شبکه های عصبی از گره ها تشکیل شده اند.این گره ها توسط اتصال هایی جدا از آکسون ها به هم متصل می باشند. هر اتصال دارای یک فشار است که قدرت سیگنال را مشخص می کند. هر گره دارای یک تابع عملکرد غیرخطی است. خروجی گره به صورت یک تابع توزیع شده ، جمع ورودی ها را مدیریت می نماید. با کشف روابط پیچیده ی غیر خطی درون داده ها [18]، شبکه های عصبی می توانند پیش بینی هایی در مورد مشکلات دنیای واقعی انجام دهند.
Das و همکارانش در سال 2009 برای پیش بینی بیماری قلبی یک روش کارآمد پشنهاد کردند .[19] سیستم

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید