بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

تشخیص بیماری قلبی با استفاده از الگوریتم داده کاوی

چکیده:

علت اصلی میزان ابتلا به بیماری و مرگ و میر در جامعه مدرن می باشد بیماری قلبی است. تشخیص پزشکی بسیار مهم است اما کاری پیچیده که باید با دقت و موثر است. اگرچه پیشرفت قابل توجهی در تشخیص و درمان بیماری های قلبی حاصل شده است اما تحقیقات باید به بالاترین صحت خود برسد. دسترسی به مقدار زیادی از داده های پزشکی منجر به نیاز ابزارهای قدرتمند برای تحلیل داده ها برای استخراج دانش مفیدی است. داده کاوی یک کار از ابزارهای تحلیل موثر برای کشف روابط پنهان و گرایشات در داده است. داده کاوی جهت کشف دانش در حوزه های علمی و تجاری و حوزه های متعدد میباشد .تشخیص بیماری یکی از کاربردهای ابزارهای داده کاوی است که نتایج موفق به اثبات رسانده اند. این مقاله به بیماری های قلبی از طریق داده کاوی, الگوریتم C&R ,الگوریتم K نزدیک ترین همسایه, الگوریتم حرکت جمعی ذرات((pso و بهبود الگوریتم k نزدیکترین همسایه توسط الگوریتم pso پرداخته شده است.در این مطالعه, ما به طور پیشرفته تاثیر این الگوریتمها را برای بیماری قلبی مشاهده میکنیم. بنابراین مشاهده می کنیم که, استخراج داده می تواند در شناسایی یا پیش بینی بالا یا پایین ریسک بیماری های قلبی است.

کلمات کلیدی: بیماری های قلبی, داده کاوی, الگوریتم C&R ,الگوریتم K نزدیک ترین همسایه, الگوریتم حرکت جمعی ذرات((pso


بررسی داده کاوی

داده کاوی عبارت است ازاقتباس یا استخراج دانش ازمجموعه ای بسیارحجیم ازداده ها،به بیان دیگر،داده کاوی فرایندی است که بااستفاده ازتکنیکهای هوشمند،دانش را ازمجموعه ای ازداده ها استخراج میکندکه تحلیل های ساده آماری قادربه انجام آن نیستند ؟داده کاوی ازالگوریتم های بسیارپیچیده ریاضی جهت تقسیم بندی دادهها و پیشگویی رویدادها استفاده می کند .[4]

بیشترافرادی که علم داده کاوی رامورد استفاده قرارمی دهندافراد متخصصی دریک زمینه خاص علمی ”پزشک،رادیولوژیست،مدیرفروش،تاجر “بوده و نه تنها به داده های خاص خود دسترسی دارند بلکه به جمع آوری آن نیز اقدام می ورزند.هدف این افراد این است که نه تنها ترجیح میدهند داده های خود را بهتر بشناسند بلکه مایلند دانش جدیدی را در رابطه با زمینه فعالیت خودکشف نمایند؟ مقصودصاحبان داده،حل مسائل ومشکلات با استفاده ازراههای جدید و درصورت امکان بهترمی باشد [5]؟

درعلم پزشکی کشف و تشخیص به موقع بیماریها میتواند از ابتلا به بسیاری از بیماریهای مهلک نظیرسرطان جلوگیری نموده وباعث نجات زندگی مردم گردد ؟ باپیشرفت های بیولوژیکی امروزه و توسعه تکنولوژی واستفاده ازفناوری های روزوتجهیزات مدرن پزشکی،متخصصین قادرندتا اطلاعات دقیق تری را درمورد بیماران جمع آوری کنندکه تحلیل آنها به دلیل حجم بالای اطلاعات و متعدد بودن موارد،مشکل می باشد و نیازبه فناوری جدیدتری می باشدکه تکنولوژیهای داده کاوی به کمک الگوریتم های قدرتمند خود به این مهم دست یافته است ؟هدف از روشهایپیشگوییِ داده کاوی در پزشکی بالینی ساخت یک مدل پیش گوی انهاست که به پزشکان کمک می کند تاروشهای پیشگیری،تشخیص و برنامه های درمانی خودرا بهبود بخشند[6]؟

در ابتدای قرن بیستم میلادی %10 کل مرگ و میرها به علت بیماریهای قلبی بود .[1] بیماری های قلبی علت اصلی مرگ و میر در طول 10 سال گذشته است-7] .[9 سازمان بهداشت جهانی برآورد کرده است که هر ساله 12 میلیون نفر در سراسر جهان جان خود را بر اثر بیماری قلبی از دست می دهند. [10 ] بر اساس آماراعلام شده ازطرف سازمان بهداشت جهانی درسال 2005، بیماریهای قلبی وعروقی 17/5 میلیون نفرقربانی داشته است که %30 کل مرگ و میرهای دنیا را شامل می شود وپیش بینی میشود این رقم تا سال 2030 به 23 میلیون نفر افزایش می یابد. بررسی های انجام شده درایران نشان میدهدکه %38 ازکل مرگ ومیرها مربوط به بیماریهای قلبی است و طبق بررسی های صورت گرفته سهم مرگ و میردراستان کرمانشاه بیش از %40 می باشد که این آمار درسال 90 به 4500 نفررسیده است .[11]

تشخیص بیماری های قلبی یک کار قابل توجه و خسته کننده در علم پزشکی می باشد و وظیفه مهم، اما کار پیچیده ای است که باید با دقت و کارآمدی انجام گیرد. با این حال ابزارهایی برای تجزیه و تحلیل استخراج داده ها وجود دارد که در دسترس بودن این مجموعه عظیم از داده های پزشکی منجر به تجزیه و تحلیل درستی در این زمینه گردیده است. با استفاده از اطلاعات پزشکی از قبیل سن، جنس، فشار خون و قند خون می توان احتمال پیش بینی بیماری های قلبی را بیشتر کرد. این داده ها باید به صورت سازمان یافته جمع آوری شوند، که این اطلاعات جمع آوری شده را می توان برای یکپارچه سازی سیستم پیشگیری به کار برد ,10 ,8]
.[12

در کشورهای مختلف از جمله هند و آمریکا و چندین کشور اروپایی با استفاده از تکنیکهای داده کاوی توانسته اند تا حدودی این بیماری خطرناک را پیش بینی کنند. در ایران نیز تلاش های بسیاری در این زمینه صورت گرفته است بیمارستانهای قلب شهر کرمانشاه، مرکز درمان بیماریهای قلبی در غرب کشور می باشد. لذا تحقیق حاضر انجام مطالعات میدانی در پی کمک به تشخیص بهتر این بیماری در این شهر می باشد.

فرایند کشف دانش از پایگاه داده شامل پنج مرحله است که عبارتند از:

-1 درک قلمرو یا بیان مسئله و فرموله کردن فرضیه

-2 انتخاب و جمع آوری داده ها

-3 تبدیل داده ها

-4 کاوش در داده ها

5 تفسیر نتیجه یا تفسیر مدل و رسیدن به نتایج

کارهای مرتبط:

در مقاله [10] نویسنده با استفاده از الگوریتم های مختلف و ترکیب ویژگی های مختلف به پیش بینی حمله قلبی هوشمند و موثر با استفاده از داده کاوی پرداخته است. برای پیش بینی حمله قلبی، به طور قابل توجهی 15 ویژگی ذکر شده است. در نتیجه استفاده از تکنیک های داده کاوی و پیش بینی در همان مجموعه داده نشان می دهد که درخت تصمیم گیری بهتر از سایر روش ها عمل می کند.

تحقیق بر روی 313 داده در دو کلاس طبیعی و بیماران قلبی انجام شد.[13] جهت شناسایی و پیشگویی حملات قلبی از روش های خوشه بندی داده کاوی استفاده گردید. خوشه بندی یکی از اصلی ترین اعمال داده کاوی است که هدف آن گروه بندی داده ها به کلاسهای معنی دار (خوشه ها) می باشد. به نحوی که شباهت بین داده های یک خوشه بیشترین و شباهت بین داده های دو خوشه مجزا کمترین باشد. در این تحقیق با توجه به وجود داده های بیماران قلبی که در بسیاری از موارد ویژگی های آنها شامل اعداد مرکب یا طبقه بندی شده است، از ترکیب الگوریتم های ژنتیک و k-means استفاده گردید که نتایج خوبی را جهت شناسایی بهتر خوشه ها و در نتیجه تشخیص و پیشگویی حملات قلبی داشته است.

داده های مورد استفاده در مقال بعدی [2] توسط مرکز تحقیقات قلب و عروق اصفهان در طرحی که 1800 نفر با روش نمونه گیری مورد پرسش و آزمایش قرار گرفته اند جمع آوری شده است. به این ترتیب مجموعه داده ایی شامل 1800 رکورد موجودمی باشد که هر رکورد متعلق به یک نفر می باشد. این داده ها شامل متغیرهایی است که از پرسش نامه هایی که توسط افراد شرکت کننده در طرح تکمیل شده اند و همچنین نتایج آزمایشاتی که روی این افراد انجام شده است بدست آمده اند. این پرسشنامه ها شامل موارد متفاوتی نظیر مشخصات عمومی، تغذیه، فعالیت بدنی، استعمال دخانیات و شرح حال افراد می باشد. روش دسته بندی با درخت تصمیم گیری با وجود سادگی، نتایجی با دقت قابل قبول در داده کاوی داده های جمع آوری شده در رابطه با قلب ارائه داد. وجود داده های مناسب، پیش پردازش مناسب و اعمال روش داده کاوی مناسب نتایج خوبی را در مورد داده های پزشکی ارائه می دهد. با انتخاب LDL به عنوان متغیر هدف و 27 متغیر پیشگو از انواع مختلف خونی، چربی، چاقی، تغذیه ای و . . . مشاهده گردید که متغیرهای سطح کلسترول سن،شاخص توده بدن، آپولیپو پروتئین بی، سطح تری گلیسیرید، آپولیپو پروتئین بی آ، آپو لیپو پروتئین آ و میزان مصرف دخانیات می باشند. بنابراین توجه به این عوامل می تواند باعث کاهش LDL که یکی از عوامل اصلی خطر زا در بیماری قلب و عروق است باشد.

در مقاله [14] برای پیش بینی از تکنیک ساده بیزین استفاده شده است که زبان پردازش آن نسبت به تکنیک های درخت تصمیم و شبکه عصبی بیش از حد پایین است. نویسنده به این نتیجه رسیده است که دقت بدست آمده در روش شبکه های عصبی بهتر از سایر روش ها بوده است.

در مقاله [15] تکنیک های طبقه بندی داده کاوی یعنی RIPPER، درخت تصمیم، شبکه های عصبی مصنوعی و ماشین بردار پشتیبانی برای پیش بینی بیماریهای قلبی عروقی استفاده شده است. عوامل مورد استفاده برای مقایسه این تکنیک حساسیت، دقت و صحت، ویژگی و میزان خطا می باشد. این مدل با استفاده از ابزار داده کاوی weka نسخه 3/6، توسعه داده شده است. در آن 14 ویژگی و 313 نمونه وجود دارد و در نهایت نتایج بدست آمده با هم مقایسه شده است. نرخ خطا برای RIPPER، شبکه های عصبی مصنوعی، ماشین بردار پشتیبانی و درخت تصمیم گیری 0/2756، 0/2248، 0/1588،0/2755 بوده است. دقت RIPPER، شبکه های عصبی مصنوعی، ماشین بردار پشتیبانی و درخت تصمیم گیری، 84/08 %، 84/06 %،% 84/12 و % 79/05 بود. نویسنده به این نتیجه رسید که ماشین بردار پشتیبانی بهترین روش برای پیش بیی بیماریهای قلبی عروقی است.


فرآیند روش پیشنهادی:

روند انجام پروژه برطبق متدولوژی داده کاوی CRISP-DM می باشد .

طبق این مدل گام های اصلی در فرآیند داده کاوی جهت کشف دانش عبارتند از:

· درک فضای کسب و کار

· درک داده ها

· آماده سازی داده ها برای مدل سازی

· مدل سازی

· ارزیابی مدل

· استفاده عملی از دانش کشف شده

پس طبق این متولوزی که برروی مجموعه داده ها اعمال می شود در ابتدا پالایش و تصحیح و یک دست کردن دادهها صورت می گیرد .پاکسازی و فیلتر کردن داده ها ممکن است برای جلوگیری از ایجاد قوانین و الگوهای فریبنده یا نامناسب انجام شود.در این پروژه، مجموعه داده بیماری های قلبی با حذف رکوردهای تکراری و تهیه مقادیر مفقود پاکسازی شده و علاوه بر آن نیز به شکل مناسب برای خوشه بندی تبدیل شده است.[2]

سپس با استفاده از feature selection برای شناسایی ویژگی های مهم در پیش بینی یک نتیجه خاص استفاده می شود.با استفاده از مدل C&R tree این اجازه را می دهد که ملاحظات آینده را پیشگویی و دسته بندی کنیم و سپس با استفاده از الگوریتم های خوشه بندی با استفاده از الگوریتم kنزدیکترین همسایه دادهها خوشه بندی میشوند . سپس با استفاده از الگوریتم بهینه سازی حرکت ذرات (pso) میتوانیم به بهینه سازی الگوریتم kنزدیکترین همسایه پرداخته و با استفاده از ارزیابی نتایج آنها به یک نتیجه قابل استفاده در مراکز پزشکی دست میابیم.


پایگاه داده:

پایگاه داده ای که در این تحقیق مورد استفاده قرار گرفته شامل مجموعه ای از داده های بیماران قلب بیمارستان امام علی (ع) کرمانشاه می باشد. این پایگاه شامل 396 رکورد می باشد که بعد از آمادهسازی وپاکسازی در نرم افزارSql Server تمام رکوردها مفید تشخیص داده شد و هیچ رکوردی حذف نگردید. پایگاه شامل 12 فیلد می باشد که با استفاده از آن ها و با کمک مدل های پیش بینی موجود به پیش بینی این که آیا این افراد ممکن است به بیماری قلبی مبتلا شوند یا خیر می پردازیم.

پارامترهایی که در این پایگاه وجود دارند به دو دسته ورودی و خروجی تقسیم می شوند که از میان آن ها پارامتر Disease heart خروجی و سایر پارامترها، پارامترهای ورودی می باشند.

پارامترهای ورودی عبارتند از:


در جدول 1 هر یک از ویژگی هایی که در پیش بینی ابتلا به بیماری های قلبی و عروقی به کار گرفته شده اند با معادل فارسی آن آورده شده است

جدول-1 ویژگی های مورد بررسی در مدل ها

نرمال سازی:

نرمال سازی تغییر مقیاس داده ها به گونه ای است که آن ها را به یک دامنه کوچک و معین مانند فاصله بین -1 تا 1 نگاشت کند. نرمال سازی باعث می شود که داده های با مقیاس بزرگ نتیجه را به سمت خویش منحرف نکنند. در این تحقیق از نرمال سازی Min Max استفاده شده است.

این روش یک تبدیل خطی بر رویدادههای اصلی انجام میدهد. فرض کنیدکهmina و maxa به ترتیب حداقل و حداکثر مقادیر یک ویژگی باشند. یک نرمالسازی min-max یک مقدارv از A درفاصله[new min a,new maxa ] نگاشت میکندکه:

نرمالسازی min-max رابطه بین مقادیراصلی راحفظ میکند.


شکل -1 اعمال نرمالسازی min-max

مدل :feature selection

تکنیکFeature Selection تکنیکی است که جهت کاهش تعداد ویژگیها قبل از اعمال الگوریتم دادهکاوی استفاده میشود.[3] در داده کاوی، برخی از ویژگی های موجود در پایگاه اهمیت زیادی داشته و نقش تعین کننده ای را در انجام پیش بینی ایفا می کنند اما برخی دیگر ممکن است اهمیت چندانی نداشته باشند یا اصلا بی ربط باشند ، پس باید این فیلدها از پایگاه داده حذف شوند تا عمل داده کاوی با تمرکز بر فیلدهای تعیین کننده با موفقیت و دقت هرچه بیشتر انجام شود. این عمل را تکنیک Feature Selection می نامند. این تکنیک درصد اهمیت فیلدها را مشخص کرده و با استفاده از این درصد اهمیت می توان تشخیص داد که فیلد مورد نظر لازم است که در عمل داده کاوی شرکت داده شود یا خیر.

شکل -2 اجرای مدل Feature Selection


درخت های تصمیم گیری:

در روش دسته بندی برای انتخاب نوع دسته بند گزینه هایی وجود داردکه یکی از مهم ترین و در عین حال ساده ترین آن ها در خت تصمیم گیری است.[17] درخت تصمیم گیری درختی فلوچارت مانند است که هر نود داخلی (نود غیر برگ) در آن یک تست روی صفت را مشخص می کند. هر شاخه یک خروجی از تست را نمایش می دهد و هر نود برگ (نود انتهایی) یک برچسب کلاس را دارد.

اگر فرض شود یک تاپل داده Xفاقد دسته (کلاس) باشد، مقادیر صفات در گره های درخت تست می شوند و یک مسیر از ریشه درخت تصمیم گیری تا رسیدن به یک نود برگ طی می شود تا دسته و برچسب تاپل را مشخص کند.

استفاده از درخت های تصمیم گیری به علت سادگی و سرعت آن ها چه در ساخت و چه در دسته بندی متداول است. به طور کلی درخت های تصمیم گیری دقت خوبی دارند اگر چه استفاده موفق، به داده مورد استفاده وابسته است. رویکرد ساخت درخت های تصمیم گیری عموما به صورت تقسیم و حل بازگشتی بالا به پایین است و در آن تلاش می شود فضای متغیر ورودی به بیشترین خلوص در نودهای انتهایی تبدیل شود.

تعدادی از الگوریتم های مختلف که می توانند برای ساخت درخت های تصمیم به کار روند عبارتند از: . C5.0 , Cart , Quest , Chaid

الگوریتم C&R

الگوریتم Cart یک روش رده بندی و پیش بینی مبتنی بر درخت است. نخستین بار توسط اولشن، فریدمن، برمیمان و استون [16] در سال 1998 برای رده بندی طراحی شد و در هر مرحله رکوردهای آموزشی را به دو زیر مجموعه تقسیم می کند به طوری که رکوردهای هر زیر مجموعه نسبت به زیر مجموعه های قبلی همگن تر باشد. و این روند ادامه می یابد تا زمانی که یکی از معیارهای توقف برآورده شود.

در الگوریتم Cart بهترین نقطه شکست با تعیین مقدار پارامتر Impurity تعیین می شود. مفهوم Impurity در این جا میزان شباهت مقدار فیلد هدف و رکوردهای رسیده به یک گره اطلاق می شود. در این الگوریتم یک فیلد پیشگو ممکن است به دفعات در سطوح مختلف درخت تصمیم گیری به کار گرفته شود. تمامی تقسیم بندی ها در این الگوریتم ، دودویی خواهند بود به این معنی که فقط دو زیر گروه از هر گره منشعب خواهد شد. همچنین این الگوریتم ، فیلدهای هدف و پیشگو از نوع داده ای رده ای4 و پیوسته5 را پشتیبانی می کند.


شکل-3 میزان دقت مدل پیش بینی الگوریتم C&R

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید