بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***


پیش بینی بیماری قلبی با استفاده از الگوریتم داده کاوی درخت تصمیم

چکیده

همکاری متخصصان در زمینه کامپیوتر و پزشکی، راه حل جدیدی را در تحلیل داده ها و به دست آوردن الگوهای مفید و کاربردی ارائـه می دهد که همان داده کاوی است. داده کاوی فرآیند کشف دانش پنهان درون داده ها از طریق برقراری روابط و الگوهای مفید اسـت. بـه دلیل اهمیت شیوه های تصمیم گیری مدیران بیمارستان ها در پیشبرد اهداف بیمارستان و اهمیت قدرت پیش بینی آنان در حل مشکلات درمانی بیماران، این مطالعه با هدف استفاده مدیران بیمارستان ها از نتایج حاصل از داده کاوی سیستم های اطلاعات بیمارسـتانی (HIS( جهت پیش بینی دقیق تر و تصمیم گیری بهتر و مؤثرتر برای درمان بیماران صورت گرفته است. دادههای مورد اسـتفاده در ایـن مطالعـه، مربوط به اطلاعات270 بیمار است که از انبار داده سایت UCI استخراج شده و شامل 14 متغیر مـی باشـد. از مـدل"درخـت تصـمیم بـا ساختار کارت" که یکی از ابزارهای کلاسبندی در دادهکاوی است، برای پیشبینی مبتلا بودن به بیماری قلبی استفاده شده و دقت پیش-بینی این مدل مورد بررسی قرار گرفته است. بر اساس نتایج این تحقیق مشاهده میشود که ایـن مـدل بـا دقتـی برابـر بـا %72,73 عمـل کلاسبندی را برای مجموعه مشاهدات آزمون انجام داده است.

کلمات کلیدی: داده کاوی، درخت تصمیم، بیماری قلبی

.1 مقدمه

تصمیم گیری جوهره مدیریت است و مدیر کسی است که بتواند تصمیم مناسب بگیرد. تصمیم گیری تمـام فرآینـد مـدیریت را زیر نفوذ قرار می دهد. زیرا که نه تنها تصمیم را در برمی گیرد بلکه تمام راه کار سازمان را تحت تأثیر قرار مـی دهـد. تصـمیم گیری یکی از مهارتهای مدیریت است. انجام وظایفی مانند برنامه ریزی، سازماندهی و یـا کنتـرل در واقـع چیـزی جـز تصـمیم گیری دریاره نحوه و چگونگی انجام این فعالیت ها نیست.[1] کیفیت و چگونگی این تصمیم میزان توفیق و تحقق هـدف هـای سازمانی را معین می کند. به عبارت دیگر، میزان تحقق اهداف سازمانی بیان کننده و نشان دهنده اثربخشی نظام تصمیم گیری مدیران می باشد.[2] اطلاعات اساس تصمیم گیری است. مدیر برای تصمیم گیری صحیح نیاز به استفاده از اطلاعات درسـت و نیز ابزارها و مدل های تصمیم گیری دارد. داده کاوی، فرایندی پیچیده جهت شناسایی الگوهـا و مـدل هـای صـحیح، جدیـد و بصورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این مدل ها و الگوها بـرای انسـان قابـل درک باشـند.[3] تعداد و اندازه پایگاه داده های پزشکی به سرعت در حال افزایش است و مدلهای توسعه یافته تکنیک داده کاوی می توانند برای پزشکان جهت کمک در تصمیم گیری موثر و کاربردی باشند.[4] در حقیقت بیـان کـاربرد عملـی داده کـاوی در حـوزه هـای مختلف با استفاده از داده های ثبت شده در پایگاه داده است که به فراهم کردن اطلاعات ضروری و دانش مورد نیاز پزشکان در تصمیم گیری بهتر کمک می کند. در ابتدای قرن بیستم، 10 درصد کل مرگ و میرها به علت بیماری های قلبی عروقی بود. در انتهای همین قرن موارد مـرگ و میر ناشی از بیماری های قلبی به 25 درصد افزایش یافت و پیش بینی می شود با توجه به روند کنونی تا سال 2025 میلادی بیشتر از35 تا 60 درصد موارد مرگ و میر در جهان از بیماری های قلبی عروقی ناشی شود.
امروزه در دانش پزشکی جمع آوری داده های فراوان در مورد بیماری های مختلف از اهمیت فراوانـی برخـوردار اسـت. مراکـز پزشکی با مقاصد گوناگونی به جمع آوری این داده ها می پردازند. تحقیق روی این داده ها و به دست آوردن نتایج و الگوهـای مفید در رابطه با بیماری ها، یکی از اهداف استفاده از این داده ها است. حجـم زیـاد ایـن داده هـا و سـردرگمی حاصـل از آن مشکلی است که مانع رسیدن به نتایج قابل توجه می شود. بنابراین از داده کاوی برای غلبه بر این مشکل و بـه دسـت آوردن روابط مفید بین عوامل خطر زا در بیماری های قلب و عروق استفاده می شود. این بیماری ها با توجه به شیوع و سهمی که در مرگ و میر انسان ها دارند از اهمیت بالایی برخوردارند. داده کاوی دانش استخراج روابط و الگوهای مفید پنهان در حجم زیـاد داده است.[5] گاهی تکنیک های داده کاوی منجر به شناسایی الگوریتم های معنادار می شوند که می توانند با استفاده از داده های موجـود و در دسترس و با هزینه کم، زمینه های ابتلا، پیشگیری و درمان بیماری ها را در پزشکی فراهم آورده و پزشک ها را در تشـخص به موقع یاری رساند.

.1-1پیشینه تحقیق

به کارگیری روش های داده کاوی در دانش پزشکی در کشور ایران سابقه چندانی ندارد در حالی که توانائی های این روش می تواند در به دست آوردن الگوهای مفید کارساز باشد.[5] هدف داده کاوی کشف انگاره های معتبر، جدید و قابل ردیابی در حجم عظیمی از داده ها با استفاده از ابزارهای آماری و هـوش مصنوعی است. تاریخچه کشف دانش در پایگاه های اطلاعاتی که امروزه بـه داده کـاوی مشـهور اسـت قـدمت چنـدانی نـدارد. پژوهشی در خصوص بیماران مبتلا به سرطان پستان که حداقل هرکدام به مدت دو سال تحت پیگیری بوده اند، انجـام دادنـد. اطلاعات این بیماران در مرکز تحقیقات سرطان پستان جهاد دانشگاهی برای پیگیری اقدامات درمانی ثبت و بیماران حداقل به مدت دو سال پس از تشخیص، تحت نظر این مرکز بوده و پیگیری های بعدی برای آنها انجام شـد. بررسـیهای صـورت گرفتـه نشان داد که دقت در سه الگوریتم داده کاوی، یعنی درخت تصمیم گیـری، ANN، SVM، بـه ترتیـب 0/936، 0/947، 0/957 بوده است.[4]
در بیمارستانBrigham and Women تحقیقی با فرضیه ای مبنی بر این که" می توان عناصر اطلاعاتی موجود در پرونده ی الکترونیک سلامت را با تکنیک داده کاوی شناسایی و روابط بالینی معنی دار و درستی را کشف کرد " انجام شـد؛ در ایـن مطالعه با اجرای داده کاوی بر روی100000 پرونده و تمرکز بـر مجموعـه داد ه هـای تشخیصـی 272749) مـورد)، دارویـی 442658) مورد ) و نتایج آزمایشگاهی 11801068)مورد) روابط علمی مهمی بین مشکلات بیمار، داروها و نتایج آزمایشگاهی آن ها کشف و توصیف شد.[6] در ایالت آلباما نوعی سیستم نظارتی وجود دارد که از تکنیکهای داده کاوی استفاده می کند. این سیستم با استفاده از قوانین و روابط داده کاوی بر روی کشت خون بیمار و داده های بالینی به دسـت آمـده از سیسـتم اطلاعـات الگوهـای (Laboratory information system) آزمایشگاه جدید و جالب توجهی را مشخص می سازد و ماهانه الگوهایی کـه توسـط کارشناسـان کنترل عفونت مورد بررسی قرار م یگیرد را تهیه می کند. سازندگان این سیستم دریافتـه انـد کـه ارتقـای کنتـرل عفونـت بـا سیستم داده کاوی حساس تر از سیستم کنترل عفونت سنتی عمل می کند.[7] درتحقیقی که درسال 2007توسط گروهی از محققین دانشگاه توکیـو انجـام گردیـد از شـبکه هـای عصـبی مصـنوعی در ایـن خصوص استفاده شد. از 37256 بیماری که اطلاعات آنها در یک دوره 5 ساله از پایگـاه داده اسـتخراج شـده بـود 81 متغیـر از قبیل سن، جنسیت، مرحله بیماری ... انتخاب گردیدند. نتایج مطالعات میزان دقـت ایـن مـدل را در پـیش بینـی بقـا بیمـاران %84/5 نشان داد. یعنی مدل داده کاوی بکار رفته بر مبنای شبکه های عصبی به میزان %84/5 توانسـت میـزان بقـای بیمـاران مبتلا به سرطان پستان را به درستی پیش بینی کند.[8] کاظمی و همکاران((1392 تحقیقی را با عنوان تشخیص بیماری هپاتیت با ترکیب روشهای داده کاوی انجام داده اند.

در این تحقیق مدلی ترکیبی از داده کاوی ارائه شده تا ضمن تعیین ویژگی های مهم بیماری هپاتیت بالاترین دقت در پیش بینی قابلیت زندگی افراد مبتلا به هپاتیت را ارائه دهد. نتایج تحقیق بدست آمده نشان می دهد که این مدل با کاهش %68 ویژگی ها (حذف 13 ویژگی از 19 ویژگی) با دقت %97,42 پیش بینی را انجام داده است.[9]


.2-1سؤال پژوهش
الگوریتم و الگوی معنادار حاصل از داده کاوی داده های سیستم های اطلاعات بیمارستان، با استفاده از تکنیـک " کـارت" چـه می باشد؟

.3-1 هدف پژوهش

شناسایی الگوریتم، مدل و الگوی معنادار بر اساس داده کاوی داده های سیستم های اطلاعات بیمارستان، با استفاده از تکنیـک کارت

.4-1 تعاریف مفهومی متغیرهای پژوهش

- داده کاوی: داده کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده ها به منظور کشف الگوها و قوانین معنـی دار اطلاق میشود که عمدتا از طریق ساختن مدل ها و الگوریتم ها، ورودی ها را با هدف یا مقصد خاصی مرتبط مـی نماید.[10]

- درخت تصمیم گیری: یک ساختار درختی خاص که برای کمک به تصمیم گیری ساخته مـی شـود و از آن بـرای تقسیم مجموع های بزرگ از داده های جمع آوری شده به مجموعه های کوچکتر زنجیره وار داده ها استفاده میشود و این عمل به واسطه یک سری قوانین ساده تصمیم گیری صـورت میگیـرد؟در هـر تقسـیم بنـدی متـوالی، اعضـای

مجموعه های حاصله بیش از پیش به یکدیگر شبیه میشوند.[10]

.2 روش تحقیق
دراین تحقیق از آمار توصیفی برای توصیف مشخصات دموگرافیک استفاده شده و برای بررسی سوال تحقیـق از ابزارهـای داده-کاوی درنرم افزار Clementine استفاده شده است.
ابزارهای مختلفی به منظور کلاسبندی وجود دارند که از جمله پرکاربردترین آنها میتوان به شـبکه عصـبی 1، کـارت2، جنگـل تصادفی3، ماشین بردار پشتیبان4 و رگرسیون لجستیک5 اشاره کرد. در این پژوهش با استفاده از مدل کارت، عمل کلاسبنـدی برای پیشبینی بیماری قلبی انجام شده است. در زیر به بررسی این مدل می پردازیم.

. 1-2 مدل کارت

درخت تصمیم یکی از تکنیکهای مرسوم داده کاوی است که دارای ساختار درخت شکل بوده و قادر به تولیـد قـانونهـایی بـر اساس مقادیر صفتهای توضیحی، برای پیش بینی کلاس متغیر پاسخ میباشد. در درخت تصمیم، فضای متغیرهـای توضـیحی به ابر مکعب های بعدی مجاور هم افراز میشوند که هر کدام از این ناحیهها شامل بخشی ازمجموعه دادها هستند. سپس در هر ناحیه، کلاسی که دارای فراوانی بیشتری است بعنوان کلاس غالب برای پیش بینی متغیر پاسخ در نظر گرفته میشود. یعنی اگر مشاهده جدید در یکی از ناحیه ها قرار گیرد، آنگاه برای متغیر پاسخ متناظر این مشاهده، کلاسی پیشبینـی مـیشـود کـه دارای بیشترین فراوانی در آن ناحیه است. نحوهی افراز فضای متغیرهای توضـیحی، سلسـله مراتبـی و بصـورت دودوئـی اسـت بطوریکه در هر مرحله مجموعه دادهها به دو قسمت تقسیم میشود. این افراز در امتداد یکی از متغیرهای توضیحی و بـه ازای مقدار خاصی آن متغیر صورت میگیرد. فرض کنید فضـای متغیرهـا در راسـتای متغیـر و بـه ازای مشـاهده ی بصورت شکل1 افراز شده باشد.

-1روند افراز در درخت تصمیم
که در آن R ناحیه اصلی شامل کل داده ها و و بترتیب نواحی چپ و راست ایجـاد شـده هسـتند. اگـر را فراوانـی نسبی کلاس 1 در ناحیه در نظر بگیریم، آنگاه شاخص جینی که معرف میزان ناخالصی ناحیه است، به صـورت رابطـه زیـر تعریف می شود.

اگر مطابق شکل1، فضای متغیرها در راستای جهت متغیر و از نقطه xj=c به دو قسمت تقسیم شـود، تغییـر در ناخالصـی را میتوان به صورت رابطه زیر تعریف نمود.


که در آن و نسبتی از کل مشاهدات ناحیه است که به ترتیب در و واقع شدهاند. با تکرار فرآینـد فـوق برای تمامی متغیرها و به ازای مقادیر مختلف آنها، مقدار برای همه افراز های ممکن محاسبه شده و نهایتـأ افـرازی کـه مقدار بیشینه را ایجاد کند به عنوان افراز بهینه در نظر گرفته خواهد شد. بعبارت دیگر باید عمـل مـاکزیممسـازی در فرمول زیر برای انتخاب راستای تقسیم فضا و نقطه تقسیم انجام شود.

سرانجام، ناحیههای جدید ایجاد شده نیز به همین ترتیب به نواحی کوچکتر تقسیم میشوند تاجائیکه هر درخـت دارای تعـداد مشاهدات از پیش تعیین شدهای شود.[11]

.3 یافته های پژوهش

.1-3 معرفی دادهها و متغیرها

دادههای مورد استفاده در این مطالعه، مربوط به اطلاعات270 بیمار است که از انبار داده سـایت UCI اسـتخراج شـده و شـامل 270 مشاهده و14 متغیر میباشد. در جدول2 اطلاعات مربوط به متغیرهای مورد استفاده بطور خلاصه بیان شده است.

جدول-2 متغیرهای مورد استفاده در پژوهش

نام متغیر عنوان اختصاری نوع متغیر

سن Age کمی
جنسیت Sex کیفی
درد قفسه سینه Chest-pain کیفی
فشار خون Blood-press کمی
کلسترول سرم Serum-chol کمی
قند خون Blood-sugar کیفی
ایستایی نوار قلب Res-elec کیفی
ضربان قلب Heart-rate کمی
آنژین Angina کیفی
کاهش ST ST-dep کمی
اوج ST Peak-ST کیفی
تعداد عروق بزرگ Nbr-ves کمی
نقص Defect کیفی
بیماری قلبی Heart-dis کیفی

در جدول2، متغیر " بیماری قلبی" به عنوان متغیر پاسخ (پیشبینی شونده) و بقیه متغیرها به عنوان متغیـر توضـیحی (پـیش-بینی کننده) در نظر گرفته میشوند.

.2-3 آمار توصیفی
در این بخش با استفاده از جداول فراوانی، اطلاعات مربوط به متغیرهای جمعیت شناسی تحقیق توصیف شده است.
- متغیر "سن"


جدول-3 آمار توصیفی متغیر "سن"
کمترین بیشترین میانگین انحراف معیار
29 77 54,43 9,109


- متغیر "جنسیت"
جدول-4 آمار توصیفی متغیر "جنسیت"
جنسیت فراوانی درصد فراوانی


زن 87 32,2
مرد 183 67,8
مجموع 100

.3-3 داده کاوی

در این بخش با استفاده از مدل درخت تصمیم، سعی در پیشبینی ابتلا به بیماری قلبی مراجعـه کننـدگان بـه بیمارسـتان بـر اساس اطلاعات مربوط به متغیرهای توضیحی میشود.

در ابتدا مجموعه اصلی دادهها که شامل 270مراجعه کننده است به دو قسمت مجموعه داده مدلساز % 80) کـل دادههـا، 204 مراجعه کننده)و مجموعه داده آزمون %20) کل دادهها، 66مراجعه کننده) تقسیم میشود. با استفاده از مجموعه داده مدلسـاز عمل مدلسازی مدل مربوطه انجام میشود. در نهایت با استفاده از مجموعه داده آزمـون دقـت مـدل بـرازش داده شـده مـورد ارزیابی قرار میگیرد. کلیه مراحل ذکر شده برای برازش مدل در محیط نرمافزار Clementine14.2 انجام شده است.

.4-3 نتایج برازش مدل "کارت"
پس از برازش مدل "کارت"،درخت ایجاد شده در شکل 5 نشان داده شده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید