بخشی از مقاله

چکیده

بیماری های قلبی و عروقی مهمترین عامل مرگ و میر در اغلب کشورهای جهان شناخته شده اند و طبق آمارهای رسمی، میزان مرگ و میر ناشی از این پدیده در ایران رو به افزایش است. رشد چشمگیر بیماری قلبی و اثرات و عوارض آنها باعث شده است که جامعه پزشکی به دنبال راهکارهایی برای پیشگیری و شناسایی زود هنگام و درمان موثر آن باشند. اما در سالهای اخیر با افزایش حجم اطلاعات، استفاده از سامانههای هوشمند مانند دادهکاوی جهت پیش بینی بیماری قلبی در حجم وسیعی از دادهها، بیشازپیش مورد توجه قرارگرفته است.

از این رو در این پژوهش با استفاده از تکنیک های داده کاوی و الگوریتم های دسته بندی درخت تصمیم، بیز ساده، کانزدیکترین همسایه بر روی داده های مربوط به 12652 نفر بیمار عضو مرکز تحقیقات برج پژوهشی محمد رسول االله و430 پرونده پزشکی مربوط به بیماران بیمارستان قلب الزهرا در دانشگاه علوم پزشکی شیراز سعی شده است که صحت عوامل موثر در بیماری های قلبی و عروقی با توجه به سایر ویژگی ها مورد مطاالعه قرار بگیرد.

هم چنین در ادامه جهت بهبود نتایج از روش های جمعی بگینگ و بوستینگ درخت تصمیم استفاده شد و ارزیابی دقت براساس تعداد رکوردها روی هر دو مجموعه داده مورد بررسی قرار گرفت.نتایج الگوریتم برتر درخت تصمیم قوانین مفیدی را تولید کرد و ارتباط بین متغیرهای مدل پیش بینی بیماری قلبی ارزیابی و تحلیل شد.

-1 مقدمه

در بیماری های غیرواگیر به جای یک علت مشخص، عوامل خطر حضور دارند. عوامل خطر شامل عوامل شناخته شده اجتماعی، محیطی و رفتاری هستند که خطر یا احتمال ابتلا به یک بیماری یا آسیب را افزایش می دهند. اکثر عوامل خطر اصلی در بیماری های غیرواگیر شناخته شده اند و حذف یا کنترل آن ها می تواند مانع از بروز بیش از 80 درصد بیمار یهای قلبی، سکته مغزی و دیابت و نیز 40 درصد سرطان ها شود.

در بررسی هایی که در سال 1388 در نظام مراقبت درصد عوامل خطر بیماری های غیرواگیر انجام گرفت مشخص گردید 21,6 درصد افراد در گروه سنی 44-15 ساله و 52,9 درصد افراد در گروه سنی 64-45 ساله پرخطر هستند یعنی حداقل 3 عامل خطر از 5 عامل خطر بیماری قلبی عروقی را دارند. خوشبختانه بیماری های غیرواگیر و به ویژه بیماری های قلبی عروقی به میزان قابل توجهی قابل پیشگیری هستند و با طراحی و اجرای مداخلات اثربخش می توان مرگ ناشی از این بیماری ها را تا 80 درصد کاهش داد .

گروهی از عوامل خطر با اصلاح محیط و تغییر رفتار یا سبک زندگی فرد اصلاح می شوند - عوامل خطر قابل اصلاح - و دسته ای دیگر مانند سن، جنس، قومیت یا نژاد، را نمی توان با تغییر رفتار یا محیط اصلاح کرد - عوامل خطر غیرقابل اصلاح - از بین عوامل قابل اصلاح می توان به مصرف دخانیات، فعالیت بدنی ناکافی و تغذیه نامناسب اشاره کرد که در بسیاری از برنامه های پیشگیری وکنترل بیماری های غیرواگیر، مورد توجه جدی قرارگرفته اند.

در ایران نیز بیماری های غیرواگیر مزمن و به ویژه بیماری های قلبی عروقی، بخش عمده ای از علل مرگ و ناتوانی را به خود اختصاص داده است. اولین علت مرگ در کشور 39,3 درصد کل مرگ ها، ناشی از بیماری های قلبی عروقی است. از این درصد، 19,5 درصد مربوط به سکته قلبی، 9,3 درصد ناشی از سکته مغزی، 3,1 درصد مربوط به فشار خون بالا و مابقی مربوط به سایر بیمار یهای قلبی عروقی است.[1]

-2 داده کاوی

شدت رقابت ها در عرصه های علمی، اجتماعی، اقتصادی ، سیاسی و نظامی نیز اهمیت سرعت یا زمان دسترسی به اطلاعات را دو چندان کرده است. بنا براین نیاز به طراحی سیستم هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه کاربران با تاکید بر حداقل مداخله انسانی باشند از یک سو و روی آوردن به روش های تحلیل متناسب با حجم داده های حجیم ازسوی دیگر، به خوبی احساس می شود. در حال حاضر، داده کاوی مهم ترین فناوری برای بهره وری موثر، صحیح و سریع ازداده های حجیم است و اهمیت آن رو به فزونی است .[2]

-5 پیش پردازش

داده هایی که در یک سازمان جمع آوری می شود بر اساس نیازها و اهداف آن سازمان است و همواره مناسب پژوهش نیست. از این رو باید قبل از به کار بردن آن، متناسب با اهداف پردازش شده و کیفیت آن نیز بهبود یابد. پیش پردازش داده مهمترین قسمت داده کاوی و فرایندی زمانبر است. ابتدا فراوانی هر یک از صفت بررسی گردید و مشخص شد که برخی ازصفت با توجه به طیف داده های موجود دارای فراوانی مناسبی نیستند و نمی توان در نتیجه گیری شرکت داده شوند. به عنوان نمونه قومیت مادر و یا قومیت پدر دارای پراکندگی نامناسب می باشد.

-6 داده کاوی و ارزیابی

دستهبندی در واقع ارزشیابی ویژگی های مجموعه ای از دادهها و سپس اختصاص دادن آنها به مجموعه ای از گروه های از پیش تعریف شده است. این متداولترین قابلیت داده کاوی می باشد. در دنیای امروزه بحث classification اطلاعات اهمیت بسیاری دارد، اینکه بتوان مدلی مناسب برای تحلیل داده هایی خاص بدست آورد و بتوان با بررسی اولیه ویژگی های یک عنصر خاص، الگوی رفتاری آن عنصر را پیش بینی کرد. در دستهبندی اطلاعات هدف بدست آوردن مدلی برای الگوی رفتاری و ویژگی های مجموعه ایی از داده ها است تا با کمک آن بتوان بدون دانستن رفتار یک موجودیت، با توجه به ویژگی های آن و با استفاده از مدل بدست آورده شده، رفتار آن را تشخیص داد و آن موجدیت را در گروه خاصی دسته بندی کرد.

-7 نتایج خلاصه آماری -1-7 نتایج حاصل از روش درخت تصمیم

درخت تصمیم گیری یا Decision Tree که مدل خود را بر اساس یک درخت پیاده سازی می کند. در این الگوریتم با توجه به مجموعه آموزش یک درخت، بر اساس ویژگی های مختلف آن درست می شود که با استفاده از این درخت باید بتوان یک عضو جدید را در دسته خاصی دسته بندی کرد. روش کار درخت به این صورت است که یک رکورد جدید در گره ریشه وارد می شود و در این گره یک آزمون صورت می گیرد تا معلوم شود که این رکورد به کدام یک از گره های فرزند - شاخه های پایین تر - تعلق دارد.

تمام رکوردهایی که به یک برگ از درخت می رسند، در یک دسته قرار می گیرند. ماتریس در هم آمیختگی طبقه بندی مدل را در برابر طبقه بندی واقعی نشان می دهد این ماتریس حاصل از مدل نهایی درخت تصمیم براساس تنظیمات و هرس آن است. به عنوان نمونه نتایج متغیر، BMI با توجه به داده های مرکز تحقیقات برج پژوهشی محمد رسول االله به صورت زیر می باشد.

در رابطه های مزبور:

مثبت درست - - TP1 نشان دهنده تعداد نمونه هایی که جز دسته مثبت بوده و درست پیش بینی شده اند. مثبت نادرست - - FP2 نشان دهنده تعداد نمونه هایی که نادرست به عنوان دسته مثبت پیش بینی شده اند. منفی نادرست - - FN3 نشان دهنده تعداد نمونه هایی که نادرست به عنوان دسته منفی پیش بینی شده اند. منفی درست - TN4 - نشان دهنده تعداد نمونه هایی که جز دسته منفی بوده و درست پیش بینی شده اند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید