بخشی از مقاله
تحليل و داده کاوي داده هاي بيماران مبتلا به آسم و گزارش نتايج آن
چکيده
داده کاوي در مراقبت بهداشتي شاخه ي بسيار مهمي در تشخيص و فهم عميق تر داده هـاي پزشـکي مـي باشـد. داده کـاوي بهداشتي در صدد حل مسائل دنياي واقعي در تشخيص و درمان بيماريها مي باشد. يکي از مهمتـرين کاربردهـاي داده کـاوي در حيطه استخراج دانش ، بررسي الگوهاي موجود در داده ها مي باشد که منجر به شناخت عوامل موثر در ابتلا به بيمـاري و عوامـل کاهنده يا تشديد کننده آن مي شود. هدف ازاين پژوهش بررسي الگوهاي موجود روي داده هاي بيماران مبتلا به آسم است . ايـن پژوهش بر روي مجموعه داده افراد مراجعه کننده به بيمارستان هاي امام خميني و مسـيح دانشـوري انجـام شـده کـه حـاوي اطلاعات ١٦٩ فرد آسمي و ٨٥غيرآسمي است .
تحليل هايي از قبيل اثرگذارهاي کليدي ، دسته بندي بيماران و تشخيص استثنائات و نتايج حاصل از آن گزارش گرديد.در انتهـا نيز پرسشنامه اي به روش کارت امتياز براي تشخيص آسم ارائه شد.
يافته ها حاکي از اين است که فراوانترين علامت باليني مبتلايان به آسم سرفه هاي شديد مي باشد و اين بيمـاري تحـت تـاثير شديد هيجانات مي باشد. ساير علائم نيز مورد بررسي قرار گرفتند و ميزان همبستگي آنها بيان شد. داده ها بـه پـنج گروهـه و خوشه جهت انجام تحليل هاي بعدي و کلي تر تجميع شدند و وجه مشترک آنها ارائه شد و رکوردهايي که ويژگيهاي غير رايج و استثنايي داشتند نيز شناسايي شدند. سپس با تحليل هزينه ها و تعيـين مقـدار آسـتانه برابـر ٦١٢ پرسشـنامه اي بـر اسـاس ويژگيهاي داده براي تشخيص آسم ارائه شد.
با استفاده از چارچوب تحليل وداده کاوي ارائه شده در اين پژوهش علاوه بر استخراج دانش از روي داده ها و روابط انها مي توان شکاف موجود در تصميم گيري پزشکي در هنگام استفاده از راهکارهاي باليني را شناسايي و پر نمود.
کلمات کليدي داده کاوي ، دسته بندي ، تشخيص استثنائات ، کارت امتياز ، آسم
١- مقدمه
داده کاوي به عنوان فرآيندي براي يافتن الگوها و ارتباطات در پايگاه داده ها به همراه استفاده از اطلاعات براي ساختن مدل هاي پيش بيني تعريف شده است . [١] همچنين از آن به عنوان فرآيندي براي انتخاب ، اکتشاف و ساختن مدلها با استفاده از انبوه داده هاي ذخيره شده براي کشف الگوهاي از پيش موجود نيز ذکر مي شود. [٢] از داده کاوي براي شناسايي روابط و الگوهاي نو، صحيح ، قابل فهم و بصورت بالقوه مفيد در درون داده ها با استفاده از ترکيب مجموعه داده ها و استخراج الگوهاي پيچيده براي انسان استفاده مي شود. [٣] داده کاوي P1P0F گامي مهم در کشف و استخراج دانش مي باشد اين اصطلاح به معناي کاوش مجموعه داده هاي بزرگ براي استخراج الگوهاي ناشناخته بين داده ها است .[٤] از آنجايي که کشف روابط بين داده ها در روش هاي سنتي آماري بسيار مشکل مي باشد[ ]، کاربرد داده کاوي به سرعت در بخشهاي وسيعي از قبيل سازمان هاي ارائه خدمات بهداشتي ، پيش بيني مالي و پيش بيني هوا گسترش يافته است .[٦]
داده کاوي در مراقبت بهداشتي شاخه بسيار مهمي در تشخيص و فهم عميق تر داده هاي پزشکي مي باشد. داده کاوي بهداشتي در صدد حل مسائل دنياي واقعي در تشخيص و درمان بيماريها است . [٧] همچنين در مراقبت بهداشتي زمينه ي تحقيقاتي مهمي براي پيش بيني بيماريها و درکي عميق تر از داده هاي بهداشتي محسوب مي شود. داده کاوي بهداشتي قصد دارد تا مسائل بهداشتي دنياي واقعي در تشخيص و درمان بيماريها را حل نمايد.[٨] پژوهشگران از اين روش براي تشخيص بيماريهاي مختلف استفاده مي کنند و براي اين کار از روشها و الگوريتم هاي مختلفي بهره مي برند که ميزان صحت و دقت آنها متفاوتي است [٩]
کاربردهاي داده کاوي مي توانند در تمام بخشهاي صنعت مراقبت بهداشتي به صورت جدي مثمر ثمر باشند. براي مثال سازمانهاي بيمه بهداشتي مي توانند کلاهبرداري و سوء استفاده ها را شناسايي نمايند، سازمانهاي بهداشتي تصميمات مربوط به مديريت ارتباط با مراجعه کنندگان را اتخاذ نمايند، پزشکان درمانهاي موثر و بهترين شيوه هاي درماني را شناسايي نمايند و بيماران خدمات مراقبتي بهتر و رضايت بخش تر را دريافت نمايند. [٣]
اين پژوهش با استفاده از روشهاي تحليل و داده کاوي قصد دارد تا با تحليل داده هاي گردآوري شده براي آسم ، بخشي از دانش پنهان در آن را کشف نموده و گزارش نمايد. در مقدمه اين پژوهش به بيان ساختار مسئله و روشهاي مورد استفاده جهت تحليل حوزه مسئله پرداخته مي شود و مراحلي که روي مجموعه داده موجود انجام شده بيان مي شود.
. مسئله اي به نام تشخيص بيماري آسم و داده هاي مرتبط با آن
آسم يک بيماري مزمن التهابي رايج راههاي هوايي است که بوسيله علائم تشديد شونده ،انسداد برگشت پذير راههاي هوايي و اسپاسم نايژه ها مشخص مي شود ١) شيوع آسم از دهه ١٩٧٠ به طرز چشمگيري رو به افزايش نهاد و در سال ٢٠١٠ ، سيصد ميليون نفر در جهان در به اين بيماري مبتلا شدند.(٢) و در سال ٢٠٠٩ باعث مرگ دويست و پنجاه هزار نفر در سراسر جهان شد.(٢)اين بيماري نرخ فزاينده اي در کشورهاي در حال توسعه دارد .(٣) تشخيص بيماري آسم به دليل پيچيدگي الگوها و نشانه ها از مسائل چالش بر انگيز مي باشد. اين پژوهش بر اساس داده هاي گردآوري شده از افراد مراجعه کننده به بيمارستانهاي امام خميني و مسيح دانشوري تهران که در پژوهش زرندي و همکاران گردآوري شده بود انجام پذيرفت .[١٠] داده هاي خام گردآوري شده با پيش پردازش هايي از قبيل گسسته سازي و تبديل عددي و همچنين حذف داده هاي ناقص و حذف ويژگي هاي غير موثر توسط روشهاي انتخاب ويژگي به دسته بندي مطابق جدول ١ منتج شد . اين مجموعه داده پس از طي مراحل مذکور شامل ٢٥٠ رکورد و متشکل از ٢٤ صفت ورودي و ١ صفت خروجي گسسته مي باشد.. هر يک از اين ويژگيهاي ذکر شده در جدول ١ دامنه مقادير کمي دارند. براي مثال سرفه مقادير عددي بين ٠ تا ٥ را بسته به شدت آن مي تواند اخذ نمايد. کلاسهاي خروجي نيز شامل دو کلاس ٠ يا ١مي باشند که نشان دهنده تشخيص آسم يا غير آسم مي باشد.
٢- روش انجام کار
مراحل داده کاوي جهت کشف الگوها و بررسي روابط بر اساس مدل پيشنهادي زير انجام پذيرفت که درآن شناخت مسئله ، جمع آوري داده ها و تبديل و پاکسازي در پژوهش هاي پيشين بر روي اين مجموعه داده توسط پژوهشگران انجام شد بود و در اين پژوهش تحليلهاي key influencers ،Detect categories وHighlight Expectations انجام پذيرفت و نتايج آن گزارش شده است و در انتها نيز ماشيني پيشگو بصورت پرسشنامه جهت تشخيص آسم براي داده ها ارائه شده است . در ادامه به بررسي مسئله و توضيحي مختصر از دامنه مسئله و داده ها و پيش پردازش هاي انجام شده روي داده ها پرداخته مي شود و روشهاي تحليل و مباني آنها و همچنين ساخت Prediction calculator مورد بررسي قرار مي گيرد. خروجي تحليل ها به صورت جداولي در بخش يافته ها سازماندهي شده اند که بر اساس روش و تحليل انجام شده توضيح داده مي شود.
تحليل هاي انجام شده در ادامه شرح داده شده است :
. تحليل اثرگذاران کليدي P2P1F
تحليل اثرگذاران کليدي روشي است که در آن همبستگي بين تمام ستونهاي داده در جدول با ستوني که مدنظر است بررسي مي گردد و نتيجه اين تحليل شناسايي ستونها يا ويژگيهايي است که اثر مهمي روي ستون يا ويژگي هدف دارند.
اين تحليل همچنين جزيياتي در مورد نحوه اثر را نيز بيان مي نمايد.[١١]
. تحليل تشخيص دسته ها PF32
اين تحليل زماني پرکاربرد است که روي موجوديت هاي داده اي بسيار زيادي عمليات انجام شود . اين تحليل باعث مي شود تا اين داده ها را در تعدادي گروه و دسته قابل مديريت تر دسته بندي نماييم به طوري که موجوديت هاي درون هر دسته به همديگر شبيه باشند. با اين روش بجاي سر و کار داشتن با صدها و هزاران رکورد ، با چند گروه به نمايندگي از آنها مواجهيم . به اين روش تحليل خوشه بندي نيز مي گويند که منجر به ساده تر شدن تحليل هاي محاسباتي متعاقب مي شود.[١٢]
. تحليل تشخيص استثنائات
هدف تحليل تشخيص استثنائات يافتن سوزنها در انبار کاه مي باشد. اين تحليل سطرهاي از داده را که بيشترين تفاوت را با اغلب ساير داده ها دارند را مشخص مي نمايد که اين سطرها و رکوردها مي توانند ناشي از خطاي زمان ورود داده ها يا حتي داده اي صحيح و بر گرفته از واقعيت باشند که اتفاقي نامعمول و غير رايج مي باشد. بنابراين اين تحليل براي تشخيص خطاها يا مشخص نمودن داده هاي نامعمول و جالب انجام مي پذيرد. [11]
. ماشين حساب پيش بيني PF4
اين روش در واقع مبتني بر روش کارتهاي امتياز(Scorecard) مي باشد به اين صورت که براي هر موجوديت در داده ها بر اساس ويژگي هاي آنها امتيازي تخصيص داده مي شود و با استفاده از اين امتيازات مي توان رکوردهاي موجود در مجموعه داده را امتياز دهي نمود . براي تفسير نتيجه مجموع امتيازات نياز به مقداري آستانه داريم تا مقادير بالا يا پايين تر از آن را به عنوان برد يا باخت تفسير نمود. اين مقدار آستانه بر اساس چهار معيار هزينه اي صحيح مثبت ، صحيح منفي ، غلط مثبت و غلط منفي محاسبه مي شوند. يک تشخيص صحيح مثبت (TP) در تشخيص ريسک يا بيماري و همچنين تشخيص صحيح منفي (TN) هيچ مزيت قابل اندازه گيري ندارند و مي توان گفت سود عايده برابر صفر است اما تشخيص غلط منفي (FN) مي تواند خطرات و هزينه هاي جدي را به بيمار تحميل کند. اين ماشين حساب از مقادير فوق به شکل زير به دست آمده است :
هر سود و درآمد از مقادير پيش بيني صحيح بدست مي آيد و هر هزينه و ضرر در سيستم از تشخيص هاي ناصحيح مشتق مي شود. سود نهايي از تفريق اين دو به دست مي آيد.
٣- يافته ها
يافته هاي پژوهش را در در دو بخش خروجي هاي هر روش تحليل و ارائه پرسشنامه مي توان خلاصه نمود که نتايج بر اساس زمان انجام تحليل در ادامه شرح داده شده است :
. تحليل اثرگذاران کليدي
در اين تحليل عوامل کليدي روي داده موجود آسم به اينصورت تعريف مي شود:
"عوامل کليدي و نشانه هاي اصلي مبتلايان به آسم و افراد غير آسمي چه عوامل و ويژگي هايي در مجموعه داده مي باشند؟". جدول ٢ نتايج تحليل اثرگذاران کليدي را نشان مي دهد. اين جدول از چهار ستون تشکيل شده است که ستون اول ويژگي هاي موجود در مجموعه داده ها که نشان دهنده نشانه ها
، سوابق و ريسک فاکتورهاي افراد مراجعه کننده به بيمارستان مي باشند . ستون دوم مقادير مربوط به ستون مورد نظر را نشان مي دهد. ستون سوم از صفر يا يک تشکيل شده است که نشان دهنده وضعيت تشخيص فرد است و يک نشان دهنده ابتلا به آسم و صفر نشان دهنده عدم ابتلا مي باشد. ستون چهارم نيز تاثير نسبي ستون اول با مقدار ستون دوم را در رخداد ستون سوم به ازاي هر سطر را نشان مي دهد.
. تحليل تشخيص دسته ها
با انجام تحليل دسته هاي مسئله پژوهش ، افراد بر اساس شاخص هاي مشتق شده از ويژگي ها به گروه هايي دسته بندي مي شوند و مشخصات اين افراد درون اين دسته ها يا خوشه ها مشابه هم مي باشند. براي هر دسته تنها دو عامل با بيشترين تاثير نسبي محاسبه شده اند و نام دسته هم نام با موثر ترين عامل انتخاب شده است . جدول ٣ دسته هاي تشخيص داده شده رابه همراه تعداد رکوردهاي خوشه بندي شده درونش و دو عامل اصلي براي دسته بندي را به همراه تاثير نسبي آنها نشان مي دهد.