بخشی از مقاله

چکیده

دیابت عمومیترین بیماری است که امروزه در همه جمعیت ها و در همه گروههای سنی وجود دارد و با وجود پیشرفتهای زیاد در روشهای درمانی هنوز بیماران دیابتی از کم شدن کیفیت سلامتی در زندگیشان رنج میبرند. یکی از دلایل برای کاهش تاثیر درمان، نامطلوب بودن روش تشخیص و معالجه بیماری است. تشخیص بیماری دیابت از طریق تفسیر داده های دیابت یک مسئله دسته بندی مهم است. امروزه در دانش پزشکی شاهد جمع آوری داده های فراوان در مورد بیماریهای مختلف هستیم. حجم زیاد این داده ها و سردرگمی حاصل از آن مشکلی است که مانع رسیدن به نتایج قابل توجه میشود.این جاست که نیاز به یک سیستم مکانیزه برای کمک به کشف الگوهای موجود و هم چنین پیش بینی رخدادهای آتی کاملا احساس میشود. دانش داده کاوی به عنوان ارائه کنندهی این سیستم مکانیزه کمک شایانی در پیشرفت های پزشکی کرده است.

در این مقاله سعی شده با استفاده از داده کاوی و تمرکز بر روی داده های مربوط به آمار افراد دیابتی ثبت شده در طی سالهای 1384 تا 1388 از بیمارستان 17 شهریور واقع در برازجان مرکز شهرستان دشتستان استان بوشهر و با توجه به متغیر های پر اهمیت 15 - متغیر از میان 60 متغیر - مرتبط با دیابت، افراد دیابتی را در خوشه های مختلف قرار داده و براساس تفسیرهای هر خوشه الگوهایی برای افراد دیابتی استخراج کنیم. نرم افزارهای مورد استفاده SPSS Statistic و Clementine به ترتیب برای جمع آوری و مدلسازی استفاده شده اند. روشهای داده کاوی به کار گرفته شده در این مقاله، خوشه بندی به کمک الگوریتم K-Means و TwoStep، استفاده از درخت تصمیم گیریC&RT دربیرون کشیدن مشخصات هر خوشه میباشد، تا با توجه به میزان اهمیت هر متغیر در وضعیت یک فرد، دسته بندی صورت بگیرد و میزان در خطر بودن فرد را به تصویر بکشد و با توجه به شرایط بیمار، پزشک تصمیم گیری های خود را انجام دهد.

کلمات کلیدی:داده کاوی پزشکی، دیابت، خوشه بندی K -means، خوشه بندی Two Step، دسته بندی C&RT

.1 مقدمه

دیابت مهمترین مسئله سلامت در کشورهای صنعتی و در حال توسعه است، که شیوع آن به سرعت در حال رشد است. دیابت بیماری است که در آن بدن فرد مبتلا نمی تواند انسولین تولید کند و یا انسولین را به درستی استفاده کند. انسولین هورمونی است که مثل کلیدی سلولهای بدن را باز میکند و به گلوکز اجازه ورود و مصرف شدن را میدهند. [9] دیابت خطر بیماری های کلیوی راافزایش میدهد، کوری، آسیب به دستگاه عصبی، آسیب به رگ های خونی و باعث بیماریهای قلبی میشود. سازمان بهداشت جهانی در سال 2000 اعلام کرد که تقریبا در حدود 170 میلیون جمعیت دچار بیماری دیابت هستند و تخمین زده میشود که تعداد افراد دیابتی در دنیا به بیش از 366 میلیون در سال 2030 برسد.[10]

معمولیترین شکل دیابت نوع 2 است، پزشکان معتقدند که برخی از علت های دیابت نوع 2 ارتباط دارد با: تغییرات عادات غذایی، افزایش سن و سال، شهر نشینی، و افزایش شیوع چاقی و عدم فعالیت فیزیکی[11] این نوع دیابت ناشی از مقاومت انسولین - شرایطی که بدن نمی تواند انسولین را به درستی مصرف کند - ، همراه با کمبود نسبی انسولین در بدن است. در دیابت های نوع 2 یا بدن انسولین کافی تولید نمیکند یا سلولها انسولین را رد میکند.[11] بیمارانی که دیابت نوع 2 دارند نیاز به انسولین برای زنده ماندن ندارند گرچه تا حدود %20 برای کنترل کردن سطح گلوکز خون از انسولین استفاده میکنند. دیابت نوع 2 شامل %85 جمعیت دیابتی در بیشتر کشور ها میشود، %10 مردم بالای 65 سال، و بیش از %50 موارد ممکن است در حال حاضر قابل تشخیص نباشد.[12]

حداکثر سن شیوع دیابت نوع 2 در 60 سال می باشد و بیشتر موارد بعد از 40 سالگی تشخیص داده میشود. دیابت شایع ترین بیماری متابولیک با شیوعی رو به افزایش است، ایجاد هزینه های مستقیم به میزان 2.5 تا 15 درصد کل بودجه بهداشتی، هزینه های غیر مستقیم تا چند برابر و هزینه های پنهان تخمین ناپذیر، پدید آورنده عوارضی چون بیماری های ایسکمیک قلبی، هیپرتانسیون، انواع نارسایی های قلبی، رتینوپاتی، نوروپاتی، نفروپاتی، کاتاراکت و غیره، مسئول 4 میلیون مرگ در سال و 9 درصد کل مرگ های جهان، شیوعی برابر 7.2 درصد در جمعیت بالای 30 سال تهران و 6.5 درصد در اصفهان، وجود حداقل 2 میلیون مبتلا در کشور که در نیمی از موارد از بیماری خود بی اطلاعند. براساس نتایج نظام بهداشتی درمانی کشور که طی سال های 1378 لغایت 1381 به صورت آزمایشی به اجرا درآمد، بیش از 15 درصد مردان و 33 درصد زنان در معرض خطر بودند.

و شیوع دیابت در مناطق روستایی 2.21 درصد و در مناطق مناطق شهری بیش از 2 برابر آن یعنی 5 درصد بود. زنان دو برابر مردان مبتلا به دیابت و دو برابر بیش از مردان از بیماری خود بی-اطلاع بودند و دادههای قبل نشان داد که شیوع دیابت در کشورمان سیر صعودی داشته و بسیاری از بیماران با کشف عوارض دیررس آن نسبت به بیماری چند ساله خود آگاه میشوند. رشد چشمگیر این بیماری و اثرات و عوارض آنها و هزینههای بالایی که بر جامعه وارد می کند باعث شده که جامعه پزشکی به دنبال برنامههایی جهت بررسی بیشتر، پیشگیری، شناسایی زود هنگام و درمان موثر آن باشد. باکنترل بهتر گلوکز خون می توان خطر عوارض مربوط به دیابت را به طور قابل توجهی کاهش داد. بنابراین تشخیص فاکتورهای مهمی که کنترل کلی بیمار را تعیین کند، برای متخصصان بالینی در جلوگیری عوارض دیابت، و به بیماران در جهت مدیریت بهتر سلامتی خود کمک می کند.

توجه پزشکان نیز یک نقش مهم در ارائه اطلاعات برای کاهش آن فاکتور های خطرناک بازی می کند. این به عهده پزشکان است که بیماران را از خطر علتهای عمده وضعیت کنترل گلوکز خون و درجه خطری که آنها با آن روبه رو هستند آگاه کند. به عنوان یک تلاش در جهت دستیابی مدیریت دیابت بهتر، ما تکنیک های داده کاوی را برای دیتاست از بیمارستان 17 شهریور واقع در برازجان مرکز شهرستان دشتستان، استان بوشهر برای بدست آوردن متغیرهای مهم و بدست آوردن اطلاعاتی که ممکن است برای پزشکان ناشناخته باشد اعمال کرده ایم. استفاده از روشهای آماری در بررسی دادهها مدتی است که رونق گرفته است به طوری که اغلب آنالیزهای پزشکی به وسیله روشهای آماری انجام شده است. در این رابطه نرم افزارهایی نظیرClementine در تحلیل آماری دادهها استفاده می گردد.

این روشها با وجود مشخص کردن روابط آماری موجود در دادهها، محدودیتهایی را در تحلیل داده های زیاد همراه با متغیر های متعدد ایجاد میکند. روشهای آماری معمولا برای اثبات فرضیه مورد نظر انجام میشود بدین ترتیب که ابتدا نظریهای طرح شده سپس توسط روشهای آماری درستی آن مورد ارزیابی قرار میگیرد. همکاری متخصصین در زمینه کامپیوتر و پزشکی راه حل جدیدی را در تحلیل این داده ها و بدست آوردن الگوی مفید و کاربردی ارائه میدهد که همان داده کاوی است. به کارگیری روشهای داده کاوی در دانش پزشکی در کشور ایران سابقهای ندارد در حالیکه توانائیهای این روش می تواند در بدست آوردن الگوهای مفید کارساز باشد. در ادامه ساختار مقاله به صورت زیر پیکربندی شده است: روش ارائه شده برای داده کاوی، مجموعه دادههای دیابت، آماده سازی دادهها، پیش پردازش با Feature Selection، تعیین الگوریتم خوشه بندی و تعداد خوشهها، ایجاد خوشه، ایجاد درخت تصمیم، استخراج قوانین و نتیجه.

.2 کارهای مرتبط

در [20] مولفان از قوانین وابستگی و درخت تصمیم برای استخراج دانش از مجموعه داده های پزشکی استفاده کرده اند. آنها اثبات کرده اند که نتایج بدست آمده بسیار امید بخش هستند. در [21] مولفان یک تکنیک برای تولید یک مجموعه ایجاد کرده اند تفاوت های بین دو گروه دیابت را مقایسه می کند. در [8] مولفان از تکنیک های Feature Selection برای بهبود تاثیر داده کاوی استفاده کرده اند بعد از انتخاب ویژگی های مناسب از سه تکنیک دسته بندی Naïve bayes ، LB1 ، C4.5 برای پیش بینی وضعیت بیمار دیابتی استفاده کرده اند. برای بررسی مطلوب بودن درمان بیماران دیابتی مولفان در [7] از ترکیب خوشه بندی - EM - و مدلسازی شبکه عصبی برای تشخیص فاکتورهایی که در نرخ مطلوبیت درمان تاثیر دارند استفاده شده است.
 
.3 روش ارائه شده

در اولین مرحله از مطالعه برای انجام روش پیشنهاد شده، برای دستکاری مقادیر مفقوده عمل پیش پردازش صورت میگیرد. در ادامه ما گسسته سازیهای مشخصی با توجه به مراجع پزشکی بر روی داده ها اعمال میکنیم. ویژگی های با اهمیت را استخراج کرده و اهمیت هر ویژگی را به عنوان وزن خاص ویژگی نیز در نظر میگیریم. خوشه بندی را انجام داده و با تحلیل خوشهها وضعیت افراد درون خوشهها را مشخص کرده سپس در انتها با ساختار درختی خصوصیات و قوانین خوشه ها را نشان میدهیم.

.4 مجموعه داده های دیابت

دادههای مورد استفاده در این مقاله توسط کلینیک تخصصی دیابت دشتستان در دوره های متمادی با روش نمونهگیری و پرسش و آزمایش جمع آوری شده است که شامل 800 پرونده مربوط به افراد دیابتی نوع 2 میباشد. به این ترتیب مجموعه داده ای شامل 800 رکورد میباشد که هر رکورد متعلق به یک نفر است. این دادهها شامل ویژگیهایی است که از فرم هایی که توسط افراد دیابتی تکمیل شده اند و همچنین نتایج آزمایشاتی که روی افراد انجام شده است بدست آمده است. این فرمها شامل بخش های متفاوتی نظیر مشخصات فردی، سابقه پزشکی، معاینه فیزیکی، نتایج آزمایشات، مربوط به افراد دیابتی می باشد. پیش از انجام داده کاوی این ویژگی ها با برگزاری جلسات مشترک با متخصصین پزشکی مورد بررسی قرار گرفت و مقرر گردید ویژگی هایی انتخاب شوند که مقادیر آنها تا حد ممکن دقیق باشند به عبارت دیگر حاصل آزمایش باشند نه بیان شده توسط خود بیمار که ویژگی های دارای مقادیر غیر آزمایشگاهی - مانند آنچه عقیده مردم در مورد بیماری ها، تغذیه، و غیره بود - بودند، در نهایت این چنین ویژگیهایی با نظر آنها از مجموعه متغیرها مورد بررسی خارج گردید.

.5 آماده سازی داده ها

مرحله آماده سازی دادهها، بحرانیترین مرحله در انجام یک فرآیند داده کاوی است. به استناد پرونده های بیماران تعداد فیلدهای قابل بررسی بالغ بر 60 مورد میباشد مقادیر وارد شده برای این صفات به دو دسته کلی داده های طبقهبندی شده و داده های عددی تقسیم می شود که برای اجتناب از تداخل معنایی برای دادههای طبقه بندی شده تا حد ممکن کد عددی در نظر گرفتهشد. در مرحله گزینش اولیه فیلدهایی که اطلاعات مفیدی را برای پیشگویی فراهم نمیکردند به علل زیر حذف شدند:[13]

1.ویژگی هایی که در بیش از 70% پرونده ها برای آنها مقداری وارد نشده بود.

2.ویژگی هایی که مقدار معتبر وارد شده برای آنها در بیش از 70%موارد، ثابت است.

3.ویژگی هایی که در بردارنده اطلاعات لازم برای شناسایی هویت بیمار.

در مورد متغیر هایی که مقادیر گم شدهشان نسبت به مقادیر موجود ناچیز بود - کمتر از - %40 با استفاده از امکانات نرم افزار Clementine به نام Audit Node مقدار پیش بینی مربوط به آن متغیر جایگزین گردید. متغیرهای HDL و LDL و کلسترول ، FBS ، BMI و چندین ویژگی های دیگر که موارد مفقوده داشتند از طریق الگوریتم C&RT با نمونه داده های بدون موارد مفقوده پیش بینی شده است. در مجموع 15 ویژگی برای رسیدن به هدف انتخاب گردید. مقادیر کل متغیرها برای پیدا کردن نویز مورد بررسی قرار گرفت و مقادیر دارای نویز با گزینه 1Coerce در نرم افزار Clementine جایگزین گردید.در مورد مقادیر مختلف ویژگی هایی مثل کلسترول، تری گلیسیرید، قند خون، LDL، HDL و غیره نیز همراه با مرجع پزشکی کلاسی برای آنها انتخاب شده است.

در جداول زیر مقادیر ویژگی ها براساس معیار پزشکی آنها گسسته سازی شده اند.فشار متوسط شریانی که نشانگر فشار خونرسانی بافتی است، براساس فشارخونهای دیاستولی و سیستولی محاسبه میشود. رقم حاصله مرجعی برای بسیاری از اقدامات درمانی است. بفرض در بیمار فشارخونی زمانیکه میخواهید فشارخون بیمار را کاهش دهید بجای استفاده از فشارهای سیستولی و یا دیاستولی، رویکرد عموما بر اساس فشار متوسط شریانی است. با کنترل این فشار می توان بدون بروز اختلال در خونرسانی به بافتهای بدن اقدام به کاهش مناسب و درمانی فشار پرداخت.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید