بخشی از مقاله
چکیده
از جمله مشکلاتی که در روش های رایج تشخیص بیماری دیابت نوع 2 وجود دارد عدم در نظر گرفتن ویژگی های مناسب به منظور تشخیص بیماری و در نتیجه ضعف در تشخیص این بیماری خصوصا در مراحل ابتدایی آن می باشد. در این مقاله سعی شده است تا ابتدا با استفاده از الگوریتم تکاملی بهینه سازی توده ذرات، ویژگی های مطلوب در روند تشخیص بیماری انتخاب و سپس با استفاده از الگوهای بهینه انتخاب شده در الگوریتم طبقه بندی ماشین بردار پشتیبان، به تشخیص هوشمند بیماری دیابت پرداخته شود.
از آنجایی که در این مقاله داده های آزمایشی استفاده شده داده های واقعی مربوط به بیماران دیابتی درمانگاه دیابت بیمارستان تخصصی و فوق تخصصی حضرت ولیعصر - ع - شهرستان فسا است در نهایت مشخص شد که مدل پیشنهادی ترکیبی استفاده شده با دقت 86 ، می تواند از کارایی مطلوبتری نسبت به دیگر روش های هوشمند قبلی برخوردار باشد علاوه بر این، تعداد ویژگی های مطلوب در تشخیص بیماری نیز کاهش یافته است که این خود باعث افزایش سرعت در فرآیند تشخیص مطلوب بیماری دیابت خواهد شد.
-1 مقدمه
بیماری دیابت رایج ترین بیماری غددی و چهارمین علت مرگ و میر در کشورهای پیشرفته می باشد و پیشگیری از آن بدون شک موضوع حیاتی درمانی و اقتصادی در قرن می باشد. دیابت می تواند منجر به مشکلات حاد فیزیکی در افراد و تأثیر اقتصادی بزرگی بر سیستم بهداشت و درمان ملی گردد. مخارج درمانی بیماران دیابتی در سال 2010 برابر 11,6 درصد مخارج کل جهان بوده است[ 1 ] و در حال حاضر 5 و نیم میلیون نفر از جمعیت ایران یا به عبارتی هشت درصد جمعیت ایران به انواع بیماری دیابت مبتلا هستند .[2]
دیابت یک بیماری است که در درجه اول با افزایش سطح قند خون در ارتباط است. یک دلیل برای افزایش سطح قند خون، کمبود انسولین است جایی که سلول های بتا در لوزالمعده برای تولید انسولین با شکست مواجه می شوند که این به عنوان دیابت نوع 1 شناخته شده است. این حالت معمولا در دوران کودکی یا نوجوانی اتفاق می افتد و 10 از افراد مبتلا به دیابت نوع 1 هستند.
نوع دیگری از دیابت و در واقع شایع ترین آن، به عنوان دیابت نوع 2 شناخته شده است. جایی که بدن نمی تواند به طور موثر از انسولین تولید شده استفاده کند به عبارتی یا انسولین تولید شده به اندازه کافی نیست و یا بدن نسبت به آن مقاوم است و نمی تواند از آن استفاده کند. دیابت نوع 2 معمولا در مراحل بعدی زندگی رخ می دهد و 90 از افراد مبتلا به دیابت نوع 2 هستند.
قند خون شدید در افراد مبتلا به دیابت خطر آسیب مویرگ ها که منجر به رتینوپاتی، نفروپاتی و نوروپاتی می شود را افزایش می دهد. بنابراین از عوارض شدید دیابت به دلیل مدیریت نامناسب و تشخیص دیرهنگام می توان نارسایی کلیه ، نابینایی، بیماری عروقی و قطع پا را نام برد. دیابت مسئول بیش از یک میلیون قطع عضو اندام تحتانی در هر سال در بزرگسالان در کشورهای در حال توسعه می باشد .[3]
اهمیت پیش بینی دیابت از این لحاظ است که بیمار پس از این آگاهی می تواند روش زندگی خود را تغییر داده و از این طریق از وقوع بیماری پیشگیری کند. تشخیص بیماری دیابت از طریق تفسیر مناسب از داده ها دیابتیک مشکل مهم طبقه بندی است . از این رو استراتژی های انتخاب ویژگی های مفید از میان ویژگی های بی ربط بر عملکرد سیستم های طبقه بندی تاثیر گذار است به عبارتی در این مرحله ، انتخاب یک زیر مجموعه بهینه از ویژگی ها علاوه بر کاهش ابعاد فضای جستجو، دقت طبقه بندی را نیز افزایش می دهد. مطالعات اخیر، از روش های داده کاوی برای پیشبینی بروز دیابت و تعیین عوامل مهم موثر در رخداد بیماری دیابت استفاده کرده اند که در ادامه به بررسی مختصر برخی از این مطالعات می پردازیم.
در سال 2006 آقای سو و همکارانش [4] بر پایه چهار روش دادهکاوی از جمله شبکههای عصبی مصنوعی، درخت تصمیم، رگرسیون لجستیک و قواعد وابستگی و با استفاده از عکسهای سه بعدی بدن توانستند با دقت %89 بیماری دیابت را در مراجعان تشخیص دهند. یکی از مزیتهای این روش تشخصِی بیماری دیابت نوع دوم، در این است که افراد مشکوک به بیماری نیازی به انجام تستهای خونی ندارند. همچنین اسمیت و همکارانش در [5] از یک شبکه عصبی برای تشخیص زودهنگام شروع دیابت نوع دو استفاده کردند که به دقت 76 درصد رسیدند.
بالاکریشنان و همکارانش [6] در سال 2008 توانستند با دقت % 90 عملکرد دیابت دیابت نوع دو را با استفاده از 1SVM ارزیابی کنند. باراکات و همکارانش نیز [7] در سال 2010 توانستند با استفاده از روش ماشین بردار پشتیبان دقت تشخیص خود را بهبود دهند و با دقت % 94 بیماری دیابت نوع 2 را در افراد تشخیص دهند. آنها داده های تحقیق خود را از داده های مربوط به 4682 نفر مراجعه کننده استخراج کردند و متغیرهای آنها شامل : جنسیت ،شاخص توده بدن ، فشارخون، کلسترول و قند خون، بود.
تاما و همکارانش [8] جهت تشخیص بیماری دیابت نوع دو از روش ماشین بردار پشتیبان و چهار روش شبکه های عصبی، C4.5، k نزدیکترین همسایه، و IB1 استفاده کردند سپس نتایج نشان داد که ماشین بردار پشتیبان با دقت % 95 عملکرد بهتری نسبت به چهار روش فوق دارد. در سال 2013 کوماری و همکارش در [9] توانستند با موفقیت و با استفاده از ماشین بردار پشتیبان، بیماران دیابتی را جهت تشخیص این بیماری طبقه بندی کنند که در این تحقیق از داده های پایگاه داده 2 PIDD استفاده شد.
همانطور که تحقیقات نشان داده است از میان الگوریتم های مختلف داده کاوی، الگوریتم ماشین بردار پشتیبان با بالاترین دقت توانسته است دیابت را در افراد تشخیص دهد و از طرفی مطالعات حاکی از آن است که اگر قبل از اعمال الگوریتم طبقه بندی، بتوان با اعمال یک الگوریتم تکاملی از میان ویژگی ها ویژگی های مفید را استخراج کرد آنگاه می توان دقت تشخیص دیابت در افراد را بهبود داد. از این رو ما برآن شدیم تا با ارائه یک الگوریتم ترکیبی برمبنای اگوریتم بهینه سازی ازدحام ذرات جهت انتخاب ویژگی مفید و کاهش ابعاد و هم چنین الگوریتم ماشین بردار پشتیبان، دقت تشخیص این بیماری را افزایش دهیم.
در این مقاله بر آن شدیم تا پس از بررسی کارهای انجام گرفته در این حوزه، در بخش دوم مروری کوتاه بر مجموعه داده بیماران دیابتی استفاده شده در این مقاله داشته باشیم. بخش سوم تکنیک آماده سازی داده ها مورد بررسی قرار می گیرد. در بخش چهارم الگوریتم های استفاده شده در روش پیشنهادی و پژوهش عملی توضیح داده می شود و سپس نتایج حاصل از شبیه سازی و در آخر نتیجه گیری و پیشنهادات را خواهیم داشت.
-2 توصیف مجموعه داده
در این مقاله مجموعه داده از درمانگاه دیابت بیمارستان تخصصی و فوق تخصصی حضرت ولیعصر - ع - شهرستان فسا در جنوب شرقی استان فارس جمع آوری شده است. جمعیتی که در شهرستان فسا و نزدیکی آن زندگی می کنند. اطلاعات داده ها از پرونده های افراد دیابتی در طی سال های 1389 تا 1394 می باشد. داده های گردآوری شده شامل 10 ویژگی مربوط به 300 بیمار دیابتی و 50 فرد غیر دیابتی با حداقل سن 20 و حداکثر سن 88 می باشد که پارامترهای در نظر گرفتهشده کاملاَ مطابق با شاخص ها و استانداردهای سازمان بهداشت جهانی جمع آوری گردیده است و در جدول 1 قابل مشاهده است. میانیگن سن بیماران 45 و بیش از 60 درصد بیمارن زن و مابقی مرد هستند و بیش از 50 درصد از بیماران دارای سابقه خانوادگی در دیابت هستند.
-3 تکنیک آماده سازی داده ها
در این بخش تکنیک هایی را که برای آماده سازی مجموعه داده ها مورد استفاده قرار گرفتند به طور مختصر شرح می دهیم.
-3-1 پیش پردازش داده ها
در این مقاله پس از جمع آوری نمونه ها، بعضی از اطلاعات موجود در پرونده مانند نام و نام خانوادگی ، عارضه بیماری ، شماره پرونده بیمار و آدرس حذف شدند. در مرحله بعدی پرونده بیمارانی را که فقط یکبار مراجعه داشتنه اند کنار گذاشتیم زیرا اطلاعات کاملی از آزمایشات آنها در دسترس نبود و از طرفی پرونده بیمارانی را که بیش از یکبار مراجعه داشته اند به عنوان داده جدید در نظر گرفته شد. بعضی از فیلدها اهمیتی نداشتند مانند عارضه بیماری ، قد و وزن افراد ، در نتیجه این فیلدها حذف شدند.
در این مرحله سعی شد داده هایی که همه فیلدهای آنها دارای مقدار هستند جمع آوری شود زیرا در بعضی موارد از دست دادن مقدار یکی از فیلدها نتیجه تحقیق را تحت تاثیر قرار می داد و از طرفی دسترسی به بیماران جهت تکمیل بعضی از فیلدها زمان بر و در بعضی موارد غیرممکن بود در نتیجه در این مرحله ، داده از دست رفته ای نداشتیم.
پس از پاکسازی بر روی داده ها ، داده ها را با روش جایگشت شماره سطرها بین 1 ]،[0 نرمالیزه کردیم. برای اینکار در ابتدا مجموع داده های یک ستون از ویژگی ها را در متغیری مانند S ذخیره و سپس هر سطر نیز به عنوان متغیر دیگری در نظر گرفته گرفتیم و در مرحله بعد مجموع ستون S را به ترتیب بر داده های سطر تقسیم کردیم و بدین صورت به داده هایی با کیفیت رسیدیم.
-3 الگوریتم بهینه سازی توده ذرات برای انتخاب ویژگی
در مرحله ی انتخاب ویژگی، تعداد ویژگی ها و نیز خود ویژگی باید تعیین شود از آنجایی که این کار در حالت عادی از نظر زمانی و محاسباتی بسیار سنگین است از الگوریتم 1 PSO که یکی از الگوریتم های تکاملی است استفاده می شود. الگوریتم PSO یک تکنیک جستجو مورد استفاده در علوم کامپیوتر برای پیدا کردن تقریبی راه حل مطلوب است که در مقایسه با دیگر الگوریتم ها در مدت زمان مناسبی به جواب بهینه دست می یابد. این الگوریتم دارای یک جمعیت از راه حل های ممکن با تعداد متغیرهای یکسان می باشد.