بخشی از مقاله
چکیده
در این پژوهش از ترکیب دو روش خوشهبندی چندمیانگینی و دستهبند بیزی انعطافپذیر بهمنظور توسعه مدل غربالگری بیماران دیابتی نوع دوم بهره گرفتهشده است. در این روش ابتدا دادههای آموزشی با استفاده از الگوریتم چند میانگینی، خوشهبندی میشوند. در این مرحله با شناسایی نمونههایی که در خوشههای اشتباه قرارگرفتهاند، دادههای نویزی و استثنایی از مجموعه آموزشی حذف میشوند. بهعبارتدیگر ایده اصلی این روش، استفاده از نمونههای برچسبدار با اعتبار بالاتر است.
این فرایند مانع از رخداد پدیده تطبیق بیشازحد در امر آموزش دسته بند بیز انعطافپذیر میشود. همچنین با توجه به خصوصیت ذاتی دادهها، استفاده از الگوریتم بیز انعطافپذیر و هستههای متعدد گاوسی باعث بهبود دقت دستهبندی خواهد شد.
دادههای بیماران دیابتی از پایگاه داده دانشگاه آروین کالیفرنیا برگرفتهشدهاند. گستره وسیعی از روشهای دستهبندی بهوسیله پژوهشگران مختلفی بر روی این دادهها اعمال شدهاند تا بهترین الگوریتم با بالاترین کارایی شناسایی شود. محدوده دقتهای بهدستآمده در فاصله %59/4 تا %93/58 گزارششدهاند. بااینحال مدل پیشنهادی این مقاله با استفاده از تکنیک اعتبارسنجی متقابل چندمرحلهای دقت دستهبندی %96/34 را به دست آورده است. همچنین برای ارزیابی مدل از معیارهای دیگری نظیر حساسیت، اختصاصی بودن و معیار آماری کاپا بهره گرفتهشده است.
-1 مقدمه
امروزه بیماری دیابت یکی از شایعترین بیماریها در اکثر جوامع و در همه ردههای سنی میباشد. در این نوع بیماری، بدن انسان انسولین لازم برای کاهش قند خون را تولید نمیکند - دیابت نوع یک - یا اینکه بهطور صحیحی از انسولین تولیدشده استفاده نمیکند - دیابت نوع دوم - .[2] دیابت نوع دوم شایعترین نوع این بیماری است کهمعمولاً در سن 40 سالگی به بالا رخ میدهد
بر طبق اطلاعات موجود ، تخمین زده میشود که در حدود 194 میلیون نفر از مردم جهان یا به عبارتی %5/1 جمعیت بزرگ سال جهان دیابت داشته باشند و این تعداد تا سال 2025 به 333 میلیون نفر یا به عبارتی %6/3 خواهد رسید .[4] دیابت نوع دوم %85 تا %95 کل بیماران دیابتی را در کشورهای توسعهیافته تشکیل میدهد و این آمار در کشورهای درحالتوسعه بیشتر است.
تحلیل فاکتورهای بیشمار، کار متخصصان پزشکی را برای تشخیص بیماری دیابت با مشکل مواجه کرده است. یک پزشکمعمولاً بهوسیلهی ارزیابی نتایج آزمایشهای جاری بیمار و همچنین رجوع به تصمیماتی که قبلاً در مورد بیماران مشابه گرفته است، تصمیمگیری میکند. روش اول بستگی به دانش پزشک دارد. از طرف دیگر، روش دوم بستگی به تجربه پزشک در مقایسه بیمار فعلی با بیماران گذشته دارد. این کار با در نظر گرفتن تعداد فاکتورهای زیادی که پزشک مجبور به لحاظ کردن آنهاست، آسان نیست. در این مرحله بحرانی، پزشک ممکن است به ابزار دقیقی احتیاج داشته باشد که تصمیمات قبلی او را در مواجه با بیمارانی که دارای فاکتورهای مشابهی بودهاند، بررسی کند.
هدف از این مطالعه، بررسی چگونگی بروز دیابت با کمک مطالعه مشخصات بیماران و معیارهای دیگر است. هدف بکار بردن یادگیری ماشین در کلینیکهای پزشکی و ساخت یک مدل غربالگری دارای قابلیت پیشبینی است که پیشبینیهای مورد اعتمادی انجام دهد تا متخصصین پزشکی بتوانند از طریق این مدل با تشخیص زودهنگام بیماری، فرایند معالجه را تسریع بخشند.
نوآوری این مقاله پیشنهاد یک مدل ترکیبی مبتنی بر خوشهبندی چندمیانگینی1 و دستهبندی بیزی انعطافپذیر2 میباشد. رویکرد مدل پیشنهادی در پالایش و حذف دادههای نویزی و استثنائی از دادههای آموزشی است. لذا کیفیت آموزش دستهبند بیزی انعطافپذیر بهبودیافته و از پدیده تطبیق بیشازحد دادهها3 در امر آموزش جلوگیری به عمل میآید. لذا دستهبندی کننده بیز انعطافپذیر که برخلاف الگوریتم بیز ساده4 از هستههای متعدد گاوسی برای تخمین مقادیر ویژگیهای هر کلاس بهره میگیرد، با دقت بیشتری نمونهها را دستهبندی خواهد کرد.
ساختار ادامه این نوشتار بهاینترتیب است که در بخش دوم مروری اجمالی بر تکنیکهای خوشهبندی و دسته بندی ارائه گردیده است. در بخش سوم مروری کوتاه بر کارهای پیشین که به نوعی به محتوای این پژوهش مربوط هستند، ارائه خواهد شد. در بخش چهارم رویکرد پیشنهادی این مقاله ارائه میشود. در بخش پنجم ارزیابی نتایج حاصله موردبررسی قرار خواهد گرفت. در بخش ششم مدل پیشنهادی با روشهای دیگر مقایسه شده و درنهایت نتیجهگیری بیانشده است.
-2 پیشزمینه
نظر به اینکه در مدل پیشنهادی این مقاله از تکنیکهایی نظیر خوشهبندی چندمیانگینی و دستهبند بیز انعطافپذیر استفادهشده، در این بخش مروری اجمالی بر روی این الگوریتمها خواهیم داشت.
-1-2 خوشهبندی چندمیانگینی
هدف از تحلیل خوشهای، بخشبندی نمونهها به خوشهها - گروهها - است، بنابراین نمونههایی که در خوشه یکسانی قرار میگیرند، نسبت به نمونه-هایی که در خوشههای متفاوتی قرار میگیرند، شباهت بیشتری به هم دارند. الگوریتم چندمیانگینی یکی از محبوبترین روشهای خوشهبندی است. این روش از فاصله اقلیدسی بهعنوان معیار شباهت استفاده میکند. فرایند کار الگوریتم بدین شکل است که با یک نمونه اولیه تخصیص دادهشده به خوشه، شروع میکند و نمونههای بعدی را به خوشهای که نزدیکترین فاصله را به میانگین آن خوشه دارد اختصاص میدهد و این فرایند تا زمانی که تخصیصها تغییری نکنند ادامه مییابد
این الگوریتم به منظور خوشهبندی دادههای عددی که در آن هر خوشه حول میانگین دادهها شکل میگیرد، طراحیشده است. اگر D یک مجموعه داده با n نمونه باشد و c1, c2 ,..., ck ، k تا خوشه غیر همپوشان از D باشند، بنابراین تابع خطا بهصورت زیر تعیین میشود.
در اینجا - - ci مرکز خوشه ci است، - - - ci d - x, اشاره به فاصله بین x و - - ci دارد و یک گزینه معمول برای محاسبه این فاصله، فاصله اقلیدسی است. منظور از D مجموعه داده است، k تعداد خوشهها است و ci معرف i امین خوشه است.
الگوریتم چندمیانگینی میتواند به دو فاز تقسیم شود: فاز مقداردهی اولیه و فاز تکرار. در فاز مقداردهی اولیه الگوریتم به صورت تصادفی نمونهها را به k تا خوشه نسبتدهی میکند. در فاز تکرار الگوریتم فاصله بین هر نمونه و هر خوشه را محاسبه میکند و آن نمونه را به نزدیکترین خوشه نسبت میدهد.
-2-2 روش دستهبند بیز انعطافپذیر
در کار با دادههای پزشکی استفاده از مدل بیزی که دارای پشتوانه آماری مناسبی است، پذیرش بیشتری در بین محققین دارد. از مزیتهای اصلی رویکرد بیزی که موردتوجه متخصصین پزشکی قرار دارد، استفاده کامل از اطلاعات موجود، به منظور توضیح تصمیم گرفتهشده توسط الگوریتم میباشد. این توضیحات در مورد تشخیص های پزشکی قابل قبول بوده و به روش جاری پزشکان برای تشخیص بیماری نزدیک است
با توجه به اینکه دادههای بیماران دیابتی پیوسته هستند الگوریتم بیز انعطاف پذیر از مجموعه ای از هسته های گاوسی5 به منظور تخمین توزیع احتمال برای هر دسته استفاده میکند. در این حالت توزیع بر روی یک مجموعه ای از هسته های گاوسی میانگین گیری میشود که تعداد این هسته ها برابر تعداد مقادیر iامین ویژگی در کلاس vi است و این هسته ها میانگینی برابر u دارند و انحراف معیار برابر 1 دارند که Mv برابر تعداد M v نمونههای موجود در کلاس v است
-3 کارهای مرتبط پیشین
در سالهای اخیر استفاده از دسته بندی کننده های باقابلیت پیشبینی در تشخیصهای پزشکی پیشرفت قابلتوجهی داشته است. بخش اعظم مقالات منتشرشده در حوزه دستهبندی کنندههای پیشگویانه برای داده بیماران دیابتی باهدف بهبود دقت در دستهبندی نمونهها است. در [8] الگوریتمی بنام ARTMAP-IC معرفیشده است که 576 نمونه را به عنوان داده آموزشی و 192 نمونه را به عنوان داده آزمایشی بکار گرفته است، این مدل به دقت %81 دستیافته است. شبکه عصبی دقت %75/4 بر روی این داده- ها به دست آورده است درحالیکه رویکرد مبتنی بر شبکه عصبی بیزی به دقت %79/5 دستیافته است .[9] در [10] مدلی معرفیشده است که دقت %84/24 را به دست آورده است.
در [11] از مجموعه داده بیماران دیابتی بهمنظور ارزیابی الگوریتم یادگیری شبیه به پرسپترون به نام - ADAP - استفاده شده است. آنها در این پژوهش از 576 نمونه بهعنوان داده آموزشی و 192 نمونه داده آزمایشی استفاده کردهاند. دقت و حساسیت مدل آنها %76 به دست آمده است. همچنین در [12] ساختار شبکه عصبینسبتاً جدیدی به نام شبکه عصبی مبتنی بر رگرسیون عمومی را بر روی این مجموعه داده بکار برده اند و به دقت %80/21 دستیافتهاند.
در پژوهش دیگری، پاتیل و جاشی6 سیستمنسبتاً جدیدی معرفی کردهاند که بر اساس الگوریتم درخت تصمیم عمل میکند . درخت تصمیم با استفاده از الگوریتم C4.5 ساخته شده است. همچنین بهمنظور داشتن یک معیار کارایی مؤثر، تکنیک اعتبارسنجی متقابل 10 مرحلهای استفادهشده است. دقت بهدستآمده %92/38 است. میزان حساسیت مدل %90/38 و میزان اختصاصی بودن مدل نیز %93/29 است
همچنین الگوریتم پیشنهادی خودمان را با تحقیقات وسیعی که اشپیگل هالتر و میچی7 انجام دادهاند و 22 نوع الگوریتم مختلف را بر روی داده بیماران دیابتی آزمایش کردهاند مقایسه کردهایم. دقت بیشتر این الگوریتمها در محدوده %67/6 تا %77/7 است .[14] همچنین نتایج مدل ترکیبی ارائهشده در این مقاله با مدل معرفیشده در [15] مقایسه میشود که یک سیستم یادگیری آبشاری بر پایه تحلیل مشخصه تعمیمیافته و ماشین بردار پشتیبان8 است. دقت دستهبندی گزارششده بهوسیله این روش %82/05 است. همچنین تعدادی از الگوریتمهای دستهبندی مختلف با استفاده از مجموعه داده مشابه بهدقت بین %59/5 تا %77/7 دستیافتهاند.
پولات و گونژ در مقاله دیگری سیستم خبرهای را ارائه دادهاند که مبتنی بر تحلیل عنصر اصلی و سیستم استنتاج نرو-فازی وفقپذیر است. سیستم پیشنهادی شامل دو مرحله است. در مرحله اول ابعاد مجموعه داده از 8 به 4 به وسیله تکنیک تحلیل عنصر اصلی کاهش پیدا میکند. در مرحله بعدی تشخیص بیمار دیابتی از طریق دستهبندی کننده سیستم استنتاج نرو-فازی وفقپذیر انجام میگیرد. دقت بهدستآمده برای دسته-بندی داده بیماران دیابتی بهوسیله این روش %89/47 گزارششده است
در [17] مدلی سه مرحلهای مبتنی بر ماشین بردار پشتیبان معرفیشده است که به دقت %93/58 دستیافته است. آنها در این پژوهش در ابتدا از تکنیک تحلیل عنصر اصلی9 بهعنوان استراتژی انتخاب ویژگی از بین همه ویژگیها استفاده کردهاند. این تکنیک ابعاد مجموعه داده را از 8 به 4 کاهش میدهد. سپس بهمنظور اثربخشی بیشتر ویژگی های مرتبط را بر اساس میزان اهمیتشان بهوسیله تکنیک اطلاعات متقابل10 وزندهی میکنند. سپس ماشین بردار پشتیبان را برای دسته بندی داده بیماران استفاده کردهاند.
در پژوهش دیگری باقرزاده و اخوان نیاکی یک مدل ترکیبی معرفی کردهاند که شامل سه دستهبند مبنا است. آنها در ساخت مدل ترکیبی از تکنیک پشتهسازی11 بهره گرفتهاند و از سه دستهبند مبنای بیز انعطاف-پذیر، درخت تصمیم و ماشین بردار پشتیبان استفاده کردهاند. همچنین در مواجه با دادههای گمشده از روش چندین انتساب استفاده کردهاند. دقت بهدستآمده توسط روش پشتهسازی %91/88 و حساسیت مدل نیز %86/59 گزارششده است
-4 روش پیشنهادی
روش پیشنهادی این مقاله حاوی یک مدل ترکیبی مبتنی بر خوشهبندی چندمیانگینی و دستهبندی بیزی انعطافپذیر میباشد. رویکرد مدل پیشنهادی در پالایش و حذف دادههای نویزی و استثنائی از دادههای آموزشی میباشد لذا کیفیت آموزش دستهبند بیزی انعطافپذیر بهبودیافته و از پدیده تأثیر بیشازحد دادهها در امر آموزش جلوگیری به عمل میآید. لذا دستهبندیکننده بیزی با دقت مناسبی احتمال تعلق هر نمونه به کلاس مناسب را تخمین میزند و دستهبندی دقیقتری حاصل میگردد. مدل ترکیبی بهدستآمده میتواند برای غربالگری اینکه آیا شخص موردنظر ممکن است در 5 سال آینده مستعد دیابت باشد یا خیر، بکار گرفته شود.
-1-4 مراحل روش پیشنهادی
با توجه به تعریف مسئله و اهداف موردنظر مدل ترکیبی پیشنهادی طبق مراحل زیر ارائه میگردد.
-1 مرحله اول اخذ دادههای آمادهشده بهوسیله مؤسسات پزشکی است. این دادهها حاوی نمونههایی از اشخاص کاندید برای کشف بیماری دیابت میباشند که برای هر شخص مجموعهای از فاکتورهای مؤثر در بیماری دیابت ثبتشده است.
-2 در طول مرحله پیشپردازش داده، برخی از دادههای ناسازگار و نامناسب به شرحی که در بخش 2-4 خواهد آمد، حذف میشوند.
-3 در مرحله خوشهبندی داده، استخراج الگو با استفاده از الگوریتم چندمیانگینی انجامگرفته است. نمونههای بااعتبار بیشتر شناسایی میشوند و نمونههای بااعتبار پایین حذف میشوند. شرح جزئیات این قسمت در بخش 3-4 آمده است.
-4 آموزش مدل بیز با استفاده از داده استخراجشده از مرحله قبل انجام میگیرد. جزئیات این آموزش در بخش 4-4 ارائه شده است.