بخشی از مقاله

چکیده

افزایش روز افزون داده ها در مراکز پزشکی باعث حجیم شدن پایگاه داده های موجود در این مراکز شده است از این رو کشف دانش پنهان از این داده های خام در راستای تشخیص بیماریها، ریشه یابی دلایل یک بیماری و همچنین اقداماتی موثر جهت درمان بیمار، بسیار مفید خواهد بود. دیابت یا مرض قند یک اختلال مزمن متابولیک یا سوخت و سازی در بدن است که سرعت و توانایی بدن در استفاده و سوخت و ساز کامل قندها کاهش می یابد.

از این رو میزان قند خون کاهش می یابد. در تعریف سازمان بهداشت جهانی دیابت یک بیماری است که در آن بدن یا دچار کمبود انسولین است یا انسولین تولیدی را به درستی مصرف نمی کند. عوامل به وجود آورنده دیابت هنوز هم ناشناخته است البته عوامل ژنتیکی و چاقی و کم تحرقی نقش مهمی در ابتلای افراد به دیابت دارند. با توجه به حجم انبوه تعداد بیماران، می توان از یک ابزار داده کاوی برای شناخت الگوی این بیماران استفاده کرد. در این مقاله برآن هستیم که الگوریتمی ترکیبی را جهت شناسایی بیماری دیابت با استفاده از الگوریتمهای مختلف شناسایی و به علم پزشکی معرفی کنیم تا با این کار قدمی کوچک در راه علم پزشکی برداریم. تعداد دادههای مورد استفاده در این مقاله 768 داده است که شامل 8 ویژگی است که هریک بیان کننده مشخصه ای پزشکی مربوط به وضعیت فرد سالم و بیمار مبتلا به دیابت است.

-1 مقدمه

داده کاوی در تعریف کلی به مجموعه ای از روشها برای دریافت اطلاعات از یک مجموعه داده و تبدیل آن به نتیجه ای معنادار گفته می شود. در حالت عمومی این روشها زمانی ارزش خود را نشان می دهند که روی مجموعه بزرگی از داده ها پیاده سازی شده و الگوها و قوانین موجود در آنها را نمایان سازد. داده کاوی به گونه ای از تکنیکها برای شناسایی اطلاعات یا دانش تصمیم گیری از قطعات داده است به طوری که با استخراج آنها در حوزه های تصمیم گیری، پیش بینی، پیشگویی و تخمین مورد استفاده قرار گیرد. داده ها اغلب حجیم و بدون ارزش هستند و به تنهایی قابل استفاده نیستند، بلکه دانش نهفته آنها قابل استفاده است از تکنیکهایی که برای داده کاوی گرفته می شود می توان به خوشه بندی، کشف قوانین وابستگی، طبقه بندی و ... اشاره کرد - . - 1 بیماری دیابت یکی از شایعترین و مخربترین بیماریهای حال حاضر دنیا شناخته شده است که عمدتا در کشورهای توسعه یافته و یا درحال توسعه، در حال گسترش میباشد.

در حال حاضر از هر20 نفر ایرانی یک نفر به این بیماری مبتلا میباشد که نیمی از این تعداد نیز از ابتلاء خود به دیابت اطلاعی ندارند - . - 2 از جمله عوارضی که به دنبال مبتلا شدن افراد به این بیماری گریبانگیر آنها خواهد شد میتوان به گرفتگی عروق قلبی و در نوع پیشرفته آن به نابینایی، قطع اعضای بدن، اختلالات فکری و ... اشاره نمود که این خود ضرورت یاری رساندن به این گونه از بیماران را دو چندان می کند - . - 4

مشکل عمده ای که در حال حاضر در رابطه با این بیماری مخرب و خطرناک وجود دارد عدم تشخیص به موقع و یا به طور کلی ضعف در تشخیص این بیماری می باشد، که این ضعف نیز اغلب به دلیل عدم انتخاب ویژگیهای استاندارد بوجود می آید که در نتیجه آن بیمار زمانی متوجه این بیماری می شود که شاید کمی برای درمان و کنترل دیر شده باشد. با توجه به شیوع دیابت نوع دو در سراسر جهان، استفاده از روشهای جدید در تحقیقات پزشکی زیستی بسیار مورد توجه قرار گرفته است. داده کاوی می تواند ارتباطات و وابستگی های جدید و بدیعی را کشف کند که برای پزشکان مفید هستند . داده کاوی نشان دهنده یک پیشرفت قابل توجه در انواع ابزار تحلیلی در دسترس است و به عنوان یک روش معتبر، حساس و قابل اعتماد برای کشف الگوها و روابط بین آن ها در نظر گرفته می شود - . - 3

-2 پایگاه داده استفاده شده

در این مقاله از مجموع داده های پزشکی استانداردی که در مخزن داده دانشگاه کالیفرنیا - 17 - PID در دسترس می باشد استفاده شده است. این مخزن داده تاکنون به طور گسترده ای توسط پژوهشگران، مدرسین و دانشجویان در سراسر جهان به عنوان منبع اصلی پایگاه داده یادگیری ماشین و داده کاوی در مطالعات و پژوهشها استفاده می گردد. پژوهشگران با استفاده از مجموعه داده های پزشکی موجود در این مخزن داده میتوانند روش مناسبی برای تشخیص این بیماریها ارائه کنند و کارهای خود را با این مجموعه داده ارزیابی کنند.

این داده ها در بر دارنده 8 ویژگی 768 زن که حداقل 21 سال سن دارند می باشد از میان 768 نفر 500 نفر سال و 268 نفر دیگر مبتلا به بیماری دیابت هستند. 8 ویژگی برای این افراد براساس استانداردهای سازمان بهداشت جهانی ثبت شده است که عبارتند از: تعداد دفعات بارداری - غلظت گلوکز پلاسمای خون در دو ساعت - فشار دیاستولیک خون - - mm Hg - ضخامت پوست ماهیچه سه سر بازویی - - mm - انسولین سرم دو ساعته - - mu U/ml - شاخص جرم بدن - - kg/m2 - سابقه بیماری دیابت - سن

-3 الگوریتم پیشنهادی

الگوریتم پیشنهادی شامل سه مرحله کلی میباشد که در شکل 1 نشان داده شده است. در مرحله اول اطلاعات پایگاه داده وارد برنامه می شود که در مورد پایگاه داده به طور کامل در قسمت قبلی صحبت شد. سپس به اجرای تکنیکها و الگوریتمها داده کاوی مربوطه می پردازیم و در نهایت به تشخیص بیماری دیابت دست می یابیم.

-4 استخراج الگوهای بهینه با استفاده از الگوریتم ژنتیک

الگوریتم ژنتیک الهامی از علم ژنتیک و نظریه تکامل داروین است و براساس بقای برترین ها یا انتخاب طبیعی استوار است. یک کاربرد متداول الگوریتم ژنتیک استفاده از آن بعنوان تابع بهینه کننده است در الگوریتمهای ژنتیکی نحوه تکامل ژنتیکی موجودات زنده شبیه سازی می شود. در هر مرحله از اجرای الگوریتم ژنتیکی یک دسته از نقاط فضای جستجو مورد پردازش های تصادفی قرار می گیرند.

به این صورت که هر نقطه دنباله ای از کاراکترها نسبت داده می شود و بر روی این دنباله ها، عملگرهای ژنتیکی اعمال می شود .سپس دنباله های بدست آمده دیکد می گردد تا نقاط جدیدی در فضای جستجو بدست آید. در آخر براساس این که تابع هدف در هر یک از نقاط چه مقدار باشد، احتمال شرکت نمودن آنها در مرحله بعد تعیین می گردد. ممکن است تمام ویژگی های استخراج شده در تفکیک نمونه های هدف از غیر هدف مفید نباشند و یا حتی در بعضی از موارد ممکن است نتایج را بدتر کنند. برای حل این مشکل در این مقاله از الگوریتم تکاملی باینری برای پیدا کردن ویژگی های غالب استفاده شده است.

تابع ارزیابی به صورت Fitness=w - s - + - n-s - /n است که در آن w - s - نشان دهنده دقت طبقه بندی برای زیر مجموعه s است. s نشان دهنده تعداد ویژگی های انتخاب شده و n نشان دهنده تعداد کل ویژگی ها نمی باشد. برطبق فرمول تعداد 4 تا از 8 تا ویژگی شامل: غلظت گلوکز پلاسمای خون در دوساعت، ضخامت پوست ماهیچه سه سر بازویی، سابقه بیماری و سن می باشد، استخراج گردید.

-5 مدل C&R Tree

C&T یک درخت تصمیم به حساب می آید که به ما این اجازه را می دهد که ملاحظات آینده را پیشگویی و دسته بندی کنیم. این روش بر پایه قسمت بندی و جزء بندی بازگشتی است تا رکوردهای آموزشی را به داخل قطعه ها و اجزاء بخش بندی با کم کردن و حرص کردن بخشهای ناخالص و غیر مهم در در هر مرحله، دسته بندی و تقسیم بندی کنیم. مهمترین خصوصیت درخت های تصمیم گیری قدرت بالای آنها در خرد کردن یک مساله پیچیده به مسایل کوچکتر و در نتیجه ارایه یک راه حل قابل درک می باشد. همانطور که در شکل 3 نشان داده شده است اولویت ویژگی غلظت گلوکز پلاسمای خون در دو ساعت از همه ویژگی ها بیشتر و اولویت ویژگی انسولین سرم دو ساعته از همه کمتر است.

-6 مدل شبکه عصبی

این الگوریتم یک مدل ساده شده نحوه ساز وکار پردازش اطلاعات توسط ذهن انسان می باشد. - شکل - 4 این الگوریتم با شبیه سازی تعداد زیادی از واحدهای پردازش ساده مرتبط با یکدیگر که مشابه فعالیت بعضی از نرون های عصبی است، کار می کند. شبکه های عصبی یک تابع تخمین کلی بسیار قدرتمندی هستند و به دانش ریاضی و آماری بسیار کمی برای کار کردن با آنها نیازاست. در مدل پیشنهادی در این مقاله ما از شبکه های عصبی Multiple استفاده می کنیم.

-7 ارزیابی روش پیشنهادی

در ابتدا داده ها از پایگاه داده استخراج شده و با استفاده از الگوریتم ژنتیک باینری به طور تصادفی جمعیت اولیه که در ابتدا یک کروموزوم 8 بیتی می باشد انتخاب و با استفاده از تابع تناسب ویژگی های غالب استخراج می گردند که منجر به کاهش ویژگی ها از 8 به 4 می شود و سپس با استفاده از درخت C&R که قادر به تولید صفات قابل درک از روابط موجود در یک مجموعه داده هایی هستند که می تواند برای وظایف دسته بندی و پیش بینی به کار روند، قوانین تولید می گردد. پس از آن با استفاده از شبکه عصبی که در این پروژه روش پیشنهاد شده از یک پرسپترون چند لایه با الگوریتم پس انتشار برای آموزش بهره می گیرد.

-8 جمع بندی و نتیجه گیری

از تکنیکهای داده کاوی می توان در کشف قوانین و استخراج اطلاعات مفید در حیطه های مختلف از جمله داده های پزشکی بهره گرفت. در این مقاله به مساله تشخیص دیابت با استفاده از تکنیک های دسته بندی داده کاوی پرداخته شده است. این تحقیق نشان می دهد که پیشگویی های داده کاوی ابزارهای ضروری را برای محققان و پزشکان جهت بهبود در پیشگیری از بیماریها، روشهای تشخیص و برنامه های درمانی فراهم می نماید .

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید