بخشی از مقاله

چکیده

هپاتیت یک بیماری ویروسی است که امروزه در جهان گسترش بسیار زیادی پیدا کرده است. تشخیص زودهنگام این بیماری میتواند کمک زیادی جهت پیشگیری از این بیماری نماید. با استفاده از الگوریتمهای دادهکاوی میتوان سیستمهای پشتیبان تصمیمی ارائه کرد که بتوانند به عنوان همیار پزشک جهت تشخیص هپاتیت مورد استفاده قرار گیرند.

این الگوریتمها توانستهاند کارایی قابل ملاحظهای را در سیستمهای تشخیص پزشکی ارائه نمایند. هدف از این مقاله، تشخیص بیماری هپاتیت با استفاده از روش های دادهکاوی است. به این منظور از الگوریتمهای مختلف دادهکاوی استفاده شده است. سپس کارایی این الگوریتمها با هم مقایسه شدهاند. نتایج نشان میدهد که روش تشخیص تجمیع خودراه انداز بهترین کارایی را از خود نشان داده است.

-1 مقدمه

امروزه بیماریهای ویروسی یکی از مهمترین و شایعترین بیماریهای جهان میباشد که مشکلات عمدهای را برای سلامت و بهداشت همگانی در سراسر جهان به وجود آورده است. این نوع بیماریها توسط یک عامل خارجی که ویروس نامیده میشود وارد بدن شده و باعث بیماری در شخص میگردد . بیماریهای که در اثر ویروس ایجاد میشود هر کدام دارای علائم دوره کمون متفاوت هستند.

هپاتیت یکی از این نوع بیماریهای ویروسی میباشد که دارای خطر بسیار شدید در بیماران میشود و حتی میتواند باعث مرگ بیماران مبتلا به این نوع ویروس شود. این بیماری دارای انواع مختلف میباشد که می توان به هپاتیت نوع ...A,B,C,D,E اشاره کرد. مبتلایان به این نوع بیماری دارای علائمی شامل درد شکمی توأم با یرقان, ادرار پررنگ و مدفوع گلی رنگ میباشند. سایر علائم این بیماری مانند تب, استفراغ و تهوع, اسهال, راش پوستی, و التهاب مفاصل است که باید برای این نوع بیماران مورد بررسی قرار گیرد.

ویروس هپاتیت A از خانواده پیکورنا ویروسها و جنس هپاتویروس است کهقبلاً تحت عنوان آنتروویروس 72 طبق بندی شده است. اما اکنون بنام هپاتیت عفونی نامیده میشود. این ویروس کروی شکل است و تقارن 20 وجهی دارد. بدون پوشش است , RNA آن مثبت است. توسط دهان و مدفوع انتقال مییابد. دوره کمون آن تقریبا 1 ماهه است. بیماری مزمن کبدی ایجاد نمیکند و به ندرت کشنده است و هیچ تشابه آنتیژنی با دیگر ویروسهای کبدی ندارد.

انسان و میمون میزبانهای طبیعی این ویروس هستند. نوکلئوکسید آن در برابر اتر و اسید از سایر پیکورنا ویروسها مقاومتر است و بعلت همین مقاومت باید در برخورد با بیماران مبتلا احتیاط کرد. با استفاده از گیرندههای سطح سلولهای کبدی وارد سلول میشود . جزئیات پاتوژنیسیته برای این ویروس مشخص نیست. از طریق دستگاه گوارش فرد را آلوده میکند. آلودگی با ویروس هپاتیت A به ندرت از طریق سرنگ و سوزن آلوده یا انتقال خون پیش میآید. همودیالیز هیچ نقشی در انتشار آن میان کارکنان بخش ندارد.

شیوع آنتی بادی در افراد دارای سطح اقتصادی و اجتماعی پایین بالاتر است. در کشورهای در حال توسعه و عقبمانده اکثر مبتلایان کودکان هستند در حال که در کشورهای پیشرفته ابتلا در سنین بالاتر است. تقرباًی 40 درصد موارد حاد هپاتیت توسط هپاتیت A ایجاد شده است.

ویروس هپاتیت B عامل مولد هپاتیت سر است و جزء ویروسهای کبدی DNA دار طبقهبندی میشود. از طریق مایعات بدن, خون, مقاربت جنسی و در ماه های آخر حاملگی از مادر به جنین منتقل میشود و ابتلا به این بیماری هیچ ارتباطی به سن, فصل و جنس ندارد. دارای دوره کمون متوسط سه ماهه است.

در 5 تا 10 در صد مبتلایان تبدیل به حالت مزمن میشود و گاهی منجر به سرطان کبد میشود. بافت هدف این بیماری و میزبان آن محدود و فقط در کبد, گاهی پانکراس و کلیه انسان و میمون را نیز آلوده میکند. این ویروس 3 روز پس از حمله به سلولهای کبدی شروع به تکثیر مینماید; اما علایم بالینی بعلت نامعلوم حدود 45 روز بعد ظاهر میشود که بستگی به راه ورود مقدار ویروس و وضعیت فرد مبتلا دارد. حدود 85 در صد بیمارانکاملاً بهبود حاصل پیدا میکند. مرگومیر بین 0/6 -2/7 درصد است که بسته به سن و شرایط متغیر است. حدود 10 تا 5 در صد افراد به هپاتیت مزمن میشوند که این مبتلایان منبع اصلی انتشار ویروس در جامعه هستند.

ویروس هپاتیت C دارای پوشش با RNA مثبت که جزء فلاوی ویروس طبقهبندی میشود. دوره کمون بیماری 4 تا 3 روز در موارد طولانی 4 تا 3 ماه استمعمولاً. هپاتیت C از لحاظ بالینی خفیف بوده و نیاز به بستری شدن ندارد و اکثر بیماران بدون علایم بالینی هستند. بهرغم طبیعت ملایم بیماری 50 تا 30 در صد آنها به سمت مزمن شدن پیش میروند.

مهمترین راه انتقال بیماری از طریق خون و فرآوردههای خونی آلوده است. تزریق وریدی مواد مخدر, پیوند اعضا آلوده, مقاربتهای جنسی و دریافتکنندگان فاکتورهای خونی آلوده نیز از راههای انتقال این ویروس است. اکثر مبتلایان به هپاتیت C معتادین تزریق داخل وریدی هستند .فعلاً واکسنی برای این بیماری وجود ندارد. ایمنی حاصل از عفونت بادوام و پیشگیریکننده نمیباشد. هپاتیت مزمن پایدار حاصله از ویروس هپاتیت C شایعتر از نوع B میباشد که حدود 20 درصد آن به سیروز و نارسایی کبد منجر میشود.

هپاتیت D فقط در بیمارانی که به صورت طولانی ناقل ویروس هپاتیت B هستند بروز میکند. علائم این بیماری مشابه سایر هپاتیتهای ویروسی است؛ با این تفاوت که سیر شدیدی دارد و گاهی سبب تخریب کامل کبد و مرگ میشود.

از آنجایی که در قرن حاضر ایدز و هپاتیت B دو بیماری لاعلاج هستند باید به آنها توجه بیشتری کرد. زیرا ویروس ایدز در خارج از بدن تنها 30 ثانیه زنده میماند اما ویروس هپاتیت Bدر خارج از بدن 2 الی 3 ساعت زنده است. از این رو احتمال آلودگی به این ویروس بیشتر خواهد بود. بر اساس تخمین سازمان بهداشت جهانی 385 میلیون ناقل هپاتیت B و 170 میلیون ناقل هپاتیت C در جهان وجود دارد و سالانه بیش از یکمیلیون مورد مرگ در اثر هپاتیت اتفاق میافتد.

هدف از این پژوهش تشخیص بیماری هپاتیت با استفاده از روشهای دادهکاوی است. دویگو و هم کارش[ 1] با استفاده از روش PCA-LSSVM برای تشخیص بیماری هپاتیت استفاده نمودند. جواد سلیمی و همکارانش [ 2] از روش SVM-SA که یک روش ترکیبی و پیشرفته مبتنی بر ماشین بردار پشتیبان استفاده نمودهاند. بندی و همکارانش [ 3] با استفاده از روش طبقهبندی نیو بیز ین برای دستهبندی بیماری کبدی استفاده نمودهاند.

-2 روش پیشنهادی

هدف از این مقاله، ارائه روشی مقایسهای برای تشخیص بیماری هپاتیت میباشد . به این منظور با استفاده از روشهای مختلف دادهکاوی بیماری هپاتیت تشخیص داده شده و سپس نتایج آنها با هم مقایسه میشود. مراحل روش پیشنهادی با جزئیات بیشتر در زیر آمده است.

-1-2  جایگزین کردن مقادیر گمشده

برای جایگزین کردن مقادیر گمشده در این پژوهش از روش مبتنی بر نزدیکترین همسایه استفاده شده است. در این روش مقادیر گمشده با میانگین . نزدیکترین همسایه جایگزین میشود. برای پیدا کردن نزدیکترین همسایهها از فاصله اقلیدسی استفاده شده است.

-2-2 آنالیز اجزای اصلی

آنالیز اجزا اصلی - PCA - یک تکنیک مفید آماری است که در زمینههای بسیاری مثل تشخیص چهره، فشردهسازی تصویر و طبقهبندی دادهها از آن استفاده شده است. در این روش دادههای در ابعاد بالاتر به ابعاد پایینتری برده میشوند و ویژگیهای جدیدی تشکیل میشود. این روش به صورت زیر بیان میشود.                        
فرض کنید M یک مجموعه داده t بعدی است. n محور اصلی  1 تا    که Q بین 1 تا t است. محورهایی ارتونرمال - محورهای هستند عمودبر هم با مقدار بردار واحد - هستند که واریانس آنها نسبت به بقیه محورها در فضای نگاشت ماکزیمم است 

-3-2  طبقه بندی

در این قسمت از طبقه بندی کننده های مختلف جهت مدل کردن دادهها استفاده شده است.

1-3-2  ماشین بردار پشتیبان

ماشین بردار پشتیبان - - SVM یک شیوه دقیق برای طبقهبندی دادههای خطی و غیرخطی است که در سالهای اخیر به دلیل ارائه نتایج خوب و دقیق از آن استفاده میشود. الگوریتمهای ماشین پشتیبان با کمک یک نگاشت غیرخطی فضای دادههای آموزشی را به یک بعد بالاتر تبدیل میکند و سپس در این بعد جدید به دنبال ابر صفحهای است که نمونههای یک کلاس را از کلاس دیگر جدا کند. با یک نگاشت غیرخطی مناسب، مجموعه دادههای دو کلاسی میتوانند توسط یک ابر صفحه جدا شوند. در شکل زیر این نگاشت نشان داده شده است

شکل - 1 - ابرسطح: با حداکثر مرزِ جداکننده به همراه مرزهای جداکننده برای طبقه بندی نمونه دادههای مربوط

2-3-2  درخت تصمیم

ساختار درخت تصمیم - Decision Tree - در یادگیری ماشین، یک مدل پیشبینی کننده میباشد که حقایق مشاهده شده در مورد یک پدیده را به استنتاجهایی در مورد مقدار هدف آن پدیده نقش میکند. تکنیک یادگیری ماشین برای استنتاج یک درخت تصمیم از دادهها، یادگیری درخت تصمیم نامیده میشود که یکی از رایجترین روشهای دادهکاوی است. هر گره داخلی متناظر یک متغیر و هر کمان به یک فرزند، نمایانگر یک مقدار ممکن برای آن متغیر است.

یک گره برگ، با داشتن مقادیر متغیرها که با مسیری از ریشه درخت تا آن گره برگ بازنمایی میشود، مقدار پیشبینی شده متغیر هدف را نشان میدهد. یک درخت تصمیم ساختاری را نشان می دهد که برگها نشان دهنده دستهبندی و شاخهها ترکیبات فصلی صفاتی که منتج به این دستهبندیها را بازنمایی میکنند. این ساختار تصمیمگیری میتواند به شکل تکنیکهای ریاضی و محاسباتی که به توصیف، دستهبندی و عام سازی یک مجموعه از دادهها کمک میکنند نیز معرفی شوند. دادهها در رکوردهایی به شکل - , - = - 1, 2 , … , - داده میشوند. با استفاده از متغیرهای    سعی در درک، دستهبندی یا عام سازی متغیر وابسته Y داریم.

3-3-2 دسته بندی بیزین

دسته بندی بیزی با روشهای آماری صورت میپذیرد. این روش مبتنی بر تئوری بیز است 

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید