بخشی از مقاله
چکیده
امروزه کشف دانش از مجموعه انبوهی از دادهها مورد توجه محققین قرار گرفته است. دادهکاوی در به دست آوردن اطلاعات مربوط به انواع بیماریها در پزشکی اهمیت بسیاری دارد. هدف از دادهکاوی در این پروژه بدست آوردن اطلاعات لازم برای تشخیص بیماری کبد از روی ویژگیهای آن است.حساسترین و پر مصرفترین آنزیمهای تشخیصی کبد، آمینوترانسفرازها هستند. تحت شرایط عادی آنزیمها درون سلولهای کبدی وجود دارند اما زمانی که کبد آسیب میبیند این آنزیمها وارد جریان خون میشوند، بالارفتن سطح آنزیمها در خون نشانه آسیب کبدی است.
این پروژه شامل معرفی ویژگیهای مجوعه داده مورد استفاده،پیش پردازش، مصور سازی،یادگیری مدل با استفاده از روشمبتنی درخت تصمیم و روش مبتنی بر قانونمیباشد. با بررسی دو مدل مبتنی بر درخت و مبتنی بر قانون برای مجموعه داده مورد نظر به این نتیجه رسیدیم که مدل مبتنی بر درخت تصمیم به دلیل داشتن دقت بالاتر بهتر از مدل مبتنی بر قانون برای این مجموعه عمل میکند.
کلمات کلیدی
آزمایش، بیمار غیر کبدی، بیمار کبدی،مجموعه داده، روش دستهبندی
-1 مقدمه
امروزه کشف دانش از مجموعه انبوهی از دادهها مورد توجه محققین قرار گرفته است.در این راستا دادهکاوی به عنوان یکی از کاراترین ابزارهای تحلیل داده و اطلاعات، توجه بسیاری را به خود جلب کرده است.[2] دادهکاوی در بدست آوردن اطلاعات مربوط به انواع بیماریها در پزشکی اهمیت بسیاری دارد. حساسترین و پر مصرفترین آنزیم-های تشخیصیکبد، آمینوترانسفرازهاهستند. این آنزیمها بطور معمول داخل سلولهای کبدی قرار دارند زمانی که کبد دچار آسیب میشود سلولهای کبدی آنزیمها را وارد جریان خون میکنند، بالارفتن سطح آنزیمها در خون نشانه آسیب کبدی است.
هدف از داده کاوی در این پروژه بدست آوردن اطلاعات لازم برای تشخیص بیماری کبد از روی ویژگیهای آن است. برای تشخیص بیماری کبد از تستهای آسپارتات آمینوترانسفراز،آلانین آمینوترانسفراز،آلکالین فسفات،نسبت آلبومین به گلوبولین، توتال پروتئین،بیلی روبین، بیلی روبین مستقیم، توتال بیلی روبین، آلبومیناستفاده شده است، همچنین در این مقاله از ویژگیهای سن و جنسیتنیز استفاده شده است. [6,5]
-3-2 آزمایش آلکالین فسفات
نام دیگر آنفسفاتاز قلیایی است. این آزمایش مقدار آنزیم آلکالین فسفاتاز یا آلکالن فسفاتاز را در خون اندازهگیری مینماید. این آنزیم در کبد و استخوان و تا حدی در رودهها و کلیه ساخته میشود.[13]مقدار بالای این ویژگی معمولاً به این معنی است که یا کبد آسیب دیده یا شرایطی که منجر بهافزایش فعالیت سلولهای استخوان شده است وجود دارد.[15]
-2 بررسی ویژگیهای مورد استفاده در مجموعه داده
-1-2 آزمایش آسپارتات آمینوترانسفراز
این آزمایش برای تشخیص آسیب کبدی و یا کمک به تشخیص بیماریهای کبدی درخواست میشودو وقتی که پزشک فکر میکند بیمار دارای علائم اختلال کبدی است.
آسپارتات آمینوترانسفراز آنزیمی در سلولهای سراسر بدن است، اما بیشتر در قلب و کبد و تا حد کمتری در کلیهها و ماهیچه یافت میشود. در افراد سالم، سطح آسپارتات آمینوترانسفراز در خون پایین است. هنگامی که سلولهای کبد یا عضله آسیب میبینند،
آسپارتات آمینوترانسفراز را داخل خون آزاد میکنند و مقدارآسپارتات آمینوترانسفراز در خون بالا میرود. به همین دلیل آزمایش آسپارتات آمینوترانسفراز یک آزمایش مفید برای تشخیص آزمایش کبدی است.[16]
-2-2 آزمایشآلانین آمینوترانسفراز
این آزمایش برای تشخیص آسیب کبدی و یا کمک به تشخیص بیماری کبدی است.بیشتر در سلولهای کبد و کلیه یافت میشود؛ مقادیر بسیار کوچکتر آن نیز در قلب و عضلات یافت میشود. در افراد سالم، سطح آلانین آمینوترانسفرازدر خون پایین است. زمانی که کبد آسیب دیده است،معمولاً قبل از آنکه علائم بارزتر آسیب کبدی مانند زردی رخ دهد، آلانین آمینوترانسفرازداخل جریان خون آزاد میشود
. این امر آلانین آمینوترانسفراز را یک آزمایش مفید برای تشخیص آسیب کبدی میسازد.[11]
-4-2 آزمایش نسبت آلبومین به گلوبولین
این آزمایش مقدار کلی انواع مختلف پروتئینهای پلاسمای خون شما را اندازه میگیرد.دو پروتئین درون خون عبارتند از آلبومین و گلوبوبین حامل بسیاری از پروتئینهای کوچک درونخون میباشد اما هدف اصلی آن جلوگیری از رخنه مایعات از عروق خونی به بیرون است. نسبت آلبومین به گلوبولین از طریق محاسبه مستقیم توتال پروتئین و آلبومین بدست میآید.[14]
-5-2 آزمایش توتال پروتئین
پروتئینهای خون شامل دو گروه آلبومین و گلوبولین میباشد. دراین آزمایش کل پروتئینهای خون بدون توجه به نوع آنها اندازهگیری می-شود.[7]
- 6-2 آزمایش بیلی روبین
بیلی روبین در اثر شکسته شدن گلبول های قرمز بوجود میآید. معمولاً مقدار کمیبیلی روبین در سرم یا خون افراد وجود دارد. افزایش بیلی روبین معمولاً در اثر افزایش تخریب گلبول های قرمز و یا عدم توانایی کبد در ترشح مقدار طبیعی بیلی روبین میباشد.[12]
-7-2 آزمایش بیلی روبین مستقیم
قبل از رسیدن به کبد، به عنوان محصول تجزیه سلولهای قرمز خون، بیلی روبین، بیلی روبین غیر مستقیم نامیده میشود. هنگامی که در کبد، بیشتر بیلی روبین متصل به قندهای خاصی میشوند تولید بیلی روبین مستقیم را میکنند.
اگر میزان بیلی روبین مستقیم یا بیلی روبین غیرمستقیم از حد طبیعی بالاتر باشد ممکن است انواع مختلفی از مشکلات کبدی را ایجاد کند.
همانطور که گفته شد در بدن انسان دو نوع بیلی روبین مستقیم و غیر مستقیم وجود دارد. بیلی روبین غیر مستقیم بیلی روبینی است که به پروتئین متصل میباشد و این نوع بیلی روبین در اثر افزایش تخریب گلبولهای قرمز یا همولیز ایجاد میشود.
بیلی روبین مستقیم بیلی روبینی است که تا قبل از رسیدن به کبد آزاد میشود و در کبد به کمک آنزیم گلوکورونیل ترانسفراز به حالت مستقیم درآمده و وارد صفرا میشود. این نوع بیلی روبین در اثر عدم توانایی کبد تشکیل میشود.[18]
-8-2 آزمایش توتال بیلی روبین
آزمایش توتال بیلی روبین مجموع انواع بیلیروبین را گزارش میدهد. افزایش بیلیروبین در خون میتواند در نتیجهی افزایش تخریب گلبولهای قرمز، صدمات به بافت کبدی و انسداد مجاری صفراوی صورت گیرد که در این حالت علائمی چون زردی پوست و زرد شدن بخش سفید رنگ چشم را میتوان مشاهده نمود .[17]
441 پرونده بیمار مرد همچنین 142 پرونده بیمار زن است.[6]همانطور که گفته شد دادههای موجود در این مجموعه داده با اسامی زیر مشخص شده اند:
ویژگی شماره 11 ویژگی هدفمیباشدکه رکوردهای موجود در مجموعه دادهها را به دو مجموعه بیماران کبدی و بیماران غیر کبدی تقسیم میکند. این مجموعه دادهها توسط پروفسور بندی12 ، بابو13و نکاتسوارلو14 تهیه شده است .
ویژگیهای توتال بیلی روبین، نسبت آلبومین به گلوبولین، توتال آلبومین، آسپارتات آمینوترانسفراز، آلانین آمینوترانسفراز، آلکالین فسفات، بیلی روبین مستقیم و پروتئینها اگر رنج نرمالی نداشته باشند شخص مبتلا به بیماری کبد است البته ویژگی های سن و جنسیت هم در تشخیص بیماری کبدی تأثیر دارند.
-9-2 آزمایش آلبومین
آلبومبن پروتئین غالب خون میباشددرصورتیکه مقدار آن را از مقدار توتال پروتئین کم کنیم مقدار گلوبولین خون بدست میآید. نسبت مقدار آلبومین به گلوبولین نیز باید درمحدوده خاصی قرار گیرد و تغییرات این نسبت میتواند بیماریهای مختلفی را تبیین نماید.[7]
-10-2 ویژگی سن و جنسیت
این دو ویژگی بیان کننده سن و جنسیت افراد موجود در مجموعه دادهها میباشند.
-3معرفی مجموعه داده بیماران کبدی در هند
این مجموعه داده شامل 416 پرونده بیمار کبد و 167 بیمار غیر کبد است.[3]از شمال شرق آندرا پرادش، هند جمع آوری شده و شامل بیماری کبد به دلیل مصرف بیش از حد الکل، استنشاق گازهای مضر، مصرف مواد غذایی آلوده، ترشی و مواد مخدر است و به طور مداوم در حال افزایش است.[4]
هدف از داده کاوی دسته بندی افراد به دو دسته افرادی که مبتلا برای پاکسازی داده پس از بررسیهای انجام شده متوجه شدیم
به بیماری کبد هستند و افرادی که مبتلا به بیماری کبد نیستند می تنها ویژگی آلکالین فسفات چهار داده با مقدار تهی2دارد که برای رفع باشد. شکل (1) اطلاعات متا دیتا1 را نشان میدهد . مشکل آن از عملگر جایگزین مقادیر از دست رفته 3استفاده کردهایم، با استفاده از این عملگر به جای مقادیر تهی این ویژگی میانگین مقادیر ستون آلکالین فسفات در نظر گرفته شده است.
4- پیش پردازش
امروزه دیگر با مشکل کمبود داده و اطلاعات روبرو نیستیم، به جای آن با مسأله دادهها و اطلاعات درست، از میان حجمی انبوه از داشتهها مواجه هستیم. از آن جا که درک روابط و ساختار حاکم بر دادهها واطلاعات، میتواند دانشی گرانبها ارایه نماید؛ نیازمند استفاده از مکانیسمی هستیم تا به بهترین وجهی عصاره این انبوه داشتهها تهیه شده و به کار گرفته شود. از این رو استفاده گسترده از تکنیکها و مکانیسمهای داده کاویبیش از پیش در کانون توجه قرار گرفته است.
از آنجا که؛ دستیابی به نتایج واقعی و مؤثر از این مکانیسم ها؛ بدون برخورداری از ورودی های صحیح، قابل اعتماد و مؤثر، ممکن نیست؛ پیش از هر تحلیلی بایستی از صحت و تناسب دادهها و اطلاعات موجود اطمینان داشته باشیم. این موضوع حیاتی سبب شده تا، آماده سازی داده و اطلاعات پیش از به کارگیری واقعی آن ها سنگ بنای تحلیل قابل اعتنایی باشد.[10]
-2-4 انتخاب ویژگی ها
به این علت که تمام ویژگیهای مجموعه داده مورد نیاز است با استفاده از عملگر انتخاب ویژگی ها4 قسمت همه5 انتخاب میشود. البته این عملگر برای عملیات کاهش ابعاد هم استفاده میشودکه در این صورت قسمت زیرمجموعه6 انتخاب میشود.
-3-4 گسسته سازی
هدف از این روش آن است که دادهها را بر حسب قواعدی در دسته بندی هایی قرار دهیم؛ و دستهای را که تعداد دادههای موجود در آن بسیار کم باشد، کنار میگذاریم. از عملگر گسسته سازی با تشخیص کاربر7 برای گسسته سازی در این مرحله استفاده میکنیم. در عملیات گسسته سازی نوع ویژگیهای بازهای و نرخی را به نوع اسمی تبدیل میکنیم.
به عنوان مثال ویژگی سن، سن افراد را بیان میکند. مقدار دقیق سن افراد برای کار داده کاوی مفید نبوده بلکه مقدار آن مطابق شکل((2 به صورت خردسال، کودک، نوجوان، جوان، میانسال و سالمند بیشترکارآیی دارد. برای مثال خردسال تا سن 7 سالگی و کودک تا سن 12 سالگی را شامل میشود.همانند ویژگی سن، ویژگی های نسبت آلبومین به گلوبولین، آلکالین فسفات، آلبومین، توتال پروتئین، آسپارتات آمینوترانسفراز و y نیز گسسته شدهاند.
-1-4 پاکسازی داده
در پاک سازی دادهها به نوعی با تمیز کاری داده که گاهی تنظیف داده نیز نامیده می شود؛ روبرو هستیم. پاک سازی دادهها، فرآیند تشخیص و حذف یا تصحیح اطلاعات در یک پایگاه داده است که دارای برخی خطاهاست.[10]