بخشی از مقاله
یک رویکرد جدید برای تشخیص کم کاری تیروئید با استفاده از تکنیک های داده کاوی
موضوع انتخاب ویژگی یکی از مهمترین گام های داده کاوی می باشد، چرا که به طور مستقیم بر نتایج بدست آمده اثر می گذارد. انتخاب ویژگی ابعاد مساله را کاهش و میزان دقت مدل را افزایش می دهد. همچنین الگوهای بدست آمده قابل فهم تر می شوند. تکنیک های زیادی برای انتخاب ویژگی وجود دارد. وزن دهی به ویژگی ها یکی از تکنیک های انتخاب ویژگی می باشد. هدف با هدف تحقیق انتخاب ویژگی های مهم تیروئید و تحلیل این داده ها با بالاترین دقت ممکن می باشد. روش تحقیقی در این تحقیق یک رویکرد جدید برای تحلیل داده های تیروئید ارائه گردید. انتخاب ویژگی به وسیله روش وزن دهی مهمترین آنالیز جزئی (PCA) انجام گرفت. تحلیل تیروئید براساس ویژگی های انتخاب شده توسط روش نزدیکترین همسایگی انجام گرفت. نتیجه دقت رویکرد انجام گرفته ۵۰۰٪ می باشد. براساس بهترین دانش ما این رویکرد در تحلیل داده های تیروئید هنوز به کار نرفته است.
کلمات کلیدی تیروئید انتخاب ویژگی، روش مهم ترین آنالیز جزئی نزدیکترین همسایگی
۲- معرفی
در دنیای واقعی، داده ها معمولا دارای مقادیر مفقوده نویز دار و ناسازگار می باشند. همچنین داده ها دارای ویژگی های اضافی هستند که بهبودی در نتایج حاصل نمی کنند و در اکثر مواقع کیفیت نتایج را خراب می کنند. بنابراین با حذف ویژگی های اضافی دقت روشهای دسته بندی کننده بیشتر می شود(۱) در داده های پزشکی ویژگی های اضافی نیز باعث سخت تر شدن مساله و بالارفتن ابعاد مساله می شوند، که این ویژگی ها باید حذف شوند(۲).
اکثر تکنیک ها و مدلهای داده کاوی که برای پیش بینی و دسته بندی به کار می روند، دارای خطا می باشند که ناشی از وجود ویژگی های اضافه در مساله می باشد. مادر این تحقیق سعی کردیم رویکردی از انتخاب ویژگی و روشی از دسته بندی ارائه کنیم که دارای خطای صفر باشد.
۲- روش
۱۲ - داده
داده های تیروئید از سایت معتبر Uci Repository گرفته شده است. تعداد داده های این بیماری ۲۱۵ می باشد.این داده
دارای پنج ویژگی و یک ویژگی کلاس با سه حالت می باشد(جدول ۱) هدف این داده تعیین وضیعت بیماران تیروئیدی می باشد.
۲- ۲- روشهای داده کاوی
2 . 2 . 1 - PCA
PCA یکی از الگوریتم های هدایت نشده می باشد که برای کاهش ویژگی ها به کار می رود وزن دهی به ویژگی ها یکی از مکانیزم های PCA می باشد که در نهایت مهمترین ویژگی ها را بدست می آورد.اما مهمترین مکانیزم PCA ترکیب ویژگی ها به صورت مناسب باهم می باشد، به گونه ای که حداکثر خواص ویژگی های اولیه حفظ گردد (۸).
۲.۲.۲- نزدیکترین همسایگی
این روش با استفاده از نمونه های قبلی که در اختیار دارد یک نمونه جدید را به نزدیکترین نمونه از لحاظ شباهت اختصاص می دهد. به عبارت دیگر کلاس نمونه جدید همان کلاس نزدیکترین نمونه از لحاظ شباهت به نمونه فوق می باشد (۹).
۲. ۳.۲- انتخاب ویژگی
انتخاب ویژگی مکانیزمی است که یک سری ویژگی از کل تعداد ویژگی ها را براساس یک سری معیار انتخاب می کند. به گونه ای که کیفیت نتایج بدست آمده نسبت به حالت بدون حذف ویژگی مساوی یا بهتر شود (۳ و اوه) هدف انتخاب ویژگی کاهش هزینه، کاهش ابعاد و پیچیدگی مساله بالا بردن دقت مدل و قابل فهم کردن نتایج می باشد.(۱ و۷).
۲. ۳- توصیف روش
تحلیل داده های تیروئید بر مبنای CA او نزدیکترن همسایگی می باشد(شکل ۱). در ابتدا، برای تعیین ویژگی های مهم و تاثیر گذار برای تیروئید و همچنین بالا بردن دقت روش داده ها به روش CA داده شده است.این روش با مکانیزمی که اعمال می کند، به هر ویژگی یک وزن بین عدد صفر و یک داده است (جدول ۳).
مطابق با خروجیPCA ، ویژگی Serum triodothyronines وزنی نگرفته است (ویژگی بی اهمیت) بنابراین این ویژگی از مجموعه ویژگیها حذف و سایر ویژگی ها به روش نزدیکترین همسایگی داده شده است. روش نزدیکترین همسایگی پیش بینی بیماری تیروئید بر اساس ویژگی های گرفته شده را انجام داده است.