بخشی از مقاله
چکیده
بیماری سرطان ریه یکی از بیماریهای مشترک جهانی است که با تشخیص زود هنگام آن، میتوان پیشرفت بیماری را به تاخیر انداخت و یا آن را درمان کرد. طبقه بندی سرطان ریه، از نظر بهبود تشخیص در سطح جهان و همچنین ارائه راهکارهایی جهت درمان، امری حیاتی است. بنابراین، تکنیک-های داده کاوی و یادگیری ماشین میتواند برای کشف دانش و شناسایی الگوهایی جهت طبقه بندی، مفید باشد. از آنجا که برخی ویژگیها حاوی نویز هستند و یا اطلاعات کمی دارند، مسئله انتخاب ویژگی، زیر مجموعهای کارا از ویژگیها را از دادههای خام ایجاد میکند. این واقعیت که کاهش ابعاد باعث بهبود عملکرد محاسباتی طبقه بندی میشود، منجر به ایجاد مدلهای سریع و کم هزینه در طبقه بندی شده، و باعث میشود که تکنیکهای داده کاوی و یادگیری ماشین محبوبیت ویژهای بیابند. در این مقاله، ما با استفاده از مجموعهای از روشهای فیلتر و بسته بندی به همراه روشهای یادگیری ماشین، به طبقه بندی دادههای سرطان ریه میپردازیم . ما نشان میدهیم که تکنیکهای انتخاب ویژگی، ما را قادر می-سازد که طبقه بندی دقیقی در حداقل زمان با استفاده از ابعاد کمتر داشته باشیم.
واژگان کلیدی: تشخیص سرطان ریه، کاهش بعد، داده کاوی، دسته بندی
مقدمه
بیماری سرطان ریه یک وضعیت پزشکی است که در آن ریهها قادر به کارکرد درست نیستند و کاهش شدید در عملکرد ریه اتفاق میافتد. روشهای داده کاوی اخیرا برای دستیابی به تشخیص صحیح بیماری تاثیر بسزایی دارند. این مفاهیم دادهها را از مناظر مختلف تجزیه و تحلیل کرده و اطلاعات مفید را استخراج میکنند.یکی از مراحل قابل توجه در داده کاوی پیش پردازش است، زیرا کیفیت تشخیص بستگی به کیفیت دادهها دارد. افزایش حجم پایگاه دادههای پزشکی، پیچیدگی تشخیص را افزایش میدهد. گام پیش پردازش شامل تمیز کردن، یکپارچه سازی، تبدیل و کاهش داده است. برخی از مجموعه دادهها ممکن است ویژگیهای افزونه داشته باشند. گاهی ویژگیهای افزونه باعث افزایش زمان محاسبه میشوند.
برخی دادهها در مجموعهی داده ممکن است تاثیر قابل توجهی در تشخیص نداشته باشند، از این رو میتوان قبل از روند اصلی پردازش، آنها را حذف نمود. روشهای انتخاب ویژگی در نظر دارند یک مجموعهی حداقل از ویژگیها پیدا کنند، به طوری که توسط آن نتیجه پردازش دادهها، حتی الامکان نزدیک به پردازش داده ها توسط کلیه ویژگیهای اصلی باشد . - John, Kohavi et al. 1994 - این کاهش، اثرات قابل توجهی در باﻻ بردن سرعت روشهای یادگیری ماشین دارد . - Punch III, Goodman et al. 1993 - تشخیص بسیاری از بیماریها هزینههای سنگینی دارد زیرا آزمایشهای بسیاری برای پیش بینی آنها مورد نیاز است. انتخاب ویژگی برای کاهش این هزینهها، در پیش بینی بیماریها از اهمیت ویژهای برخوردار است.
بنابراین کاهش ابعاد نقش مهمی در تشخیص پزشکی ایفا میکند. برخی از مطالعات اخیر به طور گستردهای از تکنیکهای انتخاب ویژگی به عنوان مثال، جهت تشخیص سرطان سینه - Akay 2009 - و ضایعات کبدی کانونی - Mougiakakou, Valavanis et al. 2007 - ، استفاده کردهاند.نوآوری این مقاله ارائه یک مطالعه جامع از مقایسه روشهای انتخاب ویژگی مبتنی بر روشهای فیلتر و بسته بندی مختلف است که با استفاده از یک طبقه بندی بیز ساده کرنلی برای نشان دادن عملکرد این تکنیکها، بررسی میشود. از این رو، راهبردی نوین جهت مطالعات آینده در مدلهای پیش بینی، فراهم شده است.
انتخاب ویژگی
الگوریتمهای انتخاب زیر مجموعهای از ویژگیها، با توجه به اینکه آیا از یک تابع طبقه بندی استفاده میکنند یا خیر، به دو دسته تقسیم میشوند: روشهای فیلتر و روشهای بسته بندی - . - Kohavi and John 1997 در روش اول، هیچ تابع طبقه بندی استفاده نمیشود. به عبارت دیگر، هیچ بازخوردی به الگوریتم یادگیری داده نمیشود. در واقع، این روشی از پیش انتخاب شده است که مستقل از الگوریتم یادگیری بکار میرود. زیر مجموعهی ویژگیها در این روش، توسط مفاهیم دیگری ارزیابی میشوند. روش دوم، به عنوان جعبه سیاه شناخته شده است. در این روش، یک تابع طبقه بندی برای ارزیابی زیر مجموعهی ویژگیها، استفاده میشود. این روش از بازخورد الگوریتم یادگیری استفاده میکند. یک الگوریتم ژنتیک جهت جستجو برای ویژگیهای معتبر استفاده میشود.
با توجه به استفاده از الگوریتم ژنتیک، این روشها از یک جستجوی تصادفی استفاده کرده و در کمینه محلی قرار نمیگیرند. به عبارت دیگر، این روش یک روش بازخورد است که از الگوریتمهای یادگیری ماشین در روند انتخاب ویژگی استفاده میکند. ارزیابی در آنها توسط الگوریتم یادگیری استقرایی طی روند آموزش و آزمایش در هر مرحله از انتخاب ویژگی، انجام میشود.از آنجا که بسته بندی میتواند خود را با الگوریتمهای یادگیری ماشین وفق دهد، باید منجر به نتایج بهتری نسبت به روش فیلتر شود، اما یک روش بسیار وقت گیر است . - Jarmulak and Craw 1999 - بیشتر الگوریتمهای فرا ابتکاری از مدل بسته بندی برای مسئله انتخاب ویژگی استفاده میکنند. روشهای فیلتر، انتخاب ویژگی را به عنوان یک گام پیش پردازش انجام میدهند. یکی از اشکالات روش فیلتر این است که تاثیر ویژگیهای انتخاب شده را در عملکرد الگوریتم در نظر نمیگیرد.
انتخاب ویژگی پیشرو1
اپراتور انتخاب ویژگی پیشرو، با یک مجموعه تهی از ویژگیها کار خود را آغاز میکند و به صورت تکراری آن را با افزودن هر یک از ویژگیهایی که هنوز دیده نشده از مجموعه داده - Jain and Zongker 1997 - ، گسترش میدهد. در هر تکرار، کارایی این عملکرد با استفاده از یک اپراتور مثل اعتبار سنجی متقابل، محاسبه میشود. بنابراین FFS تنها ویژگیهای با بالاترین افزایش عملکرد را به مجموعه میافزاید. پس از آن، تکرار جدید را با انتخاب یکسویهی ویژگیها ادامه میدهد. مشکل این روش در این است که اگر ویژگیهای نامناسبی اضافه شده باشد، آن انتخاب اشتباه از مجموعه حذف نمیشود. علاوه بر این، از آنجا که حداکثر تعداد ویژگیها یکی از پارامترهای ورودی است، نتیجهی این روش به آن وابسته است.
حذف ویژگی پسرو2
این روش انتخاب ویژگی، با مجموعهای از تمام ویژگیها کار خود را آغاز میکند و بارها و بارها آن را با حذف هر یک از ویژگیهای باقی مانده از مجموعه داده کاهش میدهد . - Berk 1980 - برای هر مرحله حذف، عملکرد با استفاده از یک اپراتور ارزیابی شده است. آن را حذف تنها ویژگی های با حداقل کاهش عملکرد. پس از آن در تکرار بعدی به طور مشابه با انتخاب تصحیح ادامه داد. به عنوان روش قبلی، اشکال این روش این است که اگر یک ویژگی مناسب حذف شده است، دیگرنمیتوان ان را به مجموعه انتخاب افزود.
جستجوی دو جهته3