بخشی از مقاله
چکیده
در طبقهبندی، مساله دادههای نامتوازن زمانی که مجموعه داده دارای توزیع نابرابر کلاس باشد رخ میدهد. اغلب الگوریتمهای طبقهبندی، فرض میکنند که توزیع کلاسها یکسان است و در صورتی که توزیع کلاسها نامتوازن باشد، این الگوریتمها در تشخیص خود دچار مشکل میشوند. در این مقاله، روشی جدید مبتنی بر خوشهبندی ارائه شده است. دادههای نامتوازن توسط یک الگوریتم خوشهبندی میشوند، سپس نسبت فراوانی نمونههای اقلیت به نمونههای اکثریت در هر خوشه محاسبه میگردد. عدد مربوط به هر خوشه برای دادههای همان خوشه بهعنوان یک ویژگی جدید در نظر گرفته میشود.
در مرحله بعد دادهها توسط الگوریتمهای استاندارد طبقهبندی با برچسب جدید، طبقهبندی خواهند شد. با استفاده از ویژگی جدید علاوه بر تعیین دقیق برچسب کلاس یک نمونه، میزان احتمال تعلق به کلاس دیگر نیز بیان میشود. تست روش بر روی 17 مجموعه داده از پایگاه KEEL انجام شده و سپس با نتایج دو مقاله معتبر مقایسه میگردد. نتایج نشان میدهد که کارایی طبقهبندی توسط روش پیشنهادی بهبود یافته است.
-1 مقدمه
امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهرهگیری از روشهایی همچون دادهکاوی برای استخراج دانش و اطلاعات نهفته در دادهها، امری غیرقابل اجتناب میباشد. دادهکاوی به شخص امکان میدهد تا ورای دادهپردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه دادهها پنهان است کمک میکند. پایگاهها و مجموعههای حجیم دادهها را در پی کشف واستخراج دانش، مورد تحلیل و کند و کاو قرار میدهد و منجر به استخراج اطلاعات، دانش و کشف الگوهای پنهان از پایگاه دادههای بسیار بزرگ میشود.
فرایند طبقهبندی در واقع نوعی یادگیری با ناظر میباشد. طبقهبندی دادهها، کلاسبندی آن ها برای استفاده موثر و کارآمد است. فرآیند کشف دانش در پایگاه دادهها و کاوش در دادهها، جهت پیدا کردن مدلی است که کلاسهای موجود در دادهها را تعریف نموده و متمایز میکند. هدف، پیشبینی طبقه رکوردهایی است که برچسب طبقه آنها نامشخص میباشد - گروه دادهکاوی،× . - 201طبقهبندی در جهت تشخیص ناهنجاریها در علم پزشکی، تشخیص دستخط، تشخیص گفتار، تشخیصتولد زودرس وغیره مورد استفاده قرار میگیرد. زمانیکه در یک مجموعه دادهی آموزشی نمونههای یک کلاس خیلی بیشتر از نمونههای سایر کلاسها باشند مشکل توزیع کلاس نامتوازن رخ میدهد.×در مجموعه داده نامتوازن، طبقه اکثریت دارای درصد زیادی از نمونههاست، در حالی که نمونهها در کلاس اقلیت فقط بخش کوچکی را در برمیگیرند - . - Yen and Lee , 2009
مساله دادههای نامتوازن زمانی رخ میدهد که نمونههای یک یا چند کلاس ذاتا نادرند و یا به سختی جمعآوری میشوند - . - Maloof, 2003 در طبقهبندی باینری، مساله عدم توازن هنگامی رخ می دهد که یک کلاس تعداد نمونه های بسیاری دارد، در حالی که کلاس دیگر توسط تعداد نمونههای کمی نمایش داده می شود، در شکل 1 عدم توازن دیده میشود. بسیاری از برنامههای کاربردی مانند تشخیص تقلب، پیشگیری از نفوذ، مدیریت ریسک و تحقیقات پزشکی، اغلب مشکل توزیع کلاس نامتوازن دارند. اغلب الگوریتمهای طبقهبندی، فرض میکنند که توزیع کلاسها یکسان است و در صورتی که توزیع کلاسها نامتوازن باشد، این الگوریتمها در تشخیص خود دچار مشکل میشوند.
کلاس اقلیت5 که تعداد دادههای آن بسیار کم است، اغلب نادیده انگاشته میشود - طباطبائیعینکی و میناییبیدگلی، . - 1390البته درجه نامتوازن بودن - نسبت تعداد نمونههای طبقه اکثریت به تعداد نمونههای طبقه اقلیت - ممکن است کم یا زیاد باشد - . - He and Garcia, 2009 الگوریتمهایی که نحوه توزیع دادهها را در نظر نمیگیرند، عملاً به سمت طبقهی اکثریت6 متمایل میشوند و طبقه اقلیت را نادیده میگیرند . - Kubat et al,1998 - الگوریتمهای استاندارد طبقهبندی تمایل بیشتری به کلاس اکثریت ×دارند، زیرا قوانینی که این نمونهها را به درستی پیشبینی میکنند به درستی وزندهی شده اند در حالی که قوانین خاصی که نمونههای کلاس اقلیت را پیشبینی میکنند عموما نادیده گرفته میشوند و در واقع به صورت نویز با آنها برخورد میشود؟