بخشی از مقاله
چکیده
اجتناب از داده های گمشده در مجموعه داده های واقعی، حتی اگر نهایت دقت هم در جمع آوری داده ها بشود، باز هم غیرممکن است. این مقادیر می توانند تمام فرایند داده کاوی و تفسیرهای حاصل را تحت تاثیر قرار دهند. اکثر الگوریتمهای دادهکاوی با این فرض طراحی شده اند که هیچ مقدار گمشدهای در مجموعه دادهها وجود ندارد. بنابراین برخورد با مقادیر گمشده می تواند بطور قابل ملاحظهای کیفیت دادهکاوی را افزایش دهد. در این مقاله، تاثیر روشهای معروف جانشینی مقادیر گمشده شامل Mean/Mode، Hot Deck، KNN و Multiple Imputation بر روی دقت و خطای کلاسهبندی با آزمایش بر روی ده مجموعه داده با کاربردهای مختلف مورد مقایسه و ارزیابی قرار می گیرند. آزمایشات بر روی شش نرخ مختلف از مقادیر گمشده انجام می گیرند. این مجموعه دادهها در اندازه، تعداد مقادیر گمشده، و انواع دادههای اسمی و عددی متفاوت می باشند. در آزمایشات از پنج کلاسهبند معروف نزدیکترین k همسایه، بیزین ساده، مبتنی بر قاعدهی RIPPER و ماشین بردار پشتیبان استفاده می شود.
واژگان کلیدی: مقادیر گمشده، جانشینی مقادیر گمشده، کلاسه بندی.
مقدمه
وجود داده های گمشده یک موضوع رایج و اجتناب ناپذیر در بسیاری از مجموعه داده های واقعی می باشد که منجر به ایجاد یک مجموعه داده ی ناقص و غیرقابل اعتماد می شوند. مقادیر گمشده به دلایل مختلفی از جمله سهل انگاری و خطای انسانی در ورود داده ها، خطاهای دستگاهها و تجهیزات اندازه گیری، اندازه گیری های نادرست، امتناع از پاسخ یا تکمیل برخی فیلدهای پرسشنامه در یک مجموعه داده ایجاد می شوند . - Silva & Hruschka, 2013 - این مقادیر می توانند باعث ایجاد مشکلات مختلفی در کشف دانش و بکارگیری الگوریتمهای دادهکاوی شوند - Vinod & - Punithavalli, 2011 و . - Suthar et al, 2012 - این مقادیر ممکن است اطلاعات با اهمیتی درباره مجموعه ی داده ها را مخفی نگه دارند. در حالی که برخی از الگوریتم های تحلیل داده ها می توانند با دادههای ناقص کار کنند، تعداد زیادی از آنها نیازمند دادههای کامل می باشند . - Naderi et al, 2011 -
امروزه جانشینی مقادیر گمشده، همچنان یک موضوع چالش انگیز در یادگیری ماشین و داده کاوی بشمار می رود . - Somasundaram & Nedunchezhian, 2011 - اگر چه برخی از الگوریتم های یادگیری ماشین و دادهکاوی در برابر مقادیر گمشده مقاوم هستند، تعداد قابل توجهی از این الگوریتم ها قادر نیستند که خودشان را با مقادیر گمشده وفق داده یا با آنها برخورد کنند - Silva & Hruschka, 2013 - و . - Lobato et al., 2015 - اکثر الگوریتم های داده کاوی با این فرض طراحی شده اند که هیچ مقدار گمشده ای در مجموعه داده ها وجود ندارد - Silva & . - Hruschka, 2013 بنابراین برخورد و جانشینی مقادیر گمشده در مرحله ی پیش پردازش داده ها بسیار مهم و حیاتی می باشد.
بویژه در حالتی که مجموعه داده شامل حجم زیادی از مقادیر گمشده باشد، برخورد مناسب با این مقادیر می تواند بطور قابل ملاحظه ای کیفیت داده کاوی را بالا ببرد . - Olamiti & Osofisan, 2009 - حذف نمونه های حاوی مقادیر گمشده در مجموعه داده ها، ممکن است باعث شود ویژگی ها و خصوصیات مجموعه داده ی اصلی حفظ نشود. هچنین منجر به از دست رفتن رکوردهای زیادی از مجموعه داده ها شده و در نتیجه اندازه مجموعه داده ها کاهش یافته که باعث کاهش کارایی داده کاوی و تحلیل ها می گردد . - Rahman & Islam, 2014 - در این مقاله، تاثیر روشهای معروف جانشینی در یادگیری ماشین و آماری مقادیر گمشده شامل Mean/Mode، Hot Deck ، KNN و Multiple Imputation بر روی دقت کلاسه بندی با آزمایش بر روی ده مجموعه داده با کاربردهای مختلف در حوزه های فیزیک، علوم زیستی، پزشکی، اجتماعی و الکترونیک مورد مقایسه و ارزیابی قرار می گیرند.
آزمایشات بر روی شش نرخ مختلف از مقادیر گمشده انجام می گیرند. این مجموعه داده ها در اندازه، تعداد مقادیر گمشده، و انواع مختلف داده های اسمی و عددی متفاوت می باشند. در آزمایشات از پنج کلاسه بند KNN، RIPPER، NB، C4.5 و SVM استفاده شده است. این کلاسه بندها معروفترین و مدرن ترین کلاسه بندها می باشند و هر کدام معرف یکی از خانواده های اصلی الگوریتم های یادگیری ماشین می باشند. کلاسه بند C4.5، یک درخت تصمیم، کلاسه بند نزدیکترین k همسایه - KNN - یک روش مبتنی بر نمونه، RIPPER یک کلاسه بند مبتنی بر قاعده، کلاسه بند بیزین ساده - NB - یک روش احتمالاتی و ماشین بردار پشتیبان - SVM - یک کلاسه بند مبتنی بر کرنل می باشد.
در روش جانشینی Mean/Mode در صورتی که یک ویژگی حاوی مقدار گمشده از نوع عددی باشد با میانگین مقدار آن ویژگی در سایر نمونه ها جانشین می گردد. در صورتی که ویژگی حاوی مقدار گمشده از نوع اسمی باشد با مد آن ویژگی در سایر نمونه ها جانشین می گردد. به طوری که مقداری که بیشترین تکرار را در بین مقادیر آن ویژگی داراست برای مقادیر گمشده ی آن ویژگی منظور می گردد - . - Suthar et al, 2012در روش - HD - Hot Deck برای هر نمونه دارای مقدار گمشده، شبیه ترین نمونه به آن پیدا شده و مقادیر گمشده با مقادیر متناظر با آن در شبیه ترین نمونه جایگزین می شود . - Farhangfar et al, 2008 - اگر مقدار متناظر در شبیه ترین نمونه نیز گمشده بود، از دومین شبیه ترین نمونه استفاده می گردد. بهمین ترتیب این کار آنقدر تکرار می شود تا بالاخره مقادیر گمشده جایگزین گردند.
در روش جانشینی - KNNI - K-Nearest Neighbor، مقادیر گمشده در یک نمونه با مقادیر در k نمونه از شبیه ترین نمونه ها به آن نمونه ها به آن نمونه جایگزین می شوند. برای ویژگی های کیفی، مقداری که بیشترین تکرار در میان k نزدیکترین نمونه را داشته است بعنوان مقدار جانشینی انتخاب می شود. برای ویژگی های کمی، میانگین مقادیر نزدیکترین k همسایه بعنوان مقدار جانشینی انتخاب می شود . - Zhang, 2011 - شباهت بین دو نمونه با استفاده از توابع فاصله محاسبه می گرددکه انتخاب یک تابع فاصله ی مناسب و همچنین مقدار مناسب k از چالش های این روش می باشند.در روش - MI - Multiple Imputation، چندین مقدار برای جانشینی با مقدار گمشده انتخاب می شود. این روش از یک مدل که مقادیر تصادفی مختلفی برای جانشینی مقدار گمشده تولید می کند، استفاده می کند - Peng & Lei,
. - 2005 با تکرار M بار تولید یک عدد تصادفی برای جانشینی یک مقدار گمشده، M مجموعه داده ی کامل تولید می شود. سپس این M مجموعه داده ی کامل مورد تحلیل قرار گرفته و میانگین نتایج M حالت، برای تولید یک مقدار واحد استفاده می شود.اگر چه در سال های اخیر تحقیقات زیادی بر روی مقادیر گمشده و روشهای برخورد با آنها و جانشینی انجام شده است - Rahman & Islam, 2014 - و . - Kang, 2013 - مطالعات کمی درباره تاثیر روشهای جانشینی بر روی عمل کلاسه بندی انجام شده است . - Silva & Hruschka, 2013 - در - Acuna & Rodriguez, 2004 - تاثیر چهار روش حذف، KNN، mean و median در مواجه با مقادیر گمشده با استفاده از کلاسه بندهای KNN و 1LDA بر روی 12 مجموعه داده مختلف بررسی شده است.
نتایج نشان می دهند که هیچ یک از روشهای جانشینی تست شده، تاثیر قابل توجهی بر دقت کلاسه بندی ندارد. در مطالعهی مذکور، میزان داده های گمشده در مجموعه دادهها بسیار کم بودهاند - بین یک تا . - %12 همچنین هر مجموعه داده میزان متفاوتی از مقادیر گمشده را داشته است که مقایسه و بررسی چگونگی تاثیر روش جانشینی بر کلاسه بندی را بر مبنای رنج های متفاوتی از مقادیر گمشده غیرممکن ساخته است.در - Batista & Monard, 2003 - دقت کلاسه بندی دو کلاسه بند درخت تصمیم C4.5 و استنتاج CN2 با بکارگیری روشهای جانشینی KNN، mean و median بر روی چهار مجموعه دادهی نسبتا کوچک پزشکی تست