مقاله جانشینی مقادیر گمشده و تاثیر آن بر خطای کلاسه بندی

فایل pdf

12 صفحه

قیمت مقاله 000 139 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده

اجتناب از داده های گمشده در مجموعه داده های واقعی، حتی اگر نهایت دقت هم در جمع آوری داده ها بشود، باز هم غیرممکن است. این مقادیر می توانند تمام فرایند داده کاوی و تفسیرهای حاصل را تحت تاثیر قرار دهند. اکثر الگوریتمهای دادهکاوی با این فرض طراحی شده اند که هیچ مقدار گمشدهای در مجموعه دادهها وجود ندارد. بنابراین برخورد با مقادیر گمشده می تواند بطور قابل ملاحظهای کیفیت دادهکاوی را افزایش دهد. در این مقاله، تاثیر روشهای معروف جانشینی مقادیر گمشده شامل Mean/Mode، Hot Deck، KNN و Multiple Imputation بر روی دقت و خطای کلاسهبندی با آزمایش بر روی ده مجموعه داده با کاربردهای مختلف مورد مقایسه و ارزیابی قرار می گیرند. آزمایشات بر روی شش نرخ مختلف از مقادیر گمشده انجام می گیرند. این مجموعه دادهها در اندازه، تعداد مقادیر گمشده، و انواع دادههای اسمی و عددی متفاوت می باشند. در آزمایشات از پنج کلاسهبند معروف نزدیکترین k همسایه، بیزین ساده، مبتنی بر قاعدهی RIPPER و ماشین بردار پشتیبان استفاده می شود.

واژگان کلیدی: مقادیر گمشده، جانشینی مقادیر گمشده، کلاسه بندی.

مقدمه

وجود داده های گمشده یک موضوع رایج و اجتناب ناپذیر در بسیاری از مجموعه داده های واقعی می باشد که منجر به ایجاد یک مجموعه داده ی ناقص و غیرقابل اعتماد می شوند. مقادیر گمشده به دلایل مختلفی از جمله سهل انگاری و خطای انسانی در ورود داده ها، خطاهای دستگاهها و تجهیزات اندازه گیری، اندازه گیری های نادرست، امتناع از پاسخ یا تکمیل برخی فیلدهای پرسشنامه در یک مجموعه داده ایجاد می شوند . - Silva & Hruschka, 2013 - این مقادیر می توانند باعث ایجاد مشکلات مختلفی در کشف دانش و بکارگیری الگوریتمهای دادهکاوی شوند - Vinod & - Punithavalli, 2011 و . - Suthar et al, 2012 - این مقادیر ممکن است اطلاعات با اهمیتی درباره مجموعه ی داده ها را مخفی نگه دارند. در حالی که برخی از الگوریتم های تحلیل داده ها می توانند با دادههای ناقص کار کنند، تعداد زیادی از آنها نیازمند دادههای کامل می باشند . - Naderi et al, 2011 -

امروزه جانشینی مقادیر گمشده، همچنان یک موضوع چالش انگیز در یادگیری ماشین و داده کاوی بشمار می رود . - Somasundaram & Nedunchezhian, 2011 - اگر چه برخی از الگوریتم های یادگیری ماشین و دادهکاوی در برابر مقادیر گمشده مقاوم هستند، تعداد قابل توجهی از این الگوریتم ها قادر نیستند که خودشان را با مقادیر گمشده وفق داده یا با آنها برخورد کنند - Silva & Hruschka, 2013 - و . - Lobato et al., 2015 - اکثر الگوریتم های داده کاوی با این فرض طراحی شده اند که هیچ مقدار گمشده ای در مجموعه داده ها وجود ندارد - Silva & . - Hruschka, 2013 بنابراین برخورد و جانشینی مقادیر گمشده در مرحله ی پیش پردازش داده ها بسیار مهم و حیاتی می باشد.

بویژه در حالتی که مجموعه داده شامل حجم زیادی از مقادیر گمشده باشد، برخورد مناسب با این مقادیر می تواند بطور قابل ملاحظه ای کیفیت داده کاوی را بالا ببرد . - Olamiti & Osofisan, 2009 - حذف نمونه های حاوی مقادیر گمشده در مجموعه داده ها، ممکن است باعث شود ویژگی ها و خصوصیات مجموعه داده ی اصلی حفظ نشود. هچنین منجر به از دست رفتن رکوردهای زیادی از مجموعه داده ها شده و در نتیجه اندازه مجموعه داده ها کاهش یافته که باعث کاهش کارایی داده کاوی و تحلیل ها می گردد . - Rahman & Islam, 2014 - در این مقاله، تاثیر روشهای معروف جانشینی در یادگیری ماشین و آماری مقادیر گمشده شامل Mean/Mode، Hot Deck ، KNN و Multiple Imputation بر روی دقت کلاسه بندی با آزمایش بر روی ده مجموعه داده با کاربردهای مختلف در حوزه های فیزیک، علوم زیستی، پزشکی، اجتماعی و الکترونیک مورد مقایسه و ارزیابی قرار می گیرند.

آزمایشات بر روی شش نرخ مختلف از مقادیر گمشده انجام می گیرند. این مجموعه داده ها در اندازه، تعداد مقادیر گمشده، و انواع مختلف داده های اسمی و عددی متفاوت می باشند. در آزمایشات از پنج کلاسه بند KNN، RIPPER، NB، C4.5 و SVM استفاده شده است. این کلاسه بندها معروفترین و مدرن ترین کلاسه بندها می باشند و هر کدام معرف یکی از خانواده های اصلی الگوریتم های یادگیری ماشین می باشند. کلاسه بند C4.5، یک درخت تصمیم، کلاسه بند نزدیکترین k همسایه - KNN - یک روش مبتنی بر نمونه، RIPPER یک کلاسه بند مبتنی بر قاعده، کلاسه بند بیزین ساده - NB - یک روش احتمالاتی و ماشین بردار پشتیبان - SVM - یک کلاسه بند مبتنی بر کرنل می باشد.

در روش جانشینی Mean/Mode در صورتی که یک ویژگی حاوی مقدار گمشده از نوع عددی باشد با میانگین مقدار آن ویژگی در سایر نمونه ها جانشین می گردد. در صورتی که ویژگی حاوی مقدار گمشده از نوع اسمی باشد با مد آن ویژگی در سایر نمونه ها جانشین می گردد. به طوری که مقداری که بیشترین تکرار را در بین مقادیر آن ویژگی داراست برای مقادیر گمشده ی آن ویژگی منظور می گردد - . - Suthar et al, 2012در روش - HD - Hot Deck برای هر نمونه دارای مقدار گمشده، شبیه ترین نمونه به آن پیدا شده و مقادیر گمشده با مقادیر متناظر با آن در شبیه ترین نمونه جایگزین می شود . - Farhangfar et al, 2008 - اگر مقدار متناظر در شبیه ترین نمونه نیز گمشده بود، از دومین شبیه ترین نمونه استفاده می گردد. بهمین ترتیب این کار آنقدر تکرار می شود تا بالاخره مقادیر گمشده جایگزین گردند.

در روش جانشینی - KNNI - K-Nearest Neighbor، مقادیر گمشده در یک نمونه با مقادیر در k نمونه از شبیه ترین نمونه ها به آن نمونه ها به آن نمونه جایگزین می شوند. برای ویژگی های کیفی، مقداری که بیشترین تکرار در میان k نزدیکترین نمونه را داشته است بعنوان مقدار جانشینی انتخاب می شود. برای ویژگی های کمی، میانگین مقادیر نزدیکترین k همسایه بعنوان مقدار جانشینی انتخاب می شود . - Zhang, 2011 - شباهت بین دو نمونه با استفاده از توابع فاصله محاسبه می گرددکه انتخاب یک تابع فاصله ی مناسب و همچنین مقدار مناسب k از چالش های این روش می باشند.در روش - MI - Multiple Imputation، چندین مقدار برای جانشینی با مقدار گمشده انتخاب می شود. این روش از یک مدل که مقادیر تصادفی مختلفی برای جانشینی مقدار گمشده تولید می کند، استفاده می کند - Peng & Lei,

. - 2005 با تکرار M بار تولید یک عدد تصادفی برای جانشینی یک مقدار گمشده، M مجموعه داده ی کامل تولید می شود. سپس این M مجموعه داده ی کامل مورد تحلیل قرار گرفته و میانگین نتایج M حالت، برای تولید یک مقدار واحد استفاده می شود.اگر چه در سال های اخیر تحقیقات زیادی بر روی مقادیر گمشده و روشهای برخورد با آنها و جانشینی انجام شده است - Rahman & Islam, 2014 - و . - Kang, 2013 - مطالعات کمی درباره تاثیر روشهای جانشینی بر روی عمل کلاسه بندی انجام شده است . - Silva & Hruschka, 2013 - در - Acuna & Rodriguez, 2004 - تاثیر چهار روش حذف، KNN، mean و median در مواجه با مقادیر گمشده با استفاده از کلاسه بندهای KNN و 1LDA بر روی 12 مجموعه داده مختلف بررسی شده است.

نتایج نشان می دهند که هیچ یک از روشهای جانشینی تست شده، تاثیر قابل توجهی بر دقت کلاسه بندی ندارد. در مطالعهی مذکور، میزان داده های گمشده در مجموعه دادهها بسیار کم بودهاند - بین یک تا . - %12 همچنین هر مجموعه داده میزان متفاوتی از مقادیر گمشده را داشته است که مقایسه و بررسی چگونگی تاثیر روش جانشینی بر کلاسه بندی را بر مبنای رنج های متفاوتی از مقادیر گمشده غیرممکن ساخته است.در - Batista & Monard, 2003 - دقت کلاسه بندی دو کلاسه بند درخت تصمیم C4.5 و استنتاج CN2 با بکارگیری روشهای جانشینی KNN، mean و median بر روی چهار مجموعه دادهی نسبتا کوچک پزشکی تست

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/92229

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله جانشینی مقادیر گمشده و تاثیر آن بر خطای کلاسه بندی

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله آنِ پنهان مقرنس در معماری ایرانی

دانلود مقاله بررسی تاثیر آلایش بر خواص و تعیین محل جانشینی Cr بجای Cu در ساختار Gd123

دانلود فایل پاورپوینت در تدبیر مسافر برّ

مقاله تحلیل جانمایی موقعیت سنسورهای ناوبری اینرسی متصل به بدنه بر خطای تزریق ماهواره در مدار و خطای برخورد یک پرتابه بالستیک

مقاله استفاده از کلاسه بندی ترکیبی در داده کاوی پزشکی

مقاله آنِ پنهان مقرنس در معماری ایرانی

مقاله بررسی رفتار برشگیرهای ناودانی و گلمیخ و مقایسه مقادیر باربری برشگیرهای گلمیخ با مقادیر آئین نامه فولاد ایران

مقاله تحلیل رخساره های لرزه ای با نظارت با استفاده از نگارهای چاه بوسیله کلاسه کننده بردار پشتیبان

مقاله تحلیل اقتصادی مقادیر بهینه روی و بُر مصرفی گیاه ذرت؛ مطالعه موردی منطقه زرقان

مقاله تحلیل رگرسیونی لجستیک با وجود مقادیر گمشده در متغیر کمکی

مقاله تشخیص خطای چندگانه براساس شبیه سازی خطای چندگانه با استفاده از الگوریتم های ابتکاری

مقاله تشخیص خطای ماشین سنکرون مغناطیس دائم از روی مقادیر موثر جریان با استفاده از تبدیل موجک و منطق فازی

مقاله تنوع پوشش گیاهی پیرامون خشکه دارهای افتاده راش با کلاسه قطری 80 - 40 سانتی متر در جنگل گرازبن ، نوشهر

مقاله خوشه بندی متمایز کننده و تطبیق توزیع شرطی برای کلاسه بندی تصاویر واقعی

مقاله توسعه و ارزیابی یک روش هوشمند بمنظور استخراج مقادیر Lab* از مقادیر RGB تصاویر رنگی

مقاله روشی برای کلاسه‌بندی بدافزارها براساس هدر فایل با استفاده از تصویر سازی

مقاله ردگیری اشیاء با استفاده از طبقه‌بند تک‌کلاسه و اطلاعات ‌زمینه

مقاله رویکرد فازی به خوشه بندی و انتخاب خصیصه ها برای کلاسه بندی دادههای توصیفی ژن ها

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله جانشینی مقادیر گمشده و تاثیر آن بر خطای کلاسه بندی

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله آنِ پنهان مقرنس در معماری ایرانی

دانلود مقاله بررسی تاثیر آلایش بر خواص و تعیین محل جانشینی Cr بجای Cu در ساختار Gd123

دانلود فایل پاورپوینت در تدبیر مسافر برّ

مقاله تحلیل جانمایی موقعیت سنسورهای ناوبری اینرسی متصل به بدنه بر خطای تزریق ماهواره در مدار و خطای برخورد یک پرتابه بالستیک

مقاله استفاده از کلاسه بندی ترکیبی در داده کاوی پزشکی

مقاله آنِ پنهان مقرنس در معماری ایرانی

مقاله بررسی رفتار برشگیرهای ناودانی و گلمیخ و مقایسه مقادیر باربری برشگیرهای گلمیخ با مقادیر آئین نامه فولاد ایران

مقاله تحلیل رخساره های لرزه ای با نظارت با استفاده از نگارهای چاه بوسیله کلاسه کننده بردار پشتیبان

مقاله تحلیل اقتصادی مقادیر بهینه روی و بُر مصرفی گیاه ذرت؛ مطالعه موردی منطقه زرقان

مقاله تحلیل رگرسیونی لجستیک با وجود مقادیر گمشده در متغیر کمکی

مقاله تشخیص خطای چندگانه براساس شبیه سازی خطای چندگانه با استفاده از الگوریتم های ابتکاری

مقاله تشخیص خطای ماشین سنکرون مغناطیس دائم از روی مقادیر موثر جریان با استفاده از تبدیل موجک و منطق فازی

مقاله تنوع پوشش گیاهی پیرامون خشکه دارهای افتاده راش با کلاسه قطری 80 - 40 سانتی متر در جنگل گرازبن ، نوشهر

مقاله خوشه بندی متمایز کننده و تطبیق توزیع شرطی برای کلاسه بندی تصاویر واقعی

مقاله توسعه و ارزیابی یک روش هوشمند بمنظور استخراج مقادیر L*a*b* از مقادیر RGB تصاویر رنگی

مقاله روشی برای کلاسه‌بندی بدافزارها براساس هدر فایل با استفاده از تصویر سازی

مقاله ردگیری اشیاء با استفاده از طبقه‌بند تک‌کلاسه و اطلاعات ‌زمینه

مقاله رویکرد فازی به خوشه بندی و انتخاب خصیصه ها برای کلاسه بندی دادههای توصیفی ژن ها

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله توسعه و ارزیابی یک روش هوشمند بمنظور استخراج مقادیر Lab* از مقادیر RGB تصاویر رنگی