دانلود مقاله ارائه روشی نوین با استفاده از مدل تحلیل پوششی داده ها و آنتروپی برای انتخاب خصیصه در داده کاوی

word قابل ویرایش
8 صفحه
دسته : اطلاعیه ها
9700 تومان
97,000 ریال – خرید و دانلود

چکیده

در سالهای اخیر با انفجار حجم داده ها استفاده از ابزارهای نوین در تحلیل داده ها نیز افزایش چشمگیری یافته استچفیکی از پر کاربردترین این ابزارها داده کاوی استچف الگوریتم های اصلی داده کاوی به تفدسته انتخاب خصیصه، طبقه بندی، خوشه بندی و قوانین تجمعی تقسیم می شوندچفیکی از این وظائف انتخاب خصیصه استچفدر انتخاب خصیصه الگوریتم به دنبال یافتن مهمترین خصیصه ها برای پیش بینی برچسبپکلاسژفداده ها استچفالگوریتم های متنوعی برای انتخاب خصیصه وجود دارد ما در این مقاله با رویکردی نوین و با استفاده از تکنیکهای تصمیم گیری چند معیاره از جمله آنتروپی و مدل تحلیل پوششی داده ها به ارائه مدلی ابتکاری در انتخاب خصیصه پرداخته ایم و با ایجاد آزمایشی مناسب به آزمایش ذفپایگاه داده واقعی i iاقدام نموده ایم و با مقایسه با دیگر روشهای رایج انتخاب خصیصه به آزمایش الگوریتم پیشنهادی پرداخته ایمچفنتایج حاکی از دقت بالاتر روش پیشنهادی در مقایسه با سایر الگوریتم های موجود است ف که نشان می دهد با استفاده از تکنیکهای تصمیم گیری چندمعیاره علاوه بر آنکه می توان دقت داده کاوی را افزایش داد، می توان شاخه جدیدی نیز در الگوریتم ها ایجاد کردچففف

کلمات کلیدی

داده کاوی، الگوریتم انتخاب خصیصه، آنتروپی، تحلیل پوششی داده ها، طبقه بندیچفف

-۱ مقدمه

داده کاوی، به تحلیل اکتشافی داده ها در میان سایر چیزها گفته می شودچفانبوه اطلاعات تولید شده از قسـمتهای مختلـف نظیـر صـندوق های دریافت پول شرکت، نظارت و کنترل، پایگـاه هـای داده شـرکت مورد کاوش، تحلیل، تقلیل و استفاده مجدد قرار می گیرندچفتحقیقات برای تمام مدل های پیشنهاد شده برای پیش بینی فـروش، واکـنش بازار و سود آن انجام شده استچفرویکردهـای آمـار کلاسـیک، پایـه و اساس داده کاوی هستند چفدر روش های اتوماتیک هوش مصنوعی نیز معمــولا مــورد اســتفاده قــرار مــی گیرنــدچفبــه هــر حــال، اکتشــاف سیستماتیک از طریق روش های آمار کلاسیک هنـوز پایـه و اسـاس داده کاوی استچفبرخی از نرم افزارهای کاربردی ایجاد شده در رشـته تحلیل آماری داده ها به صورت اتوماتیک کنترل می شـوند کـه ایـن کنترل نیز تا حدی توسط انسان نیز هـدایت مـی شـودچ [۱]فدر ایـن مقاله ما به بررسی یکی از مهمتـرین وظـایف داده کـاوی کـه طبقـه بندی است می پردازیمچفف

طبقهفبندیم فبه معنی پیش بینی برچسبتفها برای دادهفها بر اساس دادهفهای برچسب خورده قبلی میفباشد[۲] ف طبقه بندی فرایندی است برای یافتن مدلز فپیا تابعژ فکه دادهفها را تشریح و کلاسهای آنها را تشخیص میفدهدچفبرای رسیدن به این هدف از مدل ساختهفشده استفاده میفشود که میف تواند برچسب کلاسفهای نامشخص را بدست آوردچفمدل بیان شده بر اساس تحلیل مجموعهفای از داده های آموزشیذ فپداده هایی که برچسب کلاس آنها مشخص می باشدژفبدست می آیدچ[۳]فف

“مدل بدست آمده چگونه تشریح می شود ؟” فمدل به دست آمده ممکن است به شکلهای مختلف از جمله قوانین طبقه بندی پIF-THENژفشکللف، درخت تصمیمغفشکل هف، فرمول های ریاضی و یا شبکه های عصبیهف، شکل مفنشان داده شوندچفف

شکل۱ نمونهای از قوانین طبقهبندی

فف

Classification ٣ Lable ۴
Model ۵ Train ۶

Decision Tree ٧ Neural Network ٨

شکل ۲ نمونهای از درخت تصمیم

فف

شکل ۳ نمونهای از شبکه عصبی

درخت تصمیم ساختاری درختی شبیه به فلوچارت است بطوریکه هر گره آزمونی بر روی مقدار یک خصیصه است و هر شاخه ، حاصل آن آزمون را نشان میفدهد و برگهای درخت، کلاس ها را نشان میفدهدچ فدرخت های تصمیم به سادگی میف توانند تبدیل به قوانین طبقهفبندی شوندچفیک شبکه عصبی زمانی که برای طبقهفبندی استفاده میفشود معمولا مجموعهفای از دادهفهای پردازش شبکهفعصبشفها با ارتباطفهای وزن دار بین این واحدها میفباشد.[۴]فف

روشفهای دیگری نیز برای ساختن مدلهای طبقهفبندی از قبیل طبقه بندی بیزی سادهحل، ماشین بردار پشتیبانللپSVMژفو طبقه بندی نزدیکترینفهمسایهفKامهلفپKNNژفوجود داردچفف

طبقه بندی نیز می تواند برچسب ها برای داده های گسسته و پیوسته پیش بینی کندچفیعنی علاوه بر پیش بینی برچسب کلاس جهت پیش بینی مقادیر عددی گم شده یا غیرقابل دسترس استفاده

neuron ٩ Naïve Bayesian ١٠
Support Vector Machine ١١ K-Nearest Neighbor ١٢

۲ www.iiec2013.ir

می شودچفف تحلیل رگرسیونملفروشی آماری است که اغلب برای پیش بینی

اعداد بکار برده میفشود ، و نیز روش های دیگری در این زمینه وجود دارندچف طبقهفبندی و پیشفبینی ممکن است با تحلیل روابطتلففپفکه در مرحله انتخاب خصیصه انجام می شودژفدنبال شود که تلاش میفکند، خصیصهفهایی را که کمتر در طبقهفبندی و پیشفبینی شرکت میفکنند را حذف نمایدچ[۵]فدر ادامه بخش های مقاله بدین ترتیب سازماندهی شده است در بخش هفبه بیان ابزارهای مورد استفاده می پردازیم در بخش مفبه طراحی آزمایش می پردازیم در بخش تفبه بیان نتایج می پردازیم و در نهایتا در بخش ز فبه نتیجه گیری و پیشنهادات برای محققان دیگر خواهیم پرداختچفف

-۲ ابزارهای مورد استفاده

در این بخش به بیان ابزارها و روشهای مورد اسـتفاده در ایـن مقالـه خواهیم پرداختفف
-۱-۲الگوریتم های انتخاب و رتبه بندی خصیصه ها

این الگوریتم ها به الگوریتم هـای Feature Selectionفمعـروف مـی باشند و به دو دسته تقسیم می شوند [۶]یک دسته از ایـن الگـوریتم ها به رتبه بندی خصیصه ها می پردازند مثل کـای اسـکوئر و امتیـاز فیشر پFilter Attributeژفو دسته دوم زیر مجموعـه ای از خصیصـه ها را انتخاب مـی کننـد بطوریکـه آن زیـر مجموعـه تـا حـد زیـادی خاصیت های کل خصیصه ها را داشته باشند که این کار بـا هفهـدف اصلی انجام می شودففف

لنف در پایگاه داده هایی کـه خصیصـه هـای مناسـب انتخـاب نشده باشند ، با حذف آن خصیصه ها دقـت طبقـه بنـدی افزایش می یابدچ

هنف در پایگاه داده هایی که خصیصه ها مناسب انتخـاب شـده باشند، با کاهش خصیصه هـا پـردازش اطلاعـات سـریعتر انجام خواهد پذیرفتچ
در اینجا به معرفی دو الگوریتم می پردازیمففف
:Cfs15 subset eval 3-1-2
الگوریتم CFsفبر اساس ضریب همبستگی بنا نهاده شـده اسـت و بـر این اساس است که یک زیر مجموعه kفتایی از خصیصـه هـا انتخـاب می شـود و میـانگین ضـریب همبسـتگی بـین خصیصـه هـای آنـرا محاسبه می کنیم و برابر فقرار می دهیمچفسپس میانگین ضریب همبستگی بین خصیصه ها و کلاس پایگاه داده را محاسبه می کنـیمف

۱۳ Regression 14 Relevance analysis 15 Correlation-based Feature Selector

و برابر فقرار می دهیم و فرا برای آن محاسـبه مـی کنـیم و
تمام زیر مجموعه های خصیصه ها را از رابطه محاسبه مـی کنـیم و
هر زیر مجموعه ای که بیشترین مقـدار را داشـت خصیصـه هـای آن انتخاب می شوندچ[

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
word قابل ویرایش - قیمت 9700 تومان در 8 صفحه
97,000 ریال – خرید و دانلود
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد