مقاله بهبود دقت الگوریتم ماشین بردار پشتیبان (SVM) با تکنیک انتخاب ویژگی

word قابل ویرایش
15 صفحه
دسته : اطلاعیه ها
12700 تومان
127,000 ریال – خرید و دانلود

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

بهبود دقت الگوریتم ماشین بردار پشتیبان (SVM) با تکنیک انتخاب ویژگی

خلاصه
بشر با پیشرفت فناوری در ثبت و ذخیره سازی داده ها و پردازش آنها گامی بزرگ جهت کسب دانش برداشته است. در واقع داده نمایش از واقعیت ها، معلومات، مفاهیم، رویدادها یا پدیده ها برای براقراری ارتباط، تفسیر یا پردازش، توسط انسان یا ماشین است. از داده کاوی، به عنوان مرحله ای از فرایند کشف دانش که الگوها و یا مدل ها را در میان انبوهی از داده ها پیدا می کند، یاد می شود. یکی از مهمترین وظایف داده کاوی، طبقه بندی است. طبقه بندی فرآیند یافتن مدلی که کلاس ها یا مفهوم داده را برای پیش بینی نمونه هایی با برچسب نامشخص، تشخیص و تشریح کند . روش های بسیاری جهت ساختن مدل های طبقه بندی وجود دارد از جمله طبقه بندی بیزین، ماشین بردار پشتیبان، نزدیک ترین همسایگی و…می باشند. هدف این تحقیق، بهبود دقت الگوریتم ماشین بردار پشتیبان( SVM) 3 است. SVM ابزاری کارامد در یادگیری ماشین می باشد اما قادر به انتخاب ویژگی های مهم نیست. در این مقاله، با ترکیب ماشین بردار پشتیبان پروگزیمال(PSVM) 4 و استراتژی انتخاب ویژگی سعی بر انتخاب ویژگی های مهم و استفاده آن برای طبقه بندی می باشد.

کلمات کلیدی: داده کاوی، ماشین بردار پشتیبان پروگزیمال (PSVM)، انتخاب ویژگی

-۱ مقدمه
بشر با پیشرفت فناوری در ثبت و ذخیره سازی دادهها و پردازش آنها گامی بزرگ جهت کسب دانش برداشته است. در واقع داده نمایشی از واقعیتها، معلومات، مفاهیم، رویدادها یا پدیده ها برای برقراری ارتباط، تفسیر یا پردازش، توسط انسان یا ماشین است. از طرف دیگر واژه اطلاعات، به معنی دانشی که از طریق خواندن، مشاهده و آموزش بدست میآید اطلاق میشود و در حقیقت میتوان گفت اطلاعات دادههایی هستند که پس از جمعآوری پردازش شدهاند و شکل مفهومی تولید کردهاند. به بیان دیگر اطلاع حاصل تکامل دادهها است. به این ترتیب بین دادهها و اطلاعات یک شکاف وجود دارد که اندازه این شکاف با حجم دادهها ارتباط مستقیم دارد. هرچه دادهها حجیمتر باشند، این شکاف بیشتر خواهد بود و هر چه حجم دادهها کمتر وروشها و ابزار پردازش دادهها کاراتر باشد، فاصله بین دادهها و اطلاعات کمتر است .[۱] امروزه افزایش سریع حجم پایگاه دادهها به شکلی است که توانایی انسان برای درک این دادهها بدون ابزار پرقدرت میسر نمیباشد. در این وضعیت، تصمیمگیری ها به جای تکیه بر اطلاعات بر درک مدیران و کاربران تکیه دارند، چرا که تصمیم گیرندگان ابزار قوی برای استخراج اطلاعات با ارزش را در دست ندارند. در واقع شرایط فعلی توصیف کننده حالتی است که ما از لحاظ داده غنی، اما از لحاظ اطلاعات ضعیف هستیم.[۲]
مبنای ارزیابی الگوریتمهای یادگیری دقت دستهبندی، صحت راه حل و کیفیت آن و سرعت عملکرد میباشد. دادهکاوی۵ فرآیندی است که در آغاز دهه ۹۰ مطرح شد و با نگرشی نو، به مسئلهی استخراج اطلاعات از پایگاه دادهها۶ میپردازد. از سال ۱۹۹۵ داده کاوی به صورت جدی وارد مباحث آمارشد. محققانی نظیر Bracman و (۱۹۹۶) Anand کلیه مراحل واقعگرایانه و رو به جلو کشف دانش از پایگاه دادهها را تشخیص دادند. طبقهبندی یکی از عملیات رایج مورد استفاده در داده کاوی است. طبقه بندی عملیاتی است که سازمانها را قادر می سازد که در حل مسائل خاص در مجموعههای بزرگ و پیچیده به کشف الگوها دست یابند. طبقهبندی فرآیندی می باشد که مجموعه دادهها را به قسمتهای مشخص تقسیم میکند.[۳]
در این مقاله، از برنامهریزی ریاضی و روشهای مبتنی بر بهینه سازی، به منظور بررسی و ایجاد مدل یادگیری هدایت شده جهت طبقهبندی دادهها استفاده میکنیم. مدل مورد استفاده ترکیب ماشین بردار پشتیبان پروگزیمال((PSVM و یکی از استراتژیهای انتخاب ویژگی میباشد که از طریق ایجاد زیر مجموعه اولیه از ویژگیها با استراتژی جستجو وحل مدل بر اساس معیار تعریف شده، می باشد.
-۲ مرور ادبیات

اولین الگوریتم برای طبقهبندی و دستهبندی الگوها در سال ۱۹۳۶ توسط Fisher ارائه شد و معیار آن برای بهینه بودن، کم کردن خطای طبقهبندی الگوهای آموزشی بوده است. بسیاری از الگوریتمها و روشهایی نیز که تا کنون برای طراحی طبقه بندی کنندههای الگو طراحی شده است، از همین استراتژی پیروی می کنند .[۴]
محقق روسی بنام Vapnik در سال ۱۹۶۵ گامی بسیار مهم در طراحی دستهبندی کنندهها برداشت و نظریه آماری یادگیری را به صورت مستحکمتری بنا نهاد و ماشین بردار پشتیبان((SVM را بر این اساس ارائه داد.
در سال ۱۹۶۵، Mangasarian یک طبقهبندی کننده با حاشیهی بزرگ را با استفاده از تکنیک های بهینهسازی به صورت مدل برنامهریزی خطی تنظیم و ارائه کرد و نشان داد که دستهکنندههای خطی و غیرخطی بوسیلهی برنامهریزی خطی قابل دست یابی هستند.[۵] بین سالهای ۱۹۸۰ تا ۱۹۹۰ ، Freed وGlover چند مدل برنامه ریزی خطی را به منظور حل مسائل تفکیککننده با نمونه کوچک دادهها ارائه نمودندSVM .[6] به شکل نزدیک به روش فعلی، برای اولین بار در قالب یک مقاله در سال ۱۹۹۲ توسطBoser و همکاران معرفی شد .آنها همچنین در این مقاله راهی را برای ساخت طبقهبندی کنندههای غیر خطی با حداکثر حاشیه با استفاده از کاربرد حقه کرنل در نگاشت غیرخطی ابرصفحههای بهینه به فضای ویژگی(با ابعاد بیشتر) ارائه کردند. برای این منظور الگوریتم Chunking جهت حل مدل ارائه گردید .[ ۷] در سال ۱۹۹۵، Cortes وVapnik ، ایدهی حداکثر حاشیهی اصلاح شده را مطرح نمودند. در این روش خطای طبقهبندی نادرست در مدلSVM در نظر گرفته شده است و الگوریتم حداکثر حاشیه با تعریف متغیر کمبود در مدل سازی، به مسائلی که بصورت خطی جداپذیر نیستند، تعمیم داده شد.
Fung و Mangasarian در سال ۲۰۰۱ مدلی را با عنوان PSVM ارائه دادند. این مدل به جای ماشین بردار پشتیبان استاندارد، که دادهها را با اختصاص آنها به یکی از دو ابر صفحه مجزا طبقهبندی میکند، آنها را بوسیلهی اختصاصشان به نزدیکترین دو صفحه ی موازی (در فضای ورودی یا ویژگی) که تا حد امکان از هم فاصله گرفتهاند (حداکثر حاشیه) دستهبندی میکند. این فرمول که می تواند به عنوان حداقل مربعات منظم تفسیر شود و در بسیاری از زمینههای عمومی شبکههای منظم در نظر گرفته شود، منجر به الگوریتم بسیار سریع و ساده برای ایجاد دسته کنندهی خطی یا غیرخطی که صرفا مستلزم حل سیستم واحد معادلات خطی میشود . نتایج محاسباتی روی پایگاه داده های در دسترس نشان میدهد که دسته کنندهیPSVM دارای مجموعه آزمون قابل مقایسهی صحت نسبت به SVM استاندارد است اما با زمان محاسباتی بسیار سریعتر میباشد. همچنین Fung وMangasarian در این تحقیق نشان دادند که PSVM خطی مجموعه دادههای بزرگ را برای مثال ۲ میلیون نقطه با ۱۰ ویژگی را در ۲۰٫۸ ثانیه طبقهبندی میکند .[۸]

Peng و همکاران در سال ۲۰۰۲ بهبود یافته روش برنامه ریزی خطی Shi را برای طبقهبندی چند گروهی پیشنهاد دادند .[۹]
Chen و همکاران در سال ۲۰۱۰ روش آماری دو مرحلهایی را برای برنامهریزی بارش روزانه ارائه دادند. قدم اول طبقهبندی جهت تعیین اینکه روز خشک یا مرطوب است؟ و دوم رگرسیون برای تخمین میزان بارش شرطی در دقت یک روز مرطوب است. پیش بینی کنندههای مدلهای رگرسیون و طبقه بندی از متغیرهای بزرگ مقیاس آب و هوا در آزمونهای آماری انتخاب شدهاند. روش آماری پیشنهاد شده با توجه به دو روش توسعه یافته است. روش اول SVM است که شامل طبقه بندی بردار پشتیبان (SVC) و رگرسیون بردار پشتیبان((SVR است و دیگری تحلیل چند متغیری شامل تحلیل مجزا برای SVM و رگرسیون مضاعف است .[۱۰]
-۳ طبقه بندی در داده کاوی
الگوریتمهای دادهکاوی سه رویکرد یادگیری مختلف را دنبال میکنند: بانظارت، بدون نظارت و نیمه نظارتی. در یادگیری با نظارت الگوریتم با مجموعهای از مثالها که برچسب کلاس شان مشخص است کار میکند . برچسبها میتوانند ارزش اسمی در حالت طبقهبندی و ارزش عددی در حالت رگرسیون داشته باشند. در مقابل، در یادگیری بدون نظارت برچسبهای نمونهها در مجموعه دادهها نامشخص است و الگوریتم تلاش میکند که نمونهها را براساس شباهت ارزشهای ویژگیشان گروهبندی کند. در نهایت، یادگیری نیمه نظارتی زمانی استفاده میشود که زیر مجموعهی کوچکی از نمونههای برچسبشدهبا تعداد زیادی از نمونههای بدون برچسب موجود باشد.[۱۱]
طبقهبندی را میتوان به عنوان یک روش بانظارت که در آن هر نمونه متعلق به یک کلاس با ویژگی خاص میباشد، دانست. هر نمونه شامل دوقسمت است: مجموعه مقادیر ویژگی پیشبینی کننده و مقدار ویژگی هدف. اولین مورد برای پیشبینی ارزش بعدی استفاده میشود. ویژگیهای پیشبینی کننده باید برای پیشبینی کلاس یک مورد مناسب باشد. در طبقهبندی مجموعه نمونههای استخراج شده به دو مجموعهی انحصاری متقابل و جامع که مجموعهی آموزش و آزمایش گفته میشوند، تقسیم

میشود. دانش کشف شده بوسیلهی الگوریتم طبقهبندی را میتوان از طریق راههای مختلف بیان کرد که شامل: قوانین۷، درخت های تصمیم، شبکهی بیزین۸، .[۱۲] SVM

– ۱ – ۳ ماشین بردار پشتیبان پروگزیمال((PSVM

ماشین بردار پشتیبان استاندارد که ابزار قویای برای طبقهبندی دادهها است، دادهها را با اختصاص شان به یکی از دو ابرصفحهی مجزا، طبقهبندی میکند. این ابرصفحهها، هم در فضای ورودی اصلی مسئله برای دستهکنندههای خطی و یا در فضای ویژگی با ابعاد بالاتر برای دستهکنندههای غیرخطی، هستند. چنین SVM استانداردی نیازمند حل مسئلهی خطی و یا درجهی دو است. در مقابل، PSVM داده ها را با توجه به نزدیکی شان به یکی از دو صفحات موازی که تا حد امکان از هم فاصله گرفتهاند (حداکثر حاشیه) طبقهبندی میکند. تحدب قوی و زمان محاسباتی سریع، نقش کلیدی را در PSVM بازی میکند. بدست آوردن دستهکننده PSVM خطی و غیرخطی نیازمند هیچ چیز پیچیدهتری غیر از حل یک سیستم واحد از معادلات خطی (۱) و (۲) نیست.

لازم به ذکر است که هیچ محدودیت غیرمنفی برای مورد نیاز نیست زیرا اگر هر مؤلفهی منفی باشد، آنگاه تابع هدف میتواند با مساوی صفر قرار دادن کاهش یابد، در حالیکه محدودیت نامساوی مربوطه را برآورده میکند.
دقت شود که بردار خطای در (۱) مینیمم میشود و حاشیهی بین صفحات مرزی باتوجه به بردار قائم wو مکان مربوطه نسبت به مبدأ b ماکزیمم میشود. نتایج محاسباتی نشان داده است که این فرمولبندی، به خوبی فرمولبندی SVM کلاسیک با مزایای بیشتری مانند تحدب قوی تابع هدف میباشد.[۱۳]

باتوجه به شکل ( ۱) صفحات دیگر صفحات مرزی نیستند اما میتوان به عنوان صفحات “پروگزیمال” حوالی نقاط دستهبندی شدهای که بوسیلهی تابع هدف تا جای ممکن از هم دور شده اند در نظر گرفت که نرم دو مجذور فاصله متقابل بین دو صفحه در (w,b) فضای است.

-۴ انتخاب ویژگی
هنر یادگیری ماشین با طراحی تضمینی اطلاعات مناسب شروع میشود. عملکرد بهتر اغلب با استفاده از ویژگیهای بدست آمده از ورودی اصلی نتیجه میشود. ساختن یک نمونه از ویژگی، فرصتی است برای ترکیب دانش تخصصی با داده که بسیار کاربردی میباشد. این تکنیک چه در عمل و چه در تئوری تأثیر خود را در افزایش کارایی یادگیری، افزایش دقت پیشبینی و کاهش پیچیدگی نتایج آموزش داده شده، نشان داده است. هدف اصلی انتخاب ویژگی، انتخاب زیرمجموعهی متغیرهای ورودی با حذف متغیرهای نامربوط و یا متغیرهایی که فاقد اطلاعات پیشگویانه هستند، می باشد .[۱۴]
انتخاب ویژگیهای بهینه، لایهی اضافی پیچیدگی را در مدلسازی می افزاید، به جای پیدا کردن پارامترهای بهینه برای مجموعه کامل ویژگیها، ابتدا زیرمجموعهی ویژگی بهینه یافت میشود و سپس پارامترهای مدل بهینه میشوند. انتخاب ویژگی تمرکز بسیاری از تحقیقات در زمینههای کاربردی برای مجموعه دادههایی با دهها، صدها و هزاران متغیر را شامل میشود .[۱۵]
هدف از انتخاب ویژگی، بهبود عملکرد پیشبینی، ارائهی پیشبینی سریعتر و مقرون به صرفهتر و ارائهی درک بهتر از روند اطلاعات تولید شده است.

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
word قابل ویرایش - قیمت 12700 تومان در 15 صفحه
127,000 ریال – خرید و دانلود
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد