بخشی از مقاله
اهمیت انتخاب ویژگی در تشخیص تقلب کارت اعتباری
چکیده
با پیشرفت های اخیر در فناوری، کارت های اعتباری به عنوان یکی از مهم ترین موارد سیستم پرداخـت پذیرفتـه شـده انـد. بـه دلیـل کمبودهایی که در امنیت سیستم های پرداخت کارت های اعتباری وجود دارد، تقلب در آن ها روند افزایشی داشته است. هرچـه سـریع تر تراکنش های کلاهبرداری تشخیص داده شوند، با متوقف کردن تراکنش هـای انجـام شـده توسـط کـارت هـای اعتبـاری جعلـی، از خسارات و زیان های وارده زیادی جلوگیری می شود. ویژگی های دقیق و سنجیده به شدت در کارایی یک سیستم تشخیص تقلب تأثیر دارند. انتخاب ویژگی یک مسئله مهم در سیستم های دسته بندی الگو می باشد و نقش کلیدی در افزایش دقت و صـحت دسـته بنـدی دارد. انتخاب ویژگی یک مرحله پیش پردازش در بیشتر الگوریتم های تحلیل داده ها می باشد. هدف از انتخاب ویژگی، امکان تشـخیص الگوهای متعلق به دسته های مختلف است. در این مقاله، ضمن مرور انواع و تشخیص تقلب کارت اعتباری، انـواع روش هـای اصـلی در انتخاب ویژگی بررسی خواهد شد.
-1 مقدمه
کلاهبرداری به معنای سوء استفاده از سیستم یک سازمان سود ده مـی باشـدبـدون، ایـن کـه لزومـاً پیامـدهای حقـوقی مسـتقیمی را دربرداشته باشد Aral) و همکاران، .(2012 کلاهبرداری، به طور کلی، "عمل فریب دادن به منظور کسـب منفعـت مـالی غیـر منصـفانه بدون اسـتحقاق و شایسـتگی و یـا غیـر قـانونی" اسـت Humpherys) و همکـاران،.(2011 لـوی و بـاروسAral) 1 و همکـاران، (2012 کلاهبرداری را این گونه تعریف می کنند: "کلاهبردار با آن، مزیتی غیرقانونی را به دست می آورد یا کاستی هـای غیرقـانونی را موجـب می شود". شناسایی کلاهبرداری یک موضوع مهم در بسیاری از حوزه ها شامل وام های اعتبـاری، کـارت اعتبـاری، ارتباطـات راه دور و بیمه می باشد Kim) و همکاران، .(2012 هرگونه تلاش در جهت شناسایی کلاهبرداری در این حوزه ها، فرآیند شناسـایی کلاهبـرداری نامیده می شود Aral) و همکاران، .(2012 کلاهبرداری جعل2 و استفاده ی غیر قانونی از یک کارت گمشـده یـا دزدیـده شـده، دو نـوع عمده و مهم کلاهبرداری در ارتباط با کارت اعتباری محسوب می شوند Duman) و Ozcelik، .(2011 بر اساس مجموعهی مشخصـی از ویژگی ها، مدل های تشخیص تقلب می توانند با به کارگیری الگـوریتم هـای یـادگیری ماشـین در مجموعـهی داده هـا سـاخته شـوند
Chang) و Chang ،.(2012
با توجه به اهمیت انتخاب ویژگی در زمینه های مختلف تحقیقاتی، در حال حاضر، پژوهش های زیـادی در ارتبـاط بـا انـواع روش هـای انتخاب ویژگی انجام پذیرفته است؛ بدین ترتیب که Song و همکاران (2013) یک الگوریتم انتخاب زیر مجموعه ویژگـی را بـر اسـاس خوشه بندی سریع داده های با ابعاد بالا؛ Hassan و همکاران (2013) تکنیک های هیبریـدی انتخـاب ویژگـی متشـکل از روش هـای چند فیلترینگ جمعی و روش پوشش را جهت بهبود دقت دسته بندی؛Dai و همکاران (2013) یـک روش انتخـاب ویژگـی بـر اسـاس شکل جدیدی از آنتروپی شرطی3؛ Bouaguel و همکاران (2013) یـک روش تلفیقـی بـر اسـاس پوشـش و فیلتـر بـا اسـتفاده از رأی حداکثری و وزن دهی ویژگی ها؛ Yang و همکاران (2013) یک روش پوشش مبتنی بر جمعی را بـرای انتخـاب ویژگـی؛ Foithong و همکاران (2012) یک روش نوین انتخاب ویژگی مبتنی بر مـدل هیبریـدی فیلتـر-پوشـش؛ Sasikala و همکـاران (2014 ) یـک روش انتخاب ویژگی چند فیلترینگ(MFFS) 4 با هدف بهبـود دقـت تشـخیص و انتخـاب زیـر مجموعـه بهینـه از ویژگـی هـا؛ Tabakhi و همکاران (2014) یک روش جدید انتخاب ویژگیبر اساس کلونی مورچه با هدف رسیدن بـه راه حلـی بـا کیفیـت تقریبـاً بـالا و زمـان محاسباتی قابل پذیرش؛ Wang و همکاران ( (2014 یک boosting جدید بهبود یافته را بر اساس انتخاب ویژگی جهت کمک به پـیش بینی ورشکستگی؛ Xue و همکاران ( (2014 الگوریتم بهینه سازی ازدحام ذرات 5 را برای انتخاب ویژگی با هدف به حداکثر رسانی کـارایی دسته بندی، به حداقل رسانی ویژگی ها و کاهش زمان محاسباتی؛ Feng و همکـاران (2014) یـک روش بهینـه سـازی ترتیبـی بـرای انتخاب ویژگی(OOFS)6؛ Mashrgy و همکاران (2014) یک روش انتخاب ویژگی نظارت نشده را با استفاده از مدل های تلفیقی تغیر یافته عمومی شده7؛ Yassi و (2014) Moattar یک روش انتخاب پایدار و مستحکم را توسط یکپارچه سازی روش های رتبـه بنـدی و تکنیک پوشش؛ Lu و همکاران (2014 ) یک الگوریتم انتخاب ویژگی بر پایه ناحیه مـرزی 8(BRFS)؛ و Lin و همکـاران ( (2014 یـک روش جدید انتخاب ویژگی را از طریق ترکیب همسایگی چند دانه ای9 را پیشنهاد کردنـد. لـذا در ایـن مقالـه، روش هـای پایـه جهـت انتخاب ویژگی شامل فیلتر، پوشش، تعبیه شده و ترکیبی مورد بررسی قرار گرفته اند؛ و همچنین اهمیت انتخـاب ویژگـی در تشـخیص تقلب کارت اعتباری بحث شده است.
-2 انواع کلاهبرداری
دو نوع عمده و مهم کلاهبرداری در ارتباط با کارت اعتباری وجود دارند. اولین مورد، کلاهبرداری جعل10 است کـه توسـط گـروه هـای تبهکار سازمان یافته انجام می شود. تأثیر کلی این نوع کلاهبرداری بسیار زیاد است و معمولاً ده ها و حتی صد ها نفر از مشتریان یـک بانک را در یک زمان تحت تأثیر قرار می دهند. کلاهبرداران، تـا فعالیـت بعـدی خـود، معمـولاً غیـر فعـال بـاقی مـی ماننـد. نـوع دوم کلاهبرداری ارتک اعتباری، استفاده ی غیر قانونی از یک کارت گمشده یا دزدیده شده است. این نوع از کلاهبرداری، معمـولاً بـه گـروه های تبهکار مربوط نیست و هر فعالیت کلاهبرداری فقط بر روی یک یا تعدادی کارت اثر می گذارد. راهکار های تشخیص کلاهبـرداری کلاسیک، سیستم های قانونی تخصصی بر اساس قوانینی هستند که توسط اشتراک و تجزیه و تحلیـل هـای تشـخیص الگـو در مـوارد کلاهبرداری قبلی ایجاد شده اند. با این حال، گروه های تبهکار محلی و جهانی در ساختار و روش های خود بسیار پویا هستند. در ایـن محیط دینامیک و پویا، حتی قدرت بهترین قوانین ماهرانه، به سرعت رو به زوال می رود؛ زیرا کلاهبرداران، رفتار متفاوتی را نسـبت بـه
کلاهبرداری های قبلی که بر اساس آن الگوها و قوانین شکل گرفته اند از خود نشان می دهند. علاوه بر این نقص، این قوانین فقـط در تشخیص کلاهبرداری های جعلی کاربرد دارند؛ اما برای تشخیص موارد دزدیده شده یا گمشـده نمـی تـوان از آن هـا بهـره منـد شـد. بنابراین، یک راهکار قوی تر مورد نیاز است که تنها بر اساس وضعیت و رفتـار کلاهبـرداران نباشـد؛ بلکـه بـر اسـاس رفتـار و وضـعیت مشتریان نیز باشد. بیشتر مشتریان، رفتاری معمولی در استفاده از کارت ها دارند و خیلـی اوقـات، عـادات خـود را تغییـر نمـی دهنـد. بنابراین، نوع رفتار هر مشتری می تواند تعیین شود و هر گونه تراکنش دریافتی می تواند با آن نوع رفتار مقایسه شود؛ اگر به نظـر غیـر معمولی و غیر طبیعی برسد، می تواند به عنوان احتمال کلاهبرداری هشدار داده شود Duman) و Ozcelik، .(2011
علاوه بر تقسیم بندی ذکر شده در بالا، تقسیم بندی دیگری نیز در ارتباط با کلاهبرداری کارت اعتباری وجود دارد. بـر ایـن اسـاس، دو نوع کلاهبرداری رفتاری و کاربردی وجود دارند. در کلاهبرداری کاربردی، کلاهبرداران، کارت های جدید صادر شده توسط شرکت ها را با استفاده از اطلاعات نادرست و یا اطلاعات دیگر افراد به دست می آورند که دو نوع هستند. در نوع اول، مجرمان، کارت هـای جدیـد را از شرکت های صادر کننده با استفاده از اطلاعات افراد دیگر به دست می آورند و به استفاده از کارت با مشخصات و هویت دزدیده شـده ادامه می دهند تا زمانی که کلاهبرداری تشخیص داده شود. در نوع دوم، مجرمان به دنبال کـارت هـای اعتبـاری جدیـد بـا اسـتفاده از اطلاعــات شخصــی نادرســت (بــا ایــن هــدف کــه هرگــز خریــد هایشــان را بــاز پرداخــت نمــی کننــد) هســتند Bhattacharyya)) و همکاران،(2011، Jha) و همکاران، .((2012
کلاهبرداری رفتاری چهار نوع است: سرقت الکترونیکی (ایمیلی)، کارت دزدیده شده/گمشده، کارت تقلبی یا جعلـی و دارنـده ی کـارتی که موجود نمی باشد ( عدم وجود دارنده ی کارت). کلاهبرداری سرقت الکترونیکی وقتی اتفاق می افتد که کلاهبرداران به کـارت هـای اعتباری در ایمیل ها قبل از اینکه به دست صاحبان کارت برسد، دسترسی پیـدا کننـد Bhattacharyya)) و همکـاران،(2011، Jha) و همکــاران، ((2012؛ یــا اطلاعــات شخصــی را از بانــک و صــورت وضــعیت هــای کــارت اعتبــاری ســرقت کننــد Bhattacharyya) و همکاران،.(2011 کلاهبرداری کارت به سرقت رفته/گمشده وقتی اتفاق می افتد که کلاهبرداران، کارت های اعتباری را از طریـق دزدی و سرقت به دست آورند Bhattacharyya)) و همکاران،(2011، Jha) و همکـاران، .((2012 در مـورد کلاهبـرداری کـارت هـای جعلـی (همانند دو نوع قبلی)، یک کارت فیزیکی برای ارتکاب کلاهبرداری به کار می رود Jha) و همکـاران، .(2012 بـا ایـن حـال، بـا افـزایش استفاده از تراکنش های آنلاین، افزایش قابل توجهی در کلاهبرداری کارت جعلی و یا کلاهبرداری "دارنده ی کـارت وجـود نـدارد" بـه وجود آمده است. در هر دوی این کلاهبرداری ها، جزئیات کارت اعتباری بدون شناخت صاحب کارت به دست می آیند و سـپس کـارت های جعلی ساخته می شوند؛ یا اطلاعات برای انجام تراکنش های "دارنده ی کارت وجود ندارد" از طریق ایمیل، تلفن یـا اینترنـت، بـه کار می روند. اطلاعات دارندگان کارت از روش های گوناگون به دست می آیند؛ از جمله، کارمندان اطلاعات را از طریق به دسـت آوردن غیر مجاز11، کلاهبرداری فیشینگ12، یا از طریق نفوذ به شبکه های کامپیوتری شرکت به دست می آورند. جزئیـات کـارت بـرای انجـام تراکنش کافی است. از آنجا که تراکنش ها از راه دور انجام می پذیرند، مجرمان مجبور به ارائه ی امضاء برای خرید و یا دزدیدن فیزیکی کارت های اعتباری یا حتی نشان دادن مدرک تعیین هویت نیستند. بنابراین، مجرمان تراکنش های جعلی را در گمنـامی کامـل انجـام می دهند. این چهـار نـوع کلاهبـرداری رفتـاری، نسـبت بسـیار بـالایی از زیـان و خسـارت را نشـان مـی دهنـد. Bhattacharyya) و همکاران،.(2011
-3 تشخیص تقلب
یکی از چالش هایی که نه تنها شرکت های ارتباطات راه دور13، بلکه مؤسسات خدماتی مانند بانک هـا، تـأمین کننـدگان آب و انـرژی و مؤسسات اعتباری نیز با آن روبرو هستند، تشخیص تقلب مشتریان است Farvaresh) و Sepehri ، .(2011 در بانکداری، کلاهبرداری هـا می توانند در استفاده از کارت های اعتباری، کارت های بانکی، حساب های بانکی اینترنتی و مرکز تمـاس (بانکـداری تلفنـی) مشـاهده شوند. پول شویی و کلاهبرداری پرسنلی، دیگر انواع کلاهبرداری مربوط به بانکداری هستند. زیان وارده از مجموع کلاهبرداری ها بسـیار قابل ملاحظه است و یک تهدید عمده برای اقتصاد قانونی به شمار می رود؛ اهمیت آن ، توجه بسیاری از محققان را به خود جلب کـرده است Duman) و Ozcelik، .(2011
تقلب کارت اعتباری، یک مشکل جدی و رو به افزایش است Bhattacharyya) و همکاران،.(2011 هرچه سریع تر تراکنش های تقلبی تشخیص داده شوند، با متوقف کردن تراکنش های انجام شده توسط کارت های اعتباری جعلی و کلاهبرداری، از خسارات و زیان های وارده زیادی جلوگیری می شود Jha) و همکاران، .(2012 شناسایی کلاهبرداری مربوط به اقدامات و سیستم ها به منظور شناسایی سریع تراکنش ها کلاهبرداری به محض وقوع آن ها است. کشف کلاهبرداری یک فعالیت دائمی است به دلیل اینکه که راهی برای اطلاع از عدم موفقیت در ممانعت از کلاهبرداری و اینکه کدام تراکنش ها تقلبی هستند، وجود ندارد Pozzolo) و همکاران، .(2014
-4 ویژگی و اهمیت آن در تشخیص تقلب
-1-4 تعریف ویژگی
ویژگی عبارت است از یک مشخصه منحصر به فرد قابل سنجش از یک فرایند در حال مشاهده. با استفاده از مجموعه ویژگی ها، هر یک از الگوریتم های یادگیری ماشینی قادر به انجام دسته بندی هستند. متغیرهای وابسته هیچ اطلاعات اضافی درباره کلاس ها ارائه نمی دهند و، بنابراین، به عنوان یک نویز برای پیش بینی کننده عمل می نمایند. از این رو، با حذف متغیرهای وابسته، میزان داده ها می تواند کاهش یابد و موجب بهبود عملکرد طبقه بندی شود. در برخی کاربری ها، متغیرهایی که هیچ همبستگی با کلاس ها ندارند ممکن است باعث انحراف در پیش بینی کننده گردند و عملکرد طبقه بندی را کاهش دهند. به منظور حذف یک ویژگی نامرتبط نیاز به یک معیار گزینش ویژگی داریم که بتواند میزان ارتباط هر ویژگی را با کلاس یا عناوین خروجی بسنجد Chandrashekar) و Sahin ، .(2014
-2-4 انتخاب ویژگی
ویژگی های دقیق و سنجیده به شدت در کارایی یک سیستم تشخیص تقلب تأثیر دارند. انتخاب ویژگی، یکـی از تکنیـک هـای مهـم و پرکاربرد در پیشپردازش دادهها هنگام ساخت مدل های ردیابی به روش یادگیری ماشین مانند دسته بندی، خوشهبنـدی یـا یـادگیری مبتنی بر نمونه است. بر اساس مجموعهی مشخصی از ویژگی ها، مدل های تشخیص تقلب می تواننـد بـا بـه کـارگیری الگـوریتم هـای یادگیری ماشین در مجموعهی داده ها ساخته شوند Chang) و Chang ،.(2012
شناسایی سنتی تقلب در نتیجه ی دستمزد بالای متخصصان و گستردگی پایگاه های داده بسیار پرهزینه است. کاستی دیگر، این است که تک تک متخصصان انسانی نمی توانند الگوهای جدید کلاهبرداری را که در پایگاه داده ها انتشار می یابند و اقدام به کلاهبرداری می کنند، در لحظه شناسایی نمایند. بنابراین، الگوریتم داده کاوی سفارشی باید پایگاه های داده فراوانی از این شاخه های کاری بزرگ را آنالیز کند و سپس متخصص انسانی می تواند به بررسی های بیشتری در زمینه اقدامات پرخطر تشخیص داده شده بپردازد Aral) و همکاران، .(2012
از سوی دیگر، تشخیص تقلب، به شیوه ها و سیستم هایی مربوط است تا به سرعت تراکنش های کلاهبرداری را، به محض اینکه این تراکنش ها اتفاق می افتند، تشخیص دهد Jha) و همکاران، .(2012 میلیارد ها دلار سالانه به دلیل کلاهبرداری کارت اعتباری از دست می رود. مدل های پیش بینی برای شناسایی کلاهبرداری کارت اعتباری در عمل استفاده فعال دارند. Bhattacharyya) و همکاران،.(2011 هر زمان که کارت اعتباری به کار گرفته می شود، داده های تراکنش ها، متشکل از تعدادی از ویژگی ها (برای مثال، شناسه کارت اعتباری، تاریخ تراکنش، گیرنده، مقدار تراکنش)، در پایگاه داده های تأمین کننده خدمات ذخیره می شوند. روش های مورد بررسی فرض می کنند که برچسب های تراکنش های گذشته، در دسترس و قابل اطمینان هستند؛ اما اغلب به الگوهای تشخیص تقلب محدود می شوند. این الگوها پیش از این اتفاق افتاده اند. بنابراین، انتخاب ویژگی ها در اثربخشی مدل های آماری بسیار حائز اهمیت است و این انتخاب می تواند با تغییر در رفتار کلاهبرداری دچار دگرگونی شود Pozzolo) و همکاران، .(2014
انتخاب ویژگی، به عنوان مرحله پیش پردازش در یادگیری ماشین، در کاهش ابعاد مؤثر و دارای اهمیت است که با حذف داده های نامربوط و اضافی، سبب افزایش دقت در یادگیری و بهبود نتیجه قابلیت ادراک می شود Sasikala) و همکاران، .(2014 انتخاب ویژگی یکی از تکنیک های مهم و پرکاربرد در پیش پردازش داده ها برای داده کاوی است. این روش، تأثیرات فوری برای برنامه های کاربردی به وجود می آورد مانند بالا بردن سرعت الگوریتم داده کاوی و بهبود عملکرد کاوشی. انتخاب ویژگی در بسیاری از حوزه ها از جمله تحلیل داده های بیان ژن و تشخیص بیماری، تشخیص کلاهبرداری طبقه بندی متن14، تشخیص چهره، امور مالی، و مدیریت ارتباط با مشتری به کار برده شده است Tabakhi)) و همکاران، (2014، Mashrg) و همکاران، .((2014
در مشکلات دسته بندی، یک مجموعه داده معمولاً شامل تعداد زیادی از ویژگـی هـا اسـت کـه اغلـب شـامل ویژگـی هـای مربـوط15، نامربوط16 و اضافی17 می باشد. اگرچه ویژگی های نامربوط و اضافی برای دسته بندی مفید نیستند و حتی ممکن است عملکـرد اضـافی را با توجه به فضای گسترده جستجو کاهش دهند، که اصطلاحاً به آن »مشکل ابعاد«18 می گویند. با حذف/کاهش ویژگی های نـامربوط و اضافی، انتخاب ویژگی می تواند تعداد ویژگی ها را کاهش دهد، زمان آموزش را کاهش دهد، دسته کننده های آموزش دیـده را سـاده کند، و/یا عملکرد دسته بندی را بهبود دهد. انتخاب ویژگی یک مشکل ترکیبی دشوار است Xue) و همکاران، .(2014
-5 انواع روش های انتخاب ویژگی
روش های انتخاب ویژگی19، کاهش زمان محاسبه، بهبود عملکرد پیش بینی و فهم بهتر داده ها را در یادگیری ماشینی یا شناخت الگـو فراهم می آورند Chandrashekar) و Sahin ، .(2014 انتخاب ویژگی، ابعاد فضای ویژگی ها را کـاهش مـی دهـد و داده هـای تکـراری، نامربوط یا نویزی را حذف می کند. انتخاب ویژگی، تأثیرات فوری برای برنامه های کـاربردی دارد: بـالا بـردن سـرعت الگـوریتم، بهبـود کیفیت داده ها و به دنبال آن بهبود عملکرد دسته کننده Wang) و همکاران ، .(2014
مزایای انتخاب ویژگی، شامل کاهش هزینه های محاسباتی، صرفه جویی در فضای ذخیره سازی، تسهیل روش های انتخاب مـدل بـرای پیش بینی دقیق، و تفسیر وابستگی های پیچیده ی بین متغیرها می شود Feng) و همکاران ، .(2014
ش های نظارت شده، نیمـه نظـارت شـده، و نظارت نشده طراحی شده اند که برابر با داده های آموزشی برچسب دار، نیمه برچسب دار و بدون برچسب هسـتند Feng) و همکـاران ، .(2014 ویژگی هایی که به خوبی انتخاب شده باشند نه تنها می توانند دقت دسته بندی را بهبود ببخشند، بلکـه همچنـین میـزان داده های مورد نیاز برای کسب سطح مطلوبی از عملکرد و سرعت بخشی به فرآیند فراگیری را کاهش می دهند. در فرآینـد انتخـاب ویژگـی یک زیرمجموعه ویژگی مناسب که شامل مناسب ترین ویژگی ها بدون هیچ داده تکـراری یـا نـویزی باشـد بـرای وظیفـه دسـته بنـدی برگزیده شده است. ویژگی هایی که به خوبی انتخاب شده باشند نه تنها می توانند دقت دسته بندی را بهبود بخشـند؛ بلکـه، همچنـین میزان داده های مورد نیاز برای کسب سطح مطلوبی از عملکرد و سرعت بخشی بـه فرآینـد فراگیـری را کـاهش مـی دهنـد. در فرآینـد انتخاب ویژگی یک زیرمجموعه ویژگی مناسب که شامل مناسب ترین ویژگی ها بدون هیچ داده تکراری یـا نـویزی باشـد بـرای وظیفـه دسته بندی برگزیده شده است Bouaguel) و همکاران، .(2013
روش انتخاب ویژگی به طور معمول شامل استراتژی جستجو، معیار ارزیابی، معیار توقـف و اعتبارسـنجی نتیجـه مـی باشـد. اسـتراتژی جستجو، یک روش جستجو برای تولید زیرمجموعه ای از ویژگی های کاندید برای ارزیابی است. معیار ارزیـابی، مقیاسـی بـرای ارزیـابی کیفیت زیرمجموعه ی ویژگی های کاندید است. هدف از معیار توقف این است که تصمیم گیرد چه زمـانی بـه فراینـد پایـان ببخشـد؛ و اعتبارسنجی نتیجه برای معتبر ساختن بهترین زیرمجموعه ی انتخاب شده با مجموعه داده های جهـان حقیقـی و/یـا مصـنوعی اسـت. بدیهی است، استراتژی جستجو و معیار ارزیابی، دو عنصر محوری در فرآیند انتخاب ویژگی می باشند Zhao) و Qin، .(2014
انتخاب ویژگی، فرآیند انتخاب زیرمجموعه ای از ویژگی ها از یک مجموعه ی بزرگتر است که منجر به کاهش ابعاد رونـد ویژگـی بـرای انجام یک طبقه بندی موفق می شود. کل فضای جستجو شامل تمام زیرمجموعه های ممکن از ویژگی ها است؛ به این معنـا کـه انـدازه آن 2n است که در آن n، تعداد ویژگی ها می باشد. بنابراین، بسیاری از مشکلات مربوط به انتخاب ویژگی -NPسخت نشان داده شـده اند. در نتیجه، یافتن زیرمجموعه ی ویژگی بهینه معمولاً در یک مدت زمان معقول دشوار است. برای غلبه بر مشکل پیچیـدگی زمـانی، الگوریتم تقریبی20 ارائه شده است تا نزدیک ترین زیرمجموعه ی بهینه را در زمانی چند فرمولی 21 پیدا کند. این الگوریتم ها را می توان به چهار دسته طبقه بندی کرد که شامل فیلتر22، پوشش23، تعبیه شده24، و رویکرد ترکیبی می باشند Tabakhi) و همکاران، .(2014
-1-5 فیلتر
روش های فیلتر به عنوان یک پردازشگر برای رتبه بندی ویژگی ها عمل می کنند؛ که در آن، ویژگی های با رتبـه ی بـالا گـزینش مـی شوند و برای پیش بینی کننده به کار می روند Chandrashekar) و Sahin ، .(2014 رویکرد های فیلتـر مسـتقل از الگـوریتم یـادگیری هستند؛ و ادعا می شود که، از لحاظ محاسباتی، ارزان تر و عمومی تر از پوشش ها هستند Xue) و همکـاران، .(2014 هرگـاه، بـا تعـداد زیادی از ویژگی ها سر و کار داریم، معمولاً مدل فیلتر به علت دقت بالای آن انتخاب می شود Sasikala) و همکاران، .(2014
روش های فیلتر از تکنیک های رتبه بندی متغیر به عنوان معیار اصلی گزینش متغیر استفاده می نمایند. از روش های رتبـه بنـدی بـه سبب سادگی و موفقیت بالا برای کاربردهای عملی استفاده می شود؛ یک معیار رتبه بندی مناسب برای امتیازدهی به متغیرهـا اسـتفاده می شود، و یک آستانه برای حذف متغیرهای زیر آن مورد استفاده قرار می گیرد. روش های رتبـه بنـدی، روش هـای فیلتـری هسـتند چون قبل از دسته بندی به کار می روند تا متغیرهای کمتر مرتبط را از حذف کنند Chandrashekar) و Sahin ، .(2014
روش های فیلتر معمولاً در راه حل محلی توجه دارد. ازطرف دیگر، در برخی از روش های فیلتر مبتنی بر افزایشی25، اولین ویژگـی، بـر اساس معیاری خاص انتخاب خواهد شد؛ و پس از آن، ویژگی های بعدی به ترتیب بر اساس ویژگـی قبلـی انتخـاب شـده، انتخـاب مـی شوند. روش انتخاب ویژگی بر پایه ی فیلتر توجه بیشتری به زمان محاسباتی دارد؛ در حالیکه روش انتخاب ویژگی وابسته بـه الگـوریتم یادگیری (یعنی روش های پوشش، ترکیبی و تعبیـه شـده)معمـولاً، کیفیـت ویژگـی انتخـاب شـده را در نظـر مـی گیـرد Tabakhi) و همکاران، .(2014 همچنین، پیاده سازی آن ها آسان تر اسـت و بهتـر از روش هـای نهفتـه و پوشـش، افـزایش مقیـاس مـی یابنـد. در حقیقت، از فیلترها می توان به عنوان یک مرحله ی پیش پردازش قبل از به کار بردن دیگر مدل های پیچیده انتخـاب ویژگـی اسـتفاده کرد. مجموعه ای وسیع از روش های فیلتر بر اساس معیارهای سنجشی مختلف وجود دارد؛ اما مهمترین رویکرد ها برای پیدا کردن این که چه زیرمجموعه ای از ویژگی ها، متریک داده شده را افزایش می هد و یا این که چه دسته بندی سفارشی ویژگی ها بـر اسـاس ایـن متریک می باشند. دو نوع از محبوب ترین متریک های فیلتر برای مشکلات دسته بندی اطلاعات متقابل و همبستگی هسـتند، هرچنـد دیگر متریک های معمول فیلتر عبارتنـد از احتمـال خطـا، فاصـله احتمـالاتی، آنتروپـی26 و سـازگاریBol¼n-Canedo) 27 و همکـاران، .(2014
-1-1-5 روش های انتخاب ویژگی بر اساس فیلتر
مدل فیلتر به ویژگی های کلی داده های آموزشی برای انتخاب برخی ویژگی ها بدون دخالت هرگونه الگـوریتم یـادگیری بسـتگی دارد. این مدل به تنهایی به ارزیابی ارتباط ویژگی ها از داده ها می پردازد و مسـتقل از دسـته بنـدی هـا، و از معیارهـایی همچـون مسـافت، اطلاعات، وابستگی (ارتباط) و سازگاری استفاده می کند. روش فیلتر به روش های انتخاب زیرمجموعـه ی ویژگـی هـا(FSS) 28 و رتبـه بندی ویژگی ها(FR) 29 طبقه بندی شده است Sasikala) و همکاران، .(2014
روش های انتخاب ویژگی بر اساس فیلتر را می توان در دو طبقه دسته بندی کرد که عبارتند از: روش های وزن دهی ویژگی و روش های جستجوی زیر مجموعه. این دسته بندی بر پایه ی این است که آیا این روش ها رابطه ویژگی ها را به طور جداگانه یا از طریق زیرمجموعه های ویژگی ارزیابی می کنند. در روش های وزن دهی ویژگی، وزن ها به هر ویژگی به طور مستقل داده می شود؛ و سپس، ویژگی ها بر اساس ارتباط آن ها با متغیر هدف رتبه بندی می شوند. روش های جستجوی زیرمجموعه، تمامی زیرمجموعه های ویژگی ممکن را با استفاده از یک معیار ارزیابی خاص کاوش می کنند. بهترین مجموعه ی ممکن در هنگام توقف جستجو برگزیده می شود. در کل، یک مجموعه ی ویژگی را می توان به صورت مفهومی به سه ناحیه مجزای پایه تقسیم کرد (شکل Bouaguel) (1 و همکاران، .(2013
Relief یک الگوریتم انتخاب ویژگی از نوع فیلتر است، که برای هریک از ویژگی ها، وزنی مشخص می کند تا به ارتباط ویژگـی هـا بـه مفهوم مقصد معنا دهد. اگرچه Relief با ویژگی های اضافی سر و کار ندارد، این الگوریتم تلاش می کند تا تمام ویژگی هـای مـرتبط را بدون در نظر گرفتن افزونگی میان آن ها پیدا کند Xue) و همکاران، .(2014
الگوریتم Relief یک الگوریتم معروف برای مطالعه ی ارتباط ویژگی ها می باشد. این روش از فاصله اقلیدسی30 برای انتخاب نمونـه ای متشکل از یک نمونه ی تصادفی و دو نمونه از نزدیک ترین کلاس های یکسان و متفاوت استفاده می کنـد. سـپس روتینـی بـرای بـروز رسانی بردار وزن ویژگی، و مشخص کردن رابطه بردار وزن ویژگی میانگین به کار گرفته شده است. آنگاه، ویژگی هایی بـا وزن متوسـط بالاتر از آستانه داده شده انتخاب می شوند Bouaguel) و همکاران، Relief .(2013، نمونه گیری تصادفی بخشـی از داده هـا، و سـپس مکان یابی نزدیک ترین همسایه ی آن از کلاس یکسان و متفاوت با آن است. مقادیر خصوصیات نزدیک ترین همسایه بـا نمونـه گرفتـه شده مقایسه می شوند؛ و برای به روز رسانی امتیازات هر ویژگی به کار می روند؛ علت، این است که یک ویژگی مفید مـی بایسـت بـین نمونه های کلاس های مختلف تمایز قائل شود و مقدار یکسانی برای نمونه های همان کلاس داشته باشد Bol¼n-Canedo) و همکـاران، .(2013
-2-5 پوشش
روش های پوشش از پیش بینی کننده به عنوان یک جعبه سیاه و نیز از عملکرد پیش بینی کننده به عنوان عملکرد هدف اسـتفاده مـی کنند تا زیرمجموعه ی متغیر ارزیابی گردد. از تعدادی الگوریتم جستجو برای یافتن زیرمجموعه ی متغیرهـا (کـه عملکـرد هـدف را بـه حداکثر می رساند) می توان استفاده نمود Chandrashekar ) و Sahin ، .(2014 رویکرد های پوشش شامل یـک الگـوریتم یـادگیری بـه عنوان بخشی از تابع ارزیابی می باشند. بنابراین، پوشش ها اغلب می توانند به نتایج بهتری نسـبت بـه رویکردهـای فیلتـر