بخشی از مقاله
کاهش ابعاد داده با رويکرد الگوريتم CLONALG مبتني بر سيستم هاي ايمني مصنوعي
چکيده :در اين مقاله از الگوريتم CLONALG به منظور کاهش ابعاد داده استفاده شده است . سيستم هاي فعلي کاهش بعد با مشکلاتي چون دقت پايين دسته بندي، غير قابل تفسير بودن داده ها و کم شدن ارزش آنها ، روبرو هستند. به منظور رفع مشکلات مذکور، الگوريتم CLONALG با استفاده از مهمترين ويژگي خود ، بهينه سازي ، به عنوان روشي نوين در اين حوزه معرفي ميگردد. نتايج اين روش بر روي مجموعه داده هاي استاندارد يادگيري ماشين دانشگاه UCI، با دو روش PCA و GA،مقايسه شده است . نتايج آزمايشات بيانگرتوانايي بالاي الگوريتم ارائه شده در حل مسئله کاهش ابعاد مي باشد.
واژه هاي کليدي : کاهش بعد ،سيستم هاي ايمني مصنوعي،الگوريتم CLONALG
١- مقدمه
با پيشرفت اطلاعات در دنياي امروز ،شاهد رشد حجم اطلاعات هستيم که الزاما بيانگر ارزش آنها نمي باشد. به منظور انتخاب با ارزشترين زير مجموعه از داده هاي موجود در مساله ،روش هاي کاهش ابعاد داده ها معرفي شده اند.اکثر تکنيک هاي کاهش ابعاد فعلي از تبديلات خطي و غير خطي براي تبديل بردارهاي ويژگي به بردارهايي با ابعاد کمتر استفاده ميکنند[٣]. اين روش ها تعداد ويژگي هايي را که بايد اندازه گيري شوند کاهش نميدهند، زيرا هر ويژگي جديد ممکن است ترکيب خطي از ويژگي هاي اصلي باشد. از طرفي اين روشها برگشت ناپذير بوده و ويژگي استخراج شده به کمک آنها ،در فضاي جديد، قابل تبديل به فضاي ويژگي اصلي نيست از اين رو براي کاربر غير قابل تفسير ميباشند.
در اين مقاله با استفاده از الگوريتم CLONALG، روشي جديد براي کاهش ابعاد داده ها ارائه شده است . اين الگوريتم با استفاده از مهم ترين ويژگي خود در حل مسائل بهينه سازي ،بردارهاي ويژگي را به گونه اي بهينه ميکند که از تعداد ويژگي هايي که بايد اندازه گيري شود ،کاسته شده و ويژگي هاي بدست آمده براحتي براي کاربر قابل تفسير ميباشد و در عين حال از دقت دسته بندي کاسته نخواهد شد.
در طراحي سيستم ايمني پيشنهادي ،سلول هاي دفاعي به شکل ماتريس هاي باينري ،تعريف ميشوند. "ميزان شباهت " سلولهاي دفاعي با آنتي ژنها بوسيله دقت حاصله از دسته بند کننده SVMدر نظر گرفته ميشود و آنتي باديهايي با ميزان شباهت کمتر به وسيله عملگر جهش ساختار خود را براي دستيابي به شباهت بيشتر با آنتي ژنها بهبود ميدهند. در ادامه مقاله در قسمت دوم شرح مختصري مسئله کاهش ابعاد داده خواهيم داشت ،سپس در بخش سوم اصول سيستم ايمني بدن انسان تشريح ميگردد . بخش چهارم به بيان الگوريتم CLONALG ميپردازد. در بخش پنجم پيشنهادي بصورت همراه با نتايج آمده است ،در بخش ششم به ارزيابي روش ارائه شده و در نهايت در بخش هفتم به نتيجه گيري ميپردازيم .
٢- مسئله کاهش بعد
کاهش اندازه فضاي داده ها يا کاهش تعداد ابعاد داده ها ، ميتواند باعث کاهش جستجوي فضاي مفروض ،کاهش در زمان جمع آوري داده ها و هزينه هاي ذخيره سازي گردد. روشهاي کاهش بعد در دو دسته تقسيم بندي ميشوند[ ]،استخراج ويژگي و انتخاب ويژگي . در روش اول ويژگي هاي جديد از ويژگي هاي اصلي موجود استخراج شده تا با بکار گيري اين ويژگي هاي جديد،توان و کارايي محاسباتي و همچنين دقت دسته بندي را افزايش داد.. از اين ميان ميتوان به روشهايي چون شبکه هاي عصبي ،تا کردن ، تبديل مختصات پيمانه اي و نفوذ غير خطي اشاره کرد. اين روشها برگشت نا پذير بوده و دانش استخراج شده به کمک يکي از روشهاي مبتني بر تبديل هاي غير خطي در فضاي يک ويژگي خاص قابل تبديل به فضاي ويژگي ديگر نيست . از ديگر روشهاي موجود براي استخراج ويژگي ها ميتوان به تحليل تکنيکي خطي و تحليل مولفه هاي اصلي اشاره کرد.با اعمال روش هاي استخراج ويژگي ،معاني ويژگي هاي جديد به سادگي مشخصات قبل قابل تفسيرنيست .
در روش دوم ،زير مجموعه اي از ويژگي هاي اصلي را به عنوان ويژگي هاي جديد انتخاب ميکنيم که در سيستم هاي استقرايي مثل سيستم دسته بندي به خوبي عمل ميکنند.معمولا جستجو براي يافتن زير مجموعه بهينه از ويژگي ها کاري مشکل است و حتي براي بسياري ازمسائل انتخاب ويژگي ها ثابت شده است که NP-HARD هستند.
روش هاي بسيار زيادي براي انتخاب ويژگي پيشنهاد شده است .
روشهاي دنباله اي مثل انتخاب پيشروي ترتيبي يا انتخاب پس روي ترتيبي ،الگوريتم هاي جستجو مثل انشعاب و تحديد،توابع معيار سنجي مثل ميزان آنتروپي،الگوريتم هاي يادگيري ماشين و ساير الگوريتم هاي کلاسيک در اين حوزه . [١]
٣ - سيستم هاي ايمني مصنوعي
سازمان بدن همه موجودات زنده ، مکانيزم هايي خاص براي دفاع در مقابل عوامل خارجي حمله کننده به بدن دارد. سيستم ايمني بدن شامل تعداد زيادي از گيرنده ها ي مولکولي و سلول هاي ايمني است که در کل بدن وجود دارند. همه عناصري که توسط سيستم ايمني بدن تشخيص داده ميشوند ،آنتي ژن ، ناميده ميشوند.به سلول هايي که به بدن تعلق دارند و براي آن مضر نيستند ، آنتي ژن هاي خودي و به عوامل بيماريزا آنتي ژنهاي غير خودي گفته ميشود.سيستم ايمني بدن بايد قادر به جدا سازي اين دو نوع آنتي ژن باشد که يکي از اصول در تشخيص الگو ميباشد.[ ]نخستين گام براي فعال شدن سيستم ايمني بدن ،تشخيص يک الگوي آنتي ژن است .تشخيص ، شامل تطبيق آنتي ژن با يک گيرنده مولکولي و سپس ايجاد اتصالي متناسب با ميزان شباهت پيدا شده بين اين دو ميباشد.اگر شباهت از آستانه شباهت ،بيشتر شد سيستم ايمني بدن فعال ميشود.[٥]. هنگاميکه يک سلول B به اندازه کافي تحريک شد، به سرعت خودش را تکثير ميکند و ضمن اين تکثير ، جهش ژني متناسب با عکس درجه شباهت که منجر به توليد سلولهايي با بيشترين ميزان شباهت ميگردد،رخ ميدهد. به اين فرا يند انتخاب کلوني ميگويند. وقتي بدن در مقابل يک آنتي ژن به پيروزي رسيد، تعدادي از اين سلول هاي B به عنوان سلول ها ي حافظه ،براي مدت طولاني ، در خون باقي ميمانند. حضور سلول هاي حافظه کمک ميکند بدن در آينده در مقابل اين عوامل بيماريزا ،بهتر و مو ثر تر عکس العمل نشان دهد[٦].الگوريتم هاي کلوني با الگو گيري از فر آيند انتخاب کلوني براي حل مسائل بهينه سازي ارائه شده است .
٤ -الگوريتم CLONALG
در اين الگوريتم ،سلولهاي اوليه تصادفي ايجاد شده و انتخاب کلوني بر روي هر يک از آنتي ژنها انجام ميگيرد. سپس از آنتي باديهاي حاصل به عنوان سلول هاي حافظه اوليه در تکرار بعدي استفاده ميشود و اين روند تا برقراري شرط خاتمه که معمولا اجراي تعداد تکرار مشص است ،تکرار ميشود[٤].به اين تر يب در هر تکرار سلولهاي حافظه با ميل ترکيبي بيشتري ايجاد ميشوند.براي کلوني سازي سلولها ،دقت به ميل ترکيبي بسيار حائز اهميت است ،در واقع ميل ترکيبي بيشتر ،تکثير بيشتر و ميل ترکيبي کمتر ،تکثير کمتر را بدنبال خواهد داشت .
ميتوان نسبت تکثير را با ميل ترکيبي نسبتي مستقيم در نظر گرفت .[٧]
١.ايجاد N آنتي بادي اوليه
٢.براي هر آنتي ژن
٢.١.تعداد n١آنتي بادي که ميل ترکيبي بيشتري با آنتي ژن دارند انتخاب ميشوند.
٢.٢.همه آنتي بادي هاي انتخاب شده تکثير ميشوند ،هر چه ميل ترکيبي آنتي بادي بيشتر باشد ،بيشتر تکثير ميشود.
٢.٣.با احتمال زياد بر روي آنتي باديهاي موجود جهش اعمال ميشود. هر چه ميل ترکيبي بالاتر باشد ،جهش کمتر ميشود.
٢٤.تعدادn٢ آنتي بادي با بيشترين ميل ترکيبي انتخاب ميشوند.
٢.٥تعدادي انتي بادي تصادفي ايجاد شده ،جايگزين آنتي باد هايي که ميل ترکيبي کمي دارند ميشود.
٦.در صورت بر قرار نبودن شرط خاتمه ، مرحله ٢ تکرار ميشود.
٥- روش پيشنهادي