بخشی از مقاله
چکیده
انتساب برچسبهای گسسته به نمونههای مورد پردازش براساس مقادیر آنها در خصیصهها مختلف را کلاسهبندی دادهها مینامند. در این تحقیق، مجموعه دادههایی مورد نظراست که دارای تعداد نمونههای کم و حجم عظیمی از خصیصهها هستند. بسیاری از مجموعه دادههای بیولوژیکی مانند دادههای میکرو آرایهها دارای چنین ویژگی میباشند. مهمترین بحث مورد بررسی این مقاله، رویکرد فازی به روشی در انتخاب خصیصهها جهت کلاسهبندی دادهها است؛ که توسط Wai-Ho Au ارائه شد.
این روش مبتنی بر خوشهبندی خصیصهها بنا به وابستگی بین آنها است. پایداری بیشتر ،همگرایی سریعتر و بهبود نتایج حاصل از کلاسهبندی، از برتریهای روش پیشنهادی به نسبت رویکرد پیشین - غیر فازی - هستند. همچنین در این مقاله، روشی نوین جهت گسسته کردن دادههای پیوسته با استفاده از معیار Fisher ارائه شده است به انضمام این که یک روش انتساب اولیه به مراکز خوشهها نیز پیشنهاد شده است. روش این مقاله بر روی مجموعه داده Leukemia اجرا شده که به نسبت رویکرد پیشین از بهبود قابل ملاحظهای برخوردار است.
مقدمه
انتخاب خصیصههای مناسب، تا کنون در کاربردهای فراوان و متفاوتی از جمله کلاسهبندی دادهها، به عنوان یک پیش پردازش مطرح شده است . انتخاب خصیصههای مناسب با تعداد کمتر منجر به افزایش سرعت یادگیری، کاهش فضای حافظه مورد نیاز و بهبود نتیجه کلاسهبندی میشود. کاهش هزینه جمع آوری خصیصهها برای دادههای جدید، از دیگر انگیزههای کاهش تعداد خصیصهها است. دادههای بیولوژیکی - به عنوان مثال، میکرو آرایهها - معمولا عریض و کم عمق هستند بدین معنی که، از تعداد کمی نمونه و حجم عظیمی از خصیصهها برخوردارند. نمونههایی کاربردهایی که در ارتباط با این گونه مجموعه دادهها هستند، عبارتند از:
-1 کلاسبندی نمایههای توصیفی ژنها در میکرو آرایهها به توجه به سطح توصیفی تعداد زیاد ژنهای موجود.
-2 پیشبینی ساختار پروتئینها مبنی بر دنباله DNA متناظر
-3 تشخیص برخی از بیماریهای روانی بر اساس خصیصههای به دست آمده از سیگنالهای .EEG
تعداد کم نمونههای دادهای، دانش قابل دسترس از دادهها را محدود میکند و نتیجتاً احتمال استدلال صحیح، در مورد تاثیر مقدار هر یک از خصیصهها بر روی برچسب نمونهها، کاهش مییابد. تعداد کمتر خصیصهها، موجب آسان و سربعتر شدن تولید قوانین کلاسهبندی در یک سیستم کلاسه بندی میشود. از سوی دیگر، تعداد بیشتر خصیصهها که غالباً مناسب نمیباشند، میتواند سیستم را در لحظه یادگیری دچار ابهام کند چنانکه همگرایی را نیز به مخاطره اندازد. همچنین، تعداد بیشتر خصیصهها، زمان اجرا و حافظه بیشتری را میطلبد در حالیکه معمولاً تعداد کمی از خصیصه-های تاثیر گذار برای کلاسهبندی دادهها کفایت میکند. درواقع:
-1 مقدار بسیاری از خصیصهها معمولا مستقل از برچسب دادهها است.
-2 مقادیر برخی از خصیصهها از وابستگی بسیاری برخوردارند به قسمی که تنها انتخاب تعداد کمی از آنها جهت کلاسهبندی دادهها کافی است. گزینش خصیصههای مناسب در زمینهها و با رویکردهای مختلفی تا کنون مورد بررسی قرار گرفته است. به عنوان مثال،روش های filter ، wrapper و [1]embedded،روش های آماری مانند [2] PCAو[3]LDA، و الگوریتمهای ژنتیک. [4] انتخاب ژنهای موثر در کلاسهبندی دادههای میکروآرایهای از زمینههای تحقیقاتی است که بررسیهای بسیاری تا کنون بر روی آن صورت گرفته است [5] و [7] Wai-Ho Au . [6] نیز در سال 2005، یک روش انتخاب خصیصههای مناسب را مبتنی بر خوشهبندی خصیصههای همبسته ارائه کرده است.
خوشهبندی مربوطه در روش مذکور با استفاده از تکنیک جدیدی به نام k-modes انجام میشود که برگرفته از روش خوشهبندی k-means میباشد. در این مقاله، یک رویکرد نوین پیشنهاد شده است که خصیصههای وابسته را با استفاده از نسخه فازی k-modes گروه بندی میکند. رویکرد فازی، با دیدگاه عدم قطعیت، یه پایداری بیشتر و در نتیجه درجه صحت کلاسهبندی بالاتری می-رسد. همچنین تغییرات دیگری در راستای انتخاب خصیصههای مناسب بعد از خوشهبندی انجام شده است.
در این مرحله بر خلاف روش پیشین - غیر فازی - به جای انتخاب تعدادی خصیصه از هر خوشه بنا به وابستگی درون خوشه-ای، وابستگی هر خصیصه با کل خصیصههای دیگر را البته با توجه به درجه عضویت آنها در هر خوشه مورد بررسی قرار داده و بهترین را گزینش میکند. همچنین یک روش نوین گسسته سازی دادههای پیوسته بر اساس معیار Fisher[3] به انضمام تکنینک جدیدی جهت مقداردهی اولیه مراکز خوشهها پیشنهاد شده است.
در این مقاله، ارزیابی خصیصههای انتخاب شده، با استفاده از درخت تصمیمگیری C4.5[8] انجام میشود. مجموعه داده Leukemia[9] که داده میکروآرایهای میباشدبا 73 نمونه دادهای و 7129 ژن، در آزمایشات مورد استفاده قرار گرفت که به دلیل پارهای از پیادهسازیهای سریع و کمبود حافظه، تنها 1000 ژن ابتدایی آن در نظر گرفته شده است. در ادامه، روش ارائه شده توسط Wai-Ho Au جهت انتخاب خصیصههای بهینه ،رویکرد فازی پیشنهادی، معیار جدید گسسته سازی دادهها، تکنیک استفاده شده در مقداردهی ابتدایی مراکز خوشهها و نتایج آزمایشات بررسی میشود. نهایتاً جمعبندی مقاله مد نظر قرار خواهد گرفت.
رویکرد فازی پیشنهادی
Wai-Ho Au روشی به نام k-modes را جهت خوشهبندی خصیصهها، مبتنی بر روش k-means با دو تفاوت اصلی مطرح کرد. اول آنکه در k-modes وابستگی بین دو خصیصه به عنوان معیار شباهت مورد استفاده قرار میگیرد در حالیکه k-means فاصله بین دو نمونه - معمولاً فاصله اقلیدسی - را به عنوان معیار عدم شباهت استفاده میکند. دیگر اینکه مرکز یک خوشه در k-means[10] همواره میانگین نمونههای متعلق یه آن است در حالیکه k- modes یکی از خصیصههای هر خوشه را که با دیگر خصیصههای متعلق به آن خوشه، طبق رابطه - 1 - ، بیشترین ارتباط را داشته باشد به عنوان مرکز آن خوشه انتخاب میکند.
در رویکرد فازی پیشنهاد شده، با الهام از خوشهبندی فازی [11] k-means ،k-modes را فازی کرده به شکلی که فاصله بین دو خصوصیت ،برابر معکوس همبستگی حاصل از رابطه - 2 - آنها تعریف میشود. با استفاده از عدم قطعیت حاصل از فازی کردن سیستم و حفظ شرایط k-modes ، به صورت مرحلهای، درجه عضویت هر خصیصه در هر خوشه را محاسبه کرده و در انتهای آن مرحله، مرکز هر خوشه را که دارای بیشترین همبستگی فازی با باقی خصیصه-هاست به عنوان مرکز آن خوشه برمیگزینیم. این همبستگی فازی در یک خوشه، که تغییر یافته - 1 - میباشد، طبق رابطه - 3 - برای خصیصه Ai در خوشه rاُم محاسبه میشود.