بخشی از مقاله
چکیده - امروزه دستهبندی دادههای ریزآرایه DNA در زمینه تشخیص مؤثر و پیشبینی درمان انواع بیماریهای زیستی ازجمله انواع سرطان بسیار پرکاربرد است. یکی از ویژگیهای دادههای ریزآرایه DNA توزیع نامتوازن تعداد نمونهها در کلاسها است. این عدم توازن بهشدت عملکرد پیشبینی کلاس اقلیت را تحت تأثیر قرار میدهد و موجب ارزیابی نادرست عملکرد دستهبندی میشود. در این مقاله، جهت مواجهه با مشکل عدم توازن دادههای ریزآرایه، یک روش یادگیری گروهی مبتنی بر ترکیب روش Bagging و الگوریتم بهینهسازی ازدحام ذرات دودویی ارائهشده است. در روش ارائهشده ابتدا با استفاده از یک روش انتخاب ویژگی سریع و کارآمد تحت عنوان mRMR ویژگیهای زائد و افزونه را حذف میکنیم.
سپس، با بهکارگیری الگوریتم بهینهسازی ازدحام ذرات دودویی، زیرمجموعههای نمونه بهینه را از کلاس اکثریت انتخاب میکنیم و از آنها جهت تولید دستهبندهای پایه متنوع و دقیق در روش Bagging بهره میبریم. همچنین جهت اجتناب از مشکل وزن دهی اهداف در مسأله بهینهسازی چندهدفه، با استفاده از یک چهارچوب تصمیمگیری فازی، تعریف منعطفتری از اهداف را در روش نمونهبرداری ارائه میکنیم. نتایج بهدستآمده از آزمایشهایی که روی چهار مجموعه داده نامتوازن ریزآرایه DNA انجامشده است نشان میدهد که روش ارائهشده در معیارهای Accuracy، F-measure و G-mean عملکرد بهتری را نسبت به روشهای پایه از خود نشان میدهد.
-1 مقدمه
ریزآرایه DNA فناوری جدیدی است که قادر است سطح ب یان هزاران ژن را در یک با فت بهصورت موازی و همز مان اندازه گیری کند. امروزه دستهبندی دادههای ریزآرایه DNA در زمینه تشخیص مؤثر و پیشبینی درمان انواع بیماریهای زیستی ازجمله سرطان بسیار پرکاربرد است. دادهای ریزآرایه عموماً ویژگی هایی نظیر ابعاد بالا، تعداد نمونه کم، نویز زیاد و از همه مهمتر توزیع کلاس نامتوازن دارند که تحلیل آنها را پیچیده میکند.
توزیع کلاس نامتوازن به این معناست که یک کلاس - کلاس اکثریت - تعداد نمونههای بیشتری را نسبت به کلاس دیگر - کلاس اقلیت - شامل شود. این عدم توازن بهشدت عملکرد پیشبینی کلاس اقلیت را تحت تأثیر قرار میدهد و موجب ارزیابی نادرست عملکرد دستهبندی میشود، درحالیکه سایر ویژگیهای دادههای ریزآرایه این آسیب را تشدید میکنند. الگوریتمهایی که در چهارچوب دستهبندی استاندارد رفتار خوبی دارند، لزوماً بهترین عملکرد را در مورد مجموعه دادههای نامتوازن ارائه نمیدهند.
1] چند دلیل پشت این رفتار وجود دارد: نخست اینکه استفاده از معیارهای سنجش عملکرد سراسری جهت هدایت فرآیند یادگیری مانند نرخ استاندارد دقت، میتوا ند به نفع کلاس اکثر یت ت مام شود. دوم این که قوا عد د ستهبندی که کلاس اقلیت را پیشبینی میکنند اغلب به شدت خاص هستند و لذا پوشش آنها بسیار محدود است. درنتیجه در م قا بل قوا عد عمومیتر یعنی قوا عدی که کلاس اکثر یت را پیشبینی میکنند نادیده گرفته میشوند.
در سالهای اخیر عدم توازن کلاسها به عنوان یک چالش در حوزه دادهکاوی مطرح شده است چراکه در بسیاری از مسائل دستهبندی با آن مواجه هستیم. به عنوان نمونه، برخی از مسائلی که تحت تأثیر عدم توازن کلاسها هستند عبارتند از تشخیص خطا [3 ,2]، تشخیص ناهنجاری [4]، تشخیص پزشکی [8-5]، بازشناسی چهره .[9] با توجه به اهمیت مسأله عدم توازن کلاسها، روشهای زیادی جهت رفع این مشکل توسعهیافته است. این روشها بر طبق [10] در چهار دسته روشهای سطح الگوریتم، روشهای سطح داده، یادگیری حساس به هزینه و یادگیری گروهی طبقهبندی میشوند. روشهای سطح الگوریتم سعی میکنند فرآیند یادگیری در الگوریتمهای موجود را با تغییراتی به سمت کلاس اقلیت متمایل کنند.
روش های سطح داده با نمونهگیری م جدد در فضای دادهای توزیع کلاس ها را متوازن میکن ند. روش های مبتنی بر یادگیری حساس به هزینه مابین روشهای سطح داده و روشهای سطح الگوریتم جای میگیرند. چراکه هم شامل تبدیلات سطح داده - ا ضافه کردن هزینه به نمونهها - و هم تغییرات سطح الگوریتم - با تغییر فرآیند یادگیری جهت پذیرش هزینهها - میشوند. دستهبند، با اختصاص دادن هزینههای د ستهبندی غلط بالاتر به سمت کلاس مثبت متمایل می شود و سعی میکند تا هزینه کلی هردو کلاس را کمینه کند.
دسته دیگری از روشها که اخیراً به عنوان راه حلی جدید برای مشکل عدم توازن دادهها مطرح شدهاند، روشهای مبتنی بر یادگیری گروهی هست ند. این روشها معمولاً یک الگوریتم یادگیری را با یکی از روش های پیشین و بهطور مشخص روشهای حساس به هزینه و سطح داده ترکیب میکنند. با افزودن راهبرد سطح داده به الگوریتم یادگیری گروهی، روش ترکیبی جدید معمولاً داده ها را قبل از آموزش هر دستهبند پیشپردازش میکند.
در این مطالعه یک روش جدید یادگیری گروهی مبتنی بر الگوریتم Bagging جهت دستهبندی دادههای نامتوازن سرطان ریزآرایه DNA ارائه میشود. جهت حل مشکل عدم توازن دادهها، یک روش نمونهبرداری مبتنی بر الگوریتم بهینهسازی ازدحام ذرات دودویی ارائه شده است که برمبنای سه معیار دقت، تنوع و توازن زیرمجموعههای نمونه بهینه را از کلاس اکثریت استخراج میکند و بدین ترتیب سعی در اصلاح بایاس موجود به سمت کلاس اکثریت را دارد.
همچنین جهت اجتناب از مشکل وزن دهی اهداف در مسأله بهینهسازی چندهدفه، با استفاده از یک چهارچوب ت صمیمگیری فازی، تعریف منعطفتری از اهداف را در روش نمونهبرداری ارائه میشود. سایر مطالب در این مقاله به این شرح میباشد؛ بخش دوم به توضیح روش انتخاب ویژگی mRMR، روش Bagging و الگوریتم بهینه سازی ازدحام ذرات دودویی میپردازد. در بخش سوم روش ارائه شده به طور کامل تشریح می شود. در بخش چهارم آزمایشها و نتایج حا صله مورد بحث و برر سی قرار میگیرد و در نهایت در بخش پنجم نتیجهگیری بیان میشود.
-2 مفاهیم پایه
-1-2 روش mRMR
دادههای ریزآرایه بیان ژن معمولاً شامل چنددههزار ویژگی می شوند، درحالیکه تعداد نمونههای آنها ب سیار کوچک ا ست و غالباً از 100 نمونه تجاوز نمیکند. در مجموعه دادههای ریزآرایه DNA تعداد زیادی ژن با اطلاعات نویزی، نامربوط و افزونه وجود دارد. جهت جلوگیری از مساله نفرین ابعاد و کسب عملکرد عالی، انتخاب ویژگی - ژن - نقشی مهم در تحلیل ریزآرایه DNA بازی میکند. معمولاً روشهای انتخاب ویژگی در یکی از این دو د سته جای میگیرند : فیلتر و پوشه.1 روشهای پوشه میتوانند عملکرد د ستهبندی بهتری ن سبت به روشهای فیلتر از خود ن شان دهند اما هزینه محاسباتی آنها بالاتر است.
[11] از سوی دیگر، روشهای فیلتر از هر الگوریتم یادگیری م ستقل ه ستند، بنابراین قادرند راهحلهای عمومی برای دستهبندهای متفاوت ارائه کنند. علاوهبراین، فیلترها خاصیت تعمیم بهتری نسبت به سایر روشهای انتخاب ویژگی دارند .[12] با توجه به اینکه تمرکز ما در این تحقیق بیشتر روی حل م شکل عدم توازن کلاسها میبا شد، جهت انتخاب ویژگی از یک استراتژی فیلتر ساده و کارآمد تحت عنوان [13] mRMR استفاده میکنیم.
این تکنیک ویژگیهایی که با کلاس هدف بیشترین ارتباط را دارند و در عین حال تا حد امکان افزونه نیستند را انتخاب میکند. کلاس هدف در انتخاب ژن ا ست؛ I - C; g - بیانگر رابطه بین ژن g و کلاس C است و I - s; g - افزونگی بین s و g را میسنجد. ضابطه mRMR بر این مبنا ست که ژنهایی انتخاب شوند که بی شترین ارتباط را با بیماری و کمترین افزونگی را نسبت به ژنهایی که پیش از این انتخاب شده است داشته باشند.
-2-2 الگوریتم Bagging
در یادگیری گروهی، برمبنای اینکه یادگیرندههای پایه به چه صورت تولید شوند، دو الگوی متداول وجود دارد. د سته اول روش های گروهی موازی هستندکه که در این روش ها یادگیرندههای پایه به صورت موازی تولید می شوند. این دسته از روش ها را [14] Bagging نمایندگی می کند. دسته دوم روش های گروهی ترتیبی هستند که در آن ها یادگیرنده های پایه به صورت متوالی تولید میشوند و الگوریتم [15] AdaBoost این روشها را نمایندگی میکند.
روش Bagging یک روش یادگیری گروهی موازی است که از توزیع بوت استرپ جهت تولید یادگیرندههای پایه متفاوت استفاده میکند. به بیان دقیقتر، با در اختیار داشتن یک مجموعه داده آموزشی که شامل m نمونه آموزشی است، زیرمجموعهای با m نمونه آموزشی با روش نمونهگیری با جایگزینی تولید خواهد شد. بعضی از نمونههای اصلی بیش از یکبار ظاهر میشوند درحالیکه برخی دیگر از نمونهها در زیرمجموعه بهدستآمده ظاهر نمی شوند. با T مرتبه تکرار این فرآیند، T زیرمجموعه از m نمونه آموزشی به دست میآید. سپس با استفاده از هر زیرمجموعه یک یادگیرنده پایه آموزش داده میشود.
الگوریتم Bagging از رایجترین استراتژیها جهت تجمیع خروجی یادگیرندههای پایه یعنی رأیگیری برای دستهبندی و میانگینگیری برای رگرسیون استفاده میکند. جهت پیشبینی یک نمونه آزمایشی در یک مسأله دستهبندی، Bagging نمونه را در اختیار دستهبندهای پایه خود قرار میدهد و خروجی آنها را جمعآوری میکند. سپس رأیها را بررسی میکند و درنهایت برچسب برنده را بهعنوان پیشبینی در نظر میگیرد.
-3-2 بهینهسازی ازدحام ذرات دودویی
بهی نه سازی ازد حام ذرات دودویی یا PSO یک تکن یک محاسبات تکاملی مبتنی بر جمعیت است که در سال 1995 توسط کندی و ابرهارت ارائه شده است PSO .[16] برای پیدا کردن بهترین جواب، رفتار اجتماعی پرندگان را شبیهسازی میکند. در PSO، هر راه حل میتواند به عنوان یک ذره با سرعت و موقعیت فردی در فضای جستجو در نظر گرفتهشود. در طی حرکت، هر ذره موقعیت خود را با تغییر سرعت برمبنای تجربه قبلی و بهترین موقعیت ذرات هم سایه تا ر سیدن به یک موقعیت بهی نه تنظیم می کند. کل یه ذرات دارای م قادیر براز ندگی می باشند که با محاسبه تابع برازندگی بدست میآید. در هر دور، ذرات با استفاده از دو پارامتر gbest و pbest به روز رسانی می شوند. pbest برای هر ذره معادل با بهترین موقعیت آن ذره از ابتدا تا اکنون ا ست. همچنین gbest مقدار بهینه سرا سری برای کل جمعیت است.
الگوریتم PSO در اصل جهت حل مسائل بهینهسازی حقیقی تو سعه یافته ا ست. جهت تو سعه ن سخه حقیقی PSO به ف ضای گ س سته دودویی کندی و ابرهارت یک روش PSO دودویی تحت عنوان BPSO ارائه کردند .[17] در اینجا برای هر نمونه از کلاس اکثریت یک بعد در فضای ذرهها اختصاص پیدا میکند. به این معنا که برای n نمونه در کلاس اکثریت، هر ذره بهعنوان یک مجموعه تابع شاخص …' , Xn} کد میشود. برای هر بعد، یک تابع شاخص IXj زمانی مقدار "1" را میگیرد که نمونه Xj جهت آموزش دستهبند مورداستفاده قرار بگیرد. و بالعکس اگر نمونه مورداستفاده قرار نگیرد مقدار "0" برای تابع شاخص IXj منظور میشود.