بخشی از مقاله

چکیده

بیماریهای کلیوی مزمن یکی از شایعترین و رو به رشدترین نوع بیماریهاست که تشخیص بهموقع آن، شانس زنده ماندن و بهبود بهتر را افزایش میدهد. امروزه، با توجه به بانکهای اطلاعاتی میتوان از دادهکاوی بهطور گستردهای برای تشخیص استفاده کرد. با گسترش فنّاوری حجم زیادی از دادههای مرتبط با مریضیهای کلیوی و با ابعاد بالا تولید شدهاند که استفاده از همهی آنها علاوه بر مقرونبهصرفه نبودن، حتی باعث کاهش دقت مدل تشخیصی نیز میگردد.

در این بررسی، از ترکیب الگوریتم پوششی و روش ماشین بردار پشتیبان برای کاهش ویژگی استفادهشده است. بدین ترتیب که ابتدا زیرمجموعههایی از ویژگیهای تصادفی انتخابی به الگوریتم ماشین بردار پشتیبان فرستاده میشوند. سپس با توجه بهدقت برآورد شده درنتیجهی کار با آن ویژگیها، ویژگیهایی که میتوانند دقت بالاتری را ارائه دهند کنار گذاشته میشوند . سپس زیرمجموعهی نهایی از ویژگیهای انتخابی و تعداد آن، پس از توقف الگوریتم پوششی مشخصشده و از آن برای آموزش و ایجاد مدل دستهبندی کننده با الگوریتم ماشین بردار پشتیبان استفاده شد. در پایان روش ارائهشده ازنظر دقت، حساسیت، اختصاصیت روی دادههای پایگاه اطلاعاتی یوسیآی LL مورد ارزیابی واقع گردید.

-1 مقدمه

بیماریهای کلیوی مزمن یکی از شایعترین و رو به رشدترین نوع بیماریها در دنیا است که تشخیص بهموقع آن، شانس زنده ماندن و بهبود بهتر را افزایش میدهد. با گسترشفنّاوری حجم زیادی از دادههای مرتبط با مریضیهای کلیوی و با ابعاد بالا تولیدشدهاند که استفاده از همهی آنها علاوه بر مقرونبهصرفه نبوده و حتی باعث کاهش دقت مدل تشخیصی نیز میگردد. [11] تشخیص بیماریهای مزمن کلیوی اغلب بهعنوان یک مسئله دستهبندی کننده در نظر گرفته میشود اما دادههایی با ابعاد و ویژگیهای بالا موجب کاهش نرخ دقت میشوند. لذا پیش از دستهبندی دادهها باید روشهای پیش پردازنده بر روی مجموعه دادهها اعمال گردد تا موجب افزایش دقت مدل دستهبندی کننده شود.

مثلاً، در مقاله [7] از ترکیب الگوریتمهای ماشین بردار پشتیبان و روش ژنتیک برای کاهش ویژگیها استفادهشده است. روش کار بدین ترتیب است که در ابتدا زیرمجموعههایی تصادفی از ویژگیها و پارامترهای الگوریتم ماشین بردار پشتیبان انتخاب میشوند. سپس زیرمجموعهای از ویژگیهای انتخابی به همراه پارامترهای انتخابشده، به الگوریتم ماشین بردار پشتیبان فرستاده میشوند و درنهایت نتایج حاصل از الگوریتم ماشین بردار پشتیبان بهعنوان تابع برازش الگوریتم ژنتیک در نظر گرفته میشود.

در مقاله [1] و [2] نیز با استفاده از روشهای پوششی ابتدا به یافتن مجموعهای مناسب از ویژگیها تلاش شده و سپس با استفاده از یک الگوریتم دستهبندی به بررسی اثر این گزینش پرداختهشده که بهتر شدن دقت و کاهش زمان محاسبات نتیجه آن بوده است.

در این بررسی ما از ترکیب الگوریتم پوششی و روش ماشین بردار پشتیبان 3 با رویکردی متفاوت استفاده کردهایم. کمینه کردن میزان خطا و تعداد ویژگیهای انتخابی بهعنوان معیارهایی برای توقف الگوریتم پوششی در انتخاب ویژگیها در نظر گرفته شدند. پس از توقف الگوریتم پوششی از زیرمجموعهی پایانی بهعنوان ورودی برای آموزش الگوریتم ماشین بردار پشتیبان استفادهشده است.

در ادامه، ابتدا در بخش 2 بهمرور ادبیات، در بخش 3 مفاهیم مرتبط، در بخش 4 مدل پیشنهادی و در بخش 5 نتایج حاصل از اجرای الگوریتم آورده شده است. در پایان نتیجهگیری و پیشنهادها برای کارهای آتی مطرح خواهد شد.

-2 مرور ادبیات

بیماریهای کلیوی به خاطر فشارخون بالا، ایجاد نارساییهای بدنی و بسیاری از عوامل دیگر به وجود میآیند. با شهرنشینی شدن جوامع و تأثیر این نوع زندگی بر فعالیتهای انسانها، این نوع بیماری بهشدت در حال افزایش است و بهترین راه مقابله با آن تشخیص بهموقع و ارائهی روشی برای پیشگیری از پیشرفت این نوع بیماری است. در رابطه با این نوع بیماری باید این نکته را در نظر گرفت کهمعمولاً هنگامی بیمار مراجعه میکند که بیماری رشد قابلتوجهی داشته است و جلوگیری از پیشرفت آن سخت شده است لذا تشخیص با دادههای بیماران یک نکتهی بااهمیت تلقی میشود. پس تشخیص زودرس از اهمیت بالایی برخوردار است و ازاینرو ما بر آنیم که با بهرهگیری از ابزارهای دادهکاوی به دنبال تشخیص بهموقع این بیماری باشیم.

هرچه ویژگیهای بیماران افزایش یابد، زمان محاسبات برای تشخیص بیماری نیز بیشتر میشود. در مقاله [3] با ترکیب الگوریتم بهینهسازی انبوه ذرات و ماشین بردار پشتیبان به انتخاب ویژگی بر روی پایگاه داده پرداختهشده است. همچنین مقاله [12] نیز از ترکیب دو الگوریتم k میانگین و ماشین بردار پشتیبان برای کاهش ویژگی بهره برده است. برتری استفاده از بهینهسازی انبوه ذرات بهجای k میانگین در همگرایی آن به بهینه سرا سری بیانشده است.

در مقاله [5] از سه روش درخت تصمیمگیری، رگرسیون و شبکه عصبی مصنوعی برای دستهبندی دادههای مربوط به بقای بیمار مبتلابه سرطان سینه استفادهشده است و هریک از روشها ازنظر دقت مورد ارزیابی قرارگرفتهاند. در مقاله [8] یک سیستم هوشمند تشخیصی پیشنهادشده است که در آن از قواعد همبستگی برای کاهش ابعاد داده و از شبکه عصبی برای دسته بندی داده ها استفاده شده است.

مسئله انتخاب زیرمجموعه ویژگیها، به مفهوم شناسایی و انتخاب زیرمجموعهی مفید از مجموعه ویژگیهای دادهی اولیه است که میتواند سبب کارایی مدل دستهبندی شود. در مقاله [13] از ترکیب شبکه عصبی و الگوریتم ژنتیک برای دسته بندی استفاده شده است.

-3 مفاهیم مرتبط

مفاهیم مورداستفاده، در ادامه آورده شده است :

-1-3 الگوریتم ماشین بردار پشتیبان

در روشهای دستهبندی، هدف جداسازی دادهها به چند کلاس مجزا با یک تابع و ساخت مدلی برای پیشبینی کلاسهای دادههای جدید است. مدلهای مختلفی برای دستهبندی مورداستفاده قرار میگیرندمثلاً RBF4 ,KNN5 ,MLP6 اما تنها ماشین بردار پشتیبان ، با تعیین ابر صفحه مجزا کننده بهینه، میتواند فاصلهی بین نزدیکترین دادهها را در دو کلاس حداکثر کند.

-2-3 کاهش ویژگی و الگوریتم پوششی

هر داده دارای تعدادی ویژگی است که شناسایی ویژگیهای مناسب به شناخت بهتر و دقیقتر آن داده میانجامد. انتخاب زیرمجموعهای بهینه از ویژگیها، یکی از مراحل مهم و اساسی درزمینهی بازشناسایی الگوها، یادگیری ماشین و دادهکاوی هست. فرآیند انتخاب ویژگیهای مناسب باعث ایجاد زیرمجموعهای از ویژگیها میشود که علاوه بر کاهش حجم و ابعاد دادهها و حذف ویژگیهای وابسته، بهخوبی رفتار دادهها را توصیف میکند و کیفیت دستهبندی را به نحو مطلوبی افزایش میدهد و موجب کاهش محاسبات و زمان پردازش میشود.

انتخاب ویژگی، بهعنوان پیش پردازندهای بر رویدادهها عمل میکند و تأثیر به سزایی در افزایش دقت و کارایی مدل پیشبینی کننده دارد. لذا روشهای زیادی برای حل مسئله کاهش ویژگیهای اضافی به وجود آمدهاند که بهطورکلی در دودستهی روشهای فیلتری7 و پوششی8 قرار میگیرند.

در روشهای فیلتری، رتبهبندی و مرتبه سازی متغیرها مستقل از الگوریتم یادگیری ماشین صورت میگیرد. بهعبارتدیگر ویژگیها با توجه به مفهوم هدف یا اهداف مسئله رتبهبندی میشوند.

روشهای پوششی که به جعبه سیاه 9 معروف است، از مدل دستهبندی کننده برای ارزیابی شایستگی زیرمجموعههای ویژگیها استفاده میکنند. بهعبارتدیگر این روش، بازخوردی است که از الگوریتم یادگیری ماشین، در فرآیند انتخاب ویژگی استفاده میکند. ارزیابی، بهوسیله اجرای الگوریتم استقرایی در طول فازهای یادگیری و تست در هر انتخاب ویژگی، انجام میشود.

دو دسته از این روشها را روشهای انتخاب ویژگی روبهجلو و انتخاب ویژگی روبهعقب میگویند . روش سومی نیز وجود دارد که از ترکیب این دو حاصل میشود و در این بررسی از آن استفادهشده است. در این بررسی، ابتدا k ویژگی که باهم بیشترین دقت را ارائه میکنند انتخاب شده و سپس k-1 ویژگی که حذف آنها بیشترین مقدار دقت را میدهند، حذف میشوند و این روند ادامه مییابد تا آنکه افزوده شدن ویژگی جدید موجب کاهش دقت شود. مقدار k نیز بایستی برحسب پایگاه داده و نوع روش استفادهشده تنظیم گردد که در این بررسی مقدار 3 برای آن انتخاب گردید.

-4 رویکرد پیشنهادی

ازآنجاییکه استانداردسازی دادهها باعث افزایش کیفیت دادهها میشود، ما در ابتدا به نرمالسازی دادههای کمی پرداختهایم. همچنین دادههای کیفی را نیز با رتبهبندی کمی ساختهایم. سپس مدل پیشنهادی جهت تشخیص شرح دادهشده است.

-1-4 ترکیب الگوریتم پوششی و ماشین بردار پشتیبان

در ابتدا باید گفت که انتخاب ویژگیهای مناسب، یک مسئله بهینهسازی هست . بهگونهای که باید در فضای شدنی مسئله و با توجه به تابع هدف، به دنبال جواب بهینه یا جواب نزدیک به بهینه بود. در مسائل دستهبندی، انتخاب ویژگی به دلیل افزایش کارایی و کاهش زمان محاسبه از اهمیت خاصی برخوردار است. در مدل پیشنهادی نیز تلاش میشود که با ترکیب الگوریتم پوششی ترکیبی و ماشین بردار پشتیبان ، به انتخاب زیرمجموعهی بهینه از ویژگیها بپردازیم.

همانطور که در شکل 1 نشان دادهشده است، در ابتدا به از بین کل ویژگیها، 3 ویژگی بهطور تصادفی انتخابشده و به الگوریتم ماشین بردار پشتیبان فرستاده میشوند و از بین چندین بار تکرار صورت گرفته بهترین مجموعهی 3 عضوی که بیشترین دقت را داشته انتخاب میشود. هر دستهی انتخابی بهصورت رشتهای از صفر و یک است که در این مسئله صفر نشاندهندهی عدم انتخاب ویژگی و یک نشاندهندهی حضور ویژگی در زیرمجموعهی انتخابی است. با توجه به ویژگیهای انتخابی، زیرمجموعه ای از داده ها بهعنوان ورودی به الگوریتم ماشین بردار پشتیبان فرستاده میشود.

الگوریتم ماشین بردار پشتیبان به آموزش توسط دادههای آموزشی میپردازد و عملکرد آن با دادههای تست مشخص میشود و بعدازآنکه این دسته از ویژگیها انتخاب شدند، از بین کل ویژگیها به دنبال 2 ویژگی میگردیم که حذف آنها موجب افزایش دقت روش ماشین بردار پشتیبان در دسته بندی شود.

شکل - 1 - فرآیند کلی انتخاب زیرمجموعهی بهینه از ویژگیها و دستهبندی توسط مدل پیشنهادی را نشان میدهد

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید