بخشی از مقاله
چکیده -
در این مقاله رویکردی برای بهبود روش یادگیری فعال بدون ناظر ارائه شده است. روش یادگیری فعال بدون ناظر یک روش خوشه بندی چگالی محور است که با در نظر گرفتن عدم قطعیت در دادهها، آنها را به صورت فازی در فضا مدل میکند و بعد از جمع کردن اثرات آنها، توسط یک اپراتور بخشهای چگال تشکیل شده را بطور موثری پیدا میکند. این روش می تواند خوشههایی با شکلهای پیچیده و مختلف را تشخیص داده و از یکدیگر تفکیک نماید. همچنین این روش میتواند بخوبی دادههای نویزی و دادههای پرت را شناسایی کند یکی از معایب این روش هنگام کار کردن بر روی مجموعه دادهها با چگالی دستههای متفاوت یا دستههای نزدیک به هم پیش میآید بطوریکه ممکن است برای تفکیک خوشهها دادههای نسبتا زیادی را بصورت دادههای پرت گزارش کند. بنابراین با اضافه کردن یک مرحله پسپردازش بر روی دادههای پرت گزارش شده به فرآیند الگوریتم خوشهبندی میتوان به نحوه موثری این مشکل را حل نمود. برای بررسی بهبود عملکرد این الگوریتم در مقایسه با روش یادگیری فعال بدون ناظر شبیهسازی روی مجموعه دادههای مختلف صورت گرفته است.
کلید واژه- روش یادگیری فعال بدون ناظر، خوشه بندی، خوشه بندی چگالی محور، داده های پرت.
-1 مقدمه
روش یادگیری فعال یکی از الگوریتمهای موثر در حوزه فازی است که توسط پروفسور باقری شورکی در سال 1999 ارائه شد.[1] این روش بر مبنای شبیهسازی نحوه یادگیری مغز انسان در هنگام مواجهه با مسائل پیچیده ارائه شده است. روش یادگیری فعال در زمینههای بسیاری از جمله مدلسازی [2]، کنترل [3]، دستهبندی [4] وخوشه بندی [5] با نشان دادن کارایی مناسب استفاده شده است. خوشهبندی از جمله روشهای دادهکاوی بوده که کاربردهای زیادی در صنعت، پزشکی، علوم اجتماعی و سیستمهای پیچیده، زیستشناسی و مدیریت کاربرد دارد. در همه این علوم محقق بعد از جمع آوری اطلاعات از محیط بدنبال تحلیل دادهها است. برای این منظور اولین کاری که باید صورت پذیرد طبقهبندی اطلاعات جمعآوری شده و استخراج خوشههایی از دادهها است که هر خوشه خود نمایانگر خصوصیتی از سیستم مورد مطالعه است.
اطلاعات جمعآوری شده در بسیاری از سیستمها به دلایل مختلفی دارای عدم قطعیت هستند. همچنین ممکن است داده های نویزی و دادههای پرت نیز در آنها موجود باشد. بنابراین ارائه روشی که بتواند هم عدم قطعیت در دادهها را در نظر گرفته و هم داده های پرت و نویزی را شناسایی کند میتواند بسیار مفید باشد. روشهای خوشهبندی مختلفی تا کنون ارائه شدهاند. بطور کلی میتوان این روشها را به چند دسته تقسیمبندی کرد از جمله: روشهای خوشهبندی بخشبندی، چگالیمحور، شبکه محور و سلسلهمراتبی. از میان این روشها، روشهای خوشه بندی چگالی محور دارای قابلیت تشخیص خوشههای با شکل-های متنوع و حساسیت کم نسبت به دادههای پرت هستند. [6] DBSCAN، [7] OPTICS ،[8] DENCLUE و روش یادگیری فعال بدون ناظر [5] مثالهایی از روشهای خوشهبندی چگالی محور هستند. این روشها عمدتا برای خوشهبندی داده-های عددی با ابعاد پایین استفاده میشوند.
روش خوشهبندی یادگیری فعال بدون ناظر یک روش چگالی محور جدید بر اساس مفاهیم موجود در روش یادگیری فعال است. این روش با در نظر گرفتن نقاط داده بصورت فازی، آنها را به صورت قطره جوهر و توسط یک تابع تعلق فازی در فضا مدلسازی میکند. بخشهای پیوستهای که همان خوشههای مطلوب هستند در اثر هم پوشانی الگوی جوهر این دادهها، در فضا تشکیل میشوند. اپراتور مورد استفاده جهت تعیین تعداد و اعضای هر خوشه، روش برچسبزنی اجزای به هم پیوسته است که در پردازش تصویر نیز از آن استفاده میشود.[9] تفاوت اصلی روش ارائه شده با روشهای خوشهبندی چگالی محور دیگر اولا در مفهوم نحوه نگاه کردن به هر داده است. بطوریکه هر داده نه تنها در همان نقطه معتبر است بلکه با درجه اطمینان پایینتری در نقاط همسایگی خود نیز معتبر است که این موضوع با در نظر گرفتن تابع تعلق فازی بیان میشود. ثانیا در نحوه یافتن خوشه-هاست که در این روش از الگوریتم اجزای به هم پیوسته استفاده شده است. تفاوت بعدی در نحوه یافتن مراکز خوشهها است که در این روش از برخورد مسیرهای باریک برای یافتن مراکز خوشهها استفاده شده است. مسیر باریک یکی از مفاهیم مورد استفاده در روش یادگیری فعال است که در ادامه توضیح داده میشود.
روش یادگیری فعال بدون ناظر علیرغم مزایای بسیار، دارای یک ایراد اساسی در مواجهه با برخی از مجموعه دادهها است. هنگامیکه مجموعه دادهای دارای خوشههایی است که بسیار بهم نزدیک هستند برای متمایز کردن این خوشهها مقدار پارامتر آستانه را در این الگوریتم به اجبار باید زیاد کرد. این امر موجب میشود تا دادههای زیادی مربوط به خوشههای مختلف بعنوان دادههای پرت در نظر گرفته شوند و در نتیجه باعث پایین آمدن کیفیت خوشهبندی میشود. در این مقاله برای رفع این مشکل راهکاری ارائه شده است.
در روش ارائه شده در این مقاله بعد از خوشهبندی توسط روش یادگیری فعال بدون ناظر یک فرآیند پسپردازش بر روی دادههای پرت مشخص شده توسط الگوریتم خوشهبندی صورت میگیرد به این نحو که با پخش قطره جوهر برای هر کدام از دادههای پرت و سپس میانگینگیری بر روی درجه تعلق داده-هایی که در محدوده آن قطره جوهر واقع شدهاند خوشه برنده را تعیین میکنیم، اگر جوهر مربوط به داده پرت تشخیص داده شده توسط روش یادگیری فعال بدون ناظر، با هیچ کدام از داده-های خوشهها همپوشانی نداشته باشد، آن داده واقعا داده پرت خواهد بود و الگوریتم بهبود یافته نیز آن را بعنوان داده پرت درنظر خواهد گرفت. ساختار مقاله در ادامه به شرح زیر است: در بخش دوم مفاهیم روش یادگیری فعال ارائه شده است. الگوریتم روش خوشهبندی یادگیری فعال بدون ناظر در بخش سوم و در بخش چهارم روشی برای بهبود روش یادگیری فعال بدون ناظر ارائه میشود. شبیهسازیها و ارزیابی الگوریتم ارائه شده در بخش پنجم آورده شده است و در نهایت فصل ششم شامل نتیجهگیری است.
-2 روش یادگیری فعال
روش یادگیری فعال روشی است که برای شبیه سازی عملکرد مغز انسان در مواجهه با مسائل پیچیده بوجود آمده است. به این نحوه که یک مسئله پیچیده به چندین مسئله سادهتر و قابل ادراکتر میشکند - شکل . - 1 در این روش یک سیستم چند-ورودی تک-خروجی با ترکیب نتایج چندین سیستم تک-ورودی تک-خروجی تقریب زده میشود. هر سیستم تک-ورودی تک-خروجی در یک صفحه پخش قطره جوهر مدل میشود و رابطه بین ورودی مورد نظر و خروجی توسط ویژگیهای مسیر باریک و شعاع پخش از صفحات استخراج میشود. رابطه کلی بین ورودی مورد نظر و خروجی توسط مسیر باریک بیان میشود. عملگرهای ماکزیمم، میانگین و یا میانه میتوانند برای استخراج مسیر باریک استفاده شوند. میزان پخش در هر نقطه از مسیر باریک بیانگر اهمیت مسیر باریک در آن نقطه است. از جمله سادهترین راههای بدست آوردن شعاع پخش شمارش تعداد سلولهای غیر صفر موجود در ستون مربوط به نقطه روی مسیر باریک با قرار دادن یک آستانه است. شکل 2 مسیر باریک و میزان پخش مربوط به یک نقطه از مسیر باریک را نشان داده است بطورکلی روش یادگیری فعال از جوهرهای سهبعدی در صفحات پخش قطره جوهر دوبعدی استفاده میکند. هرچندکه در [11] با تعریف گروههای پخش قطره جوهر، جوهرهای n بعدی نیز تعریف شده است. بعد از استخراج دو ویژگی مسیر باریک و میزان پخش، همانند شکل 3 یک واحد استنتاج مرکزی اطلاعات بدست آمده از تک تک واحدهای پخش قطره جوهر را با هم ترکیب میکند. شکل .3 ساختار کلی عملکرد روش یادگیری فعال در برخورد با یک سیستم دو ورودی-تک خروجی نمایش داده شده است.
-3 روش یادگیری فعال بدون ناظر
روش یادگیری فعال بدون ناظر یک روش خوشه بندی چگالی محور جدید است که نتایج خوبی در شبیهسازیها از خود نشان داده است.[5] شبه کد مربوط الگوریتم این روش در شکل 4 آورده شده است مطابق الگوریتم دادههای ورودی را به n سطح مختلف کوانتیزه میکنیم سپس با در نظر گرفتن یک تابع تعلق فازی برای هر داده، دادهها را در فضا بخش میکنیم. شعاع پخش این دادهها
یکی از پارامترهای الگوریتم است بعد از پخش دادهها با جمع کردن اثر آنها و سپس نرمالیزه کردن مجموع بدست آمده صفحه پخش جوهر بدست میآید. در این حالت ممکن است خوشههای مجاور هم به هم چسبیده باشند که برای جدا نمودن این خوشه-ها از پارامتر دیگری به نام آستانه استفاده میکنیم. پارامتر آستانه نقش مهمی در جداسازی خوشههای نزدیک بهم دارد هرچند که بزرگ بودن آن باعث میشود که داده های بیشتری از محدوده خوشهها بیرون بیافتند و بعنوان داده پرت محسوب شوند. بطورکلی این دو پارامتر شعاع پخش و آستانه میتواند به روش های مختلفی تعیین شوند. برای مثال در صورت دانستن تعداد دقیق خوشهها میتوان با آزمایش و خطا مقدار این پارامترها را تعیین نمود. همچنین مقدار این پارامترها میتوانند توسط الگوریتمهای بهینهسازی همانند الگوریتم ژنتیک تعیین شوند.
بعد از اعمال آستانه و جدا شدن خوشهها برای تعیین تعداد خوشهها باید اپراتوری که بتواند این عمل را انجام دهد استفاده شود. روش برچسب زنی اجزای بهم پیوسته یک انتخاب مناسب برای این کار است. این روش با برچسب زدن یکسان به اجزایی که بهم متصل هستند بخش های مختلف را از یکدیگر جدا میکند.
از مزایای روش یادگیری فعال بدون ناظر تشخیص خوشهها با شکلهای مختلف و همچنین تشخیص دادههای پرت است. هرچند که ممکن است به دلیل خصوصیت مجموعه داده مورد بررسی و انتخاب آستانه بزرگ برای جداسازی خوشه ها دادههایی که ماهیتا داده پرت نیستند بعنوان داده پرت گزارش شوند و در نتیجه باعث کاهش کیفیت خوشهبندی خواهد شد. که در این مقاله درصدد رفع این مشکل برآمدهایم.
-4 روش یادگیری فعال بدون ناظر بهبود یافته
در این روش مشکل مربوط به درنظرگرفتن برخی از داده-های خوشهها بعنوان داده پرت برطرف شده است. برای این منظور یک مرحله دیگر به مراحل الگوریتم روش یادگیری فعال بدون ناظر اضافه شده است. به این نحو که بعد از انجام خوشه بندی توسط الگوریتم و مشخص شدن تعداد خوشه ها، دادههای مربوط به خوشههای مختلف و همچنین دادههای پرت، یک عملیات پردازشی بر روی دادههایی که بعنوان داده پرت تشخیص داده شدهاند به منظور تعیین خوشه احتمالی مربوط به آنها صورت میگیرد. در صورتی که بعد از این پردازش خوشهای برای