مقاله بررسی شاخص های اعتبارسنجی خوشه بندی

word قابل ویرایش
7 صفحه
دسته : اطلاعیه ها
8700 تومان

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

بررسی شاخص های اعتبارسنجی خوشه بندی

چکیده

خوشه بندی یکی از رایج ترین تکنیک های داده کاوی و فرآیند بدون ناظر در دسته بندی داده ها است.هدف خوشه بندی قرار دادن دادههای مشابه به هم در یک گروه است، بطوریکه نمونهها در یک خوشه بیشترین شباهت را با یکدیگر و بیشترین تفاوت را با نمونهها درخوشههای دیگر داشته باشند، الگوریتمهای خوشه بندی متعددی وجود دارد که نتایج بسیاری از الگوریتمهای خوشهبندی وابسته به پارامترهای اولیه الگوریتم می باشد ، بنابراین ارزیابی نتایج خوشه بندی الگوریتم ها بسیار با اهمیت است ،در این راستا شاخص های اعتبارسنجی متعددی مطرح شده اما تاکنون هیج شاخص رسمی برای ارزیابی نتایج خوشه بندی بیان نشده است. در این مقاله ما مروری بر تعدادی از شاخصهای مطرح شده خواهیم داشت و مزایا ومعایب آنها را بیان و سپس شاخص اعتبارسنجی جدیدی را مطرح خواهیم کرد که قادر است تعداد تخمینی دقیق تری از تعداد خوشه های بهینه برای مساله ما را مشخص نماید جهت اثبات این موضوع ما از ۳ مجموعه داده واقعی سایت یادگیری ماشین UCI استفاده نموده ایم.

کلمات کلیدی: خوشهبندی-دادهکاوی – فرآیند بدون ناظر- شاخصهای اعتبارسنجی

مقدمه

خوشهبندی یک فرایند بدون ناظر در دادهکاوی و تشخیص الگو است ،الگوریتمهای خوشهبندی متعددی وجود دارد که نتایج حاصل از آنها روی یک مجموعه داده، حساس به شرایط اولیه الگوریتم می باشد ، بنابراین ارزیابی نتاج خوشهبندی بسیار مهم است و بدون استفاده از شاخص اعتبارسنجی تعیین درجه کیفیت خوشه بندی بسیار دشوار، بنابراین هدف از اعتبارسنجی خوشهها یافتن خوشههایی است که بهترین تناسب را با دادههای مورد نظر داشته باشنددو. معیارِ پایه اندازهگیری برای ارزیابی و انتخاب خوشههای
بهینه عبارتند از:

تراکم:۱ دادههای متعلق به یک خوشه بایستی تا حد ممکن به یکدیگر نزدیک باشند. معیار رایج برای تعیین میزان تراکم دادهها واریانس دادهها است. جدایی:۲ خوشهها خود بایستی به اندازه کافی از یکدیگر جدا باشند. سه راه برای سنجش میزان جدایی خوشهها مورد استفاده قرار میگیرد که عبارتند از:
۱٫ فاصله بین نزدیکترین دادهها از دو خوشه

۲٫ فاصله بین دورترین دادهها از دو خوشه
۳٫ فاصله بین مراکز خوشهها
همچنین روشهای ارزیابی خوشههای حاصل از خوشهبندی را به سه دسته تقسیم میکنند که عبارتند از:
۱٫ معیارهای خروجی۳
۲٫ معیارهای درونی۴

۳٫ معیارهای نسبی۵
(۱ معیارهای خروجی: معیارهای خروجی بر پایه ساختارهای از قبل مشخص شده است، که اطلاعات پیشین از دادهها را منعکس میکنند . این شاخصها به عنوان استاندارد تایید اعتبار جواب خوشهبندی استفاده می شوند .
(۲ معیارهای داخلی: معیارهای داخلی به اطلاعات خارجی (دانش پیشین) وابستگی ندارندنها،آ مستقیماً ساختار خوشهبندی را از روی دادههای اصلی آزمایش میکنند .
(۳ معیارهای نسبی: معیارهای نسبی برروی مقایسه بین تفاوتهای ساختارهای خوشه بندی تاکید می کنند، بطوریکه مرجعی برای تصمیم گیری اینکه، کدام مشخصه از اشیا میتواند شایستگی خوشه ها را بهتر از همه اشکار نماید.
هم معیارهای خروجی و هم معیارهای درونی بر مبنای روشهای آماری عمل میکنند و پیچیدگی محاسباتی بالایی را نیز دارا هستند . معیارهای خروجی عمل ارزیابی خوشهها را با استفاده از بینش خاص کاربران و معیارهای درونی عمل ارزیابی خوشهها را با استفاده از مقادیری که از خوشهها و نمای آنها محاسبه میشود، انجام میدهند. پایه معیارهای نسبی، مقایسه بین شماهای خوشهبندی (الگوریتم به علاوه پارامترهای آن) مختلف است. یک و یا چندین روش مختلف خوشهبندی چندین بار با پارامترهای مختلف روی یک مجموعه داده اجرا شده و بهترین شمای خوشهبندی از بین تمام شماها انتخاب میشود. در این روش مبنای مقایسه، شاخصهای اعتبارسنجی هستند (فرانس و همکاران،. (۲۰۰۵
در ادامه تعدادی از شاخصهای اعتبارسنجی داخلی و خارجی مطرح خواهد شد، سپس شاخص پیشنهادی بیان و به کمک ۳ مجموعه داده واقعی از سایت یادگیری ماشین ،UCI عملکرد مناسب آن اثبات می شود.
ادامه مقاله به نحو ذیل سازماندهی شده است:

-۲ پیشینه پژوهش -۳ شاخص اعتبارسنجی پیشنهادی -۴ آزمایشات -۵ نتایج پژوهش -۶ پیشنهادات -۷ منابع.

پیشینهپژوهش:

شاخصهای داخلی به دو دسته -۱ شاخصهای مربوط به ارزیابی الگوریتمهای خوشهبندی قطعی مانند الگوریتم خوشه بندی kmeans و – ۲ شاخص های مربوط به ارزیابی خوشهبندی الگوریتمهای فازی مانند FCM تقسیم میشوند که در ادامه تعدادی از این دسته شاخصهای که تاکنون مطرح شده است ، بیان خواهد شد.

شاخص Silhouette coefficient یکی از متداولترین روشهای اعتبارسنجی خوشه بندی قطعی است که اولین بار در سال ۱۹۸۶ توسط Peter J. Rousseeuw و همکارانش مطرح گردید.

این شاخص کیفیت خوشه بندی نمونه ها را در خوشههای قرار گرفته شده بررسی می نماید و با رابطه ۱ محاسبه می شود.

(۱)

در روابط فوق a(i) ،میانگین اختلاف نمونه i با همه نمونههای در همان خوشه و b(i) حداقل میانگین اختلاف نمونه i با همه نمونه ها در خوشه های غیر متناظر می باشد که در تصویر ۱به این مفاهیم اشاره شده است.

مقدار نهایی این شاخص به ازای k خوشه بین بازه ۱ -۱ است، و هر چه مقدار این شاخص به ۱ نزدیک تر باشد خوشه بندی مطلوب تر است.

شکل:۱نحوه عملکر شاخص S (روسو و همکاران،(۱۹۸۷

در واقع در این شاخص برای هر خوشه میزان پراکندگی و همبستگی داده ها تعیین می شود مقدار بیشینه در این شاخص اشاره به تعداد خوشه بهینه برای مجموعه داده و خوشه بندی مطلوب دارد.

شاخص RMSSDT6 در سال ۱۹۹۶ توسط Sharma و همکارانش مطرح گردید. این شاخصمعمولاً در اعتبارسنجی الگوریتمهای سلسله مراتبی مورد استفاده قرار میگیرند ولی قابلیت ارزیابی نتایج سایر تکنیکهای خوشهبندی را نیز دارا است.
در این شاخص از واریانس خوشهها استفاده میشود که به شکل رسمی از رابطه ۲ برای محاسبه آن استفاده میکنیم.

(۲)

در این رابطه X ij اشاره به مقدار نمونه j در خوشه i و Xi ،اشاره به مرکز خوشه مورد نظر و nc تعداد خوشه ها می نماید. با توجه به اینکه این شاخص میزان همگنی خوشه ها را اندازهگیری مینماید ،می توان دریافت هرچه مقدار این شاخص کمتر باشد، در واقع اشاره به خوشه بندی مطلوب تر دارد. [۳, ۴ ]

شاخص PC7 در سال ۱۹۸۱ توسط Bezdek و همکارانش مطرح گردید .این شاخص فازی، میزان هم پوشانی بین خوشه ها را اندازه گیری می نماید و با رابطه ۳ قابل محاسبه است.

(۳)

در این رابطه c، تعداد خوشه ها ،n تعداد داده ها و u2ij میزان عضویت نمونه j به خوشه i را مشخص می نماید. خروجی این شاخص بین [۱/c , 1] است زمانیکه مقدار این شاخص برابر ۱ باشد نشان می دهد که هم پوشانی بین خوشه ها وجود نداشته و خوشه بندی معادل خوشه بندی کلاسیک و قطعی خواهد بود و اگر مقدار این شاخص برابر ۱/c باشد به این معنی است که خوشه بندی در فازی ترین حالت خود، و هم پوشانی بین خوشه ها زیاد است (بیطو و همکاران،. (۱۹۸۱ بنابراین در این شاخص مقدار ماکزیمم اشاره به خوشه بندی مطلوب و تعداد خوشه بهینه دارد . طبق تحقیقات ku-lung-wu و همکارانش در سال ۲۰۰۵ این شاخص در ارزیابی خوشههای حاصل از الگوریتمهای فازی در محیطهای داده ای نویزی عملکرد ضعیفی دارد.(لانگ و همکاران،.(۲۰۰۴

در تحقیقاتی که در سال Moumen El-Melegy 2007 و همکارانش انجام دادند به این نتیجه رسیدند که اگر این معیار برای ارزیابی خوشه های حاصل از الگوریتم خوشه بندی kmeans بکار برده شود با افزایش سطح نویز تعداد خوشه تشخیصی آنها ثابت می ماند و تغییری نمی کند(ژانگ و همکاران،.(۲۰۰۲

شاخصPE 8 در سال ۱۹۷۴ توسط Bezdek و همکارانش مطرح گردید. این شاخص میزان همپوشانی خوشههای ایجاد شده را بررسی می نماید و با رابطه ۴ محاسبه می شود.

(۴)

در این رابطه c تعداد خوشه ها ،n تعداد نمونه ها وuij میزان عضویت نمونه j به خوشه i است..

خروجی این شاخص بین ۰ تا logac می باشد .زمانیکه مقدار این شاخص برابر ۰ شود یعنی خوشهبندی معادل خوشه بندی کلاسیک است و زمانیکه مقدار این شاخص برابر logacشود یعنی خوشه بندی در فازی ترین حالت خود قرار دارد. یک حالت دیگر از این تابع نیز تعریف شده، که به تابع ارزیابی آنتروپی نرمال شده معروف است. در این تابع مقدار تابع ارزیابی فوق را بر لگاریتم تعداد خوشه ها (c) تقسیم می کنند.

انتخاب تعداد خوشه های مناسب با مینیمم کردن تابع فوق بدست میآید. تعداد خوشههایی که به ازای آن این تابع کمترین مقدار را داشته ، بعنوان تعداد خوشه های مناسب برای آن مساله مورد استفاده قرار می گیرد.
نکته قابل توجه در مورد این دو تابع این است که زمانی که PC برابر ۱ باشد PE برابر ۰ خواهد بود و در این حالت خوشه بندی معادل خوشه بندی کلاسیک است. اگر PC برابر ۱/c باشد PE برابر log2c می شود که در این حالت خوشه بندی در فازی ترین حالت خود خواهد بود. از طرف دیگر گفته شد که باید برای رسیدن به حالت خوشه بندی مطلوب PC ماکزیمم شود و PE مینیمم. بنابراین در خوشهبندی های فازی سعی میشود تا خوشهها به خوشه های کلاسیک نزدیکتر باشند.

نقاط ضعف دو شاخص PC,PE این است که از خود داده ها بطور مستقیم برای ارزیابی خوشه بندی استفاده نشده است. هر دو شاخص مذکور تمایل به افزایش یکنواختی با تغییر تعداد خوشه ها دارند و برای کاهش این رشد یکنواخت معیار دیگری با تغییر در شاخص PC به نام MPC مطرح شد. (بیزه و همکاران،(۱۹۷۴
طبق تحقیقات ku-lung-wu و همکارانش در سال ۲۰۰۵ این شاخص در ارزیابی خوشههای حاصل از الگوریتمهای فازی در محیطهای داده ای نویزی عملکرد ضعیفی دارد. (لانگ
æ همکاران،(۲۰۰۴

شاخصMPC9 در سال ۱۹۹۶ توسط Dave و همکارانش جهت رفع مشکل مذکور در شاخص PC مطرح گردید و با رابطه ۵ قابل محاسبه است.

(۵)

در این رابطه C تعداد خوشه ها و vPC مقدار شاخص PC است، خروجی این شاخص بین ۰و ۱ بوده و مقدار نزدیک به ۱ در این شاخص اشاره به تعداد خوشه مناسب و خوشه بندی مطلوب داده ها خواهد نمود.شاخص فوق معادل با یک شاخص غیر فازی ساز است.(ژانگ و همکاران،(۲۰۰۲

در تحقیقاتی که در سال Moumen El-Melegy 2007 و همکارا نش روی تصاویر نویزی با سطوح نویز مختلف با دو الگوریتم خوشهبندی kmeans و fcm انجام دادند به این نتیجه رسیدند این معیار در تشخیص تعداد خوشههای بهینه و تغییر سطح نویز رابطه سازگاری دارد و با افزایش سطح نویز تعداد خوشههای بهینه تشخیصی این معیار تغییری نمی نماید (داوو و همکاران،.(۲۰۰۹

شاخص خارجی purity در سال ۲۰۰۲ توسط Zaho و همکارانش مطرح گردید. این شاخص دقت خوشه بندی را بررسی می نماید و بسیار شبیه معیار آنتروپی است و با رابطه۶ قابل محاسبه می باشد.

(۶)

در این رابطه P(Sr) دقت خوشه r را بررسی می نماید که با رابطه ۷ قابل محاسبه است در این رابطه بیشترین توزیع نمونه ها را برای یک خوشه در نظر می گیریم و nr اشاره به تعداد نمونه ها در خوشه n, rتعدادکل نمونه ها می باشد.

(۷)

مقدار خروجی این شاخص بین ۰و۱ است و مقدار نزدیک به ۱ اشاره به دقت بالاتر خوشه بندی داده ها می نماید و به ازای هر تعداد خوشه که مقدار این شاخص به ۱ نزدیک شوذ اشاره به خوشه بندی مطلوب و تعداد خوشه بهینه دارد.

شاخص Entropy در سال ۲۰۰۲ توسط Zaho و همکارانش مطرح گردید و با رابطه ۸ قابل محاسبه است.

(۸)

در این رابطه E(Sr) اشاره به میزان آنتروپی خوشهr و n تعدادکل نمونه ها ، nr تعداد نمونه ها در خوشه k, rتعداد خوشه ها دارد.که میزان آنتروپی در خوشه r با رابطه ۹ قابل محاسبه است.

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
wordقابل ویرایش - قیمت 8700 تومان در 7 صفحه
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد