بخشی از مقاله
چکیده
یکی از تکنیکهای رایج آماری برای دستهبندی حجم عظیم دادهها، خوشهبندی است. روش تحلیل خوشهای به طور کلی به دو دسته عمده تقسیم میگردد: -1 سلسله مراتبی -2 غیر سلسله مراتبی. خوشهبندی غیر سلسلهمراتبی در مسائل بزرگ، بسیار کارا است.
منظور از مسائل بزرگ، مسائلی است که یا تعداد اشیا زیاد است، یا تعداد شاخصها، و یا هر دو. یکی از زیرمجموعههای خوشهبندی غیرسلسلهمراتبی، روش k-means است. این روش برای اولین بار در سال 1967 توسط مک کویین ارائه شده است. این روش k - میانگین - سعی میکند تا گروههای همگنی از موارد یا موضوعات تحت مطالعه براساس ویژگیهای انتخاب شده شناسایی کند.
این روش برای خوشهبندی دادههایی طراحی شده که به صورت عددی - کمی - باشند و خوشه دارای مرکزی به نام »میانگین« باشد. در این مقاله برای تفهیم بهتر موضوع، مثالی در رابطه با شاخص »کیفیت زندگی« در 30 استان کشور مورد بررسی قرار گرفت. در این مثال استانها را با توجه به سطح توسعهیافتگی و مقادیر متغیر »کیفیت زندگی«، به چهار سطح - چهار خوشه - »استانهای کاملاً توسعه یافته«، »استانهای توسعهیافته«، »استانهای در حال توسعه« و »استانهای توسعهنیافته« تقسیمبندی کردیم. که پس از تجزیه و تحلیل دادهها در محیط SPSS، 10 استان در خوشه اول - توسعه یافته - ، 11 استان در خوشه دوم - در حال توسعه - ، 5 استان در خوشه سوم - توسعه نیافته - و 4 استان دیگر در خوشهچهارم - کاملاً توسعه یافته - قرار گرفتند.
مقدمه
امروزه به دلیل وجود حجم انبوهی از دادهها در پایگاه دادهها، امکانات کامپیوترها و الگوریتمهای قوی جانشین تحلیلهای دستی شده است تا اطلاعات و دانش را از دادههای موجود استخراج کند - تارخ و شریفیان، . - 157 : 1389 بطوریکه کمتر مطالعهای است که در آن از نرمافزارهای آماری موجود در کامپیوترها استفاده نشود. یکی از تکنیکهای معروف آماری برای دستهبندی حجم عظیم دادهها، خوشهبندی است.
تحلیل خوشهای یکی از از روشهای تجزیه و تحلیل دادههای بزرگ است که به طور گسترده در بسیاری از کاربردهای عملی مورد استفاده قرار میگیرد . خوشهبندی یک روش تحلیل چند متغیری است. در تحلیل چند متغیری مشاهدات شامل اندازههای همزمان روی چند متغیرند. از جمله اهدافی که در روشهای چند متغیری و بالاخص خوشهبندی دنبال میشوند به موارد زیر میتوان اشاره کرد: -1کاهش دادهها یا آسانسازی ساختاری -2 دستهبندی کردن
تحلیل خوشهای در رشتهها و موضوعات مختلف تحت عناوین متفاوتی نظیر تحلیل Q1، گونهشناسی2، تحلیل ردهبندی3 و تکسونومی4 عددی بکار برده میشود. اختصاص نامهای مختلف به تحلیل خوشهای به دلیل کاربرد وسیع آن در رشتههایی نظیر روانشناسی، جامعهشناسی، بیولوژی، توسعه روستایی، برنامه ریزی منطقهای و سایر رشتهها و شاخههای علمی است. تحلیل خوشهای در موقعیتها و موضوعات مختلف مورد استفاده قرار میگیرد. به عنوان مثال ممکن است محققی دادههایی را از طریق پرسشنامه از تعداد زیادی از افراد جمعآوری کند که بدون طبقهبندی آنها دادههای فوق بیمعنی باشند. در چنین مواردی تحلیل خوشهای امکان تلخیص دادها در تعداد گروه یا طبقه را فراهم میکند تا محقق بتواند به تجزیه و تحلیل، استنتاج و نتیجهگیری مناسب دست یابد
روش تحلیل خوشهای به طور کلی به دو دسته عمده تقسیم میگردد:
• روش خوشهبندی سلسله مراتبی؛
• روش خوشهبندی غیر سلسله مراتبی - زنگیآبادی و همکاران، . - 139 : 1391
هدف از تحقیق حاضر نیز معرفی روش خوشهبندی با میانگین K است که یکی از زیر مجموعههای روش خوشهبندی غیر سلسله مراتبی میباشد.
تعریف خوشه بندی
خوشه بندی یکی از شاخههای یادگیری بدون نظارت میباشد و فرآیند خودکاری است که در طی آن، نمونهها به دستههایی که اعضای آن مشابه یکدیگر میباشند تقسیم میشوند که به این دستهها خوشه گفته میشود. بنابراین خوشه مجموعهای از اشیاء میباشد که در آن اشیاء با یکدیگر مشابه بوده و با اشیاء موجود در خوشههای دیگر غیرمشابه میباشند. برای مشابه بودن میتوان معیارهای مختلفی را در نظر گرفت مثلا میتوان معیار فاصله را برای خوشهبندی مورد استفاده قرار داد و اشیائی را که به یکدیگر نزدیکتر هستند را بعنوان یک خوشه در نظر گرفت که به این نوع خوشهبندی، خوشهبندی مبتنی بر فاصله1 نیز گفته می شود
میتوان به مجموع خوشهها در نتیجه تحلیل خوشه، خوشهبندی گفت. در این زمینه متدهای مختلف خوشهبندی قادر به تولید خوشهبندیهای مختلف بر روی همان مجموعه داده هستند. پارتیشن کردن توسط انسانها انجام نمیشود بلکه توسط الگوریتم خوشهبندی صورت میگیرد. از اینرو خوشهبندی با آشکار کردن گروههایی که قبلا در درون داده شناخته نشده بودند به ما کمک میکند
زمانی که شناخت زیادی از مجموعه داده وجود ندارد، برای شناختن گروههای مختلف مجموعه مورد مطالعه میتوان از الگوریتمهای مختلف خوشهبندی استفاده نمود و از آنجایی که برای الگوریتمهای خوشهبندی ویژگی دسته تعریف نمیشود و رکوردها برچسب خاصی ندارند، جزء روشهای غیر نظارتی محسوب میشوند
فرایندهای خوشه بندی
در هر فرایند خوشهبندی، مراحلی طی میشود که عبارتند از:
1. تهیه و ارائه ماتریس دادهها،
2. استاندارد کردن ماتریس دادهها،
3. محاسبه ماتریس مجاورت - فاصله یا شباهت - ،
4. اجرای روش خوشهبندی،
5. محاسبه معیار - های - اعتبار - مومنی، . - 13 :1393
انواع تحلیل خوشهای
- تحلیل خوشهای سلسلهمراتبی:2 یکی از کارآمدترین تکنیکهای پشتیبانی تصمیمگیری، فرایند تحلیل سلسله مراتبی است که برای اولین بار توسط توماس ال. ساعتی3 در سال 1980 مطرح گردید - کفاشپور و همکاران، . - 68 :1391 این روش دارای یک ساختار سلسلهمراتبی است. روش خوشهای سلسلهمراتبی خود به دو شیوه مختلف انجام میگیرد. این شیوهها عبارتند از: ادغامی و تجزیهای - شکافتی - .
در روشهای ادغامی نخست هر شی به صورت یک خوشه جداگانه در نظر گرفته میشود، سپس در فرایند خوشهبندی، خوشهها با هم ادغام میشوند تا خوشه یکتایی بدست آید. در روشهای تجزیهای، کار برعکس است؛ ابتدا همه اشیاء در یک خوشه جای میگیرند و در فرایند خوشهبندی، خوشهها به چند خوشه دیگر تجزیه میشوند. از مهمترین روشهای ادغامی میتوان به: پیوند تکی4، پیوند کامل5، متوسط گروه6، وارد7، سنترویید - مرکز - 8، و میانه اشاره کرد