بخشی از مقاله
خلاصه
امروزه خوشه بندی یکی از پرکاربردترین مسائل در زمینه هوش مصنوعی به شمار می آید .همچنین قابلیت آن در ورود به فضای داده وتشخیص ساختار آنها، خوشه بندی را به یکی از ایده ال ترین مکانیزم ها برای کار با حجم عظیم داده ها تبدیل کرده است. روش های خوشه بندی یک رهیافت متداول برای تصمیم گیری ها یا طبقه بندی هایی که می تواند تصمیمات نمادینی را به نمونه های جدید با استفاده از نمونه های موجود منتسب کند ارائه می دهند. به همین دلیل روش های خوشه بندی به واسطه ی قابلیت درکی که در خود دارند از اقبال خوبی برخوردار شده اند وحائز اهمیت می باشند. در این مقاله مطالعات انجام شده در داخل و خارج از کشور که در زمینه خوشه بندی وتکنیک های آن انجام شده اند مورد بررسی قرار گرفته است. و روش تحقیق مقاله حاضر به صورت تحلیلی - توصیفی و مطالعات کتابخانه ای می باشد. هدف این مقاله بررسی وتحلیل خوشه بندی پارتیشنال و الگوریتم های k-medoid و k-means وارائه پیشنهادهایی برای بهبود این تکنیک ها می باشد. در این مقاله سعی شده است ضمن بیان مفاهیم خوشه بندی با بررسی وتحلیل روش خوشه بندی پارتیشنال وتکنیکهای کامینز وکامدوید و نکات بدست آمده و پیشنهاد تکنیک هایی برای بهبود آنها ، بتوان با توجه به نوع وحجم داده ها ،اهداف وکاربرد مساله ، مناسب ترین الگوریتم را برای خوشه بندی انتخاب کرد.
کلمات کلیدی: خوشه بندی ، خوشه بندی پارتیشنال ، k-medoid، k-means
.1 مقدمه
داده کاوی1 ،کاوش دانش از درون داده ها است ،روش های داده کاوی از ترکیب و تجمیع علوم مختلفی ایجاد می شوند. ,داده کاوی سعی کرده است با استفاده از قابلیت های مختلفی که در هر یک از این علوم وجود دارد محدودیت هایی که در هر یک وجود دارد را تا حد ممکن برطرف سازد.[1] داده کاوی به دلیل اینکه داده هارا با روش های مختلف تجزیه وتحلیل می کند و خلاصه ان را به اطلاعات مفید تبدیل می کند دارای اهمیت روبه رشد است .تکنیک های داده کاوی حجم زیادی از داده را برای کشف الگوهای پنهان وروابط بین انها بکار می گیرند که برای تصمیم گیری مفید می باشند.[2] بنابراین در خوشه بندی که یکی از تکنیک های پرکاربرد داده کاوی می باشد ، یک جمعیت نامنظم به مجموعه ای از زیرگروه های منظم تقسیم بندی می شود وگروه بندی به صورتی انجام می گیرد که اشیای داخل هر خوشه بیشترین شباهت را با یکدیگر وحداکثر تفاوت را با داده های سایر خوشه ها داشته باشند .[ 1] خوشه بندی همچنین شامل تکنیک های مختلفی است که از مهمترین تکنیک های داده کاوی بحساب می آیند. با بزرگتر شدن پایگاه داده ها تلاش محققان برای یافتن روش های خوشه بندی کارا و مؤثر متمرکز شده است تا از این راه بتوانند زمینه تصمیم گیری سریع و منطبق با واقعیت را فرآهم آورند .
تحلیل خوشه بندی ، شاخه ای از تحلیل آماری چند متغیره بوده وروشی برای گروه بندی داده های مشابه در خوشه های یکسان است .تکنیک های خوشه بندی سعی دارند با کشف روابط موجود در بین داده های جدید ، روش خوشه بندی خود را بهبود بخشند. از این رو تکنیک های خوشه بندی به تکنیک های یادگیرنده نیز شهرت یافته اند.[3] هنگامی که یک فرآیند خوشه بندی آغاز می شود ، تعداد، شکل و ویژگی های خوشه ها مشخص نیست و از انجا که هیچ دانش قبلی از خوشه ها وجود ندارد[4] ، فن خوشه بندی یک تکنیک بدون ناظر2 است[5] ،از این فن برای ساختن بخش ها و خوشه ها استفاده می شود که برای تحلیل های بعدی مورد استفاده قرار می گیرند.[4]بنابراین طبق یک طبقه بندی که از انواع تکنیک های خوشه بندی به عمل آمده تکنیک های خوشه بندی به 5 گروه تقسیم شده اند هرگروه از انواع خوشه بندی شامل الگوریتم های مختلفی برای حل مسائل داده کاوی هستند.
باتوجه به مطالب بیان شده تکنیک های خوشه بندی یکی از مهمترین تکنیک هایی هستند که اخیرا مورد توجه پژوهشگران قرار گرفته اندوبرای مجموعه داده هایی که ساختار مشخص وطبقه بندی نشده دارند بکار برده می شوند.با توجه به کاربرد وسیع دانش مذکور در این مقاله قصدداریم ضمن بیان مفاهیم خوشه بندی دو تکنیک مشهور وپرکاربرد خوشه بندی پارتیشنال ، - تکنیک های k-medoid و - k-means را مورد تحلیل وبررسی قراردهیم والگوریتم های پیشنهادی برای بهبود این تکنیک ها معرفی نماییم.به این ترتیب در بخش بعدی مقاله ابتدا به مرور ادبیات مرتبط با خوشه بندی از جمله ؛ تعریف ، اهمیت ، نقاط قوت وضعف الگوریتم های خوشه بندی و همچنین به معرفی انواع تکنیک های خوشه بندی و محاسبه روش های معیار تشابه داده ها پرداخته می شود و درنهایت دوتکنیک مشهور خوشه بندی پارتیشنال مورد بررسی قرار گرفته وتکنیک هایی برای بهبود این الگوریتم ها معرفی می شوندوسپس نتایج ونکات قابل توجه بیان می شود.