بخشی از مقاله
چکیده:
در این مقاله سعی بر این است که داده هایی که بدون برچسب می باشند را به کمک نا مساوی قدرمطلق خوشه بندی کنیم. با استفاده از این روش داده ها ی بدون برچسب به دو دسته تقسیم می شوند. به طوری که بیشتر داده ها درکلاسهای درست و جایگاه مناسب خود قرار گیرند. برای این منظور مدل بدست آمده را به مساله برنامه ریزی خطی تبدیل میکنیم و سپس مساله برنامه ریزی خطی را حل می کنیم. آزمایشات عددی نشان دهنده کارایی روش پیشنهادی می باشند.
کلمات کلیدی:خوشه بندی ; داده های بدون برچسب ; بردار پشتیبان ماشین ; نامساوی قدرمطلق.
-1 مقدمه:
داده ها و الگوها یکی از شاخص های بسیار مهم در دنیای اطلاعات هستند. در مجموعه ای از داده هایی که طبقه بندی نشده اند، میتوان ساختار مناسبی یافت که به خوشه بند ی موسوم است .خوشه بندی یکی از بهترین روش هایی است که برای کار با داده ها حتی در حالاتی که هیچگونه اطلاعاتی از ساختار داخلی داده ها نداریم و داده ها کاملا بدون برچسب هستند، ارائه شده است . تجزیه و تحلیل خو شه ای رو شی برای گروهبندی داده ها با توجه به شباهت یا درجه نزدیکی آنها به یکدیگر ا ست. از این طریق می توان داده ها را به د سته های همگن و متمایز از هم تق سیم کرد. در روش خو شه بندی هیچ کلا سی از قبل وجود ندارد. بلکه ما به دنبال کلاسهایی از داده ها هستیم که به هم شباهت دارند و با کمک این شباهت ها می توان رفتارها را بهتر شناسایی کرد و برمبنای آن طوری عمل کرد که نتیجه بهتری حاصل شود .[6]
به بیان دیگر میتوان گفت که خو شهبندی قراردادن دادهها در گروههایی ا ست که اع ضای هرگروه از زاویه خا صی شباهت دارند. در نتیجه اعضای یک خوشه به یکدیگر شباهت دارند و با اعضای خوشه های دیگر هیچ شباهتی ندارند.برای مثال شکل های 1و2و3 به خوشه بندی دست خط های متفاوت در افراد اشاره می کند .[2]معیار شباهت و همگروهی داده ها در این مقاله فاصله می باشد. یعنی دادههایی که به یکدیگر نزدیکترند در یک خوشه قرار می گیرند.یکی از روشهایی که در حال حاضر به صورت گسترده برای جداسازی خوشه ها با محاسبه حداکثر فاصله بین داده های کلاسهای مختلف مورد استفاده قرار می گیرد، روش ماشین بردار پشتیبان - SVM - است. ایده ی ماشین بردار پشتیبان می کوشد، ابرصفحاتی را پیدا کندکه عمل تمایز نمونههای کلاسهای مختلف دادهها را بطور بهینه انجام دهد. بدین گونه که ابرصفحه هایی با حداکثر حاشیه را بدست می آوردکه دسته ها را از یکدیگر جدا میکند.در این مقاله می خواهیم با استفاده از نامساوی قدر مطلق در ماشین بردارپشتیبان، دادهها ی بدون برچسب را به دو خوشه تقسیم کنیم .[3]نامساوی قدر مطلق محدب زیر را در نظر بگیرید: