بخشی از مقاله
چکیده
علی رغم اینکه در اکثر کتاب های درسی، داد ه ها به صورت کامل موجود می باشند اما جمع اوری داده ها به صورت کامل در تحقیقات علمی در اکثر موارد امکان پذیر نیست و با داده های گمشده سروکار داریم. گم شدن داده ها به وضعیتی گفته می شود که بخشی ازمجموعه داده ها گزارش نشده باشد. گم شدگی داده ها باعث کاهش تطابق جامعه نمونه با جامعه کل شده و می تواند منجر به نتیجه گیری اشتباه شود.
دراین تحقیق روشی جدید به نام سی بی جی ام آی1 معرفی می شود والگوریتمی برای انجام آن ارایه می شود و نظر به اهمیت بازیابی داده های گم شده در نتایج اصلی تحقیقات، با استفاده از این الگوریتم، دو کار مهم در این تحقیق انجام می دهیم؛ ابتدا جانهی چندگانه و بازیابی داده ها بدون حذف آنها انجام می گیرد و بعداز تکمیل شدن داده های گم شده، با استفاده از روش خوشه بندی مشهور سیBمیانگین فازی، کل داده ها به منظوراستفاده سریع تر و راحت تر، خوشه بندی می شوند.
مقدمه
درسال های اخیر باگسترش استفاده از اینترنت و پیشرفت در زمینه ارتباطات ، روزانه موج عظیمی از داده هاکه حاوی اطلاعات مهمی هستند، در پایگاه داده ها ذخیره می شوند و به آسانی نمی توان این اطلاعات را استخراج کرد یکی از راه حل های موجود برای استخراج اطلاعات از داده های خام، استفاده از الگوریتم های خوشه بندی می باشد که سعی در تقسیم بندی یک مجموعه از داده ها به تعدادی گروه یا خوشه دارند که داده های هر خوشه بر اساس معیاری مشخص به یکدیگر شبیه هستند.
هدف از خوشه بندی، سازمان دهی مجموعه ای از داده ها در یک سری خوشه است به طوریکه داده ها در هر خوشه بالاترین درجه شباهت را دارا باشند وداده های متعلق به خوشه های متفاوت، کمترین شباهت را داشته باشند. علی رغم اینکه در اکثر مثال های کتاب های درسی داده ها بصورت کامل موجود می باشند، جمع آوری داده ها به طور کامل در تحقیقات عملی امکان پذیر نمی باشد به عبارتی با داده های گم شده سرو کار داریم.
گم شدن داده ها به وضعیتی گفته می شود که بخشی از مجموعه داده ها گزارش نشده باشد. گم شدگی داده ها باعث کاهش تطابق جامعه نمونه با جامعه کل شده و می تواند منجر به نتیجه گیری اشتباه شود. تحلیل آماری با داده های گم شده بیشتر از هفتاد سال در تحقیقات و نوشته ها مورد توجه قرار گرفته است. نویسندگان مختلفی روش هایی را برای برخورد با مقادیر گم شده معرفی کرد ه اند:
الیسون بر روی برآورد حد اکثر مقدار درست نمایی برای مدل های چند متغیره برای داده های گم شده مطالعاتی را انجام داده است.[5] هانگ و لی یک روش نزدیکترین همسایه را بر اساس رابطه خاکستری برای مساله داده های گم شده به دست آورده اند.[7] یک ایده از خوشه بندی -c میانگین فازی و کاربرد آن در مسایل جانهی داده های گم شده با راندمان بالا در [10] معرفی شده است. در مورد جانهی داده های گم شده یا ناقص اطلاعات مفیدی در [13]انجام شده است. در یک بررسی با استفاده از روش مونت کارلو، آنالیز داده ها با روش های استفاده از داده های کامل، جانهی مقادیر گم شده و روش درست نمایی ماکزیمم با هم مقایسه شده اند.[9]
داده گم شده یک مشکل عمومی در تحقیقات علوم پزشکی، توانبخشی، اجتماعی،رفتاری و روانشناسی می باشد وعملا تجزیه وتحلیل آماری را به سوی نتایج اریب سوق داده و دستیابی به یک نتیجه گیری مفید از داده های جمع آوری شده را با مشکل مواجه می سازد. در صورت مواجه شدن باداده گم شده، اولین قدم بازنگری و مشاهده نمونه های مورد مطالعه و تکمیل مقادیر گم شده است. به طور کلی سه روش در نحوه بررسی داده های گم شده مورد استفاده قرار می گیرد.[4]
- 1 روش های مبتنی بر واحدهای کامل - 2 روش های مبتنی بر جایگذاری یا جانهی - 3 روش های مبتنی بر مدل هدف از این تحقیق، تکمیل داده های گم شده با روش های جانهی می باشد؛ به این صورت که ابتدا داده های گم شده را به وسیله روش جانهی تکمیل کرده و با استفاده از الگوریتم سی بی جی ام آی، کل داده ها را خوشه بندی می کنیم که در این الگوریتم از الگوریتم مشهور سیBمیانگین فازی2 استفاده می شود. بنابراین در این تحقیق به دنبال پاسخگویی به سوالات زیر هستیم:
- داده های گم شده را با کدام روش تکمیل نماییم که نتایج دارای اریبی کمتری باشد؟
- روش خوشه بندی سیBمیانگین چیست وچگونه اجرا می شود؟
- روش خوشه بندی بر مبنای جانهی چندگانه بادرجه خاکستری یا الگوریتم سی بی جی ام آی چیست وچگونه اجرا می شود؟
- این روش ها چه مزایایی ومعابی دارند؟در مورد ضرورت موضوع، می دانیم که در رشته های مختلف از علوم همواره حجم زیادی از داده ها در بانک اطلاعات ذخیره می شوند، از این رو یک روند برای روش های تحلیلی موثر و کارا جهت استفاده از اطلاعات به دست آمده،مورد نیاز است. نظر به اینکه وجود داده های گم شده در موارد متنوعی مانند پزشکی، توانبخشی، روانشناسی و اجتماعی از اهمیت بالایی برخوردار است و با توجه به مزایای روش خوشه بندی سی بی جی ام آی، انجام این پژوهش می تواند به تحقیقات مرتبط با موارد ذکر شده کمک بسزایی بنماید. علاوه بر اجرای الگوریتم با داده های واقعی، تحقیق در مورد الگوریتم سی بی جی ام آی از اهمیت ویژه ای برخوردار است و چون این روش بر پایه خوشه بندی فازی انجام می شود، می تواند نتایج و کاربردهای واقعی تری را درعمل نتیجه دهد.
بدنه اصلی مقالات الگوریتم سی بی جی ام آی سه نوع مکانیسم گم شدگی برای مقادیر وجود دارد11]،[1 الف: گم شدگی کاملا تصادفی3 ب: گم شدگی تصادفی4 ج: گم شدگی غیر تصادفی5 روشهای بازیابی مختلفی برای داده های گم شده وجودداردکه چندروش را به اختصارنام می بریم:
الف: روش جانشانی یاجانهی میانگین یا مد[ 5] 6
ب: روش جانهی سی دی آی7واچ دی آی[ 1] 8
ج:روش جانهی رگرسیون 4]،[1
د: روش جانهی 11] 9،[3
ه: روش جانهی چند گانه 13]،12،[4 در این تحقیق با استفاده از الگوریتم سی بی جی ام آی از روش جانهی چندگانه استفاده می کنیم که شرح آن بصورت زیر است: ورودی: یک ماتریس m×n با حضور داده های با مقادیر گمشده. خروجی: یک ماتریس m×n با مقادیر بازیابی شده.
گام اول: ابتدا کل داده ها را به دو گروه، کامل - بدون داده گمشده - وداده ناقص - باحضور داده گمشده - تقسیم می کنیم، و داده های کامل را بااستفاده از الگوریتم -c میانگین فازی 3]،[2 خوشه بندی می کنیم.