بخشی از مقاله
چکیده
همواره یکی از مهم ترین دغدغه های دادهکاوان در اختیار داشتن دادههایی صحیح و عاری از خطاست. دادههایی که اشتباهات انسانیدر آن وجود نداشته و رکوردهای آن تماماً پر و حاوی داده هایی صحیح باشند. اما واضح است که چنین مجموعهی داده ای در سطح بسیار کوچک هم قابل دسترسی نخواهد بود، حال آنکه دادهکاوان معمولاً با مجموعه داده های عظیم کار خواهند کرد. در تمامی مطالعات وجود داده نامتعارف و دورافتاده از مسائل مشکل ساز در تجزیه وتحلیل نتایج هست. داده نامتعارف داده ای است که به قدری از سایر مشاهدات انحراف داشته باشد که این گمان را به وجود میآورد که با مکانیزم متفاوتی ایجاد شده است.
تکنیک های شناسایی داده نامتعارف را بر اساس داده برچسب دار میتوان به سه گروه تقسیم کرد. در تکنیکهای نظارتی شناسایی داده نامتعارف، داده آموزشی حاوی نمونه های برچسب دار برای هر دو دسته نرمال و نامتعارف است. در تکنیک های نیمه نظارتی، داده آموزشی فقط برای اندکی از نمونه ها دارای برچسب است. درحالی که در روش های غیر نظارتی، داده آموزشی برچسبداری موجود نیست. در بین تکنیک های شناسایی داده نامتعارف، تکنیک های غیر نظارتی و تکنیک های نیمه نظارتی با نمونه های نرمال برچسب دار برای آموزش، از عمومیت بیشتری برخوردارند.
در این پژوهش برای یافتن نقاط خاص و نامتعارف در سه مجموعه داده سرطان سینه، بازیکنان بسکتبال NBA و باغ وحش از ترکیب دو روش جهت یافتن داده های نامتعارف به صورت نیمه نظارتی و یافتن تشابه بین دادههای برچسب دار موجود و داده های بدون برچسب با استفاده از تابع زنگوله ای پس از پیشپردازشهای اولیه استفاده شده است. برای ارزیابی این روش پیشنهادی از معیارهای آخرین رتبه، میانه، میانگین و انحراف معیار استفادهشده است که با مقایسه نتایج این روش با الگوریتم پایه بهبود نتایج به صورت نسبی دیده شده است.
-1 مقدمه
در تجزیه وتحلیل داده های آماری ، اغلب با مقادیری که مشکوک یا تعجب آور به نظر می رسند، مواجه می شویم. چنین مقادیری ممکن است نقاط دورافتاده باشند که از اصطلاح "داده های نامتعارف" برای توصیف این مقادیر که بر اساس برخی از معیارهای آماری، مغایر با بقیه نمونه باشد استفاده می کنیم .[1] تا به حال تعاریف زیادی از داده های نامتعارف ارائه شده است ولی درمجموع می توان داده های نامتعارف را به صورت زیر تعریف کرد، »یک داده نامتعارف مشاهده ای است که به طور غیرعادی یا اتفاقی از وضعیت عمومی داده های تحت آزمایش و نسبت به قاعدهای که بر اساس آن تحلیل می شوند، انحراف داشته است.« معروف ترین تعریف دادههای نامتعارف مربوط به تعریف د.هاکینز در سال 1980 است وی داده های نامتعارف را مشاهدهای میداند که آنقدر با سایر مشاهدات تفاوت دارد که مشاهدهکننده داده را مشکوک به تولید مکانیزمی غیر از مکانیزم اصلی میکند.[2]
به طور ساده تر، داده نامتعارف مقداری است که نسبت به مجموع نمرات توزیع در حد افراط یا تفریط قرار داشته باشد. از نگاه آماری، داده های نرمال از یک یا چند مکانیزم عمده تولید میشوند، اما مکانیزم تولید داده نامتعارف با مکانیزم تولید این دادهها متفاوت است.[3] تشخیص و حذف دادههای نامتعارف از این رو حائز اهمیت است که این دادهها در صورت حذف نشدن در تمامی مراحل دادهکاوی حضورداشته و باعث نتایج نادرست وبعضاً غیرمنطقی خواهند شد. تشخیص دادههای نامتعارف به سه نوع با ناظر، نیمه ناظر و بدون ناظر تقسیم میشوند:
-1 روش با ناظر در نوع با ناظر یک موضوع مدل کردن تشخیص دادههای نامتعارف بهعنوان یک مسئلهی ردهبندی است. در اینجا نمونهها توسط کارشناسان بررسی میگردند تا برای آموزش و آزمایش مورداستفاده قرار گیرند. موضوع دیگر روشهای آموزش یک ردهبندی برای تشخیص مؤثر دادههای نامتعارف است. در اینجا یک روش مدل کردن دادههای معمولی و تشخیص دادههای نامنطبق بهعنوان دادههای نامتعارف است و روش دیگر مدل کردن دادههای نامتعارف و اعلام دادههای نامنطبق بهعنوان دادههای معمولی است.
-2 روش با نیمه ناظر در بسیاری از موارد تعداد دادههای برچسب خورده اندک است . این دادهها ممکن است دادههای معمولی، نامتعارف یا ترکیبی از هر دو مورد باشد. اگر دادههای معمولی در دسترس باشند از این داده ها و تقریبی از سایر دادهها بهعنوان مدل نرمال استفاده میگردد. اما اگر دادههای نامتعارف در دسترس باشندمعمولاً نمیتوانند کل دادههای نامتعارف را بهخوبی پوشش دهند. برای افزایش کیفیت تشخیص دادههای نامتعارفمعمولاً میتوان از مدلهای دادههای نرمال بدون ناظر استفاده کرد. از الگوریتم مهم این روش میتوان الگوریتم شبکه عصبی را نام برد4]و.[5
-3 روش بدون ناظر در این روش دادههای معمولی را به چند گروه متمایز تقسیم میکنیم. انتظار میرود دادههای نامتعارف با فاصله از هر یک از گروههای دادههای معمولی قرار گیرند. اما ضعفی که موجود است دادههای نامتعارف دستهجمعی است که همانطور که پیش از این ذکر شد ممکن است با فاصله از دادههای معمولی قرار نگرفته باشند. دادههای معمولیمعمولاً از الگوی خاصی تبعیت نمیکنند اما بالعکس دادههای نامتعارف دستهجمعی دارای شباهت زیادی در یک محدوده کوچک هستند. بسیاری از روشهای خوشهبندی با روشهای بدون ناظر قابل وفق شدن هستند. در این روشها ابتدا خوشهبندی انجامشده و سپس دادههایی که به هیچ خوشهای تعلق ندارند بهعنوان دادههای نامتعارف معرفی میگردند. این روشهامعمولاً با دو مشکل دستوپنجه نرم میکنند. مشکل اول تشخیص دادههای نامتعارف از دادههای نویزی است و مشکل دوم هزینهی زیاد تشخیص دادههای نامتعارف از زمان اولین خوشهبندی است6]،7،.[8
بزرگ ترین مشکل داده کاوان در سال های اخیر بحث پاکسازی دادهها بوده و دادههای نامتعارف همواره مشکل آفرین بوده اند. تشخیص داده های نامتعارف ساده تر از داده های نویزیبوده و معمولاً با درصد اطمینان بیشتری تشخیص داده میشوند. ایده های بسیاری درزمینههای دادههای نامتعارف مورداستفاده قرارگرفته اند و روش های تشخیص داده های نامتعارف را بیاغراق میتوان بیش از 100 روش نامید. اما با این همه باز هم نمیتوان ادعا کرد تمام این داده ها تشخیص و اصلاح شده اند. آنچه مسلم است با افزایش اطلاعات و بزرگ شدن مجموعه های داده نیازمند روش های دقیق تری برای تشخیص داده های نامتعارف هستیم، که در این مقاله به معرفی روش کار که با استفاده از ترکیب دو روش برای یافتن دادههای نامتعارف بهصورت نیمه نظارتی و یافتن تشابه بین دادههای برچسب دار موجود و دادههای بدون برچسب خواهیم پرداخت.
-2 پیشینه تحقیق
در این بخش به بررسی برخی از کارهای انجامشده در این حوزه پرداختهایم که بهصورت خلاصه در ادامه توضیح دادهشدهاند. در [9] با استفاده از روش مبتنی بر فاصله نمرات نامتعارف که بیشترین تضاد را در تنظیمات فراهم می کنند را تشخیص می دهد علاوه بر این به ما نشان می دهد که ابعاد بالا می توانند تأثیرات مختلف با تشخیص بازنگری مفهوم نزدیک ترین همسایگان معکوس درزمینه نظارت نشده داشته باشند. نویسندگان بینش چگونگی ظاهر شدن متناوب برخی از نقاط antihubs در لیست knn را نسبت به دیگر نقاط را ارائه و ارتباط بین antihubs و داده های نامتعارف را با استفاده از روش تشخیص بدون نظارت را توضیح میدهند. آنها روش Knn کلاسیک، روش مبتنی بر زاویه - - ABOD برای داده با ابعاد بالا، روش چگالی مبتنی بر برگ خرید داده نامتعارف - - LOF و تحت تأثیر داده نامتعارف - - INFLO و روش های مبتنی بر antihub در مجموعه داده دنیای واقعی و دادههای مصنوعی مورد ارزیابی قرار گرفتند و یک روش جدید برای شمارش نزدیکترین همسایگان معکوس را ارائه دادند. منبع [10] به موضوع داده نامتعارف سری زمانی برای پیش بینی مصرف گاز طبیعی در شرکتهای توزیع محلی توسط GasDay پرداخته است. GasDay از روش های آماری با توزیع معمولی نمونه ها مانند قاعده های
5- برای کمک به کارشناسان برای تشخیص نقاط نامتعارف در دادهها استفاده میکند. با این حال، آزمون آماری های Jarque-Bera باقی مانده مدل GasDay که به طورمعمول توزیع شده اند را نشان داده است. نویسندگان مقاله به توضیح تراکم مبتنی بر خوشه بندی فضایی نویز - - DBSCAN و چگونگی استفاده از آن ها برای شناسایی نقاط نامتعارف سری زمانی پرداخته و همچنین یک برنامه جدید برای الگوریتم DBSCAN که با تطبیق آن برای شناسایی نقاط نامتعارف در جریان گاز طبیعی GazDay معرفی کردهاند. عملکرد DBSCAN با روش های موجود GasDay مقایسه شده اند که نتایج نشان داده استفاده از این الگوریتم باعث بهبودی تشخیص نقاط نامتعارف بیشازحد در GasDay شده است.
در منبع [11] برای تشخیص نقاط نامتعارف با پیدا کردن خوشه های کوچک تولیدشده توسط الگوریتم خوشه بندی استفاده کرده است، در بیشتر الگوریتم ها نیاز است کاربر تعداد خوشه ها - - K را بداند زیرا در غیر این صورت پیچیدگی محاسباتی زیادی به وجود می آید ولی در این روش نیازی به مشخص کردن K نیست در عوض یک پارامتر آستانه تعریف می شود - - t که بر تعداد نتایج خوشه ها تأثیر می گذارد. نویسندگان با استفاده از QB با یک فاصله بالا آستانه شروع به کار می کند و بهصورت بازگشتی اعمال QB را در هریک از زیر خوشهها با آستانه کاهش می دهند. این روند تا زمانی که جریان خطی به خود خوشه اختصاص یابد ادامه می یابد، با مشاهده مسیر خوشه جریان خطی در درخت می تواند شکلی را که از دیگران متفاوت است را شناسایی کند. با هرس کردن بین 30% تا 40% تضمین جریان اتصال دادههای نامتعارف مصنوعی را توسط سیستم پیشنهادی را تضمین میکند.
خوشه kحالت تابه حال توجه زیادی برای دادههای قطعی دریافت کرده است، بخصوص برای انتخاب مراکز اولیه خوشه بسیار حساس است، بنابراین انتخاب مراکز خوشه اولیه مناسب یک گام مهم برای kحالت است. در مقاله [12] مقداردهی اولیه kحالت خوشه ازنظر تشخیص دادههای نامتعارف در نظر گرفتهشده است. در این مقاله از
دو الگوریتم مبتنی بر فاصله و مبتنی بر آنتروپی برای تشخیص داده های نامتعارف برای kحالت استفاده شده