بخشی از مقاله
چکیده
با استفاده از روش شناسایی دادههای نامتعارف چند بعدی از مجموعهای با توزیع نرمال در حالت قطعی به ارایهی روشی به کمک آزمون فرض آماری، جهت شناسایی دادههای نامتعارف فازی میپردازیم. از آنجا که کاربرد روش ارایه شده در مجموعهای از دادههای قطعی صرفا برای مجموعههایی با توزیع نرمال میباشد، لذا بسط این روش جهت مجموعههای فازی نیز برای مجموعههای فازی با توزیع نرمال کاربرد خواهد داشت.
جهت این شناسایی ابتدا یک شیوهی فازیزدایی پیشنهاد شده است و بر مبنای آن و با استفاده از آزمون آماری، روش شناسایی معرفی شده و الگوریتم اجرای آن نیز ارایه شده است. پس از ارایهی الگوریتم اجرایی روش برای دادههای فازی مثلثی متقارن به آزمون عددی آن پرداخته شده است. دادههای فازی که برای پیادهسازی الگوریتم شناسایی دادههای نامتعارف انتخاب شده است، دادههای مثلثی متقارن است که توسط نرمافزار به تصادف ساخته شدهاند. نتایج مبین موفقیت بسیار مناسب این روش پیشنهادی در شناسایی دادههای نامتعارف فازی مثلثی متقارن است.
-1 مقدمه
دانش دادهکاوی یکی از ده علم برتر قرن اخیر است. این علم یک رشتهی چند منظوره است که در حیطههای تکنولوژی پایگاه داده، آمار، یادگیری ماشین، شناسایی الگو، بازیابی اطلاعات، شبکههای عصبی، هوش مصنوعی، محاسبات با کارایی بالا و تصویرسازی داده فعالیت میکند و شامل کارهایی از قبیل توصیف، تخمین، پیشگویی، طبقهبندی، خوشهبندی و همبستگی دادهها میشود [4] و .[8] همچنین یکی از رکنهای مهم دادهکاوی، شناسایی و تجزیه و تحلیل دادههای نامتعارف در بین دادههای یک نمونه است.
آنها دادههایی هستند که با رفتار متداول و الگوی دیگر دادهها مطابقت ندارند؛ چنین دادههایی که با بقیهی دادهها تفاوت فاحشی دارند و یا با بقیهی دادهها در تناقضاند را دادههای نامتعارف یا ناسازگار - یا پرت - مینامند .[3] اینها دادههایی هستند که میتوانند در دنیای واقعی مفید یا مضر واقع شوند و لازم است که آنها را حفظ و نگهداری و یا از مجموعهی دادهها حذف و پاکسازی کرد. شناسایی دادههای نامتعارف در زمینههای مختلفی از جمله شناسایی تقلب - مانند تراکنشهای مشکوک مالی - و تجزیه و تحلیلهای پزشکی مسألهای حایز اهمیت و قابل توجه میباشد .[4]
-2 یادآوری برخی مفاهیم
توزیع گوسی: متغیر تصادفی دارای توزیع نرمال - گوسی - است و به آن متغیر تصادفی نرمال گویند اگر و تنها اگر چگالی احتمال آن به صورت رابطهی - 1 - باشد. آزمون اندرسون- دارلینگ [2] و آزمون کلموگروف- اسمیرنف [2] از جمله روشهایی میباشند که جهت تعیین نرمال بودن یک توزیع کاربرد دارند. قابل ذکر است که این آزمونها توسط نرمافزار مینیتب قابل اجرا میباشند.
آزمون فرض آماری: در این آزمون دو فرض صفر و فرض مقابل در نظر گرفته میشوند که این دو فرض با یکدیگر در تناقضاند. در واقع این آزمون عبارت است از به کار گرفتن مجموعه قواعد صریحی که تصمیم بگیریم آیا فرض صفر را بپذیریم یا آن را به نفع فرض مقابل رد کنیم.
-3 روش پیشنهادی فازیزدایی برای دادههای مثلثی متقارن
هدف اصلی در عمل فازیزدایی، برداشتن مفهوم مبهم در مورد موضوع مورد مطالعه است. به عبارتی فازی زدایی روالی است که طی آن یک مجموعهی فازی - یک عدد فازی - به یک مجموعه - مقدار - قطعی تبدیل میشود. تاکنون روشهای متنوعی برای فازیزدایی مجموعهی فازی در مجموعهی جهانی از جمله بیشینهی تابع عضویت، کوچکترین بیشینه کننده، بزرگترین بیشینه کننده، میانگین بیشینه، نیمساز ناحیه، مرکز ثقل - مرکز جرم ناحیه - ، میانگین وزنی، مرکز مجموع و مرکز ثقل بزرگترین ناحیهی محدب ارایه شده است. از مهمترین مراجع در این زمینه [5]، [6] و [7] میباشند. بر اساس هر یک از روشهای فوق، مقدار فازیزدایی شدهی دادهی مثلثی متقارن برابر با خواهد بود.
اما اینگونه شیوهها همیشه مفید نیستند زیرا دادههای مثلثی متفاوت دارای مرکز ثقل یکسان خواهند بود. مثلا اگر و دو دادهی مثلثی متقارن باشند بهطوریکه آن-گاه مقدار فازیزدایی شدهی دادههای فوق به دلیل تساوی مرکز ثقل آنها، یکی خواهد شد. لذا برای جلوگیری از مشکل ذکر شده و تکرار مقادیر یکسان بدست آمده از فازیزدایی برای اعداد متفاوت فازی، تغییراتی را جهت بهبود اعمال میکنیم.
این تغییرات بدین گونه است که در عمل فازیزدایی، علاوه بر مرکز ثقل، مساحت دادهی مثلثی را نیز به شرح زیر دخالت میدهیم: که در آن یک عدد حقیقی در بازهی و مساحت مثلث نمایش میباشند. دلیل انتخاب این معیار به عنوان مقدار فازیزدایی شده برای هر دادهی مثلثی متقارن با مساحت این است که با توجه به پیشینهی ذکر شده در فوق، معیاری قوی و یک نمایندهی مناسب برای دادههای فازی مثلثی متقارن است؛ لذا در رابطهی سعی بر آن شده تاثیر مساحت روی مقدار فازیزدایی شده کمتر باشد؛ لذا از جذر آن استفاده شده است تا مقدار فازیزدایی شده به نزدیکتر شود.