بخشی از مقاله

چکیده

امروزه با وجود انباره های حجیم از داده ها، کشف الگوها می تواند به تعیین استراتژی های مناسب و سریع منجر شود. دادهکاوی فرآیندی است که از ابزارهای تحلیل داده برای کشف الگوها و ارتباط بین دادهها استفاده میکند. اکثر الگوهایی که روشهای داده کاوی کشف می کنند نیاز به تحلیل داشته و می بایست میزانی کار بر روی آن انجام شود تا به دانش عملی و کاربردی منجر شود.

در جهت گسترش دادهکاوی به کاربردهای دنیای واقعی، روش های کشف دانش قابل کاربرد بوجود آمدهاند. کنش کاوی از معدود روش هایی است که دانش عملی و کاربردی را ارائه می دهد. کنش نوعی از دانش است که با هدف رسیدن به سود در زمینه های مورد نظر، برخی تغییرات را پیشنهاد می دهد. روشهایی که تا کنون برای استخراج کنش ارائه شده اند تنها متغیرهای گسسته را در نظر میگیرند. این روشها برای ویژگی هایی که بصورت پیوسته هستند ابتدا آنها را به ویژگی های گسسته تبدیل می کنند و سپس بر روی آنها کاوش انجام می دهند.

در این مقاله ابتدا مفهوم جدیدی از کنش بنام "کنش فازی" را مطرح می کنیم. این نوع از کنش تغییرات فازی را برای ویژگی های پیوسته پیشنهاد می دهد. با توجه به اینکه فضای جستجوی کنشهای فازی بسیار بزرگ می باشد ما روشی مبتنی بر الگوریتم ژنتیک برای استخراج کنش های فازی بهینه ارائه کرده ایم.نتایج آزمون روش ارائه شده بر روی مجموعه داده های مختلف نشان می دهد که روش پیشنهادی در یافتن کنشهایی که حداقل تغییرات در خصیصه ها را با هدف حداکثر کردن سود پیشنهاد دهند موفق عمل می کند.

-1 مقدمه

امروزه افزایش استفاده از کامپیوترها منجر به رشد سریع پایگاههای اطلاعاتی و تجمع دادهها در بیشتر سازمانها شده است. روزانه به حجم دادهها در پایگاه دادهها افزوده میشود که باعث شده انبارههای داده عظیمی تولید گردد. در سالهای اخیر تمایل به جستجو برای کشف الگوهای تکرارپذیر از درون این داده ها به منظور بهبود در تصمیم گیری افزایش چشمگیری داشته است.[19]

با توجه به حجم عظیم دادهها نمی توان از عامل انسانی برای تشخیص الگوها و تحلیل دادهها استفاده کرد، از طرفی توانایی پاسخ سریع و موثر به نیازهای مشتریان، نیازمند اتخاذ تصمیمات سریع مدیریتی است که بدون بررسی و تحلیل دقیق دادهها و اطلاعات رخ نخواهد داد. بنابراین ضرورت کشف دانش و استخراج سریعتر دانش از پایگاه دادهها نمایان می گردد. داده-کاوی فرآیندی است که از ابزارهای تحلیل داده برای کشف الگوها و ارتباط بین دادهها استفاده میکند. تکنیکهای دادهکاوی تنها برکشف و استخراج الگوها تمرکز میکنند و به کاربردی و عملی بودن این الگوها در تصمیمگیریهای تجاری توجه نمیکنند.

به عنوان مثال سیستم پیش بینی ترک یک شرکت توسط مشتری را در نظر بگیرید. سیستم های متداول داده کاوی، پیش بینی می کند که در آینده نزدیک کدام یک از مشتریان به خرید خود از شرکت خاتمه می دهند اما شرکت ها نیاز دارند بدانند که چگونه می توانند مانع از انجام این کار توسط مشتری شده و از متضرر شدن شرکت جلوگیری کنند. درواقع شرکت ها به یک راهکار عملی و سریع نیاز دارند تا با تصمیم گیری مناسب به سود بالا برسند؛ لذا نیاز به روش های کشف دانش کاربردی احساس می شود.

کنش کاوی1 از راهکارهای عملی ارائه شده می باشد که مورد توجه قرار گرفته و برای کاربر مشخص می سازد که دقیقا چه عملی را انجام دهد تا به سود بالا برسد. کنش نوعی از دانش است که با هدف رسیدن به سود در زمینه های مورد نظر برخی تغییرات را در وضعیت یک نمونه پیشنهاد می دهد.[29] روش هایی که برای کاوش کنش از درون داده ها ارائه شده است، به دو دسته "موردی"2 و "استقرایی"3 تقسیم می شوند.

در روش های "استقرایی" مانند کارهای انجام شده توسط راس و همکارانش، قوانین کنشی به دست آمده قوانین عمومی هستند که می توان آن ها را به گروهی از اشیاء با برخی ویژگی های مشترک، اعمال کرد. روش راس [25] که تحت نام سیستم DEAR معرفی شده است، ابتدا قوانین رده بندی4 متداول در داده کاوی را از درون داده ها استخراج کرده و سپس با ترکیب دو به دوی قوانین رده بندی سازگار، قوانین کنشی - قوانینی که تغییرات در ویژگی ها را پیشنهاد می دهند - را ایجاد می کند.

تی سی و همکارانش [31] به بهبود الگوریتم DEAR پرداختند به این صورت که ابتدا جدول قانون را بر اساس تعداد مقادیر موجود ویژگی تصمیم گروه بندی کرده و سپس زیر درخت هر گروه را بصورت جداگانه بر اساس ویژگی های پایدار ایجاد کرده و در آخر برگ های هر گروه با هم مقایسه می شوند تا قوانین کنشی استخراج شوند. این الگوریتم را DEAR 2 نامیدند.

تی سی و همکارانش [32] الگوریتم DEAR 3 را برای پایگاه داده های ناکامل ارائه دادند. در این روش در مرحله اولیه ویژگی ها با مقادیر نامشخص هرس می شوند. مزیت این روش نسبت به سایر روش های DEAR این است که می تواند میزان خطای داده های نا مشخص، نا معتبر و پَرت راکاهش دهد تا به قوانین کنش معتبر تری دست یابیم.

یکی دیگر از روش هایی که توسط راس برای استخراج قوانین کنشی ارائه شد الگوریتم 5 ARD نام دارد.[27] در این روش بدون نیاز به ترکیب قوانین رده بندی و تنها با در نظر گرفتن هر یک از قوانین رده بندی به طور مجزا و محاسبه ضریب استقلال آن ها و میزان اعتبار هر یک از این قوانین برای تولید قوانین کنش، موفق به استخراج قوانین کنشی شده اند. مزیت کاربرد این روش، کاهش زمان محاسبات در پایگاه داده های حجیم می باشد.

اما در روش های موردی برای هر شئ مشخص یک کنش یا مجموعه ای از کنش ها ارائه می گردد که بیشترین سود را به همراه خواهند داشت. در واقع هر کنش تغییر در مقدار یکی از ویژگی های آن نمونه است و مجموعه کنش6 نشاندهنده مجموعه ای از چندین کنش می باشد که هر کدام تغییر در ویژگی های یک نمونه را پیشنهاد می دهند. نمونه ای از این گونه روش ها در داده کاوی متداول، روش های نمونه مبنا می باشد که یانگ و همکارانش در [34] این تکنیک را برای پیشنهاد کنش هایی به مشتریان به کار می برند. مثلا پایگاه داده معروف مشتری- وام را در نظر بگیرید.

در این پایگاه داده برخی از مشتریان شرایط گرفتن وام را ندارند. با استفاده از روش های نمونه مبنا می توان به این دسته از مشتریان پیشنهاد داد که با تغییر یکی از شرایط خود، مثلا بالا بردن حقوق دریافتی خود و یا بالا بردن مبلغ وثیقه ملکی که در رهن بانک است، بتوانند شرایط دریافت وام را فراهم کنند. دراین مقاله، از الگوریتم نزدیکترین همسایگی7 برای تعیین مقرون به صرفه ترین و امکان پذیر ترین حالت برای تغییر، استفاده شده است. درواقع هر مشتری خودش را با نزدیکترین همسایه خود وفق می دهد. همچنین یک مصالحه8 بین زمان انجام محاسبات، حافظه مصرفی و میزان محاسباتی که باید انجام گیرد، ایجاد می گردد.

سپس در [35] یانگ و همکارانش از درخت تصمیم گیری سنتی برای استخراج کنش های مقرون به صرفه استفاده می کند. بطور خلاصه، ابتدا یک درخت تصمیم گیری از داده را فرا می خواند، سپس برای هر نمونه جدید یک گره برگ را جستجو و سود خالص حاصل از حرکت نمونه جدید به سایر برگ ها را محاسبه می کند. در نهایت از میان برگ ها آن برگی که سود خالص بیشتری داشته باشد به عنوان گره مقصد انتخاب می شود و تغییرات لازم برای انتقال نمونه از گره جاری به گره مقصد، انجام خواهد شد. با زیاد بودن تغییراتی که در مقدار ویژگی ها پیشنهاد می شود بالا بودن هزینه را در پی خواهد داشت و ممکن است در نهایت به حداکثر سود خالص منجر نشود. بنابراین از این تغییر مقدار - کنش - صرفنظر می شود.

به منظور استخراج قوانین کنشی شمسی نژاد و همکارانش در [29] یک روش جدید کاوش کنش با استفاده از شبکه های علّی را ارائه دادند. این روش با در نظر گرفتن روابط علّی بین خصیصه ها می تواند به کنش هایی کاربردی در دنیای واقع دست پیدا کند. الگوریتم های درخت تصمیم سنتی - استفاده شده در روش یانگ - نیاز به داده هایی با مقادیر گسسته دارند و برای دادههایی با مقادیر پیوسته می بایست به دادههای گسسته تبدیل شوند و سپس در این الگوریتم مورد استفاده قرار گیرند.

تکنیک تبدیل دامنه پیوسته به گسسته اگرچه در داده کاوی متداول می باشد اما با واقعیت دنیای واقعی سازگاری کمی دارد از اینرو بسیار دشوار است که بتوان مرز دقیقی برای مقادیر ویژگی های پیوسته تعریف کرد. به عنوان مثال مرز بین میانسال و پیر را چگونه می توان مشخص کرد. اگر مرز بین میانسال و پیر60 سال باشد، شخصی با 59 سال سن میانسال و شخصی60 ساله پیر شناخته می شود که این دسته بندی با واقعیت دنیا سازگتر نیست. استفاده از قابلیتهای منطق فازی در درخت تصمیم سنتی باعث می شود تا بتوان با داده های پیوسته کار کرد. به همین دلیل درخت تصمیم فازی از دقت بالاتری نسبت به درخت تصمیم سنتی برخوردار می باشد.

روشهای کنش کاوی موجود ویژگی هایی که بصورت پیوسته هستند را به ویژگی های گسسته تبدیل می کنند و سپس بر روی آنها کاوش انجام می دهند. در این تحقیق ما با استفاده از منطق فازی مفهوم جدیدی از کنش بنام کنش فازی را مطرح کنیم. این نوع از کنش تغییرات فازی را برای ویژگی های پیوسته پیشنهاد خواهد داد و از این طریق انتظار می رود که قوانین کنشی حاصل برای استفاده در دنیای واقعی قابلیت بیشتری داشته باشند.

سپس یک روش برای استخراج قوانین کنشی با حداکثر سود خالص پیشنهاد می دهیم. . قوانین کنشی استخراج شده تغییر در مقدار چند ویژگی را با حداکثر سود خالص پیشنهاد می دهند.بطور کلی بخش های مقاله بصورت زیر می باشند. در بخش 2 و 3 و 4 به ترتیب با تئوری فازی و درخت تصمیم فازی و مفهوم کنش آشنا خواهیم شد. در بخش 5 مفهوم کنش فازی را مطرح می کنیم و بطور کامل در مورد این مفهوم توضیح می دهیم. در بخش 6 چگونگی استخراج قوانین فازی را بررسی می کنیم. سپس در ادامه نتایج را مشاهده و تحلیل می کنیم.

-2 تئوری فازی

مجموعه و عنصر دو مفهوم اولیه تئوری مجموعه می باشد. در تئوری مجموعه کلاسیک9، عنصرx می تواند یکی از اعضای مجموعه S، باشد یا نباشد. در نتیجه، می توانیم عضویت عنصر x در مجموعه کلاسیک S بعنوان S را بدین صورت مشخص کنیم. [ {0,1} اما بسیاری از مجموعه های دنیای واقعی ذاتا فازی هستند. تئوری مجموعه فازی یک ساختار ریاضی است که به یک عنصر اجازه می دهد دارای عضویت در بیش از یک مجموعه باشد.

درجه عضویت نمونه x در مجموعه فازی S بعنوان S بهصورت [ {0,1} مشخص می شود که 1 .[12] 0 . S سه مجموعه فازی - جوان، میانسال، پیر - که به متغیر - سن - اختصاص داده می شود را در نظر بگیرید. حال اگر در مجموعه کلاسیک سن60 سال را مرز بین افراد میانسال و افراد پیر قرار دهیم، بدین معنی است که فردی با 59 سال سن به عنوان فرد میانسال و فردی با 60 سال سن پیر در نظر گرفته خواهد شد. اما تئوری فازی مرزهای باریکی بین مقادیر را در نظر می گیرد، به این صورت که یک نمونه ممکن است با درجه های مختلفی طبقه بندی شود. مثلا شخص 55 ساله هم به مجموعه میانسال و هم به مجموعه پیر با درجه های عضویت متفاوت تعلق می گیرد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید