بخشی از مقاله
چکیده :
مهمترین کاربرد داده کاوی در تلاشهایی است که برای استنتاج قواعد وابستگی از دادههای تراکنشی صورت میگیرد. در تحقیقات پیشین، از مفاهیم منطق فازی و الگوریتمهای ژنتیکی GA - ها - برای کشف قواعد وابستگی فازی سودمند و توابع عضویت مناسب از مقادیر کمی استفاده شده است ، زیرا این الگوریتمها تکنیکهای جستجوی قدرتمندی در حل مسائل مختلف هستند و میتوانند راه حلهای امکان پذیر را در زمان محدودی ایجاد کنند اما در این روش ها، ارزیابی برازش بر اساس مناسب بودن توابع عضویت به دست آمده و تعداد مجموعه آیتمهای بزرگ تعیین میشود. با وجود این، ارزیابی مقادیر برازش نسبتاً زمان بر است. در این تحقیق از توسعه روش تجزیه داده کاوی فازی در الگوریتم ژاکوبی بلوکی موازی SVD استفاده شده که مشکل زمان بر بودن را تا حد زیادی حل می کند.
کلید واژهها : داده کاوی- ژاکوبی- الگوریتم SVD
.1 مقدمه
داده کاوی، پایگاهها و مجموعههای حجیم دادهها را در پی کشف واستخراج دانش، مورد تحلیل و کند و کاوهای ماشینی - و نیمهماشینی - قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید. در سال 1960 آماردانان اصطلاح "Data Fishing" یا "Data Dredging"به معنای " صید داده" را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از داده ها بدون در نظر گرفتن هیچگونه پیش فرضی بکار بردند. بعد از سی سال و با انباشته شدن داده ها در پایگاه های داده یا Database اصطلاح "Data Mining" یا داده کاوی در حدود سال 1990 رواج بیشتری یافت. اصطلاح Data Mining همان طور که از ترجمه آن به معنی داده کاوی مشخص میشود به مفهوم استخراج اطلاعات نهان و یا الگوها وروابط مشخص در حجم زیادی از دادهها در یک یا چند بانک اطلاعاتی بزرگ است.
با پیشرفت روزافزون فن آوری اطلاعات - IT - ، قابلیت ذخیره سازی و مدیریت دادهها در پایگاههای داده اهمیت بیشتری پیدا میکند. به رغم اینکه گسترش IT پردازش دادهها را تسهیل و تقاضا برای رسانههای ذخیره سازی را برآورده میسازد، استخراج اطلاعات تلویحی قابل دسترسی به منظور کمک به تصمیم گیری مسئلهای جدید و چالش برانگیز است. از این رو، تلاشهای زیادی معوف به طراحی مکانیسمهای کارآمد برای کاوش اطلاعات و دانش از پایگاه دادههای بزرگ شده است. در نتیجه، داده کاوی، که نخستین بار توسط آگراول، ایمیلنسکی و سوامی - 1993 - ارائه شد، به زمینهی مطالعاتی مهمی در مباحث پایگاه دادهای و هوش مصنوعی مبدل شده است.
در تحقیقات پیشین، روش دادهکاوی فازی مبتنی بر الگوریتمهای ژنتیک را برای استخراج قواعد وابستگی از تراکنشهای کمی ارائه شده است. در این روش، ارزیابی برازش بر اساس مناسب بودن توابع عضویت به دست آمده و تعداد مجموعه آیتمهای بزرگ تعیین میشود. با وجود این، ارزیابی در این الگوریتم ها و ارزیابی هامشکل اساسی زمان بر بودن ارزیابی مقادیر است که باید به کاهش آن پرداخت.در روش پیشنهادی سعی شده نسبت به روش های پیشین زمان را کاهش داده و سرعت کار را افزایش دهد.
.2 کارهای مرتبط
اخیرا، نظریه مجموعه فازی در سیستمهای هوشمند بهدلیل سادگی و شباهت زیاد به استدلال انسان - کندل، - 1992 بیشتر مورد استفاده قرار گرفته است. بیشتر الگوریتمهای یادگیری فازی برای قوانین استخراج شده از دادهها طراحی شده است و تاثیر خوبی روی حوزههای خاص دارد، مورد استفاده قرار می-گیرد - هانگ و همکاران، . - 2014 چندین الگوریتم دادهکاوی فازی برای مدیریت دادهها پیشنهاد شده است - کایا و الحاجی، 2003؛ لوان و همکاران، 2012؛ پادی و همکاران، 2009؛ محمدلو و همکاران، 2009؛ اویانگ و هوآنگ، 2009؛ وانگ و همکاران، - 2012 که در آن فرض میشود توابع عضویت شناخته شده هستند.
هر چند توابع عضویت تاثیر مهمی روی نتایج داده-کاوی نهایی داشته باشد. همچنین اخیرا، الگوریتم ژنتیک در زمینه دادهکاوی در حل معادلات پیچیده از تکنولوژی جستجو قویتر میباشد و میتواند راهحلهایی برای یک محدودهای از زمان ارائه دهد. در نتیجه، هونگ و همکارانش - 2006 - ، روش دادهکاوی ژنتیکی براساس فازی برای قواعد وابستگی و توابع عضویت از تراکنشهای کمی پیشنهاد دادند. چندین روش موازی با افزایش سرعت برای فرآیند دادهکاوی پیشنهاد شده است - چن و همکاران، 2012؛ جوشی و همکاران، 2000؛ ولسو و همکاران، . - 2003 علاوه بر این، مدلهای موازی با الگوریتمهای ژنتیک پیشنهاد شده است. آنها برای حل زمانبندی جدول زمانی و کشف قوانین طبقهبندیها اعمال میشود. در بین معماریهای موازی، معماری ارباب- برده معماریای با پیاده-سازی بسیار ساده میباشد. همچنین، این معماری بهبودهای چشمگیری در عملکرد ایجاد میکند - چای و همکاران، - 1998
، پردازنده master وظایف را به پردازنده slave تخصیص میدهد و نتایج را از آنها گردآوری میکند. همچنین، این معماری می-تواند در صورت ضرورت عملکردهای خود را انجام دهد. ارزیابی برازش در دادهکاوری فازی- ژنتیکی معمولا بسیار زمانبر می باشد. در مقاله - هانگ و همکاران، - 2014، با استفاده از معماری موازی ارباب- برده برای تطبیقدهی توابع عضویت با دادهکاوی فازی گسترش داده است. هانگ و همکاران الگوریتم دادهکاوی فازی را برای کاوش قواعد فازی از دادههای کمی ارائه کردند - هانگ و همکاران، . - 2003 آنها هر آیتم کمی را به مجموعهای فازی تبدیل کردند و از عملیات فازی برای یافتن قواعد فازی استفاده نمودند. چی و همکاران، دادهکاوی وزندار را برای انعکاس اهمیت متفاوت آیتم-های مختلف ارائه دادند - چی و همکاران، . - 2008 هر آیتم با وزن عددی ارائه شده از سوی کاربر مرتبط شد. در این پایان نامه، با استفاده از معماری موازی ارباب- برده برای تطبیقدهی توابع عضویت با دادهکاوی فازی و الگوریتم ژاکوبی بلوکی موازی SVD انجام خواهد شد.
.3 اهمیت و ضرورت تحقیق
استفاده همگانی از وب و اینترنت بهعنوان یک سیستم اطلاع-رسانی جهانی مردم را مواجه با حجم زیادی از داده و اطلاعات میکند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژیهای جدید و ابزارهای خودکاری را ایجاد کرده که بهصورت هوشمند به انسان یاری رسانند تا این حجم زیاده داده را به اطلاعات و دانش تبدیل کند. دادهکاوی بهعنوان یک راهحل برای این مسائل مطرح میباشد. در یک تعریف غیررسمی داده-کاوی فرآیندی است که خودکار برای استخراج الگوهایی که دانش را بازنمایی میکنند، این دانش بهصورت ضمنی در پایگاه دادهها، انبار داده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است. دادهکاوی بهطور همزمان از چندین رشته علمی بهره می-برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکههای عصبی، آمار، شناسایی الگو، سیستمهای مبتنی بر دانش، حصول دانش، محاسبات سرعت بالا و بازنمایی بصری داده - خسروی، . - 1392 در کل، دادهکاوی، فرآیند مرتب-سازی و طبقهبندی دادهها و آشکارسازی اطلاعات مرتبط باهم میباشد - خسروی، . - 1392
امروزه بهدلیل وجود ابزارهای مختلف برای جمعآوری دادهها و پیشرفت قابل قبول تکنولوژی پایگاه داده، حجم انبوهی از اطلاعات در انبار دادههای مختلف ذخیره شده است. این رشد که توانایی پردازش هوشمندانه اطلاعات را دارا میباشند، نمایان میسازد - خسروی، . - 1392 مهمترین کاربرد دادهکاوی در تلاشهایی میباشد که برای استنتاج قواعد وابستگی از دادههای تراکنشی صورت میگیرد. در گذشته، از مفاهیم منطق فازی و الگوریتم ژنتیکی برای کشف قواعد وابستگی فازی سودمند و توابع عضویت مناسب از مقادیر کمی استفاده میشد. با وجود این، ارزیابی مقادیر برازش نسبتا زمانبر میبود. بهدلیل افزایشهای شگرف در قدرت محاسباتی قابل دسترسی و کاهش همزمان در هزینههای محاسباتی در طول یک دههی گذشته، یادگیری یا دادهکاوی با به کارگیری تکنیکهای پردازشی موازی بهعنوان روشی امکانپذیر برای غلبه بر مسئلهی یادگیری کند شناخته شده است. با پیشرفت روزافزون فنآوری اطلاعات، قابلیت ذخیرهسازی و مدیریت داده-ها در پایگاههای داده اهمیت بیشتری پیدا میکند. به رغم اینکه گسترش فنآوری اطلاعات پردازش دادهها را تسهیل و تقاضا برای رسانههای ذخیرهسازی را برآورده میسازد، استخراج اطلاعات تلویحی قابل دسترسی به منظور کمک به تصمیمگیری مسئلهای جدید و چالش برانگیز میباشد. از این رو، تلاشهای زیادی معوف به طراحی مکانسیمهای کارآمد برای کاوش اطلاعات و دانش از پایگاه دادههای بزرگ شده است - هانگ و همکاران، . - 2014
.4 شرح کامل روش پیشنهادی
از الگوریتم ژاکوبی بلوکی برای جستجوی توابع عضویت مناسب برای مسائل کاوشی استفاده شد و سپس بهترین مجموعه نهایی توابع عضویت برای کاوش قواعد وابستگی استفاده میشود. روش پیشنهادی جمعیتی از مجموعه توابع عضویت را حفظ میکند و از الگوریتم ژاکوبی بلوکی برای بهدست آوردن جمعیت حاصل به صورت خودکار استفاده میشود. در تحقیقات پیشین، روش دادهکاوی فازی مبتنی بر الگوریتمهای ژنتیک را برای استخراج قواعد وابستگی از تراکنشهای کمی ارائه شده است. در این روش، ارزیابی برازش بر اساس مناسب بودن توابع عضویت به دست آمده و تعداد مجموعه آیتمهای بزرگ تعیین میشود. با وجود این، ارزیابی مقادیر برازش نسبتاً زمان بر است. در این الگوریتم ها و ارزیابی ها مشکل اساسی زمان بر بودن ارزیابی مقادیر است که باید به کاهش آن پرداخت. روش پیشنهادی سعی کرده است نسبت به روش های پیشین زمان را کاهش داده و سرعت کار را افزایش دهد.
.1 .4 فرضیات روش پیشنهادی
آیا الگوریتم دادهکاوی ژاکوبی بلوکی موازی SVD پیشنهادی میتواند تخصیصدهی مناسب ایجاد کند؟آیا الگوریتم پیشنهادی در راستای بهبود تخصیصدهی میباشد؟روش تجزیه دادهکاوی فازی کارآیی تخصیصدهی را تا چه اندازه بالا میبرد؟ انتظار میرود با تخصیصدهی مناسب وظایف بین انواع گوناگون پردازندهها، کارایی الگوریتم دادهکاوی ژاکوبی بلوکی موازی SVD پیشنهاد شده تا حد زیادی افزایش یابد.
.2 .4 نوآوریها و نقاط قوت روش پیشنهادی
* کاهش زمان نسبت به روش ها و ایده های پیشین.
* افزایش سرعت نسبت به تحقیقات و بررسی های پیشین.
* عدم کاهش سرعت حتی هنگامی که تعداد نسلها زیاد است.
.3 .4 نحوه ارتباط متغیرها :
الگوریتم ژاکوبی یکی از اولین الگوریتمها جهت اجرایی کردن SVD است. الگوریتم ژاکوبی یک ماتریس مستطیلی را به یک ماتریس قطری با استفاده از دنبالهای از ضرب ماتریسهای چرخشی تبدیل میکند. این روش میتواند مقادیر منفرد را با دقت بالا پیدا کند.