بخشی از مقاله
چکیده
امروزه هوش تجاری و کاوش اطلاعات مفید نقش مهمی در مدیریت و تحلیل کلان داده ها دارد.در حوزه الگوریتم های داده کاوی،یافتن اقلام متناوب و استخراج قوانین انجمنی، نقش مهمی را ایفا می کند.از طرفی متناسب با افزایش حجم داده ها و با توجه به محدودیت منابع محاسباتی ،اعمال الگوریتم های ترتیبی داده کاوی بر روی یک ماشین ،کارایی مطلوب را ندارد و درحجم بالای داده، غیرممکن است. دراین زمینه تلاش های زیادی برای توسعه الگوریتم های موثر درحوزه داده کاوی موازی و توزیع شده انجام شده که تمرکز بیشتر آنها بر مباحثی نظیر ارتباطات در شبکه گرهها ، تعادل بار و سایر وظایف مبحث توزیع داده بوده است.
در سالهای اخیر زمینه جدیدی از مطالعات در خصوص استفاده از چارچوب هدوپ مبتنی بر مدل برنامه نویسی نگاشت/کاهش صورت گرفته است.در این تحقیق ابتدا راهکارهای توزیع شده کلاسیک مربوط به الگوریتم Apriori ، بعنوان یکی از مهم ترین تکنیک ها برای تولید مجموعه اقلام متناوب ، مورد بررسی قرار گرفته و مزایا و معایب هر روش بیان می شود. سپس الگوریتم Apriori در چارچوب هدوپ و درحالت کاملا توزیع شده پیاده سازی میشود. مطالعه موردی برروی یک بانک اطلاعاتی کاربردی مرکز آمار ایران انجام شده و زمان اجرای الگوریتم در حالتهای مختلف پیکربندی هدوپ مورد ارزیابی قرار می گیرد.راهکار موردنظر با استفاده از ابزار کلودرا اکسپرس مورد آزمایش قرار گرفته است.نتایج نشان می دهد که سرعت اجرای الگوریتم درحالت بهره گیری از بستر هدوپ درحالت کاملا توزیع شده افزایش قابل توجهی دارد..
مقدمه
پیشرفت فناوری اطلاعات و وجود سیستمهای یکپارچه اطلاعاتی منجر به ایجاد انبارهای عظیمی از دادهها شده است. استخراج دانش از این اطلاعات با استفاده از علم دادهکاوی معمولا نیاز به منابع زیادی از نظر فضای ذخیره سازی و همچنین زمان انجام محاسبات دارد. با پیشرفت تکنولوژیهای دسترسی به اطلاعات، ضرورت افزایش کارایی در تکنیکهای دادهکاوی بر روی داده های با حجم زیاد، نیز رو به افزایش است. در زمینهکاوش قوانین انجمنی مبتنی بر دادهکاوی توزیع شده، چندین الگوریتم Apriori با رویکرد توزیع شده پیادهسازی شده است.
- اگراوال،شافر، - 1996، - چونگ،هان ودیگران، - 1996، - اگراوال،شافر، - 2003، - اشرفی،تانیار و دیگران ، - 2004، - تسوماکاس، ولاهاواس ،. - 2009 این الگوریتمها دارای کارایی مطلوب در مقایسه با الگوریتمهای رویکرد ترتیبی هستند و هر یک بر روی بخشی از پارامترهای موثر در حوزه دادهکاوی توزیع شده عمل می کنند.از طرفی در سیستمهای با رویکرد توزیع شده، با چالشهایی نظیر توزیع داده، کمینه کردن حجم تراکنش های ورودی/خروجی، برقراری تعادل بار بین ایستگاه های کاری، کمینه کردن ارتباطات، افزایش امکان محلیسازی مواجه هستیم. کارهای انجام شده قبلی ، در راستای دستیابی به یک حالت بهینه در برقراری فاکتورهای مطرح شده فوق با هم رقابت می کنند.
در بین تحقیقات جدید - جونووک، - 2012، - یحیی ، هگازی و دیگران، - 2012، - زاوو، آر دو ، - 2012، - اوراگانتی، کیو دینگ و دیگران، - 2013، - فرزانیار،سرسونی و دیگران ، - 2013 صورت گرفته ،چارچوب هدوپ بمنظور پردازش مجموعه دادههای بزرگ در یک راهکار توزیع شده ارائه شده است. این مدل مشکلاتی نظیر میزان تحمل خطا ، توزیع داده و تعادل بار را از دید کاربر پنهان میکند. این رفتار، موجب ایجاد تمرکز کاربر بر روی مساله اصلی و فارغ شدن از جزئیات و ملاحظات مربوط به رویکرد توزیع شده میشود. در این چارچوب که از مدل برنامه نویسی نگاشت /کاهش استفاده میکند، داده ورودی بر روی گرهها توزیع میشود. لذا با توجه به سیستم فایل توزیع شده هدوپ و مدل پردازشی آن، این چارچوب بعنوان یک راهکارموثر برای پردازش با رویکرد مقیاس پذیری بالا مورد توجه است.
در این مقاله ابتدا الگوریتم Apriori مبتنی بر راهکارهای توزیع شده کلاسیک مورد بررسی قرار می گیرد و مزایا و معایب هر روش تشریح میشود. سپس الگوریتم مذکور بر روی چارچوب هدوپ و مبتنی بر مدل برنامه نویسی نگاشت/کاهش پیاده سازی می شود.لازم به ذکر است که الگوریتم در بستر هدوپ و بصورت کاملا توزیع شده اجرا می شود و برای این منظوراز ابزارکلودرا اکسپرس - - Cloudera Express استفاده می شود.بمنظور ارزیابی زمان اجرا ، الگوریتم در سه نوع پیکربندی هدوپ و مجموعه داده های متفاوت مورد بررسی قرار می گیرد.در ادامه و در بخش دوم مفاهیم و مبانی نظری پژوهش ، در بخش سوم پیشینه تحقیق ارائه شده است.در بخش چهارم روش تحقیق بیان می شود.در بخش پنجم تجزیه و تحلیل داده ها و در بخش ششم نتایج و ارزیابی عنوان می گردد.