بخشی از مقاله


مروری بر تکنیکهای پیاده سازی داده کاوی توزیعی در ابر

خلاصه

با توسعه ابر مبتنی بر راهکارهای داده کاوی دسترسی به سرویسهای داده کاوی هر روز و هر جا از سکوهای مختلف و دستگاههای مختلف امکان پذیر خواهد بود. ایجاد و ارائه خدمات داده کاوی در ابر، امروزه یک فعالیت تجاری حیاتی است که در غیر این صورت، نیاز به سرمایه قابل توجه برای دسترسی به منابع تکنیکی داده کاوی خواهد بود و شرکتهای با سایز کوچک و متوسط نخواهند توانست از فواید داده کاوی استفاده کنند. چالش بزرگ داده کاوی استفاده موازی و نیروی محاسباتی برای بدست آوردن زمان ارزشمند است، محاسبات ابری توانایی استفاده از نیروی تعداد زیادی از سرورهای متصل قدرتمند با پردازندههای چند هسته را در معماری بدون نیاز به پیاده سازی آن به صورت فیزیکی، در هر محیط کاربری به ارمغان میآورد. در این مقاله مروری بر چند تکنیک پیاده سازی داده کاوی با استفاده از محاسبات ابری داریم و ویژگیهای هر کدام را بیان میکنیم.

کلمات کلیدی: داده کاوی، محاسبات ابری، سیستمهای چند عامله، ابر کره/ ابر سکتور، قوانین انجمنی موازی

.1 مقدمه

دادهکاوی یک فرایند استخراج اطلاعات مفید بالقوه از داده های خام است. تجمیع تکنیکهای دادهکاوی در فعالیتهـای روزانـه تبـدیل بـه یـک وظیفـه عمومی شده است. ما روزانه با تبلیغات هدفمند مواجه هستیم و کسب و کارهایی که از طریق فعالیتهای دادهکـاوی بـرای کـاهش هزینـههـا، کارآمـدتر شدهاند .[1] تکنیکهای داده کاوی و برنامههای کاربردی به الگوی محاسبات ابری بسیار نیازمند هستند. همـانطـور کـه محاسـبات ابـری روز بـه روز در همه محدودههای کسب و کار و محاسبات علمی بیشتر و بیشتر نفوذ پیدا میکنند، آن به یک منطقه بزرگی برای تمرکز کردن به وسیله داده کاوی تبـدیل میشود. محاسبات ابری بیانگر یک روند جدید در سرویسهای اینترنت است که متکی بر ابر سرورها برای اداره کردن وظایف میباشد.

داده کاوی در محاسبات ابری فرآیند استخراج اطلاعات ساختار یافته از منابع داده وب کمی ساخت یافته یا ساخت نیافته اسـت. داده کـاوی در محاسبات ابری به سازمانها اجازه میدهد تا روی مدیریت نرم افزار و ذخیره کردن داده با اطمینان از کارایی، قابلیت اعتماد و سرویسهـای امنیـت بـرای کاربران تمرکز کنند. از آنجا که محاسبات ابری به نرم افزار و سخت افزار تحویل داده شده به عنوان سرویس بر روی اینترنـت اشـاره داد. در داده کـاوی محاسبات ابری، به عنوان نرم افزار در این راه ارائه شـده اسـت CDM1 .[2] (داده کـاوی ابـری) خـدمات بـالقوه فـوقالعـادهای بـرای تحلیـل و اسـتخراج اطلاعات مفید در زمینه های متفاوتی از فعالیت های انسان ارائه میدهد: مانند مالی، بانکداری، پزشکی، ژنتیک، زیست شناسی، دارو سـازی، بـازار یـابی و غیره. داده کاوی در ابر از نقطه نظر فنی یک فرایند سیار خسته کننده است که نیاز به یک زیر ساختار ویژه مبتنی بر عملکـرد تکنولـوژی ذخیـره جدیـد، اداره کردن و پردازش دارد. داده بزرگٍ / هدوپَ آخرین نوع از پردازش داده در این زمینه است. که مبتنی بر الگوریتمها و تکنولوژیهای توسـعه داده شده به وسیله شرکتهای اینترنتی بزرگ است. یک اکو سیستمکاملاً گسترده از راهبردهای پردازش و تحلیل مقادیر زیاد داده وجود دارد.

تا به حال تعداد کمی از راه حلها که لااقل کامل و در دسترس برای کاربران باشد وجود داشته است. محصولات جدید در حال ورود هسـتند و به زودی یک تعداد قابل توجه از راه حلها برای داده کاوی که پتانسیل محاسبات ابری را مورد اسـتفاده قـرار خواهـد داد در بـازار ظهـور خواهنـد کـرد. بعضی از راهکارهای موجود به صورت زیر میباشند .[3]

 

در این مقاله روی تکنیکهای پیاده سازی داده کاوی توزیع شده در ابر تمرکز میشود و در این زمینه راهبردهایی ارائه میشود. ادامـه مقالـه بـه این صورت سازمان دهی میشود: در بخش دوم DMaaS4، در بخش سوم به بررسی سیستمهای چند- عامله سلسله مراتبی میپردازیم کـه معمـاری نـرم افزار توزیع شده دارند. در بخش چهارم، داده کاوی را روی معماری ابر سکتور/ ابر کره بررسی مـیکنـیم. در بخـش پـنجم یـک نمونـه اجـرای تکنیـک قوانین انجمنی بر روی محاسبات ابری را مطالعه میکنیم. در آخر جمع بندی را خواهیم داشت.

.2 داده کاوی به عنوان سرویس (DMaaS)

کاوش داده بزرگ برای بسیاری از صنایع حیاتی شده است تا اطلاعات کوچک اما بـا اهمیـت را از مجموعـه دادههـای عظـیم و بـی نظـم بـرای پشـتیبانی عملیات هستهشان استخراج کنند و فرآیندها را تصمیم گیری کنند. در پاسخ به تقاضاهای زیاد تحلیـل دادههـای بـزرگ اولـین دسـته از تـلاشهـا بـه زیـر ساختار پردازش داده موازی متوجه میشود. یک سرویس وب اطلاعاتی که داده کاوی به عنوان یک سـرویس نامیـده مـیشـود کـه بـرای پیشـنهاد دادن راهبرد داده کاوی در دادههای زیاد ارائه میشود. در پشت صحنه، موتور پردازش داده بر اساس هـدوپ یـک پیـاده سـازی منبـع بـاز5 از Map Reduce گوگل است. پیاده سازی الگوریتمهای داده کاوی در Apache Mahout در سکو مستقر مـیشـود. کـاربر مـیتوانـد از مرورگـر خـودش بـرای تحلیـل اهداف عمومی مسائل داده کاوی به DMaaS دسترسی داشته باشد. با توجه به مزایای آن در ارتباط با تحمل خطا و مقیاس پـذیری هـدوپ بـه اسـتاندارد واقعی در این مسیر تبدیل شده است. بر اساس هدوپ، Mahout کتابخانه منبع باز از الگوریتم داده کاوی برای وظایف متنـوع مثـل خوشـه بنـدی، دسـته بندی، تحلیل انجمنی و پیش بینی استفاده میکند. داده کاوی به عنوان یک سرویس چرخه حیات داده کاوی را به وسیله استقرار یـک سـکوی پردازشـی داده ابری و یک واسط کاربر پسند بصری برای تعامل با فرآیند داده کاوی و ساده سازی نتایج آماده میکند .[4]

.3 سیستمهای چند عامله برای داده کاوی ابری

سیستمهای چند- عامله، سلسله مراتبی هستند و معماری نرم افزار توزیع شده دارند. این باعث بهترین راه حل برای طراحی، توسـعه و پیـاده سـازی سـکوی نرم افزار برای معماری های توزیع شده و همچنین برای داده کاوی توزیع شده می شود. Mas1 یـک مجموعـه از عامـلهـا اسـت کـه بـا یکـدیگر در یـک محدوده برای حل یک مسئله مشترک به وسیله استفاده از منابع و دانش و عامل، تعامل دارند. معماری Mas یک ساختار است که خانوادههای مختلـف از عامل ها و روابطشان را به تصویر میکشد. یک پیکربندی نمونهای از معماری با یک ترکیب انتخابی و تعداد مناسب از عاملها از هر نوع است. برای یـک معماری داده شده میتوان چندین پیکربندی را تولید کرد. یک پیکربندی داده شده نزدیک با توپولوژی و مفهوم آنجایی اسـت کـه آن مسـتقر مـیشـود. (ساختار سازمانی، ویژگی های اینترنت، محل مورد علاقه و غیره و ...) بنابراین معمـاری بایـد طراحـی شـود بنـابراین همـه پیکربنـدیهـای ممکـن مفـاهیم سازمانی متفاوت و ممکن را پوشش میدهند.


فواید استفاده از سیستمهای چند-عامله
فواید استفاده از عامل مبتنی بر سیستمها برای داده کاوی توزیع شده به شرح زیر است:

· حفظ استقلال منابع داده

· تسهیل داده کاوی توزیع شده تعاملی

· بهبود انتخاب پویا منابع و جمع آوری دادهها

· داشتن مقیاس پذیری بالا برای داده کاوی حجیم

· شبیه سازی داده کاوی توزیع شده با چند استراتژی

· توانایی داده کاوی تعاونی2 (اشتراکی)

سیستمهای مبتنی بر عامل ابری

در بعضی سیستمهای مبتنی بر عامل پیشنهاد شده روی روش های ابری، عاملها برای مدیریت منابع ابری، مشاهده رفتار کاربر، ترکیب سرویسهای ابـری و برای مکانیسم مذاکرات در همکاری سرویس ابری استفاده میشوند. این عاملها در ارتباط با سرویسهـای ابـری (نـرم افـزار بـه عنـوان سـرویس، زیـر ساخت به عنوان سرویس، سکو به عنوان سرویس) به عنوان موجودیت های خارجی برای ایجاد، فراخوانـدن و مـدیریت آنهـا هسـتند. در روشـی کـه در ادامه میآید، عاملهای ایجاد شده تحت سرویس ابری نرم افزار به عنوان سرویس اجـرا مـیشـوند؛ بنـابراین آنهـا بـه عنـوان موجودیـتهـای سـرویس، خودشان برای مدیریت کردن و همکاری بین فرآیندهای سرویس در نظر گرفته میشوند.

این روش در ابر مبتنی بر معماری به عنوان نرم افزار به عنوان سرویس است که از سیستمهای چند – عامله برای پیـاده سـازی وظـایف مختلـف سیستم استفاده میکند(شکل .(1 این معماری اجزای متفاوت دارد که شامل انواع عاملهای چندگانه و دیگر اجزای سیستم لازم هستند .[5]

شکل :1 داده کاوی توزیع شده با استفاده از محاسبات ابری و سیستمهای چند عامله [5]

.4 ابر ذخیره سازی سکتور و ابر داده کرهای

به وسیله ابر، ما میتوانیم بگوییم که این یک زیر ساختار است که شامل خدمات ارائه شده از طریق مراکز داده اشتراکی اسـت کـه بـه عنـوان یـک نقطـه واحد از دسترسی برای نیازهای محاسباتی مشتریان ظاهر میشود و همچنین منابع مورد تقاضا و یا سرویس روی اینترنت را فراهم میکند.

یک ابر میتواند یک ابر ذخیره سازی باشد که بلوک یا فایلی مبتنی بر سرویس ذخیره سازی فراهم میکند. یا آن میتواند یـک ابـر محاسـباتی باشد که سرویس های محاسباتی را فراهم میکند. آن همچنین میتواند یک ابر داده باشد که خدمات مبتنی بر رکـورد، مبتنـی بـر سـتون، مبتنـی برشـی را فراهم میکند. اینها همه انواع ابرها، به عنوان یک پشته از خدمات ابری نصب میشوند که سـکوی محاسـباتی را بـرای توسـعه ابـر مبتنـی بـر برنامـههـای کاربردی فراهم میکنند (شکل 2شکل .(2

شکل :2 یک پشته داده برای یک ابر شامل خدمات لایهای [6]

ابر ذخیره سازی سکتور یک سیستم ذخیره سازی توزیع شده است که میتواند روی بیش از یک شبکه منطقه وسیع مستقر شـود و بـه کـاربران اجازه استفاده دهد و مجموعه دادههای بزرگ را از هر مکانی با اتصال به شبکه با سرعت بالا به سیستم دانلود کند. سکتور به صورت اتوماتیک فایلهـا را برای قابلیت اعتماد و دسترس پذیری بهتر تکثیر میکند. ابر محاسباتی کرهای یک سرویس محاسباتی اسـت کـه روی ابـر ذخیـره سـازی سـکتور سـاخته میشود. آن به وسیله توسعه دهندگان اجازه نوشتن عملکردهای موازی فشرده داده توزیع شده خاص را با چنـدین واسـط برنامـه ریـزی کـاربردی((API1 ساده می دهد. محل داده یک فاکتور کلیدی برای اجرا در کره است؛ بنابراین برای خلاصه سازی مـا مـیتـوانیم بگـوییم کـه سـکتور دادههـا را بـه شـکل فایل های شاخص توزیع شده مدیریت می کند. کره، داده ها را با استفاده از موتور پردازش کره، پردازش میکند کـه بـه صـورت مـوازی روی هـر بخـش داده مدیریت شده به وسیله سکتور اعمال میشود (شکل .(3


شکل :3 معماری لایهای کره/سکتور [6]

فرض ضمنی با بیشترین سیستم داده کاوی که برای خوشههای کامپیوتر و تور توسعه داده شده است ایـن اسـت کـه پردازنـدههـا منـابع کمیـاب هستند و از این رو آن باید به اشتراک گذاشته شوند. زیرا از این فرض دو نوع مدل تولید میشود. یکـی مـدل ابـر محاسـباتی اسـت کـه در آن دادههـا بـه پردازنده منتقل میشوند هر زمان که پردازنده آزاد و یا در دسترس برای استفاده شود. دوم مدل مرکز داده است که در آن در حال ذخیره داده اسـت و بـا محاسبات داده هر زمان که ممکن باشد با هم قرار میگیرند. در دلم اَبر محاسباتی برای محاسبات خیلی زیاد، یک بخش زیادی از زمان روی انتقـال داده به پردازنده در دسترس سپری میشود. در حالیکه در قالب سکتور و کره دادههادائماًذخیره مـی شـوند و در مکـان خودشـان هـر زمـان کـه ممکـن باشـد پردازش میشوند؛ بنابراین در آن داده باید برای وظیفه منتظر باشد. ابرهای ذخیره به وسیله سیستم فایل گوگل (GFS2) و سیستم فایل توزیـع شـده هـدوپ HDFS3 این مدل را پشتیبانی میکنند. ابر محاسباتی Map Reduce، ابر داده هـدوپ و سیسـتم ذخیـره سـازی اصـلیشـان GFS، HDFS هسـتند و بـه طـورخاص برای خوشههای کامپیوتر در مراکز داده طراحی میشوند این دو سیستم اطلاعات کلاستر و قفسه کامپیوتر1 را برای قـرار دادن بلـوکهـای فایـل و تکثیر آن استفاده میکنند. اما محیطهای توزیع شده دوتایی آزادانه (بدون قید) را پشتیبانی نمیکند.

GFS و HDFS بیشتر برای سیستم های دو تایی محکم طراحی می شوند که به وسیله گره رئیس مدیریت میشوند. ایـن مـورد بـا سـکتور نیسـت. سکتور برای پشتیبانی آزادانه (بی قیدانه) سیستم های توزیع شده دوتایی با معماری نظیر به نظیر2 طراحی میشود. ابـر ذخیـره سـازی GFS وHDFS فـرض کرده اند که پهنای باند شبکه در حال اتصال با خوشههای کامپیوتر متفاوت شامل دادههاینسبتاً کوچک است. اما ابر ذخیـره سـازی سـکتور بـرای منـاطق وسیع شبکه با کارایی بالا طراحی میشود که به صورت ویژه توسط پروتکلUDT3 استفاده میشـود. سـکتور فـرض مـیکنـد دادههـا در فایـلهـا تقسـیم میشوند در حالیکه GFS و HDFS دادهها را به بلاکها تقسیم مـیکنـد. محاسـبه Map Reduce اغلـب بیشـترین اسـتفاده روی ابـر ذخیـره سـازی GFS و HDFS دارد. با استفاده از Map Reduce اول از همه عملیات Map انجام میشود که در آن تمام دادههای مربـوط در روی نودهـای

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید