بخشی از مقاله
داده کاوی در رایانش ابری:
انتخاب سرویس SAAS به عنوان بهترین سرویس رایانش ابری برای کاهش هزینه های داده کاوی
چکیده
با گسترش سریع اینترنت، حجم داده ها و اطالعاتی که تولید می شوند، بسیار زیاد است. از این رو کاربر با این حجم عظیم داده سر در گم خواهد شد و تشخیص اینکه کدامیک از داده ها مفید هستند، بسیار دشوار است. داده کاوی می تواند این مشکل را حل نماید. وقتی داده کاوی بر روی پردازش ابری به کار گرفته شود، زمان مورد نیاز برای پردازش، انرژی مصرفی و هزینه ها را کاهش خواهد داد.این مقاله در مورد چگونگی کاربرد داده کاوی در رایانش ابری تحلیل شده است. داده کاوی فرآیند استخراج اطالعات مفید در داده ها است در واقع داده کاوی روند کشف روابط جدید معنادار، الگوها و روندها با غربال کردن از بین حجم باالیی از داده های ذخیره در انبارهای داده، توسط تکنولوژیهای شناخت الگو و نیز تکنیکهای ریاضی و آماری می باشد. چگونه SaaS در رایانش ابر مفید است. یکپارچگی تکنیک های داده کاوی با فعالیت های روزانه رایج شده است. ما هر روز با مسائل تبلیغاتی و تجار ت هایی مواجه هستیم که به دلیل استفاده از داده کاوی منجر به کاهش هزینه می شود. داده کاوی قادر به استخراج اطالعات آماری بیشتر در مورد مشتریان است که قبال در داده ها ناشناخته یا پنهان بودند. اخیرا استفاده از داده کاوی در مسائلی از قبیل کشف متقلب شناسایی جرم های مشکوک و پیش بینی توریست های بالقوه افزایش یافته است. سیستم های داده کاوی که داده ها را به خوشه ها ، خوشه های توزیع یافته و شبکه ها توسعه می دهند فرض می شوند که پردازنده ها منابع کمیاب است و از این جهت به اشتراک گذاشته می شوند. موقعی که پردازنده ها در دسترس هستند ، داده ها به پردازنده ها ارسال می شوند.
واژه های کلیدی:
رایانش ابری، داده کاوی،ابر کاوی، تکنیک داده کاوی DMcloud ،Virtual Private Data Database Center
-1 مقدمه
حجم باالی دادههای دائماً در حال رشد در همه حوزهها و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیکها، نقشهها، عکسها، تصاویر ماهوارهای و ...، از یک طرف نمایانگر پیچیدگی کار تبدیل دادهها به اطالعات و در نتیجه دشواری استخراج دانش نهفته در میان دادهها و از طرف دیگر نشانگر تنوع حوزههای کاربرد داده کاوی است .داده کاوی تحلیل مجموعه داده های مشاهده ای )عمدتا بزرگ( برای یافتن روابط غیر قابل انتظار و خالصه نمودن اطالعات در روشهای نوین که قابل درک و مفید برای مالک اطالعات می باشند. داده کاوی استخراج اطالعات پیشگویانه از پایگاه داده بزرگ ، یک روش جدید قدرتمند با انرژی عظیم است و به کمک شرکت ها می رود که روی مهمترین اطالعات در پایگاه داده شان تمرکز می کنند. ابزارهای داده کاوی رفتارها و گرایش های آینده را پیش بینی می کنند و این امکان را به تجارت ها می دهد تا بر اساس دانش تصمیم گیری کنند. تحلیل های اتوماتیک و آینده نگر که توسط داده کاوی پیشنهاد می شود فراتر از تحلیل هایی قرار می گیرند که طبق رویدادهای گذشته توسط ابزارهای قبلی سیستم های تصمیم گیری انجام شده اند. موقعی که اندازه و پیچیدگی مجموعه داده افزایش می یابد ، تحلیل های دستی تقویت کننده فرآیندهای اتوماتیک می شوند و این توسط روش های دیگر در علوم کامپیوتر حمایت می شود مثل شبکه های عصبی ، تحلیل خوشه ، الگوریتم ژنتیک )1591( ، درخت های تصمیم گیری )1591( و ماشین های بردار پشتیبان .)1551( داده کاوی فرآیند کاربرد این متد ها روی داده با هدف کشف الگوهای پنهان در مجموعه عظیم است. هدف داده کاوی مرتب سازی داده برای شناسایی الگوها و ایجاد ارتباطات است.[1,2,13]
-2 داده کاوی کانون توجهات در صنعت اطالعات
اصلی ترین دلیلی که باعث شد داده کاوی کانون توجهات در صنعت اطالعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها اطالعات و دانش سودمند استخراج کنیم. اطالعات و دانش بدست آمده در کاربردهای وسیعی از مدیریت کسب و کار وکنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار می گیرد. داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطالعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات: جمع آوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها. .]5,21[
تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطالعات می باشیم. ابزارهای داده کاوی داده ها را آنالیز می کنند و الگوهای دادهای را کشف می کنند که می توان از آن در کاربردهایی نظیر: تعیین استراتژی برای کسب و کار، پایگاه دانش1 و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده ها و اطالعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم .]1,13[
1-2 اشاره ای به پارامترهای داده کاوی و کاربردهای آن
پارامترهای داده کاوی شامل موارد زیر می باشد که می توان اشاره کرد:
اجتماع : جستجو برای نگاشت ها به طوریکه یک رویداد به رویداد دیگر متصل می شود.
توالی یا مسیر تحلیل ها : جستجو برای نگاشت ها به طوریکه یک رویداد منجر به رویداد بعدی می شود.
طبقه بندی : جستجو برای الگوهای جدید
خوشه بندی : یافتن و مشاهده گروه هایی از حقایق که قبال ناشناخته بودند.
پیش بینی : کشف الگوها در داده که می تواند منجر به پیش بینی های منطقی در مورد آینده شود ، این زمینه از داده کاوی
به عنوان تحلیل های پیشگویانه شناخته شده است.
روش های عددی قابل مشاهده راه حل های پیشرفته داده کاوی و پیش بینی فراهم کرده در صنعت های گسترده مثل فضای هوایی ، دولت ، ارتباطات ، سرویس های مالی و مراقبت پزشکی به کار می رود. راه حل های پیش بینی عددی خبرگان تکنیکی ، تجربه های دستی چند دهه و محصوالت قدرتمند را برای خلق با کیفیت ترین راه حل ممکن برای تحلیل داده ترکیب می کنند. به همین صورت
کاربردهای مختلفی از داده کاوی در جهان واقعی وجود دارد. کاربردهای فراوانی از داده کاوی در دنیای واقعی وجود دارد نظیر بیمارستان ، مدیریت دانش آموز ، رزرو هواپیما ، پیش بینی ، زیست سنجی ، ریاضی ، جغرافیا ، وب کاوی ، پردازش موازی ، سازمان دهی فضا ، یکپارچگی داده. همچنین از کاربردهای بسیار مفید هستند که می توان به مورد محاسبات ابری و چگونگی استفاده از داده کاوی در این زمینه صحبت می کنیم.[1,15]
2-2 مراحل کشف دانش
هر مرحله داده کاوی باید با کاربر یا پایگاه دانش تعامل داشته باشد. الگوهای کشف شده به کاربر ارائه می شوند و در صورت خواست او به عنوان دانش به پایگاه دانش اضافه می شوند. توجه شود که بر طبق این دیدگاه داده کاوی تنها یک مرحله از کل فرآیند است، البته به عنوان یک مرحله اساسی که الگوهای مخفی را آشکار می سازد کشف دانش دارای مراحل تکراری زیر است:
-1 پاکسازی داده ها2 )از بین بردن نویز و ناسازگاری داده ها(. -2 یکپارچه سازی داده ها3 )چندین منبع داده ترکیب می شوند(.
-3 انتخاب داده ها4 )داده های مرتبط با آنالیزازپایگاه داده بازیابی می شوند(.
-4 تبدیل کردن داده ها9 )تبدیل داده ها به فرمی که مناسب برای داده کاوی باشد مثل خالصه سازی9 و همسان سازی7 -9 داده کاوی )فرایند اصلی که روالهای هوشمند برای استخراج الگوها از داده ها به کار گرفته می شوند.(
-9 ارزیابی الگو8 )برای مشخص کردن الگوهای صحیح و مورد نظربه وسیله معیارهای اندازه گیری(
-7 ارائه دانش5 )یعنی نمایش بصری، تکنیکهای بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده می شود( [3,11,15]
-3 رایانش ابری
انتظارات از رایانش ابری بسیار زیاد است که یکی از بحث برانگیزترین اصطالحات در میان مدیران ارشد اطالعاتی، برنامه سازان و مدیران فناوری اطالعات است .اگرچه تبلیغیات در این زمینه بیشتر از واقعیت است، اما رایانش ابری قطعا امید بخش خواهد بود. [4] در رایانش ابری کاربران به داده ها، برنامه های کاربردی و دیگر سرویس ها از طریق کالینت ها از نقاط مختلف دسترسی دارند. کالینت ها ابزار های هوشمند هستند که امروزه بسیار گسترده اند، مانند کامپیوتر ها، تلفن های هوشمند و مانند اینها. رایانش ابری در واقع یک حافظه مجازی برای هدایت ابزارهای هوشمند تکنولوژی در بستر اینترنت و دنیای فناوری می باشد، کاربران از طریق رایانش ابری می توانند به زیربنا، پلت فرم و نرم افزار دسترسی داشته باشند.[9,16]
1-3 پنج خصیصه اصلی رایانش ابر
• تقاضای خودسرویس: که کاربر در آن براحتی و بطور اتومات از هر سرویس دهنده به برخی مولفه های محاسباتی مانند سرور، فضای ذخیره سازی، شبکه و سایر منابع محاسباتی دسترسی می یابد.
• دسترسی شبکه در همه جا: که طبق آن تمام تجهیزات و تسهیالت در شبکه در دسترسی بوده و با شیوه های استاندارد ارزیابی می شوند. این فرایند از کالینت های قدرتمند و ضعیف از لپ تاپ گرفته تا تلفن های همراه پشتیبانی می کند.
• ادغام و ترکیب منبع مستقل از مکان: که در دسترس بودن منابع الزم در یک مکان جهت سرویس دهی به کالینت های مختلف را نشان می دهد. این منابع شامل فضاهای ذخیره سازی، حافظه، پهنای باند شبکه و ماشین مجازی می شوند.
• االستیسیته سریع: که بواسطه آن، قابلیت های مختلف با انعطاف پذیری مناسب به سرعت ارائه و بسرعت بهبود یافته یا عرضه می شوند. به عبارت دیگر، سرویس های ارائه شده و ارتقا یافته بسرعت در اختیار کاربران قرار می گیرند.
• سرویس)خدمات( محاسبه شده: کنترل اصلی،گزارش دهی منابع با این خصیصه ها بوده که با تعریف واضح ارائه دهندگان زیرساخت، میزان منبع را گزارش می دهند. بنابراین تمامی این خصیصه ها بواسطه ابرها به یکپارچگی و شفافیت دست می یابند.
[5,9,17]
2-3 انواع مدل های پیاده سازی رایانش ابری
محیط های ابری در قالب مدلهایی که در ادامه بیان می شود پیاده سازی شده است.که بسته به کارایی و استفاده مشتریان از ابر مدل مورد نظر استفاده می شود. مشتریان و سازمانها برای انتخاب مدل های پیاده سازی باید در ابتدا به نیاز های خود آشنایی داشته باشند، اینکه آیا الزم است اطالعات آنها در دسترس عموم باشد یا اینکه اطالعات روی ابر باشد اما فقط قابل دسترس سازمانشان ... اینها مسائلی است که باعث تفکیک انواع پیاده سازی ها در محیط ابری می باشد، دارای چهار مدل زیر است:[5,19,20]
ابر عمومی : ابر عمومی توصیف کننده محاسبات ابری در معنای اصلی و سنتی است. سرویس ها به صورت داینامیک و از طریق اینترنت توسط فراهم کنندگان ارائه می شوند و هر کاربری می تواند سرویس مورد نظر را روی اینترنت دریافت نماید. ابر های عمومی به کاربران اجازه می دهند تا از طریق رابط با استفاده از مرورگرهای وب به ابر دسترسی داشته باشند. کاربران تنها برای مدت زمان که آنها استفاده می کنند نیاز به پرداخت هزینه دارند. از جمله خدمات این نوع ابر ، پرداخت به ازای هر استفاده ، این را می توان با سیستم برق که ما در خانه های مان دریافت می کنیم مقایسه کرد
ابر گروهی: در این مدل چندین سازمان کهتقریباً حرفه و نیازمندی های آنها مشترک میباشد .منابع و سرویسهایشان را با هم به اشتراک میگذارند و یک ابر انجمنی را تشکیل میدهند.
ابر خصوصی : یک زیر ساخت محاسبات ابری است که توسط سازمان ها برای استفاده داخلی آن سازمان به وجود آمده است. عامل اصلی که ابرهای خصوصی را از ابر های عمومی جدا می کند، محل و شیوه نگهداری سخت افزار های تشکیل دهنده زیر ساخت ابر است. ابر خصوصی امکان کنترل بیشتر بر روی تمام سطوح پیاده سازی ابر مانند سخت افزار، شبکه، سیستم عامل، نرم افزار را فراهم می سازد. مزیت دیگر ابر های خصوصی امنیت بیشتری است که ناشی از قرار گیری تجهیزات داخل ساختمان و عدم ارتباط با دنیای خارج است و راه اندازی ابر های خصوصی ممکن است مشکالت ایجاد و نگهداری را به همراه داشته باشد. یک راه برای دوری از مشکالت ابرهای خصوصی و در عین حال بهره مند شدن از مزایای آن استفاده از ابر خصوصی مجازی است.
ابر ترکیبی: این ترکیبی از ابرعمومی و ابر خصوصی است. در این مدل یک ابر خصوصی به یک یا چند خدمات ابر خارجی مرتبط است. این راهی امن تر برای کنترل داده ها و کنترل برنامه های کاربردی است که اجازه دسترسی به اطالعات بر روی اینترنت را می دهد. واگر در آن سازمان برخی از نیاز گاه به گاه رخ دهد برای سرویس دهی، نیازهای خود را در ابر خصوصی تامین می کند، ابر عمومی دارای منابع محاسباتی فشرده می باشد. زمانی که نیاز به فرستادن داده های یک ابر خصوصی روی اینترنت یا همان ابر عمومی فراهم آید ابر خصوصی و عمومی به صورت ترکیبی مورد استفاده قرار می گیرند.
شکل )1( نمایش ابر خصوصی و ابر ترکیبی
3-3 سرویس های رایانش ابری
محاسبات ابری یک عبارت کلی برای هر چیزی است که شامل سرویس های میزبان تحویلی در اینترنت می شود. این سرویس ها به طور کلی به 3 الیه تقسیم می شوند ،
ابر یک معماری سرویس گرا است که خدمات خود را در قالب سرویس ارائه می دهد. نرم افزار به عنوان یک سرویس )SAAS(، پلتفورم )سیستم عامل یا بستر( به عنوان یک سرویس )PAAS(، زیرساخت به عنوان یک سرویس [5,6,7] )IAAS(
• : 11SAAS این نوع سرویس توسط ارایه دهندگان خدمات ابر )cloud( اجرا می شود و عمدتا توسط سازمان ها مورد استفاده قرار می گیرد. این سرویس ها از طریق اینترنت در دسترس کاربران قرار می گیرند.
• : 11PAAS این یک ابزار است )Windows , LINUX( که توسط توسعه دهندگان به منظور پیشرفت دادن پایگاه های اینترنتی بدون نیاز به نصب کردن هیچ گونه نرم افزاری روی سیستم مورد استفاده قرار می گیرد، و می تواند بدون نیاز به داشتن هیچ گونه مهارت اجرایی )مدیریتی یا اداری( اجرا شود. به طور کلی می توان این سرویس را تحویل یک پایه یا راه حل روی یک زیربنای ابری جای دهی در باالی معماری IaaS و یکپارچه سازی با توسعه و توانایی های میان افزار مثل تابع های صف بندی ، پیغام دهی و پایگاه داده معرفی کرد.
• : 12IAAS این یک سرویس اعمال شده، پشتیبانی شده و کنترل شده توسط ارایه دهندگان سرویس cloud است که عملیات
متنوعی نظیر امکان ذخیره سازی، سخت افزار، سرورها و شبکه کردن را پشتیبانی می کند. [5,6] به طور کلی می توان این سرویس را تحویل زیربنای کامپیوتر به عنوان یک سرویس کاربردی به طور نمونه در یک محیط مجازی
و همچنین فراهم کردن عامل های فراوان برای توسعه پذیری و مقیاس کردن معرفی کرد. به طور کلی می توان این سرویس را تحویل برنامه کاربردی در اینترنت یا اینترانت از طریق یک زیربنای توده ای و ساختن الیه های زیرین IaaS و PaaS معرفی کرد. 2 ژوئن – 2118 رایانش ابری یکی از کلمات نامشخص صنعت آینده شد که آن عبارت های دیگر مثل محاسبات شبکه های ، محاسبات کاربردی ، خوشه بندی ، مجازی سازی و ... را در برداشت. رایانش ابری موجب همپوشانی تعدادی از مفاهیم محاسبات توزیع یافته ، کاربردی و شبکه ای می شود ، اگرچه آن همچنان معنای خودش را دارد. همپوشانی مفهومی به صورت جزئی به دلیل تغییرات استفاده و کاربرد تکنولوژی در طی سال ها است. ابر مجازی سازی منابعی است که باید حفظ و مدیریت شود. البته افرادی