بخشی از مقاله

خلاصه

ابرهای محاسباتی جدیدترین نسل سیستمهای توزیع شده هستند که به کاربران اجازه میدهند تا به خدمات مبتنی بر وب به صورت کاملا پویا و مقیاس پذیر و بر اساس مدلهای مختلف نرخ خدمت دسترسی پیدا کنند. این موضوع به کاربران و مخصوصا شرکتهای کوچک و متوسط تجاری اجازه نوآوری و رقابت با شرکتهای بزرگ تجاری را میدهد. از سوی دیگر توانایی مدیریت و آنالیز حجم عظیم دادههای تولید شده به عنوان عاملی کلیدی در راستای برتری رقابتی این شرکتها محسوب میشود. به همین علت شرکتهای تجاری و مراکز تحقیقاتی از الگوی برنامههای جریان کاری آنالیز داده برای سیاستگذاری و تصمیم گیری بهتر استفاده میکنند.

با این وجود استفاده کنندگان از این فناوری با دو چالش بزرگ روبرو هستند؛ تضمین محرمانگی دادهها در بستر ابر محاسباتی و نحوه دسترسی و تبادل اطلاعات با مرکز دادههای بزرگ. هدف از این تحقیق، بررسی و ارائه الگوریتم زمانبندی برنامههای جریان کاری آنالیز داده برای تضمین امنیت اطلاعات در ابرهای ترکیبی متحد شده میباشد، به صورتی که دو معیار اصلیی هزینه اقتصادی و زمان اجرا در زمانبندی را بهینه نماید و زمانبندی وظایف مرتبط با دادههای بزرگ با توجه به مکان استقرار این اطلاعات صورت پذیرد. در پایان، پیاده سازی و ارزیابی الگوریتم پیشنهادی در مقایسه با سایر روشهای پیشنهادی تحلیل و بررسی شده است تا عملکرد نهایی زیرسیستم زمانبندی ارائه شده، از طریق همگرایی نتایج، مورد مطالعه و ارزیابی قرار گیرد.

.1 مقدمه

امروزه سازمانهای تحقیقاتی و شرکتهای تجاری حجم چشمگیری از دادههای دارای ساختار و بدون ساختار را تولید و ذخیرهسازی میکنند. همچنین این سازمانها برای تصمیم گیری دقیق و تجزیه و تحلیل به موقع دادهها، به اطلاعات دیگری نیاز دارند که به صورت عمومی و گسترده در سطح جامعه تولید میشوند. توانایی برقراری ارتباط بین دادههای خصوصی موجود در یک سازمان، با حجم عظیم دادههای تولید شده در بلاگها، توئیتها و شبکههای مختلف اجتماعی این قابلیت را در اختیار آنها قرار میدهد که نیازهای مخاطبان خود را به طور دقیق درک کنند و بتوانند ملزومات مورد نیاز آنها را در زمان مناسب پیش بینی نمایند. از طرف دیگر سازمانها با استفاده از این اطلاعات قادرند تا در منابع مورد نیازشان صرفه جویی کنند و آنها را به صورت بهینه مصرف نمایند.

این الگو اصطلاحا به عنوان ابر داده و یا دادههای بزرگ* شناخته میشود .[1] با وجود اینکه برای تجزیه و تحلیل دادههای بزرگ کاربردهای فراوانی تعریف شده است و این الگوی داده از محبوبیت بسیار بالایی برخوردار است، ولی در عمل این دادهها بسیار پیچیده، حجیم و متنوع هستند؛ در نتیجه بررسی و استخراج اطلاعات مفید از آنها بسیار زمانبر است و به منابع فناوری اطلاعات قابل توجهی نیاز دارد. سازمانهایی که قصد دارند از تکنولوژی تجزیه و تحلیل دادههای بزرگ استفاده کنند، در عمل باید هزینه خرید نرمافزارهای مورد نیاز در این رابطه، ایجاد زیرساخت پردازشی و ذخیره سازی اطلاعات، جمعآوری و طبقه بندی اطلاعات مورد نیاز و غیره را جهت استخراج اطلاعات مفید از دادههای بزرگ را بپردازند .[2]

از طرف دیگر در چند سال گذشته، مفهوم ابر محاسباتی و مجازی سازی شتاب چشمگیری را بدست آورده است و به یک انقلاب گسترده و فراگیر در فناوری اطلاعات تبدیل گردیده است. ابر یک مدل محاسباتی است که بر اساس تقاضای کاربران، خدماتی مانندِ نرمافزارها، میان افزارها و منابع محاسباتی مبتنی بر وب را ارائه میکند . این سیستمهای جدید، کاربران را قادر میسازند که برنامههای تجاری و علمی با پردازشهای سنگین، همچون برنامههای جریان کاری آنالیز داده را بر روی بستر ابرهای محاسباتی اجرا نمایند .

[3] در نتیجه محاسبات ابری از تحمیل هزینههای قابل توجه ایجاد زیرساخت پردازشی، نگهداری و سایر هزینههای غیرقابل پیش بینی به سازمانهایی که هدفشان استفاده از امکانات بیشمار ابر محاسباتی و دادههای بزرگ است، جلوگیری مینماید. طبق بررسیهای انجام شده توسط موسسه گارتنر، تا سال 2016 بیشتر هزینههای فناوری اطلاعات روی بسترسازی محاسبات ابری خواهد بود و پیش بینی کرده است که نزدیک به نیمی از شرکتهای بزرگ دنیا تا سال 2017 از ابر ترکیبی استفاده خواهند کرد .

[4] یکی از مدلهای شناخته شده در ابرهای ترکیبی، الگوی ابرهای ترکیبی متحد شده است که بجای استفاده از خدمات یک ابر عمومی، از سرویسهای چندین ابر عمومی در کنار منابع ابر خصوصی مستقر شده در سازمان استفاده مینماید .[5] این تامین کنندههای ابر عمومی برای به اشتراک گذاشتن منابعشان با یکدیگر توافق کردهاند و با همکاری یکدیگر نیازهای پردازشی و ذخیره سازی کاربران خود را برطرف میکنند. در شکل 1 نمونهای از ابر ترکیبی متحد شده نشان داده شده است که شامل یک ابر خصوصی و دو ابر عمومی با فراهم کنندگان سرویس متفاوت میباشد.

با این وجود تکنولوژی ابر ترکیبی با چالش بزرگی روبرو است. زمانی که مشتریان اطلاعات خود را به ابر منتقل می-کنند، این اطلاعات در مکان ناشناختهای که از دید کاربران پنهان است ذخیره میشود و مشتریان هیچگونه کنترل و مدیریتی روی دادههای حیاتی خود ندارند. علاوه بر این کاربران هیچگونه آگاهی از مکانیزم امنیتی که توسط شرکت ارائه-دهنده پیادهسازی شده است را نخواهند داشت. در نتیجه این دادهها برای سازمان ارائه دهنده سرویس قابل دسترسی است و ممکن است مورد سوء استفاده قرار گیرد6]، .[7 همچنین ممکن است این اطلاعات در حین انتقال به ابر توسط یک خرابکار که در حال کنترل ترافیک شبکه است به سرقت برود.

این موضوع باعث شده است تا مدیران سازمانهای فناوری اطلاعات که در نظرسنجی فورستر شرکت کردند، نسبت به استفاده از خدمات ابری خوشبین نباشند و 64 درصد آنها اعلام کردند، مطمئن نیستند دادههای کاریشان واقع در مراکز داده شرکت سرویسدهنده از محرمانگی کافی برخوردار باشند.[8] تحقیقات و بررسیهای انجام شده توسط موسسه بینالمللی دیتا در سال 2008 نیز گویای همین مطلب است.

مطالعه بر روی 244 نفر از مدیران سازمانهای مختلف علمی و تحقیقاتی نشان دهنده این است که امنیت و محرمانگی به عنوان مهمترین چالش محاسبات ابری از میان 9 تهدید موجود برای ابر، شناخته شده است .[9] برنامههای کاربردی در محیط ابر محاسباتی معمولا در قالب برنامههای جریان کاری اجرا میشوند. یک جریان کاری از دنبالهای از مراحل متصل به یکدیگر تشکیل شده است. الگوی جریان در این مدل به صورتی است که هر مرحله بدون تاخیر، مرحله قبلی را دنبال میکند و تا کارهای مرحله جاری تمام نشود، اجرای گام جدید شروع نمیشود - شکل . - 2

شکل : - 2 - نمونهای از گراف جریان کاری

امروزه دانشمندان در حوزههای مختلف علمی و تحقیقاتی؛ و یا شرکتهای تجاری و بازرگانی در زمینههای اقتصادی، به الگوی خاصی از برنامههای جریان کاری با عنوان برنامههای جریان کاری آنالیز داده نیازمند هستند. در این مدل حجم عظیمی از اطلاعات توسط وظایف جریان کاری از مراکز داده خوانده شده و بین وظایف منتقل میشود؛ و پس از پردازش و آنالیز دادهها در هر مرحله از برنامه جریان کاری، نتایج نهایی در اختیار کاربران قرار میگیرد.

متداولترین مدل نمایش جریانهای کاری، گراف جهت دار ناچرخهای* یا DAG است که در آن، گرهها با هزینه محاسباتی - تعداد دستورات به عنوان نمونه - و لبهها با هزینه ارسال اطلاعات - تعداد بایتهای ارسالی به عنوان نمونه - برچسب گذاری شدهاند - شکل . - 2 این وظایف باید به گونهای روی منابع موجود نگاشت شوند که یک یا چند معیار کارایی بهینه شود. به این مسئله، زمانبندی برنامههای جریان کاری گفته میشود که جزء مسائل NP-Complete محسوب میگردد [10]، بنابراین هیچ الگوریتم شناخته شده با مرتبه زمانی چند جملهای وجود ندارد که بتواند جواب بهینهای را برای حل این مسئله پیدا کند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید