بخشی از مقاله
خلاصه
با توسعهی محاسبات گرید، گرید داده به عنوان یک شاخهی مهم از آن، ارائه دهندهی سرویسهایی جهت ذخیرهسازی منابع، مدیریت و اشتراکگذاری حجم بالای دادههای توزیعشده در سراسر جهان است. برای مدیریت دادهها در محیطهایی با مقیاس بزرگ، یک روش کلیدی به نام تکرار داده وجود دارد. تکرار داده، از طریق ایجاد نسخههای متعدد از داده در مکانهای مختلف، زمان دسترسی به دادهها و در امتداد آن کارایی سیستم را بهبود میبخشد.
همچنین، این روش منجر به افزایش تحملپذیری خطا و قابلیت اطمینان در گرید داده میشود. در گرید داده، هنگامی که داده تکرار میگردد، کپیهای فایلهای داده در سایتهای مختلف ذخیره میشود. الگوریتم تکرار داده به برخی از پرسشهای مهم از قبیل: - 1 - کدام فایل باید تکرار شود؛ - 2 - چه وقت و چگونه تعداد زیادی تکرار باید ایجاد شود؛ و - - 3 تکرار در کجای سیستم قرار داده شود، پاسخ میدهد. با توجه به پاسخی که به این پرسشها داده میشود، الگوریتمهای تکرار مختلفی تولید شده است. در این مقاله یک الگوریتم تکرار داده بهبودیافته، برای غلبه بر محدودیتهای استراتژی تکرار سلسله مراتبی، پیشنهاد شده است.
1مقدمه
سیر تکاملی محاسبات بگونهای است که، میتوان آن را به عنوان عنصر اساسی فرض نمود. با پیشرفت علم و تکنولوژی، حجم محاسبات و اطلاعات بشر به سرعت گسترش پیدا کرده است و نیاز به یک بستر محاسباتی قدرتمند انکار ناپذیر است. کاربران سعی میکنند بر اساس نیازهایشان و بدون توجه به اینکه یک سرویس در کجا قرار دارد، به آن دسترسی یابند .[1] محاسبات گرید در واقع نسل بعدی سیستمهای توزیعی3 است و هدف آن ایجاد یک رایانه مجازی قدرتمند، بزرگ و خودگردان4 است؛ که از کنارهم قرار گرفتن تعداد بیشماری سامانههای ناهمگون ایجاد شده است، که امکان به اشتراکگذاشتن، انتخاب و گردآوری منابعی - کامپیوتر، نرم افزار، بانکهای اطلاعاتی و تجهیزات - را که از نظر جغرافیایی توزیع شدهاند، مهیا مینماید .[1]
با توسعهی محاسبات گرید، گرید دادهای1به عنوان یک شاخهی مهم از آن، بر روی پشتیبانی از یک مکانیزم مدیریت کارآمد برای کنترل به اشتراکگذاری و حجم زیاد دادههای توزیع شده، تمرکز دارد. برنامهها در گرید داده به حجم عظیمی از داده احتیاج دارند، که به کمک گرید داده میتوان حجم زیاد داده را در نقاط مختلف در سرتاسر گرید ذخیره و سپس بازیابی نمود .[2] تکرار داده2، یکی از روشهای بهینهسازی کلیدی برای کاهش زمان دسترسی3، مدیریت دادههای بزرگ و کاهش زمان اجرای کارها، با ذخیرهی دادهها در روشی عاقلانه است. همچنین، این راهحل باعث افزایش تحملپذیری خطا، بهبود مقیاسپذیری، کاهش زمان پاسخ و مصرف پهنای باند میشود 4]،.[3
در گرید داده، هنگامی که داده تکرار میگردد، کپیهای فایلهای داده در سایتهای مختلف ذخیره میشود. الگوریتم تکرار داده به برخی از پرسشهای مهم از قبیل: - 1 - کدام فایل باید تکرارشود؛ - 2 - چه وقت و چگونه تعداد زیادی تکرار باید ایجاد شود؛ و - 3 - تکرار در کجای سیستم قرار داده شود، پاسخ میدهد. با توجه به پاسخی که به این پرسشها داده میشود، الگوریتمهای تکرار مختلفی تولید شده است. این الگوریتمها در یک تقسیمبندی به دو دسته تقسیم میشوند. دستهی اول الگوریتمهای تکرار ایستا 4 هستند.
مشکل اصلی این دسته از الگوریتمها این است که، در صورت عوض شدن الگوی دسترسی کاربران گرید، تکرار دیگر کارایی ندارد و این الگوریتمها با پویایی محیط گرید تناقض دارد. دستهی دوم الگوریتمهای پویا5 هستند. در زمانهایی که نیاز است یا در بازههای زمانی معین، با توجه به شرایط محیط گرید، الگوریتم تکرار را اجرا کرده و نسخههایی از فایلها را تکرار میکنند .[5] در محیط گرید، جایی که تعداد زیادی از کاربران منابع محاسباتی و ذخیرهسازی محدود را به اشتراک میگذارند، بهینهسازی استفاده از منابع به منظور رسیدن به زمان اجرای مناسب بسیار حیاتی است.
حتی اگر حافظه و عناصر ذخیرهسازی به اندازهی کامپیوترها افزایش یابند، آنها باز هم نمیتوانند با درخواست ذخیرهی تعداد زیادی از دادهها ادامه دهند. از این رو روشی برای ایجاد تکرار مورد نیاز است، که بدون استفاده از ذخیرهسازی غیر ضروری و پهنای باند، در دسترس بودن را افزایش دهد. در این مقاله، یک استراتژی بهبودیافته به نام 6MERS، در جهت به حداقل رساندن زمان دسترسی به دادهها و اجتناب از تکرار غیرضروری، به واسطهی غلبه بر محدودیتهای استراتژی [6] 7ERS، ارائه شده است.
با بهبود الگوریتم مکانیابی تکرار، توسط در نظر گرفتن پارامترهای جدیدی از قبیل محلیت زمانی و جغرافیایی باعث قرار دادن تکرار ایجاد شده در بهترین سایت شده است. و از سوی دیگر، در الگوریتم جایگزینی برای حذف فایلها از عنصر ذخیرهسازی، سه فاکتور مهم از قبیل: تعداد دسترسی به فایلها، آخرین زمان دسترسی و سایز فایلها، در نظر گرفته میشود. این مقاله به ترتیب زیر سازماندهی شده است:در بخش 2، مروری بر کارهای قبلی خواهیم داشت. استراتژی پیشنهادی در بخش 3، ارائه خواهد شدنهایتاٌ. در بخش پایانی، نتیجهگیری و کارهای آینده آمده است.
.2مروری بر کارهای انجامشده
دو استراتژی برای جایگذاری تکرار پویا به صورت متمرکز1 و توزیع شده2 وجود دارد که این دو استراتژی با توجه به نوع شبکهی استفاده شده برای پیادهسازی طبقهبندی شدهاند.
.1,2روشهای محل تکرار پویای توزیعشده
در گرید پویا، همانطور که نام این روش نشان میدهد، گرهها میتوانند در هر زمان به گرید بپیوندند و آن را ترک کنند. بنابراین روشهای تکرار پویای توزیع شده برای افزایش مزایای تکرار استفاده میشود. در ادامه به شرح بعضی از این روشها با معماریهای مختلف، پرداخته میشود.
.1,1,2استراتژی با معماری چندلایه
در سال 2001، Ranganathan و همکاران با توجه به مکان فایل سه نوع مختلف از الگوهای دسترسی را معرفی کردند با نامهای : محلیت زمانی3، محلیت جغرافیایی4 و محلیت فضایی.5 محلیت زمانی الگوی درخواست را به گونهای تعیین میکند که، فایلی که اخیراً در دسترس بوده به احتمال زیاد دوباره مورد دسترسی قرار میگیرد.