بخشی از مقاله
چکیده
دراین مقاله ما بررسی می کنیم چندین سیستم محاسباتی و ذخیره توزیع شده را چندین پارامتر مورد مطالعه قرار می گیرد مانند تحمل خطا، تکرار پذیري، نقطه بازگشت، امنیت و بهینه سازي دسترسی فایلهاي کوچک و مروري بر فایل سیستمهاي توزیع شده مانند Glusterts، hdfs، که همه open source هستند.
-1مقدمه :
میزان تولید زیاد داده ها را روي چندین نود و گلوگاه را از بین می برد و سرویس گیرنده اجازه دستیابی موازي دارند به صورت موازي از نودهاي ذخیره سازي. مسائل اصلی فایل سیستم توزیع شده عبارتند از افزایش تعداد زیاد نودهاي ذخیره سازي و اعطاي سطح دسترسی به عملیات و همچنین سیستمهاي quantcast و nofs بخشی از تحقیق ما هستند چرا که mapre duce را پشتیبانی می کنند. در ادامه این مقاله در ابتدا پارامترهاي مورد بحث مانند تحمل خطا و امنیت بهینه سازي دسترسی فایلهاي کوچک بررسی می شوند سپس دو مکانیسم prallel DBms و mapre duce مقایسه می شوند و پس از آن در انتها فایل سیستمهاي پایه mapre duce و Dfs مقایسه می شوند.
-2سیستم پشتیبانی امنیت در سیستم فایل توزیع شده
-1-2معماري :
این معماري ترکیبی از اجزا مانند پایگاه داده mangoDB و sentery Apachy که پروتکلی جهت احراز هویت کاربران در دسترسی به فایل سیستم در hadoop است.
-2-2تعریف اجزا -1-2-2احراز هویت با sentry
هدوپ امنیت قوي در سطح فایل سیستم دارد اما عیب آن نیاز به امنیت بیشتر در دسترسی به داده از طریق کاربران و نرم افزارهاي تجاري دارد. این مسئله کاربران را مجبور می کند یا داده هاي محافظت نشده را پاك کنند و یا دسترسی کاربران دیگر را قطع کنند. Sentry قابلیت کنترل دسترسی به داده ها و سطح دسترسی براي کاربران احراز هویت شده را تامین می کند. فاکتورهاي متفاوتی که نقش اصلی را در sentry انجام می دهند عبارتند از :
resource -1 که منبع شیء است که نیاز به تنظیم دستیابی دارد که می تواند سرور، پایگاه داده، جدول یا Url باشد.
Privileg : -2به صورت پیش فرض sentry اجازه دسترسی به هیچ منبعی را نمی دهد تا زمانیکه دقیقا سطح دسترسی به آن داده شود. Privileg:همان سطح دسترسی اعطا شده به منبع است.
Roles : -3مجموعه اي از Privileg ها است.
Groups : -4مجموعه اي از کاربران که می توان از طریق آن یک قابلیت را به دسته اي از کاربران اهدا کرد. -2-2-2 احراز هویت با استفاده از : Kerberos پروتکل پیاده سازي شده در این پروژه Kerberos می باشد.
سرویس گیرنده یک درخواست به مرکز توزیع کلید می فرستد و توسط مرکز براي آن یک TGT - ticket-grnting-ticket - ایجاد می شود و رمزگذاري می شود با استفاده از رمز عبور کاربر، به عنوان کلید اجباري و TGT رمز گذاري شده مجدداً براي سرویس گسرنده ارسال می شود. در گام بعدي رمزگشایی TGT نقش اصلی را ایفا می کند. اگر سرویس گیرنده با موفقیت رمزگشایی را انجام دهد آن را ذخیره می کند و پردازشی که TGT رمزگشایی ذخیره شده را ببیند به معنی احراز هویت آن سرویس گیرنده می باشد.
hdfs -3 بهبودیافته
این روش بر پایه وابستگی فایل می باشد. فایلهاي در یک پوشه در فایل مجتمع می شوند و بر طبق آن یک اندیس براي هدفایل کوچک ساخته می شود تا سبب کاهش فضاي هدز namendle شود. سیاست cuche نیز جهت بالا بردن کارایی خواندن فایلهاي کوچک بکار برده می شود. مدیر cuche در Datanode قرار می گیرد. هنگامی که فایل کوچک خوانده می شود ابتدا داده در cuche جستجو می شود. اگر جستجو موفق نبود می تواند در دیسک یافت شود.
طراحی فایل مجتمع :
هر فایل بزرگ یک فایل اندیس دارد که شامل آفست و طول فایلهاي کوچک اصلی است. پردازش فایل مجتمع :
-1مرتب سازي فایلهاي یک پوشه و نوشتن آنها در فایل بزرگ
-2تعیین مجموع فایلهاي کوچک
-3تعیین اندازه فایل بزرگ و مقایسه با اندازه بلاك پیش فرض hdfs فایل اندیس ساخته می شود. اگر سایز فایل بزرگتر از اندازه بلاك بود چند بلاك مورد استفاده قرار می گیرد.