بخشی از مقاله
چکیده
با توسعهي اینترنت و محاسبات ابري نیاز به پایگاه دادههایی است قادر به پردازش و ذخیرهي دادههاي بزرگ و درخواستهاي خواندن و نوشتن به صورت کارامد باشند. بنابراین پایگاه دادههاي رابطهاي سنتی با چالشهاي جدید زیادي روبرو هستند. از جمله-
ي این چالشها می توان افزایش اندازهي مجموعه داده، افزایش بیشتر ارتباط اطلاعات با یکدیگر، عدم حمایت از همروندي بالاي خواندن و نوشتن با تأخیر کم، عدم توانایی در ذخیرهسازي کارآمد دادههاي بزرگ و ظرفیت محدود را نام برد. بسیاري از شرکتها در حال تغییر از پایگاهدادههاي رابطهي به پایگاهدادههاي غیررابطهاي هستند. پایگاه دادهي غیررابطهاي براي غلبه بر مشکلات و رفع محدودیتهاي پایگاه دادهي رابطهاي بوجود آمد. در این مقاله ضمن برشمردن مشکلات پایگاهدادههاي رابطهاي، نسل جدیدي از پایگاهدادهها با عنوان NoSql معرفی خواهند شد و مزایا و معایب آنها بیان میگردند. سپس یک نمونه از پایگاه دادههاي غیر-
رابطهاي با عنوان "کاساندرا" که یک سیستم ذخیرهسازي توزیع شده براي مدیریت حجم بسیار بزرگی از دادههاي ساختار یافته است، معرفی میشود. در نهایت براي درك بیشتر مدل داده مبتنی بر کاساندرا، پیاده سازي سیستم معاملات آنلاین به عنوان یک کاربرد عملی از مدل داده مبتنی بر کاساندرا، با طراحی این سیستم در مدل رابطه اي، مورد مقایسه قرار میگیرد.
کلمات کلیدي: پایگاه دادهي رابطهاي، پایگاه دادهي غیررابطهاي، Nosql، کاساندرا، ذخیرهسازي انبوه.
1
.(2013, 376
Swamy, )
-1 مقدمه
به دلیل پیشرفتهاي اخیر در کاربرد دادههاي توزیعشده و مشکلات پایگاه دادههاي رابطهاي که فاقد رسیدگی به رشد نمایی داده-
ها هستند، نیاز به ذخیره سازيهاي انبوه دادهها با قابلیت مقیاس پذیري و عدم محدودیت در الگوها ایجاد شده است
بسیاري از سازمانها اطلاعات مورد نیاز خود را براي تجزیه و تحلیل در آینده جمعآوري میکنند. به طور معمول
بسیاري از آنها، دادههاي ساختار یافته را براي دسترسیهاي بعدي و تجزیه و تحلیل در پایگاه دادههاي رابطهاي ذخیره میکنند.
با این حال تعداد فزایندهاي از سازمانها و تولیدکنندگان، پایگاهداده رابطهاي خود را به یکی از انواع مختلف پایگاه دادههاي غیر-رابطهاي که در حال حاضر، پایگاه داده NoSql نامیده می شوند، تغییر دادهاند. مزیت اصلی این نوع پایگاه دادهها این است که برخلاف پایگاه دادههاي رابطهاي، آنها به دادههاي غیر ساختار یافته نظیر اسناد نامههاي الکترونیکی و چندرسانهاي به طور مؤثر رسیدگی میکنند. ویژگیهاي مشترك پایگاه دادههاي NoSql میتوانند در قابلیت گسترش، مقیاس پذیري بالا، قابلیت اطمینان، مدل دادهاي و زبان پرسوجوي بسیار ساده، عدم وجود مکانیزمی براي اداره کردن و مدیریت سازگاري داده و حفظ محدودیتهاي تمامیت خلاصه گردند .(Taura et al., 2012, 1) پایگاه دادههاي مختلف NoSql، رویکردهاي متفاوتی دارند. یک نمونه از پایگاه-دادههاي NoSql،کاساندرا1 نامیده شده است که در ابتدا براي استفاده در فیسبوك توسعه یافت .(Swamy, 2013, 376) فیسبوك بزرگترین پلتفرم شبکههاي اجتماعی است که صدها میلیون کاربر در زمان اوج استفاده از آن، از دهها هزار سرور که در بسیاري از مراکز داده در سراسر جهان قرار گرفتهاند، خدمات میگیرند. نیازمنديهاي عملیاتی جدي در پلتفرم فیسبوك از لحاظ عملکرد، قابلیت اطمینان و بهرهوري وجود دارند و براي حمایت از رشد مداوم پلتفرم، نیاز به قابلیت گسترش و برخورد با شکستها در یک زیر ساخت متشکل از هزاران جزء، میباشد. براي پاسخگویی به نیازهاي قابلیت اطمینان و مقیاس پذیري در فیس بوك، کاساندرا توسعه داده شد .(Lakshman and Malik, 2010, 35)
در ادامه مقاله به این صورت سازماندهی میگردد: بخش دوم در رابطه با کارهاي مرتبط میباشد که برخی از آنها در طراحی کاساندرا بسیار مؤثر بودهاند. در بخش سوم مشکلات مربوط به پایگاه دادههاي سنتی رابطهاي مطرح میگردند. در بخش چهارم ضمن معرفی اجمالی پایگاه داده NoSql، طبقه بندي آن و مزایا و معایب استفاده از آن بیان خواهند شد. در بخش پنجم پس از آشنایی با پایگاه داده کاساندرا به عنوان یک نمونه از پایگاه دادههاي غیررابطهاي، مدل داده، معماري، ویژگیهاي اساسی، زمینه-
هاي استفاده و یک نمونه پیاده سازي عملی آن شرح داده میشوند. نتیجه گیري و کارهاي آتی نیز در بخش نهایی مورد بحث قرار میگیرند.
-2 مشکلات پایگاه دادهي رابطهاي
سه مشکل اصلی در رابطه با پایگاهدادهي رابطهاي وجود دارد که آن را ناکارآمد میسازند، در ادامه هر کدام از این مشکلات بیان خواهند شد.
• اولین مشکل، اندازهي مجموعه داده است. رشد عظیمی از اطلاعات در اینترنت وجود دارند. مطابق تجزیه و تحلیل مؤسسهي بین المللی داده2 که در شکل((1 نشان داده شده است، بیان میشود که رشد داده از سال 2007 تا سال
2010 حدوداً 25 برابر شده است .(Taura et al ., 2012, 1)
Cassandra International Data Corporation(IDC)
1
2
2
شکل((1 رشد داده از سال 2007 تا سال (Taura et al., 2012 , 1) 2010
• دومین مشکل، قابلیت ارتباط است. با گذشت زمان اطلاعات بیشتر به یکدیگر مرتبط میشوند. شکل((2 رشد قابلیت ارتباط را در طول چندین سال نشان میدهد .(Taura et al ., 2012, 1)
شکل((2 رشد قابلیت ارتباط اطلاعات (Taura et al., 2012, 1)
• سومین مشکل در ارتباط با اطلاعات نیمه ساختاریافته است. اطلاعات نیمه ساختار یافته، اطلاعاتی هستند که تعداد کمی ویژگی اجباري دارند، در حالی که تعداد زیادي ویژگی اختیاري دارند. رشد اطلاعات نیاز به افزایش ستونهاي