بخشی از مقاله
پژوهشهای نوین درهوشمندی کسبوکار اکوسیستم: توزیعی هَدوپ
خلاصه
هوشمندی کسب و کار و آشنایی با ابعاد و مولفههای موثر و پژوهش های نوین صورت گرفته پیرامون آن همواره مورد توجه مدیران بوده است. بخصوص که امروزه در عصر داده زندگی میکنیم و با حجم داده بسیار زیادی مواجه هستیم. این داده حجیم میتواند تاثیرات بسیار مهمی بر سازمان داشته باشد. از طرفی تغییرات محیط کسبوکار، باعث پیچیدهتر شدن عملیات سازمانی شده است. این پیچیدگیها از طرفی منشاء فرصتها می باشند و از طرف دیگر، مشکلات و موانعی را برای کسبوکار ایجاد میکنند. علاوه براین،عواملِ تأثیرگذار سازمانی و عواملی که برمحیطِ کسبوکار تأثیر دارند شامل بازارها، تقاضای مشتری، تکنولوژی و جامعه میباشند که شدت تأثیر این عوامل در طی زمان بیشتر و بیشتر میشوند.در نتیجه فشارهای محیطی و داخلی بیشتر، رقابت شدیدتر و مشکلات مدیریتی بیشتر میشوند. بنابراین، حجم وسیعی از دادهها و اطلاعات وارد سازمان شده و سازمان را دچار مشکل می کننداستفاده. از اِکوسیستم های توزیعی باعث میشود که مدیران فعالتر، منعطفتر، سریعتر باشند تا بتوانند به تحولات محیطی پاسخ مناسب بدهند. از طرفی دانش در سازمانهای امروز به عنوان دارایی بسیار مهم تلقی می شود و دسترسی به دانش بسیار با اهمیت می باشد ، استفاده از هوشمندی کسبوکار بسیار کارآمد و موثر خواهد بود. است. در این حالت سازمانها به آینده چشم خواهند داشت. بدین صورت است که از دل تغییرات امروز در هوشمندی کسبوکار، واقعیتهای فردا نمایان میشود.
کلمات کلیدی: داده حجیم ، هوشمندی کسب و کار ، انبار داده هَدوپ، ، نگاشـت-کـاهش ، سیسـتم فـایلیتـوزیعی هَـدوپ ،
.1 مقدمه
داده حجیم به مجموعهای از دادههای بزرگ و پیچیده اطلاق می شود که نرمافزارهای سنتی پردازش اطلاعات امکان پردازش آنها را ندارند.چالش اصلی برخورد با داده حجیم شامل تجزیهوتحلیل، جمع آوری و جستجو در میان دادهها است. فرآیندهای دیگری مانند به اشتراک گذاری، انباشت، انتقال و حفظ امنیت دادهها در پردازش دادههای حجیم مطرح میشوند. با دسترسی آحاد مردم به ابزارهای هوشمند قابلحمل و گسترش استفاده از شبکههای اجتماعی، موتورهای جستجو و در حالت کلی افزایش نفوذ اینترنت در زندگی روزمره مردم ، حجم این دادهها با سرعت روبه افزایش است ؟همچنین گسترش استفاده از برچسبهای شناسایی رادیویی ، دوربینهای مداربسته، خودپردازها ، کارتخوانها و نگهداری دادههای نرمافزارهای ERPدر سازمانها منجر به تولید دادههای حجیم می شود؟بنابراین تعریف داده حجیم متناسب با مکان و زمان متفاوت میباشد. طبیعی است که آنچه امروز به عنوان داده حجیم تعریف می شود در آینده مفهومی دیگر داشته باشد و داده حجیم شناخته نشود. همچنین مفهوم داده حجیم از یک سازمان به سازمان دیگر و از یک کسبوکار به کسب و کار دیگر در حال تغییر است. [1]
در سال 2001 میلادی داگ لنی2 داده حجیم را به صورت
سه V یعنی حجم 3 ، سرعت4 و تنوع5 تعریف نمود. امروزه داده حجیم باپنج ویژگی حجم، تنوع، سرعت، تغییر6 و پیچیدگی 7شناخته میشود. [2] (1 حجم : کمیت دادههایی که جمعآوری می شود اهمیت زیادی دارند ؟ اندازه داده مشخص می کند که آیا این دادهها می توانند به صورت بالقوه داده حجیم تلقی شوند؟
(2 تنوع ْ یکی دیگر از مشخصات داده های حجیم، تنوع دادهها است ؟ بنابراین این مسئله که دادهها مربوط به چه کسبوکاری است و چه مفهومی را پشتیبانی میکند و درنتیجه به چه میزان نیاز به تجزیه و تحلیل دادهها وجود دارد ، در تعیین آنها به عنوان داده حجیم نقش دارد؟
(3 سرعت : میزان داده تولید شده در یک بازه زمانی یا به بیان دیگر ، سرعت ایجاد دادههای جدید یکی دیگر از مشخصههای دادههای حجیم است؟
(4تغییر : تغییر دادههای ورودی، یکی از اصلیترین مشکلات مرتبط با دادههای حجیم است ؟این مفهوم به ناپایداری محیطهایی که داده در آن تولید می شود بر میگردد ؟هر چه ناپایداری در محیط بیشتر باشد، مدیریت و تحلیل دادهها دشوارتر خواهد شد؟
5( پیچیدگی : مدیریت دادهها فرآیند بسیار پیچیدهای است به خصوص هنگامی که حجم زیادی از دادههای پیچیده از منابع مختلفی تولید شود که نیاز به یکپارچهسازی و همگنسازی دارد؟
هدف اصلی این نیست که مقدار زیادی داده بدست آید بلکه هدف این است که بدانیم با حجم انبوهی از داده چه باید کرد. بنابراین باید راهبردی اتخاذ شود تا سازمانها قادر به دریافت داده از هر منبعی باشند ، داده های مرتبط را تهیه و تحلیل کنند تا سوالاتی طرح شود که دستیابی به پاسخ آنها منجر به کاهش هزینهها ، کاهش زمان، توسعه محصولات جدید و پیشنهادات جدید و تصمیم گیری هوشمندانهتر در کسب وکار شود.[3] در مسائل مرتبط با داده هایحجیم ، اندازه و حجم دادهها یک مفهوم نسبی است و بستگی به نقطه آغاز تحلیل ونحوه جمع آوری دادهها دارد .یکی از مهمترین مشکلات موجود رشد سریع تعداد کاربران و نیاز روزافزون به خدماترسانی همزمان به همه کاربران ، به صورت بدون وقفه و با کمترین هزینه ممکن است. یکی دیگر از مشکلات ، انجام تحلیلهای مختلف و پردازشهای مربوط به دادههای حجیم است که میتواند حجم بسیار زیادی از دادههای موقت تولید کند که مدیریت این نوع داده ها و نگهداری مناسب آنها جهت بهینه نمودن سرعت محاسبات متوالی و بسیار سنگین تحلیلی، امری بسیار چالش برانگیز است. امروزه در مواجه با چنین مسائلی از روشی با نام MapReduce استفاده میشود که برای نخستین بار توسط گوگل معرفی شده است و یک مدل برنامهنویسی برای تولید یا پردازش مجموعههای بزرگ دادهای بهصورت خودکار و موازی روی خوشهای از تعداد زیادی از سرورها است.[4]
از طرفی با عنایت به تغییرات سریع در بازار سختافزار و نوآوریهای جدید در زمینه فضاهای ذخیره سازی ، توان پردازشی و حافظه اصلی سرورها و معرفی سرورهای ارزان قیمت، تمایل سرویسدهندگان به استفاده از آنها در مراکز داده را افزایش داده است. تا چند سال گذشته که از پایگاه هایدادهای رابطهای به عنوان راهحل ذخیرهسازی دادهها استفاده میشد ، در بحث دادههای حجیم ، معماری مناسب و ایدهآل برای سیستمهای نرمافزاری و پایگاههای دادهای سنتی جهت بهرهبرداری مناسب از مجموعهای از سختافزارها را نداشته و محدودیتهای ساختاری، سیستمهای نرمافزاری را در مواجهه با ابعاد مختلف دادههای حجیم نظیر حجم ، سرعت و تنوع و ناکارآمد ساخته بود. بر این اساس، در چند سال اخیر راهحلهایی برای مدیریت و تحلیل این داده های حجیم تحت عنوان 8NOSQL مطرح شده است که خارج از مباحث مطرح شده در این مقاله است.
- 2 هوشمندی کسب وکار
بازار رقابتی شاهد تحولات بی سابقه ای در هوشمندی کسبوکار است که عمدتا به دلیل نوآوری در فنآوری و افزایش نیازهای کسب و کار رخ داده است. آخرین تغییرات در این صنعت ، حرکت از تجزیه و تحلیل سنتی به تجزیه و تحلیل پیشگویانه و توزیع شده است. اگر چه تجزیه و تحلیل پیشگویانه متعلق به خانواده BI است ولی به عنوان یک بخش نرمافزاری جدید ظاهر شده است. ابزارهای تحلیلی شفافیت بیشتری فراهم میکنند و می توانند روندهای گذشته، حال و همچنین ماهیت پنهان داده ها را پیدا نموده و تجزیه و تحلیل کنند. با این حال، بینش های گذشته و حال و اطلاعات روند موجود برای رقابت در بازار کافی نیستند. سازمانهای مبتنی بر کسبوکار نیاز به دانستن بیشتر در مورد آینده و به طور خاص، در مورد روندهای آینده، الگوها و رفتار مشتری به منظور درک بهتری از بازار رقابتی دارند. برای دستیابی به این خواسته، بسیاری از فروشندگان BI، تجزیه و تحلیل پیش گویانه را توسعه دادهاند. ابزارهای تحلیلی سنتی ادعا میکنند که دارای یک بینش واقعی 360 درجه از نظر سازمان یا کسبوکار هستند، اما آنها تنها دادههای گذشته را تحلیل میکنند، دادههایی در مورد آنچه که در حال حاضر اتفاق افتاده است. تجزیه و تحلیلهای سنتی در بدست آوردن آنچه که در تصمیم گیری درست بود و آن چه که اشتباه بود، کمک می کنند. به بیان دیگر ابزارهای امروزی صرفا تجزیه و تحلیل دیدگاه گذشته را فراهم می کند. با این حال، نمی توان گذشته را تغییر داد اما میتوان برای آینده بهتر آماده شد و تصمیم گیرندگان میخواهند آینده را قابل پیش بینی ببینند، آن را کنترل کنند و اقداماتی را در امروز برای رسیدن به اهداف آینده انجام دهند.
1-2 تحلیل های پیشگویانه:9
تحلیل جایگاه پیشرفت، بُعدی را در هوشمندی کسبوکار مدرن به خود اختصاص می دهد. این بخش از الگوریتم برای یافتن توضیح و الگو استفاده میکند که با توجه به دادههای گذشته، فعالیتهای آینده را برای تصمیمگیری بهتر کسبوکار پیش بینی میکند. تحلیلهای پیشگویانه همواره جذاب بوده و در آینده نیز جذابتر خواهند شد. این نوع تحلیل به سازمانها کمک میکند تا خود را متفاوت نشان دهند و کارآمدتر ظاهر شوند. بسیاری از فعالیتهای سازمانها نظیر بازاریابیوفروش از این تکنولوژی بهره میبرند. محبوبیت رسانههای اجتماعی، موبایلها و دیگر تکنولوژیهای ارتباطی، بسترهای جدیدی برای بازاریابی و ارتباط با مشتریان فعلی و بالقوه به وجود آورده است. به کارگیری بسترهای مختلف برای بازاریابی باعث به وجود آمدن دادههای (ساختیافته و غیرساختیافته) ارزشمندی شده است که با تحلیل آنها میتوان مشتریان بیشتری را شناسایی کرد و به بازارهای جدید دست یافت. این نوع تحلیل قطعا در حال حاظر جایگاه خود را به دست آورده و میتوان انتظار داشت که این بخش با سرعت چشمگیری در آینده رشد یابد. موضوع دیگری که حول صنعت میتوان انتظار آن را داشت عبارتند از :
· بهینه سازی (ترکیب قوانین کسب و کار برای مدیریت تصمیم بهینه)
· تحلیل مصرفی (مشاهده بصری دادههای پیچیده افزونشونده)
· • تحلیل داده های جدید (توانایی تحلیل نوع دادههای جدید مثل : اجتماعی، رسانهای، موقعیت) پیش بینی میشود در سالهای آتی موسسات و سازمانهای بیشتری به کاوش در دادههای فروش و بازاریابی خود بپردازند تا با شناسایی بهترِ مشتریانِخود و شناخت بهترِ سرویس ها و محصولات مورد نظر آنها، قدرت رقابت خود افزایش دهند.
2-2 تحلیل تمایلات10
در جامعه امروز استفاده از وِبلاگ ها و سایتهای اجتماعی به منظور شناخت یک محصول و یا یک سرویس بسیار متداول است. مطابق تحقیقات انجام شده 2سال اخیرِ Harvard Business Review نشان میدهد که بیش از%60 خریداران قبل از خرید خود حتی یک بار هم با تولید کننده ارتباط نداشتهاند و تولید کننده هیچ تأثیر مستقیمی بر تصمیم خرید آنها نداشته است.[5,6] بنابراین تولید کنندگان باید به دنبال این مسئله باشند که مردم در مورد محصولات و سرویسهای آنها چگونه فکر میکنند. بسیاری از شرکتهای تولید کننده نرمافزارهای هوشمندی کسبوکار ، تحلیل تمایلات را در مجموعه راهکارهای خود قرار میدهند تا این اطلاعات ارزشمند را در قالبهای ساده تر به سازمانها ارائه دهند.
3-2 داده های حجیم و هَدوپ
پیش بینی انجام تحقیقات در حوزه داده حجیم در سالهای آتی چندان دشوار نیست زیرا در سالهای اخیر دائما شاهد رشد این تکنولوژی بودهایم. از آنجایی که بسیاری از گرایش های جدید به دانش داده حجیم متکی هستند، در سالیان آینده شاهد خروج دادههای حجیم و ورود به فناوری اطلاعات رقابتی خواهیم بود و حوزههای فناوری اطلاعات باید یادبگیرند چگونه با داده حجیم کنار بیایند. دادههای حجیم حوزه اطلاعات را تغییر می دهند و به همین دلیل آنهایی که آن را میپذیرند مزایای رقابتی قدرتمند و بینش بالایی راکسب می کنند.
عمده تولیدکنندگان نرم افزارهای هوشمندی کسبوکار در تمام نسخههای نگارش خود داده حجیم را پشتیبانی میکنند یا راهحلی برای استفاده از تکنولوژی دادههای حجیم برپایه ابزار پذیرفته شده هَدوپ ارائه می دهند. در جدول شماره1 مشخصاتولیدکنندگانت و محصولات مبتنی بر هَدوپ را مشاهده می نمائید.
این انتظار وجود دارد که طی امسال و سال بعد 2016) میلادی) ، بانکها و موسسات مالی نیز تکنولوژیهای دادههای حجیم را برگزینند و در کنار آن سازمانها با مجموعه داده های عظیم در بازار های به شدت رقابتی (مثل سازمان های دولتی، مراکز ارتباط راه دور) نیز وارد این عرصه گردند. [7,8,9]
4-2 هوشمندی کسبوکار در رایانش ابری11
همانطور که محاسبات ابری در حال رشد در دنیای فناوری اطلاعات است، بحث هوشمندی کسبوکار در محاسبات ابری بیشتر مطرح می شود. گارتنر در مورد رشد این حوزه با تردید مینگرد و تنها %3 درصد افزایش درآمد را پیشبینی می نماید. تحلیلگران فورستر مایک گالتری12، نوئل یوحنا13 و روان کوران14 اعتقاد دارند که هوشمندی کسبوکار ابری هنوز با مشکلات زیادی مواجه است و مسیر طولانی در پیش دارد. بزرگترین چالش سازمانها، انتقال داده ها به یک ابر ابتدایی است. آنها باید به امنیت شبکه و پهنای باند و کیفیت دادهای که میخواهند انتقال دهند و تصمیم برای تحلیل آن دارند و واسط کاربری قابل استفاده فکر کنند. هنگامی که دادهها به ابر انتقال پیدا کردند، تعداد بیشماری ابزار مقرون به صرفه در زمینه هوشمندی کسبوکار و داده های حجیم در اختیار سازمانها قرار خواهد داشت. مدیران فناوری اطلاعات نیاز دارند تا در مورد مزایای ابر بحث کنند و ببینند چه منفعتی در هوشمندی کسبوکار ابری وجود دارد. بدین منظور برای مزایای هوشمندی کسبوکار ابری، شرکتهای تولید کننده ، قابلیتهای هوشمندی کسبوکار خود را در محصولات 15SaaS خود قرار میدهند تا نیازی به صرف هزینههای هنگفت برای زیرساختهای جدید نباشد. خرید قابلیتهای هوشمندی کسبوکار به جای راهاندازی آن در درون سازمان، هزینههای کمتری را به سازمانها تحمیل می کند و آنها را سریعتر به نتیجه میرساند. از اینرو انتظار میرود کسبوکار نهفته16 نیز متقاضیان بیشتری در سالهای آتی داشته باشند.[7,8,9]
5-2 هوشمندی کسبوکار سیار17
تحلیلگران فورستر مایک گالتری، نوئل یوحنا و روان کوران اعتقاد دارند که در سالیان آتی هوشمندی کسبوکار سیار ، بر اساس نیاز به تصمیمگیری در زمانها و مکانهایی که باید گرفته شود، به مسیر اصلی حرکت تبدیل خواهد شد.[7,8,9] هوشمندی کسبوکار سیار برای بسیاری از شرکتها ارزشِ افزوده و کاهش هزینه به همراه داشته است چرا که موجب کنترل نیروی کار خود به صورت سیار بودهاند. برنامه های کسب وکار سیار به بخش جدایی ناپذیر سازمانها تبدیل شده اند. با به بلوغ رسیدن و پذیرش تکنولوژی سیار ، یک نیروی کار به دسترسی سریع اطلاعات به وجود آمده است. که در این بین هوشمندی کسبوکار نیز مستثنی نیست. هوشمندی کسبوکار سیار یک راه حل مقرون به صرفه و معقول برای سازمانها برای تصمیمگیریهای مهم و تعیین مسیر آینده می باشد. باتوجه به سهولت استفاده، مدیران سطح مشتری، ارزش تجاری را در تصمیم گیری کسبوکار در هر مکان و زمان بهتر درک می کنند.
هوشمندی کسبوکار سیار به دو حوزه فعالیت تقسیمبندی میشود. یکی افزایش قدرت تحلیل بَرخط کاربران با استفاده از گوشیهای هوشمند و تبلتها است که باعث میشود آنها در هر مکانی به امکانات هوشمندی کسبوکار دسترسی داشته باشند و دومی کاوش داده های موجود در گوشیهای هوشمند و تبلتها است تا بدین وسیله درک بهتری از مشتریان و بازار به دست آید. هر چه این کاربردها رایجتر شوند، تقاضا برای ابزارهای یکپارچه سازی دادهها نیز بیشتر خواهد شد زیرا دادهها قبل از تحلیل میبایست به طور صحیح پاکسازی و یکپارچه شوند.[7,8,9]
6-2 تحلیل درحافظه18 و هوشمندی کسبوکار خود محور19
با پیشرفت فناوری، حافظه ارزانتر میشود و به همین دلیل افزایش محبوبیت تحلیل درحافظه را شاهد هستیم. ابزارهای تحلیل درحافظه مانند Qlikview، Spofire و Tableau اجازه تحلیل و پرسجو از دادهها از داخل حافظه اصلی کامپیوتر را میدهند، که نتیجه آن استخراج سریع وساده دادهها برای هوشمندی کسبوکار و برنامههای تحلیلی است. به جای کنترل مرکزی و انباره داده متمرکز، کاربران می توانند حجم زیادی از داده را برای کاوش در اطلاعات جهت اثبات نظریهها یا اتخاذ تصمیمهای کسبو کار در یک سازمان در کامپیوتر خود بارگذاری کنند. با توجه به افزایش سرعت، سهولت دسترسی و کاهش قیمت این ابزارها ، تحلیل در حافظه مورد پذیرش بیشتری واقع میشود و این انتظار وجود دارد در سالیان آتی این محبوبیت رشد بیشتری داشته باشد.[10] برای اطمینان از اینکه تحلیل و هوشمندی کسبوکار سازمان صحیح است، ابزارهای تحلیل در حافظه باید به صورت پیوسته با راه حل ساخت یافته و کیفیت انباره داده استفاده شود.
7-2 هوشمندی کسبوکار چابک20
در حال حاضر شاهد رشد محبوبیت رویکرد توسعه چابک در هوشمندی کسبوکار هستیم. یک رویکرد چابک به مرور میتواند موجب حذف هزینههای عملیاتی باشد و اگر به درستی توسعه یابد می تواند ارزش افزوده زیادی برای هر سازمان داشته باشد. رویکرد چابک یک چارچوب ساده برای ایجاد برنامه های انبارش داده/هوشمندی کسبوکار فراهم می سازد که به طور منظم نتایج سریعتری در مقابل ساعت ها زمان روش توسعه آبشاری21 ارائه میدهد. تجربیات نشان داده که رویکرد چابک، هزینه پروژه را به نصف کاهش می دهد و نرخ خطای پروژه را به سمت صفر میل میدهد و اجازه میدهد که با انجام %20 نیازمندیها و طراحی پروژه آغاز شود که ارزشی معادل %80 ارزش پروژه دارد. جزئیات باقیمانده دریک بار توسعه تکمیل شده و همه به آنچه اتفاق می افتد دید خوبی دارند. [10]
- 3 معماریهای انباره داده
امروزه معماری انبار داده بر اساس دو روش کلاسیک یا مدرن پیادهسازی میشود. در تصویر 1 ، معماری کلاسیک انبار داده را مشاهده مینمائید. در چند سال اخیر معماری کلاسیک انبار داده دستخوش تغییر شده و مفاهیم جدیدی در معماری انبار داده وارد شده است. در تصویر 2 معماری مدرن انبار داده را ملاحظه می نمائید. [1]
در معماری مدرن انبار داده تغییرات اساسی نسبت به معماری کلاسیک انبار داده مشاهده میشود. معماری مدرن انبار داده بر اساس مفاهیم دادهحجیم شکل داده شده است. جهت انتخاب بهترین راهبرد جهت استفاده از داده های حجیم از هَدوپ استفاده شده است. از طرفی داده گاه/انبارک داده22 در معماری کلاسیک تبدیل به انبارک تحلیلی23 شده است. انبارک
تحلیلی ورودی خود را ازهَدوپ دریافت می نماید. مشاهده میشود که مهمترین تغییر در معماری مدرن انبار داده ، استفاده ازهَدوپ میباشد. [1,22] معماری مدرن انبار داده بر اساس مدل مفهومی مدل ایدهآل تصمیمگیری طراحی شده
است(نمودار .(2 این مدل سه لایه بوده و پایه آن بر اساس اطلاعاتقابل استفادهِ مورد اعتماد است که با حفظ سازگاری ، بهنگام هستند. در لایه بالاتر شاهد فرآیند هستیم که با استفاده از اطلاعات اخذ شده از لایه پائینتر بر روی کسب و کار در مدت زمان معین در محدوده ای مشخص اثر می گذارد. در لایه سوم با توجه به اثرگذاری انجام شده ، افراد با توجه به انگیزه بوجود آمده و نگرش موجود ، نقش های خود را ایفاء میکنند.
-4 شرکت گوگل و 24GFS
در سال 2003 میلادی در نوزدهمین کنفرانس ACM ، مقاله سیستمفایلی گوگل توسط سانجایقِماوات 25 ، هوارد گوبیوف26 و شانتاک لیونگ27 مهندسین نرمافزار گوگل ارائه شد. [11] جهت درک کاربرد و نتایج این پروژه ، فناوری و دانشی را در نظر بگیرید که در پشت زمینه صفحه اصلی موتور جستوجوی گوگل مورد استفاده قرار میگیرد. در پشت الگوریتم ها و سایر قابلیت هایی که گوگل جهت جستجو بر مبنای متن وارد شده فراهم می نماید یک مرکز داده بزرگ نیز وجود دارد. در این مرکز داده ، کپی متنی و کاملی از هر آنچه در اینترنت وجود دارد ذخیره شده است. در همان زمان که کاربران در حال وارد کردن متن مورد نظر و جستجو اینترنتی هستند ، این کپی عظیم از داده (داده حجیم) نیز به طور متناوب با دادههای جدید بهروزرسانی میشود. به موازات همه این فرآیندها ، دادههای موجود توسط پردازنده های هزاران سرور مجزا در حال پردازش است. هر یک از این پردازندهها میتواند هر کاری، از انتخاب آگهی متناسب با متن مورد جستوجوی کاربر تا فرآیند مرتبسازی جهت تعیین ترتیب نمایش آنها را انجام دهند.
سیستم ذخیرهسازی استفاده شده در موتور جستوجوی گوگل باید این قابلیت را داشته باشد که در هر روز به میلیونها درخواست خواندن و نوشتن اطلاعات پاسخ دهد . این درخواست ها توسط پردازشهایی ارسال میشود که به صورت مستقل روی هزاران سرور مختلف ، در حال اجرا هستند. فرآیند پشتیبانگیری یا نگهداری از سیستم ، تحت هیچ شرایطی نباید منجر به غیرفعال شدن این سرویسها شوند. از طرف دیگر این مجموعه دادهای مجبور است به صورت بیوقفه در حال رشد و گسترش باشد. این قابلیت از آن جهت اهمیت دارد که زیرساخت ذخیرهسازی باید بتواند صفحات یافته شده توسط روباتهای جستوجوگر اینترنت را که هر روز بر تعداد آنها افزوده میشود، ذخیره کنند.
روباتهای موتور جستوجوی گوگل روزانه، بیش از بیست پِتابایت28 داده را پردازش می کنند. شرکت گوگل برای پاسخگویی به چنین نیازی نمیتواند حتی به قویترین معماریهای ذخیره سازی که به صورت معمول در سایر پروژههای بزرگ استفاده میشوند تکیه کند. سایر غولهای دنیای وِب و ابَرشرکتهای ارائه دهنده محیط پردازش ابری29 و مراکز داده فوقالعاده بزرگ نیز با چالش های مشابهی روبه هستند. از جمله این ابَر شرکتها میتوان به یاهو30 ، آمازون31 ، والمارت32 و شبکههای اجتماعی نظیر Face Book اشاره نمود.
بیشتر مراکز داده سعی دارند تا فرآیند مقیاسپذیری فضای ذخیرهسازی داده را از طریق افزودن به ظرفیتهای دیسکها و تعداد سرورهای پایگاه داده و سرورهای متصل به رسانههای ذخیرهسازی، به انجام برسانند. اما این رویکرد معمولاً با
شکست مواجه میشود زیرا محدودیتها و الزامات موجود در محیط ابری جهت رسیدن به سطح کارآیی و عملکرد بالا، چالشی است که روش مذکور نمیتواند پاسخگوی آن باشد .در محیط ابری ممکن است در هر زمان با هزاران کاربر فعال مواجه باشیم که باید به دادهها دسترسی داشتهباشند و دادههایی که باید در هر لحظه نوشته یا خوانده شوند، از چندین هزار ترابایت فراتر میرود.
بنابراین مسئلهای که مطرح می شود چیزی فراتر از سرعت خواندن و نوشتن دیسک است. وقتی جریان داده در سطح شبکه ذخیره سازی به این حد میرسد، عملکرد و بازدهی شبکه ذخیره سازی داده است که مشکلساز میشود. حتی در صورت استفاده از بهترین سرورها و رسانههای ذخیرهسازی، باز هم ممکن است تجهیزات 33SAN مورد استفاده، تبدیل به گلوگاهی در مسیر دسترسی و پردازش داده، شوندمعمولاً. در این وضعیت، با مشکلات مرتبط با محدودیت در مقیاسپذیری سیستم بوجود میآید .
با در نظر گرفتن سرعت افزایش ظرفیت مراکز داده در شرکت های بزرگ مبتنی بر وب با استفاده از روشهای معمولی که در مراکز داده کنونی برای ارتقای ظرفیت به کار میرود، هزینههای نرمافزاری، سختافزاری و مدیریتی این فرآیند، بسیار زیاد خواهد بود. سرعت افزایش ظرفیت به حدی است که امروزه در هر روز ظرفیتی برابر با ظرفیت سالانه سال 2001 میلادی به ظرفیت برخی مراکز داده اضافه میشود. در نمودار 3 مشاهده میشود که در هر سال %40 به حجم دادهها افزوده شده و در سال 2020 میلادی به بیش از 40زِتا بایت خواهد رسید.این هزینهها هنگامیکه که پایگاههای داده رابطهای34 به این مجموعه افزوده شود، پیچیدهتر میشود. میزان این پیچیدگی به نحوه توزیع داده و تهیه مرکز داده پشتیبان برای مرکز اصلی، وابسته است. نیاز به چنین سطحی از مقیاسپذیری و افزایش مداوم حجم مرکز داده و همچنین نیاز به محیط ذخیرهسازی پایدار، این نیاز را برای شرکتهای عظیم ارائهدهنده خدمات مبتنی بر وب بوجود آورده است که سیستمهای مدیریت فایل توزیعشده35 براساس رسانهذخیرهسازی مبتنی بر شیء36 را انتخاب نمایند.
این نوع سیستمها، حداقل تا حدودی از سایر سیستمهای فایلی توزیع شده و خوشهای نظیر Global File System شرکت ردهت 37 و فناوری General Parallel Filesystem شرکت آیبیام الهام گرفته شدهاند. معماری سیستم فایلی در محیط شرکتهای فراهمآورنده خدمات ابری، فراداده38 را مستقل از خود داده ذخیره شده در نظر میگیرد. بنابراین امکان نوشتن و خواندن حجم عظیمی داده از روی کپی های متعدد داده فراهم شود و بدین ترتیب مفاهیم و مشکلاتی نظیر قفل شدن فایل از بین میرود. تأثیر سیستمهای فایلی توزیعشده، فراتر از محدوده مراکز داده بسیار عظیمی است که از این نوع سیستم فایلی استفاده میکنند. این نوع سیستمهای فایلی تأثیر مستقیمی بر نحوه توسعه و پیاده سازی برنامههایی داشتهاند که کاربران خدمات ابری همگانی نظیر 39EC2/S3 آمازون، App Engine گوگل یا Azure مایکروسافت40 در حال استفاده از آنها هستند. همچنین این نوع سیستم های فایلی برای دولتها ، دانشگاهها و سازمانها کاربرد بسیاری دارد تا بتوانند به سرعت دادههای حجیم مورد نیاز خود را ذخیره نموده و به آن دسترسی داشته باشند. [12]
شرکت گوگل، یکی از نخستین سازمانهایی بود که با مشکل مقیاسپذیری رسانه ذخیرهسازی و مسائل مرتبط با آن روبرو شد و ایجاد یک سیستمفایلی توزیع شده، راهحلی بود که مهندسان نرمافزار گوگل در سال 2003 برای این مشکل ارائه کردند . [11] این سیستمفایلی که Google File System یا GFS نامیده میشود، به طور سفارشی و متناسب با راهبرد مورد استفاده در مراکز داده شرکت گوگل ایجاد و به کارگیری شده است. زیرساختار اصلی GFSبرای تقریباً تمام سرویسهای مبتنی بر محیط ابری است که شرکت گوگل عرضه میکند. این سیستمفایلی نیازهای متنوع مرتبط با ذخیرهسازی داده را مرتفع میکند که از جمله آنها میتوان به پایگاهداده BigTable و همچنین دادههای AppEngine اشاره نمود.
قِماوات در مقاله سال 2003 مطرح نموده که سیستمفایلیGFS با در نظر گرفتن اولویتهای خاصی طراحی شده است.[11] مطابق اطلاعات ارائه شده در این مقاله هدف از طراحی GFS ، تبدیل تعداد زیادی از سرورها و دیسکهای سخت41 ارزانقیمت، به مجموعهای است که قابلیت ذخیره و مدیریت صدها ترابایت داده را داشته باشد و در صورت بروز خطا یا نقصهای سختافزاری ، امکان برطرف نمودن مشکل وجود داشته باشد. نحوه عملکرد GFS بسیار شبیه روش انجام فرآیند RAID5 است که در آن داده به صورت تکهتکه در سطح تمام دیسکهای RAIDشده ذخیره میشود تا جلوی از بین رفتن داده گرفته شود. در GFS فایل ها به صورت قطعاتی با اندازه ثابت در سطح خوشهای42 از سرورها کپی و توزیع می شود. GFS به صورتی طراحی شده که بتواند بدون از دست دادن حجم قابل توجهی از داده برای این گونه خطاها، راهکار ارائه دهد. در GFS میتوان سرورهای مورد بحث را در سطح شبکه توزیع کرد. بنابراین سرورها می توانند در یک یا چند مرکز داده توزیع شوند. در GFS موضوع مهم خواندن سریع داده است و شاخصهایی نظیر سرعت دسترسی به یک قسمت خاص از فایل یا سرعت نوشتن داده در سیستمفایلی اهمیت چندانی ندارد. هزینه دستیابی به سرعت بالا در سیستمفایلی GFS ، نوشتن و خواندن قطعهبندی شده روی چندین دیسک است .قِماوات در مقاله خود تاکید نموده "نوشتن قطعات کوچک داده در آدرسهای متعدد و متفاوت توسط این سیستمفایلی پشتیبانی میشود اما لزوماً کارآیی بالایی ندارد."
ماهیت توزیع شده GFS و داده حجیمی که توسط این سیستمفایلی مدیریت میشود به معنی هزینهها و اثرات جانبی مشخصی است و این اثرات جانبی باعث میشود تا سیستمفایلی GFS برای نصب روی یک سرور مستقل و منفرد گزینه نامناسبی باشد . این سیستم فایلی باید جامعیت داده ها را تضمین نموده و سربار ناشی از فرآیند همزمانسازی را نیز به حداقل برساند تا از هر گونه کاهش کارآیی جلوگیری شود.
1-4 معماری سیستم فایلی GFS
سیستمفایلی GFS از سه لایه تشکیل میشود. یک کلاینت GFS که وظیفه آن پاسخگویی به درخواست داده از