بخشی از مقاله
1-5- مقدمه
به عنوان يك نتيجه از انفجار اطلاعات مداوم با بسياري از سازمانها غرق در دادهها شدند و در نتيجه شكاف داده يا ناتواني براي پردازش اين اطلاعات و استفاده از آن به طور موثر با يك سرعت مهيج در حال افزايش است. محاسبه داده متمركز يك مثال محاسباتي جديد را معرفي مينمايد (كوزس، اندرسون، البرت، گورتون، گراسيو 2009) كه ميتوان شكاف دادهها را با استفاده از پردازش موازي قابل مقايسه مورد خطاب قرار دهد و به دولت و سازمانهاي تجاري و محيطهاي تحقيق اجازه دهد تا مقادير عظيمي از دادهها را پيش ببرد و نظرات قبلي
كاربردهاي اجرايي غير عملي و اجرا نشدني است. محاسبات كلود فرصتي براي سازماندهي كردن با منابع دروني محدود شده ارائه ميدهد تا كاربردها محاسباتي دادهها فشرده مقياس بالا در يك حالت اثربخش اجرا شود. درگيريهاي اساسي از محاسبات داده فشرده در حال مديريت و پيش برد حجم داده ها در حال رشد به طور تشريحي هستند، به طور چشمگير چرخهها تحليلي داده هاي وابسته در حال كاهش هستند كه كاربردهاي به موقع و عملي را و الگوريتمهاي جديد در حال توسعه را پشتيباني نمايند كه ميتوانند
مقياسگذاري كند تا مقدار عظيمي از دادهها را جستو جو و پيش ببرد.محققين در Lexis Nexis معقتند كه جواب به اين درگيرها مهاري نرمافزار و سخت افزار سيستمها كامپيوتري جامع است كه براي پردازش موازي از كاربردها محاسباتي دادهها فشرده طراحي شده است. اين فصل درگيريهايي از محاسبات دادههاي فشرده را كاوش ميكند و يك مقايسه جامع از معماريهاي سيستم موجود از نظر تجاري ارائه ميدهد كه شامل: ابر كامپيوتر تحليلي داده هاي Lexis Nexis(DAS) ميشود كه به گروه محاسباتي كارايي بالاي Lexis
Nexis(HPCC) و Hadoop، يك منشأ باز انجام براساس معماري ميكريديوس گوگل برميگردد. محاسبات كلود بر توانايي تأكيد ميكند تا منابع محاسباتي را چنان يد بدون يك سرمايهگذاري صادقانه جامع در پيدايش نياز است و هزينه هاي عملكرد مداوم همراه شده مقياس گذاري نمايد. (ناپر و بينيتنسي و 2009، ريس 2009، ولت والنسن پتر، 2009) خدمات محاسباتي كلود به طور معمولي به 3 مدل طبقهبندي ميشود:
(1) پيدايش (زير سازه) به عنوان يك خدمت (Iaas) خدمت شامل تهيهي نرم افزار و سخت افزار براي پردازش،ذخيره سازي داده ها، شبكهها و هر زير ساخت مورد نياز براي پيشرفت سيستمهاي در حال اجرا ميشود و كاربردهايي كه به طور معمول در يك مركز داده توسط كاربر مديريت ميشود نيازمند است. (2) پايگاهي به عنوان يك سرويس (Paas).سرويس
شامل: زبانها و ابزار برنامهريزي فشرده ميشود و يك پايگاه تحول كاربردي كه توسط ارائه دهنده سرويس گروه بندي شده تا پيشرفت و تحويل كاربردي كه توسط ارائه دهنده سرويس گروهبندي شده تا پيشرفت و تحويل كاربردهاي كار بر نهايي را پشتيباني نمايد و (3) نرمافزاري به عنوان يك سرويس (Saas). كاربردهاي نرم افزاري گروهبندي شده توسط ارائهدهنده سرويس براي جايگزيني كار به نهايي ارائه و مديريت ميشود تا اين كاربردها را با كاربردهاي براساس وب به كار اندازد (لنك، كليفر، نيميس، تاي و سندهولم 2009، مل و گرانس،
2009، واكيورو، رودرو، سرينفر، كاكرس و ليندنر، 2009، ويگا، 2009) كاربردهاي محاسباتي داده هاي فشرده با استفاده از مدل aas (اجراي شوند و به تهيه گروههاي قابل مقايسه از پرداززش گره، براي محاسبات موازي دادهها اجازه دهد تا از معماري نرم افزاري متنوع استفاده مايد يا مدل Paas يك پردازش كامل را ارائه دهد و محيط پيشرفت كاربردي شامل هر دو جزء پايگاه و زير ساختهايي از قبيل برنامه ريزي زبانها و افزارهاي گسترش كاربردها مي شود. محاسبات دادههاي فشرده ميتواند يك كلود عمومي اجرا شود پايگاه و زير ساخت كلود به طور علوم از يك ارائه دهنده سرويس كلود موجود است از قبيل كلود محاسباتي الاستيك آمازون (EC2) و ريديوس مپ الاستيك يا به عنوان كلود خصوصي (پايگاه و زير ساخت كلود
منحصراً براي يك سازمان خاص اجرا ميشود و ممكن است به طور دروني يا ظاهري براي سازمان وجود داشته باشد) (مل و گرانس، 2009). اجراهاي aas و Paas براي محاسبات فشردهي دادهها ميتواند به طور ديناميك در محيطها پردازش مجازي شده براساس زمان بندي كاربرد و نيازمنديها پردازش داده ما تهيه شوند يا ميتوانند به عنوان پيكر بندي دسترسي پذيري بالاي پايدار اجرا شود. يك پيكربندي پايدار مزيت اجرايي دارد از آنجا كه آن از زير ساخت ما اختصاصي به جاي سيرورهاي مجازي شده مشترك با ديگر كاربردها استفاده ميكنند.
1-1-5- كاربردهاي محاسباتي فشردهي داده ها: روشهاي پردازش موازي ميتواند به طور كلي به عنوان يا محاسباتي فشرده يا دادههاي فشرده طبقه بندي شوند (اسكليكرن و تاليا 1998 و گورتن و گرينفيلد، اسزالاي و ويليامز 2008، جان استون، 1998) محاسبات فشرده قبلاً استفاده شد تا برنامههاي كاربردي را كه كران محاسباتي هستند توصيف نمايد چنين كاربردهايي بسياري از زمان اجرايشان را براي نيازها محاسباتي در مقابل I⁄O وقف مينمايند و به طور معمول به حجمهايي كوچكي از دادهها نياز دارند. پردازش موازي از كاربردهاي
محاسبات فشرده و به طور معمول شامل الگوريتمها اختصاصي در حال موازي شدن با يك فرايند كاربردي و تجزيه فرآيندي كاربرد جامع درون كارها، جدا ميشود كه ميتواند پس بر روي پايگاه محاسباتي مناسب به طور موازي اجرا شود تا كارايي بالاتر جامعه را نسبت به پردازش سيري اجرا نمايد. در كابردهاي محاسباتي فشرده عملكرد ما چند گانه به طور همزمان با هر آدرس دهي عمليات يك مسقت خاص از مشكل انجام ميشود. اين اغلب به عنوان تطابق نقشي يا تطابق كنترل به كار ميرود. (Abbas,2004).
5- تكنولوژيهاي داده فشرده براي محاسبات كلود
دادههاي فشرده استفاده مي شود تا كاربردهايي را كه گروه I⁄O يا با يك نياز براي پردازش حجمهاي بزرگ از داده هستند را توصيف نمايد (گورتون و همكاران 2008، ژان استون 1998، گوخاله و كوهن و يو و سيلر، 2008). چنين كاربردهايي بسياري از زمان پردازش را به I⁄O و حركت دادهها اختصاص ميدهد. پردازش موازي از كاربردهاي داده فشرده به طور معمول شامل قسمت بندي كردن يا بخش پذيري كردن داده ها درون بخشهاي چندگانه ميشود كه ميتواند به طور مستقل با استفاده از همان برنامه كاربردي قابل اجرا و موازي بروي يك پايگاه محاسباتي مناسب پرداش شود و پس دوباره نتايج توليد شده از دادههاي خروجي كامل شده از برانمه اصلي به زبمان سمبليك تبديل ميكند. (نيلند، پرنيس، گلوبرگ، ميلس، 2000).
توزيع انبوه بزرگتر از داده، بسيار مفيد در پرازش موازي از دادهها وجود دارد. گورتون و همكاران (2008) بيان كردند كه پردازش داده انبوه به طور معمول بر مقياس خطي بر طبق سايز داده نيازمند است و بسيار متمايل به موازي شدن مستقيم هستند. درگيريهاي اساسي براي محاسبه دادههاي فشرده بر طبق گورتون و همكاران (2008) در حال مديريت و پيشبرد حجم داده هاي در حال رشد به طور تشريحي هستند و به طور چشمگير چرخههاي تحليلي داده هاي وابسته را كاهش ميدهند تا كاربردهاي به موقع و عملي را و نيز الگوريتمهاي جديد در حال توسعه را پشتيباني نمايد كه ميتواند مقياس گذاري نمايد تا مقادير عظيمي از دادهها را جستجو و پيش ببرد. محاسبات كلود ميتواند اين درگيريها را با اين قابليت مورد خطاب قرار دهد كه منابع محاسباتي جديد را تهيه و يا منابع موجود را گسترش ميهند تا قابليتهاي محاسباتي موازي را ارائه دهد كه مقياس حجمهاي داده در حال رشد را هماهنگ مي نمايد.(گروس من، 2009).
12-5- تطابق دادهها
معماران سيستم كامپيوتر ميتوانند كاربردهاي موازي دادهها را پشتيباني نمايند كه يك راهحل ذاتي براي مقياس ترابايت و پتابايت نيازهاي پرازش هستند (نيلند و همكاران 2000، راوي چاندران، پانتل و هووي 2004) بر طبق آگيچتين و گانتي (2004) موازي كردن يك تناوب جذاب براي پردازش ميباشد كه به شدت مجموعههاي برگي از دادهها از قبيل بيليونها اسناد بر روي وب را بررسي ميكند (آگيچتين 2004). نيلند و همكاران تطابق دادهها را به عنوان يك محاسبه به كار گرفته شده به طور مستقل براي هر آيتم داده از يك مجموعه داده معني ميكند كه اجازه درجهايي از تطابق را ميدهد كه با حجمي از دادهها مقياس گذاري ميشود.
با توجه به عقيده نيلند و همكاران (2000) دليل بسيار مهم براي گسترش كاربردهاي موازي دادهها پتانسيلي براي اجراي قابل مقايسه است و ممكن است در چندين ترتيب از مقدار بهود اجرا ناشي شود. مسئله كليدي با كاربردهاي در حال توسعه و استفاده از تطابق داده ها انتخاب الگوريتم و استراتژي براي تجزيه دادهها،تراز بار بروي گرههاي پردازش، ارتباطات گذرنده بين گروهها و دقت جامع از نتايج هستند. (نيلند و همكاران، 2000، رنكوزوگولاري و دواركاداس، 2001). نيلند و همكاران (2000) نيز متوجه شدند كه گسترش كاربر و موازي داده ميتواند شامل پيچيدگي برنامه نويسي اساسي شود تا مشكل را در زمينه ابزارهاي برنامه نويسي موجود معني كند و محدوديتهايي از معماري هدف را مورد خطاب قرار دهد. استخراج اطلاعات از و فهرست سازي از اسناد وب به طور معمول از پردازش دادههاي فشرده است كه ميتواند منافع كارايي مهم را از اجراهاي دادههاي موازي مشتق كند از آنجائيكه وب و ديگر انواع مجموعههاي اسناد ميتواند به طور معمول به طور موازي پردازش شود (آگيچتين)
3-1-5- شكاف دادهها
رشد سريع از اينترنت و شبكه وسيع جهاني منتهي به مقادير وسيع از اطلاعات موجود به صورت آنلاين ميشود. به علاوه سازمانهاي دولتي و بازرگاني مقادير زيادي از هر دو اطلاعات ساخته يافته و غير ساخت يافته ايجاد مينمايد كه نياز دارد پردازش، تحليل و به هم مرتبط شود. ونيتون سرف (Vinton cerf) از گوگل اين را به عنوان يك نزول ناگهاني اطلاعات توصيف ميكند و بيان ميدارد كه ما بايد انرژي اينترنت را در حضور اطلاعات با كابلهاي مجزا به كامپيوتر وصل كنيمكه آن اطلاعات ذخيره شده ما را رها نسازد (كرف، 2007)
يك گزارش هيئت دولت به ضمانت EMC مقدار اطلاعات كه به طور رايج به شكل ديجيتال در سال2007 در 281 بيليونها بايت ذخيره شده و نيز رشد مركب كل در 57% تا اطلاعاتي در سازمانهاي در حال رشد در يك سطح و سرعت سريعتر برآورد ميكند (گانتر و همكاران 2007).
در مطالعه ديگري از انفجار اطلاعات آن برآورد شده بود كه 95% از همه اطلاعات جاري در شكل بدون ساخت با نيازهاي پردازش داده افزايش يافته وجود دارد كه با اطلاعات ساخت يافته مقايسه ميشود (ليمن و واريان2003). ذخيره سازي، مديريت، دسترسي و پردازش از اين مقدار وسيع از دادهها يك نياز اساسي را معرفي مينمايد و يك درگيري پهناور به منظور اينكه نياها براي تحقيق، تحليل، استخراج و تجسم كردن اين داده ها به عنوان اطلاعات رضايت بخش نمايد. (برمن 2008). در سال 2003 ليكيس نيكسيس اين مسئله را به عنوان «شكاف داده» معين ميكند توانايي جمع كردن اطلاعات دور از گنجايش سازماندهي پيش پا افتاده است تا از آن به طور موثر استفاده نمايد. سازمانها كاربردهايي را بنا كردند تا ذخيره سازي كه آنها در دسترس دارند پر نمايد و ذخيره سازي بسازد كه مناسب كاربردها و دادههايي است كه آنها دارند. اما آيا سازمانها ميتوانند چيزهاي مفيدي با اطلاعاتي انجام دهند كه آنها مجبورند استفاده كامل و نو از منابع داده بدون بهرهبرداري آنها داشته باشند بدست آورند؟
چنانچه داده هاي سازماني رشد كند چگونه آيا شكاف داده مورد خطاب قرار ميگيرد؟ محقيق در ليكسيز تكسيز معتقدند كه جواب معماري نرم افزاري و سخت افزاري سيستمهاي كامپيوتري قابل مقياس گذاري است كه براي كاربردهاي محاسباتي دادههاي فشرده طراحي شده كه بتواند بيليونها پردازش از ثبتها را در هر ثانيه مقياس گذاري كند. (BORPS) .
توجه: اصلاح BORPS توسط seisint در سال 2002 معرفي شد. سيسينت توسط Lexis Nexis پيدا شده بود). چه چيزي مشخصههايي از سيستمهاي محاسباتي دادههاي فشرده و چه معماريهايي از زسيستم براي سازمانها در دسترسند تا خطر و سرمايه گذاري صادقانه را در زير ساخت كاهش داد و به مدل توجه فوري اجازه داد؟ اين فصل اين مسائل را كاوش ميكند و يك مقايسه از معماريهاي سيستم موجود از نظر تجاري ارائه ميدهد.
2-5- مشخههايي از سيستمهاي محاسباتي دادههاي فشرده
بنياد علوم علمي معتقد است كه محاسبات دادههاي فشرده نياز به يك مجموعه متفاوت بنيادي از اصولها نسبت به روشهاي محاسباتي جاري دارد (NSF 2009). از طريق يك برنامه تأمين وجه در حوزه علم اطلاعات و كامپيوتر و مهندسي، NSF در حال جستجو افزايش فهم قابليتها و محدوديتهايي از محاسبات دادههاي فشرده است حوزههاي كليدي از كانون شامل:
روشهاي برنامه نويسي موازي براي مورد خطاب قرار دادن پردازش موازي از داده بر روي سيستمهاي دادههاي فشرده
چكيدههاي برنامه نويسي شامل مدلها، زبانها و الگوريتمها كه اجازه يك بيان بديهي از پرازش موازي داده ميدهد.
طرحي از پايگاههاي محاسباتي دادههاي فشرده كه سطح بالا از قابليت اطمينان، راندمان، دسترس پذيري، مقياس پذيري را ارائه ميدهد.
تشخيص كاربردهايي كه ميتواند اين مثال محاسباتي را بهرهبرداري كند و تعيين نمايد كه چگونه آن بايد استنتاج شود تا كاربردهاي دادههاي فشرده پديدار شده را حمايت نمايد.
پروژههاي ملي شمال غرب اقيانوس آرام محاسبات دادههاي فشرده را به عنوان جمع آوري داده، مديريت، تحليل و فهم داده ها در حجمها و سرعتهايي كه مرزهايي از تكنولوژيهاي جاري را به جلو هل ميدهد (كوزس و همكاران 2009، پنل 2008). آنها معتقدند كه حجمهاي داده در حال رشد به طور سريع را مورد خطاب قرار دهد و پيچيدگي نياز به پيشرفتهاي مهم در نرم افزار و سخت افزار و گسترش الگوريتم دارد كه بتواند به سهولت با سايز داده مقياس گذاري شود و تحليلهاي به موقع و قابل اجرا و نتايج پردازش را ارائه دهد. معماري HP cc توسط Lexis Nexis توسعه يافته تا چنين پيشروي در قابليتها را معرفي نمايد.
1-2-5- روش پردازش
پايگاههاي محاسباتي دادههاي فشرده جاري از يك روش پردازش موازي «تقسيم و غلبه كردن» استفاده ميكند كه در حال تركيب پردازشگرهاي چند گانه و ديسكها در گروههاي محاسباتي بزرگ متصل شده با استفاده از شبكه ها و تعويضهاي ارتباطات سرعت بالا هستند كه به دادهها اجازه ميدهد در ميان منابع محاسباتي موجود جزءبندي شده باشد و به طور مستقل پيش رود تا كارائي و مقياس پذيري را براساس مقدار دادهها انجام دهند (شكل 1-5).
بويا، يئو، ونوگوپال، بروبرگ و برانديك (2009) گروهها را به عنوان يك نوع سيستم موازي شده و توزيع شده معين مينمايد كه شامل يك مجموعه كامپيوترها ميشود كه به تنهايي متصل شدند و با يكديگر به عنوان يك منبع محاسباتي جامع تنها كار ميكند. اين روش براي پردازش موازي اغلب به عنوان يك روش «صفر به اشتراك گذاشته شده» برميگردد از آنجائيكه هر گروه شامل پردازشگر، حافظه محلي و منابع ديسك صفر به اشتراك گذاشته با ديگر گرهها در گروه ميشود.
در محاسبه موازي اين روش به طور مناسب براي مشكلات پردازش دادهها بررسي ميشود كه به طور ناهماهنگ موازي هستند، به طور مثال جائيكه آن نسبتاً آسان است تا مشكل را درون يك تعدادكارهاي موازي جدا ميشود و هيچ وابستگي يا ارتباطي وجود ندارد كه بين كارها نسبت به مديريت جامع از كارها نياز باشد. اين انواع از مشكلات پردازش داده به طور ذاتي مناسب با شكلهاي متنوع از محاسبات توزيع شده هستند كه شامل گروهها و رشتههاي داده و محاسبات كلود ميشود.
2-2-5- مشخصههاي مشترك
چندين مشخصه مشترك مهم از سيستمهاي محاسباتي داده هاي فشرده وجود دارد كه آنها را از ديگر شكل هاي محاسبه تشخيص ميدهد. اولين اصول مجموعه از داده و برنامهها يا الگوريتمها است كه محاسبات را انجام ميدهد. براي انجام كارايي بالا در محاسبات داده فشرده، آن مهم است كه حركت داده را به حداقل برساند (گري، 2008). در تباين مستقيم با ديگر انواع از محاسبات و ابر محاسبات از داده ذخيره شده در يك مخزن جدا استفاده ميكند و يا به كار ميبرد و دادهها را براي سيستم پردازش براي محاسبات انتقال ميدهد و محاسبات دادههاي فشرده از دادههاي توزيع شده و سيستمهاي فايل توزيع شده استفاده ميكندكه در آن دادهها در مقابل يك گروه از گرههاي پردازش قرار داشت و به جاي حركت
داده برنامه يا الگوريتم به گرههايي يا داده انتقال يافته كه نياز به پردازش داشته باشد. اين اصل «حركت كد به داده» كه درون معماري پردازش موازي دادهها طراحي شده بود توسط Seasint در سال 2003 اجرا شد و به شدت قابل اجرا است از آنجائيكه سايز برنامه معمولاً در مقايسه با مجموعه دادههاي بزرگ پردازش شده توسط سيستمهاي دادههاي فشرده كوچك است و در بيشتر شبكههاي كم ترافيك ناشي ميشود از آنجائيكه دادهها ميتواند به طور محلي به جاي مقابل شبكه خوانده شود. اين مشخصه اجازه پردازش الگوريتمها را ميدهد تا بروي گرهها اجرا شود آنجا كه اقامت دادهها در حال كاهش مازاد سيستم و افزايش اجرا هستند (گوركون و همكاران، 2008).
مشخصه مهم دوم از سيستمهاي محاسبه فشرده دروني مدل برنامه نويسي به كار گرفته شده است. سيستمهاي محاسبه فشرده دادهها يك روش مستقل ماشيني به كار ميبرد كه در آن كاربردها برحسب عمليات سطح بالا بر روي دادهها بيان ميشود و سيستم زمان اجرا به طور شفاف زمان بندي، اجرا، تراز بار، ارتباطات و حركت برنامهها و دادهها را در مقابل گروه محاسبه توزيع شده كنترل مينمايد (بريانت 2008). چيكده برنامه نويسي و ابزارهاي زبان اجازه پردازش ميدهد تا برحسب جريانهاي داده بيان ميشود و تغيير شكلها زبانهاي برنامه نويسي جريان داده جديد را هماهنگ ميكند و كتابخانههاي متصل به شبكه از الگوريتمهاي دستكاريدادههاي مشترك از قبيل مرتب نمودن را هماهنگ مي:ند. ابر محاسبات
قراردادي و سيستمهاي محاسبه توزيع شده به طورمعمول مدلهاي برنامه نويسي وابسته ماشيني را استفاده ميكند كه ميتواند نيازمند كنترل برنامه نويس سطح پايين از پردازش باشد و ارتباطات گره از زبانهاي برنامه نويسي موثر قراردادي استفاده ميكند و نيز از پكيجهاي نرم افزاري اختصاص يافته استفاده مي نمايد كه پيچيدگي را به كار برنامه نويسي موازي اضافه نمايد و بهرهوري برنامه نويس را كاهش ميدهد.
يك مدل برنامه نويسي وابسته ماشيني نيز نيازمند ميزان سازي مهم ميباشد و تا حد زيادي به نقاط تنها از نقص، حساس ميباشد. مشخصه سوم مهم از سيستمهاي محاسبات دادههاي فشرده تمركز بر روي قابليت اطمينان و دسترسپذيري است. سيستمهايي در مقياس بزرگ با صدها يا هزاران گرههاي پردازش به طور ذاتي نسبت به نقصهاي سخت افزار، خطاهاي ارتباطات و ويروسهاي نرم افزاري حساس هستند. سيستمهاي محاسبات دادههاي فشرده طراحي شدند تا نشان دهنده نقص باشند. اين شامل كپيهاي اضافي از تمامي فايلهاي دادهها بر روي ديسك و ذخيره سازي از نتايج پردازش ميانجي بر روي ديسك، كشف اتوماتيكي از گرهها يا نقصهاي پردازشگر و محاسبات دربارهي انتخابي از نتايج ميشود. يك گروه پردازشگر براي محاسبات فشرده دروني پيكربندي شده است و به طور معمول ميتواندعمليات را با يك تعداد كاهش يافته از گرهها ادامه دهد. يك نقص گره با
بازيافت ناپيدا و اتوماتيك از پردازش ناقص به دنبال ميآيد. مشخصه نهايي مهم از سيستمهاي محاسباتي فشرده دروني به طور ذاتي مقياس پذيري از معماري نرم افزار و سخت افزار اساسي است. سيستمهاي محاسباتي فشرده دروني ميتواند به طور معمول در يك روش خطي مدرج شود تا واقعاً هر مقدار از داده را اصلا حنمايد يا با نيازهاي كارايي زمان حساس توسط اضافه كردن گرههاي پردازش اضافي به يك پيكربندي سيستم برخورد نمايد به منظور اينكه بيليونها ثبت در هر ثانيه از ميزان پردازش انجام شود. تعدادگرهها و كارهاي پردازش براي كاربرد خاص تعيين شده كه ميتواند بسته به سخت افزار، نرم افزار، ارتباطات و معماري سيستم فايل توزيع شده متغير باشد. اين مقياس پذيري اجازه بررسي را به مشكلات محاسبات ميدهد تا به دليل مقدار داده مورد نياز يا مقدار زمان پردازش موردن ياز رام نشدني باشد تا اكنون فرصتهاي پيش آمده براي پيشرفتهاي جديد درتحليل دادهها و پردازش اطلاعات عملي و امكان پذير باشد.
3-2-5- محاسبات شبكه
يك مثال مشابه محاسبات به عنوان محاسبات شبكه شناخته شده كه به طور اوليه در محيطهاي تحقيق محبوبيت به دست آورده است (آباس، 2004). يك شبكه محاسبات به طور معمول در طبيعت نامتجانس است (گرهها ميتواند پردازشگر متفاوت، حافظه و منابع ديسك داشته باشد) و شامل كامپيوترهاي مختلف چندگانه در سراسر سازمانها ميشود و اغلب از نظر جغرافيايي از ارتباطات شبكه حوزه وسيع كه معمولاً با پهناي باند نسبتاً كم است استفاده ميشود. شبكهها به طور معمول استفاده ميشوند تا مشكلات محاسبهاي پيچيده را حل نمايند كه محاسبات فشرده هستند و تنها به مقدار كوچكي از داده ها براي هر گره پردازش نيازمندند. تغييرات شناخته شده به عنوان شبكههاي داده به مخزنهاي مشترك داده اجازه ميدهد كه توسط يك شبكه در دسترس باشد و در پردازش كاربردي استفاده شود، هرچند پهناي باند كم از شبكههاي داده تأثير آنها را براي كاربردهاي دادههاي فشرده مقياس بزرگ محدود ميكند.
در مقابل سيستمهاي محاسبات دادههاي فشرده به طور معمول در طبيعت نامتجانس هستند (گرهها در گروه محاسبات پرداززشگر يكسان، حافظه و منابع ديسگ وارد) و از ارتباطات پهناي باند بالا بين گرهها از قبيل سويچهاي اترنت گيگابايت استفاده ميكند و در نزديكي در يك مركز داده با استفاده از سخت افزار چگالي عالي از قبيل سرورهاي تيغهاي كه به طور قفسه سوار شده بسته ميشود. سيستم فايل منطقي به طو رمعمول شامل تمامي ديسكهاي موجود بر روي گرهها در گروه و فايل هاي دادهها ميشود كه در سراسر گرهها در مقابل مخزن دادههاي مشترك جدا از قبيل يك شبكه حوزه مخزن توزيع ميشود كه نياز دارد دادهها براي پردازش به سمت گرهها حركت كنند. از نظر جغرافيايي سيستمهاي شبكه توزيع شده بسيار مشكلند كه مديريت شوند و نسبت به سيستمهاي محاسبات دادههاي مشترك كمتر معتبر و كمتر اين هستند كه به طور معمول در محيطهاي امن مركز داده ها قرار دارد.
4-2-5- قابليت اجرا محاسبات كلود
محاسبات كلود ميتواند قالبهاي زيادي به كار گيرد. بسيار كلود را به عنوان اينترنت يا وب تصور مي كنند كه اغلب در اين حالت نمايش داده ميشوند، اما يك تعريف بسيار كلي اين است كه محاسبات كلود از محل منابع محاسبات تغيير ميكند و زير ساخت كاربردهاي محاسبات را براي شبكه ارائه ميدهد. (واكورو و همكاران، 2009).
دسترس پذيري نرم افزار از طريق كلود يك سرويس ميشود، پايگاههاي استفاده و دسترس پذيري از طريق كلود گسترش مييابد و كاربردهاي جديدي را ارائه ميدهد تا يك خدمت شود و سخت افزار و نرم افزار زير ساخت و مركز دادههاي مجازي و محيطهاي قابل دسترس را ايجاد مينمايد كه از طريق كلود يك خدمت ميشود (ويس، 2007).
ديگر مشخصه ها معمولاً با محاسبات كلود همراه است كه شامل كاهش در هزينههاي همراه با مديريت منابع سخت افزار و نرم افزار است (هايس 2008) توجه فوري دسترسي به كاربردهاي نرم افزار و منابع محاسبات بنا به تقاضا ميباشد (واكورو و همكاران، 2009) تأمين ذخيره ديناميك از زيرساخت و مقياس پذيري از منابع سايز داده و نيازهاي محاسبات را هماهنگ ميكند كه به طور مستقيم براي مشخصههايي از محاسبات دادههاي فشرده قابل اجرا است (گروس من وگو 2009). بويا و همكاران (2009) تعريف جامع از يك كلود را ارائه ميدهد: يك كلود يك نوع از سيستم توزيع شده و موازي است كه شامل يك مجموعه از كامپيوترهاي مجازي شده و اصتال شده دروني ميباشد كه به طور ديناميك تهيه شده و به عنوان يك يا چند منابع محاسبات متحد شده براساس توافقات سطح سرويس را معرفي مي نمايد كه از طريق مذاكره بين ارائه دهنده سرويس و مصرف كننده ايجاد ميشود.
مدل محاسبات كلود به طور مستقيم براي مشخصههاي محاسبات دادههاي فشرده قابل اجرا است كه زير ساختي به عنوان يك خدمت (Iaas) و پايگاه به عنوان يك خدمت (paas) هستند.
Iaas (زير ساخت به عنوان يك خدمت) به طور معمول شامل يك مخزن بزرگي از منابع مجازي شده داراي توانايي پيكرسازي ميشود كه ميتواند شامل سخت افزار، سيستم عملكرد، ميان افزار و پايگاههاي پيشرفت يا ديگر خدمات نرم افزار ميشود كه ميتواند درجه دار باشد تا بارهاي پردازش متنوع را تطبيق ميكند (واكورو و همكاران، 2009). گروههاي محاسبات به طور معمول براي پردازش دادههاي دروني استفاده ميشود كه ميتواند در اين مدل ارائه شده باشد. محيطهاي پردازش از قبيل مپارديوس هوپ و Hpcc ليكيس نكسنير است كه شامل قابليتهاي پايگاه پيشرفت اجرايي به علاوه اجراي زير ساخت اساسي پايگاه به عنوان يك مدل خدمت (paas) ميشود.
كاربردها با يك درجه بالايي از تطابق دادهها و يك نياز كه مجموعه دادههاي بسيار بزرگ را پيش ميبرد و ميتواند مزيت محاسبات كلود و صدها استفاده Iass و paas از كامپيوترهاي تهيه شده براي يك مدت كوتاه به جاي يك يا چند تعداد كوچك از كامپيوترها براي مدت طولاني به كار گرفته شود. (آرمبراست و همكاران، 2009)
برطبق آرمبرلست و همكاران در گزارش تحقيقاتي بر كلي دانشگاه كاليفرنيا (آرمبراست و همكاران، 2009)
اين مدل پردازش به طور ويژه به خوبي با تحليلهاي داده و ديگر كاربردها مناسب شده كه ميتواند از پردازش دستهاي موازي سود برد. هرچند تحليل منافع و هزينه كاربر بايد نيز شامل هزينه حركت مجموعه دادههاي بزرگ درون كلود به علاوه تسريع و هزينه پردازش كمتر ارائه شده توسط مدلهاي Iass و Paas ميشود.
3-5- معماريهاي سيستم دادههاي فشرده
يك تنوعي از معماريهاي سيستم براي كاربردهاي تحليل دادهها در مقياس بزرگ و دادههاي فشرده اجرا مي شود شامل سيستمهاي مديريتي پايگاه دادههاي رابطهاي توزيع شده و موازي ميشود كه به طور مهم پيوسته گروههاي بي ارزش مشترك از گرههاي پردازش براي بيش از دو دهه موجود ميباشد (پاولو و همكاران، 2009). اينها شامل سيستمهاي پايگاه دادهها از ترادتيا، نتيزا، ورتيكا و اگزاديتار اوراسل و ديگران ميشود كه پايگاههاي دادههاي موازي كارايي عالي را ارائه ميدهد. اگرچه اين سيستمها اين توانايي را دارند تا كاربردهاي موازي به كار گرفته شود و سوالات در زبان SQL بيان شود، آنها به طور معمول پايگاههاي پردازش همه منظوره نيستند و معمولاً به عنوان يك برنامه كارهاي زمينهايي اجرا مي شود تا يك سيستم پردازش كاربردي نرم افزار نهايي را جدا نمايد. اگرچه اين روش منافعي را ارائه ميدهد هنگاميكه دادهها به كار گرفته ميشود به طور اوليه در طبيعت ساخته ميشود و به
آساني درون محدوديتهايي از يك پايگاه داده رابطهايي آماده ميشود و اغلب براي كاربردهاي پردازش تراكنشها بهتر ميباشد، بيشترين رشد دادهها با دادههايي به شكل غير ساختار است (گانتز و همكاران 2007) و مثالهاي پردازش جديد يا مدلهاي دادههاي بسيار انعطاف پذير مورد نياز ميباشد. شركتهاي اينترنتي از قبيل گوگل، ياهو، مايكروسافت، فيس بوك و ديگران به يك روش پردازش جديد نياز دارند تا به طور كارآمد با مقدار عظيمي از دادههاي وب براي كاربردهايي از قبيل موتورهاي جستجو و شبكه اجتماعي برخورد نمايد. به علاوه بسياري از سازمانهاي دولتي و تجاري با دادههايي غوطه ور شدند كه نميتواند به طور موثر پردازش،پيوند يافته و با روشهاي محاسبه سنتي تحليل يافته شود. چندين راهحل پديدار شد كه شامل پيشگام شدن معماري Map Reduce توسط گوگل ميشود و اكنون دسترسي به يك اجراي منشأ باز هادوپ ناميده ميشود كه توسط ياهو، فيس بوك و ديگران
استفاده ميشود. Lexis Nexis، رهبر صنعت تصديق شده در خدمات اطلاعاتي نيز يك پايگاه مقياس پذير را براي محاسبه دادههاي فشرده گسترش و اجرا كرد كه توسط ليكسيس نكسيس و ديگر سازمانهاي دولتي و تجاري استفاده ميشود تا حجمهاي زيادي از دادههاي ساختار شده و غير ساختار شده پيش ببرد. اين روشها توضيح داده خواهد شد و برجسب ساختار كليشان، مدل برنامهنويسي، سيستمهاي فايل و قابليت اجرا كه بتواند در بخش بعدي محاسبه شود مقايسه گردد. روشهاي مشابه با استفاده از گروههاي
محاسبات كالا شامل بخش/ حوزه (گرونس من و گو 2008، گروس من وگو، سابالاوژانگ 2009،گو، گروس من 2009) دامنه/ گيتي (چايكن و همكاران، 2008) درياد لينك (يو، گوندا و ايسارد 2009) منيدر (لور و همكاران 2008) در دسته شبكهايي (ليو و اوربان 2008) ميشود كه اخيراً در ادبيات توصيف شده و نيز براي كاربردهاي محاسبات كلود دادههاي فشرده مناسب است و تناوبهاي اضافي را معرفي مينمايد.
1-3-5- Map Reduce گوگل
معماري مپ رديوس و مدل برنامهنويسي پيشگام شده توسط گوگل يك مثالي از معماري سيستمهاي پيشرفته است كه براي پردازش و تحليل پايگاه داده هاي بزرگ طراحي شده و به طور موفقيت آميز توسط گوگل در بسياري از كاربردها استفاده ميشود تا مقدار عظيمي از دادههاي خام وب را پردازش نمايد (دين و گماوت 2004) معماري مپ رديوس به برنامه نويسها اجازه ميدهد تا از يك سبك برناهم نويسي نقشي استفاده ننمايند تا يك كار نقشه را ايجاد نمايند كه جنت مقدار كليدي همراه شده با دادههاي ورودي را پردازش مي كند تا يك مجموعه از جفت مقدار كليدي ميانه با همان كليد ميانه توليد نمايد (دين و گماوت 2004) با توجه به دين و گماووت (2004) برنامههاي مپ رديوس ميتواند استفاده شود تا دادههاي مشتق شده را از اسنادي از قبيل شاخصهاي وارونه استخراج نمايد و پردازش به طور خودكار توسط سيستم موازي ميشود كه بر روي گروههاي زيادي از ماشينهاي نوع مواد اوليه اجرا ميشود، كه تا حد زيادي با هزاران ماشين ميزان پذيري است. از آنجائيكه سيستم به طور خودكار به جزئيات جزءبندي دادههاي ورودي زمان بندي و كارهاي اجرايي در سراسر يك گروه پردازش توجه ميكند و مديريت ارتباطات بين گرهها، برنامه نويسها بدون تجربه در بنرامه نويسي موازي ميتواند به آساني از محيط پردازش توزيع شده استفاده نمايد.