بخشی از مقاله

چکیده

مجموعه بسیار بزرگ و پیچیده از دادهها که پردازش آنها با ابزارهای مدیریتی و برنامه های کاربردی سنتی امکانپذیر نیست. این مقاله پیشرفت های اخیر در زمینه دادههای بزرگ و شبکه های داده بزرگ را نشان میدهد. از روشهای مورد استفاده برای پردازش دادههای جدید، می توان محاسبات ابری و نگاشت کاهش را بیان کرد . یکی دیگر ازروشها شبکه تجمع است که بطور قابل توجهی حجم حمل ونقل دادههارا کاهش میدهد . از روشهای بسیار کاربردی در دنیای واقعی میتوان روش SDN را نام برد که بسیار قابل توجه است.

دلایل استفاده از سیستم خود تنظیم ستاره دریائی در این مقاله کاملا مورد بحث قرار گرفته است. عملکرد هادوپ و نحوه شکل گیری و استفاده از آن در این مقاله بیان شده است . شبکه های تلفن همراه به عنوان رقبای اینترنت سنتی مورد بررسی قرار گرفتهاند و به صورت کلی تلاشهای صورت گرفته در این زمینه به چهار دسته تقسیم میشود: -1 تلاشهای مربوط به فناوری دادههای بزرگ کلاسیک مانند ذخیرهسازی، تعریف نرم افزار شبکه، حمل ونقل دادهها و تجزیه و تحلیل دادهها. -2 جنبه های مهم دادههای بزرگ در محاسبات ابری مانند مدیریت منابع و بهینهسازی اجرای برنامه. -3 موتورهای جستجو. -4 شبکههای تلفن همراه.موارد گفته شده در این مقاله به صورت مستقل مورد بحث و بررسی قرار می گیرد.

مقدمه

مجموعهای از دادههای بسیار بزرگ که با ابزارهای مدیریت سنتی و نرم افزارهای کاربردی قابل پردازش نیستند. با توجه به اندازه دادههای دیجیتال که در سال 2011 تقریبا 1,8 زتابایت 1,8 - تریلیون گیگابایت - بوده است و به اینکه پیشبینی میشود که در سال 2020 مدیریت دادههای بزرگ حدودا 50 برابر بیشتر از سال 2011 شود، حمایت از زیرساختها بسیار الزامی است. به طور خاص، با توجه به زیرساختهای جدید و ساختار جدید دادههای بزرگ نسبت به دادههای موجود فعلی و در نظر گرفتن بازده، اقتصاد و حریم خصوصی این دادهها حتما باید برنامهریزی دقیقی صورت گیرد .[1]

علاوه بر چالش های دادههای بزرگ که ناشی از تولید دادهها، مصرف و تجزیه و تحلیل سنتی دادهها در یک مقیاس بسیاربزرگ است ویژگیهای نوظهور و مهمی هم در دادههای بزرگ مثل حرکت دادهها، دسترسی سریع تر به دادهها و مصرف انها و همچنین قابلیت اکوسیستم آنها وجود دارد.[2] شکل 1 یک مدل شبکه دادههای بزرگ را به طور کلی با نگاشت کاهش نشان می دهد. برنامه های کاربردی مجزا که در محاسبات ابری قرار دارد، خواستار الزامات مورد نیاز برای کسب، حمل و نقل وتجزیه و تحلیل دادههای ساختیافته وغیرساختیافته است.

شکل - : - 1 مدل داربست شبکه های عمومی در شبکه دادههای بزرگ

این مقاله، توجه زیادی به پیشرفت های اخیر در دادههای بزرگ و شبکههای داده بزرگ دارد. این دسته بندیهای ایجاد شده درک مستقل خود را از موضوع مطرح شده حفظ میکند. به طور خاص، موضوعات مطرح شده در این مقاله عبارتند از: پیشرفتهای اخیر در فناوریهای کلاسیک شبکه دادههای بزرگ، به عنوان مثال، هادوپ1 و نگاشت کاهش2، فناوری دادههای بزرگ در محاسبات ابری، پروژه تعیین معیار دادههای بزرگ، و شبکههای داده بزرگ تلفن همراه. دراین بخش تلاش و پیشرفتهای اخیر در شبکههای دادههای بزرگ نشان داده شده است. تمام تلاشهای صورت گرفته به 4 دسته تقسیم میشود: تکنولوژی شبکه های کلاسیک دادههای بزرگ، دادههای بزرگ در محاسبات ابری، مهندسی دادهها و روش های تعیین معیار، و شبکههای دادههای بزرگ تلفن همراه. همه موضوعات تحت پوشش بین سالهای 2011 تا 2015گزارش شده است.

-2 پژوهشهای انجام شده

عناوین پژوهشهای انجام شده بر روی دادههای بزرگ و پیشرفت آنها درشبکه دادههای بزرگ، چالشها و فرصتهای دادههای بزرگ در پایگاه داده را نشان داده است .[3] برنامهریزی مجازی و روشهای محاسبات ابری در مرکز داده شبکه IBM را معرفی میکند.[4] یک روش جالب در مجازیسازی دادههای بزرگ را به تصویر میکشد.[5] از دیدگاه معماری پلت فرم، فرگوسن گزارش پیشرفت خود را برای افزایش سرعت تجزیه و تحلیل دادههای بزرگ ارائه میکند.[6]

به عنوان یکی ازتلاشهای اخیر، دیتریچ کمک در بهینهسازی بهرهوری پردازش دادههای بزرگ در هادوپ و نگاشت کاهش را معرفی میکند.[7] تعدادی از روشهای جدید و جالب از پیشرفتهای دادههای بزرگ درادامه ارائه شده است. تلاش مهم در تعریف نرم افزار شبکه برای مدلهای علوم معماری دادههای بزرگ در محیط دانشگاه را برای یک شبکه گسترده معرفی میکند.[8] یک سیستم خود تنظیم برای تجزیه و تحلیل دادههای بزرگ طراحی شدRCFile .[9] به عنوان یک ساختار قراردادن دادهها به صورت سریع و کارآمد در انبار نگاشت کاهش به وسیله هی ارائه شد.[10]

در یک شبکه، روش تجمع کارآمد برای برنامههای کاربردی دادههای بزرگ توسط کوستا معرفی شد، که بطور قابل توجهی کاهش اندازه حمل ونقل دادهها را به دنبال داشت.[11] برونت روش خود را از راه حل گایاهادوپ با تاکید بر شناسایی چالش های بالقوه گزارش کرده است.[12] یک برنامه جالب با استفاده ازدادههای بزرگ جهت آموزش کینکت توسط بادیو مورد بحث قرار گرفت.[13] وانگ تلاشهای خود را از زمان اجرا برنامهنویسی در برنامههای کاربردی شبکه های دادههای بزرگ معرفی میکند.[14]

مطالعه موردی اخیر برای انفجار دادهها در حمل و نقل SDN معرفی شد.[15] تلاش در بهینهسازی تعامل با تجزیه و تحلیل دادههای بزرگ گزارش شده است.[16] اصول طراحی برای کشف دانش کارآمد ارائه شده است.[17] Radoop، خلاصه RapidMiner و Hadoop است، توجه در تجزیه و تحلیل داده را به خود جلب کرده است.[18] ملاحظات عمومی برای معماری دادههای بزرگ و مدیریت دادهها گزارش شده است .[1]

پیشرفتهای قابل توجه از شبکه های دادههای بزرگ توسط محاسبات ابری نیز در این منطقه از ایالات متحده گزارش شده است. در ایالات متحده فرصت های بالقوه آینده برای دادههای بزرگ و محاسبات ابری موجود گزارش شده است.[19] مدیریت و تخصیص منابع در ابرهای چند خوشهای توسط لاکیو معرفی شدند.[20] تجزیه و تحلیل عملکرد مبتنی بر جریان داده3 برای ابر دادههای بزرگ، به عنوان مثال Hitune، ارائه شد.[21] مطالعات موردی جالب در پردازش دادههای بزرگ در محیط محاسبات ابری به تصویر کشیده شد.[22]

استفاده از یک چارچوب برای دادههای بزرگ و تجزیه و تحلیل دادههای مبتنی بر ابر و تجسم آنها ارائه شده است؛ یک مطالعه موردی بر روی دادههای آب و هوا با مقیاسهای مختلف بزرگ معرفی کردند.[23] اخیرا یک روش حداقل کردن هزینههای آنلاین به تصویر کشیده شد.[24] به طور خاص رویکرد داده مرکزی برای کاهش هزینههای انرژی خنک کننده برای تجزیه و تحلیل ابر دادههای بزرگ معرفی شد.[25] علاوه بر روش گفته شده، چند تلاش جالب مهندسی داده وتعیین معیار برای دادههای بزرگ وجود داشته است. یک پروژه بزرگ معیار دادهها از موتورهای جستجو در وب براساس رابط منبع باز داده گزارش شده است.

[26] ارائه یک چالش جمعآوری دادههای تلفن همراه که توسط شرکت نوکیا آغاز شده و نشان دهنده یک گام مهم به سمت شبکه دادههای بزرگ تلفن همراه است.[27] با توجه به اینکه شبکههای تلفن همراه در حال تبدیلشدن به یک همتا برای اینترنت سنتی و یا حتی مهمتراز آن هستند و حاوی دادههای بزرگ میباشند. معیار دادههای بزرگ تاثیر ارزشمندی برای جامعه پژوهش دارد. چالشهای فضایی دادههای بزرگ حرکت متقاطع و محاسبات ابری گزارش شده است.[28] تلاش اخیر در معدن دادههای گوشیهای هوشمند در مقیاس بزرگ و برای مطالعات شخصیت افراد ارائه شده است.[29] کاهش چالشهای برنامههای کاربردی اجتماعی زمانی که زاسلاوسکی یک نرم افزار جالب به عنوان یک سرویس دهنده از دادههای بزرگ ارائه کرده است.[31] [30]

-3 تلاش های صورت گرفته در شبکه های کلاسیک داده های بزرگ

علاوه برفناوری دادههای بزرگ سنتی مانند هادوپ، نگاشت کاهش و دادههای NoSQL، پیشرفت قابل قبول دردو سال گذشته در شبکه دادههای بزرگ در بسیاری از مناطق دیگر روی داده است. آنها را به طور خلاصه به 4 دسته: ذخیرهسازی و انبار، حمل و نقل دادهها، شبکه نرم افزار تعریف شده و تجزیه و تحلیل دادههای بزرگ تقسیم میشوند.

-1-3 ذخیرهسازی و انبار

پایه و اساس شبکههای دادههای بزرگ ، ذخیرهسازی دادهها است. این تکنولوژی ، نماینده همه پایگاههای داده از جمله رابطهای و پایگاه داده مبتنی بر کدنویسی وانبار دادهها است. در بررسیهای عمیق وضعیت تکنولوژی پایگاههای هنری، فناوری پایگاه داده در این منطقه از دادههای بزرگ ارائه شد. نویسنده ادعا کرده است که اگر چه پیشرفتهای قابل توجهی در تحقیق پایگاه داده ساخته شده است، هنوز بسیاری از پیشرفتها باقی مانده که باید انجام شود: اولا، تبادل دادهها در مقیاس بالا در مدل رابطهای به عنوان یک مشکل باقی میماند.

دوم، تجزیه وتحلیل و یادگیری الگوریتم ماشین آماری برای دادههای بزرگ نیاز به قویترشدن و استفاده آسان دارد. آخرین مورد که مهمترین آن است، برای یک مکانیزم اکوسیستم، الگوریتمهای داده بزرگ به طور یکسانی ابداع و ساخته شود به طوری که مدیریت دادهها و استفاده از آن بتواند کامل کننده بسیار بالای یک الگوریتم باشد.[3] یکی دیگر از جنبههای مهم در پایگاه داده بزرگ مربوط به ساختارهای قرارگیری داده است.

نویسندگان استدلال میکنند که ساختار قراردادن دادههای سنتی مانند ردیف فروشگاهها، ستون فروشگاهها و هیبریدی فروشگاهها، مناسب برای تجزیه و تحلیل دادههای بزرگ با استفاده از نگاشت کاهش نیست و تنها در سیستمهای توزیع شده قابل استفاده است. در عوض، نویسندگان ضبط فایل ستونی4 و اجرای آن در هادوپ را، که مطابق با بارگذاری سریع دادهها، پردازش پرس و جو، ذخیرهسازی کارآمد استفاده از فضا و سازگاری قوی با الگوهای حجم کار پویا پیشنهادکردهاند.[10] ایده اولیه ضبط فایل ستونی در شکل 2 نشان داده شده است.

شکل : - 2 - جدول معماری ضبط فایل ستونی.

همانطور که در شکل 2، جداول سیستم فایل هادوپ5 ضبط فایل ستونی ازچند بلوک سیستم فایل هادوپ تشکیل شده است و هر بلوک سیستم فایل هادوپ با تعداد واحدهای یکسان ازگروههای سطری سازمان یافته است. این ایده خوشهبندی ضبط فایل ستونی باعث مدیریت موثرتر ردیف دادهها میشود. همانطور که در شکل 3میبینید، مناطق داده در جداول ضبط فایل ستونی به عنوان نشانگر همگام استفاده شده است و میان ابر داده و داده های بخش جدول تقسیم شده است.

ازهمه مهمتر، الگوریتم اجرای رمزگذاری طول6 برای فشردهسازی ابر دادهها استفاده میشود در حالی که با استفاده از الگوریتم فشردهسازی Gzip، فشردهسازی دادهها به طور مستقل از ستون صورت میگیرد، که با استفاده ازذخیرهسازی ستونی دادهها اتخاذ شده و کمی طول میکشد. علاوه بر این، به دلیل کاهش رمزگشایی، در ضبط فایل ستونی نیازی به خارج کردن تمام ستونهای در حال پردازش یک گروه از ردیف نیست. در نتیجه سربار رمزگشایی می تواند کاهش یابد.

ضبط فایل ستونی به عنوان روش قراردادن دادههای پیش فرض در فیس بوک انتخاب شده است. این روش توسط Hive و Pig به تصویب رسید. با این حال، هنوز هم ضبط فایل ستونی میتواند بهینه شود. به عنوان مثال، در حال حاضر ضبط فایل ستونی نوشته دادهها را پشتیبانی نمیکند ، و تنها سیستم فایل هادوپ نوشتن دادهها در پایان فایل را پشتیبانی میکند. انتخاب به صورت خودکار بهترین حالت الگوریتم فشردهسازی برای هر ستون است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید