بخشی از مقاله
چکیده:
امکانات آزمایشی مدرن، تولید حجم زیادی از داده هایی را که باید پردازش شوند، در هارد دیسک ها ذخیره گردند و با بالاترین سرعت ممکن به کاربر ارائه شوند را فراهم میسازند، هرچند، تجزیه و تحلیل داده ها در محل، نیازمند منابع فنی است که اغلب در دسترس نیستند. وجود شبکه های سرعت بالای در دسترس، امکان سپردن پردازش و ذخیره دادهها را به مراکز ابر رایانه های از راه دور - remote supercomputer centers - و مراکز دادهی از راه دور - remote data center - را فراهم میسازد. این قابلیتها میتوانند از طریق توسعه راهحلهای معماری برای انتقال مؤثر داده ها از طریق شبکههای سرعت بالای با فاصله دور، دادههای ورودی/ خروجی و توزیع داده ها برروی کامپیوترها و سیستمهای ذخیره سازی داده تحقق یابند. در این مقاله، نتایج بررسی توسعه یک بستر نرمافزاری را برای پردازش موازی جریان داده های آزمایشی متمرکز بر ابررایانههایICMM UB RAS - Perm - و IMM UB RAS - Yekaterinburg - که توسط یک شبکه سرعت بالا به یکدیگر متصل شدهاند را شرح میدهیم. مطالعات گزارش شده تا اندازهای توسط RFBR، پروژه تحقیقاتی شماره 14-07-96001-r_ural_a و با برنامه UD RAS پروژه شماره 15-7-125پشتیبانی شدهاند.
کلمات کلیدی: شبکه Long fat، ابر رایانه، پردازش موازی داده، میان افزار، سیستم توزیع شده.
مقدمه
اخیراً، پروژههای شناخته شده در حوزه علوم الکترونیکی پردازش مجموعه دادههای بزرگ و بزرگتر بدست آمده از راهاندازی آزمایشی از راه دور را بررسی کردهاند. - مانندCERN LHC در فیزیک انرژی بالا و پروژه Dutch LOFAR در نجوم - . در ابتدا، تقریباً تمامی محاسبات توزیع شده براساس شبکههای اینترنت TCP/IP گسترده شده در میان کاربران بود. مرحله فعلی توسعه تکنولوژیهای محاسباتی توزیع شده بر روی استفاده از تحقیقات منطقهای و ملی و شبکههای نوری آموزشی تمرکز کرده است - مانندGeant2 در اروپا، Internet2 در ایالات متحده و Initiative GIGA UrB RAS در روسیه - . تمایل به افزایش پهنای باند شبکه و کاهش تأخیر در انتقال داده - Rumble, Ongaro, & Stutsman, 2011 - امکان ساخت سیستمهای توزیع شده را فراهم ساخت، بطوریکه منابع دادهای و ابر رایانهها میتوانند از نظر جغرافیایی در مکانهای متفاوتینسبت به یکدیگر قرار گیرند.در این زمینه، تحقیق حاضر و تلاشهای توسعه برای حل دو مسئله مرتبط بکار گرفته شدند:
- 1 استفاده موثر از لینکهای مخابراتی با سرعت بالا 10-100 - گیگابایت در ثانیه - و فاصله زیاد - هزاران کیلومتر -
- 2 روشهای سازماندهی داده ورودی/خروجی سرعت بالا در یک ابر رایانه - Arslan, Kim, &Kosar, 2015،. - Yildirim برای مثال، پروژههای مرکز ابر رایانه Pittsburg - شبکه سازی پیشرفته، Three river optical exchang، - web10G به افزایش سرعت دسترسی به ذخایر داده و تنظیم پروتکل TCP کمک کرد - Pittsburgh . - Supercomputing Center, 2015 از میان پروتکل های اختصاص داده شده به انتقال داده در شبکه Longfat سرعت بالا، میتوان به پروتکل UDT اشاره کرد . - Gu& Grossman,2007 - این مقاله، چارچوبی که برای پردازش موازی جریان داده های متمرکز آزمایشی در UB RAS تولید شده است را شرح میدهد. این چارچوب بر پایهی DWDM-backbone نوری سرعت بالاست که مرکز ابر محاسباتی IMM UB RAS - Yekaterinburg - و مرکز داده ICMM UB RAS - Perm - را به هم متصل میسازد. زیرساخت و میان افزار این چارچوب مانند یک مدل قدیمی از تعامل بین ابر کامپیوترها و تنظیمات آزمایشی و بخوبی مدلهای توسعه یافته ورودی مستقیم جریان داده به گرههای محاسباتی ابر رایانه ها برای پردازش موازی، پیادهسازی شده است. یک مثال برای کاربرد عملی این چارچوب پروژهی PIV - ”Distributed PIV“ توزیع شده - است. ماهیت نهفته در پردازش اندازه گیریهای - measurements - جریان توسط روش PIV بر روی یک ابررایانه از راه دور و در زمان واقعی برای فراهم کردن بازخورد و کنترل آزمایش بدست آمده است . - Stepanov, Masich, &Masich, 2009 -
1.اجزای محیط محاسباتی توزیع شده UB RAS
محیط محاسباتی توزیع شده UB RAS بر پایه دو مرکز داده است که در ICMM - Perm - ، PSC - Perm - و IMM - Yekaterinburg - واقع شده اند. ابر رایانه ”URAN“ با حداکثر عملکرد 225,85 ترافلاپ - teraflops - و سه سرور از سیستم ذخیره داده توزیع شده dcache بسیار کوچک - DSS - در مرکز داده IMM واقع شدهاند. خوشه محاسباتی ”Triton“ با حداکثر عملکرد 4,5 ترافلاپ و یک سرور از سیستم ذخیره داده توزیع شده dcache بسیار کوچک در مرکز داده ICMM قرار گرفته اند.محیط ارتباطی سیستم توزیع شده، همانطور که در شکل 1 نشان داده شده است، توسط سوئیچهای اترنت متصل به R&D DWDM backbone منطقه ای که ”GIGA URAL“ نامیده میشود از طریق یک لینک مستقیم Perm-Yekaterinburg 30 گیگابایت - 30Gbps - در ثانیه، شکل گرفته است. شبکه 40 ”ICMM-PSC“DWDM metro گیگابایت در ثانیه درPerm، منابع محاسباتیICMM و DWDM backbone را به هم متصل میسازد. برای انعطاف پذیری بیشتر تحقیقات، سوئیچ های ECI AS9215 L2 و سوئیچهای Extreme Summit X670-48x L3 در IMM، ICMM وPSC قرار گرفتند و با یکدیگر و با پورتهای اترنت مالتی پلکسرهای DWDM لینک های 1-10 گیگابایت در ثانیه تضمین شده و تضمین نشدهای را تشکیل دادند.
2.معماری چارچوب شبکه داده
خوشه محاسباتی ”Triton“ شامل 3 روتر برد HP BladeSystem - enclosure - است. هر روتر برد 16 سرور HP Proliant BL 460c دارد. دو شبکه برای انتقال داده بین گرههای محاسباتی خوشه بکار میرود. اولین شبکه، اتصال MPI اصلی است که بروی 20 4xDRRInfiniBand گیگابایت در ثانیه اجرا میشود. دومین شبکه، یک شبکه اترنت اضافی یک گیگابایت در ثانیه است که برای کنترل جریان کار است و بین سیستم فایلهای شبکه گرههای محاسباتی توزیع شده است. هر روتر برد با یک سوئیچ اترنت یک گیگابایت در ثانیه تعبیه شده در آن، مجهز شده است. این سوئیچهای تعبیه شده با تجمیع چهار لینک یک گیگابایتی با استفاده از پروتکل کنترل تجمیع لینک - LACP - ، به یک سوئیچ خارجی AS9215، متصل میشوند.
سوئیچ AS9215 با یک لینک 10گیگابایتی در ثانیه به ستون اصلی - - backbone متصل شده است.ابررایانه های ”URAN“ معماری مشابهای دارند. شبکه اصلی ارتباط اترنتی را بین اتصالات ابررایانه ”URAN “ و سرورهای dcache واقع در IMM و اتصالات خوشه محاسباتی ”Triton“ و سرور dcache واقع در ICMM را با دو لینک 10 گیگابایت در ثانیه فراهم میکند. ”Triton“ و سرورهای dcache در بخش L2-network اجرا میشوند اما اتصال ”URAN“ بخش خود را دارد. ترافیک - IP -traffic - IP بین بخشها با استفاده از گره اصلی - ”URAN “ - master با توان عملیاتی محدود1 گیگابایت در ثانیه مسیریابی میشود.
3.مدلهای پردازش موازی جریان داده
معمولاً، سیستمهای ذخیره سازی ابر رایانهها به عنوان منبع داده های بزرگ برای پردازشهای آتی استفاده میشوند، این پردازش حالت قدیمی - " - "classic mode در سه فاز اتفاق میافتد:
1.دانلود داده در حافظه محلی ابر رایانه ها
2.پردازش داده در یک ابر رایانه
3.آپلود نتایج پردازش داده در حافظه محلی ابر رایانه ها
آپلود/ دانلود دادهها در/ از حافظه - فازهای 1و - 3 و پردازش داده ها - فاز - 2 با عملیات میانی خواندن/ نوشتن در حافظه تداعی میشود.رایجترین روش مبادله داده با حافظه، استفاده از پروتکل های انتقال فایل مانند FTP/GridFTP و SCP است. شکل دیگر این روش دسترسی مستقیم به حافظه داده ها با استفاده از پروتکل های سیستم فایل شبکه مانند CIFS و NFS/pNFS است. این روش اتصال حافظهی ابر رایانه ها را به منابع داده ای بعنوان یک فایل سیستم از راه دور فراهم میسازد و ثبت