بخشی از مقاله
چکیده
در سالهای اخیر شاهد انفجاری از دادهها از طریق رسانههای اجتماعی، وبسایتها، اینترنت اشیا، موبایلها، ایمیلها و هزاران فنّاوری نوین دیگر بودهایم که بیگمان ضبط، نگهداری و تحلیل این دادههای کلان و پرشتاب میتواند داراییهای ارزشمندی را تولید نماید. چالش چگونگی ذخیرهسازی این کلان دادهها و تبدیل به نتایج سودمند و از سویی دیگر تأمین هزینه زیرساخت لازم و نیروی خبرهی کار با این وسعت از دادهها، صاحبان کلان داده را به سمت استفاده ازفنّاوری ابر سوق داده استفنّاور.ی ابر، با فراهم آوری زیرساخت لازم، نیروی متخصص و سرویسهای موردنیاز برای نگهداری و پردازش کلان داده و سپس به اشتراکگذاری و یا اجاره دادن این امکانات به صاحبان کلان داده، آنها را در رفع چالشهای موجود یاری میکند. مانع بزرگ همکاری این دوفنّاوری قدرتمند و پیشرو، بحث پراهمیت امنیت و محافظت از دادههای حساس و یا شخصی افراد، سازمانها و دولتها در هنگام برونسپاری این خدمات به تأمینکنندگان ابر است. در این مقاله سعی داریم با تمرکز بر بیان چالشهای امنیتی موجود، راهکارهای کاهش این مخاطرات و تهدیدات امنیتی را بررسی کنیم.
کلمات کلیدی
امنیت، کلان داده، رایانش ابری، مرکز کلان داده1فنّاور،ی ابر، محرمانگی داده، جامعیت داده، حریم خصوصی
-1 مقدمه
فناوریهای بر پایه ابر که مزایای بیشتری نسبت به فناوریهای پیشین دارند، بهسرعت تبدیل به میزبانهایی برای کلان دادهها میشوند. رایانش ابری این امکان را فراهم میکند که منابع محاسباتی مثل سختافزارها، نرمافزارها، انبارهای داده و ابزارهای پردازش بهعنوان یک سرویس با کارایی و اثرگذاری بالا در قبال پرداخت هزینه، ارائه شوند. بحث امنیت و حریم خصوصی، به دلیل قابلیت در دسترس بودن در مقابل کنترل بسیار محدود در سمت کاربر، یکی از مهمترین چالشها در رایانش ابری است. در مقاله [10] معماری با نام انبارهای ذخیرهسازی فرادادهی ابر2 معرفیشده است تا هدف محافظت از کلان دادهها در محیط رایانش ابری را تأمین نماید. در این معماری تأکید بر استفاده از الگوریتمهای امنیتی PKI و MapReduce برای پردازش تاریخچهها3 در محیط ابر است. در شبکههای داخلی برای مقابله با نفوذکنندگان، نیاز به فنون کشف آنومالی - رخدادهای خلاف قاعده - است که با استفاده از این روشها میتوان دسترسیهای غیرمجاز4 به دادهها را با توجه به الگوی فعالیتهای مورد انتظار از کاربران، تشخیص داد. دسترسیهای غیرمجاز یا خلاف قاعده میتواند شامل سرقت اطلاعات یا سوءاستفاده از دادهها باشد .[7] بزرگترین مانع سازمانها و صنایع برای مهاجرت از پایگاه دادههای سنتی بر بستر کلان داده، چالشهای امنیتی آن است. روشهای مختلفی مثل فنون رمزنگاری-رمزگشایی - encryption-decryption - از سوی محققان برای حل مشکلات امنیتی پیشنهادشده است اما متأسفانه به علت خاصیت 3ʼY کلان داده - سرعت رشد، حجم بالا، تنوع زیاد - این روشها بهراحتی قابلاجرا نخواهد بود. نویسنده معتقد است، روشهایی مثل RSA و AES در وسعت محدودی از دادهها جوابگوی چالشهای امنیتی هستند.
در مقابلفنّاوری نوین »داده قاعدهمند تجمیع شده«، iRODS5 میتواند راهحل مطمئنی برای ایجاد امنیت در کلان داده بهحساب آید .[11] راهکار دیگر پیشنهادشده برای چالش امنیت در محیط ابر، شکستن فایلها به تکههای کوچکتر و نگهداری آنها در سرورهای ابر توزیعشده است، بطوریکه دادهها بهطور مستقیم قابلدسترسی نباشند. این معماری بانام »انبار توزیعشده کارآمد امن« یا SAEDS6 نامگذاری شده است که با دو الگوریتم ویژه بانامهای توزیع داده کارآمد امن SED2 7 و تلفیق داده کارآمد یا EDCon8 قابل اجرا است. نویسنده مدعی است این مدل، هم امنیت و هم کارایی قابل قبولی را تضمین میکند .[8] کلان داده شامل حجم عظیمی از اطلاعات قابلشناسایی و شخصی است، لذا حریم خصوصی یک نگرانی بزرگ است. بهعنوان یک گام، سازمانها میتوانند مشخص نمایند کدام بخش از این اطلاعات عظیم، نیازمند امنیت بیشتری است و سپس این اطلاعات بهدقت ایزوله شوند.
گام بعدی میتواند مجوز دهی کنترلشده به گروههای کاربری، به منظور استفاده از بخش خاصی از دادههای موردنیازشان باشد. مشکل بزرگتر در برونسپاری کلان دادها است. هنوز بسیاری از تهدیدات امنیتی مثل حریم خصوصی، محرمانگی، جامعیت، در دسترس بودن دادهها درفنّاوری ابر وجود دارد. اخیراً فاش شده است که بسیاری از آژانسهای امنیتی دادههای خود را از اطلاعاتی که افرادشخصاً در شبکههای اجتماعی تولید میکنند، بدون اجازه استخراج نموده و از آن بهره میجویند. بنابراین سیاستهایی که حریم خصوصی افراد را پوشش میدهد، باید گسترش یابند. علاوه بر چالشهای ذکرشده، حفظ جامعیت دادهها کهقبلاً بهوسیله الگوهای هشینگ9 توسعه دادهشده بود، اکنون برای حجم وسیعی از دادهها، کارآمد نیست. حفظ جامعیت کلان دادهها، بهواسطه کمبود پشتیبانی، اجازه دسترسی از راه دور به اطلاعات و برونسپاری بهفنّاوری ابر، بسیار پیچیده شده است 16]،5،3،2،.[1
-2 مفاهیم
-1-2 کلان داده
کلان داده، اشاره به حجمی وسیع از دادهها باقابلیت ذخیرهسازی، مدیریت و پردازش کارآمد دارد . - Manyika et.al, 2011 - بهعبارتدیگر کلان داده مجموعهای از دادههای بسیار بزرگ و حجیم است که پردازش آنها بسیار پیچیده و فراتر از ابزارهای مدیریت پایگاه داده سنتی است و نتیجه این پردازش، آشکارسازی الگوهای مخفی و بررسی عمیقتر سازمانها و شرکتها در جهت کسب بینش قویتر و موفقیت در رقابت است. این دادهها از تراکنشهای آنلاین، مکاتبات الکترونیک، اینترنت اشیا10، ویدئوها، اصوات، کلیک نمودنها، تاریخچههای تولیدشده از نرمافزارها، آپلودها، درخواستهای جستجو، یادداشتها، تعاملات شبکههای اجتماعی، دادههای علمی، حسگرها و تلفنهای همراه و برنامههای کاربردی آنها تولید میشود و در پایگاه دادههای ویژه بانام NoSQL ذخیره میشوند. ضبط، شکلدهی، ذخیرهسازی، مدیریت، به اشتراکگذاری، تحلیل و نمایش آنها از طریقفنّاوریهای مانند Hadoop، HPCC، Parallel Computing، JSON، HDFS و پایگاه دادههای NoSQL مثل MongoDB، Cassandra انجام میپذیرد. ویژگیهای کلان داده: ویژگیهای 3ʼY کلان داده شامل حجم، تنوع و سرعت یا در برخی نظریات 5ʼY شامل موارد زیر است - شکل : - 1
حجم : - Volume - مهمترین ویژگی کلان داده، حجم بالای آن است. تنوع : - Variety - دادههای متنوع از منابع مختلف داخلی و خارجی به منبع کلان داده وارد میشود که میتوانند ساختاریافته، بدون ساختار یا نیمه ساختاریافته باشند. سرعت رشد : - Velocity - سرعت تولید کلان داده بسیار بالا است و این سرعت نشاندهنده نیاز به وجود پردازشگرهای قوی و چابک است. ارزش : - Value - تحلیل و پردازش کلان دادههامعمولاً منجر به نتایج بسیار ارزشمندی میشود. صحت : - Veracity - کلان داده باید از منابع صحیح و قابلاطمینان تهیه شود و امنیت آن بهدرستی تأمین گردد و تنها افراد مجاز، مجوز دسترسی به آن را داشته باشند .[6]
تقسیمبندی کلان داده در قالب :CL - Complexity Level - قالب CL در سال 2016 توسط Filipe Portela و همکارانش پیشنهاد شد در این قالب کلان دادهها بر اساس پارامترهای 3ʼY از سطح 1 - سادهترین - تا سطح 5 - پیچیدهترین - دستهبندیشدهاند - جدول .[14] - 1
کاربرد کلان داده: کلان داده کاربرد وسیعی در صنعت، مدیریت، علوم ستارهشناسی، علوم جوی، جرمشناسی، بیولوژی، علوم اجتماعی، تحقیقات علمی و دولتی، نظامی، پیشبینی حوادث طبیعی، سرویسهای مالی،
شبکههای حساس و مخابراتی دارد. مهمترین کاربردهای کلان داده در علوم پزشکی است در فرایندهایی مانند حدس ویژگیهای فرزند با تحلیل ویژگیهای والد، پیشبینی بیماریها، انتخاب روش درمان و یا در علم کسبوکار، روالهایی مانند حدس زدن علاقهمندیها یا ویژگیهای یک صنف خاص از مشتریان و یا در شبکههای اجتماعی و تحلیل رفتارهای کاربران، بسیار کارآمد است.
فرآیندهای کلان داده: فرآیندهای قابل انجام روی کلان داده شامل: مدیریت دادهها - جمعآوری و ثبت و ذخیره، پاکسازی، تجمیع و آمادهسازی - و تحلیل دادهها - مدل نمودن و تحلیل، تفسیر - است. زنجیره ارزش در کلان داده شامل 4 فاز اصلی میشود: - 1 تولید داده - 2 جمعآوری و استخراج داده - 3 ذخیره داده - 4 تحلیل داده. دو مرحله اول معادل استخراج ماده اولیه، مرحله دوم معادل انبار نمودن ماده اولیه و مرحله سوم معادل تولید محصول نهایی در یک زنجیره ارزش صنعتی است.
-1-1-2فنّاوریهای کلان داده
:Hadoop یکی از معتبرترین و قدرتمندترین ابزارهای پردازش دستهای کلان داده، ابزار Hadoop شرکت Apache است که بهصورت متنباز و با زبان جاوا نوشتهشده است. Hadoop زیرساخت لازم برای نرمافزارهای کار باکلان داده را فراهم میآورد. قالب Hadoop از یک هسته، MapReduce و فایل سیستم توزیعشده، بانام HDFS ایجادشده است. HDFS برای ذخیره حجم عظیم دادهها و دسترسی گسترده به آنها طراحیشده است و تحمل خطای بالایی دارد. همچنین در مقیاس تک سرور تا صدها سرور قابل پیادهسازی است .[4]
:Map reduce یک مدل برنامهنویسی، مجری فرآیند و تولیدکننده مجموعههای داده با سایز بزرگ است که توسط شرکت گوگل ایجاد و بعدازآن شرکتهایی مثل یاهو، آن را توسعه دادند. این مدل برای حل مسئله بر اساس روش »تفرقهانداز و حکومت کن«، برنامههای بزرگ را بهصورت بازگشتی به زیر برنامههای کوچکتر تقسیم میکند و تا جایی این تقسیم ادامه مییابد که بتوان مسئله را حل کرد. سپس این زیر برنامهها در یک ساختار کلاستری، مورد پردازش موازی قرار میگیرند و نتایج آنمجدداً برای دستیابی به نتیجه کلی برنامه اصلی، باهم ترکیب میشود. بنابراین دو تابع اصلی Map و Reduce طی دو فرآیند تقسیم و ترکیب، نتیجه نهایی را تولید میکنند.
پایگاه دادههای NoSQLفنّاور:ی Not Only SQL یا
NoSQL راهکاری برای مدیریت دادههای عظیم و توزیعشده و طراحی انبار داده برای آنها است. پایگاه دادههای NoSQL از نوع غیر رابطهای هستند و از توابع متداول بانکهای RDBMS استفاده نمیکنند.NoSQL برای ذخیرهسازی و مدیریت دادههای بدون ساختار و یا غیر رابطهای، راهکارهای خاصی دارد. در این مدل ذخیرهسازی و مدیریت به دو بخش مستقل از هم افراز میشود. در بخش ذخیرهسازی که انبار کلید-داده - key-value - نامیده میشود تأکید بر مقیاسپذیری انبار با کارایی بالاتر دارد و مکانیسم دسترسی بسیار سطح پایینی فراهمشده تا وظایف مدیریت داده بجای توزیع شدن در سطح پایگاه داده در لایه نرمافزار پیادهسازی شود. NoSQlمعمولاً مستقل از الگو11 است و این قابلیت سبب میشود که دادههای ناهمگون و نامتجانس بهراحتی در آن ذخیره شوند و همیشه ذخیره دادهها در قالب جداول محدود نشود.
-2-2فنّاوری ابر
رایانش ابری مجموعهای از سرویسهای فناوری اطلاعات است که زیرساخت آن توسط یک واسط، ایجاد و پشتیبانی میشود و بر سطح شبکه اینترنت به مشتریان خدماتی را ارائه میدهد. منابع رایانشی مثل نرمافزار، انبار ذخیرهسازی و سایر قابلیتهای پردازشی بین مشتریان به اشتراک گذاشته میشود. رایانش ابری با 5 ویژگی - 1 مالکیت موقت چندگانه - Multitence - - 2 مقیاسپذیری - 3 - Scalability - قابلیت ارتجاع - 4 پرداخت متناسب با سرویس دریافتی - 5 - Pay as you go - منابع خودتامین - self-provisioning resources - تعریف میشود. رایانش ابری این امکان را برای کاربران فراهم مینماید تا دادههای خود را در یک مرکز داده واسط، ذخیره یا پردازش کنند. خدمات رایانش ابریمعمولاً به سه دسته تقسیم میشوند: - 1 زیرساخت به عنوان سرویس:12 فراهم آوری امکان استفاده از اجزای زیرساختی مثل فضای ذخیرهسازی، پردازشگر یا حافظه بر بستر شبکه - 2 پلتفرم بهعنوان سرویس:13 ارائه خدمات میزبانی بر روی سطح شبکه - 3 نرمافزار بهعنوان سرویس:14 این سرویس به کاربران اجازه میدهد، بدون نصب نرمافزارها روی دستگاههای شخصی خود، روی سطح شبکه از آن استفاده کنند .[9] از مزایایفنّاوری رایانش ابری؛ مجازیسازی منابع، پردازش موازی، امنیت، تجمیع سرویسهای داده با انبارهای مقیاسپذیر، محدود نمودن دسترسی کنترل و هدایت بهطور فردی یا از طریق سیستمها و کاهش هزینه نگهداری زیرساخت است. مدل توسعه رایانش ابری به سه دسته تقسیم میشود. - 1 ابر عمومی:15 یک محیط ابر که برای چندین گروه از مشتریان بهصورت مشترک قابلدسترس است. - 2 ابر خصوصی:16 برای یک گروه خاص از مشتریان فقط قابلدسترس است. - 3 ابر انجمنی:17 ابر انجمنی زمانی استفاده میشود که گروه خاصی از مشتریان در قالب یک جمعیت تعریفشده است. - 4 ابر ترکیبی:18 ترکیبی از دو یا چند ابر که ممکن است عمومی، خصوصی یا انجمنی باشد .[4]
-3-2 تأثیر متقابل رایانش ابری و کلان داده بر روی یکدیگر
رایانش ابریفنّاو،ری قدرتمندی برای اجرای پردازشهای انبوه و پیچیده است و نیاز به نگهداری سختافزارهای پردازشی گرانقیمت، فضای ذخیرهسازی و نرمافزارهای قوی را مرتفع مینماید. از طرفی مدیریت کلان داده، وظیفه زمانبر و چالشی است که نیاز به زیرساخت محاسباتی بسیار بزرگ برای پردازش و تحلیل دادهها دارد. رایانش ابری و کلان داده مانند یک زوج در کنار هم معنادارند به این صورت که کلان داده توانایی پردازش توزیعشده در سطح مجموعههای دادهای و بازگرداندن نتیجه تحت زمانبندی خاص را به کاربر میدهد و رایانش ابری یک موتور زیرساختیمثلاً با استفاده از Hadoop - یک قالب پردازش داده توزیعشده - برای این کار فراهم میآورد. منابع داده بزرگ استخراجشده از وب یا از محیطهای ابر، در پایگاه دادههای