بخشی از مقاله

چکیده

رشد روز افزون شبکه های کامپیوتری و سرویس های اینترنتی و به دنبال آن داده ها و اطلاعات مورد نیاز کاربران و مصرف کنندگان آنها موجب ظهور مفاهیمی نوین در این عرصه گردیده است.. داده های حجیم یکی از این مفاهیم است که در چند سال اخیر مورد توجه محققین عرصه کامپیوتر واقع شده است. این مفهوم که حاصل رشد فزاینده تولید اطلاعات و تنوع داده ها می باشد ، در تعارض با مفاهیم اولیه داده ها و حجم محدود آنها بوده و صنعت کامپیوتر را با چالشهای متعددی در زمینه مدیریت ، نگهداری، بازیابی و سایر موارد مربوطه مواجه نموده است. در مقاله حاضر سعی شده که ضمن بررسی ماهیت مفهوم داده حجیم و موارد کاربرد آن، نقش آن در تجارت و همچنین اهمیت شناخت آن در پیشرفت و توسعه تکنولوژی ، به بیان چالش های آن پرداخته ، چالشهای امنیتی و راهکارها و استراتژی های موجود مطرح در کاهش این چالشها را تبیین نماید.

-1 مقدمه

داده های عظیم یکی از طلایه داران حال حاضر و آینده تحقیقاتی در دنیا می باشد که حوزه های بسیاری نظیر تحقیقات علمی ، مدیریت دولتی ، صنایع و بنگاه ها را متحول خواهد کرد. شرکت مشاوره ای گارتنر داده های حجیم را در میان 10 روند فناوری برتر دنیا در سال 2013 و همچنین در میان 10 روند فناوری حیاتی در 5 سال آینده معرفی کرده است . تغییرات سریع فناوری در دنیای پرتکاپوی حوزه فناوری اطلاعات و ارتباطات دولت ها را وادار نموده است تا استراتژی های خود را همگام با تکامل فناوری ها در دنیا از نو تعریف کنند یا حداقل همگام با دنیا جهت گیری های خود را برای مهاجرت به سمت تکنولوژی های جدید واستفاده از آنها اصلاح نمایند.

نظر به شکل گیری موج توجه ویژه به موضوع داده های عظیم در کشورهای دنیا و با عنایت به گزارش های گروه مطالعاتی نظیر گارتنر و با توجه به مورد توجه قرار گرفتن این حوزه در ژورنال های معتبر و همچنین کنفرانس های معتبری نظیر TDW12014 و INFORMAS توجه ویژه به این حوزه و رصد تغییرات آن در کشور را به امری الزامی بدل کرده است. مشکلات اصلی در داده های حجیم مربوط به جمع آوری ، ذخیره سازی،جستجو، اشتراک گذاری، تحیل ، نمایش و امنیت آنها است.

همچنین این موضوع به این دلیل که با استفاده از تحلیل حجم زیاد داده ها ، می توان تحلیل های بهتر و پیشرفته تری را برای مقاصد مختلف ، از جمله مقاصد تجاری ، پزشکی و امنیتی انجام داد و نتایج مناسب تری را دریافت کرد ، هر روز جذابیت و مقبولیت بیشتری پیدا می کند. همزمان با افزایش حجم و تنوع داده های حجیم چالشهای امنیتی نیز متناسب با آن رشد بیشتری خواهد داشت . اگر یک شکاف امنیتی در داده های حجیم اتفاق بیفتد منجر به خسارات بزرگ تری خواهد شد. در گذشته داده های حجیم دغدغه ی دولت ها و صنایع بزرگ تجاری بود و از این رو این سازمان ها زیر ساخت هایی جدای از شبکه عمومی برای ذخیره و پردازش داده های خود در اختیار داشتند. اما امروزه داده های حجیم براحتی از طریق زیرساخت ابری در اختیار همگان قرار می گیرند.

رویکرد در این مقاله بر دو محور متفاوت بنا شده است. اول مروری به برخی از چالشهای امنیتی موجود در داده های حجیم و همچنین بررسی برخی از راهکارهای ارائه شده برای مواجهه با این چالشها و در محور دوم به دلیل توان ذخیره سازی و پردازش داده های حجیم، پرداختن به بررسی کاربردهای امنیتی. به عبارت دیگر ، بدلیل حجم زیاد داده ها ، تجزیه و تحلیل آنها به سازمانها کمک بیشتری می کند تا امنیت را در سیستم خود افزایش داده و نفوذپذیری به سیستم را کنترل کنند

-1 کلیت داده های حجیم - 2 -

بزرگ داده / داده های عظیم / حجیم داده / داده انبوه / کلان داده حجم: VOLUME

انبوه: MASS / DENSE

عظیم: GREAT /HUGE /ENORMOUS / GIANT

بزرگ: LARGE - مقیاس بزرگ : - Large Scale

کلان: - رویکرد کلان / Big Approach تصویر کلان - Big Picture

دادههای حجیم معمولاً به مجموعهای از دادهها گفته میشود که اندازه آنها فراتر از حدی است که با نرمافزارهای معمول بتوان آنها را در یکزمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم »اندازه« در دادههای بزرگ بهطور مستمر در حال تغییر است و به مرور بزرگتر میشود . دادههای عظیم مجموعهای از فنها و تاکتیکهایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزشهای بزرگی را که در مجموعههای بزرگ، وسیع، پیچیده و متنوع داده پنهانشدهاند، آشکار سازند.

طبق تعریف مؤسسه تحقیقاتی گارتنر: به داراییهای اطلاعاتی با حجم بالا، شتاب بالا و تنوع بالا که نیازمند اشکال جدید پردازشی است و تصمیمگیری پیشرفته، کشف بینش و بهینهسازی فرآیند را امکانپذیر میسازد دادههای حجیم گفته میشود. چرا داده های حجیم باید برای ما مهم باشد؟ - 2 - : مسئله واقعی این نیست که مقدار زیادی داده به دست آورید؛ این است که با آن چه می کنید. دیدگاه امیدوارانه این است که سازمان ها قادر به تحصیل داده از هر منبعی بوده، داده های مرتبط را تهیه کرده و آن را تحلیل کنند تا پاسخ سؤالاتی را بیابند که

- 1 کاهش هزینه ها،

- 2 کاهش زمان

- 3 توسعه محصولات جدید و پیشنهادات جدید،

- 4 تصمیم گیری هوشمندانه ترکسب وکار را مقدور می سازند.

برای مثال، با ترکیب Big Data و تحلیل های قوی، این امکان وجود دارد تا: علت های اصلی شکست ها، مسائل و نقوص را در لحظه تعیین کرد تا سالانه تا میلیاردها دلار صرفه جویی کرد. مسیر وسیله های حمل بسته های تحویلی را زمانی که هنوز در جاده هستند، بهینه کرد. در چند دقیقه تمام سبد ریسک را دوباره حساب کرد. سریعاً مشتریانی که بیشترین اهمیت را دارند، شناسایی کرد. Big Data واژه ای است برای مجموعهای از ست داده های بسیار بزرگ و پیچیده، که استفاده از ابزارهای مدیریت پایگاه داده در دست و یا برنامه های کاربردی سنتی پردازش داده، برای پردازش آنها دشوار خواهد بود. چالش ها شامل استخراج، Curation ، ذخیره سازی، جستجو، اشتراک، انتقال، آنالیز و بصری سازی است.

در سال 2012، محدودیت اندازه ست داده ها، با زمان پردازش معقول، بر اگزابایت، میلیون ترابایت، قرار داشت. کار با Big Data با استفاده از سیستم های مدیریت دیتابیس های رابطه ای و بسته های بصری سازی و تحلیل های دسکتاپ، دشوار بوده و نیازمند نرم افزار بسیار موازی در حال کار بر روی ده ها، صدها و یا حتی هزاران سرور هستند. آنچه که Big Data شناخته می شود، بنا بر قابلیت های سازمان مدیریت کننده آن، و قابلیت های برنامه های کاربردی که به طور سنتی در آن زمینه داده پردازش و تحلیل می کنند، متفاوت است.

برای برخی سازمان ها، رویارویی با صدها گیگابایت داده برای اولین بار ممکن است نیاز به بازبینی آپشن های مدیریت داده را ایجاد کند. برای برخی دیگر، ممکن است تا ده ها و صدها ترابایت طول بکشد که سایز داده به موضوعی قابل توجه تبدیل شود. Big data و تجزیه و تحلیلش در مرکز علوم و تجارتهای مدرن هستند. این داده ها از تراکنشهای email ، online ها ، ویدوئوها ، صوتها ، کلیک کردن ها log ها و ارسالها ، درخواستهای جستجو ،یادداشتهای درست ، تعاملات شبکه های اجتماعی ، داده های علمی ، سنسورها و تلفنهای همراه و برنامه های کاربردی آنها تولید میشوند . آنها بر روی پایگاه داده ها که به شکل حجیم رشد می کنند ،ذخیره می شوند ، و ضبط ، شکل دهی ، ذخیره سازی، مدیریت ، به اشتراک گذاری ، تحلیل و نمایش آنها از طریق ابزارهای نوعی نرم افزار پایگاه داده ها، دشوار می شود.

سرعت تولید اطلاعات در سامانههای رایانهای به سرعت در حال افزایش است، در سال 2010 سرعت تولید اطلاعات به حدی رسید که در هر دو روز، بیش از کل دادههایی که تا سال2003 تولید شده بود ، داده تولید میشد. این در حالی است که بر اساس یکی از تحقیقات IDC اطلاعات تولیدشده در سال 2020 پنجاه برابر دادههای تولیدشده در سال 2011 خواهد بود. در یک تحقیق دیگر میزان تولید داده در سال 2010 به ازای هر دو روز حدود 5 اکزابایت 1018 - بایت - تخمین زدهشده است، درحالیکه پیشبینیها نشان میدهد این مقدار در سال 2020 به 40 زتابایت 1021 - بایت - خواهد رسید. این مسئله اهمیت توجه به روشهای آنالیز، نگهداری و انتقال دادههای عظیم را نشان میدهد.

حجم اطلاعاتی که تا سال 2003 توسط انسان ایجاد شد تنها 5 اگزابایت است اما امروزه این حجم از اطلاعات تنها در عرض دو روز ایجاد میشود. در تحقیقی نشان داد که هرروز 2,5 اگزابایت داده تولید میشود و حدود 90 درصد دادههای موجود تنها در دو سال اخیر تولیدشده است. هر رایانه شخصی حدود 500 گیگابایت اطلاعات در خود نگهداری میکند و در دنیا حدود 20 میلیون رایانه شخصی وجود دارد. درگذشته فرآیند توصیف ژن انسان حدود ده سال طول میکشید درحالیکه امروز در کمتر از یک هفته انجام میشود.

شرکتی مثل گوگل بیلیونها سرور در سطح جهان دارد. حدود شش بیلیون مشترک تلفن همراه در جهان همهروزه 10 میلیون پیام متنی ارسال و دریافت میکنند و تا سال 2020 حدود 50 بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت. حجم دادههای تجاری تقریباً در سراسر جهان، هر 1,2 سال دو برابر میشود. حجم کل دادههای تولیدشده در جهان که در سال 2011 حدود 1,8زتابایت بوده با نرخ تقریباً هر پنج سال 9 برابر افزایش مییابد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید