بخشی از مقاله

چکیده

امروزه چالش اصلی همه حوزههای شبکه و پایگاه داده موضوع دادههای عظیم یا - بیگدیتا - است. در سالهای اخیر با توجه به فراگیر شدن استفاده از خدمات الکترونیکی و همچنین استفاده از شبکههای اجتماعی، حجم زیادی از اطلاعات تولید میشود که این اطلاعات علاوه بر حجم زیاد، از انواع گوناگونی از قبیل فیلم، عکس، متن و غیره تشکیلشدهاند. به دلیل حجم بالا و غیرساختارمند بودن این اطلاعات، پوشش آنها از طریق پایگاه دادههای سنتی و روشهای رابطهای امکانپذیر نیست و باید از راهکارهای نوین برای پردازش آنها استفاده شود، بهگونهای که سرعت پردازش نیز تحت پوشش قرار گیرد.

یکی از حوزههای کاربردی بیگدیتا در شبکههای اجتماعی عبارتند از: تحلیل شبکههای اجتماعی، شناسایی چهره، تطابق پروفایل، تحلیل رفتار و غیره اشاره کرد. شبکههای اجتماعی بسیار بهروز و در تعامل با بدنه اصلی جامعه هستند. کانال توزیعی که بههیچعنوان در دنیای قبل از این رسانهها وجود نداشت. حال که این شبکه توزیع رایگان در اختیار شرکتها قرارگرفته است، صاحبین این جوامع مجازی در راستای بهرهوری هرچه بیشتر از این رسانهها در جهت تأمین منافعشان تلاش میکنند.

مقدمه

بیگدیتا به مجموعهای از دادهها گفته میشود که بهصورت ساختیافته یا غیر ساختیافته، ذخیره میشوند و دادههای پیچیده ای هستند که از ابعاد گوناگون تشکیلشدهاند. اولین خصوصیت دادههای عظیم، حجم آنها است که به مقدار و کمیت آن برمیگردد و به دلیل حجم بالا مدیریت، تجزیهوتحلیل آنها متفاوت است و بهواسطهی پایگاه دادههای سنتی انجام نمیشود.

ماهیت بیگدیتا نامشخص است و مشتمل بر فرآیندهای قابلملاحظهای جهت شناسایی و تبدیل دادهها به اطلاعات جدید است. واژه بیگدیتا در فناوری اطلاعات1و تجارتنسبتاً جدید است. - عباسی، - 1394 عبارت بیگدیتا مدتها است که برای اشاره به حجمهای عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل2یا ناسا ذخیره و تحلیل میشوند مورداستفاده قرار میگیرد؛ اما بهتازگی، این عبارت بیشتر برای اشاره به مجموعههای دادهای بزرگی استفاده میشود که بهقدری بزرگ و حجیم هستن که با ابزارهای مدیریتی و پایگاههای داده سنتی و معمولی قابل مدیریت نیستند. - Kaur,2016 - بیگدیتا با سه بعد توصیف میشود:

.1 زمانی که دادهها بیشمار است.

.2 زمانی که دادهها را نمیتوان به پایگاه دادههای ارتباطی منظم دستهبندی کرد.

.3 زمانی که دادهها بهسرعت ایجاد، جذب و پردازش میشود.

دادههای عظیم در زمینههای پزشکی، علوم مهندسی، امور مالی، تجارت و شبکههای اجتماعی3کاربرد دارد. پیشرفتها در فناوریهای ذخیرهسازی و استخراج دادهها امکان حفظ مقادیر فزاینده داده که با تغییر در ماهیت دادههای نگهداری شده نزد سازمانها توصیف میشود را میسر میسازد. حجم دادههای ذخیرهشده در مجموعههای دادهای بیگدیتاعموماً، به خاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهای موبایل، حسگرهای محیطی، دوربینها، میکروفونها، شبکههای حسگر بیسیم، شبکههای اجتماعی و غیره با سرعت خیره کندهای در حال افزایش است.

نکته جالبتوجه در این زمینه آن است که 90 درصد دادههایی که اکنون در اختیار ماست تنها در دو سال اخیر تولیدشدهاند. سرعتی که دادههای جدید با آن ایجاد میشود گیجکننده است. چالش عمده برای محققان و کاربران آن است که این نرخ رشد از تواناییشان در طراحی پایگاههای مناسب محاسبات ابری4 جهت تجزیهوتحلیل داده و بهروزآوری حجم کار فشرده فراتر است. - - Elgendy and Elragal, 2014

محاسبات ابری یکی از چشمگیرترین تغییرات در فناوری اطلاعات و ارتباطات5مدرن و خدمات برای کاربردهای سازمانی به شمار میرود و به ساختار قدرتمندی جهت انجام محاسبات پیچیده و در مقیاس بزرگ مبدل شده است. مزیتهای محاسبات ابری شامل منابع مجازی شده، پردازش موازی، امنیت و ادغام خدمات داده با ذخیرهسازی اطلاعات مقیاسپذیر است. - Han

et.al,2012 - یکی از بهترین مفاهیمی که درزمینه توصیف بیگدیتا بهکاررفته است، این است که دادهها در سه بعد مختلف در حال رشد هستند. این سه بعد عبارتاند از حجم،1 سرعت 2 و تنوع3 دادهها که روزبهروز، نرخ رشد آنها با سرعتی باورنکردنی افزایش مییابد. به همین دلیل، توصیف بیگدیتا تنها با حجمهای عظیم و نحوه مدیریت آنها کار درستی نیست و باید جنبههای دیر این مفهوم مهم کلیدی را نیز در نظر گرفت. - - Mukherjee and Ravi, 2016

- 1 حجم دادهها: مقدار دادهها در مجموعههای دادهای؛ دادههای عظیم، بالاست. این حجم یکی از ویژگیهایی است که برای دادههای عظیم، بهعنوان یک خصیصه اصلی شناسایی میشود. همانطور که در بخشهای پیشین ذکر شد، حجم دادهها در جهان امروز رو به افزایش است و در پردازش دادهها، باید در نظر گرفته شود. چراکه در بسیاری از موارد نیاز به پالایش و فیلتر اطلاعات است و همچنین باید طرق دسترسی و ذخیرهسازی اطلاعات نیز، بر مبنای این حجم، شخصیسازی شود.

- 2 سرعت: سرعت خلق، جریان، پردازش و تجمیع اطلاعات باید بهگونهای باشد که متناسب با ویژگیهای گروههای دادهای امروزی عمل کند. با توجه بهسرعت تولید اطلاعات در دنیای امروز و نیاز به پاسخگویی بلادرنگ در بسیاری از برنامههای کاربردی و شبکههای اجتماعی، سرعت عمل و پردازش رویدادهها باید بهگونهای باشد که متناسب با این ویژگیها انجام شود. از طرفی، چون دادههای عظیممعمولاً بهصورت توزیعشده، نگهداری میشوند، برقراری ارتباطات و نحوه دسترسی به حافظه نیز باید موردتوجه قرار گیرد.

- 3 تنوع: دادههایی که در گروههای دادهای دادههای عظیم قرار میگیرند، شامل انواع مختلف دادهای از قبیل عکس، متن، ویدئو و غیره هستند که از منابع گوناگونی بهدستآمدهاند. فرمتهای مختلف دارند و دستهبندی آنها بسیار مشکل است و نمیتوان قالب یا ساختار خاصی برای آنها تعریف کرد و دادههای عظیم ازاینرو، غیرساختارمند نامیده میشوند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید