بخشی از مقاله
چکیده
امروزه با گسترش استفاده از تلفنهای همراه هوشمند، رایانههای همراه، حسگرها و تگهای رادیویی دادههای بزرگ تولید میشوند. اهمیت دادههای بزرگ، ناشی از مزایای حاصل از آن در پیشبینی بهتر آینده با تحلیل دادهها است. از اینرو، مزایای حاصل از دانش استخراج شده از این دادهها در حوزههای مختلف کاربرد دارد. تجربه کشورهای مختلف در سالهای اخیر نشان میدهد که یکی از حوزههایی که دادههای بزرگ، پتانسیل زیادی برای بکاربرد دارد و فرصتهای بزرگی را در اختیار میدهد، بخش دولتی است. استفاده از دادههای بزرگ در بخش دولتی علاوهبر بهبود خدمات دولتی، توسعه پایدار را نیز به همراه دارد. در این نوشتار علاوهبر توجه به اهمیت و کاربرد دادههای بزرگ، به نقش آن در بخش دولتی و پتانسیل بهرهمندی از آن در ایران پرداخته شده است.
مقدمه
امروزه استفاده از تلفنهای همراه هوشمند، رایانههای همراه، حسگرها و تگهای رادیویی، گسترش چشمگیری یافته است. افزایش استفاده از این تجهیزات در کنار تکنولوژی وب 3، منجر تولید حجم انبوهی از دادهها شده است. این دادهها که علاوهبر حجم انبوه، نرخ تولید بالا و تنوع بالایی نیز دارند؛ دادههای بزرگ نامیده میشوند. به طور کلی میتوان دادههای بزرگ را دادههای تعریف کرد که حجم بالا، سرعت بالا و تنوع بالایی دارند. در واقع دادههای بزرگ، تغییر پارادایم معماری را در جریان داده ایجاد کرده است - جودی و مهرشاد، . - 1395
دادههای بزرگ تولیدی دو دسته هستند دادههایی که افراد به دلیل حضور در فضای مجازی تولید میکنند و دادههایی که توسط تجهیزات مختلف از قبیل حسگرها و تگهای رادیویی تولید میشوند. اگرچه در گذشته نیز نیاز به اطلاعات کمتر از امروز نبوده و بودجههای بسیاری برای دسترسی به اطلاعات صرف شده است اما امروزه اطلاعات انبوه با سرعت بالایی در دسترس قرار میگیرد و این باعث ایجاد تجارت وسیع و جهانی شده است - Kossmann & kraska,2010 - از سوی دیگر این امر فرصتهایی را در حوزههای مختلف در اختیار قرار میدهد. در این نوشتار به فرصت دادههای بزرگ در دولت الکترونیک پرداخته شده است.
داده های بزرگ
در ادامه تعارفی از دادههای بزرگ آورده شده است:
• داده هایی که ذخیره، پردازش و تجزیهوتحلیل آنها با سیستمهای سنتی ممکن نیست را می توان دادههای بزرگ نامید . - Hashem,2014 -
• دادههایی که تحلیل آنها با پایگاههای کنونی ممکن نیست . - Minelli,2013 -
• دادههایی که به خاطر حجم و افزونگی مداوم قابل مدیریت با روشهای ساده نیستند . - Bakshi,2012 -
• تعریف گارتنر از دادههای بزرگ اینگونه است "دادههای بزرگ اطلاعات باارزشی - assets - هستند که حجم بالا، سرعت بالا و تنوع بالایی دارند که نیازمند شیوههای پردازش اطلاعات مقرون به صرفه و خلاقانهای هستند که قادر به افزایش بصیرت، تصمیمگیری و اتوماسیون فرایندها باشند" - به نقل از جودی و مهرشاد، . - 1395 به طور کلی دادههای بزرگ میتوان براساس سه ویژگی اصلی آنها که به 3 معروفند تعریف کرد. این ویژگیها عبارتند از: -1تنوع داده-2 1سرعت داده-3 2حجم داده3؛ که به اختصار آنها را شرح میدهیم:
• تنوع داده: اطلاعات مربوط به شبکههای اجتماعی و شبکههای حسگر و وسایل ارتباطی و... هستند که بصورت ساختاریافته - سنتی - و یا نیمه ساختاری یا بدون ساختار هستند و نمیتوان آنها را طبقهبندی کرد مانند مطالبی که در شبکههای اجتماعی به اشتراک گذاشته میشود . - Zikopoulos,2012; Katal & wazid,2013 -
• سرعت بالا: دادههای بزرگ با سرعت بالا تولید میشوند. به عنوان مثال سرعت دادههایی که توسط حسگرهای RFID4 در لحظه تولید میشود، بسیار بالا است. سیستمهای سنتی تجزیهوتحلیل داده قادر به ارائه گزارشهای لحظهای از این دادهها نیستند - جودی و مهرشاد، . - 1395
• حجم بالا: مهم ترین ویژگی دادههای بزرگ را میتوان حجم دادههای به اشتراک گذاشته عنوان کرد . - Tam,2012; Smith,2014 - در برخی از منابع دو ویژگی دیگر نیز برای دادههای بزرگ دیده میشود که عبارتند از:
• ارزش دادهها: دادههای بزرگ، دادههای باارزشی هستند.
• انسجام دادهها: از دیگر خصوصیات دادههای بزرگ میتوان به انسجام آنها اشاره کرد. از آنجا که دادهها خاصیت پخشی دارند و برای جمع آوری اخرین تغییرات باید آنها را از سرویس دهندههای مختلف جمعآوری کرد. همانطور که در جدول 1، نشان داده شده است دادههای بزرگ با دادههای سنتی متفاوت هستند و تجزیه و تحلیل آنها نیز متفاوت از دادههای سنتی است. شش پارامتر را در تجزیهوتحلیل دادههای بزرگ میتوان عنوان کرد که عبارتند از - پتروسیان و روستایی، : - 1391
• مقیاسپذیری: قابلیت سیستم در دادههای بزرگ رو به رشد است
• دسترسی: پاسخگویی مستمر سیستم به مشتری
• ناهمگونی: ساختارپذیر کردن دادههایی که به سه صورت ساختار یافته، نیمه ساختار یافته و ساختار نیافته وجود دارند، به منظور کار آمد شدن دادههای در دسترس
• سرعت: تحلیل سریع دادهها
• یکپارچگی: یکپارچگی دادههای بزرگ از منابع مختلف
• بهینهسازی منبع: بهینهسازی منابع دادهها