بخشی از مقاله
چکیده:
تعداد دستگاههای متصل روزبهروز در حال افزایش است. امروزه نه تنها تبلتها و گوشیهای هوشمند؛ بلکه لوازم خانگی مانند یخچال، تلویزیون و یا حتی خودروها نیز به اینترنت متصل میشوند. این دستگاهها بهطور پیوسته در حال تولید دادههایی مانند میزان انرژی مصرفی، ساعت کارکرد و یا اطلاعاتی پیرامون محیط اطراف مانند دمای هوا، میزان رطوبت، درصد آلایندههای موجود در هوا و ... میباشند. درواقع اینترنت اشیاء را میتوان بهعنوان مولد کلانداده در نظر گرفت.
این موضوع چالشهای گوناگونی را مخصوصاً در حوزه کلانداده و پردازش آن به وجود خواهد آورد. دادههای تولیدشده در این اکوسیستم ویژگیهای خاصی مانند غیریکنواختی، غیرساختیافتگی و افزونگی را دارا هستند . همیشه در کنار کلانداده بحثهایی مانند هوشتجاری، دادهکاوی، تجزیهوتحلیل کلانداده مطرح میشود.
امروزه بسیاری از مدیران کسبوکارها توانستهاند با استفاده از هوش تجاری و با اتخاذ تصمیمات آگاهانهتر و درستتر حاصل از استفاده آن، بهرهوری تجارت خود را بهبود بخشند؛ اما تکنیکهای قدیمی هوش تجاری دیگر پاسخگوی نیازهای اینترنت اشیاء نیست.
بهتر است دادهها بهصورت بلادرنگ تجزیهوتحلیل شوند تا مؤثر واقع گردند. نسل جدیدفنّاوری تجزیهوتحلیل، هوش عملیاتی1است که دادههای زنده را مدیریت میکند و بلافاصله بازخورد میدهد. مطالعات نشان میدهد دادههای تولید شده در حوزههای مختلف اینترنت اشیاء ارزشمند هستند و تحلیل آنها میتواند به بهبود خدمات و افزایش کیفیت زندگی کمک کند. سلامت یکی از مهمترین حوزههای اینترنت اشیاء است که تحلیل دادههای آن موجب کاهش هزینههای درمان، افزایش سرعت در تشخیص صحیح بیماری، افزایش دقت در انتخاب روشهای درمان و ... میشود.
1 مقدمه
افزایش روزافزون دستگاههای متصل باعث افزایش حجم دادههای قابل ذخیره شده است. دادههایی که از این دستگاهها ارسال میشوند میتوانند دمای یک کوره ذوبآهن، میزان برق مصرفشده توسط یک دستگاه و یا ضربان قلب یک بیمار باشد. ذخیره این اطلاعات و تجزیهوتحلیل آنها میتواند منجر به نتایجی مانند نجات جان یک بیمار، کاهش مصرف انرژی، افزایش بهرهوری و در کل اتخاذ تصمیمات بهتر شود. ازاینرو استفاده از هوش تجاری در کنار اینترنت اشیاء میتواند ما را به تحلیلهای ارزشمندی در راستای بهبود کیفیت زندگی یا گسترش کسبوکار برساند. هوش تجاری عبارت است از:
استراتژیها، فرآیندها، کاربردها، دادهها،فنّاوریها و معماریهای فنی که توسط سازمانها برای جمعآوری، تحلیل، نمایش آمار و درنهایت انتشار نتایج، مورد استفاده قرار میگیرد
از سوی دیگر یکی از مباحثی که امروزه زیاد از آن میشنویم بحث اینترنت اشیاء است. اینترنت اشیاء یک زیرساخت جهانی است که در آن تمام دستگاهها مانند اتومبیلها، ساختمانها، لوازمخانگی و ... توسطفنّاوریهای ارتباطی موجود مانند شبکه اینترنت به یکدیگر متصل هستند و از این طریق سبب ارائه خدماتی مانند گزارش خرابی لوازم برقی و یا لزوم سرویس اتومبیل، به کارخانههای سازنده میشوند
عامل مشترک بین اینترنت اشیاء و هوش تجاری بحث کلانداده است. کلانداده مجموعههایی از داده است که نمیتوان آنها را بهوسیله رایانههای معمولی و در زمانی معقول، ذخیره و پردازش کرد. همچنین مدیریت این اطلاعات با نرمافزارهای پایگاه داده شناختهشده معمول، امکانپذیر نیستعموماً. در تعریف کلانداده از کلمههایی که با حرف "V" شروع میشوند استفاده میکنند. این کلمات شامل Volume به معنی حجم داده که باید زیاد باشد؛ Velocity به معنی سرعت که منظور افزایش سرعت پردازش به سمت بلادرنگ شدن سیستم؛ Variety به معنی تنوع که اشاره به انواع مختلف داده ذخیرهشده اعم از ساختیافته، غیر ساختیافته مانند ویدئو و صوت و ... دارد. برخی منابع Vهای دیگری نیز به تعریف اضافه کردند که از مهمترین آنها میتوان به Value اشاره کرد که منظور از آن باارزش بودن تکتک دادهها با وجود حجم انبوه آنها است
دادههای بهدستآمده از طریق اینترنت اشیاء نسبت به دادههای سایر سامانهها از لحاظ ناهمگونی2، نویز، گوناگونی3 و سرعت افزایش حجم داده متفاوت میباشند .[4] فرصتهایی که از طریق تحلیل دادههای اینترنت اشیاء میتوان به وجود آوردعموماً در این حوزهها خواهد بود:
الف - شهر هوشمند
ب - حملونقل هوشمند
ج - سلامت هوشمند
د - کنتورهای هوشمند انرژی
ه - اینترنت اشیاء صنعتی
در این مقاله کاربردهای درستی از هوش تجاری و دادهکاوی و به دنبال آن چالشهای پیش رو ارائه میشود. در ابتدا تعاریف درست و دقیقی از اینترنت اشیاء، کلانداده، هوش تجاری، هوش عملیاتی و دادهکاوی ارائه میشود؛ در ادامه ویژگیها و استراتژیهای مدرن آنها که برای استفاده در حوزه اینترنت اشیاء مناسب است مورد بررسی قرار میگیرد. بخش انتهایی مقاله به مطالعه موردی کاربردهای هوش تجاری در حوزه سلامت اینترنت اشیاء اختصاص دارد.
2 پایگاه کشف دانش4
پس از دریافت داده از دستگاههای هوشمند و ذخیرهسازی آنها این سؤال مطرح میشود که چگونه این دادهها را به دانشی تبدیل کنیم که برای ما انسانها قابل درک باشد. راهحل آن پایگاه کشف دانش است .[5] هدف از استفاده پایگاه کشف دانش در اینترنت اشیاء تبدیل داده به اطلاعات و درنهایت تبدیل اطلاعات به دانش است. برای کشف دانش مراحل زیر در نظر گرفته میشود :
- 1 انتخاب - 2 پیشپردازش - 3 تبدیل - 4 دادهکاوی - 5 تفسیر/ ارزیابی مراحل 1 و 2 و 3 را مراحل پردازش داده و مرحله 5 را مرحله تصمیمگیری مینامند.
شکل -1 معماری اینترنت اشیاء همراه با پایگاه داده کشف دانش
3 تحلیل کلانداده
تحلیل داده شامل فرآیند جستجوی یک پایگاه داده و کاوش، بهمنظور کسب اطلاعات، جهت بهبود کارایی است. هدف از تحلیل مجموعههای بزرگ داده که شامل انواع دادههای گوناگونی است، کشف الگوهای دیده نشده، ارتباطات پنهان، روند بازار، سلیقه مشتری و سایر اطلاعات مفید است .[4] با توجه به وجود انواع مختلف داده؛ اعم از ساختیافته مانند جداول متنی، غیر ساختیافته مانند ویدئو و صوت، شبه ساختیافته مانند ویدئوهایی که متنی را بهعنوان فراداده5 همراه دارند؛ به فنّاوریهایی نیاز است تا این دادهها را به دادههای مناسبتر و قابل فهمتر برای تحلیل تبدیل کنند.
پس از پیدا شدن الگوها، روندها، روابط میان دادهها و... ابزارهای تحلیل میبایست نتایج را بهصورت جدول، گراف، نمودارهای 2 بعدی و 3بعدی مصور کنند. سیستمهای مدیریت پایگاه داده سنتی که بر پایه رابطه کار میکنند برای ذخیرهسازی دادههای غیر ساختیافته مناسب نیستند. همچنین این پایگاه دادهها توان مدیریت این حجم از داده را ندارند و یا نیاز به سختافزارهای قدرتمندی دارند. در این راستا ایدههایی همچون پردازش ابری و پایگاه دادههای NoSQL مطرح شدند. تحلیل کلانداده چالشهای مختلفی را به همراه دارد. با توجه به هدف مقاله که تحلیل کلاندادههای اینترنت اشیاء است، توجه به نکات زیر ضروری است:
الف - شناخت متدولوژیها فنّاوریهای مناسب برای جمعآوری، ذخیرهسازی، پردازش و تحلیل کلاندادههای اینترنت اشیاء ب - نحوه تحلیل کلاندادههای اینترنت اشیاء برای کشف الگوهای معنادار ج - چگونگی استفاده از این الگوهای شناختهشده و نحوه ارائه آنها بهصورت نرمافزار و یا سرویس به کاربران برخی از چالشهای پیش رو در تحلیل کلاندادهها عبارتاند است از:
الف - حفظ حریم خصوصی: سؤالهای بسیاری در زمینه مالکیت دادههای تولید شده در اینترنت اشیاء پرسیده میشود. بهطور خلاصه این سؤالها به دنبال روشن شدن حریم خصوصی دادههای تولید شده میباشند. آیا مالکیت دادههای تولید شده توسط یک ماشین لباسشویی در اختیار صاحب آن است یا تولیدکننده دستگاه؟ دو دیدگاه در این رابطه مطرح میشود :
-1 ناشناس ماندن:6 در این دیدگاه دادهها بهصورت بدون شناسنامه جمعآوری و نگهداری میشوند و مالک آنها مشخص نیست. ازاینرو تحلیل آنها و استفاده از نتایج بهدستآمده حریم خصوصی اطلاعات را نقض نمیکند.
-2 سطح محرمانگی متفاوت: در این روش دادهها سطح دسترسی متفاوتی خواهند داشت. به علت مشخص بودن مالک داده میتوان پرسوجوهای دقیقتری را در تحلیلها اعمال کرد ولی حفظ حریم خصوصی باید شامل نتایج به دست آمده نیز بشود.
چالشهای مرتبط با حریم خصوصی در اینترنت اشیاء هنوز حلنشده باقیمانده است؛ زیرا هنگامیکه این دادهها از منابع مختلف و با مالکیتهای متفاوت در یکجا جمع میشوند، حفظ حریم خصوصی پیچیدهتر نیز میشود. سیستمهای امروزی اینترنت اشیاء، به اندازه کافی در زمینه امنیت و حفظ حریم خصوصی مجهز نشدهاند؛ زیرا راهکارهای موجود، برای شبکههای بزرگ و ناهمگن دستگاههای هوشمند، مقیاسپذیر نیستند [8]؛ همچنین در سیستمهای سلامت که در بخش 8 به آن میپردازیم با وجود صدور گواهینامه HIPPA برای مراکز داده، تضمینی بر حفظ امنیت دادههای بیمار نیست
ب - مصورسازی - 7نمایش - داده: دو مورد از مشکلات اساسی در مصورسازی کلانداده بحث مقیاسپذیری8و پویایی است. مصورسازی کلانداده به دلیل تنوع و ناهمگونی دادهها مسئله پیچیدهای است. از دیگر مشکلات مصورسازی میتوان به نویزهای تصویری، از دست رفتن اطلاعات به دلیل تقلیل آنها به دادههای قابل مشاهده، نرخ بالای تغییرات در تصاویر، نیاز به سرعت و کارایی بالا در مصورسازی اشاره نمود .[10] چالشهای پیش روی مصورسازی به 6 دسته تقسیم میشود :
- 1 موازیسازی - 2 معماریهای نوظهور پردازش - 3 معماری برنامهها و مدیریت دادهها - 4 مدلهای داده - 5 رندر کردن - 6 تعامل9 ج - کاهش افزونگی و همچنین فشردهسازی دادهها: واضحترین نوع افزونگی، تکراری بودن دادهها است. برای مثال، حسگری که دمای محیط را ارسال میکند، ممکن است در طول روز بارها عدد ثابتی را در زمانهای مختلف گزارش نماید. اما کاهش افزونگی به سادگی حذف دادههای تکراری نیست. زیرا در شرایط گوناگون ممکن است این تکرارها بیانگر اطلاعات ارزشمندی باشند. ازاینرو باید به دنبال روشی برای فشردهسازی دادهها باشیم که خود چالشهای مختلفی را بهدنبال خواهد داشت.
د - مدیریت چرخه حیات داده: تعداد انبوه دستگاههای متصل به همراه ارسال اطلاعات مداوم در طول روز باعث خواهد شد تا در طی مدت کوتاهی با چندین پتا بایت داده روبرو شویم. ذخیرهسازی این حجم از دادهقطعاً با چالشهایی روبهرو خواهد بود.
ه - مکانیسم تجزیهوتحلیل: دادههایی که از اینترنت اشیاء جمعآوری میشوند علاوه بر موارد عمومی مانند ناهمگونی، ویژگیهای غیر ساختیافته، به دلیل تفاوت در نوع داده، نویز و تکرار بسیار زیاد، با سایر کلاندادهها تفاوت دارند.
ه - مقیاسپذیری: چالش مهمی که پیشروی تحلیل کلانداده وجود دارد، تکنیکها و الگوریتمهای مقیاسپذیر است که در حال حاضر به اندازه کافی برای تحلیل کلانداده کارا نیستند. در همین راستا مفهوم پردازش ابری مطرح شده که مقیاسپذیری از نقاط قوت آن محسوب میشود. شرکتهای مختلفی اقدام به راهاندازی پلتفرم ابری نمودهاند که مهمترین آنها عبارتند از: گوگل، مایکروسافت، آمازون
4 بررسی سیستمهای تحلیل داده موجود
با توجه به نیازهای دنیای اینترنت اشیاء ممکن است از روشهای مختلفی برای تحلیل دادهها استفاده شود؛ اما بهطور کلی سیستمهای تحلیلی که امروزه مورد استفاده قرار میگیرند بهصورت یکی از موارد زیر هستند :
تحلیل آفلاین: کاربرد این سیستم زمانی است که نیازی به پاسخ سریع نداریم. بسیاری از سیستمهای اینترنتی از معماری آفلاین مبتنی بر هدوپ استفاده میکنند تا هزینه تبدیل نوع داده را کاهش دهند. سیستمهای Scribe, Kafka, Chukwa مثالهایی ازایندست سامانهها هستند.