بخشی از مقاله
چکیده
امروزه، تکنولوژیهای جدید و پیشرفته با حجم وسیعی از داده های ساختاریافته و غیرساختاریافته مواجه هستند. که در این میان صنعت برق و الکترونیک نیز از این مساله مستثنی نبوده و در جهت پیشرفت و بهینه سازی خدمات خود می بایستی وارد گستره داده های بزرگ شده و از طریق راه حل های موجود از جمله داده پژوهی و داده کاوی به اهداف بزرگ خود نائل گردد. مقاله پیش رو مروری است بر علم داده پژوهی و استفاده از آن در راستای نیل به بسترهای جدید علم فناوری اطلاعات .
کلید واژه- داده پژوهی، داده کاوی، دیتای بزرگ، بانکداری.
1مقدمه
با ورود به عصر اطلاعات و ارتباطات و آغاز استفاده از داده ها و اطلاعات به عنوان سرمایه های اصلی در حرکت علمی، اقتصادی، اجتماعی و فرهنگی جوامع، سازمان ها و شرکت های مختلف و توسعه مشارکت افراد در جهان اینترنت و ارتباطات شبکه ای در دنیا، دغدغه ای بروز پیدا کرد که از جنس همین داده هایی بود که همه روز و با سرعت زیاد در دنیا و در عرصه های مختلفی که فناوری اطلاعات ورود پیدا کرده بود، تولید می شود . اما سوال این است که چگونه این حجم بزرگ و متنوع داده ها و اطلاعات را با توجه به ساختار هایی که در فضای فناوری اطلاعات وجود دارد، می توان مدیریت، کنترل و پردازش کرد و از آن در جهت بهبود ساختارها و سودآوری بیشتر بهره جست؟
کشفیات علمی داده محور، الگوی در حال ظهور مهمی برای محاسبات در حوزه های اجتماعی، خدمات ، اینترنت، شبکه های حسگر، ارتباطات راه دور، زیست شناسی، بهداشت، درمان و...
است. در رابطه با این الگو، موضوع داده پژوهی مطرح می گردد که هسته ای است که تحقیقات جدید را در حوزه های زیادی از محیط زیست تا اجتماع هدایت می کند. چالش های علمی بسیاری مرتبط با آن وجود دارد، اعم از ضبط داده ها، ایجاد، ذخیره سازی، جستجو، به اشتراک گذاری، مدل سازی، تجزیه و تحلیل و نمایش تصویری داده ها.در این تحقیق ابتدا به توضیح big data - داده های بزرگ و حجیم - می پردازیم و سپس وارد مبحث اصلی یا همان داده پژوهی می شویم .
1.داده های بزرگ: - - Big Data
مجموعه ای از داده های بزرگ و پیچیده که پردازش آنها توسط نرم افزارهای سنتی پردازش اطلاعات امکانپذیر نیست یا به سختی انجام می شود.از مهمترین دلایل تولید داده های بزرگ می توان به گسترش استفاده از موارد ذیل در سطح سازمانها اشاره نمود:
· RFID
·دوربینهای مداربسته
·کارتخوانها
·نگهداری دیتای نرم افزارهای ERP
·استفاده از شبکه های اجتماعی
·موتورهای جستجو
·سنسورهای مورد استفاده برای اطلاعات
·عکس های دیجیتال و فیلم ها
· تلفن های همراه و سیگنال های GPS آنها
1,1ویژگی های داده های بزرگ - - BIG DATA
·حجم : - Volume - اندازه داده، افزایش تصاعدی حجم داده
·تنوع : - Varity - میزان نیاز به تجزیه و تحلیل داده ها
·سرعت : - Velocity - میزان داده های تولید شده در یک بازه زمانی یا سرعت ایجاد داده های جدید
·تغییر - : - Variation هر چه ناپایداری در محیط بیشتر، مدیریت و تحلیل داده ها سخت تر
·پیچیدگی - : - Complexity یکپارچه و همگن سازی حجم زیادی از داده های پیچیده از منابع مختلف
2,1 سیر تحولی داده های بزرگ - - BIG DATA
·پردازش تراکنش های برخط
·پردازش تحلیلی برخط
·پردازش تجزیه و تحلیل های در لحظه
2 معرفی داده پژوهی - Data Science -
در جهان امروز ، داده ها به طرز شگفت انگیزی در حال افزایش هستند. در عین حال دسترسی به آنها نیز با بهره گیری از فن آوری های دیجیتال بسیار سهل تر از گذشته شده است. اطلاعات و داده هایی که در دهه ها و قرن های گذشته به وجود آمده اند نیز به راحتی دیجیتالی شده و مورد استفاده قرار می گیرند. کمپانی IBM پیش بینی می کند که بیش از 90 درصدداده هایی که ما در حال حاضر استفاده می کنیم در دو سال گذشته تولید شده اند، لذا روند رو به رشد تولید داده ها، نیاز روز افزون به تجزیه و تحلیل دقیق آنها را به دنبال خواهد داشت.در همین زمان، فن آوری های پیشرفته توسعه پیدا کرده اند که روند تجزیه و تحلیل و معنا بخشی به داده ها را تسهیل می کنند. یافتن الگوها و قوانینی که داده های مشابه از آنها پیروی می کنند می تواند ارزش زیادی در تسهیل شرایط زندگی انسانها و بهبود فرایند های کسب و کار داشته باشد. از این قوانین به داده پژوهی یاد می شود.
1,2 تعریف داده پژوه - Data Scientist -
امکان بررسی و تحلیل داده های بزرگ ما را قادر می سازد که درک عمیقتری از ماهیت پدیده هایی که ما را در زندگی شخصی و کاری احاطه کرده اند داشته باشیم، بدست آوردن این نتایج به عهده دانشمند داده پژوه می باشد.
2,2 مهارتهای دانشمندان داده پژوه
•توانایی برای یافتن و تفسیر منابع بزرگ داده
•مدیریت حجم زیاد اطلاعات با سخت افزار
·محدودیت های نرمافزاری و پهنای باند
·ادغام منابع داده با یکدیگر
·تضمین پایداری مجموعه های داده
·تولید تصویر برای فهم داده
·ساخت مدل های ریاضی با استفاده از داده
·ارائه و مبادله یافته ها و دیدگاه ها در حوزه داده با متخصصان و دانشمندان حاضر در گروه و یا در صورت امکان مخاطب معمولی و مجموعه مهارت هایی که دانشمندان داده پژوه به طور گسترده به کار می گیرند.
·دانشمندان داده پژوه عضو کاملی از حوزه ی هوش رقابتی هستند، که حوزه ی جدید نوظهوری است که شماری از فعالیت ها را در بر می گیرد، ازقبیل داده کاوی که می تواند به افزایش سود در رقابت های تجاری کمک کند.
3,2 حوزههای مختلف داده پژوهی
- ریاضیات و آمار - - Statictics
-تجزیه و تحلیل داده - Data analysis -
-مهندسی داده - Data Engineering -
- بازشناخت الگو - Pattern Recognition -
-داده کاوی - - Data Mining
-نمایش تصویری داده ها - - Data Visualization
-بزرگ داده ها - - Big Data
-یادگیری ماشین یا فراگیری دانش - MachineLearning
-انبار داده ها - - Data Warehousing
-فناوری اطلاعات سلامت Healt InformationTechnology - HIT -
4,2 اهمیت رشد داده پژوهی
هدف از داده پژوهی استخراج دانش از داده است. داده پژوهی نیاز به یک مطالعه روش مند از مشاهدات، تحت حمایت روشهای علمی دارد.رشد تصاعدی داده ها، به خصوص داده های ساختارنیافته، باعث می شود داده های بزرگ، از جنبه های مهم داده پژوهی باشد. امروزه، تکنولوژیهای جدید و پیشرفته همراه با حجم وسیعی از داده های ساختاریافته و غیرساختاریافته در دسترس، بلادرنگ اجازه فرآیندهای تصمیم گیری چندکاناله را می دهد که می تواند پول را ذخیره کند و درآمد را افزایش دهد.داده پژوهی از عناصر، روشها و نظریه ها در بسیاری از زمینه ها، مانند نمونه های زیر ایجاد شده است:
-پردازش سیگنال
-ریاضیات
-مدلهای آماری
-یادگیری ماشین یا فراگیری دانش
-برنامه نویسی کامپیوتر
-آمار
-مهندسی داده
-تشخیص الگو و یادگیری
-نمایش تصویری داده - تجسم -
-مدل سازی عدم قطعیت
-انبارداده ها
-محاسبات با کارایی بالا
- ورودی های کلیدی برای داده پژوهی
داده پژوهی شامل سه ویژگی اساسی از داده هاست :
سرعت
-پردازش دسته ای - فرآیند گروهی -
-نزدیک به زمان واقعی
- زمان واقعی - بلادرنگ -
حجم
-رکوردهای در حد ترابایت و پتابایت
تنوع
-داده های تراکنشی ساختاریافته
-داده های ساختار نیافته یا نیمه ساختار یافته از منابع اجتماعی
5,2 برخی از مشاغل حوزه داده پژوهی
-یادگیری یا فراگیری دانش توسط ماشین - Machine Learning -
-مهندسی داده کاوی - Data Mining Engineer -
- معماری داده های بزرگ - Big Data Architect -
-تحلیل گر تجارت - Trading Analyst -
-متخصص دیتا برای تبلیغات - Data Specialist - for Advertising
-مدیر دیتا، گزارش دهی و تحلیل - Director of