بخشی از مقاله

چکیده

با رشد وسایل ارتباطی و گسترش نفوذ اینترنت و شبکه های اجتماعی در کشور، منبعی غنی از اطلاعات برای برنامهریزان و فعالان حوزه گردشگری فراهم آمده است تا با استفاده از فناوریها و پیشرفتهای اخیر علم داده در جمع آوری، تحلیل و پردازش داده، موجبات رشد هر چه بیشتر این صنعت پویا و حیاتی را فراهم آورند.

این مقاله با معرفی پیشرفتهای اخیر در حوزه علم داده بخصوص فناوریهای پردازش دادههای حجیم که از آن به کلانداده یاد میشود، جنبههای مختلف این دانش نوین را در جهت بهبود رضایت گردشگران و رشد کمی و کیفی خدمات گردشگری بیان کرده و منابع مختلف جمع آوری دادههای مرتبط با توریسم و ابزارهای مرتبط را برشمرده، نهایتا به ضرورت ایجاد یک گردشگری داده محور در ایران توسط بخشهای مختلف خصوصی و دولتی میپردازد.

مقدمه ای بر علم داده و کلان داده

امروزه در دنیایی زندگی میکنیم که تک تک کارها و فعالیتهای روزانه ما به نحوی با فناوری اطلاعات سروکار دارد و دادههای مختلفی روزانه توسط افراد بدون اینکه خود متوجه باشند، تولید و اغلب جمعآوری و ذخیره میشود. هر جستجویی که در اینترنت انجام میگیرد، هر کلیکی که در سایتها بر روی اخبار، محصولات و صفحات میشود، هر عکسی که در شبکههای اجتماعی به اشتراک گذاشته میشود، هر عکسی که دوربین های راهنمایی و رانندگی از ماشینها میگیرند، هر خرید اینترنتی بلیط هواپیما و قطار و اتوبوس، هر تماس تلفنی با تلفن همراه که موقعیت حدودی ما را نشان میدهد، همه و هه نشان از اهمیت روزافزون داده در جهان معاصر دارد.

بهره گیری درست و موثر از این دادهها به یک ضرورت در هر حوزهای تبدیل شده است. پیدایش و رشد علم داده هم دقیقاً با هدف رفع همین نیاز بوجود آمده است؛ علمی که باعث شناخت درست رفتار و نیازمندیهای کاربران میشود و به سازمانها و شرکتها درگرفتن بهترین تصمیم کمک میکند.

قبل از تعریف دقیق علم داده، لازم است نگاهی بیندازیم به کلانداده به عنوان موتور محرک علم داده و منبع عظیم دادهها در این علم. دادههای کلان به مجموعه ای از داده ها گفته می شود که اندازه آنها فراتر از حدی است که با نرم افزارها و روشهای معمول بتوان آنها را در یک زمان قابل قبول، دریافت، ذخیره، مدیریت و پردازش کرد. در این تعریف، حجم داده مشخص نشده است چون میزان کلان بودن داده همزمان با پیشرفت فناوریهای ذخیرهسازی و پردازش اطلاعات روز به روز و عموماً بهخاطر تولید داده توسط تجهیزات و ابزارهای مختلف دیجیتال در حال افزایش است.

گوشیهای موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههای تشخیصRFID  ، شبکههای حسگر بیسیم، ایستگاههای هواشناسی، سامانههای امواج رادیویی، مبادلات شبکههای اجتماعی آنلاین، متون و اسناد اینترنتی، دادههای نجوم، اطلاعات پزشکی و سلامت بیماران، اطلاعات سامانههای خرید از فروشگاهها، پژوهشهای زمینشناسی و غیره نمونههایی از دادهها در مقیاس کلان هستند.

مقیاسی که امروزه از گیگابایت و ترابایت به پتا بایت و اگزا بایت و زتا بایت در حال حرکت است . به همین دلیل نمی توان تعریف مشخصی از اندازه و ابعاد دادههای کلان به دست داد، اما در حال حاضر مجموعه داده های چند ترابایتی - هر ترابایت1000 = گیگابایت - تا چند پتابایتی - هر پتابایت1000 = ترابایت - را جزء کلان داده محسوب می کنند.

چالش اصلی در حوزه کلان داده، جمع آوری دادهها از منابع مختلف و مدیریت موثر پردازش و ذخیرهسازی این دادههاست. دادههایی که خیلی از اوقات ماهیت جریانی دارند و به صورت لحظهای و بدون توقف در حال تولید هستند و نیاز به روشهای کاملاً تخصصی برای پردازش بلادرنگ و استخراج اطلاعات مفید از آنها دارند. به عنوان یک مثال در حوزه گردشگری، عکسهایی که روزانه توسط کاربران اینستاگرام آپلود میشود، یک منبع بسیار غنی از سلایق کاربران ایرانی است که نقاط ضعف و قوت مکانهای مختلف گردشگری کشور را میتوان از نظرات کاربران و میزان محبوبیت هر عکس به-دستآورد. جمعآوری تک تک لایکها و نظرات کاربران و ذخیره آنها با قالب مناسب، جزء کارهای حوزه کلانداده طبقه-بندی میشود.

علم داده به عنوان مکمل بحث کلانداده به مسائل مرتبط با پردازش دادهها و استخراج اطلاعات مفید از آنها می-پردازد. در مثال فوق، تشخیص اینکه این عکس متعلق به یک مکان گردشگری، رستوران، موزه و .... است - پردازش عکس، پردازش متن - و تشخیص بار مثبت و منفی هر نظر - تحلیل احساسات - و پردازش و ذخیره موثر آنها به گونهای که مدیران گردشگری کشور بتوانند در تصمیم سازی ها و بررسی مشکلات و نقاط ضعف و قوت از آنها استفاده کنند و نیز معرفی نقاط پرطرفدار به عنوان پیشنهاد به سایر کاربران - تشخیص علایق کاربر - جزء زیرمجموعههای علم داده است.

علم داده چنان اهمیتی در دوران معاصر یافته است که حتی پیروزی ناباورانه دونالد ترامپ در انتخابات ریاست جمهوری 2016 آمریکا هم به نوعی ماحصل استفاده از این علم مفید می دانند. مایکل کوسینسکی و موسسه کمبریج آنالتیکا مدعی شدهاند که از طریق روانسنجی کلان داده روی کاربران فیسبوک در آمریکا، بر روی انتخابات تاثیر نهاده و زمینه پیروزی ترامپ را فراهم آوردهاند.

کوسینسکی و تیمش مدلی را تهیه کردهاند که تحلیل سریع کلانداده را ممکن میسازد و با تحلیل 68 لایک فیسبوکی یک کاربر میتوان به اطلاعاتی نظیر رنگ پوست، گرایشهای جنسی و گرایشهای سیاسی او دست یافت. بر اساس مدل کوسینسکی، اگر 150 لایک یک کاربر در فیسبوک مبنای تحلیل این سامانه قرار گیرد، شناخت این سامانه نرمافزاری بیش از شناخت والدین خود آدم است و با تحلیل 300 لایک، حتی بیش از شریک زندگی او. اوایل سال2014 پروفسوری با کوسینسکی تماس میگیرد و خواستار روانسنجی 10میلیون کاربر فیسبوک در آمریکا میشود. گفته میشود که این فرد در ارتباط با آژانس مدیریت انتخابات فعالیت میکرده است.

شرکتهای مشهوری نظیر آمازون، نتفلیکس و پاندورا، برای پیشبینی رفتار مشتری از دادههای ضمنی - مانند رفتارهای مشتریان - بجای دادههای صریح - مانند اطلاعات ارائهشده توسط مشتری - استفاده میکنند.[5] در واقع این شرکتها ترجیح میدهند بجای گوش دادن به نظرات مشتریان، رفتار آنها را مشاهده و بررسی کنند. هر لایک،نظر، مشاهده، خرید یک منبع غنی از سنجش رفتار و طبقهبندی کاربران را برای شرکتها و سازمانها فراهم میکند.

علم داده به مجموعه دانشی که برای جمع آوری، پاکسازی، ذخیره موثر و تصویرسازی داده مورد نیاز است، گفته میشود که شامل علم آمار، یادگیری ماشین، هوش مصنوعی، بانکهای اطلاعاتی، برنامهنویسی و تکنیکهای کار با کلان داده میشود. اگر بخواهیم مجموعه دادههایی که یک دانشمند داده با آنها سروکار دارد را بررسی کنیم به طبقه بندی زیر خواهیم رسید:

·    دادههای ساختارمند مانند دادههایی که در بانکهای اطلاعاتی ذخیره میشوند و دارای ساختار مشخص و از پیش تعیین شده هستند مانند اطلاعات مشتریان بانک

·    داده های غیرساختیافته که ساختار مشخصی ندارند مانند صفحات وب

·    دادههای زبان طبیعی که بخشی از داده های متنی غیرساختار یافته است که کاربران به زبان طبیعی و محاوره ای به بیان مطالب خود می پردازند مانند نظرات کاربران

·    داده های تولید شده خودکار توسط ماشین ها و برنامه ها مانند حسگرهایی که درون یک وسیله نقلیه کارگذاشته میشود یا داده هایی که برنامه های مختلف روی سرورها تولید می کنند.

·    داده های صوتی، تصویری و ویدئویی که با افزایش پهنای باند و سرعت اینترت، بسیار رواج یافتهاند و نیاز به ابزارها و تخصص خاص برای پردازش دارند.

·    داده های جریانی که به داده هایی گفت میشود که به صورت مداوم در حال تولید هستند و برنامههای مختلف در صورت نیاز باید مکانیزمهایی برای پردازش مداوم آنها در نظر بگیرند مانند مطالب جدید در شبکههای اجتماعی که یک امر مداوم و بدون وقفه است.

·    داده های گرافی یا شبکهای که اشاره به دادههایی دارد که ساختاری شبکهای و به هم پیوسته دارند مانند شبکه-دوستان در فیسبوک که این گونه از دادهها نیاز به مدلسازی و پردازش خاص خود را دارند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید