بخشی از مقاله
چکیده - امروزه بسترهای زیادی در فضاهای مجازی برای بیان دیدگاهها و نظرات کاربران فراهم شده است و کاربران میتوانند در خصوص موضوعات مختلف اظهارنظر نمایند. این نظرات برای ارائهدهندگان خدمات و کاربران دیگر با اهمیت است. چرا که آنها میتوانند تصمیمگیریهای مهم و اساسی را توسط مطالعهی این دیدگاهها اتخاذ نمایند. با اینکه دیتاستهای متنوعی همچون تیتر اخبار و روزنامهها، میتوانند مورد تجزیه و تحلیل احساسی قرار بگیرند اما اکثر تحقیقات انجام شده پیرامون شبکههای اجتماعی، از جمله توییتر میباشد.
یکی از روشهای تحلیل احساسات اسناد، واکشی ویژگیهای احساسی و تعیین قطبیت ویژگیها است. در اکثر تحقیقات انجام شده پژوهشگران به بررسی یکی از ویژگیهای احساسی اسناد پرداختهاند اما در این مقاله با واکشی تمامی ویژگیهای احساسی توییتها از جمله کلمات، هشتگها و شکلکها رویکردی جدید در خصوص تحلیل احساسات توییت ها ارائه شده است. نتایج حاکی از آن است که روش ارائه شده به دلیل بررسی ترکیبی تمامی ویژگیهای احساسی از لحاظ شاخص دقت، درستی و حساسیت بهبود قابلتوجهی نسبت به تحقیقات پیشین داشته است.
-1 مقدمه
طبق تعریف اعلایی و منجمی نظرکاوی بیان احساسات، رفتار و نظرات افراد مختلف نسبت به موجودیتهایی است که این موجودیت میتواند محصول، سازمان یا هر موضوع دیگری باشد و نظرها میتوانند مثبت، منفی و یا خنثی باشند.[1] در حقیقت شبکههای اجتماعی و فروشگاههای اینترنتی به منبعی ارزشمند برای کاوش احساسات کاربران، در همهی زمینههای اجتماعی، سیاسی، فرهنگی، بازاریابی و غیره تبدیل شدهاند.
[2] دو روش اصلی برای عقیدهکاوی - نظرکاوی - وجود دارد. یکی عقیدهکاوی مبتنی بر دانش و دیگری روش یادگیری ماشین. در این مقاله بر پایهی روش مبتنی بر دانش رویکردی جدید برای تحلیل توییتها در شبکه اجتماعی توییتر معرفی میشود. در این رویکرد با استفاده از ابزارهای موجود، نقش هر کلمه در توییتها مشخص میشود و به هر کلمه وزنی انتصاب داده میشود همچنین شکلکها و هشتگها نیز وزن میگیرند و در نهایت با ترکیب این وزنها وزن نهایی توییت مشخص میشود.
-2 مروری بر کارهای انجام شده در خصوص تحلیل احساسات
در خصوص تحلیل احساسات، مقالات متعددی به زبانهای مختلف وجود دارد. بسیاری از محققان با بکارگیری روش مبتنی بر دانش به شناخت ویژگیهای احساسی متن پرداختهاند و با وزندهی به این ویژگیها قطبیت متن را تشخیص داده اند. در این بخش به برخی تحقیقات انجام شده در خصوص تحلیل احساسات پرداخته میشود.
1؛-3 پیش پردازش
در این مرحله پس از حذف توییت های تکراری، حروف انگلیسی و علائم، به واکشی شکلکها و هشتگها پرداخته شد. در انتهای این مرحله بانک اطلاعاتی کاملی از توییتها، هشتگهای و شکلکهای هر توییت ساماندهی شد. همچنین تمامی توییتها توسط سه نفر به صورت دستی تعیین قطبیت شدند.
2؛-3 ایجاد پایگاه دانش
از آنجاییکه قرار است کلمات هر توییت پس از واکشی تعیین قطبیت شوند پایگاه دادهای به صورت متمرکز نیاز است. برای این منظور از ابزار فارسنت [8] استفاده شده است. توسط توابع این ابزار تمامی کلمات مربوط به زبان فارسی را با نقش نحوی آن ها واکشی نمودیم و توسط ابزارهای دیگری مانند لکسی پرس و پیکره زبان فارسی [9] قطبیت کلمات را تعیین نمودیم. تا در مراحل بعدی مورد استفاده قرار گیرند.
3؛-3 واکشی ویژگی های احساسی از توییت
یکی از مهمترین ویژگیهای احساسی توییتها کلمات هستند که اهمیت آنها براساس نقش نحویشان تعیین میشود. برای تعیین نقش نحوی کلمات در توییت از ابزار پارسی پرداز [10] استفاده شد. همچنین از آنجایی که برخی کلمات با پسوند و پیشوند در توییتها حاضر میشوند، لمیابی نیز بروی کلمات صورت گرفت. از آنجاییکه در مرحلهی پیشپردازش هشتگها و شکلکها نیز واکشی شده بودند بنابراین تمامی ویژگی های احساسی تا این مرحله شناسایی شده اند.
4؛-3 تعیین قطبیت ویژگی های احساسی
در این مرحله باید با استفاده از پایگاه دانشی که قبلا ایجاد شده است تمامی کلمات توییتها، تعیین قطبیت شوند، از آنجاییکه هشتگها نیز کلمه هستند برای تعیین قطبیت هشتگها نیز از پایگاه دانش ایجاد شده استفاده میشود، شکلکها که تعدادشان اندک و قابل شمارش است باید به صورت دستی تعیین قطبیت شوند. در نهایت برای تکتک این ویژگیها با استفاده از فرمولهای ارائه شده در ادامه ضریب قطبیت محاسبه میشود. در بین کلمات آنهایی که در نقش اسم هستند بار احساسی کمتری دارند بنابراین به کلمات در نقش صفت، قید و فعل ضریب احساسی داده میشود.