بخشی از مقاله

چکیده

شبکههای اجتماعی به عنوان یک رسانه محبوب به منظور به اشتراکگذاری نظرات، افکار، اطلاعات و تجارب مطرح شدهاند. از سویی افرادمعمولاً به طور غیرمستقیم رفتارهای احساسی خود را در متون و گفتارشان بازتاب میکنند. در این راستا استخراج حالتهای عاطفی افراد از منابع برخط همانند شبکه های اجتماعی و سپس طبقه بندی این حالتها در دستههای از پیش تعیینشده میتواند اطلاعات غنی درباره موضوعات مطرح و اعضای شبکه اجتماعی مورد نظر به دست دهد و در موارد گوناگون همانند تطبیق محتوا با عواطف هر فرد، کمپین های بازاریابی، نظارت بر پاسخ ها در اتفاقات محلی و عمومی و کشف روندهای حالت های افراد مورد استفاده قرار گیرد.

در مقاله پیش رو از شبکه اجتماعی توییتر به دلیل در دسترس بودن دادههای آن و کاربرد بسیار آن در حوزه طبقهبندی عواطف، استفاده شده است. در این مقاله قدم های موردنیاز برای به اجرا رساندن پژوهش طی شده و نتایج مربوطه مطرح گردیده است. در پایان نیز راهکاری در قالب یک سیستم بدین منظور ارائه شده است.

کلمات کلیدی تشخیص عواطف، تحلیل احساسات، طبقهبندی متون، شبکه اجتماعی، انتخاب ویژگی، دستههای عواطف

مقدمه

انسان همواره به دنبال تعاملات اجتماعی بوده و این تعاملات بر افکار و اعمال وی تأثیر میگذارند. نمونهای از این تعاملات، شبکههای اجتماعی میباشد که میتواند این تأثیر را پویاتر نماید. تأثیر تعاملات بر عواطف و احساسات از جمله مهمترین تأثیراتی است که در این شبکهها وجود دارد.تحلیل احساسات عنوانی است که شامل تحلیل نظرات، احساسات، نگرشها و عواطف افراد نسبت به محصولات، سرویسها، سازمانها، افراد، موضوعات، وقایع و ویژگیهای آنها است و این موارد نشاندهنده بزرگی فضای مسئله میباشد. این واژه برای اولین بار توسط ناسوکاوا و ایی در سال 2003 مطرح گردید.با توسعه شبکههای اجتماعی، مردم شروع به بیان نظرات و عواطفشان بر روی شبکهای همانند توییتر نمودند.

در همین راستا کارهایی به منظور تجزیهوتحلیل توییتهای کاربران و تشخیص عواطف کاربران بر روی توییتر انجام شد و تشخیص عواطف روی توییتر تبدیل به کانونی برای محققان به منظور تمرکز بر روی آن گردید.دلایل متعددی برای توجه به این حوزه وجود دارد. اول اینکه این حوزه تقریباً در هر دامنهای، کاربردهای بسیاری دارد. بهطور مثال تحلیل احساسات در صنعت با توجه به گسترش برنامههای تجاری در حال رونق گرفتن است. دوم اینکه راهحلهاییرا برای بسیاری از مشکلات پژوهشی که قبلاً مورد مطالعه قرار نگرفته است ارائه میدهد.

سوم اینکه برای اولین بار در تاریخ بشر ما اکنون با حجم عظیمی از دادهها در رسانههای اجتماعی بر روی وب مواجه هستیم و بدون این دادهها بسیاری از تحقیقات امکانپذیر نمیباشند. از اینرو تحقیقات در تحلیل احساسات نهتنها تأثیر مهمی بر روی پردازش زبان طبیعی دارا میباشد بلکه تأثیرات عمیقی نیز بر روی علوم مدیریتی، علوم سیاسی، اقتصاد و علوم اجتماعی داشته و همه اینها تحت تأثیر نظرات مردم میباشند.

بنابراین استخراج احساسات پنهان شده در متون موجود در شبکههای اجتماعی و طبقهبندی آنها مسئله مورد نظر در این مقاله و پژوهشهای مرتبط است. در بخش دوم مروری بر کارهای انجام گرفته در این حوزه شده و ویژگیهای هر یک از این کارها بیان گردیده است. در بخش سوم نظریههای پایه و مفاهیم مرتبط در این زمینه مطرح شده است. در بخش چهارم سیستم پیشنهادی به منظور طبقهبندی حالات عاطفی در شبکه اجتماعی توییتر معرفی شده است. این سیستم ترکیبی از دو روش معروف طبقهبندی یعنی روشهای نظارتشده و بدوننظارت میباشد و ویژگیهای خاصی را دارا است که میتواند دقت کارهای پیشین را بهبود بخشد. در پایان نیز جمعبندی از مطالب آورده شده است.

از طرفی در طول وقایعی همانند بحرانهای طبیعی، تعداد زیادی از کاربران محتواهایی همانند توییتها، پستهای بلاگ و پیامهای فروم تولید مینمایند. برینیلسن و همکاران توییتهای افراد در طول بحران طوفان شن در سال 2012 را دریافت نموده و  دسته مثبت، خشم، ترس و دیگر را به منظور طبقهبندی تعیین کردند. ایده کلی برای سازمانهای مدیریت بحران بدینصورت میباشد که آنها میتوانند با پیگیری مطالبی که افراد منتشر مینمایند، استراتژیهایشان را در راه برآورده کردن انتظارات و نیازهای مردم تنظیم نمایند. در اینجا نیز پس از تعریف بردار ویژگیها از روشهای ماشین بردار پشتیبان و بیز ساده به منظور طبقهبندی احساسات استفاده شد.

نظریههای پایه

در این بخش مجموعه مفاهیم و نظریه های پایه ای استفاده شده در سیستم پیشنهادی معرفی شده است. این مجموعه مفاهیم شامل توصیف انواع دسته های عواطف، توصیف مجموعه دادگانی که میتوانند به عنوان نمونه مورد استفاده قرار گیرد، روش های برچسب گذاری مجموعه دادگان، موضوع انتخاب ویژگی ها و توصیف انواع روش های طبقه بندی رایج می باشد که در زیر بخشهای بعدی به اجمال مورد بررسی قرار گرفتهاند.

مروری بر کارهای مرتبط

همان طور که در بخش مقدمه اشاره شد در سال های اخیر توجهات زیادی به حوزه تحلیل احساسات شده و پژوهشهایی با روشها و ویژگیهای مختلف صورت گرفته است. در اینجا به توصیف برخی از این پژوهشها پرداختهایم.برخی محققان عواطف را در یک چهارچوب وسیعتری از حالات خصوصی مطالعه نمودهاند. ویب و همکاران3 بر روی برچسبگذاری دستی حالات خصوصی شامل عواطف، نظرات و احساسات در یک مجموعهای شامل هزار جمله خبری پرداختند.

در کار تمرکز بر روی یادگیری عواطف خاص از متن بوده و آلم و همکارانش طبقه بندی خودکار جملات در متون داستانهای مربوط به کودکان را بر اساس عواطف پایهای اکمان ایجاد کردند. در مقاله  یک روش طبقهبندی احساسات دومرحلهای برای تویتر پیشنهاد شده است که ابتدا پیامها تحت عنوان ذهنی و عینی طبقهبندی میشوند و نشان داده میشود که توییتهای ذهنی مثبت هستند یا منفی. از برچسبهای دارای نویز به عنوان دادههای آموزشی استفاده میشود.

در این کار از روش یادگیری ماشین استفاده شده و ویژگیهای نحوی تشکیلدهنده ماتریس ویژگیها میباشند. در مقاله  پارور و بترسبای از روشی موسوم به نظارت از راه دور6 برای تجزیهوتحلیل احساسات و برچسبگذاری در شبکههای اجتماعی استفاده نمودند. ویژگی این روش، استفاده از نشانگرهای مرسوم عاطفی - شکلکها و هشتگها - در متون بود که میتوانست به عنوان جانشینی برای برچسبهای صریح در نظر گرفته شود. مجموعه آزمایشها برای طبقهبندی در 6 دسته پایهای اکمان انجام شد.

از دادههای شبکه اجتماعی تویتر که به صورت تصادفی انتخاب شدهاند و روشهای یادگیری ماشین و از ویژگیهای unigram که شامل تمامی کلمات و هشتگها بعد از حذف urlها و نامهای کاربری تویتر میباشد، به منظور پیادهسازی استفاده گردید. نشانگرها نیز بهعنوان یک برچسب در این آزمایش استفاده شد. نهایتاً با انجام آزمایشها مشخص گردید که این روش برای برخی عواطف - شاد، ناراحت و عصبانی - مناسبتر بوده و کمتر قادر به تشخیص عواطف دیگر میباشد.

انواع دستههای عواطف

عواطف انسانی خود را در قالبهای حالات چهره، بیان، گفتار، نوشتهها و در حرکات بدن و فعالیت ها آشکار میکنند. روانشناسان از حالات صورت انسان که از آن می توان عواطف را برداشت نمود، استفاده کرده و آن ها را به عواطف انسانی پایه ای نگاشت نموده اند. اکمان8 در سال 1992 عواطف پایه ای را تعریف نموده است. این عواطف از طریق حالات چهره تعیینشده و مورد قبول جهانی قرارگرفته است. شش نوع عواطف پایه ای شامل شاد، ناراحت، ترس، عصبانی، تنفر و تعجب می باشد. در طول دهه های اخیر نیز، محققان انواع مختلفی از دستههای عاطفی را شناسایی و معرفی نمودهاند.

دو مدل عمده برای نمایش عواطف وجود دارد: مدل دستهای و مدل ابعادی. هر یک از این مدلها به پوشش جنبههای مختلف عواطف انسانی کمک مینمایند.مدل دسته ای فرض می کند دسته های عاطفی، همانند شش دستهبندی پایه ای اکمان می باشند. هر عاطفه به وسیله یک مجموعه ویژگی های خاص و شرایط بروز آن مشخص میشود. بیشتر کارها بر روی شش دسته عواطف پایه ای متمرکز شده است، با این حال بسیاری از محققان مجموعه عواطف مختلفی را برای حوزه های مختلف استفاده کرده اند. این نوع مدل دستهبندی، مدلی غالب و قطعی می باشد و با توجه به سادگی و شهرت آن تغییرات زیادی در آن به وجود آمده و بهوفور مورد استفاده قرار میگیرد.

رویکرد دوم برای نمایش عواطف، استفاده از مدل ابعادی است. حالات عاطفی در این مدل به وسیله یک مجموعه از ابعاد رایج، به هم مرتبط بوده و به صورت عمومی در یک فضای دو یا سهبعدی تعریف میشوند. هر یک از عواطف، مکانی را در این فضا اشغال میکنند. مثالی از این مدل، مدل راسل9 میباشد که به وسیله یک شکل و یک مجموعه نقاط که نشاندهنده عواطف هستند معرفی شده است.

واژههای مرتبط با عواطف در یک فضای دوبعدی سازماندهی شدهاند که قادر میسازد هر مطلب مکانی را بین هر دو واژه مرتبط با عواطف گسسته انتخاب نماید. پس از دریافت به منظور پردازش، توییتهای غیر انگلیسی، ریتوییتها، دادههای عددی از موقعیت نسبی نقاط در یک فضای دوقطبی و دوبعدی توییتهای تکرار شده، توییتهای دارای نویز، توییتهای هدفدار و خنثی و - والنس-اروسال - 10 به دست میآیند. بعد والنس، عواطف مثبت و منفی در دو توییتهای عینی که در آنها واقعیتها بیان شده است حذف خواهند شد و سمت آن و بعد اروسال حالات آرام در مقابل هیجانی را مشخص میکنند.توییتهای باقیمانده در فرمت csv در پایگاه دادهای ذخیره میگردند.

مجموعه دادگان

به منظور جمعآوری داده، از شبکه اجتماعی توییتر و توییتهای انگلیسی مربوط به این شبکه اجتماعی استفاده خواهد شد. دادههای توییتر یک منبع غنی به منظور دریافت اطلاعات در هر موضوع قابل تصوری میباشد. این دادهها میتواند در موارد مختلفی مورد استفاده قرار بگیرد از جمله: یافتن روندهای مرتبط با یک کلمه کلیدی خاص، جمعآوری بازخورد درباره سرویسها و محصولات جدید و اندازهگیری احساسات و عواطف.

توییتها میتواند به صورت تصادفی، در موضوعات مختلف و فرمتهای متفاوتی استخراج شوند. موضوعاتی که قرار است عواطف موجود در آنها استخراج شود، میتواند در حوزههای مختلف سیاسی، اقتصادی، اجتماعی و غیره باشد. همچنین مجموعه دادگان میتوانند در دو فرم json و csv تهیه شوند. فرمت json شامل تاریخ تولید توییت، نام کاربر، محتوای توییت، محل زندگی کاربر، تعداد دنبال کننده کاربر، ریتوییت و اطلاعات دیگر است. این فرمت بیشتر به درد تحلیل شبکه اجتماعی میخورد. در فرمت csv اطلاعات فقط شامل محتوای توییت است. این مجموعه داده، محتوای توییتهای جمعآوریشده بدون توجه به اطلاعات دیگر مانند نام کاربر و غیره میباشد. این فرمت بیشتر به درد متنکاوی و نظرکاوی میخورد.

در سیستم پیشنهادی به منظور جمعآوری داده از جریان توییتر API

استفاده میشود. API مخفف یا واسط برنامهنویسی کاربردی میباشد و ابزاری است که تعاملی را بین برنامههای کامپیوتر و سرویسهای وب ایجاد میکند. بسیاری از سرویسهای وب، APIای را برای توسعهدهندگان به منظور تعامل با سرویسهایشان و دسترسی به دادهها فراهم میکنند. در نتیجه Twitter API نیز برای دانلود توییتهای مرتبط با کلمات کلیدی خاص استفاده میشود.

برچسبگذاری مجموعه دادگان

به منظور استفاده از داده جمع آوری شده به عنوان دادههای آموزشی در مدلهای طبقهبندی، نیاز به برچسبگذاری دادگان بر مبنای یک احساس مورد اعتماد زمینی میباشد. یک احساس مورد اعتماد زمینی احساسی است که توسط مردم درک میشود و مورد توافق بیشتر افراد گیرنده در یک زمان است. یک سیستم تعاملی کامپیوتر-انسان باید قادر به تشخیص، تفسیر و پردازش عواطف انسانی باشد و اولین گام شناخت عواطف انسانی و برچسبگذاری دادهها بر پایه این شناخت میباشد.

سه رویکرد را به منظور برچسبگذاری مجموعه دادگان میتوان در پیش گرفت: مجموعه دادگان را بین تعدادی حاشیهنویس تقسیم نمود و هر یک به صورت مستقل عملیات برچسبگذاری را روی دادگان خود انجام دهند. هر حاشیهنویس، عاطفه متناسب با هر متن را بر مبنای درصد حضور کلمات و عبارتهای مرتبط با هر دسته عاطفی مشخص میکند. تعدادی حاشیهنویس تعیین میشود و هر توییت توسط دو حاشیهنویس برچسبگذاری میشود. اگر هر دو بر روی عاطفه موجود در توییت توافق داشته باشند، توییت برچسب عاطفی موردنظر را میخورد در غیر این صورت برچسب خنثی به آن توییت اختصاص مییابد.

تمام توییتها در اختیار تمام حاشیه نویسان قرار میگیرند و آنها به صورت مستقل عملیات برچسبگذاری را انجام میدهند و پرتکرارترین برچسب روی یک توییت، به عنوان حالت عاطفی آن توییت انتخاب میگردد.برای انجام حاشیه گذاری میتوانیم یک واسط حاشیه گذاری مبتنی بر وب توسعه دهیم که میتواند شامل یک میله کشویی برای شش حالت عاطفی و یک میله کشویی برای نشان دادن مقدار آن حالت عاطفی باشد که بین صفر تا صد است. همچنین تمام حاشیه نویسان، از قبل میتوانند قواعد و دستورالعملهای مربوطه را دریافت نمایند که این قواعد باعث میشود اطمینان پیدا کنیم هر کس توییتها را به شیوهای یکسان تگ نموده است. به طور مثال این قواعد میتواند شامل تعریف هر یک از دستههای عواطف و اطلاعاتی درباره آنها باشد.

انتخاب ویژگیها

تبدیل یک تکه متن به یک بردار ویژگی، قدم پایهای در هر رویکردی برای تجزیهوتحلیل عواطف میباشد. بدین منظور از یک مجموعه ویژگیهای قوی که نمایش چکیدهای از یک توییت میباشد، استفاده میشود که در آن از اطلاعات مرتبط با کلمات و ویژگیهای خاص موجود در یک توییت استفاده شده است. بردار ویژگی یک بردار n بعدی از ویژگیهای عددی میباشد که نشاندهنده اشیاء یا ویژگیهای مختلف است. در اینجا میتوان به 4 نوع از ویژگیهایی که در کارهای قبلی استفاده شده است، اشاره نمود: شامل نحوی11، معنایی12، مبتنی بر پیوند13 و سبکی. 14ویژگیهای نحویعمدتاً شامل n-gram، برچسبهای POS، الگوهای POS و علائم نگارشی - نقطهگذاریها - میباشند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید