بخشی از مقاله
چکیده
در سال های اخیر، محققان با الهام از هوش مصنوعی برای توسعه و ایجاد سیستم هایی که احساسات را درک میکنند، تلاش میکنند. تشخیص احساس در نوشتار یک موضوع فرعی از پردازش زبان طبیعی و متنکاوی میباشد که با کشف خودکار و استخراج دانش دربارهی نظرات و احساسات مردم، از داده های متنی سروکار دارد. تشخیص احساسات از متن تاکنون اغلب متن را فقط به دو دستهی، مثبت و منفی دسته بندی کرده است، در این مقاله این دستهبندی به چهار کلاس احساسی شادی، ناراحتی، خشم و ترس توسعه داده شده است. در این کار یک مجموعه جدید از ویژگیها پیشنهادشده است که از یک مدل محتوایی و نحوی برای تشخیص خودکار احساس یک جمله استفاده میکنند. نشان دادهشده است که با تمرکز فقط روی عبارت های موجود در خود مجموعه دادهها و نادیده گرفتن منابع خارجی، میتوان ویژگیهای برجستهتری برای تشخیص احساسات در سطح جمله کشف کرد. نتایج به دست آمده نشان میدهد که استفاده از این ویژگیها بهبود قابل توجهی در کارایی ایجاد میکند.
کلید واژه- تشخیص احساس، پردازش زبان طبیعی، متنکاوی، وابستگیهای نحوی.
-1 مقدمه
احساسات مدت های طولانی است که توجه محققان را به خود جلب کرده است، همان طور که در مجموعه گسترده ای از کارهای تحقیقاتی مرتبط با احساسات در رشته های روانشناسی، زبان شناسی، علوم اجتماعی و ارتباطات آشکارشده است؛ بنابراین، تحقیقات علمی در احساسات در چندین بعد دنبال شده است و تحقیقاتی از رشتههای مختلف در مورد آن انجامشده است .[1]هدف از تشخیص احساسات متنی درک روشهایی است که افراد احساساتشان را از طریق متن ابراز میکنند، یا اینکه چطور یک نوشته احساسات مختلفی را برمیانگیزاند .[2]
عبارات نوشتاری فاقد ژست ها، آهنگ صدا و حالات چهره است و در عوض متکی به استفادهی خلاقانه از کلمات برای برقرار ارتباط احساسی می باشد.با الهام از کارهای صورت گرفته در نظرکاوی، این مقاله روش هایی برای شناسایی خودکار احساسات در متن را مورد بررسی قرار می دهد و از پردازش زبان طبیعی و تکنیک های یادگیری ماشین برای این هدف استفاده می شود. درحالیکه کارهای زیادی بر روی تحلیل نظرات وجود دارد، تشخیص احساسات به صورت خودکار هنوز خیلی خوب مطالعه و بررسی نشده است.تشخیص احساسات از نوشتار یک کار سخت میباشد زیرا نیاز به درک خودکار جملات انسان دارد که معمولا مبهم هستند و وابسته به متن زمینه ای می باشند که احساس در آن ابراز می شود.
بعضی از کلمات احساسات را به طور صریح منتقل می کنند، درصورتی که برخی کلمات میتوانند برای انتقال احساسات به صورت غیرصریح استفاده شوند که به متن زمینه منوط هستند. [3] کلمات را به دسته های " کلمات احساسی مستقیم " و "کلمات احساسی غیرمستقیم " دستهبندی کردند، مدل پیشنهادی ما هر دو نوع از این کلمات را مورداستفاده قرار می دهد. نتایج گزارش شده در این مقاله نشان میدهد که در نظر گرفتن مجموعه متنوعی از کلمات مرتبط احساسی برای تشخیص خودکار احساسات، شامل کلمات احساسی مستقیم و غیرمستقیم مهم میباشد.
هدف مقاله بررسی احساسات در سطح جمله از طری ق یک مجموعه داده حاشیه نویسی شده میباشد و برای این منظور تحلیل نحوی، معنایی و بافتاری متن زمینه برای دسته بندی خودکار متون موردبررسی و آزمایش قرارگرفته است.در این مقاله، نشان داده شده است که یک مجموعه از کلمات برچسب گذاری شده با احساسات اولیه مشخص برای تشخیص خودکار احساس یک جمله کافی نیست. متن زمینه نیز میبایست در نظر گرفته شود بنابراین ویژگیهای مهم از متن زمینه در تشخیص احساس نیز در نظر گرفته شده است، نتایج نشان میدهد که روش و ویژگیها ی ارائه شده به طور قابل ملاحظه ای عملکرد بهتری دارند.
مطالبی که در بخش های بعدی مقاله ارائه خواهد شد به این قرار میباشد: بخش دوم به کارهای انجامشده در این حوزه میپردازد، در بخش سوم شرحی از منابع استفاده شده ارائه میشوند. در بخش چهارم مدل پیشنهادی و ویژگیهای نحوی و لغوی و مبتنی بر منابع واژگانی، شرح داده میشوند. در بخش پنجم نتایج به دست آمده از روش پیشنهادی ارائه میشود و این نتایج با نتایج روش های معروف در این زمینه مورد مقایسه و ارزیابی قرار میگیرد. بخش ششم نیز حاوی نتیجهگیری میباشد.
-2 کارهای پیشین
شناسایی و دسته بندی احساسات در متن میتواند بهعنوان یک حوزه الهام شده از نظرکاوی در نظر گرفته شود. بر اساس گزارش دو نظرسنجی از بیش از 2000 بزرگ سال آمریکایی :[4] %81 از کاربران اینترنت حداقل یک بار جستجو آنلاین روی یک محصول را انجام داده اند و بین %73 و %87 گزارش دادند که مطالعهی بررسیها یک تأثیر قابل توجه روی خریدشان داشته است. بااین حال، حجم محتوی نظر تولیدشده کاربران اینترنت بسیار زیاد میباشند به طوریکه اکثر شرکت ها و اشخاص عمومی نیاز به صرف زمان زیادی برای یافتن یک نظر کلی در مورد آنچه جستجو میکنند، دارند .[5]
پژوهش انجام شده در [6] از جمله اولین کارهای انجام شده برای دسته بندی نقدهای فیلم برگرفته از Movie Database Internet - IMDB - به مثبت و منفی بود. نویسندگان نشان دادند که استفاده از unigrams به عنوان ویژگی در دسته بندی با Naive Bayes و ماشین بردار پشتیبان به خوبی عمل می کند.بررسی احساسات برای توسعهی واسط های عاطفی، که میتوانند موجب حس کردن از ورودیهای احساسی شوند و واکنش های احساسی مناسب را فراهم میکنند، بسیار مهم میباشد. چنین واسطهایی میتوانند به میزان زیادی در بهبود تجربه کاربر در تعامل انسان و رایانه کمک کنند. تشخیص خودکار احساسات و روشهای تجزیهوتحلیل همچنین در برنامه های کاربردی زیادی با پایه روان شناسی مفید هستند.
برای مثال، آن ها میتوانند به طور موفق برای یادگیری ترجیحات و علایق کاربر از نوشته های شخصی وی[7] ؛ تحلیل و مدلسازی شخصیت [8] ؛ تحلیل بازخورد مصرف کننده، تعامل انسان و رایانه و واسط های کاربری احساسی [9] و سیستم های برقراری ارتباط احساسی [10] به کار گرفته شوند.در [11] نویسندگان تلاش کردهاند برای دستهبندی بلاگ پست های LiveJournal با توجه به حالت روحی مشخص شده توسط نویسندگانی که پستها را مینویسند. تعداد امکانپذیر حالت های روحی حاشیه نویسی نامحدود است زیرا نویسندگان بلاگ ها میتوانند یکی از 132 حالت روحی مشخص شده را انتخاب کنند یا حالت روحی خاص خودشان را وارد کنند. در آزمایشاتشان آن ها ، ارزیابی به 40 حالت روحی در مجموعه محدودشده بود.
در [12]، نویسندگان روی استفاده از توییتر، بهعنوان محبوب ترین پلت فرم میکروبلاگینگ، برای تشخیص احساسات تمرکز کردند. آن ها در آزمایشاتشان دسته بندی، ماشین بردار پشتیبان را که به طور محبوب در انجام کارهای دسته بندی نظرات به کار گرفتهشده است را استفاده کردند.در [13] نویسندگان در آزمایشهایشان برای تشخیص خودکار احساسات در متن از WordNet-Affect استفاده کردهاند، که یک توسعه احساسی از WordNet میباشد. برای کلمات احساسی مستقیم، آنها وزنهایی از WordNet-Affect را استفاده کردند، اما برای کلمات احساسی غیرمستقیم، رویکرد آنها تخصیص وزن های احساسی به آنها بر اساس شباهت معناییشان با یک دستهی احساسی میباشد.
در [14] یک سیستم ترکیبی ارائه شده است که به از دو روش، مبتنی بر کلمه ی کلیدی و یادگیری ماشین استفاده میکند. اگر جملهی ورودی کلمات کلیدی احساسی دارد، رویکرد keyword-based اعمالشده است. در سایر موارد،سیستم از رویکرد یادگیری ماشین، - KBANN - Artificial Neural Network برای پی بردن احساسات از جملات بدون هیچ کلمهی کلیدی احساسی استفاده میکند. رویکرد keyword-based مبتنی بر Emotional - EKD - Keyword Dictionary میباشد که شامل کلماتی است که معنای احساسی دارند. این سیستم هشت احساس - anger, fear, - hope, sadness, happiness, love , thank, neutral را توسط ماژولهای جداگانه تشخیص میدهد.
رویکردهای مختلف مطرحشده به منظور توسعهی سیستم های خودکار برای تشخیص احساسات در متنعمدتاً با عبارت صریح و روشن از احساسات در سطح کلمه سروکار دارند. بااین حال، عبارات احساسی اغلب غیرصریح هستند. برای مقابلهبا این پدیده نیاز به سیستم های خودکار برای داشتن "دانش" روی وضعیت ها و مفاهیمی که آن ها را توصیف میکند و اثر متقابل آن ها خواهد بود، بهمنظور توانایی برای "تشخیص" احساس، به همان شیوه ای که یک انسان قادر به تشخیص است. این نیاز انگیزه ای شده است در [15] برای توسعه دادن پایگاه دانش - EmotiNet یک منبع برای تشخیص احساسات از متن بر اساس دانش عام روی مفاهیم، تعامل آن ها و نتیجه احساسی آن ها. نتایج ارزیابیها نشان داده است که ساختار و محتوای EmotiNet -که دانش موجود در آن میتواند به آسانی توسعه یابد- برای تشخیص خودکار احساسات که بهطور ضمنی ابرازشده مناسب هستند.
-3 معرفی مجموعه داده و فرهنگ واژگان استفاده شده
برای آموزش سیستم های یادگیری ماشین و برای ارزیابی هر سیستم یادگیری خودکار، داشتن یک دادهی حاشیه نویسی شده یک پیش نیاز میباشد. هدف از این پژوهش تشخیص خودکار احساسات موجود در متن است، این کار به مجموعه مناسبی از متن نیاز دارد که بتواند در آزمایش های تشخیص احساسات استفاده شود . فرض اصلی در انتخاب داده برای پژوهش این بود که داده باید در عبارات احساسی غنی باشد. در بخش های زیر، مجموعه داده و فرهنگ واژگان های استفاده شده در این کار شرح داده میشود.
-1-3 فرهنگ واژگان NRC-Emotion
این منبع یک فرهنگ واژگان احساسی میباشد، یعنی حاوی یک مجموعه از کلمات است که وجود یک احساس خاص را نشان میدهند. این فرهنگ واژگان توسط Mohammad و [16] Turney ایجادشده است که یک فرهنگ واژگان کلمه ای است که حاوی بیش از 14000 کلمهی انگلیسی حاش یه نویسی شده میباشد. این کلمات با چندین دستهی احساسی برچسب گذاری شدند. در طول ایجاد فرهنگ واژگان هشت احساس anger - ، anticipation، trust، surprise، sadness، joy،fear و - disgust، در نظر گرفته شده است. علاوه بر این، کلمات NRC مطابق با کلاسهای قطبیت مثبت و منفی نیز برچسب گذاری شدند. در این فرهنگ واژگان هر کلمه می تواند به چندین کلاس احساسی و همچنین هر دو کلاس قطبیت متعلق باشد.
-2-3 مجموعه داده ISEAR
این مجموعه داده 7666 جمله برچسب گذاری شده با هفت احساس را در بردارد، برای ساخت این مجموعه داده 1096 شرکت کننده پرسشنامه هایی را دربارهی شرایطی که آن ها احساسات anger، disgust، fear، joy، sadness، shameو guilt را تجربه کردند، تکمیل کردند. در این پژوهش، تنها جملات در چهار کلاس احساسی Anger - ، Fear، Joy و - Sadness که در سایر مقالات تشخیص احساس استفاده شده است [17]، در نظر گرفته شده است. جدول 1 توزیع نمونه ها را در این مجموعه داده نشان میدهد.
-4 مدل پیشنهادی
شکل 1 چارچوب سیستم تشخیص خودکار احساسات، پیشنهادی را نشان میدهد، که شامل چهار زیرسیستم اصلی است: پیش پردازش، ماژول تحلیل معنایی، نحوی و لغوی. در قسمت پیش پردازش مجموعه داده برای استخراج ویژگی آماده میشود، برای دسته بندی متن به دسته های احساسی، بعضی کلمات از قبیل ”I“ و ”the“ به طور آشکارا بیاثر هستند و بایستی حذف شوند. در تحلیل معنایی میزان تطابق هر جمله با هر برچسب موجود در فرهنگ واژگان NRC اندازهگیری میشود. در تحلیل نحوی نقش هر کلمه در جمله و وابستگیهای نحوی موجود شناسایی میشود. در تحلیل لغوی هم ویژگیهای N-grams استخراج میشوند.
اولین گام برای تشخیص خودکار احساسات، استخراج و انتخاب ویژگیهای مناسب است، زیرا از یک ورودی نادرست هیچ چیزی بیشتر از یک خروجی بی معنی نمی توان انتظار داشت. همهی ویژگیها در کنارهم بایستی یک دید وسیع و جامع از کل مجموعه را تشکیل دهند، همچنین ویژگیها بایستی به اندازه کافی معنادار باشند .[5]در این کار ویژگیها به چهار مجموعهی مجزا گروه بندیشده است: ویژگیها ی مبتنی بر فرکانس، ویژگیهای مبتنی بر فرهنگ واژگان احساسی NRC، ویژگیهای part-of-speech - POS - و ویژگیهای به دست آمده از وابستگیهای نحوی موجود در جملات.