بخشی از مقاله
چکیده
نظر کاوی و تحلیل احساسات به استخراج نظرات کاربران و تشخیص قطبیت آنها، درون متون ذهنگرایانه میپردازد. نظر کاوی میتواند برای پیشنهاد خرید یا عدم خرید محصولی خاص و نیز بهعنوان مشاوری برای تولیدکنندگان محصولات جهت استخراج ویژگیهای مطلوب مشتریان و ارتقای کیفیت محصولات و خدمات استفاده گردد. یکی از عوامل مهم در کارایی روشهای تحلیل احساسات، الگوریتم تجمیع استفادهشده برای ادغام امتیازات است.
الگوریتم دمپستر-شیفر بهتازگی برای تجمیع امتیازات استفادهشده و دارای دقت بالاتری نسبت به روشهای مرسوم مانند میانگین، جمع وزندار، ضرب و رأیگیری است. اما مشکل این الگوریتم در تجمیع امتیازات متناقض، است که در این پژوهش روش جدیدی برای تجمیع نمرات ارائه خواهد شد که قدرت محاسبه نمره کلی نظرات را بالا میبرد. در این راهکار به تحلیل احساسات در اسناد انگلیسی پرداخته میشود.
-1 مقدمه
رشد سریع شبکههای اجتماعی مجموعه جدیدی از چالشها در روشی که اطلاعات، جستجو و بازیابی میشوند ارائه کرده است. اگرچه حقایق هنوز نقش بسیار مهمی برای کسب اطلاعات در مورد یک موضوع ایفا میکنند، حضور نظرات نیز رو به پررنگتر شدن است. نظر کاوی 1بهعنوان زیررشتهای جدید از پردازش زبان طبیعی، بازیابی اطلاعات و متنکاوی محسوب میشود.
بهطورکلی اطلاعات موجود در اسناد متنی را میتوان به دودسته تقسیم نمود: عینی2 - واقعیتگرایانه - و ذهنی .[1]3 متون عینی، اطلاعات واقعی و قابل مشاهده درباره اتفاقاتی است که در جهان میافتد. اما نظرات ذهنی بازتاب عواطف انسانی و یا مشاهداتی است، که مردم نسبت به دنیای خارج و اتفاقات آن دارند.
موتورهای جستجو قادر به بازیابی اطلاعات اسناد واقعیت گرایانه بر اساس کلمات کلیدی که به واقعیتها اشاره دارند، هستند. اما برای بازیابی و تحلیل اسناد ذهنگرایانه استفاده از آنها ناکارآمد به نظر میرسد
تحلیل احساسی وظیفه شناسایی، استخراج و طبقهبندی عقاید و احساسات را در ارتباط با موضوعهای مختلف بر عهده دارد .3]] طبق تعریفی که در [4] آمده است، نظر کاوی تنها تشخیص مثبت، منفی و یا خنثی بودن نظرات است اما در تحلیل احساسات، به هر کلمه حاوی نظر وزنی بر اساس موضوع متن و قطبیت آن کلمه داده میشود.
رویکردهای موجود برای تحلیل احساسی - تشخیص قطبیت - به دو گروه اصلی تقسیم میشوند: رویکردهای یادگیری ماشین و روشهای مبتنی بر لغتنامه یک مجموعه از روشهای یادگیری ماشین برای طبقهبندی نقدها و نظرات اتخاذ شدهاند. رویکردهای یادگیری ماشین مثل بیز ساده - NB - ، آنتروپی بیشینه - ME - و ماشین بردار پشتیبان - SVM - موفقیت زیادی را در دستهبندی متون به دست آوردهاند. در حالت کلی طبقه بند SVM بر طبقه بندهای دیگر غلبه میکند.
روشهای مبتنی بر لغتنامه از فهرستی از کلمات و عبارات احساسی که لغتنامه احساسی نامیده میشود استفاده میکنند. تحلیلهای احساسی مبتنی بر لغتنامه بر پایه فهرستی از کلمات هستند که وزن احساسی را مشخص کردهاند. لغتنامههای احساسی از لغتنامههای موجود دیگر مانند General Inquirer، WordNet، WordNet Affect و SentiWordNet گرفتهشدهاند
در این پژوهش از لغتنامه احساسی SentiStrength استفادهشده است که بهعنوان یکی از بهترین لغتنامههای احساسی موجود، شناختهشده است. SentiStrength یک نرمافزار مبتنی بر لغتنامه رایگان برای طبقهبندی متون وبی اجتماعی کوتاه است .7]] این لغتنامه برای متون غیررسمی کوتاه و مخففها و اصطلاحات عامیانه که در نظرات آنلاین رایج هستند، طراحیشده است. بهعلاوه این ابزار در چندین حوزه و وبسایت آنلاین آزمایششده است و نتایج گزارششده نشان میدهند که عملکرد آن قابلمقایسه با الگوریتمهای یادگیری ماشین استاندارد است.
تجمیع4نمره میتواند بهعنوان یک گام ترکیب دیده شود، درجایی که نمرات جملات منابع چندگانه اطلاعاتی هستند که باید گرفته شوند تا یک نمره نظر منفرد را تولید کنند. یکی از کارآمدترین روشهای تجمیع، استفاده از تئوری مبتنی بر شواهد دمپستر-شیفر است. محدودیت استفاده از قانون دمپستر-شیفر در زمانی که جملات درجه تصادم بالایی دارند - زمانی که بین جملات یک نظر اختلاف امتیاز شدیدی وجود دارد - ، باعث به وجود آمدن نتایج ضدونقیض میشود. ابتدا در بخش 2 مروری بر کارهای گذشته در زمینه تجمیع دادهها آورده شده است. سپس در بخش 3 راهکاری نوین ارائهشده است که میتواند تئوری دمپستر-شیفر را بهبود بخشد. در آخر نیز در بخش 4 نتایج و بحث پیرامون مطالب گفتهشده ارائه میشود.
-2 کارهای گذشته
برخی از مهمترین رویکردهای تجمیع موجود در سطح سند بهقرار زیرند: بیشینه نمرات : [8] در این رویکرد بیشینه مقادیر مطلق نمرات مثبت/منفی بهعنوان نمره کلی نظر تعبیر میشوند. بااینوجود اینیک استراتژی قابلقبول نیست زیرا ممکن است یک نظر شامل چندین جمله مثبت ضعیف و یک جمله منفی قوی باشد. برای مثال متن زیر را در مورد یک رستوران از دیتاست Yelp در نظر بگیرید:
· "این رستوران نزدیکترین رستوران به آپارتمان من و ارزانترین بود. موقعیت مکانیاش بهآسانی قابل یافتن است. سرویس مشتریان سریع و دوستانه بود. غذا تازه کاملاًو خوب بود. دکور جذاب بود. تنها عیب آن، این بود که آنها فقط پول نقد یا چک میگرفتند و اینواقعاً وحشتناک بود."
اگرچه این نظر باید بهعنوان یک عقیده مثبت در نظر گرفته شود، با استفاده از این روش نمره -5 میگیرد. چون هر 5 جمله اول حداکثر نمره +2 دارند و جمله آخر نمره -5 دارد.
نرخ مقیاس : [9,10] این استراتژی از تعداد جملات مثبت و منفی برای محاسبه نمره نظر نهایی استفاده میکند و قدرت جملات را نادیده میگیرد. فرمول آن بهصورت رابطه - 1 - است:
رابطه Aggregated Score= - - P /P+N - *4 - +1 - 1 -
که در آن P و N تعداد جملات مثبت و منفی میباشند.
عیب اصلی این روش این است که قدرت احساسی جملات را نادیده میگیرد. برای مثال دو نظر کوتاه زیر را در نظر بگیرید:
· طعم پیتزای بسیار خوب، موسیقی و محیط عالی.
· غذا خوب بود و موسیقی و محیط بد نبودند.
بر طبق فرمول - 1 - ، هر دو نظر بهعنوان نظرات 5 ستاره در نظر گرفتهشدهاند، چون در هر دو P=1 و N=0 است.. درصورتیکه واضح است که جمله نخست مثبتتر ازجمله دوم است.
مجموع پیشبینیها : [11] این رویکرد توسط Ferguson و همکاران برای طبقهبندی احساسی در سطح سند با استفاده از اطلاعات از یادداشتهای در سطح پاراگراف پیشنهاد شده است. در این رویکرد احتمالات هر پارگراف که متعلق به کلاسهای مثبت، منفی و خنثی است محاسبه شده است. سپس نمرههای احتمال برای هر کلاس با توجه به تمام پاراگرافهای یک سند جمع میشود. درنهایت، کلاسی که دارای بیشترین نمره است انتخاب میشود. مجموع بیشینهها :[8] این روش شبیه روش بیشینه نمرات است، یعنی از بیشینه نمرات مثبت و منفی استفاده میکند. ولی بهجای انتخاب یک نمره با نمره مطلق بالاتر، آن بیشینه نمرات مثبت و منفی را جمع میکند. مثال زیر را در نظر بگیرید:
در این مثال، نمره تجمیع برای این مثال با استفاده از این روش -3 است، درحالیکه استفاده از روش بیشینه نمرات منجر به نمره -5 میشود.
رأی اکثریت: [11] این روش نیز توسط فرگوسن و همکاران برای تجمیع پاراگراف استفاده شده است و رأی اکثریت احتمالات تولیدشده برای پاراگرافهای یک سند را میگیرد. این استراتژی دارای عیوب استراتژی بیشینه نمرات است. روش مجموع پیشبینیها، بر رأی اکثریت در طبقهبندی سند سه حالته - کلاسهای مثبت، منفی و خنثی - ، غلبه میکند. : [12]SimAvg این استراتژی و دو استراتژی بعدی توسط ژانگ برای تجمیع نظرات در حوزه محصولات پیشنهادشده است.
در این استراتژیها نمره کلی محصول بر طبق رابطه - 2 - محاسبهشده است:
در این تساوی V ارزیابی کلی یک محصول P است و میتواند بهعنوان میانگین وزنی قطبیت هر نظر Ti - P - محاسبه شود.
این روش قطبیت تجمیع یافته یک محصول را با جایگزین کردن u - Ti - P - - با 1 محاسبه میکند. بااینوجود این روش نتایج با دقت بالا ارائه نمیدهد. :[12] PredAvg این روش قطبیت کلی را بر مبنای مکانیزم میانگینگیری وزنی رابطه - 2 - محاسبه میکند، در جاییکه وزن منتسب شده به هر نظر Ti نمره سودمندی محاسبهشدهاش است .u - T - P - - این نمره میتواند با یک الگوریتم یادگیری مانند SVR با استفاده از ویژگیهایی که میتوانند نظرات سودمند را از غیر سودمند تشخیص دهند، محاسبه شود.
:[13]GsAvg این استراتژی قطبیت تجمیع یافته بر مبنای رابطه - 2 - را با جایگزین کردن u - Ti - P - - با نمره سودمندی استاندارد طلایی محاسبه میکند. نتایج نشان میدهد که GsAvg همیشه برSimAvg غلبه میکند، درحالیکه PredAvg در بیشتر موارد بین این دو نادیده گرفته میشود.
تئوری شهودی : [7,14] DS این تئوری در ابتدا توسط دمپستر ایجاد شد و سپس توسط شیفر گسترش یافت. تئوری شهودی DS یک تئوری برای اندازهگیری درجهای که بعضی از منابع شهودی یک گزاره خاص را حمایت میکنند، است.
بیشتر استراتژیهای تجمیع توصیفشده نهتنها برای تجمیع نمره طراحی نشدهاند، بلکه هیچ پایه تئوری هم ندارند. به همین دلیل بهتر است که از تئوری شهودی DS برای تجمیع نمرات در سطح جمله استفاده شود.
-3 روش پیشنهادی
در این قسمت ابتدا مفاهیم اصلی رویکردهای پایه مطرح میشوند و سپس راهکاری برای بهبود تجمیع امتیازات در سطح سند ارائه میشود.
1؛-3 تئوری شهودی دمپستر-شیفر - D-S -
تئوری شهودی D-S بر پایه تحقیقی توسط دمپستر پیشنهادشده است و سپس توسط شیفر گسترش یافته است
مزیت این روش در ترکیب اطلاعات با در نظر گرفتن غیردقیق بودن و غیرقطعی بودن تحلیلهای چند اطلاعاتی است. به دلیل اینکه تئوری شهودی D-S نسبت به طبیعت احتمالی داده قابل انطباق تر است در تشخیص خطای ماشینی، تشخیصهای پزشکی و موارد دیگر استفاده شده است
تئوری شهودی D-S توسط یک مجموعه قطعی از احتمالات انحصاری که چارچوب تشخیص5 نامیده میشود، ارائه میشود.
X مؤلفهای از 2 است و m - x - اندازه اطمینان برای فرضیه x است. m - Ø - =0 به این معناست که شاهد موجود هیچ المانی از حوزه موردنظر را حمایت نمیکند. m - x - =1 بیان میکند که شاهد موجود تنها x را در حوزه موردنظر حمایت میکند.