بخشی از مقاله

چکیده 

تحلیل نظرات در میکروبلاگ ها، که شامل تشخیص خودکار و استخراج اطلاعات هدفدار از نظرات است، از طرف جوامع وب کاوی موردتوجه است. این مقاله به تشخیص شدت نظر در وب اجتماعی با استفاده از ویژگی های انتزاع بالا مبتنی بر فرهنگ واژگان نظر میپردازد. در اینجا، از منابع لغوی بهمنظور استخراج شاخصهای احساسی از متن زبان طبیعی استفادهشده است. ویژگیها مبتنی بر 5 فرهنگ واژگان نظر مختلف در زمینه شدت نظر که تکمیلکننده یکدیگر هستند، میباشند. نتایج روی 6 مجموعه داده از محیطهای اجتماعی متنوع آزمایششده است. نتایج نشان میدهد که ترکیب ویژگیهای انتزاع بالا باعث افزایش کارایی میشود.

در مقایسه با SentiStrength که عملکردنسبتاً خوبی با داده های شبکه اجتماعی دارد در اکثر مجموعه دادهها دقت بهتری داریم. هرچند رویکردهای مبتنی بر فرهنگ واژگان، از یک شاخص احساسی ثابت برای کلمات بدون توجه به موقعیت کلمه در جمله استفاده می-کنند و باعث کاهش کارایی میشوند، اما بهرهبرداری از چند فرهنگ واژگان باعث کاهش تعداد ویژگیها میشود و به ویژگیها معنا میدهد و از مسئله خلوت بودن که در روشهای قبلی وجود داشت جلوگیری میکند.

کلیدواژه -  تشخیص شدت احساسات، رسانه اجتماعی، نظرکاوی، ویژگیهای انتزاع بالا

-1  مقدمه

مردم به رویدادها، عناوین و موجودی ت ها، بابیان نظرات و احساسات شخصی خودشان عکس العمل نشان میدهند. این عکس العمل ها میتواند مرتبط با طیف گسترده ای از شدت، از محدوده خیلی ضعیف تا قوی باشند. پردازش مناسب و فهم این نظرات موضوع تحقیقات در زمینههای مختلف ازجمله تجارت و سیاست است. در این زمینه، تحلیل نظرات در میکروبلاگ ها، که تشخیص خودکار و استخراج اطلاعات هدف دار از نظرات است، از طرف جوامع وب کاوی موردتوجه است. میکروبلاگ ها یک بینش بسیار ارزشمند به نظرات بشر، مانند مسائل جدید چالش برانگیز داده بزرگ فراهم میکنند.

این مسائل شامل پردازش میزان بسیار زیادی داده جریانی، جهت تشخیص خودکار نظرات بشر در پیام های متنی کوتاه، است. رویکردهای تحلیل احساسات به دو دسته تقسیم میشوند:[1] رویکردهای یادگیری با ناظر و رویکردهای مبتنی بر فرهنگ واژگان. رویکردهای یادگیری با ناظر به مجموعه داده یادگیری نیاز دارند، وابسته به دامنه هستند و نیاز دارند با ورود داده جدید دوباره یادگیری را انجام دهند.رویکردهای مبتنی برفرهنگ واژگان به داده یادگیری نیاز ندارند. در عوض، آن ها از فرهنگ واژگانی شامل کلمات وزن دار برای تعیین احساس کلی متن داده شده استفاده میکنند.

این روش ها وابسته به فرهنگ واژگان احساس که لغت نامه های از پیش ساخته شده از کلمات با جهت ها و شدت های اختصاص داده شده با این کلمات هستند، میباشند. چندین روش و منابع فرهنگ واژگان به منظور استخراج شاخص های احساسات از متن های زبان طبیعی در دو سطح نحوی و معنایی مطرحشده است.این روشها و منابع ابعاد مختلف نظرات مانند فاعلیت1، قطبیت2 ، شدت3 و احساس4 را نشان میدهند. رویکردهای تحلیل نظرات موجود روی یک بعد خاص نظر تمرکز میکنند، هرچند طبقهبندی این حوزهها به طور مستقل سخت است، در[2] طبقهبندی زیر برای کارهای موجود مطرح میشود:

قطبیت: این روشها و منابع سعی می کنند اطلاعات قطبیت را از یک متن استخراج کنند. روشهای مبتنی بر قطبیت یک متغیر که مقادیر ممکن آن می تواند مثبت و منفی و بیطرف باشند برمیگرداند. بهعبارتدیگر منابع لغوی مبتنی بر قطبیت از فهرستهای کلمات منفی و مثبت تشکیلشده است.
شدت: این روشها و منابع سطوح شدت را مطابق با یک بعد احساسی قطبیت فراهم میکنند. روشهای مبتنی بر شدت، مرتبههای عددی که شدت یا قدرت مثبت یا منفی بودن نظرات بیانشده در یک متن را نشان می دهد، برمیگردانند. منابع لغوی مبتنی برشدت فهرستهایی از کلمات نظر به همراه رتبههای شدت، مطابق با مثبت بودن و منفی بودن فراهم می کنند . برای نمونه SentiStrength امتیازهای شدت مثبت و منفی در سطح جمله را تخمین میزند.                                                                                                                                                                                              احساس: این منابع و روشها بر روی استخراج حالتهای خلقوخوی از یک متن تمرکز میکنند. یک روش مبتنی بر احساس باید پیام ها را به یک طبقهبندی احساسات مانند: غم، شادی، تعجب، و غیره دستهبندی کند. منابع لغوی مبتنی بر احساس یک فهرستی از کلمات یا بیانات که با توجه به حالتهای احساسی مختلف نشانهگذاری شدهاند، فراهم میکند.

ویژگیهای انتزاع -بالا بر اساس منابع لغوی موجود و متدهای تحلیل احساسی که گفته شد استخراج میشوند. بهرهبرداری از چند فرهنگ واژگان باعث کاهش تعداد ویژگی ها می شود و به ویژگیها معنا میدهد، و از مسئله خلوت بودن که در روشهای قبلی وجود داشت جلوگیری می کند. همه این متدها و منابع رویکردهای مختلف برای استخراج اطلاعات از داده متنی را نمایش میدهند. ترکیب ویژگی های انتزاع-بالا بهبود قابلتوجهی در کارایی ایجاد می کند. هرچند، تفاوتهای مهمی وجود دارد که وابسته به نوع منابع واژگانی و مجموعه داده مورداستفاده برای ساخت مدل و استراتژی یادگیری است.

در اینجا ما یک رویکرد دستهبندی بر اساس ویژگی های انتزاع بالا برای تقویت کارهای تحلیل احساس معرفی میکنیم. این رویکرد بهطور کارآمدی روشها و منابعی که در حوزه شدت وجود دارند را مورداستفاده قرار میدهد.از هر منبع فرهنگ واژگان می تواند یک تعداد از ویژگی ها مطابق با تعداد تطابق بین کلمات متن و کلمات فرهنگ واژگان محاسبه شود. یکی از محدودیت های موجود در متنهای شبکههای اجتماعی، عدم رعایت ساختار دستور زبانی در جملات، با توجه به کوتاه بودن طول جملات است. بهمنظور غلبه به این محدودیتها، thelwall یک فرهنگ واژگان کدگذاری شده توسط انسان از عبارات و کلماتی که مختص کار با داده اجتماعی است را معرفی کرد. 

آنها الگوریتمی به نام SentStrength را مطرح کردند که از فرهنگ واژگان برای تشخیص شدت احساسات متن غیررسمی استفاده میکند.[3] در سالهای اخیر SentiStrength با توجه به عملکرد نسبتاً خوب و سازگار خود با داده های شبکههای اجتماعی توجه زیادی را به خود جلب کرده است. بااینوجود، مانند سایر رویکردهای مبتنی بر فرهنگ واژگان، SentiStrength و فرهنگ واژگان مورداستفاده در آن دارای دو محدودیت بزرگ هستند: در مرحله اول، SentiStrength محدود به مجموعهای ثابت از کلمات است که در فرهنگ واژگان thelwall وجود دارند. کلماتی که در فرهنگ واژگان وجود ندارند در هنگام تحلیل احساس در نظر گرفته نمیشوند، که با توجه به وجود عبارات جدید و اصطلاحات رایج در شبکههای اجتماعی، در دادههای شبکههای اجتماعی، این مسئله میتواند مشکلساز باشد.

محدودیت دوم که از اهمیت بیشتری نیز برخوردار است تخصیص شدت و جهت ایستا و ثابت به تمام کلمات مشابه بدون در نظر گرفتن محدودهای که کلمه در آن مطرحشده است، میباشد. در رویکرد معرفیشده در این مقاله نیز این محدودیتها وجود دارد و با افزایش همپوشانی متن و فرهنگ واژگان میزان دقت افزایش پیدا نمیکند . در اینجا فرهنگ واژگان موجود در حوزه شدت نظر را، ازنظر مکانیسم ساخت و کلماتی که شامل میشوند مورد ارزیابی قرار میدهیم. ویژگیهای انتزاع بالا را از روی این منابع تولید میکنیم و ارزیابی می کنیم. برای اعتبارسنجی رویکردمان آن را بر روی شش مجموعه داده متفاوت از محیطهای شبکه اجتماعی مورد ارزیابی قرار میدهیم. نتایج حاصل را با روش SentiStrength مورد مقایسه قرار می-دهیم. در ادامه فرهنگ واژگان نظر موجود و ویژگیهای انتزاع بالا مبتنی بر آنها و مجموعه دادههای شبکه اجتماعی با برچسب شدت مثبت و شدت منفی و روش کار خود را توضیح میدهیم.

-2 روش پیشنهادی برای تولید ویژگیهای انتزاع بالا

ما هر متن از مجموعه داده را به برداری از ویژگیهای احساسی تبدیل نموده و از یک مدل یادگیری با ناظر برای دستهبندی متن استفاده میکنیم - شکل . - 1 این ویژگیها بر اساس تطابق کلمات

-1-2  فرهنگ واژگان AFINN

این فرهنگ واژگان بیشتر روی زبان مورداستفاده در متن های کوتاه شبکه اجتماعی تمرکز دارد. لیست کلمات شامل کلمات عامیانه و کلمات ناپسند و هم چنین کلمات اختصاری و اصطلاحات مخصوص وب است. کلمات مثبت از 1 تا 5 و کلمات منفی از -1 تا -5 امتیاز میگیرند.[4] از هر متن دو ویژگی مرتبط به فرهنگ واژگان AFINN استخراج میشود: APO وANE که به ترتیب مجموع نرخ های مثبت و منفی کلماتی است که با فرهنگ واژگان مطابقت میکند.

-2-2  فرهنگ واژگان SentiWordNet

در این فرهنگ واژگان کلمات به گروهی از مترادفها خوشهبندی میشوند.[5] در SentiWordNet هر گروه بهطور خودکار در محدوده [0,1] برحسب مثبت یا منفی یا بیطرف بودن حاشیهنویسی شده است. این مرتبهها با استفاده از الگوریتمهای نیمه نظارتی محاسبه میشوند. از هر متن دو ویژگی مرتبط به فرهنگ واژگان SentiWordNet استخراج کردهایم، - SWP - و - SWN - که مجموع رتبههای مثبت و منفی کلمات متن مطابق با واژگان SentiWordNet هستند.
 
-3-2  فرهنگ واژگان NRC-hashtag

این فرهنگ واژگان به صورت خودکار، از مجموعه 775310 توییت که شامل هشتگ های مثبت و منفی هستند ساخته شده است. لیست کلمات از -5 تا +5 امتیازدهی شدهاند.از هر متن دو ویژگی مرتبط به فرهنگ واژگان NRC-hashtag استخراج کردهایم، - NRCHashPos - و - NRCHashNeg - که مجموع رتبه های مثبت و منفی کلمات متن مطابق با واژگان NRC-hashtag هستند .

-4-2  فرهنگ واژگان Sentiment140

در ساخت این فرهنگ واژگان همان رویکردی که در ساخت فرهنگ واژگان NRC-Hashtag استفادهشده است بهکاربرده شده است. از هر متن دو ویژگی مرتبط به فرهنگ واژگان Sentiment140 استخراج کردهایم، - S140LexPos - و - S140LexNeg - که مجموع رتبه های مثبت و منفی کلمات متن مطابق با واژگان Sentiment140 هستند.

-5-2  فرهنگ واژگان SenticNet

SenticNet یک فرهنگ واژگان تحلیل احساس مبتنی بر مفهوم است.[6] از هر متن دو ویژگی مرتبط به فرهنگ واژگان SentiNet استخراج کردهایم، - SNpos - و - SNneg - که مجموع رتبههای مثبت و منفی کلمات متن مطابق با واژگان SentiNet هستند.

-6-2  روش SentiStrength

یک الگوریتم ارزیابیکننده احساس مبتنی بر فرهنگ واژگان است که روی متنهای کوتاه شبکه اجتماعی تمرکز کرده است. این الگوریتم برای هر متن ورودی، که میخواهیم ازنظر شدت احساس منفی یا مثبت مورد ارزیابی قرار دهیم یک امتیاز مثبت از 1 تا 5 و یک امتیاز منفی از -1 تا -5 برمیگرداند. از هر متن دو ویژگی مرتبط به روش SentiStrength استخراج میکنیم، - SSP - و - SSN - که مربوط به امتیازهای شدت مثبت و منفیای است که توسط روش SentiStrength برگردانده میشود.

-3 ارزیابی روش پیشنهادی

-1-3  ارزیابی فرهنگ واژگان شدت نظر

منابع فرهنگ واژگان را میتوان از جنبههای مختلف مورد مقایسه قرار داد ، ازجمله رویکرد استفادهشده در ساخت آنها،

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید