بخشی از مقاله
چکیده
یکی از پرکاربردترین حوزههای نظرکاوی، دستهبندی سنجمان است؛ که هدف از آن تعیین مثبت، منفی یا خنثی بودن نظرات میباشد. روشهای بسیاری برای دستهبندی سنجمان ارائه شدهاست؛ اما اغلب این روشها مبتنی بر لغتنامه بوده و توانایی تعیین سنجمان کلمه را براساس متنی که آن کلمه در آن بکار رفته است، ندارند.
برای حل این مشکل و تشخیص مرتبطترین حس - معنی - به هر کلمه - با توجه به جملهای که آن کلمه در آن بکار رفته است - ، استفاده از ابهام زدایی معنایی کلمه بسیار مفید میباشد. در این مقاله ضمن بررسی سایر روشهای دستهبندی سنجمان، به مطالعه روشی پرداخته میشود که در آن قطبیت سنجمان کلمات با استفاده از الگوریتم ابهام زدایی معنایی کلمه تعیین میشود. بهمنظور بررسی و ارزیابی تکنیک ابهام زدایی معنایی کلمه برای دستهبندی سنجمان، این روش با روش دیگری که از دو لغتنامهی MPQA و SentiWordNet استفاده میکند، مقایسه شده است. نتایج مقایسه نشان میدهد که استفاده از ابهام زدایی معنایی کلمه برای دستهبندی سنجمان، مؤثر است.
-1 مقدمه
در سالهای اخیر با رشد سریع رسانههای اجتماعی و از آن جمله شبکههای اجتماعی، این امکان فراهم شده است تا کاربران بتوانند درباره موضوعات مختلف به بیان نظر پرداخته و یا حتی پاسخگوی سایر نظرها باشند؛ این نظرهای بیان شده حاوی اطلاعات ارزشمندی هستند زیرا با تحلیل آنها میتوان به گرایشها و ترجیحات افراد پی برد و نظرهای مثبت و منفی آنها را نسبت به مسائل گوناگون شناسایی نمود.
اما از مجموعه این نظرات ثبت شده، محتوای بسیار بزرگی در وب ایجاد شده است که به دلیل حجم بالای آن، خواندن و درک تمام این محتوا برای افراد یا سازمانها بسیار دشوار است. برای حل این مشکل، در سالهای اخیر حوزه پژوهشی نظرکاوی1 و تحلیل سنجمان ایجاد شده است؛ دستهبندی سنجمان فعالترین زمینه در نظرکاوی است و هدف از آن تعیین مثبت، منفی یا خنثی بودن نظر بیان شده در یک متن حاوی نظر میباشد. دستهبندی سنجمان را میتوان در سطوح مختلفی از جمله سطح کلمه، سطح جمله، سطح سند؛ و با استفاده از روشهای مختلفی اعم از روشهای بدون نظارت و روشهای بانظارت انجام داد. بهطورکلی میتوان این روشها را در دو رویکرد اصلی جهتگیری
معنایی و یادگیری ماشین طبقهبندی نمود
در رویکرد جهتگیری معنایی، یک متن با استفاده از قواعد زبانی و یک لغتنامه سنجمان، براساس میانگین قطبیت5 کلمات یا عباراتی که حاوی سنجمان مثبت یا منفی هستند، دستهبندی میشود.
لغتنامه سنجمان شامل یک لیست از کلمات نظر و قطبیت آنها - مثبت، منفی یا خنثی - میباشد. در واقع این رویکرد براساس دستهبندی جملات یا اسناد در سطح کلمه کار میکند. یکی از کاستیهای این روش این است که به متن یا حوزهای که کلمات در آن بهکار برده شدهاند، نمیپردازد. بهعنوان مثال، کلمه "مبارزه" در جملهی "بازی فوتبال پر از مبارزه است" بیانگر یک سنجمان مثبت است؛ در حالیکه در جملهی "مردم همیشه در حال مبارزه هستند" بیانگر یک سنجمان منفی است.
کلمات در زمینههای مختلف دارای معانی - احساسهای - متفاوتی هستند و قطبیت سنجمان آنها نیز متفاوت است. بنابراین، برای دستیابی به نتایج بهتر در دستهبندی، باید به جای دستهبندی در سطح کلمه از دستهبندی در سطح احساس استفاده شود. در این مقاله به یک مطالعه مقایسهای میان تکنیکهای مبتنی بر این رویکردها و تکنیک مبتنی بر ابهام زدایی معنایی کلمه پرداخته میشود.
در روش مبتنی بر ابهام زدایی معنایی کلمه، دستهبندی سنجمان در سطح احساس انجام میشود. در این روش ابتدا با توجه به متنی که کلمه در آن بهکاربرده شده است، مرتبطترین حس به آن کلمه تعیین میشود و سپس با استفاده از معانی متعدد موجود در لغتنامهی سنجمان، سنجمان کلمهی موردنظر تعیین میشود. بنابراین با این راهبرد6، مشکل وابستگی به متن که در دستهبندی سنجمان مطرح بود، حل خواهد شد.
-2 لغتنامه
لغتنامههای بسیاری برای تعیین قطبیت کلمهها وجود دارد که هریک از آنها برای تعیین قطبیت کلمه، از ساز و کار خاصی استفاده میکنند. برای مثال لغتنامه بینگ لیو7 شامل 2006 لغت مثبت و 4783 لغت منفی است . - Hu & Liu, 2004 - در این لغتنامه به مقدار مثبت یا منفی بودن کلمهها اشارهای نشده است بلکه تنها فهرستی از لغات مثبت و منفی را در بر میگیرد.
لغتنامه 8 MPQA نیز شامل فهرستی از لغات مثبت و منفی است. در این لغتنامه علاوه بر قطبیت هر کلمه، اطلاعاتی مانند نقش دستوری کلمه9 نیز وجود دارد . - Wiebe, et al, 2005 - وردنت لغتنامهای شامل اسم، فعل، صفت و قید است. در این لغتنامه هر کلمه در کنار مجموعهی کلمههای همخانوادهاش قرار دارد؛ و برای هر کلمه نقشهای مختلف دستوری آن کلمه به همراه مثالی از کاربرد آن کلمه درج شده است .این لغتنامه مثبت و منفی بودن کلمات را نشان نمیدهد.
توسعه یافتهی لغتنامه وردنت است که مقدار قطبیت هر کلمه را بهصورت عددی نشان میدهد. در این لغتنامه، مترادفها و نقش دستوری هر کلمه مشخص شده است. Harvard General Inquirer لغتنامهای شامل کلمات مثبت و منفی است - Stone, et al, 1966 - ؛ که علاوه بر دو ویژگی مثبت و منفی بودن، 182 ویژگی دیگر نیز در این لغتنامه وجود دارد.
-3 ساخت لغتنامه سنجمان
در روش جهتگیری معنایی، دستهبندی سنجمان یک متن براساس میانگین قطبیت کلمات یا عبارات حاوی سنجمان مثبت /منفی موجود در آن متن و همچنین با استفاده از یک لغتنامه سنجمان انجام میشود. لغتنامه سنجمان، لغتنامهای است که قواعد نحوی در آن گنجانده شده است؛ بهطورکلی دو نوع رویکرد برای ساخت یک لغتنامه سنجمان ارائه شده است که عبارتند از رویکردهای مبتنی بر اصطلاحنامه10 و رویکردهای مبتنی بر پیکره.11
-1-3 رویکردهای مبتنی بر اصطلاحنامه
در رویکردهای مبتنی بر اصطلاحنامه هدف این است که با استفاده از سلسله مراتب موجود در یک اصطلاحنامه، یک مجموعه کوچک از کلمات نظر - با استفاده از کلمات مترادف12 و کلمات متضاد13 با این کلمات نظر - توسعه داده شود.
بهعنوان مثال، پایگاه دادهی وردنت - Felbaum, 1998 - که سیستم آنلاین مرجع واژگان است، برای تولید یک واژهنامه سنجمان براساس یک فرایند خود راه اندازنده14 عمل میکند . طرح وردنت از حافظه لغوی بشر الهام گرفته شده است؛ واژگان وردنت شامل اسامی، افعال، صفات و قیدها است. در وردنت اطلاعات لغوی به جای آنکه بهصورت شکلهای کلمه ارائه شوند، بهصورت حواس - معانی - کلمه ارائه میشوند و مجموعهای از تمام کلماتی که دارای یک حس - معنی - مشترک هستند بهعنوان یک synset نامیده میشود.
-2- 3 رویکرهای مبتنی بر پیکره
در رویکردهای مبتنی بر پیکره برای توسعه مجموعه کلمات نظر، از الگوهای نحوی یا الگوهای هم وقوعی موجود در یک پیکره بزرگ استفاده میشود و از آنجا که رویکردهای مبتنی بر پیکره ذاتاً مبتنی بر متن هستند، پس با استفاده از آنها میتوان زمینه مربوط به کلمات نظر را مدیریت نمود - برخلاف روشهای مبتنی بر اصطلاحنامه - . اما میتوان گفت که رویکردهای مبتنی بر اصطلاحنامه کاراتر از رویکردهای مبتنی بر پیکره هستند؛ زیرا علاوه بر اینکه آمادهسازی یک پیکره بزرگ دشوار است، وابستگی کلمات به متن نیز میتواند مشکلاتی را به همراه داشته باشد.
-4 دستهبندی سنجمان بر مبنای رویکردهای مبتنی بر اصطلاحنامه
کیم و هاوی - Kim & Hovy, 2004 - برای شناسایی سنجمان نظرات، سیستمی را ارائه دادند. این سیستم قادر است با در نظر گرفتن یک موضوع خاص، سنجمان هر یک از نظرات ثبت شده دربارهی آن موضوع را بهطور خودکار تعیین نماید. این سیستم از دو ماژول تشکیل شده است؛ یک ماژول برای تعیین سنجمان هر کلمه و دیگری برای ترکیب سنجمانها در یک جمله. آنها برای محاسبه قطبیت سنجمان کلمات نظر، کلمات موردنیاز خود را از لیستهای مترادف و متضاد موجود در وردنت برگرفتند.