بخشی از مقاله
خلاصه
در هر زبان کلماتی مبهم وجود دارند که یا دارای چند معنی متفاوت هستند و یا به دلیل دارا بودن ساختار نوشتاری یکسان و تلفظ متفاوت، مبهم بهشمار میآیند. ابهام معنایی اشاره دارد به حالتی که یک کلمه بیش از یک معنی داشته باشد. مسألهی ابهامزدایی معنایی کلمه، مسأله یافتن معنای صحیح برای کلمهای است که در یک متن یا گفتمان دارای معانی متعددی است.
انتساب اتوماتیک معنای صحیح به یک کلمه، یکی از چالشهای جاری در حوزه پردازش زبانهای طبیعی محسوب میشود. در واقع هر کلمه با توجه به متنی که در آن قرار گرفته است، معنای مناسب خود را پیدا میکند. در این مقاله با استفاده از تکنیک ابهامزدایی معنایی کلمه، به ارائه سیستمی برای تحلیل سنجمانهای فارسی پرداخته میشود. در این سیستم با استفاده از تکنیک ابهامزدایی معنایی کلمه به تحلیل سنجمان در سطح پیام پرداخته میشود
بهطوریکه بهمنظور تحلیل سنجمان غالب، کل متن پیام مورد تجزیه و تحلیل قرار میگیرد. پژوهشهایی که پیش از این در حوزه ابهامزدایی معنایی کلمه انجام شده است، به تأثیر این تکنیک بر روی تحلیل سنجمان توجهی نداشتهاند و این مسألهایست که این مقاله به آن میپردازد. آزمایشهای انجام شده نشان میدهد که استفاده از تکنیک ابهامزدایی معنایی کلمه میتواند منجر به بهبود عملکرد سیستم تحلیل سنجمان شود.
.1 مقدمه
فرایند تحلیل سنجمان، فرایندی است شامل تحلیل متن، زبانشناسی و پردازش زبان؛ که اطلاعات ذهنی موجود در دادههای اولیه را شناسایی کرده و استخراج مینماید. تحلیل سنجمان در زمینههای مختلفی همچون بازاریابی، کسب و کار و تجارت [1]، گردشگری و مسافرت [2] و مدیریت بحران [5-3] مورد توجه قرار گرفته استاخیراً. پژوهشهایی نیز به موضوع تحلیل سنجمان در زبان فارسی پرداختهاند که در [18-14] به آنها اشاره شدهاست.
یکی از اولین مسائلی که هر سیستم پردازش زبان طبیعی با آن مواجه است، مسألهی ابهام لغوی، از منظر نحوی یا معنایی است .در بحث پردازش زبان، برچسب گذارندههای اجزای سخن بهطور مفصل به حل مسألهی ابهام نحوی کلمه پرداختهاند؛ بدین ترتیب که طبقهبندی کلمات موجود در متن را با سطوح بالایی از دقت، پیشبینی میکنند.
مشکل اینجاست که اغلب کلمات، بیش از یک معنی دارندکه این معانی گاهی اوقات کاملاً مشابه و گاهی اوقات کاملاً متفاوت با یکدیگر هستند. معنی یک کلمه، صرفاً با بررسی زمینهی کاربرد آن کلمه تعیین میشود. ابهامزدایی معنایی کلمه، فرایندی است که معنای صحیح یک کلمهی چند معنایی را تعیین میکند. رویکردهای مختلفی برای ابهامزدایی معنایی کلمه وجود دارد که عبارتند از: سیستمهای مبتنی بر دانش، همچون الگوریتم Lesk و الگوریتم Lesk تطبیق یافته [7]، سیستمهای بدون نظارت مبتنی بر پیکره [8] و سیستمهای بانظارت مبتنی بر پیکره
در [10] نشان داده شده است که استفاده از تکنیک ابهامزدایی از ذهنیت - معنای ذهنی - یک کلمه - SWSD - 1 منجر به بهبود تحلیل نظرات موجود در متن میشود.
این پژوهشگران معتقدند که تکنیک SWSD میان دستهبندی فرهنگ لغت خالص2 و تفسیر متنی خالص واقع شده است. در تکنیک SWSD متنی که کلمهی موردنظر در آن بهکارگرفته شده است نیز در نظر گرفته میشود، اما ذهنیت کلمه تنها از طریق فرهنگ لغت تعیین میشود. آنها در این پژوهش یک رویکرد یادگیری بانظارت را مورد استفاده قرار دادند و برای آموزش هر ورودی لغتنامه - دادههای آموزشی ارائه شده - ، از یک دستهبند متفاوت استفاده کردهاند.
به این ترتیب آنها کار خود را شبیه به تکنیک ابهامزدایی معنایی هدفمند کلمه، توصیف کردهاند و از دو برچسب S - معنی ذهنی - 3 و O - معنی هدف - 4 استفاده کردهاند. آنها با اعمال SWSD بر روی دستهبندی قطبیت متن - مثبت، منفی، خنثی - مشاهده کردند که در مقایسه با دستهبند اصلی [11]، به میزان 3 درصد دقت دستهبندی بهبود مییابد؛ این محاسبات با استفاده از مجموعه داده SenMPQA انجام شده است.
علاوه بر این، Rentoumi و همکارانش [12] نشان دادند که استفاده از تکنیک ابهامزدایی معنایی کلمه برای دستهبندی قطبیت جملاتی که شامل اصطلاحات نمادین میباشند نیز مؤثر است - البته آنها ابهامزدایی معنایی کلمه را برای دادههای رسانههای اجتماعی5 مورد استفاده قرار ندادهاند؛ در حالیکه تمرکز اصلی ما بر روی این نوع از دادههاست - .
.2 سیستم پیشنهادی
عملکرد فاز اولیهی این سیستم بهصورت بدون نظارت6 است؛ بدین ترتیب که توئیتهای بدون برچسب و همچنین پیامهای متنی بدون برچسب موجود در مجموعهداده، پیش پردازش میشوند و سپس به موارد زیر پرداخته میشود:
· برای تمام اصطلاحات موجود در متن، ابهامزدایی معنایی انجام میشود.
· برای کلمات ابهامزدایی شدهی موجود در هر اصطلاح، مطابق با حس متناظر آن کلمه، یکی از امتیازات P7 - مثبت - ، N8 - منفی - یا O9 - خنثی - در نظر گرفته میشود. سپس برای کل متن، مجموع امتیازات P و N و O محاسبه میشود.
خروجی فاز بالا، سه بردار ویژگی است که توئیت یا پیام متنی موردنظر را بازنمایی میکند - به ازای هر توئیت یا هر پیام متنی، یک بردار وجود دارد - . سپس برای اینکه سیستم یاد بگیرد که چگونه به ازای هر توئیت یا پیام متنی، این سه ویژگی عددی را با یکدیگر ترکیب نموده و براساس آن برای تعیین سنجمان متن موردنظر تصمیمگیری نماید، از یادگیری بانظارت استفاده میشود. بنابراین فرایند بالا تکرار میشود و با استفاده از امتیازات P، N و O برای هر یک از توئیتهای ارائه شده در مجموعه داده آموزشی یک بردار ویژگی سه بعدی ساخته میشود، که این بردار ویژگی توسط یک دستهبند با نظارت برای فرایند آموزش مورد استفاده قرار میگیرد.
این رویکرد ترکیبی، مزایای زیر را به همراه خواهد داشت:
· میتوان مقادیر زیادی از دادههای بدون برچسب را پردازش نمود و بردار ویژگی سه بعدی، که مجموعه داده را بازنمایی میکند، نیز میتواند بدون نیاز به ناظر یا بدون آموزش ساخته شود.
· برای آموزش بانظارت، تنها از سه ویژگی استفاده میشود - امتیازات P، N و - O و ویژگیهای خاصی همچون سبد واژگان1 مورد استفاده قرار نمیگیرند؛ در نتیجه این امر موجب میشود که سیستم بهراحتی برای پردازش دادههای موجود در سایر مجموعهدادهها تطبیقپذیر باشد - حتی اگر موضوع تغییر یافته باشد - .
در اینجا بهمنظور آموزش دستهبندها از تکنیکهای بانظارت استفاده میشود و همینطور برای دستهبندی دقیق، از درخت تصمیم جنگل تصادفی2 با تنظیمات پیشفرض آن استفاده میشود. باتوجه به ایجاد بیش برازش3 نسبت به مجموعه داده آموزشی در درختهای تصمیم، جنگلهای تصمیم برای درختهای تصمیم بسیار مناسب هستند. برای این منظور تصمیم بر این شد که از تکنیک جنگل تصادفی بر روی ماشین بردار پشتیبان - SVM - 4 استفاده شود که تحت عنوان SMO5 از آن یاد میشود. در نرمافزار وکا - با پیکربندی پیشفرض - برای استفاده از تکنیک جنگل تصادفی در مدل SMO بهتر است که برای هردوی دادههای آموزشی و آزمایشی از روش اعتبارسنجی متقابل10-Fold 6 استفاده شود. پژوهشها نشان داده است که جنگل تصادفی در مقایسه با SVM عملکرد بهتری دارد.
.3 مجموعه داده
برای این پژوهش از مجموعهدادهای متشکل از دو بخش مجزا شامل نظرات و پیامهای ثبت شده توسط کاربران - نظرات فارسی - و توئیتهای کاربران فارسی زبان، استفاده شده است - این مجموعه داده توسط پژوهشگران دانشگاه صنعتی مالکاشتر گردآوری شده است