بخشی از مقاله
خلاصه
تولید دادههای متنیِ حاوی نظر در شبکههای اجتماعی و تالارهای مباحثه به پدیدآمدن حوزه »نظرکاوی« منجر شده است. در حالت کلی متون زبان طبیعی را میتوان به دو دسته »ذهنی« و »عینی« تقسیم کرد. متن عینی واقعیتها را در مورد جهان بیان میکند، درحالیکه متن ذهنی احساسات شخصی یا نظرات را نشان میدهد. بیشتر دادههای حاوی نظر به صورت ذهنی هستند و به همین دلیل تشخیص ذهنی بودن متن یکی از مسائل اصلی نظرکاوی است.
در این مقاله از شبکه عصبی مصنوعی برای شناسایی ذهنیت متون استفاده شده است. بدین منظور برای استخراج خصیصهها از روشهای »فراونی عبارت«، »بهره اطلاعات« و »نسبت بهره« استفاده گردیده است. نتایج حاصل با دستهبندهای »بیزی ساده«، »شبکه بیزی«، »ماشین بردار پشتیبان« و »جنگل تصادفی« مقایسه شده که نشان میدهد روش شبکه عصبی مصنوعی با %91/8 دقت، بهترین عملکرد را نسبت به سایر روشها داشته است.
1. مقدمه
فراگیرشدن وب 2/0 تأثیر شگرفی بر نحوه تولید داده داشته است. یکی از این تأثیرات امکان تولید داده در محیطهای شبکههای اجتماعی، تالارهای مباحثه و فروشگاههای اینترنتی توسط کاربران اینترنت است. این برخلاف دادههای رایج، که در باره واقعیتی قابل مشاهده یا ملموس است؛ بیشتر بازتاب نظرها و دیدگاههای شخصی کاربران است. از سوی دیگر استخراج اطلاعات معنیدار از نظرات شخصی میتواند در تصمیمگیری گروهها و افراد نسبت به پدیدهای خاص تأثیرگذار باشد.
استخراج این اطلاعات منجر به ایجاد شاخهی جدیدی در متنکاوی و پردازش زبان طبیعی تحت عنوان »نظرکاوی« شده است. نظرکاوی به امر یافتن، استخراج و دستهبندی نظرات، عقاید و موضعها درباره موضوعات متفاوتی گفته میشود که در داده متنی ابراز میشوند .[12] یکی از مسائل مهم نظرکاوی دستهبندی متون در دو دسته »ذهنی« یا »عینی« است، به این کار »شناسایی ذهینت«1 گفته میشود. شناسایی ذهنیت کاربردهای مختلفی دارد. سیستمهای استخراج اطلاعات باید بتوانند تمایز میان متون ذهنی و عینی را دریابند، این سیستمها متون عینی را به عنوان اطلاعات استخراج شده برمیگردانند و متن ذهنی را در دستهای دیگر قرار میدهند زیرا این متنها بیانگر دیدگاه شخصی نویسنده است.
سیستم پرسش/پاسخ باید میان پاسخهایی که حاوی اطلاعات واقعی هستند و پاسخهایی که صرفاً بیانگر دیدگاه شخصی نویسنده است، تمایز قایل شوند .[16] یکی از کاربردهای شناسایی ذهنیت در استخراج نظر 1است. استخراج نظر، ناظر به شناسایی متنی است که در آن نظری بیان شده است. تحقیقات اولیه روی استخراج نظر با استفاده از »شناسایی ذهینت« متن انجام شده است و متون ذهنی به عنوان متون حاوی نظر قلمداد میشوند. متون ذهنی ممکن است حاوی اطلاعات صحیحی باشند، لیکن تمامیمتون عینی لزوماً حاوی یک واقعیت صحیح نیستند، آنچه حائز اهمیت است این است که متون ذهنی بیانگر دیدگاه شخصیِ منبع متن است .[16]
در این مقاله دستهبندی ذهنیت با استفاده از شبکه عصبی پرسپترون چندلایه انجام شده است و نتایج آن با روشهای »بیزی ساده«، »شبکه بیزی«، »ماشین بردار پشتیبان« و »جنگل تصادفی« مقایسه شده است. بدین منظور در بخش 2 مروری بر تحقیقات انجام شده در این حوزه خواهیم داشت. در بخش 3 روش به کار رفته در این مقاله توضیح داده میشود. در بخش 4 نتایج آزمایشها با استفاده از شبکه عصبی پرسپترون چندلایه با دستهبندهای ماشین بردار پشتیبان، جنگل تصادفی، روش بیزی ساده و شبکه بیز مقایسه شده است و سرانجام در بخش 5 نتیجهگیری مقاله بیان شده است.
.2 مروری بر تحقیقات انجام شده
تحقیقات مختلفی در زمینه تشخیص متون ذهنی انجام شده است. در تحقیقی شناسایی ذهنیت متون به عنوان یک گام پیشپردازشی در تعیین گرایش نظر انجام شد و بعد از اینکه متون ذهنی به عنوان متون حاوی نظر در نظر گرفته شدند، دقت دستهبندها در تعیین گرایش نظر افزایش پیدا کرد .[10] در تحقیق دیگری که هدف آن پیدا کردن خصیصههایی بوده است که نشان میدهد یک متن ذهنی است، واژههای با بسامد کم، همایندها، صفتها و فعلهای با توزیع مشابه، به عنوان خصیصههای ذهنی بودن متن شناسایی شدهاند .[16]نسبت» مبیّن فیشر«2 یکی از روشهای کاهش بعد در بازشناسی الگو است، در تحقیق دیگری این نسبت بهبود داده شده است و از آن در دستهبندی ذهنیت متون زبان چینی استفاده شده است .[15]
در تحقیقی روشی غیرنظارتی بر مبنای »تخصیص دیرکله نهان«3 برای شناسایی ذهنیت متون ارائه شده است .[7] در تحقیق دیگری از ترکیب خصیصههای اجزای کلام، مکان واژه در جمله و عینی یا ذهنی بودن واژه استفاده شده است و بردارهای ساخته شده از این خصیصهها در آموزش دستهبندهای بیزی ساده، پرسپترون چندلایه و bagging به کار رفته است، در این تحقیق بهترین دقت به دست آمده مربوط به دستهبند بیزی ساده بوده و برابر با %93/2 گزارش شده است .[4] در تحقیق دیگری روشی غیرنظارتی با استفاده از ابهامزدایی معنایی واژه پیشنهاد و با استفاده از قواعد زبانی، دستهبندی نظرات در دو دسته عینی و ذهنی انجام شده است .[2]
در تحقیق دیگری از شناسایی ذهنیت متن برای فیلترکردن اخبار در زبان تایلندی استفاده شده است. در این تحقیق خبرهایی که ذهنی بودند به عنوان اخباری شناسایی شدند که حاوی نظرهای شخصی هستند. با مجموعه خصیصههای مختلف و استفاده از دستهبندهای مختلف بهترین دقت برای دستهبند بیزی ساده برابر %80/9 گزارش شد .[13] در تحقیق دیگری از دستهبند »میدان تصادفی شرطی«4 برای زبان بنگالی استفاده شده است که زبانی با منابع زبانی اندک است. بهترین دقت حاصل برابر 76/08٪ گزارش شده است .[12]
در تحقیق دیگری روشی بر مبنای مدل بیزی ارائه شده است که شناسایی ذهنیت را در سطح جمله انجام میدهد. هدف از این روش آن است که شناسایی ذهنیت با استفاده از تعداد کمی از دادههای برچسبدار انجام شود. بهترین دقت حاصل در این تحقیق %71/02 گزارش شده است .[6] در تحقیقی دیگر با استفاده از شبکههای عصبی درهمپیچیده عمیق5شناسایی ذهنیت در سطح جمله انجام شده است، دقت شبکه طراحی شده نسبت به سایر روشها بهبود چشمگیری داشته است به طوری که روی دادههای پیکره MPQA به دقت 97% و برای دادههای زبان اسپانیایی به دقت %75 دست یافتند .[1]
. 3 روش حل مسئله
همچنان که اشاره شد در شناسایی ذهنیت هدف این است که متون زبان طبیعی در یکی از دستههای ذهنی یا عینی قرار داده شود. در حل این مسئله ابتدا به دادهها یکی از برچسبهای عینی یا ذهنی داده میشود. در این مقاله از دادههای مربوط به بازبینی فیلم استفاده شده است. پیکره استفاده شده شامل ده هزار سند است که پنجهزار سند آن دارای برچسب ذهنی و بقیه دارای برچسب عینی هستند .[10] پیکره شامل دویست هزار نشانه1است و متوسط طول هر سند 204 نشانه است. اطلاعات کلی پیکره به صورت جدول 1 است.