بخشی از مقاله

چکیده -

با افزایش کاربران اینترنت و ظهور وب 2,0، نظرات نوشته شده توسط کاربران به یکی از مهمترین قابلیتهای ارایه شده در رسانههای اجتماعی تبدیل شده است. برای مثال، این نظرات راهنمای مناسبی برای سایر کاربران در فروشگاههای اینترنتی هستند. با این وجود، حجم انبوه نظرات میتواند سبب گمراهی کاربران و خرید محصول نامناسب شود. از این رو در سالهای اخیر حوزهی نظرکاوی، به منظور تحلیل نظرات، مورد توجه بسیاری از پژوهشگران قرار گرفته است.

تعیین جهتگیری نظرات، به عنوان یکی از زیرشاخههای این حوزه، به استخراج مثبت یا منفی-بودن نظرات کاربران نسبت به یک موضوع یا محصول گفته میشود. با وجود پژوهشهای مختلفی که در زبان انگلیسی انجام شده است، روشهای تعیین جهتگیری نظرات به دلیل ساختار متفاوت زبان فارسی با چالشهای بسیاری روبرو هستند. از اینرو در این مقاله چارچوب جدیدی برای استخراج ویژگی و دستهبندی نظرات با استفاده از موقعیت مکانی جملات اول و آخر، که تاثیر زیادی در جهتگیری نظرات دارد، پیشنهاد شده است. نتایج آزمایشهای ما بر روی نظرات کاربران در یک فروشگاه اینترنتی نشاندهنده بهبود دقت روشهای موجود است.

-1 مقدمه

با توسعهی رسانههای اجتماعی، امروزه محتوای زیادی توسط کاربران در این رسانهها تولید میشود. نظرات کاربران در بسیاری از رسانههای اجتماعی، همچون رسانههای خبری و شبکههای اجتماعی، میتوانند باعث به راه افتادن جریانهای مختلف سیاسی و اجتماعی در مورد پدیدههای مختلف شوند. در فروشگاههای اینترنتی، به عنوان یکی از انواع رسانههای اجتماعی، نظرات کاربران به مهمترین راهحل برای افزایش اعتماد بین کاربران و فروشگاهها تبدیل شده و علاه بر این راهنمای ارزشمندی برای بسیاری از کاربران میباشند.

با توجه به اهمیت تحلیل نظرات کاربران و بطورکلی محتوای ایجاد شده توسط آنها، در سالهای اخیر حوزهی نظرکاوی مورد توجه پژوهشگران قرار گرفته است. یکی از زیرشاخههای این حوزه، تعیین جهتگیری نظرات - موافق یا مخالفبودن، مثبت یا منفی بودن - برای تعیین علایق کاربران دربارهی یک موضوع میباشد. بطور مشخص، جهتگیری نظرات اهمیت بسزایی در خرید محصول توسط کاربران در یک فروشگاه اینترتی دارد. به عنوان مثال پژوهش [2] نشان میدهد، 60 درصد کاربران بعد از خواندن نظرات سایر کاربران کالایی را خریداری میکنند، که با برندی که از ابتدا مدنظر آنها بوده متفاوت است. همچنین پژوهش [17] نشان میدهد، نظرات منفی تاثیر بیشتری بر روی تصمیم نهایی کاربران در این فروشگاهها دارد.

پژوهشهای مرتبط با تعیین جهتگیری نظرات در زبان انگلیسی دارای پیشینهی طولانی میباشند .[3,4,5] رویکردهای اولیه این پژوهشها، بکارگیری روشهای متنکاوی بوده و در سالهای اخیر بر ترکیب استفاده از متنکاوی و روشهای یادگیری ماشین متمرکز شدهاند .[18,19] الگوریتمهای یادگیری ماشین مورد استفاده در این پژوهشها اغلب الگوریتمهای نظارتی مانند ماشین بردار پشتیبان 1 - SVM - ، تخصیص پنهان دیریکله2، بیز ساده3 میباشد.

قابل ذکر است که با توجه به ساختار خاص متن نظرات در رسانههای اجتماعی، مانند استفاده از کلمات عامیانه، اصطلاحات دارای ایهام و عدم رعایت قوانین نگارشی، چالشهای بسیاری برای تعیین جهتگیری نظرات در این رسانهها وجود دارد. این در حالی است که در زبان فارسی این چالشها شکل جدیتری به خود گرفتهاند. ساختار متفاوت زبان فارسی در مقایسه با زبان انگلیسی سبب مشکلات متعددی شده است . وجود کلمات دو بخشی و کلمات دارای پسوند و پیشوند، که در آنها نیمفاصله رعایت نمیشود، از جمله مشکلات این حوزه میباشد. با این حال، پژوهشهای کمی در حوزهی تعیین جهتگیری نظرات در زبان فارسی انجام گرفته است که دقت آنها نسبت به پژوهشهای مشابه برای زبان انگلیسی کمتر است 

در این مقاله برای بهبود دقت پژوهشهای پیشین ویژگی جدیدی برای استخراج از نظرات پیشنهاد نمودهایم. با توجه به طولانی بودن بسیاری از نظرات، استفاده از ویژگیهای مبتنی بر کلمات باعث کاهش دقت پژوهشهای این حوزه میباشد. استفاده از جملات اول و آخر نظرات میتواند سبب بهبود دقت تعیین جهتگیری نظرات شود. از این رو برای استفاده از این ویژگی جملات اول و آخر نظرات را استخراج نموده و با استفاده از الگوریتم یادگیری ماشین تحلیل تفکیک خطی 4 - LDA - تعیین جهتگیری شده و سپس به عنوان ویژگی برای نظرات مورد استفاده قرار گرفته است. نتایج آزمایشهای ما بر روی نظرات جمعآوری شده از فروشگاه اینترنتی دیجیکالا [24] نشان میدهد که استفاده از این ویژگی برای رسانههای اجتماعیای که در آنها نظرات دارای ساختار طولانی میباشند بسیار موثر بوده و باعث بهبود دقت در تعیین جهتگیری نظرات میشود.

-2 پژوهشهای مرتبط

پژوهشهای مرتبط با تعیین جهتگیری نظرات در رسانههای اجتماعی در حوزههای مختلفی انجام گرفته است. به عنوان مثال پژوهش [5] جملات طعنهآمیز و طنز را شناسایی میکند. میزان یکسان بودن معنای واقعی جملات با معانیای که خواننده برداشت میکند را مشخص نموده و مدلی برای تشخیص جملات طعنهآمیز ارائه میدهد. پژوهش [6] عبارات مهم در نظرات را شناسایی کرده و از این رویکرد برای تعیین جهتگیری نظرات استفاده نمود است. در این پژوهش تمرکز برروی ساختار معنایی نظرات میباشد. پژوهش [7] بر روی تعیین جهتگیری نظرات بعد- محور5 متمرکز شده است. در این حوزه ابتدا موجودیتهای داخل متن نظر و ابعاد آن مشخص میشود. سپس جهتگیری نظر نسبت به این ابعاد تعیین میشود. به عنوان مثال در مورد موجودیت "تلفن همراه"، ابعاد آن شامل "باطری" و "صفحهی نمایش" میباشند.

در زمینهی سایر زبانها - به جز زبان انگلیسی - ، در سالهای اخیر پژوهشهای بسیاری برای زبانهای اسپانیایی، آلمانی، هندی، عربی انجام گرفته است. به عنوان مثال، در پژوهش [8] گزارش جامعی از تاثیر ویژگیهای مختلف مورد استفاده در زبان اسپانیایی ارائه میشود. این ویژگیها شامل ویژگیهای مرتبط با فراوانی واژه - معکوس فراوانی سند 6 - TFIDF - ، الگوهای نحوی، ویژگیهای معنایی، ویژگیهای مرتبط با محل قرار گیری جملات در متن، میباشند.

پژوهش [9] در زبان آلمانی و با استفاده از ویژگیهای لغتنامه صورت گرفته است. این پژوهش به نقش کلمات - اسم، فعل، صفت، قید - در تعیین جهتگیری نظرات پرداخته است. همچنین با استفاده از یک لغتنامه جهت-گیری نظرات را مشخص نموده است. در پژوهش [10] برای کاهش مشکلات و تفاوتهای زبانی هندی و انگلیسی، ابتدا نظرات را به زبان انگلیسی ترجمه نموده سپس جهتگیری آن را تعیین مینماید.

قابل ذکر است که پژوهشهای اندکی در زمینهی تعیین جهتگیری نظرات در زبان فارسی انجام گرفته است. مقاله [11] با استفاده از روش یادگیری ماشین تخصیص پنهان دیریکله و با تاکید بر ویژگیهای لغتنامه و با استفاده از ترجمهی خودکار عبارات انگلیسی، به تعیین جهتگیری آنها پرداخته است. این پژوهش دارای دقت حدوداً %77 میباشد.

در پژوهش [12] با استفاده از ویژگیهای -nگرام و با این فرضیه که کلماتی مانند صفتها حداکثر دو بخشی هستند - مانند آنتندهی - ، با استفاده از دوتایی7 به تعیین جهتگیری نظرات پرداخته است. دقت گزارش شده در این پژوهش حدود %84,7 میباشد.

در این مقاله ما علاوه بر ویژگیهای مرتبط با لغتنامه و فراوانی کلمات، برای اولین بار از ویژگی جملات اول و آخر نظرات برای بهبود دقت در زبان فارسی بهره بردهایم.

-3 چارچوب پیشنهادی

به طورکلی، تعیین جهتگیری نظرات شامل مراحل پیشپردازش، استخراج ویژگی و استفاده از الگوریتمهای یادگیری ماشین میباشد. شکل - 1 - چارچوب پیشنهادی ما را که بر این اساس میباشد، نشان میدهد. در ادامه به جزئیات هر یک از این مراحل پرداخته میشود.

-1-3 پیشپردازش نظرات

این مرحله شامل نرمالسازی8 - شامل حذف و اضافه کردن فاصله و نیمفاصله و علامتها و نشانههای نامربوط - ، ریشهیابی9 - تعیین ریشهی افعال برای حذف پسوندهای افعال - و برچسب پاره-سخن10 - تعیین موقعیت کلمات در جمله - میشود. همچنین در این مرحله دادههایی که اطلاعات آنها ناقص یا نامربوط هستند از مجموعهی دادگان مورد مطالعه حذف میشود. یکی از مهمترین عملیات پیشپردازش برروی دادهها حذف جملات نامربوط در اول و آخر نظرات میباشد. به عنوان مثال "سلام به همه ی دوستان" و یا " با تشکر از سایت خوبتون" این جملات سبب ایجاد نویز در نتایج میشود و حذف آنها تاثیر بسزایی در بهبود کارآیی الگوریتم دارد.

برای این مرحله از بستهی پیشپردازش هضم [25] استفاده نمودهایم. این بسته شامل نرمالساز، ریشهیاب، برچسبزن پارهسخن مییاشد.

شکل - 1 مراحل چارچوب پیشنهادی

-2-3 ویژگیهای مورد استفاده ویژگیهای لغتنامه: برای تعیین جهتگیری نظرات،

پرکاربردترین راه استفاده از لغتنامه میباشد. با این وجود همهی کلمات داخل یک جمله تاثیر یکسانی بر روی جهتگیری نظرات ندارند. بنابراین پس از تعیین برچسب پارهسخن و تعیین نقش کلمات در جمله با استفاده از لغتنامه، برای تعدادی از این کلمات امتیازی اختصاص میدهیم. پژوهش [9] نشان میدهد صفتها و فعلها بیشترین تاثیر را در تعیین جهتگیری نظرات دارند. با این وجود اسمها نیز در بسیاری از اوقات دارای تاثیر بسزایی در جهتگیری نظرات دارند. از اینرو ما سه گروه اسم، فعل و صفت را مورد بررسی قرار داده و با استفاده از لغتنامه به این گروه کلمات امتیاز مثبت یا منفی تخصیص دادهایم.

ویژگیهای مربوط به فراوانی وزنی :TF-IDF برای این منظور پژوهش [16] یک رابطه برای تخصیص امتیاز به جملات ارائه نموده است. پیش از توضیح رابطهی مورد نظر به تشریح متغیرهای آن میپردازیم.

·    Ct,d  تعداد دفعات تکرار کلمهی t در نظر d میباشد.

·    Pt  تعداد نظراتی که واژهی t در آنها تکرار شده و
دارای برچسب مثبت هستند.

·    |P| تعداد نظراتی که در دادهی آموزش برچسب مثبت
دارند.
·    Nt  تعداد نظراتی که واژهی t در آنها تکرار شده و

دارای برچسب منفی هستند.

·    Vt,d امتیاز ویژگی فراوانی وزنی است.

در رابطه - 1 - با توجه به اینکه تعداد نظرات مثبت و منفی در مجموعهی داده برابر میباشد، میتوان دو متغیر N| و P| را از دو عبارت حذف کرد. این رابطه در پژوهش [16] برای تمام کلمات موجود در جمله مورد استفاده قرار میگیرد. این در حالی است که با اینکار، تاثیر ویژگیهای لغتنامه کاهش مییابد. از اینرو ما این امتیاز را تنها برای صفتها و فعلها که تاثیر بیشتری در تعیین جهتگیری نظرات دارند، استفاده مینماییم. با توجه به این که هر جمله ممکن است دارای بیش از یک صفت یا فعل باشد رابطهی - 1 - را به شکل زیر تغییر دادهایم.

که در این رابطه، K برای صفتها، نشاندهندهی صفتهای یک نظر و برای افعال، نشاندهندهی افعال یک نظر میباشند. همچنین N تعداد صفتها یا افعال یک نظر میباشد. در واقع میانگین فراوانی وزنی صفتها و افعال یک نظر با استفاده از رابطهی - 2 - محاسبه میشود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید