بخشی از مقاله

خلاصه

با توجه به کاربرد تحلیل احساسات در دامنه های مختلف، نیاز به روش های خودکار و هوشمند تحلیل احساسات بیشتر به چشم می خورد. تحلیل احساسات امروزه در دامنه گسترده ای از داده ها کاربردی شده است، بنابراین استفاده از تطبیق دامنه برای حفظ دقت طبقه بند در دامنه های متمایز و کاهش نیاز به داده های برچسب دار، توجیه پذیر است. روش یادگیری ساختار وابسته برای تطبیق دامنه و طبقه بندی احساسات در متن نظرات کاربران در این پژوهش برای داده های فارسی بکار گرفته شده است و سپس با استفاده از اطلاعات متقابل این روش تطبیق دامنه بهبود داده شده است.

این روش خودکار با روش آماری مقایسه شده و با استفاده از پیکره ی سینتی پرس که دارای داده های برچسب دار فارسی است مورد آزمون قرار گرفته است. یافته ها نشان می دهد که دقت به شکل معنا داری با بکار گیری یادگیری ساختار وابسته و اطلاعات متقابل برای انتخاب خصوصیات محوری در داده های فارسی از %59 برای روش پایه به %79 افزایش می یابد.

.1 مقدمه

امروزه با گسترش استفاده از وب و فضای مجازی در تمام زمینهها مانند تجاری، خبری و تفریحی، منبع ارزشمندی از نظرات و عقیدههای کاربران دربارهی محصولات فرهنگی، اخبار ، خدمات و کالاها در فضای مجازی در دسترس است. این نظرات توسط کاربران دیگر و همچنین سیاستگذاری مدیران سایتها مورد استفاده قرار میگیرید. کاربران و مشتریان نیز معمولاً از نظرات سایر کاربران برای تصمیمگیری در خصوص استفاده از خدمات یا خریدکالا استفاده میکنند، بنابراین تحلیل احساسات - نظرات - امری مهم و ضروری است.

با توجه به اینکه دادههای مربوط به نظرات کاربران ساختیافته نیست، استخراج اطلاعات و تحلیل آن مستلزم پیشپردازش و الگوریتمهای واکشی و دستهبندی اطلاعات است. آنالیز احساسات و یا عقیدهکاوی شاخهای از متنکاوی است و به معنی یافتن نگرش نویسنده نظر دربارهی یک گروه و یا دستهی خاص است. برخی از پژوهشگران عقیده کاوی را زیر گروه آنالیز احساسات و برخی دیگر آنها را متفاوت میدانند. ولی با توجه به اینکه نظرات نوعی خاصی از متن هستند، تحلیل این دو نوع کاربرد بهم بسیار شبیه است و زمینه مطالعاتی مشترکی دارد .[1]

اخیراً تحلیل احساسات بسیار مورد توجه پژوهشگران قرار گرفته است [5]-[2] و در این میان نظرات و بررسیهای فیلمها بیشترین مطالعات زمینهای را شامل شدهاند. در این میان برخی از حوزههای دیگر این موضوع که شامل بررسی دادههای فروش اقلام کالا در گروهای مختلف است نیز اخیراً مورد توجه قرار گرفته است .[6] ,[1] نتایج این تحقیقات مورد استفادهی سامانههای تجاری و صنعتی توزیع کالا قرار گرفته و خلاصه و نتیجهی نظرات کاربر بر تجارت سایتهای فروش تاثیرگذار است.

طبقهبندی1 احساسات یکی از کاربردیترین تکنیکهایی است که برای تحلیل احساسات استفاده میشود. در این روش آنالیز یک طبقهبند خودکار احساسات، نظرات را به دستههای مختلف منتسب میکند. یکی از مشکلات طبقهبندها این است که دامنهی دادهها به مرور زمان تغییر میکند، بنابراین طبقهبند آموزش داده شده ممکن است کارآیی خود را از دست بدهد .[6]

در بسیاری از حالات، استفاده از روشهای آماری مانند استفاده از گنجینه لغات2 و منابع زبانی یا استفاده از تکنیکهای یادگیری ماشین مانند نایو بیز3، بیشینه کردن آنتروپی و یا بردار ماشین پشتیبان4 در این حوزه موفقیتهای بدست آورده است [5]معمولاً. مشکلات زمانی بروز میکند که دامنهی دادههای آموزش5 و دامنهی دادههای آزمون 6 با یکدیگر متفاوت باشد. به عنوان مثال طبقهبندی7 که در یک دامنه یا دستهی موضوعی خاص نتایج خوبی کسب کرده است، در حوزه و یا دستهی دیگر که دارای توزیع دامنهای متفاوتی است، نتایج خوبی کسب نمیکند. این مشکل، ایراد انتقال دامنه نامیده میشود .[7]

بنابراین با مراجعه به منابع علمی به خوبی نشان داده شده است که یک خوشهبند آموزش داده شده، اگر در دامنهای مورد آزمایش قرار گیرد که داری توزیع دادههای متفاوت با دامنهی آموزش است، دقت خود را از دست میدهد .[10]-[8] مسالهی دیگری که در منابع بعه بحث گذاشته شده و هم اکنون پژوهش دربارهی آن در حال انجام است، معیاری است که برای مقایسهی شباهت دامنهها از آن استفاده میشود .[8] ,[6] معیارهای مختلفی در این حوزه پیشنهاد شده است و دقیقاً مشخص نیست که چه معیاری می تواند شباهت دو دامنه از دادهها را در کاربرد مورد نظر بخوبی مشخص کند ,[6] .[10]

اغلب پژوهشها در حوزهی تحلیل احساس برای زبان انگلیسی صورت پذیرفته است [11] ,[7]-[5] و برای زبان فارسی نیز انجام پژوهش در حوزهی تحلیل احساس در جریان است .[4] ,[1] بنابراین با توجه به ذات متفاوت زبان فارسی لزوم انجام پژوهش در این حوزه بسیار ضروری است. در این پژوهش با استفاده از پیکرهی تحلیل احساس فارسی - سنتی پرس - [4]، و بکارگیری روشهای تطبیق دامنه[10] ,[8] ,[6] 8، فرآیند طبقهبندی احساس انجام میشود.

در این مقاله، ابتدا پیشینه پژوهشهای مرتبط در تحلیل احساس و تطبیق دامنه مورد بررسی قرار میگیرد. سپس روش پژوهش در تحلیل احساس در بخش 3 مورد مرور میشود. آزمونهای انجام شده و شرح دادههای بکاررفته در و نتایج حاصله در فصل چهارم مورد بررسی قرار میگیرد. در انتها فصل پنجم نتایج حاصل را به مباحثه گذاشته و نتیجه منتج از آن را بیان میکند.

.2 پیشینه پژوهش

تکنیکهای تحلیل احساس به دو دستهی آماری و یادگیریماشین تقسیمبندی میشوند. روشهای آماری مبتنی بر پیکرهها، لغتنامهها و گنجینههای لغت کار میکنند و نتایج آن با تحلیل آماری متن بدست میآید .[3] یادگیری ماشین شامل روش های بانظارت و بدون نظارت است. پژوهش های زیادی با استفاده از روش بانظارت انجام شده است [3], [12] و بیشتر پژوهش ها در این حوزه در سطح متن انجام شده است .[1] , [3] برخی پژوهش های دیگر نیز در این حوزه در سطح جمله و با روش بدون نظارت انجام شده اند .[6]

روش های مبتنی بر آمار با استفاده از لغت نامه ها - متضاد، مترادف و گرایش واژه - و محاسبه آمار بکار رفتن واژگان در جملات، سعی در تعیین گرایش جمله دارند .[4]معمولاً این روش ها یک هسته اولیه از واژگان مثبت و منفی را گردآوری می کنند و با بکارگیری گنجینه لغت، واژگان مترادف و متضاد را به هسته اولیه اضافه می کنند .[1] برخی از پژوهش ها در این حوزه نیز ساخت لغت نامه را با استفاده از روش های بدون نظارت، انجام داده اند. [13]

در میان پژوهش هایی که از روش های یادگیری ماشین استفاده کرده اند، پنگ و همکارانش [14] - 2002 - ، با مقایسه بردار ماشین پشتیبان، طبقه بند نایو بیز و بیشنیه کردن آنتروپی، طبقه بندی احساس را بهبود بخشیدند و پایه ای در تحقیقات این حوزه بنا نهادند. استفاده از تطبیق دامنه برای حفظ دقت طبقه بند آموزش داده در دامنه های مشابه روشی نوین در پژوهش های اخیر است .[6], [15], [16]

اساس این پژوهش ها حفظ دقت طبقه بند با استفاده از تطبیق دامنه آموزش به دامنه ی آزمون است. اگر توزیع داده های دامنه ی آموزش با دامنه ی آزمون تقاوت های شگرفی داشته باشد، آنگاه استفاده از طبقه بند آموزش داده شده با داده های آموزش نتایج خوبی در دامنه ی آزمون کسب نمی کند. بدلیل پویایی داده ها و تعدد دامنه های مشابه و غیرمشابه، استفاده از چنین روش هایی کاملاً توجیه پذیر است. اکثر روش های این حوزه از یادگیری بدون نظارت استفاده می کنند.

در پژوهشی بر پایهی یادگیری ساختار وابسته10، تطبیق دامنه برای حفظ دقت طبقه بند در دامنه های مختلف انجام شده است .[10] روش یادگیری ساختار وابسته - SCL - ، کاربردهای فراوانی در پردازش زبان طبیعی دارد ولی بهترین کارآیی برای این روش زمانی است که توزیع داده های مبدا و مقصد، یکسان باشد. برای رفع این نقیصه و بکارگیری این روش در متون تحلیل احساس از تطبیق دامنه برای این روش استفاده شده است .[6] روش یادگیری ساختار وابسته بطور خودکار روابط میان خصوصیات11 از دامنه های مختلف را استنتاج می کند .[10]

این روش برای کاربردهای مختلفی در حوزه ی پردازش زبان طبیعی استفاده شده است و توانسته است کارآیی مناسبی بدست آورد. در این پژوهش [11] پژوهشگران روشی برپایهی تطبیق دامنه را برای رفع مشکل انتقال دامنه پیشنهاد دادند. آنها با استفاده از یادگیری عمیق12، یک پیاده سازی ثابت بامعنی برای هر نظر کاربر به روش بدون نظارت استخراج کردند.

با استفاده از دادههای آمازون و بکارگیری خصوصیات مستخرج از روش یادگیری عمیق، گزارش داده شد که دقت طبقهبندی احساسات از روشهای مرسوم بیشتر شده است. بالگالا و همکارانش [17] - 2016 - طبقهبندی بدون نظارت با استفاده از تطبیق فرادامنهای، برای تحلیل احساسات را پیشنهاد کردند. آنها برای رفع مشکل انتقال دامنه، طبقهبند را در یک دامنه - دامنه مبدا - آموزش دادند و سپس آنرا در چندین دامنهی دیگر - مقصد - آزمودند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید