بخشی از مقاله
چکیده
ما یک رویکرد جدید را برای طبقه بندی خودکار احساسات پیام های توییتر معرفی می کنیم. این پیام ها با توجه به یک عبارت پرس و جو به صورت مثبت یا منفی طبقه بندی می شوند. این روش برای مصرف کنندگانی مفید است که می خواهند قبل از خرید احساسات افراد را در خصوص محصولات بررسی کنند یا شرکت هایی که می خواهند احساسات عمومی را در باره برند تجاری خود مورد بررسی قرار دهند.
تا کنون هیچ تحقیقی در مورد طبقه بندی احساسات پیام ها در سرویس های میکروبلاگینگ مانند توییتر وجود ندارد. ما نتایج الگوریتم های یادگیری ماشین را برای طبقه بندی احساسات پیام های توییتر با استفاده از نظارت از راه دور ارائه می کنیم. اطلاعات آموزشی ما شامل پیام های توییتر با شکلک ها می شود، که به عنوان برچسب های پر سر و صدا استفاده می شود. ما نشان می دهیم که الگوریتم های یادگیری ماشین Naive Bayes - ، حداکثر آنتروپی و - SVM دقت بالاتر از 80 را در هنگام آموزش داده های شکلک نشان می دهد. این مقاله همچنین مراحل پیش پردازش مورد نیاز برای دستیابی به دقت بالا را توصیف می کند.
-1 مقدمه
توییتر یک سرویس میکروبلاگینگ محبوب است که در آن کاربران پیام های وضعیتی - به نام توئیت - را ایجاد می کنند. این توییت ها گاهی نظرات مربوط به موضوعات مختلف را بیان می کنند. ما روشی را برای استخراج احساسات - مثبت و یا منفی - از توئیت ها ارائه می کنیم. این امر بسیار مفیر است چرا که این امکان را فراهم می کند که بازخوردها را بدون دخالت دستی، جمع آوری نماییم.
مشتریان می توانند قبل از خرید، احساسات افراد را در خصوص محصول بررسی کنند. بازاریابان می توانند از این روش برای تحقیق در مورد افکار عمومی شرکت و محصولات خود و یا تحلیل رضایت مشتری استفاده کنند. سازمانها همچنین می توانند از این روش برای جمع آوری بازخوردهای انتقادی در مورد مشکلات در محصولات تازه استفاده کنند.
تحقیقات زیادی در زمینه طبقه بندی احساسات انجام شده است. بیشتر این تحقیقات بر روی قطعات بزرگ متنی، مانند بررسی های مروری، انجام شده اند. اما توئیت ها - و به طور کلی، میکروبلاگین ها - از نظر هدف کاملا متفاوت می باشند: در حالی که مرورها، نشان دهنده خلاصه افکار نویسنده هستند، توئیت ها به صورت گاه گاه بوده و به 140 کارکتر متنی محدود می شوند. به طور کلی، توئیت ها به اندازه مرورها، فکورانه نیستند. با این حال، می توانند روش دیگری را برای جمع آوری بازخوردها در اختیار شرکت ها قرار می دهند.
در سالهای اخیر، محققان در زمینه طبقه بندی احساسات در سطح اصطلاحات و جملات کار کرده اند .[11] تحقیقات قبلی در زمینه تحلیل احساسات مانند پنگ و همکاران[9] عملکرد طبقه بندی کننده های مختلف را در بررسی فیلم تحلیل کرده اند. کار پنگ و همکاران به عنوان یک مبنا عمل کرده و بسیاری از نویسندگان تکنیک های ارائه شده در مقاله آنها را در حوزه های مختلف استفاده کرده اند.
پنگ و همکاران همچنین از ایده ای مشابه با کار ما استفاده نمودند که عبارت است از رتبه بندی ستاره ای به عنوان سیگنال های قطبی در داده های آموزشی. ما نشان می دهیم که ما می توانیم نتایج قابل مقایسه ای را در باره توییت های با نظارت از راه دور ایجاد کنیم. برای آموزش طبقه بندی کننده، یادگیری نظارتی به داده های آموزشی نیاز دارد. با وجود گستردگی موضوعات مورد بحث در توئیتر، جمع آوری دستی داده ها برای آموزش طبقه بندی کننده، مشکل است. راه حل ما، استفاده از نظارت از راه دوراست، که در آن داده های آموزشی ما شامل توییت با شکلک ها است.
این روش توسط [10] Read معرفی شد. شکلک ها به عنوان برچسب های پر سر و صدا عمل می کنند. به عنوان مثال، : - در توئیت نشان می دهد که توئیت شامل احساسات مثبت است و : - نشان می دهد که توئیت در بر دارنده احساسات منفی. با کمک API توییتر، حجم زیادی از توییت ها با شکلک ها قابل استخراج است. ما طبقه بندی کننده ها آموزشی دیده را در مقابل مجموعه ای از توئیت ها - که ممکن است محتوی شکلک باشند و یا نباشند، به کار می گیریم.
ما نتایج آزمایشات و افکار خود را در مورد چگونگی بهبود بیشتر نتایج ارائه می دهیم. برای کمک به تجسم ابزار تجزیه و تحلیل احساس مبتنی بر توییتر، ما همچنین یک برنامه تحت وب در کنار طبقه بندی کننده های خود داریم. این می تواند توسط افراد و شرکت هایی که ممکن است مایل به تحقیق در مورد هر موضوعی باشند، مورد استفاده قرار گیرد.
1-1 تعریف احساسات
در جهت اهداف تحقیق ، احساسات را به مثابه احساس مثبت یا منفی شخصی تعریف می کنیم. "جدول 1 برخی نمونه ها را نشان می دهد.بسیاری از اوقات مشخص نیست که آیا یک توئیت محتوی احساساست است یا نه. برای این موارد ما از آزمون لاکتوم زیر استفاده می کنیم: اگر توئیت بتواند به عنوان تیتر صفحه اول روزنامه و یا در صفحه ویکیپدیا ظاهر شود، در کلاس خنثی قرار می گیرد.
به عنوان مثال، توئیت زیر به عنوان خنثی تلقی می شود چرا که می تواند به عنوان تیتر روزنامه استفاده شود ، با این وجود که احساسات منفی را در خصوص جنرال موتور مطرح می کند. ورشکستگی می تواند جنرال موتور را در مسیری پر سود قرار دهد. در این تحقیق، در آموزش و یا داده های تست، ما توییت های خنثی را در نظر نمی گیریم. بلکه تنها از توئیت های مثبت و یا منفی استفاده می کنیم. بسیاری از توییت ها احساسات ندارند، بنابراین محدودیت فعلی تحقیقات ما این است که کلاس خنثی را شامل نمی شود..
1-2 ویژگی های توئیت ها
پیام های توییتر دارای ویژگی های منحصر به فرد بسیاری هستند که تحقیق ما از تحقیقات قبلی متفاوت می سازند: طول: حداکثر طول یک پیام توئیتر، 140 کارکتر است. براساس بررسی ها ما، میانگین طول یک توئیت، 14 یا 78 کارکتر است. این با طبقه بندی های قبلی ، که بر متون طولانی، مانند بررسی فیلم ها، متمرکز بوده ان، بسیار فرق می کند. در دسترس بودن اطلاعات: یکی دیگر از تفاوت ها، دامنه اطلاعات در دسترس است. با استفاده از API توییتر، جمع آوری میلیونها توییت برای آموزش بسیار آسان است. در تحقیق گذشته، آزمایشها تنها شامل هزاران مورد آموزش بود.
مدل زبان: کاربران توییتر پیام های مختلفیرا از رسانه های مختلف، از جمله تلفن های همراه خود ارسال می کنند. تعداد اشتباهات و عبارات عامیانه در توییت بسیار بالاتر از سایر حوزه ها است. دامنه: کاربران توییتر پیام کوتاهی در مورد موضوعات مختلف ارسال می کنند، بر خلاف سایت های دیگر که برای یک موضوع خاص طراحی شده اند،. این با درصد زیادی از تحقیقات گذشته متفاوت است، که بر روی حوزه های خاص نظیر بررسی فیلم تمرکز دارد.
-2 رویکرد
رویکرد ما این است که از طبقه بندی کننده های یادگیری ماشین و استخراج کننده های محتلف ویژگی، استفاده نماییم. طبقه بندی کننده های یادگیری ماشین عبارتند از Naive Bayes، حداکثر آنتروپی - MaxEnt - و ماشین های بردار پشتیبانی . - SVM - استخراج کننده های ویژگی عبارتند از unigrams، bigrams، unigrams و bigrams، و unigrams همراه با تگ بخش.