بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

 

مقایسه کارایی طبقه بندهای مختلف متن برای عقیدهکاوی در نقد کالا

چکیده

در دنیای امروز با رشد تکنولوژی ارتباطات، افراد برای پاسخگویی به نیازهای خود شیوههای متفاوتی را یافتهاند. به عنوان مثال برای انتخاب کالاها و خدمات مورد نیاز خود به اینترنت مراجعه مینمایند و ویژگیهای محصول و نقاط ضعف و قوت آن را توسط نوشتارها و نقدهای مرتبط مشخص نموده و کالای منطبق با نیاز خود را مییابند. از طرف دیگر شرکتها و مراکز خدماتی نیز میتوانند با مراجعه به نقدهای نوشته شده توسط کاربران در تالارها گفتگو، بلاگها و وبسایتها از عقیده مشتریان و عموم مردم در مورد کالاها و خدمات خود مطلع شوند. با توجه به آنچه گفته شد و نیز حجم زیاد اطلاعات و نقدهایی از این دست، ضرورت وجود سیستمی برای استخراج این اطلاعات از وب احساس میشود. چنین سیستمهایی، سیستمهای عقیده-کاوی و تحلیلاحساسات نامیده میشوند. در این مقاله، یک سیستم عقیدهکاوی برای طبقهبندی مجموعهای از نقدهای مشتریان در مورد 8 دسته کالا، طراحی شده است. در این رویکرد، پس از استخراج سه مجموعه ویژگی متفاوت از متن و کاهش اندازهی این مجموعهها از طریق انتخاب ویژگیهای برتر، فرآیند آموزش طبقهبندها با استفاده از این مجموعه ویژگیها صورت میپذیرد. کارایی رویکرد پیشنهادی با مقایسهای بین طبقهبندهای مختلف و نقاط ضعف و قوت آنها نشان داده شده است.

کلمات کلیدی

عقیدهکاوی، تحلیلاحساسات، متنکاوی، یادگیریماشین، طبقهبندی، استخراجویژگی، انتخابویژگی، نقدهای مشتریان.


-1 مقدمه

امروزه با گسترش تجارت الکترونیک، بسیاری از شرکتها و مراکـز خدماتی برای ارائه کالاها و خدمات خود از وب استفاده مینماینـد. امکان فروش برخط1 محصولات و نیز افزایش کاربران اینترنت بـه تدریج موجب افزایش تعداد مشتریانی شده اسـت کـه بـرای خریـد کالاهای مورد نیاز خود به اینترنت مراجعه مینمایند. بسیاری از شرکتها برای آگاهی از نظر مشتریان و نیز تـلاش برای جلب رضایت آنها امکان نوشتن نقد و بیان نظـرات در مـورد هر کالا را در وب سایت خود فعال نمودهاند. همچنین تعداد زیادی از بلاگها، تالارهای گفتگو و شبکههای اجتماعی وجود دارند کـه کاربران نظرات خود را در مورد کالاها، خدمات، افراد و موضـوعات مختلف در آنها درج مینمایند. بـه ایـن ترتیـب بـرای فـردی کـه خواستار خرید یک کالا و یا آگاهی از یـک موضـوع خـاص باشـد، حجم زیادی از اطلاعات در وب وجود دارد.استخراج اطلاعات دلخواه به دلیل وجود منابع زیـاد موجـود در اینترنت و حجم زیاد اطلاعات، کاری بسیار دشوار و زمانبر اسـت. علاوه بر این، تحلیلهای انسان بسـتگی زیـادی بـه ترجیحـات و تمایلات وی دارد به عبارتی افراد عقایدی که همسو بـا ترجیحـات خودشان است را بیشتر میپذیرند . سیسـتمهـای خلاصـهسـازی و عقیدهکاوی به همین دلایل مورد نیازند.عقیدهکاوی و تحلیلاحساسات زمینه تحقیقاتی بسـیار جدیـدی است. پیش از سال 2000 میلادی تحقیقات بسیار انـدکی در ایـن زمینه صورت گرفته بود. از جمله این تحقیقات میتوان به طراحـی یک مدل کامپیوتری از درک ذهنی انسان اشاره نمـود کـه توسـط کاربنل[ 1] 2 در سال 1979 صورت گرفت. این مدل بـا توجـه بـه سیاست ایالات متحده، روسیه و روابط بـینالمللـی ایـن دوکشـور، عقاید سیاسی افراد بـا دیـدگاههـای متفـاوت سیاسـی را در مـورد موضوعات مختلف تعیین مینمود.یکی از اولین کارها در زمینه عقیدهکاوی و تحلیـلاحسـاس بـا کمک تکنیک های یادگیریماشین توسط پنـگ، لـی و ویتیناتـان3 [7] در سال 2002 صورت گرفت. آنها برای دستهبنـدی اسـناد بـر اساس احساس و نه بر مبنای موضوع، از مجموعـهای از دادههـای متنی مرتبط با نقد فیلمها اسـتفاده نمودنـد. در ابتـدا نقـدها را بـه هشت نمایش متفاوت که سادهترین آنها نمایش تـکواژهای4 بـود،
تبدیل نمودند. در مرحله بعدی تعدادی طبقهبند از جمله نـایوبیـز5، بیشینهآنتروپی6 و ماشین بردار پشتیبان7 را برای دستهبندی بر روی مجموعه دادههای تغییریافته، اعمال نمودند. از بین طبقـهبنـدهای استفاده شده بهترین نتیجه متعلق به متد یادگیریماشین SVM به همراه مجموعه ویژگی تکواژهای بود.در سال 2004 پنگ و لی [5] بـا ارائـه یـک روش یـادگیری-ماشین که تکنیکهای دستهبندی مـتن را تنهـا بـر روی جمـلات ذهنی8 متن اعمال مینمود، به تعیین بار احساسی سند پرداختند. در واقع یک نقد مجموعهای از جملات عینی9 و جملات ذهنی اسـت، عقیده آنها این بود که به عنوان مثال در دادههای مربـوط بـه نقـد یک فیلم، جملات عینی رخدادهای فـیلم را توصـیف مـیکننـد در حالیکه جملات ذهنی هستند که حاوی عقیـده بیننـدگان در مـورد فیلم میباشـند. در نتیجـه جمـلات ذهنـی بـرای تعیـین گـرایش احساسی متن، کافی میباشند . استخراج جملات ذهنی از مـتن بـا استفاده از تکنیکهای کارآمد برای یافتن حداقل کاهش در نمودار امکان پذیر میباشد.پنگ و لی [6] در سال 2005، تحقیق دیگری در زمینه دسته-بندی نقدهای فیلم به دستههای مثبت و منفی توسـط یـک معیـار سه یا چهار ستارهای و نیز تعیین شدت10 آنها انجام دادند. در سـال 2007، اسنیدر و بارزیلای[8 ] 11 نیز یک رستوران را از جنبـههـای مختلف مانند غذا، خدمات و محیط آن، بر اساس یـک معیـار پـنج ستارهای رتبهبندی نمودند.در این مقاله، یـک سیسـتم عقیـدهکـاوی بـرای طبقـهبنـدی مجموعهای از دادههای مربوط به نظرات مشتریان در مورد هشـت دسته کالا شامل ماشین، کامپیوتر، وسایل آشپزخانه و... ارائه شـده است. در ابتدا استخراج ویژگیها از متن به سه شـکل دنبالـههـای تک واژهای، سه واژهای 12 و یک تا سه واژهای صـورت مـیپـذیرد. برای کاهش اندازه این مجموعهها و انتخاب ویژگیهای برتر برای هر یک از سه مجموعه، از معیار بهـره اطلاعـات13 اسـتفاده مـی-نماییم. در نهایت هر یک از این مجموعه ویژگیها بـرای آمـوزش تعدادی طبقهبند متفاوت، استفاده شده و نتایج مقایسه خواهند شد.


-2 معیار بهره اطلاعات

این معیار به عنوان معیاری برای سنجش برتری ویژگـی متعاقبـاً انتخاب ویژگی برتر در یادگیریماشین استفاده مـیشـود. انتخـاب ویژگی برتر بـرای کـاهش تعـداد ویژگـیهـا و در نتیجـه کـاهش پیچیدگی مسئله، یکی از تکنیکهای یـادگیریماشـین اسـت کـه بسیار مورد استفاده قرار میگیرد. مقدار بهره اطلاعات برای عبارت tj به صورت فرمول (1) محاسبه میشود:

دراینجا کسری ازاسنادباکلاس های تعدادی ازاسنادبا/ بدون عبارت و احتمال شرطی کلاس است به شرطی که عبارت درسندباشدیا نباشد. درواقع معیار فوق نشان دهنده میزان سودبودن عبارت درپیشبینی کلاس است میتوان معیار فوق را برای تمامی عبارت موجود درسند محاسبه نموده وآن هایی که بهره اطلاعات پایینی دارند راحذف نمود.

-3 طرح مسأله و راهحل پیشنهادی

هدف از عقیدهکاوی، تعیین بار احساسی سـند و بـه عبـارت دیگـر دستهبندی آن سند بـه مثبـت و یـا منفـی اسـت. فـرض کنیـد D مجموعهای از اسناد (نقدهای کالا، افراد، موضوعات، رویـدادها و...) است و L = {P, N} مجموعه برچسبهای مثبت و منفی باشـد. هدف یافتن تابعی مانند F: D → L است به شکلی که بـه سـندی مانند برچسب را نسبت دهد.

رویکرد پیشنهادی برای عقیده کاوی در مجموعه دادههای نقـد کالا، شامل مراحل پیشپردازش داده، استخراج ویژگیها، انتخـاب ویژگیهای برتر و آمـوزش طبقـهبنـدها اسـت. در نهایـت کـارایی رویکرد پیشنهادی با مقایسهای بین طبقهبندهای مختلـف و نقـاط ضعف و قوت آنها، نشان داده شده است. مراحـل راهحـل پیشـنهاد شده در فلوچارت شکل (1) نمایش داده شدهاند. در ادامه هر یک از این مراحل به تفصیل بیان میشوند.


-1-3 معرفی مجموعه داده

در این تحقیق از یک مجموعـه داده متنـی کـه در سـال 2004 از وبسایت ایپینیـونز14 اسـتخراج شـده، اسـتفاده شـده اسـت. ایـن مجموعه داده شامل چهارصد نقد در مورد هشـت دسـته محصـول کتاب، فیلم، ماشین ،تلفن و... میباشد. هر نقد با توجه بـه گـرایش احساسی آن با برچسب "بلی" و یـا "خیـر" برچسـبگـذاری شـده است. برای هر محصول پنجاه نقد که نیمی از آنها مثبـت و نیمـی دیگر منفی است، وجود دارد.

-2-3 انتخاب ویژگیها

در این مرحله ابتدا دادهها بـه دو دسـته دادههـای مثبـت و منفـی تقسیمبندی شده سپس ویژگیها به سه شـکل بـرداری از کلمـات تک واژهای، سه واژهای و یک تا سه واژهای از متن استخراج می-شوند. در مرحله بعد از میان ویژگی های استخراج شده ویژگیهای برتر انتخاب شده و به عنوان مجموعه ویژگـیهـای نهـایی مـورد استفاده قرار میگیرند.


-1-2-3 تولید بردار کلمات

در پردازش زبان طبیعی دنبالههایی که شامل n کلمه از متن هستند را n واژهای میگویند. به همین ترتیب دنبالههایی به طول یـک را تک واژهای، دنباله هایی به طـول دو را دو واژهای15 و... مـینامنـد. اینکه دنبالههایی با چه اندازه برای استخراج ویژگیها مفید هسـتند موضوعی قابل بحث است. برای مثال بر اساس تحقیقات پنگ [7] در دستهبندی نوشتارهای فیلم، تک واژهها بهتر از دو واژهها عمـل میکنند. در حالیکه دیو[2] 16 مشخص نموده که برای دستهبنـدی نوشـتارهای محصـول دو واژههـا و سـه واژههـا بـا اعمـال برخــی تنظیمات نتایج بهتری حاصل میکنند.همانطور که گفتـه شـد بـرای اسـتخراج ویژگـیهـا از مـتن از بردارهایی از کلمات در سه حالت دنبالههای تک واژهای، سه واژه-ای و یک تا سه واژهای استفاده میشود. این کار توسط فیلتر بدون ناظرStringToWordVector 17، نرم افزار وکا18 انجام میشود.این نرم افزار، نرم افزاری قدرتمند برای کاربردهـای دادهکـاوی میباشد که محصول دانشگاه وایکاتو 19 نیوزیلند اسـت. از ویژگـی-های مهم آن منبع باز بودن آن است که موجب شده است بسیاری از محققان الگوریتمهای خود را به آن اضافه نمایند. در نتیجه ایـن نرم افزار شامل تعداد زیادی از الگوریتمهای دادهکاوی و متن کاوی است.

فیلتر StringToWordVector امکاناتی از قبیل حـذف کلمـات توقف20، لیست کاراکترهای جداکننده 21، ریشهیابی22 ، وزندهی بـه کلمات با معیار TFIDF و... را فراهم میآورد. در اینجا بـا انتخـاب نوع توکنیاب23 به NGramTokenizer امکـان مشـخص نمـودن طول دنباله ویژگیهـای اسـتخراج شـده، فـراهم مـیشـود. تعـداد ویژگیهای استخراج شده برای هر یک از سه حالت در جـدول ( 1) آمده است.

جدول :1 تعداد ویژگیهای استخراج شده

 

-2-2-3 انتخاب ویژگیهای برتر

در این مرحله برای تولید مجموعه ویژگیهای نهایی با اسـتفاده از معیار بهره اطلاعات، ویژگیهایی که این مقدار برای آنها بزرگتر (و نه مساوی) صفر است را انتخاب مینماییم. تعداد ویژگیهای برتـر انتخاب شده در جدول (2) آمده است.
با توجه به جدول (2) مشاهده میشود تعداد ویژگیها نهایی که همانطور که گفته شد ویژگیهایی با بهره اطلاعات بزرگتر از صـفر و به عبارت دیگر ویژگیهای برتر هستند، در حالـت یـک تـا سـه واژهای به نسبت تک واژهای حدوداً چهار برابر افزایش داشته است. این در حالی است که تعداد ویژگیهای برتر در حالـت سـه واژهای به نسبت، افزایش بسیار کمی داشته است. از اینرو واضح است کـه دلیل این افزایش اضافه نمودن ویژگیهای دو واژهای به مجموعـه ویژگیهاست.

جدول :2 تعداد ویژگیهای نهایی

 

-3-3 آموزش طبقهبندها

طبقهبندی فرآیند تخصیص دادهها به دستههـای مجـزا مـیباشـد. طبقهبندها با تولید مدل اولیهای بر اساس دادهها از این مدل بـرای طبقهبندی دادههای جدید استفاده مینمایند.

در این مرحله از ویژگیهای بدست آمده در مرحله قبـل بـرای آموزش طبقهبندهای نزدیکترین همسایگی24 در سه حالت شـعاع همسایگی یک، سه و پنج، پارت25، جنگل تصـادفی26، نـایو بیـز و ماشین بردار پشتیبان با کمک روش ارزیـابی اعتبارسـنجی متقابـل 10) تا خوردگی)27 استفاده مینمـاییم. نتـایج ایـن طبقـهبنـدها در جدول (3) آمده است. بـرای هـر طبقـهبنـد روی هـر یـک از سـه مجموعه ویژگی، تعداد ویژگیهایی که به درستی در کلاس مثبـت دستهبندی شدهاند 28، ویژگیهایی که عضوی از کلاس منفی بوده-اند و به اشتباه در کلاس مثبت دسته بندی شدهاند29، ویژگیهـایی که عضوی از کلاس مثبت بوده اند و به اشـتباه در کـلاس منفـی دستهبندی شدهاند30 و ویژگیهایی که به درستی در کلاس منفـی دستهبندی شدهاند31 مشخص شده است.در جدول((4 مقدار Fمیانگینِ ماکرو32 و دقت برای هر یـک از طبقهبندها محاسبه شده است. مقدار F میانگین ماکرو، با محاسـبه مقدار F برای کلاس مثبت ومنفی بـه صـورت جداگانـه و گـرفتن میانگین این دو مقدار، محاسبه میشود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید