بخشی از مقاله

چکیده

 امروزه سیستمهای پیشنهاددهنده از اهمیت بالایی برخوردار میباشند و زمینه رقابتی میان سازندگان محصولات و وبسایتهای فروش اینترنتی را ایجاد نموده است. در سیستمهای پیشنهاددهنده نیاز به داشتن سابقه و یا تاریخچه مشتریان از رفتارهای سیستمی برای ارائه پیشنهادات منطبق با سلیقه آنها می باشد. یکی از مشکلات سیستمهای پیشنهاددهنده نبود اطلاعات کافی از مشتریان در رابطه با سلیقه آنها در مورد اقلام مشاهده شده میباشد. هدف این مقاله ارائه یک سی ستم مبتنی بر پردازش توضیحات کاربران جهت تحلیل احساسات مثبت یا منفی آنها از مشاهده فیلم، برای تولید ماتریس امتیازدهی با مقادیر 1 و -1 برای سیستم های پیشنهاد دهنده میباشد. ورودی سیستم نظرات موجود در سایت www.Imdb.com در رابطه با م شاهده فیلم میبا شد. سی ستم با استفاده  از الگوریتمهای TF-IDF و Doc2Vec و CountVectorizer و معیار شباهت، ت شابه میان متن ارائه شده تو سط کاربر و متون برچ سب گذاری شده که از سایت www.kaggle.com گرفته شده ا ست، مثبت یا منفی بودن اح سا سات کاربر را تعیین مینماید. در سی ستم ارائه شده از سه نوع د ستهبند در پیاده سازی های متفاوت برای بالا بردن دقت سی ستم استفاده شده است. دقت سیستم ارائه شده برابر با 84,7 درصد میباشد.

کلید واژه ها: سیستمهای پیشنهاددهنده، پردازش متن، تحلیل احساسات، TF-IDF، Doc2Vec، CountVectorizer

-1 مقدمه

شبکه های اجتماعیٌ و فروشگاههای اینترنتی در حال حا ضر جزء ا صلی تعامل اجتماعی افراد می با شند. این شبکه ها محیطهای غنی احساسی هستند که در آن دوستان نزدیک، احساسات و افکار خود را به اشتراک می گذارند.[1] هدف سی ستمهای پی شنهاد دهندهٍ، پی شنهاد اقلامی به کاربر میباشد که با سلیقه او منطبق باشد. برخی از کاربران سیستم با ارائه اظهار نظر، اح ساس خود را ن سبت به قلم م شاهده شده بیان می نمایند و امتیاز و یا دوست داشتن و یا نداشتن را بطور صریح بیان نمی نمایند. [2] استخراج احساساتَ از متن در هریک از شبکههای اجتماعی و فروشگاههای آنلاین برای ارائه پی شنهاداتی به کاربران سیستم میتواند باعث به وجود آمدن تحلیلهای دقیقتر از کاربران، ارائه خدمات بهتر و در نتیجه سوددهی بالاتر گردد. به همین دلیل امروزه استخراج احساسات اهمیت ویژهای پیدا کرده است. فعالیت اصلی در انجام اعمال مختلف برروی متن، استخراج یک شکل عددی برای متن ا ست و معمولا متنها به بردار تبدیل میشو ند. به ک مک پردازش متن میتوان رف تار ها و بازخورد م شتریان یک سی ستم را تحلیل کرده و در جهت بهبود سی ستم گام برداشت. در بیشتر روشها، اسناد به صورت مجموعهای از کلمات نمایش داده میشوند. روشهای اصلی و مهم موجود بر اساس این ایده عبارتند از: مدل فضای بردارُ ، مدل احتمالیِ و مدل منطقیّ .[3]

بطور مثال در روش word2vec یک بردار با اندازه کوچک و ثابت برای نمایش تمام لغات و متون در نظرگرفته میشود و با اعداد مناسب در فاز آموزش مدل برای هر لغت این بردار محاسبه می شود. برای افزایش دقت این روش، مجموعه داده اولیه که برای آموزش مدل مورد نیاز است، باید حدود چند میلیارد لغت را که درون چندین میلیون سند یا متن به کار رفته ا ند، در برگیرد. ب عد از ای جاد بردار های مرتبط با هر ل غت، برای نمایش برداری هر متن یا خبر ، می توان بردار تک تک کلمات به کار رفته در آنرا یافته و میانگین اعداد هر ستون را به د ست آورد که نتیجه آن یک بردار برای هر متن یا سند خواهد بود. [4]

اخیرا فعالیتهای زیادی در زمینه استخراج احساسات انجام شده که در زیر به بیان برخی از آنها میپردازیم: Zhenzhong و همکارانش از دستهبندی مبتنی بر Latent Dirichlet Alocation - LDA - استفاده کردند. LDA یک الگوریتم برای مدل کردن عناوینْ برپایه احتمالات ا ست. ا ستفاده از مدل عناوین در دستهبندی بعد بردار متن را کاهش میدهد. با این روش، نتیجه د ستهبندی متن ب سیار خوب شده ا ست. این روش وابستگی بسیاری به پارامترهای الگوریتم دارد و همچنین فقط برای مقدار زیادی متن کاربردی است.[5] در الگوریتم ارائه شده توسط Chen Zhao پس از پیشپردازش متن، به وسیله لغتنامه و قواعد معنایی، مقدار احساس دو قطبی - -1 تا - 1 متن محاسبه میشود. در نهایت به وسیله دانش قبلی از متن و مدل Naïve Bayesian ، متن نزدیک به مزرهای دستهبندی دوباره دستهبندی میشود. نتایج نشان میدهد این روش موثر بوده است.[6]

Bo Tang و همکارانش از دستهبند بیزین َ برای دستهبندی به همراه ویژگی های اختصاصی کلاس استفاده کردند. نتایج نشان دادهاند که دقت د ستهبندی با افزایش ویژگیها، زیاد می شود.این روش بازدهی بهتری از روشهای جدید انتخاب ویژگی دارد ولی پیچیدگی محاسباتی با افزایش تعداد ویژگیها بالا میرود.[7] هدف این مقاله ارائه یک سیستم مبتنی بر پردازش تو ضیحات کاربران جهت تحلیل اح سا سات مثبت یا منفی آنها از مشاهده فیلم، برای تولید ماتریس امتیازدهی با مقادیر 1 و -1 برای سیستم های پیشنهاد دهنده می باشد ساختار مقاله به این صورت ا ست که در بخش 2 ساختار سی ستم پی شنهادی ارائه خواهد شد و سپس در بخش 3 نتایج سیستم و بخش 4 ارزیابی و در نهایت نتیجه گیری و کار های آتی بیان می شوند.

-2 ساختار سیستم پیشنهادی

روند سی ستم پی شنهادی را در شکل 1 مشاهده می نمایید. کلماتی که در زبان خیلی پر ا ستفاده ه ستند مانند the, is, at, “ ”… , which, and, on و در جاهای زیادی از عبارات با موضوعات مختلف بکار میروند و معنای متفاوتی در جمله ایجاد نمیکنند را ابتدا از متن مورد پردازش حذف می نماییم. سپس جداسازی جملات داخل متن توسط علامتگذاری ها مانند ” " ! . ,“ صورت می گیرد. این کار با استفاده از tokenizer هایی که در کتابخانه nltk موجود است انجام میشود بعد از این مرحله، سیستم پیشنهادی از سه نوع دسته بند به نام های RANSAC9، BaggingClassifier و  RandomForestClassifier ا ستفاده می نماید.

RANSAC یک روش تکراری برای تخمین مدلهای ریاضی براساس دادههای دیده شده است که دارای نقاط بیرونی - خارج از محدوده منطقی جواب - است. این الگوریتم این نقاط بیرونی را نادیده میگیرد به طوری که این نقاط هیچگونه تأثیری در پاسخ نهایی سیستم نخواهند داشت.[8] BaggingClassifier یکی از روشهای ترکیبی یادگیری ماشین است که برای دستهبندی های آماری و رگرسیون استفاده میشود . نحوه کار کردن الگوریتم به این صورت است که یک مجموعه داده آموزش D با سایز n به الگوریتم داده میشود. الگوریتم m مجموعه آموزشی دیگر - D1 … Dn - را به وسیله نمونهبرداری یکنواخت و جایگزینی، هرکدام به سایز n تولید میکند. با نمونهبرداری و جایگزینی، بعضی از مشاهدات ممکن ا ست درDi ها تکرار شود. برای nʼ n و برای nهای به حد کافی بزرگ، انتظار میرود که هر Di به طور متوسط 63,2 درصد دادههای یکتا از D و بقیه تکراری را شامل شود.. حال هر m مدل با m مجموعه داده تولید شده آموزش داده میشوند و در آخر نتیجه همه آنها را با میانگینگیری تجمیع میکند .[9]

reifissalCtseroFmodnaR    یکی از روشهای ترکیبی یادگیری ماشین است که برای دستهبندی های آماری و رگرسیون استفاده میشود. برای دستهبندی یک شیء جدید از بردار ورودی، آن را در انتهای هر یک از درختان جنگل تصادفی قرار میدهد. جنگل تصادفی درخت تصمیم های زیادی را تولید می کند. هر درخت به ما یک دستهبندی میدهد و اصطلاحا"میگوییم این در خت به آن کلاس “رای” مید هد. جن گل، دس تهب ندی که بیشترین رای را داشته باشد - بین همه درخت های جنگل - انتخاب میکند . [10]

در انتها سیستم پیشنهادی برای استخراج احساسات ابتدا از سه روش بازنمایی اسناد TF-IDF، doc2vec و CountVectorizer برای تبدیل اسناد به بردار استفاده کرده و سپس از دستهبندهای مختلف در روشهای CountVectorizer و doc2vec و معیار شباهت کسینوسی برای روش TF-IDF استفاده شده است و در نهایت به متن مورد پذیرش برچسب مثبت - - P یا منفی - N - زده می شود که بیانگر دو ست دا شتن یا ندا شتن فیلم م شاهده شده می با شد و در فایل ساختیافته CSV که حاوی id یا شنا سه و اح سا سات داده های ت ست می با شد، ذخیره می شود تا خطای سی ستم محا سبه شده و همچنین در اختیار سی ستم پی شنهاد دهنده به عنوان ماتریس امتیازدهی قرارداده شود.

۲-۱- ورودی سیستم

ورودی سیستم پیشنهادی شامل سه نوع داده متنی آموزشی، بدون برچسب و داده های تست می باشد. داده های آموزشی شا مل 25000 هزار توضی حات برچسبخورده از سایت imdb است. برچسب در این مجموعه نشاندهنده احساس کاربر به آن فیلم است که در قالب عددی -1 - منفی - و 1 - مثبت - بیان شده است. این مجموعه در یک فایل مرتب در قالب فایل csvجمعآوری شده ا ست. شکل و ساختار این فایل را در شکل2 میتوانید مشاهده نمایید. همانطور که در شکل 2 م شاهده میکنید، فایل دارای سه ستون id و sentiment و review است. متون ستون review دارای اضافاتی است که بار اضافی پردازشی برای ما ایجاد میکنند و در مرحله پیشپردازش باید حذف شوند. داده های تست شامل 25000 توضیحات بدون برچ سب ا ست. این دادهها برای اندازهگیری دقت سی ستم به کار میروند. فایل دارای دو ستون id و review ا ست که در شکل 3 م شاهده

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید