بخشی از مقاله

چکیده

امروزه اکثر افراد برای خرید محصولات مورد نظر خود ابتدا به فروشگاههای اینترنتی مراجعه و نظرات دیگر خریداران را در مورد آن محصول کاوش میکنند و سپس به خرید محصول مورد نظر خود میپردازند. استفاده از نظرات دیگران برای خرید، پتانسیل خوبی برای انحراف افکار ایجاد میکند که بوسیله آن شرکتها با دستکاری نظرات میتوانند سود بالایی کسب کنند و یا حتی شرکتهای رقیب را تخریب کنند. در این مقاله روشی برای تشخیص بهتر نظرات هرز - فریبکار - با بکار بردن شباهت معنایی ارائه شده است.

برای این منظور ازمجموعه دادههای فروشگاه اینترنتی آمازون استفاده شد. این دادهها با رویکردهای مبتنی بر محصول، فرد و گروه با استفاده از فیلدهای: شماره فرد، شماره محصول، زمان ارسال نظر، امتیاز داده شده و متن نظر به صورت خودکار به دو دسته نظر هرز و نظر غیر هرز بر چسب گذاری شدند. سپس بوسیله دستهبندهای بیز ساده، ماشین بردار پشتیبان، درخت تصمیم و K نزدیکترین همسایه - K-NN - ، مجموعه دادههای برچسبگذاری شده را با معیارهای F و صحت ارزیابی نمودیم. نتیجه اینکه، شباهت معنایی را با اشتراک تمامی رویکردها ترکیب نمودیم و در این میان درخت تصمیم بهترین نتایج را داشت.

.1 مقدمه

به اشتراک گذاری اطلاعات روز به روز در وب در حال پیشرفت است. کاربران نظرات خود را در شبکههای اجتماعی، بلاگها، فرومها و غیره با یکدیگر تبادل میکنند. کاربران میتوانند دیدگاههای خود را پیرامون محصولاتی که از یک فروشگاه خریدهاند به اطلاع دیگر خریداران برسانند. این اطلاعات توسط خریداران مورد مطالعه قرار گرفته و در تصمیم نهائی آنها در خرید کالا و یا انتخاب کالای دیگر، نقش عمدهای بازی میکند. این اطلاعات همچنین توسط تولید کنندگان مورد تحلیل قرار گرفته تا نقاط قوت و ضعف محصول خود را بشناسند و میزان محبوبیت خود را با دیگر رقبا مقایسه کنند. بنابراین به هیچ عنوان دور از ذهن نیست که هرزنامه نویسان از این پتانسیل بالا برای پیشبرد اهداف خود بهره برده و اقدام به انتشار نظرات هرز در خلال این دیدگاهها نمایند.

از سوی دیگر شرکتها ممکن است مایل به خراب کردن اعتبار محصولات ارائه شده توسط شرکتهای رقیب باشند در نتیجه برخی از افراد به نوشتن نظرات منفی غیر واقعیشان در مورد آن دسته از محصولات میپردازند. این گونه از هرزنامه با نام نظرات هرز شناخته میشود1]و.[2 مطالعات صورت گرفته در مورد نظرات هرز در سالهای اخیر سه نوع از نظرات هرز را معرفی کردهاند:[3] نوع اول - نظر جعلی - : نظرات غیر صادقانهای که در خصوص استفاده از محصولات و یا سرویسها، با غرض ورزی پنهان، نوشته شده است.

نظرات مثبت برای ارتقاء یک محصول یا سرویس و نظر منفی برای لطمه زدن به شهرت محصولات و سرویسهاست. نوع دوم - نظرات روی برندها - : نظرات در خصوص محصول و یا سرویس خاصی نیست و فقط در خصوص علامت تجاری خاص یا تولید کننده محصول است. نوع سوم - غیر نظر - : که میتواند شامل تبلیغات و متن نامربوط که نظری در آن داده نشده است مثل سوالات، پاسخها و متون تصادفی، باشد. سازماندهی مقاله به اینصورت است که در بخش 2 پیشینه تحقیق، بخش 3 روش پیشنهادی، بخش 4 ارزیابی و در بخش 5 نتایج ذکر شده است.

.2 پیشینه تحقیق

در مورد پژوهشهای قبلی باید بگوییم که در [4] شیوه طبقهبندی خود را بر اساس سودرسانی نظرهایی قرار میدهد که به دلیل احتمال نظر هرز بودنشان، غیر قابل اعتماد میباشند. نویسندگان [5] از محتوای نظرها استفاده کردهاند و از اینرو از پردازش زبان طبیعی نیز بهرهمند بردهاند. در اینجا مشکل اینست که فرستندگان حرفهای هرزنامه میتوانند نظرهای تقلبی را به صورتی بنویسند که همانند نظرهای معمولی به نظر آیند و از طریق فرآیند پردازش زبان طبیعی نیز شناسایی نشوند.

در [3] هدفشان تشخیص رفتار غیر عادی با استفاده از کاوش در قاعده ارتباط 1 میباشد. مولفین یک شاخص پیشبینیناپذیری را به هر قاعده شامل یک شناسه نظر، یک شناسه نظردهنده و یک برند، اختصاص میدهند. اشکال این رویکرد اینست که اگر یک نظردهنده نظرش را عوض کند و یا نظرش با ملاکهای موجود همخوانی نداشته باشد، آن را یک فرستنده نظر هرز میپندارد. شیوه پیشنهادی [6] مورد قبول است اما مشکلش اینست که آرای نظردهندگان را لحاظ میکند تا به لیست نهایی فرستندگان نظرات هرز دست پیدا کند.

 در [7]، تکنظرهایی را هدف قرار میدهند که در بازه زمانی کوتاهی نگاشته شده باشند و بر رتبهبندی کلی محصولات مربوط به خود، تاثیر بگذارند. مسئلهای که اینجا با آن روبرو میگردیم اینست که در بسیاری از پایگاههای دادهها،اصلاً تکنظری یافت نمیشود. علاوه بر این، نظرهایی که در فواصل زمانی کوتاه ایجاد میشوند و آنهایی که بر فرآیند رتبهبندی تاثیرگذارند نیز در چارچوب مطالعه حاضر، بررسی شدهاند.

نویسندگان [1]، پیشنهاد میکنند که به جای نظر، رفتار نظردهندهها لحاظ شود چون که اطلاعات حاصله از رفتارها بیشتر و غنیتر است. این مفهوم در چارچوب پژوهش حاضر نیز بکار بسته شده است. در 2]و[8 پیشنهاد کردند که باید بر روی شناسایی گروههای فرستندگان نظرات هرز متمرکز شد چون که آنها تاثیر بیشتری بر رتبهبندی میگذارند و تلاش میکنند تا فعالیت ارسال نظرات هرز خود را با توزیع نظرات هرز بین خود، پنهان کنند. این مورد دلیل پرداختن به مسئله شناسایی گروههای فرستندگان نظرات هرز در چارچوب پژوهش حاضر را تشکیل میدهد.

نویسندگان [9]، معتقدند متن زبان طبیعی از امتیاز و رتبه برای خوانندگان مهمتر است. بنابراین بر روی آنالیز احساسات با توجه به نوشتههای نظردهندگان پرداختند. در پژوهش حاضر نیز از این متنها در جهت پیدا کردن شباهت معنایی استفاده شده است. در [10]، از شش ویژگی بر اساس محتوای نظر و رفتار نظردهنده، برای پیدا کردن نظر هرز استفاده کردهاند که در پژوهش حاضر نیز تعدادی از آنها استفاده شده است. در 11]و[12 یک سری الگوریتمهای دستهبندی برای تشخیص نظر هرز به کار بردهاند که در اینجا ما نیز از آنها استفاده خواهیم کرد.

.3 روش پیشنهادی

در این بخش ابتدا توضیحاتی در مورد پایگاه داده و نحوهی بدست آوردن فیلدهای مورد نیاز سپس انواع رویکردها و روشهای برچسب گذاری مورد استفاده خود را توضیح خواهیم داد. لازم به ذکر است با توجه به شکل - 1 - به غیر از شباهت معنایی تمامی روشهای آورده شده قبلا در مقالات مربوط به این حوزه، استفاده شده است و با اشتراک گیری این روشها با شباهت معنایی نتایج را بدست آوردهایم.  گام بعد وردنت، شباهت بین دو کلمه با استفاده از وردنت و شباهت بین اسناد را محاسبه میکنیم. در نهایت کلاسهبندی و ترکیب برچسب گذاری و شباهت معنایی را بیان میکنیم.

.1-3 پایگاه داده و پیش پردازش

اکثر تحقیقات انجام شده بر روی اسناد پایگاه داده 1 فروشگاه اینترنتی آمازون2 میباشد که در اینجا از 5000 رکورد آن استفاده کردهایم. در این دیتاست هر رکورد حاوی فیلدهای: ProductId، Title، Price، UserId، ProfileName، Helpfulness، Score، Time، Text، Summary میباشد. فیلدهای مورد نیاز برای این پژوهش ProductId،  UserId، Score، Time و Text میباشد.

.2-3 رویکردها

در این قسمت رویکرد پیشنهادی خود را در باب تشخیص نظر هرز، بطور کلی بیان و ایدههای خود را در سه گروه اصلی قرار دادهایم. گروه اول معطوف بر رویکردهایی است که نظرات هر محصول را جداگانه بررسی میکنند و تلاش میکنند با استخراج الگوها و نظم موجود در نظرات، به شناسایی نظرات شکبرانگیز نائل آیند. 

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید