بخشی از مقاله

چکیده

عقاید و نظراتتقریباً مرکز همهی فعالیتهای انسان است، زیرا عقاید و نظرات دیگران بر روی رفتار افراد تأثیرگذار هستند. هر زمان که فردی بخواهد در مورد یک موضوع تصمیم گیری کند، مایل است که عقاید و نظرات دیگران را در آن رابطه بداند. ما برای تصمیمگیری در بسیاری از مسائل روزمره بخصوص گردشگری و خدمات هتل ممکن است نیاز به نظرات افرادی داشته باشیم که تجربه استفاده از آن را داشته باشند.

استخراج نظرات از دیدگاههای ایجاد شده توسط کاربران و نظرات آن ها به خصوص در مورد خدمات هتلها هم برای مشتری که به دنبال محل سکونت هستند و هم برای هتل در جهت بهبود خدمات مفید میباشد. در این مقاله یک چارچوب مبتنی بر یادگیری بدون نظارت برای استخراج عقاید و خلاصه کردن نظرات بیان شده توسط کاربران در وب سایتهای آنلاین مربوط به گردشگری پیشنهاد شده است.

چارچوب پیشنهادی نظرات بررسی هتلها در اینترنت و طبقه بندی آنها را با استفاده از تکنیک عقیده کاوی استخراج میکند. همچنین با استفاده از مجموعه داده های دسته بندی شده به صورت دستی از نظرات کاربران ارزیابی انجام شده است. کارایی روش پیشنهادی با استفاده از معیارهای خاص حوزه متن کاوی بررسی شد و برای بهبود نتایج روشهایی پیشنهاد گردید.

-1 مقدمه

پیشرفتهای اخیر در تکنولوژیهای وب و ارتباطات روشهای دسترسی افراد به اطلاعات را تحت تاثیر قرار داده است. وب به یک مخزن بزرگ اطلاعات تبدیل شده است که کاربران آنلاین اطلاعات جدیدی هر روز به آن اضافه میکنند. امروزه مردم نظرات را خوانده و در روند دستیابی به یک محصول یا خدمت، تحت تاثیر آن قرار میگیرند. اما مقدار عظیم دادهها، خواندن تمام آنها را برای اشخاص غیرممکن میسازد. در این متن داشتن سیستمی خودکار برای انتخاب کردن و پردازش دادهها که قادر به ارایه اطلاعات پایه به کاربران باشد، مهم است.

شناسایی و استخراج عقاید از نظرات آنلاین بخشی از حوزه جدیدی از تحقیقات است که در دهه گذشته گسترش یافته است. عقیده کاوی، که در منابع مطالعاتی به عنوان تحلیل احساسات نام برده میشود، تعیین و طبقه بندی نظرات یا احساسات بیان شده در نوشتهها را با استفاده از ماشینهای محاسباتی مورد بررسی قرار میدهد. چالش حوزه پژوهش، استخراج دانش از داده های بدون ساختار میباشد. نظرات شامل عقاید بیان شده در زبان طبیعی که برای مردم رایج می باشد ولی غیر قابل فهم برای کامپیوتر است، می باشد .[1]

دامنه فعالیت گردشگری به صورت آنلاین در دهه گذشته گسترش یافته است. تعداد زیادی از مردم وجود دارند که محل اقامت خود را آنلاین رزرو می کنند که به علت داشتن زمان کم، ارزان بودن و امکان دریافت اطلاعات از امکانات و محل هتل است. همزمان با گسترش پلت فرمهای رزرو آنلاین، سایت هایی برای ارایه بررسیهای ارایه شده در مورد گردشگری نیز ایجاد شده است. سایت های رزرو نیز شامل بخشهایی در مورد بررسی هتلهای ارایه شده میباشند.

مزیت دسترسی به اطلاعات و بازخورد، باعث میشود که کاربران رزرو آنلاین را ترجیح دهند. مطالعات در مورد رفتار آنلاین مصرف کنندهها نشان داد که تصمیم برای دستیابی به یک محصول بسیار تحت تاثیر نظرات دیگر کاربران میباشد .[2] در گذشته افراد به علت کمبود اطلاعات، در مورد تصمیم برای رزرو یک هتل که در راهنما یافت نمیشد یا توسط آژانسی پیشنهاد نشده بود، ترس داشتند.

امروزه مشکل وجود اطلاعات بیش از حد میباشد. با سایتهای زیادی که امتیازبندی و بازخورد میکنند، خواندن تمام آنها غیرممکن است و پیدا کردن اطلاعات مرتبط برای هرکس برای ساخت ذهنیت کلی دشوارتر شده است. برخی سایتها فقط سیستم امتیازبندی را ارایه می کنند - توسط ستاره یا عدد - و یا متن نظرات را ارایه میکنند و برخی نظرات و امتیاز را با هم ارایه میکنند. یک عدد ساده بر روی سیستم امتیاز بندی اطلاعات کاملی را ارایه نمی کند و همچنین نظرات زیادی که کاربران عقایر خود را در مورد ویژگی های هتل ارایه کردهاند نیز مناسب نمی باشد. مشکلات نظرات بسیار زیاد است و این ارزیابی آنها را مشکل میسازد. برخی از آنها عبارتند از:

-    نظرات مختصر نیست

-    نظرات عددی مقایسه هتلها با خدمات مختلف را مشکل میسازد

-    نظرات بیش از یک اقامت ساده در هتل است

-    نظرات کاملا متفاوت از یک کاربر به کاربر دیگر است

-    برخی نظرات شامل پاسخ هتل به شکایت مشتریان است

-    برخی جنبهها با اهمیتتر است و بنابراین امتیاز بندی هدف نیست، اما بیشتر تحت تاثیر آن جنبهها میگیرد

یک سیستم که نظرات را خلاصه کند، نظرات را از تمام اطلاعات استخراج کند، چشم انداز کلی ارایه کند، میتواند مقدار زیادی در وقت استفادهکنندگان صرفهجویی کند و فرایند تصمیم گیری را تسهیل نماید. چنین سیستمی میتواند مدیران هتل را برای یافتن روش دیده شدن هتل شان توسط کاربران و خدماتی که آنها دوست دارند یا دوست ندارند، راهنمایی کند. یک بازخورد سودمند میتواند به آن ها در بهبود خدماتشان کمک کند.

در حوزه پژوهش، چندین روش برای استخراج نظرات از بررسیهای هتلها وجود دارد. بیشترین استفاده از آنهایی است که بر اساس تکنیک پردازش زبان طبیعی، منابع واژگان و یادگیری ماشین میباشد. روشهای پژوهش بر اساس تکنیک پردازش زبان طبیعی و منابع واژگان از قسمتی از شناسایی سخنرانی و همچنین پایگاه دادههایی نظیر وردنت و یا سایر منابع حاصل از آن استفاده میکنند.

بسیاری از روش ها بر پایه یادگیری ماشین از دسته بندی بیز ساده و ماشین بردار پشتیبان استفاده می کنند . [3] روش بیز ساده بر پایه مفاهیم احتمالات و بر اساس تئوری بیز میباشد. ماشین بردار پشتیبان یک روش یادگیری نظارت شده است که برای طبقه بندی توسط شناسایی الگوهای موجود در دادهها استفاده میکند. همچنین روشهای پژوهشی استخراج عقاید وجود دارد که از روشهای متعدد ترکیب روشهای یادگیری نظارت شده با منابع واژگان یا آنتولوژی استفاده میکند که رویکردهای ترکیبی نامیده میشوند .[4]

-2 معماری سیستم پیشنهادی

چارچوب پیشنهادی دارای معماری مدولار و با استفاده از یک روش بدون نظارت می باشد و یک منبع واژه برای استخراج عقاید از نظرات پست شده کاربران در وب سایت ایران بوکینگ میباشد. ایران بوکینگ یک پلت فرم وب مسافرت است که امکانات مختلفی از جمله انتشار محتوای تولید شده توسط کاربران را دارا میباشد. در شکل 1 نمونهای از نظرات در مورد یک هتل آورده شده است. سیستم پیشنهادی شامل چندیدن ماژول است. یک ماژول استخراج محتوا از وب که نظرات را از وب سایتها جمع آوری میکند و یک ماژول تحلیل که پیش پردازش اطلاعات پیاده سازی پردازش عقاید استخراجی را انجام میدهد - شکل . - 3

-1-2 استخراج محتوا از وب

استخراج محتوا از وب متشکل از خزشگر وب است که به سایتهای گردشگری میرود و از URL داده شده شروع میکند. خزشگر تمامی لینکهای صفحه را جمعآوری کرده و آنهایی را که سفر کردهاند، ثبت می کند. محتویات صفحه موردنظر که شامل نظرات است را به ماژولی که کد HTML صفحه را تجزیه میکند، می فرستد و نظرات را استخراج میکند. استخراج با استفاده از یک قالب از پیش تعریف شده در سایت مورد نظر انجام می شود .[5] در این مورد نظرات شامل برچسب <P> در داخل یک <div> با کلاس "entry" میباشد. نظرات استخراج شده توسط استخراج محتوا از وب در قسمت نظرات ذخیره میشود. راهحل پیشنهادی از یک پایگاه داده SQL Server به عنوان راه حل برای ذخیره سازی محتوای نظر استفاده می کند.

-2-2 پیش پردازش

ماژول پیشپردازش نظرات را پردازش میکند و فرایند عقیده کاوی را پیاده سازی میکند. این ماژول شامل یک ماژول پردازش، ماژول عقیده کاوی و واژگان فارسنت [6] میباشد. عقیده کاوی با استفاده از روش بدون نظارت در سطوح مختلف صورت میگیرد.: سطح کلمه، سطح جمله و سطح متن. ماژول پیشپردازش نوشتههای هر نظر را پردازش کرده و آن را به جملاتی تقسیم میکند. جملات نظرات با شناسایی قسمتها با استفاده از یک الگوریتم برچسب زدن [7] POS مورد ارزیابی قرار میگیرد.

-3-2 فارس نت

نخستین شبکهی واژگان زبان فارسی تحت عنوان فارسنت - وردنت عمومی زبان فارسی - [6] با حمایت مرکز تحقیقات مخابرات ایران و پژوهشکده IT پژوهشگاه فضای مجازی و با همکاری متخصصان از هر دو حوزهی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارسنت، ایجاد یک شاخهی فارسی برای وردنت است که در تحقیقات و پژوهشهای زبان فارسی قابل استفاده باشد و امکانات تبدیل چند زبانه را نیز فراهم کند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید