بخشی از مقاله
چکیده-
سیستم های پیشنهاد دهنده در زمینه های مختلفی از جمله فیلم، موزیک، شبکه های اجتماعی و غیره مورد استفاده قرار می گیرند. هدف این سیستمها ارائه پیشنهادات جذاب به کاربران با توجه به عملکردشان در سیستم است. محبوبترین سیستم های پیشنهاد دهنده مدلهای محتوا محور و فیلترینگ مشارکتی است. روش مشارکتی از دو مشکل عمده رنج می برد: مشکل اول شروع سرد کاربران است و مشکل دوم نیز مسئله اعتماد کاربران وفادار است.
در این مقاله با ترکیب روش محتوا محور و فیلترینگ مشارکتی به صورت بوستینگ یک سیستم توصیه گر طراحی شده است که علاوه بر حل مشکل شروع سرد، مسئله اعتماد و در نظر گرفتن کاربران وفادار را نیز پوشش می دهد. روش پیشنهادی شامل سه مرحله می باشد: - 1 - خوشه بندی اولیه کلیه کاربران و تعیین خوشه مناسب به کاربر جدید - 2 - تعیین وزن مناسب برای هر کدام از ویژگی های کاربران خوشه مورد نظر و تعیین همسایگان نزدیک کاربر جدید - 3 - تشکیل ماتریس مجاورتی امتیازات همسایگان نزدیک به فیلم های موجود و محاسبه امتیاز کاربر جدید به هر فیلم.
روش ارائه شده به منظور خوشه بندی اولیه از قابلیت سیستم های محتوا محور با توجه به اطلاعات دموگرافیک کاربران استفاده می نماید. نتایج بدست آمده نشان می دهد که میانگین خطای واقعی و مجذور مربع میانگین روش پیشنهادی نسبت به روشهای نایوبیز، C24.5، CM4.5 و RCA در حدود %8.4 بهیود داشته است.
-1 مقدمه
سیستم های پیشنهاد دهنده در دامنه های مختلفی همچون فروشگاه فیلم، کتابخانه ها، رستوران ها، سیستمهای گردشگری و سایر محیطها برای ارائه آیتمهای جذاب مورد استفاده قرار میگیرند.[1] این سیستم ها نقش حیاتی و بسیار مهمی در تجارت الکترونیک و به خصوص وب سایت آنلاین فیلم ایفا میکنند
یکی از محبوب ترین سیستم هایی که در دهه گذشته تا به امروز مورد توجه محققان قرار گرفته است، سیستم های پیشنهاد دهنده فیلم می باشد. با توجه به حجم عظیم اطلاعات، ارائه جذابترین آیتمها - فیلم - به کاربران در زمان مناسب و با دقت کافی یکی از مسائل مطرح در این زمینه میباشد. سیستم پیشنهاد دهنده فیلم، این امکان را فراهم میسازد که فیلمها بوسیله ویژگیهایی مثل عنوان فیلم، کارگردان، نویسنده، تاریخ اکران، نوع فیلم و غیره به کاربران ارائه شود. به طور کلی سیستمهای پیشنهاد دهنده به دو دسته مهم تقسیم میشوند[3] که عبارتند از :
· سیستمهای فیلترینک محتوا محور
· سیستمهای فیلترینک مشارکتی
در سیستمهای فیلترینک محتوا محور پیشنهادات بر اساس رتبه ها و امتیازی که کاربر به محتوا، متن خبری، لینک و غیره داده است ارائه می گردد. بر همین اساس محتوایی که بالاترین امتیاز را داشته است، پیشنهاد داده میشود.
در سیستمهای فیلترینگ مشارکتی، پیشنهادات بر اساس انتخاب کاربران مشابه و امتیازات آنها به فیلم ها است. مهمترین چالش پیش رو در سیستم های پیشنهاد دهنده مبتنی بر فیلترینگ مشارکتی که در سالهای اخیر مورد توجه محققان مختلف قرار گرفته است مشکل شروع سرد است.
مشکل شروع سرد در شبکه های اجتماعی به کاربرانی گفته میشود که برای سیستم جدید هستند و پروفایلشان خالی است - بعبارتی در محیط عملیاتی فیلم، این کاربران به هیچ فیلمی امتیاز نداده اند - و یا رتبه های خیلی کمی از آنها در سیستم ثبت شده است. برای کاربرانی که شروع سرد دارند و در سیستم فعالیتی از آنها در دسترس نیست از فیلترینگ محتوا محور بر اساس پروفایلشان استفاده میشود. اما برای کاربرانی که سوابق آنها در سیستم در دسترس است از روش فیلترینگ مشارکتی استفاده میشود.
ادامه این مقاله به این صورت تقسیم بندی شد است: در بخش 2 کارهای انجام شده در گذشته مورد بررسی قرار گرفته، در بخش 3 مدل پیشنهادی همراه با توصیف معماری مطرح شده ارائه شده است. در بخش 4و5 نتایج بدست آمده و در بخش 6 نیز نتیجه گیری نهایی و پیشنهادات آینده مطرح شده است.
-2 سوابق پیشین
در این بخش برخی از جدیدترین پژوهش های مطرح شده در جهت رفع مشکل شروع سرد کاربران به منظور ارائه پیشنهادات فیلم تشریح می گردد.
هیونگ و همکارانش در سال 2011، مشکلات شروع سرد فیلم ها و کاربران را بررسی کردند. آنها یک سیستم بهبود فیلترینگ مشارکتی سنتی ارائه کردند. در این مدل از دو ماتریس شباهت استفاده شده است که یکی شباهت بین کاربران و فیلم ها و دیگری شباهت بین کاربران با یکدیگر را نشان می دهد. سپس با توجه به مکانیزم پیش بینی مطرح شده پیشنهاداتی را به کاربران ارائه میدهند. یکی از معایب قابل تامل در این تحقیق استفاده از حافظه زیاد با توجه به تعداد کاربران و فیلم ها، بعلت ساخت چندین ماتریس شباهت میباشد
بوبادیلا و همکارانش در سال 2012، از شبکه عصبی به عنوان یک سیستم پیشنهاد دهنده فیلترینگ مشارکتی جهت کاهش مسئله شروع سرد کاربران جدید الورود استفاده کردند. آنها ارزیابی هایشان را بروی دیتاست Movielens ,Netflix انجام داده و در تحقیق خود به دلیل استفاده از اطلاعات غیره عددی از معیار شباهت گیری جاکارد استفاده کردند
هنس در سال 2013، پیشنهاد فیلم به کارابران را با استفاده از خوشه بندی فیلمها با استفاده از الگوریتم k-means و بر اساس امتیازات ارائه شده به فیلم ها توسط کاربران انجام داد. هنس پژوهش خود را بروی دیتاست معروف movielens انجام داده و ارائه فیلمها را بروی مجموعه داده با حجم 10109 فیلم که توسط 2113 کاربر امتیاز دهی شده اند پیاده سازی نموده است
کامواتسوس و همکارانش در سال 2014، مدلی را مطرح نمودند که در آن از الگوریتمهای طبقه بندی مثل نایوبیز، درخت تصمیم و الگوریتم طبقه بندی تصادفی با بکارگیری معیارهای شباهت به منظور پیشنهاد فیلم ها به کاربران استفاده شده است. آنها نیز در پژوهش خود، ارزیابی ها را بروی دیتاست Movielens انجام دادند.
لوئیز و همکارانش در سال 2015، جهت افزایش کارایی سیستم و حل مشکل شروع سرد، یک روش ترکیبی مطرح کردند که روشهای فیلترینگ مشارکتی و اطلاعات دموگرافی را با هم ترکیب می کرد. آنها در پژوهش خود از الگوریتمهای ترکیبی Co-Clustering و یادگیری ماشین جهت حل مسئله شروع سرد استفاده کرده و ارزیابی ها بروی دیتاست های Movielens, Jester, Netflix انجام شده است
به دلیل کم اهمیت بودن چالشهایی مثل مقیاسپذیری، پراکندگی و اعتماد کاربران در مقایسه با شروع سرد کاربران و فیلم ها، در کلیه پژوهش هایی که تا کنون انجام شده است این چالشها نیز با عملیات پیش پردازش، خوشه بندی و دسته بندی نیز مرتفع گردیده اند.
-3 روش پیشنهادی
طرح مدل پیشنهادی در شکل 1 ارائه شده است، در ادامه وظایف هر یک از اجزای مدل توضیح داده می شود.
- 1 ابتدا بروی داده ها عملیات پیش پردازش انجام شده و از پردازش کاربرانی که در سیستم فاقد اطلاعات پروفایلی یا امتیازات به فیلم ها است صرف نظر می شوند تا سرعت تحلیل و پردازش داده ها بهبود حاصل شود.
- 2 خوشه بندی کاربران بر اساس اطلاعات دموگرافیک و با استفاده از الگوریتم خوشه بندی k- - 3
.means تعیین خوشه مناسب با استفاده از ترکیب خوشه بندی و معیارهای تکنیک boosting به کاربران جدیدالورود به سیستم که با شروع سرد مواجه هستند.
- 4 یافتن کاربران مشابه با استفاده از معیارهای شباهت گیری ترکیبی مطابق با میزان شباهت سنی، جنسیت و تحصیلات.
- 5تشکیل ماتریس مجاورتی کاربر- آیتم که در آن امتیازات ارائه شده کاربران همسایه - سطرها - به کلیه فیلم ها - ستونها - نشان داده شده است.
- 6محاسبه امتیاز کاربر جدید به هر فیلم با در نظر گرفتن کاربران وفادار.
- 7 ارائه لیستی از فیلم ها به کاربران با استفاده از یک مکانیزم پیش بینی از روی ماتریس مجاورتی.
شکل :1 فلوچارت و معماری روش پیشنهادی
همانطور که در شکل 1 مشاهده می گردد، قبل از اعمال خوشه بندی کاربران بر اساس اطلاعات دموگرافیک آنها لازم است ابتدا نرمال سازی داده ها انجام شود. به منظور انتخاب بهینه تعداد خوشه ها، با استفاده از نرم افزار داده کاوی weka داده ها را به تعداد خوشه های - - k مختلف ارزیابی نموده و ضمن محاسبه مجموع مربعات خطا هر کلاستربندی، تعداد قابل قبول k را تعیین می نمائیم. تعداد خوشه های بهینه100است که برای خوشه بندی در نظر گرفته می شود.
پس از یافتن مناسبترین خوشه ها، در این مرحله با استفاده از اطلاعات دموگرافیک کاربران جدید و خوشه های تعیین شده در مرحله قبل می توان خوشه مناسب کاربر جدید را یافت.
در مرحله بعد داده های آموزشی که خروجی مرحله خوشه بندی است به سیستم boosting داده شده و مدل مورد نظر تولید میشود. سپس کاربر جدید به عنوان داده های آزمایشی به سیستم وارد شده و دسته آن تعیین می گردد. پس از اینکه برای کاربر جدید خوشه و یا کلاس تعیین شد، همسایگان آن که شامل کاربران آن خوشه می باشند استخراج می شوند. نظرات این همسایگان در پیشنهاد فیلم مورد توجه قرار می گیرد. پس از اینکه برای کاربر جدید خوشه یا کلاس تعیین شد همسایگان آن که شامل کاربران موجود در آن خوشه می باشد استخراج می شوند.