بخشی از مقاله
چکیده :
یک سیستم توصیهگر از الگوریتمهایی برای کار با دادههای در دسترس برای پیشنهاد آیتمهای موردعلاقه کاربر استفاده میکند. کاربران جدید به طور پیوسته به سیستم توصیه گر افزوده میشوند. در نتیجه سیستم نمیتواند محصول مناسبی را مطابق با سلیقهی کاربر جدید ارائه کند. این مساله تحت عنوان شروع سرد کاربر مطرح است. در این مقاله ما به بررسی مشکل شروع سرد کاربر میپردازیم و برای حل این مشکل راه حل ارائه میدهیم. برای این منظور، ما مدل میدان تصادفی مارکوف را با تلفیقی از ویژگیهای جمعیتشناختی پیشنهاد دادیم. مدل ارائه شده مجموعه داده فیلم Movielens را ارزشیابی می کند. نتایج آزمایشها نشان می دهد که با استفاده از روش ارائه شده در این مقاله میتوان مشکل شروع سرد کاربر را به طور موثر حل کرد.
کلید واژهها: سیستم توصیهگر، شروع سرد کاربر، میدان تصادفی مارکوف، ویژگی های جمعیتشناختی.
-1 مقدمه
حجم فراوان و رو به رشد اطلاعات بر روی اینترنت، فرایند تصمیمگیری و انتخاب اطلاعات، داده و یا کالاهای مورد نیاز را برای بسیاری از کاربران وب دشوار کرده است. سیستمهای توصیه گر به کاربرانی که از بین حجم بالای اطلاعات به دنبال نوعی خاص از اطلاعات مرتبط با اولویتهایشان هستند، پیشنهادات شخصی شدهای را ارائه میدهد. البته انتخاب این اطلاعات می بایست با توجه به علایق و خواسته های کاربر همراه باشد. سیستم های توصیه گر با تحلیل رفتار کاربران خود، اقدام به پیشنهاد بهترین اطلاعات و خدمات خواهند کرد. در بسیاری از سیستم های توصیه گر ارائه خدمات به کاربران با توجه به شباهت بین کاربران و روابط دوستی بین آنان صورت میگیرد.
به زبان سادهتر تلاش سیستمهای توصیهگر بر این است که با حدس زدن شیوه تفکر کاربر - به کمک اطلاعاتی که از نحوه رفتار وی یا کاربران مشابه و نظرات آنها داریم - مناسبترین و نزدیکترین کالا به سلیقه او را شناسایی و پیشنهاد کنیم. سیستمهای توصیه گر اغلب بر روی پالایش مشارکتی توسط کاربران تکیه دارند. رویکرد پالایش مشارکتی بر اساس اطلاعات کاربری از جمله جنسیت، محل و یا سلایق است. توصیههایی که از سوی این سیستمها ارائه میشوند به طور کلی میتوانند دو نتیجه در برداشته باشند: - 1 کاربر را در اخذ تصمیمی یاری میکنند - به طور مثال از میان چندین گزینه پیش رو کدام بهتر است و آن را انتخاب کند - ؛ - 2
موجب افزایش آگاهی کاربر، در زمینه مورد علاقه وی میشود - به طور مثال حین ارائه توصیه، کاربر با اقلام و اشیاء جدیدی کهقبلاً آنها را نمی شناخته، آشنامی شود - . در یک برنامه واقعی، وضعیتی که در آن کاربران جدید دسته بندیهای بر اساس تاریخ نداشته باشند متداول است. این مشکل زمانی رخ می دهد که سیستم نمی تواند محصول مناسبی را به کاربر خود ارائه کند پس توصیه به یک کاربر جدید را مشکل شروع سرد کاربر مینامند. ما در این مقاله سعی داریم به یکی از مشکلات رایج سیستم های توصیه گر که شروع سرد کاربر است، بپردازیم و روش میدان تصادفی مارکوف را برای حل این مشکل پیشنهاد می دهیم.
-2 کار مرتبط
در این بخش، ما به طور خلاصه به بررسی چندین الگوریتم توصیه گر میپردازیم که به مشکل شروع سرد کاربر رسیدگی می کند. الگوریتم های توصیه گر بسیاری پیشنهاد شده است که به طور کلی به سه دسته تقسیم می شوند: مبتنی بر محتوا 1، پالایش مشارکتی - CF - 2 و روشهای ترکیبی. پارک و همکاران [1] یک تکنیک عامل به نام فیلتربات ساده پیشنهاد دادند که رتبه بندی را به نمایندگی از کاربران بر اساس ویژگیهای هر دو کاربران و آیتمها تولید میکرد ولی پیشرفت فیلتربات ساده ضعیف بود زیرا در رتبهبندی تولید شده نمیتوانست گرایش کاربر را برای آیتم منعکس کند. پارک و همکاران [2] با گسترش این کار یک مدل رگرسیون زوج پیشنهاد دادند که از یک مشخصات مشترک از یک جفت کاربر-آیتم برای رگرسیون استفاده میکرد.
مشخصات مشترک که توسط محصول بیرونی از ویژگیهای هر دو کاربران و آیتم ها تولید شده، برای رتبه بندی استفاده میشد و از طریق یک ترفند تابع ضرر زوج، تعداد نمونههای آموزشی از O - N - به O - N2 - افزایش مییافت . مدل رگرسیون خطی، ویژگی ها را افزایش میداد و نمونهها سرعت روند آموزش را کند میکردند؛ پس به عنوان یک گلوگاه مطرح بود و دقت و صحت نتایج را محدود میکرد. آگاروال و چن [3] یک رگرسیون بر اساس مدل فاکتورگیری ماتریس - به نام - RLFM3 پیشنهاد دادند، که پروفایل قبلی را بر اساس ویژگی کاربران/آیتم نگاشت می کرد. اگرچه، در استفاده از RLFM، رگرسیون خطی بین ویژگیها و پروفایل پنهان نمی تواند تضمین شده باشد پس، یک چارچوب کلی فاکتورگیری ماتریس توسط ژانگ و همکاران [4]
پیشنهاد شد که توابع رگرسیون چندگانه هم مانند درخت رگرسیون می تواند در این چارچوب اضافه شود.گنتنر و همکاران [5] یک مدل ویژگی نگاشت که رتبهبندی شخصی شده بیزین را گسترش میداد، پیشنهاد دادند. این مدل پروفایل پنهان کاربران و آیتم ها را بر اساس فاکتورگیری ماتریس میسازد و ویژگی های کاربران برای پروفایل پنهان نگاشت خطی میشوند. به خاطر زوج بودن تابع ضرر، تعداد نمونههای آموزشی، درجه دومی از مقادیر مشاهده شده است. برای سرعت دادن مرحله آموزش، گرادیان تصادفی نزولی - SGD - 4 به کار گرفته شد. با توجه به آزمایشاتشان، اگر آموزش آن به دو مرحلهی جداگانه تقسیم شود این مدل می تواند نتیجه بهتری داشته باشد:
ساخت پروفایل پنهان و آموزش ضریب نگاشت. با این حال، برای این مدل همگرا کردن به یک خطای آموزشی کوچک، سخت است. گمان میشود نگاشت خطی روی دقت آن نیز تاثیر می گذارد. ژو و همکاران [6] پیشنهاد فاکتورگیری ماتریس تابعی - fMF - 5 برای ساخت پروفایل شروع سرد کاربر دادند. یک درخت تصمیم گیری برای انتخاب آیتم های نماینده و سوالات مصاحبه ساخته شده. کاربران جدید می توانند با پاسخ دادن سوالات بر روی درخت پروفایلشان را تولید کنند. سان و همکاران [7] این کار را گسترش دادند و مدل یک درخت تصمیمگیری چند سواله را پیشنهاد دادند. در مقایسه با مدل fMF، هر گره از درخت شامل چند سوال است، به طوری که کاربران جدید این فرصت را دارند که به هر یک از سوالاتی که علاقهمند هستند پاسخ دهند. ژانگ و همکاران [8] یک مدل انتخاب نیمه- نظارتی متمایزکننده - SSDS - 6 برای انتخاب آیتمهای نماینده به عنوان سوالات مصاحبه پیشنهاد دادند.
در این مدل، رتبه بندیها توسط مصاحبه کاربران جدید با آیتم هایشان که به عنوان اطلاعاتی بر اساس تاریخ در ساخت توصیه گر استفاده خواهد شد، تولید شد. با این حال، در پردازش مصاحبه واقعی، کاربران ممکن است نگرششان را موثر از احساسات و محیطشان تغییر دهند. لیکا و همکاران [9] برخی از طبقه بندی های شناخته شده و نزدیکترین همسایه را بر اساس CF برای مقابله با مشکل شروع سرد کاربر ترکیب کردند. در این آزمایشات، اطلاعات جمعیتی برای آموزش طبقه بندیها و پیش بینی دسته بندی کاربر استفاده شده بود. بعد از اینکه دسته بندی کاربر جدید به دست آمده بود، رتبه بندی توسط کاربران مشابه در همان دسته بندی تخمین زده میشد.
-3 روش پیشنهادی
برای توصیه به یک کاربر جدید، روش واحدی وجود ندارد. یک توصیه گر باید برای دستیابی به بهترین راه برای توصیه کردن، متغیرهای اصلی را به صورت منفرد یا ترکیبی مورد آزمایش قرار دهد. در این مقاله، از متغیرهای اصلی جغرافیایی و جمعیت شناختی برای تقسیم کاربران استفاده می شود. متغیر جغرافیایی به معنای تقسیم کاربران بر اساس واحدهای جغرافیایی مختلفی همچون کشور، ایالت، ناحیه، استان، شهر یا واحدهای جغرافیایی همجوار است. بر اساس تحقیقات گذشته کاربران در یک واحد جغرافیای خاص،توصیه های مشابهای را مورد پذیرش قرار می دهند.عوامل جمعیتشناختی به معنای تقسیم کاربران به گروه های مختلف، براساس متغیرهای جمعیتی نظیر سن، جنسیت، اندازه خانوار، سبک زندگی خانواده، درآمد، شغل، میزان تحصیلات، مذهب، نژاد و ملیت است.
عوامل جمعیت شناختی متداول ترین معیار برای تقسیم کاربران است. چرا که غالباً نیازهای کاربران در اثر تغییر متغیرهای جمعیت شناختی، تغییر محسوسی نشان می دهند. به طور مثال نیازهای مصرف کننده با سن او تغییر می کند. بعضی از شرکت ها برای تقسیم بازار، از سن و دوره زندگی استفاده می کنند. بدین معنا که برای قسمت های مختلف بازار، که سن و سبک زندگی متفاوتی دارند، کالاهای جداگانهای تولید میکنند. تقسیم کاربران براساس مرتبه ی شغلی-درآمد توسط توصیه گر در حیطه کالاها و خدماتی نظیر اتومبیل، قایق های تفریحی و پوشاک مورد استفاده قرار می گیرد. بسیاری از شرکت ها برای کالاهای تجملی و خدماتی خود، مصرفکنندگان نسبتاً مرفه را نشانه میگیرند. البته همه شرکتهایی که بازار را براساس درآمد تقسیم میکنند فقط افراد متمول و مرفه را به عنوان هدف انتخاب نمی کنند.
شرکت های بسیاری نیز وجود دارند که به عنوان بازار هدف، افراد کم درآمد را برگزیده اند و از سود این کار هم رضایت کامل دارند. اندازه گیری متغیرهای جمعیتشناختی به مراتب آسانتر از سایر انواع متغیرها است. حتی در مواقعی که کاربران در ابتدا براساس عواملی نظیر شخصیت یا رفتار تقسیم شده است، باز هم آگاهی از خصوصیات جمعیت شناختی برای برآورد دقیق اندازه هدف و دستیابی مؤثر به آن لازم است. برای مذهب، نژاد و ملیت اصولا توصیه کردن آیتم های مشابه از سوی کاربران مورد پذیرش قرار میگیرد.
میدان تصادفی مارکوف - MRF - 7 دستهای از مدلهای آماری هستند که ارتباط - استقلال - بین متغیرهای تصادفی را به کمک یک گراف ساده - بدون جهت - مدل میکنند. در این دسته مدل ها، با داشتن تمام همسایه های یک متغیر، آن متغیر از بقیه متغیرهای غیر همسایه مستقل است. ما میخواهیم اطلاعات جمعیت شناختی را با استفاده از مدل میدان تصادفی مارکوف در جهت بهتر توصیه کردن برای حل مشکل شروع سرد کاربر تلفیق کنیم. در یک سیستم توصیه گر دو ماهیت کاربر و آیتم وجود دارد. در شرح مدل زیر دسته بندی به عنوان یک ماتریس تعریف شده که ورودی دسته بندی، i شاخص کاربر و j شاخص آیتم است. مجموعه ی دسته بندی از دو بخش تشکیل شده است: مقادیر مشاهده شده و مقادیر مشاهده نشده که و است. هر کاربر i ویژگی خودش را دارد و آیتم j ، که در آن تعداد ویژگیهای کاربر و تعداد ویژگیهای آیتم است. وظیفه این است که بالاترین -n آیتم برگزیده از آیتم های موجود را به کاربران جدید توصیه کند. برای تمام کاربران و آیتمها وجود دارد. کاربر جدید ویژگی را دارد و سیستم توصیهگر لیستی از آیتمهای موجود را به کاربر جدید توصیه میکند.
-4 نتایج ارزیابی
سه الگوریتم توصیه گر پایهای و چهار توصیه گر مختلف برای توصیه کردن در حالت شروع سرد کاربر اجرا شده است. مدلهای پایهای شامل توصیهگر تصادفی - RR - 8، محبوب ترین - MP - 9 و وابستگی وایبز2] - VA - 10، [10 می باشد. قانون RR این است که آیتم ها را بر اساس حدس تصادفی توصیه میکند. در قانون MP رتبه ی آیتم ها در بر اساس محبوبیتشان است و تنها می تواند در حالت شروع سرد کاربر اعمال شود. VA برخی فیلتربات ها را برای تولید رتبه بندی برای کاربران جدید بر اساس ویژگی هایشان تعریف می کند. رگرسیون اولویت زوج - PPR - 11 [2] یک مدل مبتنی بر رگرسیون دوتائی است که می تواند با حالات شروع سرد مختلف برخورد کند. در این مدل، برخی فیلتربات ها اعمال می شوند تا خصوصیات جدیدی را برای هر دو کاربران و آیتم ها ایجاد کنند. خصوصیات کاربر و آیتم - از جمله ویژگی های موجود و خصوصیات ایجاد شده - توسط محصول خارجی برای اینکه جفت کاربر-آیتم نمایش داده شوند به هم پیوسته شدهاند. رتبه بندی متناظر به عنوان یک هدف در نظر گرفته شده است و مدل خطی برای ضرایب رگرسیون استفاده