بخشی از مقاله
چکیده
اطلاعات موجود در وب، روز به روز در حال رشد است و این روند سبب تولید حجم وسیعی از صفحات متصل به یکدیگر گردیده است که از سازماندهی منطقی برخوردار نیستند. بنابراین تحلیل رفتارهای کاوشی کاربران اهمیت خاصی پیدا کرده است. ارائه اطلاعاتی که کاربران علاقه به مشاهده آنها دارند وب را به محیطی کاربر پسند و جذاب تبدیل خواهد کرد.
برای این منظور و برای یاد گرفتن الگوی رفتاری کاربر و ارائه پیشنهاداتی متناسب با تاریخچه رفتاری کاربر از الگوریتمها و روشهای یادگیری ماشین برای توصیه صفحات پیشنهادی به کاربر استفاده میشود. در این تحقیق ما از تلفیق دو روش زیر برای پیشنهاد صفحات به کاربر استفاده کردیم: یادگیری و استخراج دانش اولیه و مطلوب از روی تاریخچه رفتاری کاربر و شناخت اولیه نسبت به علایق وی و استفاده از اتوماتای یادگیری سلولی برای یاد گرفتن ریز رفتار کاربر و شناسایی علائق وی. نتایج اجرای الگوریتم حاکی از این بود که الگوریتم پیشنهادی از نظر دقت و شمولیت نسبت به کارهای قبلی مناسبتر عمل میکند.
.1 مقدمه
به دلیل رشد روزافزون صفحات وب و اطلاعات آنها، جستجو برای یافتن اطلاعات مفید به یک مشکل تبدیل شده است و کاربران دچار سردرگمی در بین تعداد زیادی از انتخاب ها شدهاند. به چنین وضعیتی سربارگذاری اطلاعات1 میگوییم. به عنوان یکی از رویکردهای نوید بخش برای مقابله با این سربار سیستمهای توصیه گر2 معرفی شدهاند که در حوزه تجارت الکترونیک، کتابخانه دیجیتال و مدیریت دانش کاربرد داشتهاند
برای اضافه کردن امکان یادگیری به یک سیستم توصیهگر، از اتوماتای یادگیر سلولی 3 استفاده میکنیم. منظور از مکانیزم یادگیری این میباشد که سیستم توصیهگر بتواند از رفتار و الگوهای رفتاری کاربر در سیستم مدل رفتاری او را به دست آورده و لیست پیشنهادی متناسب با مدل رفتاری او را در هر لحظه به او ارائه کند.
اتوماتاهای یادگیر این قابلیت را دارند تا با تعریف یک مجموعه متناهی از اعمال ممکن برای آنها، در هر مرحله یک عمل به صورت تصادفی از این مجموعه انتخاب و به سیستم اعمال میشود اگر خروجی مطلوب بود به این عمل پاداش داده می-شود، و اگر خروجی مطلوب نبود به این عمل جریمه تعلق میگیرد. در این صورت این ساختار پس از مدتی عمل مناسبی را که در سامانه به عنوان عمل مطلوب در نظر گرفته میشود را به عنوان عمل قالب در نظر میگیرد. ویژگی مهم اتوماتای یادگیر این میباشد که هر تغییری در رفتار محیط که در این تحقیق کاربر میباشد بلافاصله در عملکرد الگوریتم تاثیر گذاشته و الگوریتم خروجیهای متناسب با حالت فعلی سیستم را تولید میکند.
برای مثال فرض کنید سیستمی توصیهگر را با استفاده از اتوماتای سلولی طراحی کردهایم، این سیستم برای یک کاربر خاص بعد از مدت زمانی الگوی رفتاری کاربر را یاد گرفته است و لیست پیشنهادی به وی را متناسب با این الگوی رفتاری به وی ارائه میکند. بعد از مدتی کاربر رفتارش عوض میشود برای مثال از یک زمینه تحقیقاتی به زمینه تحقیقاتی دیگر میرود بنابراین دیگر لیست پیشنهادی قبلی برای وی مناسب نخواهد بود. در این حالت اتوماتای یادگیر بر اساس رفتار جدید کاربر لیست پیشنهادی به وی را تغییر میدهد تا مناسب الگوی رفتاری فعلی او باشد. این رویکرد عملا در سیستمهای توصیه-گر معمولی که مبتنی بر اطلاعات گذشته کار میکنند وجود ندارد.
.2پیشینه تحقیق :
در سالهای اخیر سیستمهای توصیهگری که ارائه شدهاند غالبا بر اساس اطلاعات گذشته و تاریخچه رفتار کاربر در سیستم بودهاند. این رویکرد با توجه به اینکه در بعضی اوقات اطلاعات به دست آمده اشتباه یا ناقص است، باعث بروز مشکلاتی در سیستم توصیهگر میشود و در واقع لیست پیشنهادی که به کاربر ارائه میکند آن لیست واقعی و مد نظر کاربر با توجه به علایقش نمیباشد. از این رو طراحی سیستم توصیهگری که علاوه بر استفاده از اطلاعات گذشته خود نیز دارای مکانیزم یادگیری باشد بسیار حائز اهمیت خواهد بود.
در [27] سعی شده است تا نوع خاصی از سیستمهای توصیه-گر که با استفاده از فیلتر کردن فضای حالت به جوابهای مناسب میرسند را با استفاده از الگوریتمهای ژنتیک تولید کند. ایده اصلی و رویکرد اصلی این مقاله در نحوه مدل کردن سیستم به ژنومها برای پیاده کردن الگوریتم ژنتیک بر روی آن میباشد. در انتهای مقاله نیز نتایج ارزیابی و کیفیت سیستم تولید شده با دیگر کارها مورد مقایسه و ارزیابی قرار گرفته است که کارایی و عملکرد بهتر این رویکرد قابل ملاحظه می-باشد.
در [30] سیستمی توصیهگر مبتنی بر دستگاههای اندرویدی طراحی و تولید شده است. چالش اصلی که در این طراحی وجود دارد محدویتهای سیستمهای اندرویدی از قبیل حجم محدود پردازشی، حجم محدود اتصال به اینترنت و .. میباشد.
.3 روش ارائه شده
کاری که در این مقاله انجام میشود ارائه یک سیستم توصیهگر پویا است که متناسب با علایق کاربران به صورت برخط رفتار آنان را یاد میگیرد. نوآوری اصلی که در این تحقیق ارائه خواهیم کرد عبارت است از:
پاداش و جریمه در اتوماتای یادگیر سلولی را متناسب با میزان اهمیت هر صفحه تعیین خواهیم کرد.
در هر صفحه وبسایت، مفاهیم یا محتوا 1های موجود در آن را با استفاده از روشهای یادگیری ماشین و پردازش زبان طبیعی استخراج خواهیم کرد. با استخراج این مفاهیم سیستم توصیهگر متناسب با مفاهیم موجود در هر صفحه و وزن آنها اقدام به پیشنهاد صفحات خواهد کرد.
در این قسمت ابتدا به توضیح چگونگی استخراج محتوا ز صفحات سایت و سپس به ارائه الگوریتم توصیهگر مبتنی بر اتوماتای یادگیر سلولی پرداخته خواهد شد و در نهایت نیز سیستم کامل توصیهگر که از ترکیب دو روش فوق به دست میآید ارائه میشود.
.1-3 پاکسازی دادهها
همه دادههای فایل نگاره برای ساختارکاوی و کاوش وب مناسب نیستند. بنابراین برای حذف کردن دادههای نامناسب از فایل نگاره، از پاکسازی دادهها استفاده میشود که شامل موارد زیر است:
درخواستهایی که توسط خزشگرهای وب ایجاد میشوند مناسب نیستند.
دادههایی از فایل نگاره که پاسخهایی جز get و post دارند باید حذف شوند.[11]
.2-3 استخراج ویژگیها و شناسایی کاربران
راههای مختلفی برای تشخیص کاربران وجود دارد. بارزترین روش توجه به آدرس IP کاربرانی است که درخواست صفحهای نمودهاند و فرض کردن اینکه هر IP به یک بازدید کننده مجزا اختصاص دارد. بعضی از کاربران ممکن است از IP های یکسانی استفاده کنند و یا اینکه یک بازدید کننده از IP های متفاوت از سایت بازدید کرده باشد
-3-3فرکانس بازدید یک صفحه خاص
منظور از فرکانس یک صفحه، تعداد دفعات ملاقات آن صفحه توسط کاربر میباشد:
.4-3 مدت زمان مشاهد صفحه
منظور از مدت زمان مشاهده صفحه مدت زمانی است که کاربر بر روی یک صفحه خاص تمرکز و تاخیر میکند؛ و این نشان دهنده جذابیت این صفحه برای کاربر است.