بخشی از مقاله
چکیده:
استفاده همزمان از اطلاعات ساختاری و اطلاعات پیمایش کاربران یکی از چالشهای مطرح در بهبود کارایی الگوریتمهای شخصی سازی وب میباشد. در این مقاله پس از معرفی معیار وزن دهی، الگوریتمی ترکیبی که از اطلاعات پیمایش کاربران و پیوند بین صفحات به منظور پیشنهاد صفحات به کاربران استفاده میکند، ارائه شده است. معیار معرفی شده برای محاسبه وزن صفحات مشاهده شده توسط کاربران از "مدت زمان مشاهده صفحه" و "فرکانس مشاهده صفحه" استفاده میکند که به خوبی میزان اهمیت و علاقه کاربران به آن صفحه را نشان میدهد. الگوریتم ارائه شده دو مشکل اساسی را در شخصی سازی صفحات وب حل می کند. مشکل اول پیشنهاد صفحات جدیدی است که اخیرا به سایت اضافه شده اند و مشکل دوم کاهش دقت الگوریتمها با افزایش تعداد صفحات پیشنهادی می باشد.
در الگوریتم ارائه شده اولین صفحه با استفاده از قوانین انجمنی ورن دار جدید ارائه شده پیشنهاد می شود. سپس این صفحه با استفاده از الگوریتم HITS و صفحاتی که با آن در یک دسته بندی هستند بسط داده می شود تا صفحاتی که اخیرا به سایت اضافه شده اند نیز فرصت حضور در مجموعه صفحات پیشنهادی را داشته باشند. برای دسته بندی صفحات الگوریتمی بر اساس آتاماتای یادگیر و الگوریتم های افراز گراف ارائه شده است .نتایج شبیهسازی الگوریتم در دادههای واقعی نشان داده است که کارایی الگوریتم پیشنهادی بالا میباشد و دانش بدست آمده از سیستم مذکور به طور قابل ملاحظه ای کیفیت پیشنهادات را بهبود داده است و مشکلات ذکر شده را در حد قابل توجهی کاهش داده است.
.کلمات کلیدی: داده کاوی وب، قواعد انجمنی وزندار، اتوماتای یادگیر، الگوریتم HITS
مقدمه
وب طی یک فرآیند آشفته و غیر متمرکز در حال رشد است و این روند منجر به تولید حجم وسیعی از مستندات متصل به یکدیگر گشته است که از هیچ گونه سازماندهی منطقی برخوردار نیستند. در واقع وب به مجموعه بزرگی از داده های ساخت یافته و نیمه ساخت یافته تبدیل شده است که کاربران آن از همپوشانی داده ها رنج میبرند. بنابراین تحلیل رفتارهای کاوشی کاربران وب و بررسی واقعی علایق کاربران اهمیت خاصی پیدا کرده است. بررسی رفتارهای کاربران در وب، به عنوان روشی جهت کشف دانش نهفته در نحوه تعامل کاربران با وب، یکی از ابزارهای مهم در حوزه کاوش در وب شناخته میشود . کارهای تحقیقاتی بسیاری در این حوزه انجام شده است که عمدتا بر مبنای اطلاعات موجود از رفتار کاربر در تعامل با وب به استخراج این دانش و استفاده از آن در کاربردهای مختلف در وب نظیر شخصی سازی صفحات وب و پیشنهاد صفحات 1-7@ ،[تعیین ارتباط بین اسناد 8@ ،[خود سازمانده کردن وب9@،[ 10میپردازند .
یکی از کاربردهایی که بر مبنای داده کاوی استفاده از وب بسیار مورد توجه قرار گرفته است، شخصی سازی صفحات وب است. بر اساس این تکنولوژی سرویسهای موردنیاز کاربران بر اساس علائق و ویژگیهای کاربران، بدون آنکه کاربران به طور صریح آنها را بیان کنند، شخصی سازی میشوند [. 2@شخصی سازی وب مجموعه ای از عملیات است که تجربه وب را برای یک کاربر خاص یا مجموعه ای از کاربران سازماندهی میکند و پیشنهادات پویا بر اساس الگوهای رفتاری کاربران ارائه میدهد. شخصی سازی وب میتواند به عنوان فرآیندی برای سفارشی کردن محتوا و ساختار وب سایت بر حسب نیازهای شخصی و ویژهء هر کاربر باشد[. 11@
انواع داده هایی که در طی فرایند شخصی سازی بکار میروند به 4 دسته تقسیم میشود[. 12@دسته اول داده های استفاده کاربران میباشد که شامل دادههای جمع آوری شده از فایل ثبت که به صورت اتوماتیک توسط سرور وب انجام میشود، میباشد. دسته دوم داده های محتوا میباشند که شامل داده های موجود در صفحات میباشد. دسته سوم شرح حال کاربر میباشد که به صورت پروفایلهایی قابل استفاده میباشد و نیازمند تعامل مستقیم با کاربر میباشد. دادههای ساختاری دسته بعدی هستند و شامل ابرپیوندهای موجود بین صفحات سایت میباشند .اکثر تحقیقات انجام شده در زمینه شخصی سازی بر اساس تحلیل محتوای اسناد - داده کاوی محتوا - و یا اطلاعات در باره رفتار کاربران - با استفاده از فایل های ثبت وقایع در سرویس دهنده های وب یا برنامه های در سمت کاربر - بوده است.14]و[13
اگرچه از خصوصیات ساختار گراف, وب - داده کاوی ساختار - برای شخصی سازی نتایج جستجوی وب سرویس بسیار زیاد استفاده شده است [ 15-17@اما در فرایند شخصی سازی صفحات وب به آن کمتر توجه شده است. در صورتیکه علاوه بر اطلاعات بدست آمده از این دو روش، میتوان از اطلاعات درباره ساختار گراف ارتباط اسناد برای پیشنهاد صفحات و شخصی کردن سرویس هایی مانند وب استفاده کرد.الگوریتم ارائه شده در [18 ] مبتنی بر آنالیز لینک ها میباشدکه صفحات وب و کاربران سایت را به صورت نود و ابرپیوند مدل میکند و از الگوریتم HITS برای ارزیابی اهمیت آنها در گراف استفاده میکند و هدف آن اندازه گیری تخصص کاربران و اهمیت صفحات وب است.
در[ 19@دو متد مجزای رتبه بندی بر اساس آنالیز لینکها ارائه داده شده است . Mobasherاز درجه اتصالات بین صفحات سایت به عنوان فاکتوری تعیین کننده برای پیشنهاد بر اساس کاوش آیتمهای تکرار شونده یا کشف الگوهای ترتیبی استفاده می کند20@ [ولی هیج روشی تکنیکهای آنالیز لینکها را به طور کامل با فرایند شخصی سازی بوسیله استخراج اعتبار یا اهمیت صفحات وب در گراف ترکیب نکرده است. سیستمهای شخصی سازی که برای ارائه پیشنهادات فقط از رفتار کاربران استفاده می کنند به دلیل مشکلات زیر، عموما از دقت پایینی برخوردار هستند و ممکن است صفحات با ارزشی در بخش پیشنهاد صفحات فراموش شوند.
الف: با افزایش تعداد صفحات پیشنهادی کارایی الگوریتم در حد قابل ملاحظه ای کاهش می یابد.
ب: مشکل بعدی ناشی از کامل نبودن مجموعه داده های کاربردی کاربران، به عبارتی، تراکنش های کاربران با سایت در فایل ثبت وقایع میباشد. این مشکل بیشتر در مورد دامنه هایی رخ میدهد که
:یک وب سایت بزرگ شامل هزاران صفحه است و بخشی از آن به ندرت مورد دسترسی قرار میگیرد.بدلیل طراحی بد وب سایت به برخی از صفحات جالب آن سایت که ارزش پیشنهاد دارند، پیوند وجود نداشته باشد.صفحات وب سایت دائما در حال تغییر هستند و دائما صفحات جدیدی به آن سایت اضافه می شوند که در فایل ثبت وقایع نیستند و هرگز پیشنهاد نمی شوند.در این مقاله پس از معرفی معیار جدیدی برای وزن دهی صفحات مبتنی بر میزان اهمیت و علاقه کاربران، معماری جدیدی برای یک سیستم پیشنهاددهنده صفحات وب با ترکیب داده های استفاده کاربران و داده های ساختاری صفحات وب ارائه شده است. الگوریتم ارائه شده با بسط و توسعه الگوها با توجه به ساختار سایت، مشکلات اشاره شده در بالا را در حد قابل توجهی حل میکند.
به دلیل اینکه طراحان صفحات وب از یک صفحه به صفحات دیگر زمانی پیوند قرار میدهند که عنوان و محتوای صفحات مذکور در راستای محتوای آن صفحه وب باشند، بنابراین داده های ساختار حاوی اطلاعات ضمنی با ارزشی هستند و استفاده از این اطلاعات دانش زیادی راجع به این صفحات و ارتباطشان به دست میدهد که دقت الگوریتم ارائه شده را تا حد زیادی بالا میبرد. الگوریتم ارائه شده بر روی داده های واقعی شبیه سازی شده و نتایج نشان میدهد که دانش بدست آمده از سیستم مذکور به طور قابل ملاحظه ای کیفیت پیشنهادات را بهبود داده است. در ادامه در بخش 2 الگوریتم پیشنهادی ارائه میگردد. در بخش3 پس از معرفی مدل استفاده شده برای شبیه سازی، نتایج شبیه سازی ارائه میشود. در پایان نیز نتیجه گیری آورده شده است.
-2الگوریتم پیشنهادی
در این بخش روشی ارائه شده که اطلاعات پیوندی صفحات و استفاده کاربران را با هم ترکیب می کند. در این الگوریتم صفحات بر اساس معیار جدیدی که به خوبی میزان علاقه کاربران و اهمیت آن صفحه را نشان میدهد، وزندهی میشوند. از آنجا که دقت اولین صفحه پیشنهادی در الگوریتمهای ارائه شده بالا میباشد و با افزایش تعداد صفحات پیشنهادی، دقت به میزان قابل توجهی کاهش پیدا می کند2@،3،[ 21پیشنهاد اولین صفحه بر اساس داده های استفاده کاربران صورت میگیرد و پیشنهاد بقیه صفحات با استفاده از دسته بندی صفحات و داده های ساختار سایت صورت میگیرد. این روش کیفیت پیشنهاد را تا حد زیادی بهبود میدهد.
شهود این ایده بر اساس اطلاعات ضمنی پیوند صفحات است، زیرا که طراحان صفحات وب از یک صفحه به صفحه ای دیگر در صورتی پیوند قرار میدهند که عنوان و محتوای صفحات مذکور در راستای محتوای هم باشند. از طرفی، استفاده از ساختار سایت، برای صفحات جدید یا صفحات با فرکانس مشاهده کم نیز فرصت حضور در مجموعه صفحات پیشنهادی را فراهم میکند و مشکل پیشنهاد صفحات جدید را در سایتهای پویا حل میکند. معماری کلی سیستم پیشنهادی در شکل 1 نمایش داده شده است. در ادامه در زیربخشهای جداگانه هر یک از بخشهای الگوریتم به تفصیل بررسی شده است .
-1-2تعیین وزن صفحات
در این بخش روشی برای وزندهی صفحات در نشستهای کاربران ارائه میکنیم. فرض کنیم که P مجموعه صفحات قابل دسترسی توسط کاربران یک سایتباشد,21که هر صفحه با URL منحصر بفردموجود میباشد. همچنین T مجموعه تراکنش های کاربران درفایل پیش پردازش شده ثبت وقایع باشد 1 2کهدر آن تراکنش ti زیر مجموعه ایی از صفحات p میباشد.هر تراکنش ti را به صورت بردار m تایی از صفحات مدل میکنیم 1 1 2 2 که wi وزن صفحه pi در تراکنش ti میباشد . در این مقاله بر خلاف اکثر مقالات که از روش باینری به عنوان وزن صفحه استفاده میکنند، ازمعیار جدیدی مبنی بر "مدت زمان مشاهده صفحه" و "فرکانس صفحه" برای وزندهی صفحات استفاده میشود که مشاهدات زیر اعتبار این معیار را تایید میکنند -1: در یک نشست، امکان دارد کاربر به یک صفحه چند بار مراجعه کند که هر چقدر تعداد این ارجاع ها به یک صفحه در یک نشست بیشتر باشد ، آن صفحه در نشست مذکور نسبت به سایر صفحات نشست مهمتر است. همچنین در مقایسه دو صفحهای که تعداد دفعات یکسانی در یک نشست ملاقات شده اند، صفحه ای که به آن از تعداد صفحات کمتری پیوند وجود دارد، مهمتر است زیرا که این صفحه احتمال ملاقات بالقوه پایینتری دارد "-2.مدت زمان مشاهده" صفحه توسط کاربر میزان اهمیت صفحه را نشان می دهد[ 22@زیرا اگر صفحه ای