بخشی از مقاله
چکیده
با توجه به گسترش روز افزون اطلاعات صفحات وب، بازیابی اطلاعات از بین انبوه دادهها اهمیت ویژهای پیدا کرده است. رویکرد کلی موتورهای جستجوی موجود، با استفاده از محتوای صفحات و ساختار ارتباطی موجود بین آن ها، میزان ارتباط صفحات با پرسش کاربر را ارزیابی نموده و نتایج را برمیگرداند. فرآیند رتبه بندی بسترآگاه، با در نظر گرفتن زمینه و تحلیل بستری از پیشینه پرسوجوی کاربر، صورت گرفته و رتبهبندی با آگاهی و با در نظر گرفتن پیش زمینه قبلی کاربر، انجام میشود.
در این مقاله، به منظور استخراج مفاهیم مد نظر کاربر، روشها و پیش نیازها، تحلیل و بررسی شده و چارچوبی جهت دریافت و ثبت اطلاعات زمینه ای کاربر جهت تشکیل پروفایل مفهومی ارائه خواهد شد. با خوشه بندی پروفایل مفهومی ایجاد شده، مفاهیم پر تکرار استخراج شده و صحت نتایج با معیارهای ارزیابی بررسی شده است.
-1 مقدمه
اینترنت و نقش فزآینده آن در توزیع و دسترسی به منابع اطلاعاتی، در دهههای اخیر، مشکلاتی را در یافتن اطلاعات مرتبط با نیازهای کاربران، به وجود آورده است. بازیابی اطلاعات به فنآوری و دانش پیچیده جستجو و استخراج اطلاعات، دادهها و فرادادهها در انواع گوناگون منابع اطلاعاتی مثل بانک اسناد، تصاویر و داده های وب گفته میشود. در شرایطی که بخواهیم نتایج یافته شده به نتایج مورد نظر کاربر نزدیک باشد، میتوان رتبهبندی را بر اساس نظر کاربر انجام داد.
بنابراین تشخیص واستخراج رفتار کاربران از اهمیت خاصی برخوردار است. فرآیند رتبهبندی بسترآگاه1، با در نظر گرفتن زمینه و تحلیل بستری از پیشینه پرسوجوی کاربر، صورت گرفته و رتبهبندی با آگاهی و با در نظر گرفتن پیش زمینه قبلی کاربر، انجام میشود. در این شیوه، مشخصات محتوای صفحات را با رتبهبندیها و قضاوتهای کاربر ادغام نموده نتایج قابل قبولتری را ارائه میدهد.
جهت روشن شدن مطلب فرض کنید کاربری پرسوجویی با عنوان "قلعه حیوانات" را وارد نماید، موتور جستجو با تطابق این مورد با الگوهای موجود میتواند خروجیهای زیر را تولید کند. مشخصات اکوسیستمهای جانوری و یا مشخصات کتابی با این عنوان. چنانچه موتور جستجو از رویکرد محتوایی استفاده کند، بسته به کاربرانی که مشابهت رفتاری بیشتری با این درخواست دارند، هریک از دو پاسخ ممکن است به کاربر پیشنهاد شود. اما چنانچه موتور جستجو از رویکرد بسترآگاه برای بازیابی اطلاعات استفاده کند، نتیجه به زمینه و یا به عبارتی به پرسوجوی قبلی کاربر وابسته است.
در این مقاله، به منظور استخراج مفاهیم مد نظر کاربر، روشها و پیش نیازها، تحلیل و بررسی شده و چارچوبی جهت دریافت و ثبت اطلاعات زمینهای کاربر و تطابق آن با الگوهای محتوایی ارائه خواهد شد. در بخش دوم مقاله به مرور کارهای انجام شده در این زمینه میپردازد. در بخش سوم به منظور تبیین و تشریح ابعاد مساله، چارچوب پیشنهادی و اجزای آن بیان شده است و در ادامه چگونگی استخراج مفاهیم مرتبط در ایجاد گراف مفاهیم بررسی شده است. در بخش چهارم و پنجم ضمن تشریح روش خوشهبندی، نتایج تجربی خوشهبندی گراف مفهومی ارائه شده است. در پایان ضمن مرور مطالب بیان شده به جمعبندی و نتیجهگیری پرداخته شده است.
-2 مروری بر کارهای انجام شده
رتبه بندی یکی ازمهمترین قسمتهای موتورجستجو است. رتبه بندی یکی از مولفه های تکمیل کننده در بازیابی اطلاعات است.[1] پیدا کردن صفحات مرتبط به هم یکی از کارکردهای رتبه بندی صفحات وب می باشد. در واقع رتبه بندی صفحات وب می تواند ساختار ارتباطی صفحات وب را نمایان سازد. رتبه بندی به سه روش اصلی تقسیم بندی شده است.[2] روشهای مبتنی بر محتوا و روشهای مبتنی براتصال و روشهای رتبه بندی بر مبنای رفتار کاربر. بیشتر الگوریتم های رتبهبندی روشهای مبتنی بر محتوا و مبتنی بر اتصال به صورت برونخط میباشند.
بنابراین در بسیاری از موارد نتایج بازگردانده شده از موتورهای جستجو با انتظارات کاربر منطبق نمی باشد. در حالت بهتر می توان رتبهبندی را بر اساس نظر کاربر انجام داد. بدیهی است که در این روش علاوه بر پرس وجوها، رفتارهای کاربران نیز مورد بررسی قرار گرفته و بخشی از ورودی الگوریتم های رتبه بندی به حساب می آیند. بنابراین تشخیص و استخراج رفتار کاربران از اهمیت خاصی برخوردار می شود.
در سال های اخیر، توجه به رفتار کاربر به عنوان یکی از مهمترین معیارهای رتبهبندی، مورد توجه واقع شده است. نزدیک بودن نتایج رتبه بندی به نیازها و اولویت های کاربران اصلی ترین هدفی است که در [3] به آن پرداخته شده است. در این مرجع، سه روش جهت کشف و استخراج رفتار کاربر بیان نموده است. - 1 بازخورد صریح2 و رویکرد ضمنی. - 2 ایجاد پروفایل کاربر بر اساس تاریخچه جستجوها - 3 ایجاد پروفایل کاربر به صورت فیلترکردن جمعی - مشارکتی - . 3 در هر سه روش پروفایلی برای کاربر ساخته میشود. هر بار که کاربر پرسوجویی را درخواست می کند نتایجی توسط موتور جستجو به کاربر برگردانده می شود.
کاربر از بین نتایج تعدادی را انتخاب نموده و صفحات مربوط را بازدید میکند. نتیجه بازدیدها و انتخاب های کاربر در پروفایل ثبت شده و با بروز رسانی پروفایل کاربر تاریخچه رفتار کاربر را نگه میدارد. نکته جالب توجه این است که برای ساخته شدن این پروفایل، هیچ تلاشی متوجه کاربر نبوده است. جهت ایجاد پروفایل کاربر بر اساس تاریخچه جستجوها، اولویت ها و علائق کاربر به دو گروه اولویت های دائمی و بلند مدت و اولویتهای موقتی یا کوتاه مدت ، دسته بندی می شوند.
ساختن پروفایل کاربر بر اساس تاریخچه جستجوها، با ثبت و پی گیری نشست های کاربر صورت میگیرد. میتوان برداری از پروفایل های کاربر در مراجعات مختلف ساخت. برای هر کاربر پروفایلی با عنوان P در نظر گرفته شده است. پروفایل دائمی کاربر به صورت Ppre و پروفایل موقتی کاربر را با Ptoday نمایش داده می شود. Ppre در واقع نمایانگر پروفایل های کاربر در n روز گذشته است. تاریخچه مراجعات وضعیت پروفایل کاربر را در امروز و n روز گذشته قابل نگهداری است. در این روش مفهوم اندازه پنجره برای نشان دادن Ppre به کار رفته است.
همچنین S j - j 0,1, 2,..., n - تعداد صفحات وب است که کاربر در j امین روز مشاهده کرده است. بنابراین j=0 نمایش دهنده امروز است. نشست فعلی کاربر در امروز با cur نشان داده شده است. nbh نشان دهنده جستجو های مختلف کاربران قبل از موقعیت cur در امروز بوده است. بنابراین رابطه بین nbh و cur به صورت زیر است:.cur= nbh+1 بنابراین پروفایل Ptoday هر روز به همین صورت ساخته میشود.
Storey در[4] با ارائه متدولوژیCONQUER4 پردازش پرس و جو آگاه از متن، با به کارگیری دو منبع دانش تکمیلی شامل واژگان و هستی شناسی، محتوای معنایی نمایش داده شده حاصل از پرس و جوی کاربر را افزایش می دهد. این متدولوژی از پرسوجو به عنوان یک دانه ، استفاده نموده و با ساخت یک شبکه معنایی، با به کارگیری دو منبع دانش و تطابق آنها، شبکه ساخته شده را تصحیح مینماید. پرسوجوی نشان داده شده توسط شبکه معنایی تصحیح شده، می تواند توسط موتورهای جستجو اجرا شود. تجربه های آزمایشگاهی نشان داده است که پرسوجوی تصحیح شده حاصل از متدولوژی، نتایج بهتری را در بر داشته است. رویکرد کلی این متدولوژی بر مبنای پردازش پرسوجو است.
-3 چارچوب پیشنهادی بر اساس پروفایل کاربر
در این بخش روش پیشنهادی جهت بهبود مدل رفتاری کاربر ارائه شده است. نخست ضمن تعریف دقیق بیان مساله، معماری سیستم ارائه شده و مولفههای آن و نحوهی عملکرد آن ها توضیح داده می شود. شکل - - 1 معماری چارچوب پیشنهادی را نشان میدهد. در چارچوب پیشنهادی ، ارائهی روشی برای بهبود مدل رفتاری کاربر با توجه به واکنش ها و رفتارهای قبلی است که در صورت تعمیم و گسترش آن، میتواند ویژگی های زیر را داشته باشد:
. مدل بصورت ضمنی یعنی بدون دخالت مستقیم کاربر ساخته شود.
. مدل بصورت فردی باشد، یعنی به ازای هر کاربر یک مدل خاص وجود داشته باشد.
. مدل براساس رفتار گردشی کاربر در بازهی خاصی از زمان مثلا سه ماه گردش او در وبسایت ساخته شود.
. فرایند ساخت مدل تا حد امکان بصورت خودکار باشد.
فرض کنید کاربر U در بازهی زمانی T از صفحات وبسایت دیدن کرده است و نشست های {s1,s2'…'Vm} را داشته است. هدف، ساختن یک بردار از سابقه جستجوهای آن کاربر است، برداری که پروفایل کاربر را تشکیل دهد. همچنین چنانچه کاربر پرس وجوی Q را در وب انجام دهد، پرس وجوی او نیز در پروفایل وی جز سابقه پروفایل وی محسوب گردد.
مجموعه انتخابهای کاربر نیز به پروفایل کاربر اضافه شود. به عبارتی برای هر کاربر بردار - V=< - q1,c1,w1 - , - q1,c2,w2 - '…' - T1,cn,wn - > - ، بطوری که q نشان دهنده پرس وجوی کاربر و c نشان دهنده نتایج انتخابی باشند وw وزن های آن ها نیز تا حد امکان نشان دهندهی اهمیت آن ها در رفتار کاربر در آن بازهی زمانی باشد.
-1-3 استخراج نتایج انتخابی کاربر
-1-1-3 ساخت گراف دو بخشی مفهومی
با دنبال کردن کلیک های کاربر، گراف دو بخشی ساخته می شود - شکل - - - 2 .[5] مجموعه پرس وجو های کاربر با q و مجموعه اسنادی که به عنوان نتایج پرسوجوی کاربر برگردانده شده است با d نشان داده میشود. گراف دو بخشی سند- پرسوجو، در واقع نمای دیگری از دنباله کلیکهای کاربر است. زمانی که کاربر بر روی سندی کلیک کند یالی بین پرس وجو و سند ایجاد می شود. بدیهی است که ×کاربر می تواند برای یک پرس وجو ، چندین سند را مشاهده نماید. با داشتن گراف دو بخشی امکان دسته بندی مفاهیم فراهم می شود. الگوریتم 1، ساخت گراف دو بخشی را نشان میدهد.
-2-1-3 استخراج مفاهیم
استخراج مفاهیم و شباهتهای اسناد و پرسوجوهای مرتبط میتواند پارامتر موثری در فرایند خوشهبندی باشد. روشهای مختلفی جهت استخراج مفاهیم معرفی شده است: استخراج مفاهیم با استفاده از بخشبندی وب حاصل از نتایج برگردانده شده موتور جستجو،کاوش در مفاهیم مشابه و ساخت پروفایل مفهومی کاربر. دو روش اول بر اساس مشابهت ترمها و پرسوجوها عمل میکند. مبنای روش بخش بندی وب بر اساس نتایج حاصل از پرس وجوها است. با مرور یک صفحه وب توسط کاربر، لیستی از نتایج را در پیش رو دارد.
روش سوم بر مبنای گراف ارتباط مفهومی پایه گذاری شده است. گراف ارتباط مفهومی از روی داده های به دست آمده از کلیک کاربران ساخته می شود. این گراف، مفاهیم قابل برداشت از پرس و جوی کاربران را نشان می دهد. برای روشن شدن مطلب، چگونگی ساخته شدن گراف مفهومی را با یک مثال بیان می کنیم. فرض کنید کاربر پرس و جوی "قلعه حیوانات" را درخواست نماید، با دریافت این پرسوجوی، فضای مفهومی از روی بخش های وب مرتبط با مفاهیمی چون "جرج اورل"، "1984" و "فروشگاه کتاب" ساخته میشود.
اگر کاربر به موضوعات مربوط به کتاب علاقه داشته باشد و مفهوم "فروشگاه کتاب" را کلیک کند، داده های مربوط به کلیک کاربران به تدریج به این مفهوم، نزدیک شده و به وزن آن گره اضافه نموده و جز همسایه های آن گره محسوب می گردد. اما وزن مفاهیم غیرمرتبط مانند "اکوسیستم های جانوری" و "گونه های جانوری" و ... صفر باقی می ماند. بنابراین با هر بار کلیک مفاهیم مرتبط، یکی به وزن گره متناظر آن اضافه میشود - رابطه - 1 - و - . - - 2