بخشی از مقاله

چکیده

روشهای بازیابی اطلاعات، به منظور یافتن اطلاعات مورد نظر در انبوهی از اطلاعات ساختاری و غیر ساختاری بهکار می رود. فرآیند رتبهبندی بسترآگاه، با در نظر گرفتن زمینه و تحلیل بستری از پیشینه پرسو جوی کاربر، صورت گرفته و رتبهبندی با آگاهی و با در نظر گرفتن پیش زمینه قبلی کاربر، انجام میشود. در این مقاله، به منظور دستیابی به نزدیکترین و مطلوبترین پاسخ مد نظر کاربر، روشها و پیش نیازها، تحلیل و بررسی شده و مدلی جهت دریافت و ثبت اطلاعات زمینهای کاربر و تطابق آن با الگوهای محتوایی ارائه خواهد شد.

مدل پیشنهادی بر روی مجموعه کلیکهای کاربران شبیهسازی شده و مفاهیم مشابه، استخراج و خوشهبندی شده است. جهت کاهش ابعاد دادهها، تکنیکهای شبکههای عصبی، به کار گرفته شده است. با استفاده از الگوریتمهای رقابتی و تشکیل شبکههای خودسازمانده، بردار ورودی محتوی پرسش کاربر به مجموعهای از نورونها نگاشت شده و وزن خوشهها تعیین شده است. وزن خوشههای به دست آمده برای نیمی از کاربران، با دقت بالای %50 بوده و میتواند به عنوان ورودی الگوریتمهای رتبهبندی مورد استفاده قرار گیرد.

.1 مقدمه

منابع اطلاعاتی از جمله وب با پدیده سرریز شدن اطلاعات که دنینگ1 در سال 1982به آن اشاره کرده بود[1]، مواجه شده است و با افزایش حجم اطلاعات ذخیرهشده در منابع گوناگون، فرآیند بازیابی و استخراج اطلاعات اهمیت ویژهای یافته است. بر خلاف پایگاهدادهها، اطلاعات ذخیره شده در منابع اطلاعاتی بزرگ مانند وب و زیر مجموعههای آن مانند شبکههای اجتماعی از ساختار مشخصی پیروی نمیکنند و عموما دارای معانی تعریف شده و مشخصی نیستند. در روشهای سنتی بازیابی اطلاعات، نزدیکی نتایج، تنها با تحلیل انبار اطلاعاتی موجود - محتوی و ساختار لینک - انجام میشود، از این رو مدل ضعیفی برای محاسبه نزدیکی نتایج با پرسوجو، وجود دارد.

بنابراین مستقل از این که پرسش توسط چه کسی و با چه دانش پیشزمینهای وارد شده است، نتیجه صفحات بازیابی شده برای کاربران با علایق متفاوت و با پرسش یکسان مجموعهی یکسانی از صفحات وب خواهد بود. فرآیند رتبهبندی بسترآگاه، با در نظر گرفتن زمینه و تحلیل بستری از پیشینه پرسوجوی کاربر، صورت گرفته و رتبه بندی با آگاهی و با در نظر گرفتن پیش زمینه قبلی کاربر، انجام میشود. در واقع در این شیوه، مشخصات محتوای صفحات را با رتبهبندی ها و قضاوتهای کاربر ادغام نموده، نتایج قابل قبولتری را ارائه میدهد.

در صورت لحاظ نمودن رفتار کاربر علاوه بر پرس وجوها، واکنش رفتارهای کاربران نیز مورد بررسی قرار گرفته و بخشی از ورودی الگوریتمهای رتبهبندی به حساب میآیند. در سالهای اخیر، توجه به رفتار کاربر به عنوان یکی از مهمترین معیارهای رتبهبندی، مورد توجه واقع شده است. نزدیک بودن نتایج رتبهبندی به نیازها و اولویتهای کاربران اصلیترین هدفی است که در حوزه رتبهبندی بر اساس رفتار کاربر به آن پرداخته شده است.

جهت روشن شدن مطلب فرض کنید کاربری پرسوجویی با عنوان "قلعه حیوانات" را وارد نماید، موتور جستجو با تطابق این مورد با الگوهای موجود می تواند خروجیهای زیر را تولید کند. مشخصات اکوسیستمهای جانوری و یا مشخصات کتابی با این عنوان. چنانچه موتور جستجو از رویکرد محتوایی استفاده کند، بسته به کاربرانی که مشابهت رفتاری بیشتری با این درخواست دارند، هریک از دو پاسخ ممکن است به کاربر پیشنهاد شود.

اما چنانچه موتور جستجو از رویکرد بسترآگاه برای بازیابی اطلاعات استفاده کند، نتیجه به زمینه و یا به عبارتی به پرسوجوی قبلی  کاربر وابسته است. مثلا اگر کاربر قبل از این درخواست، پرسوجوی دیگری با عنوان"جنگ و صلح" را وارد نموده باشد، موتور جستجو با آگاهی از زمینه کاربر، ضمن استفاده از مشابهت محتوایی، مشخصات کتاب با عنوان "قلعه حیوانات" را پیشنهاد میدهد . در این مقاله، به منظور دستیابی به نزدیکترین و مطلوبترین پاسخ مد نظر کاربر، مدلی جهت دریافت و ثبت اطلاعات زمینهای کاربر، جهت استخراج مفاهیم مشابه، ارائه خواهد شد.

در بخش دوم مقاله به مرور کارهای انجام شده در این زمینه میپردازد و در بخش سوم، به رویکرد مورد استفاده اشاره شده است. به منظور تبیین و تشریح ابعاد مساله، مدلی پیشنهاد شده که در بخش چهارم تشریح شده و در ادامه چگونگی استخراج مفاهیم مرتبط در ایجاد گراف مفاهیم بررسی شده است. بخش ششم، به جزئیات شبیهسازی انجام شده و نتایج آن پرداخته و در پایان، ضمن مرور مطالب بیان شده به جمعبندی پرداخته شده است.

.2 مروری بر کارهای انجام شده

رتبهبندی به عنوان یکی از مولفههای تکمیل کننده در بازیابی اطلاعات بهشمار میرود.[2] پیدا کردن صفحات مرتبط به هم یکی از کارکردهای رتبهبندی صفحات وب است. رتبهبندی به سه روش اصلی تقسیمبندی شده است.>3@ روش های مبتنی بر محتوا، روش های مبتنی براتصال و روشهای رتبهبندی بر مبنای رفتار کاربر. بیشتر الگوریتمهای رتبهبندی روشهای مبتنی بر محتوا و مبتنی بر اتصال به صورت برونخط هستند. بنابراین در بسیاری از موارد نتایج بازگردانده شده از موتورهای جستجو با انتظارات کاربر منطبق نمیباشد.

یکی از راه حل ها برای بهبود نتایج جستجو، بهبود رتبه بندی صفحات وب است که Xiang یک مدل متفاوت با عنوان RankSVM و با هدف یادگیری جهت رتبهبندی صفحات وب، با ادغام اطلاعات زمینهای ارائه نموده است.[4] در این مدل با اضافه نمودن رویکرد یادگیری به اصول رتبه بندی موجود، روش جدیدی را برای رتبهبندی صفحات وب پیاده سازی نموده و با ارزیابی نتایج حاصل از رتبه بندی جدید، بهبودهایی در نتایج پرس و جو های کاربران حاصل شده است.

موتور جستجو با در اختیار داشتن آخرین پرس و جو - Qt - و پرس وجوی قبلی - - Qt-1 و موقعیت مکانی اسناد رتبه بندی را انجام می دهد. در این مدل به صورت برون خط از پرس و جو های قبلی به عنوان داده های آموزشی استفاده نموده و با استفاده از تکنیک یادگیری SVM الگوهای موجود در نشستها را تشخیص می دهد. در این مرحله مدل RankSVM، به صورت برخط از روی الگوی به دست آمده برای دسته بندی اسناد استفاده نموده و فرآیند رتبه بندی را انجام میدهد.

در مدل ارائه شده توسط Cao با عنوان CACB2، با دنبال کردن و تحلیل کلیکها و رفتار و پرسوجو های قبلی کاربر، نتایجی را به کاربر تحویل میدهد که متناسب با محتوای پرسوجوهای قبلی کاربر میباشد.[5] در واقع این مدل از مفهوم کلیک از گذر داده3 برای مدل سازی رفتار کاربر در موتور جستجو استفاده میکند. این مدل در دو گام پردازش پرسوجو را انجام میدهد. در حالت برون خط با بررسی فایلهای ثبت، پرسوجوهای قبلی کاربر را کاوش نموده و مجموعه پرسوجوها و انتخابهای کاربر به پاسخهای سیستم را خوشهبندی نموده و از خروجی این خوشهبندی، درخت CSST4 را تشکیل میدهد. در حالت برخط، پرسوجوی جدید کاربر را دریافت نموده و با پیمایش درخت حاصل، با آگاهی از پرسوجوهای قبلی، پرسوجوهای هدفمندتری به کاربر پیشنهاد میدهد.

در مدل CACB جهت برقراری ارتباط بین مجموعه پرسوجوها و انتخابهای کاربر، از گراف دو بخشی کلیک از گذر داده استفاده شده است که کلیکهای انجام شده به ازای هر پرسوجو و سند، نشان دهنده پیوند میان آنها میباشد.[5][2] یالهای میان پرس وجوها و اسناد، کلیک کاربر را نشان میدهد. این گراف میتواند در تشخیص پرسوجوهای مشابه مؤثر واقع شود. به این معنی که چنانچه URL ای توسط دو پرسوجو انتخاب شود، آن دو پرسوجو مشابه یکدیگرند. مشابهت بین دو پرسوجو ی qi و qj با محاسبه فاصله اقلیدسی بین بردار نرمال شده متناظر به دست میآید. در [5] با داشتن دنباله پرسوجو های کاربر - qs=q1,q2'…Ti - و واردکردن رفتار کاربر در رتبهبندی سعی در بهبود نتایج داشته و با انجام آزمایشات تجربی بر روی لاگ کاربران با به کارگیری روش CACB به نتایج بهتری در مقایسه با سایر روشها از قبیل N-Gram داشته است.

.3 نگاشت خود سازمانده

نگاشت خودسازمانده - SOM - ، یکی از تکنیکهای یادگیری بدون نظارت در شبکههای عصبی است که در طبقهبندی، خوشهبندی، تشخیص الگو، مدلسازی توابع و بهینهسازی مورد استفاده قرار میگیرد. شبکهی کوهونن یکی از پرکاربردترین انواع نگاشت خودسازمانده است. مهمترین ویژگی شبکه عصبی خودسازمانده کوهونن، خوشهبندی و کاهش ابعاد دادهها است .[6] نرونهای این شبکه دارای وزن بوده و فاصله اقلیدسی بین نرونها، تعیین کننده میزان مشابهت بین دو نرون است.

فاصله بردار ورودی X تا وزن نرونها از رابطه - 1 - - محاسبه میشود. که D تابع سنجش فاصله بردار ورودی X و وزن نرونها است و یکی از توابع سنجش فاصله از جمله فاصله ی کسینوسی - - D - u,v - =1-cos و یا فاصلهی اقلیدسی - D - u,v - =|u-v| - استفاده میشود.[6] به عبارتی فاصله بین هر الگو و نرون برنده محاسبه شده و نرون با کمترین فاصله به عنوان نرون برنده انتخاب میشود. در هر تکرار وزن نرونها به روز رسانی شده است. این روند تا رسیدن به حد آستانه مطلوب تکرار میشود.

.4 تشریح مدل پیشنهادی

در این بخش روش پیشنهادی جهت بهبود مدل رفتاری کاربر ارائه میشود. نخست ضمن تعریف دقیق مساله، معماری سیستم پیشنهادی ارائه شده و مولفههای آن و نحوهی عملکرد آنها توضیح داده میشود - شکل . - 1 هدف مقاله، ارائهی روشی برای بهبود مدل رفتاری موتور جستجو با توجه به واکنشها و رفتارهای قبلی وی است. فرض کنید کاربر U در بازهی زمانی T از صفحات وبسایت بازدید و نشستهای {s1,s2'…'Vm} را داشته است. هدف، ساختن یک بردار از سابقه جستجوهای آن کاربر است،

شکل :1 معماری مدل پیشنهادی

برداری که پروفایل کاربر را تشکیل دهد. همچنین چنانچه کاربر، پرسو جوی Q را در وب انجام دهد، پرسوجوی او نیز در پروفایل وی جز سابقه پروفایل وی محسوب گردد. مجموعه انتخابهای کاربر نیز به پروفایل کاربر اضافه میشود. به عبارتی برای هر کاربر بردار - V=< - q1,c1,w1 - , - q1,c2,w2 - '…' - T1,cn,wn - > - ، در نظر گرفته میشود. بطوری که q نشاندهنده پرسوجوی کاربر و c نشاندهنده نتایج انتخابی باشند وw وزنهای آنها نیز تا حد امکان نشاندهندهی اهمیت آنها در رفتار کاربر در آن بازهی زمانی باشد.

.4.1 مولفه های مدل پیشنهادی

معماری سیستم پیشنهادی در شکل 1 دارای اجزا و مولفههایی است که در ادامه به شرح این مولفهها میپردازیم. پروفایل علاقه: روش رتبه بندیپیشنهادی مبتنی بر سوابق و علائق کاربر است و یکی از عاملهای اصلی در شخصیسازی وبسایت دسترسی به اطلاعات زمینه ای کاربر می باشد. [7] عبارت پرسوجوی کاربر و نتایج انتخابی وی در پروفایل علاقه ثبت میگردد. به عبارتی پروفایل علائق کاربر شامل کلمات کلیدی هر عبارت پرسوجو و انتخاب i امین لینک نتیجه است، در واقع خروجی پروفایل علاقه کاربر ماتریسی است که سطرهای ماتریس را کلمات کلیدی عبارات پرسوجو و ستونهای ماتریس نشاندهنده لینکهای نتیجه هستند و هر عضو این ماتریس تعداد دفعات پذیرش لینک نتیجه را با وجود آن کلمه کلیدی نمایش میدهد.

ورودی پروفایل علاقه از مولفههای تاریخچه جستجو، موتور جستجو، استخراج نتایج انتخابی کاربر، تامین میگردد و خروجی پروفایل علاقه، ماتریس پرسوجو- سند است. تاریخچه جستجو: وقتی کاربر جستجویی را انجام میدهد، لازم است سوابق جستجو محفوظ بماند. به عبارتی سابقه کلیکهای کاربر میتواند در این مولفه ذخیره شود. مدت زمان حفظ سوابق کاربر بسته به کاربرد میتواند متفاوت باشد و به همراه سایر پارامترها مقداردهی اولیه میگردد.

موتور جستجو: پرس وجوی کاربر از طریق موتور جستجو به سیستم وارد می شود. ارائهی نتایج مرتبط و گزینه های مفید برای گسترش و یا محدود کردن جستجو موجب پاسخهای دقیقتری میگردد و بر اساس استراتژی هر موتور جستجو، پاسخهای متفاوت با اولویتهای مختلف برگردانده میشود. در بین نتایج ارائه شده، کاربر بر روی نتایج مرتبط و با ترتیبهای متفاوتی کلیک میکند. استخراج نتایج انتخابی کاربر: با کلیک کاربر بر روی سند، یالی بین پرسوجو و سند ایجاد می شود.

گراف دوبخشی میتواند نمایانگر مجموعه انتخابهای کاربر باشد به گونهای که یک سمت گراف مجموعه پرسوجوهای کاربر و در سمت دیگر مجموعه صفحات انتخابی قرار گیرد. در بخش 4.2 به تشریح این بخش از مدل خواهیم پرداخت.خوشه بندی پرس وجو: خوشهبندی پرس وجو ها یا نشستها میتوانند منجر به کشف خوشههای مهمی از کاربران شوند. با به کار گرفتن گراف مفاهیم گراف خوشهبندی پرسوجو های کاربر ساخته میشود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید