بخشی از پاورپوینت
اسلاید 1 :
ارزيابی قابليت استفاده مجدد مجموعه تستها دارای قضاوتهای چندسطحی Reusability Assessment of Test Collections with Relevance Levels of Judgments
اسلاید 2 :
محتوای ارائه
مقدمه
پیشینه
روش پیشنهادی
نتایج، تحلیل و ارزیابی
نتیجهگیری و کارهای آتی
اسلاید 3 :
سیستمهای بازیابی اطلاعات (Information Retrieval Systems)
تعریف
موتورهای جستجو ملموسترین نمونه از سیستمهای بازیابی اطلاعات است که برای بازیابی اسناد HTML در وب به کار می رود.
اسلاید 4 :
مجموعه تست (Test Collection)
تعریف
کاربرد: کارایی سیستمهای بازیابی اطلاعات براساس میزان ارتباط نتایج جستجو با پرسش کاربر از طریق منبعی به نام مجموعه تست ارزیابی میشود.
اسلاید 5 :
انواع مجموعههای تست
در مجموعههای تست با قضاوتهای چند سطحی، قضاوت در مورد ارتباط هر سند به پرسش در قالب یک عدد بیان میشود که نمایانگر میزان ارتباط محتوای هر سند به پرسش میباشد.
کاربرد مجموعههای تست با قضاوتهای چند سطحی: در محیطهایی (مثل وب) [Jär 2000]
کاربر معمولا اسناد ابتدای لیست را نگاه میکند که بهتر است این اسناد خیلی مرتبط باشند.
اسلاید 6 :
ساخت مجموعههای تست
تهیه مجموعه اسناد کار دشواری نیست.
ساخت مجموعه پرسشها کار دشواری نیست [Car 2008].
در مجموعه تستهای بزرگ امکان قضاوت درمورد ربط تمام سندها به تمام پرسشهای موجود در مجموعه ممکن نیست [San and Joh 2004].
ساخت مجموعه قضاوت زمانبر و هزینهبر است و مستلزم تلاش انسانی است [San and Joh 2004][Car and Ben 2008].
اگر مجموعه تست فاقد قضاوتها کافی باشد، در ارزیابی سیستمهای بازیابی اطلاعات خوب عمل نمیکند[Car 2008].
بنابراین
توسعه دهندگان مجموعه تست باید بین تعداد قضاوتها و هزینه ساخت آن مصالحه انجام دهند.
اطمینان از کافی بودن تعداد قضاوتهای مجموعه تست
اسلاید 7 :
تعریف مسئله
مسئله: اطمینان از میزان کارآیی مجموعه تست در ارزیابی سیستمهای بازیابی اطلاعات (قابلیت استفاده مجدد).
قابلیت استفاده مجدد یعنی اطمینان از کافی بودن مجموعه قضاوتهایِ موجود در مجموعه تست.
هر چه به قضاوتهای بیشتری نیاز باشد قابلیت استفاده مجدد از مجموعه تست کاهش مییابد.
قابلیت استفاده مجدد یک معیار کیفی است.
اهمیت عملی مسئله:
کمک به تولیدکنندگان مجموعه تست در تعیین این که آیا یک مجموعه موجود از قضاوتها برای ارزیابی سیستمهای بازیابی اطلاعات مناسب است یا به قضاوتهای بیشتری نیاز است.
اسلاید 8 :
هدف
ارائه روشی برای ارزیابی قابلیت استفاده مجدد مجموعه تست با قضاوتهای چند سطحی
بدین منظور باید از کافی بودن تعداد قضاوتهای موجود در مجموعه تست اطمینان حاصل کرد.
برای نشان دادن این اطمینان از بازه اطمینان استفاده میشود که برای یک معیار ارزیابی محاسبه میشود.
پهنای بازههای اطمینان، نمایندهای از قابلیت استفاده مجدد مجموعه تست میباشد.
اسلاید 9 :
محتوای ارائه
مقدمه
پیشینه
روش پیشنهادی
نتایج، تحلیل و ارزیابی
نتیجهگیری و کارهای آتی
اسلاید 10 :
نمونههایی از مجموعههای تست
اسلاید 11 :
روشهای ساخت مجموعه قضاوت
نمونهگیری تصادفی [Har 1992]
جستجو و قضاوت تعاملی (Interactive Searching and Judging) [San and Joh 2004] [Cor 1998]
بازخورد ارتباطی (Relevance Feedback) [Sob 2003] [San and Joh 2004]
Pooling [Car and Gab et al. 2010]
اسلاید 12 :
معیارهای ارزیابی سیستمهای بازیابی اطلاعات
اسلاید 13 :
روشهای بررسی اسناد قضاوت نشده
اسلاید 14 :
روشهای ارزیابی قابلیت استفادهی مجدد مجموعههای تست
مناسب نبودن روشهای تخمین کارایی: عدم اطمینان به تخمینها
آیا دو سیستم بعد از پیشبینی ارتباط هر سند از روی یک مجموعهی کوچک از قضاوتها میتوانند نسبت به هم با اطمینان رتبهبندی شوند [Car and Kan 2010] .
تخمین نقطهای [Car and Gab et al. 2010]
با استفاده از معیارهای کلاسیک و معرفی معیار جدید قابلیت استفاده مجدد مجموعه تست به صورت نقطهای تخمین زده میشود.
تخمین بازهای [Car and Gab et al. 2010]
بازه اطمینان برای معیار MAP محاسبه میشود.
روش تخمین بازهای دقیق تر از تخمین نقطهای است.
این روشها محدود به ارزیابی مجموعه تستها با قضاوتهای دودویی هستند.
اسلاید 15 :
نوآوری
ارزیابی قابلیت استفاده مجدد، مجموعه تستها با قضاوتهای چند سطحی
گسترش روش تخمین بازه اطمینان با استفاده از:
معیار NDCG در تخمین بازه های اطمینان
مدل Multinomial Logistic Regression برای تخمین میزان ارتباط اسناد قضاوت نشده به پرسش
اسلاید 16 :
محتوای ارائه
مقدمه
پیشینه
روش پیشنهادی
نتایج، تحلیل و ارزیابی
نتیجهگیری و کارهای آتی
اسلاید 17 :
ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان
اگر یک مجموعه تست با مشخصات زیر وجود داشته باشد:
J: مجموعه قضاوت
Q: مجموعه پرسش
قبل از محاسبه کارایی یک سیستم بازیابی اطلاعات با کمک این مجموعه تست و معیار ارزیابی m
باید از کافی بودن تعداد قضاوتهای موجود در J اطمینان حاصل نماییم. برای نمایش این اطمینان از بازه اطمینان استفاده می شود.
بازه اطمینان برای معیار m محاسبه میشود.
بازه اطمینان ابزار قدرتمندی است که به کاربر اجازه میدهد عدم قطعیت را در محاسبه کارایی سیستم بازیابی اطلاعات تعیین کند.
عدم قطعیت ناشی از اسناد قضاوت نشدهای است که توسط سیستم بازیابی شده است.
اسلاید 18 :
ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان .
برای محاسبهی بازه اطمینان با معیار NDCG ابتدا باید امید ریاضی و واریانس معیار NDCG برای یک پرسش محاسبه شود.
اما معمولاً یک مجموعه از پرسش ها وجود دارند.
در بازیابی اطلاعات پرسش ها مستقلند.
برای یک مجموعه پرسش حالت رایج آن است که میانه معیار در نظر گرفته شود.
اسلاید 19 :
Multinomial Logistic Regression
این نوع رگراسیون زمانی بکار میرود که متغییر وابسته بیشتر از دو دسته را شامل شود و از نوع اسمی (Nominal) باشد.
لذا استفاده از از مدل Multinomial Logistic Regression برای تخمین سطوح ارتباطی مناسب میباشد.
β بردار پارامتر مدل میباشد که با استفاده ازMaximum likelihood تخمین زده میشود.
Xi بردار متغییر مستقل (بردار ویژگی) میباشد. در این کار از ویژگی شباهت سند (Document Similarity) استفاده میشود [Car and All 2007] .
اسلاید 20 :
شباهت بین اسناد
¹:http://www.stat.cmu.edu/~cshalizi/350/lectures/01/lecture-01.pdf