بخشی از مقاله
*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
اثربخشي بازخورد شبه مرتبط در بازيابي اسناد پزشکي مبتني
بر مدل فضاي برداري
چکيده
پرسوجوهاي ارسالي کاربران به سامانههاي بازيابي اطلعات داراي مشکلتي همچون کوتاه بودن، ابهام در معني پرسوجو و غيره است. به علت وجود کلمات مبهم و مشکلت زبان طبيعي و همچنين عدم وجود دانش کافي راجع به موضوع جستجو، ساخت پرسوجوي مناسب و دقيق يکي از مشکلت کاربران و موتور جستجوها است. انطباق پرسوجو يکي از مهمترين بخشهاي سيستمهاي بازيابي اطلعات و موتور جستجوها است که به منظور بهبود کارايي سامانههاي بازيابي اطلعات، روي پرسوجو انجام ميگيرد. پرسوجوهاي مبهم و نامناسب بر کارايي اين سامانهها اثر منفي گذاشته و منجر به بازيابي نتايج نامرتبط ميشوند. بسط پرسوجو يکي از روشهاي انطباق پرسوجو است که سعي دارد کلمات مرتبطي را به پرسوجو اضافه کند تا بدينوسيله پرسوجو بتواند توصيف بهتري از موضوع مورد جستجو را داشته باشد. ما در اين مقاله روش بازخورد شبه مرتبط )PRF( را بر بازيابي اوليه که با مدل فضاي برداري )VSM( انجام ميگيرد اعمال کرديم تا براي پرسوجوهاي مختلف نتايج بهتري را بازيابي کنيم. روش بازخورد شبه مرتبط براي بسط پرسوجو توانست کارايي بازيابي اسناد پزشکي را بهبود دهد. با بررسي رفتار روش بازخورد شبه مرتبط )PRF( نشان داديم که در چه شرايطي ميتوان بهترين عملکرد را بدست آورد. آزمايشات روي مجموعهدادهي MED انجام شده و نتايج حاصله مورد بررسي قرار گرفته است.
واژه هاي کليدي
بازيابي اطلعات، مدل فضاي برداري، بازخورد شبه مرتبط، بسط پرسوجو، انطباق پرسوجو.
١- مقدمه
بازيابي اطلعات پاسخگوي نيازهاي کاربران در اينترنت و منابع کتابخانهاي است. سيستمهاي بازيابي اطلعات براي پرسوجوي ارسالي کاربر تعدادي از مرتبطترين اسناد را بازيابي کرده و به کاربر ارائه ميکنند. هر چه کاربر بتواند پرسوجوي دقيق و کاملي را بسازد ميتواند انتظار نتايج بهتري را داشته باشد. اما اگر پرسوجوي کاربر مبهم و نامناسب باشد، نتايج پرت در بازيابي اجتناب ناپذير خواهد شد. روش بازيابي مدل فضاي برداري ]٤[ يکي از روشهاي مورد استفاده در سيستمهاي بازيابي اطلعات ميباشد. در اين روش اسناد و پرسوجو با برداري از کلمات کل مجموعه نشان داده ميشود. و بازيابي روي اين بردارها انجام ميگيرد. با اعمال روشهاي انطباق پرس - وجو ميتوان دقت بازيابي را بهبود داد. بسط پرسوجو به عنوان يکي از روشهاي انطباق پرسوجو، سعي در اضافه کردن کلمات مرتبط به پرسوجو را دارد تا پرسوجو بهبود داده شده، و منجر به توليد نتايج بهتري شود. بازخورد مرتبط ]٢[ سعي در کمک گرفتن از کاربر براي تشخيص اسناد مرتبط و نامرتبط را دارد تا بتواند از اسناد مرتبط بازخورد، کلمات مرتبط به موضوع پرسوجو را به پرسوجو اضافه کند و با استفاده پرسوجوي بسط دادهشده، بازيابي نهايي را انجام دهد. اين روش نتايج جستجو را بهبود ميدهد اما کاربران مايل نسيتند زمان زيادي براي جستجو صرف کنند. اين روش در بين کاربران مورد پسند نيست اما بسياري از وبسايتها از اين روش براي ارزيابي دقت جستجو استفاده مي کنند. روش بازخورد شبه مرتبط ١ )PRF( ]٣[ تعامل کاربر با سيستم بازيابي را به منظور تشخيص اسناد مرتبط را حذف ميکند. براي تشخيص اسناد مرتبط، اين روش فرض ميکند که اسناد رتبه بال به موضوع پرس - وجو مرتبط ميباشند هر چند که ممکن است اسناد نامرتبط نيز در اين بين باشند. سپس از اين اسناد رتبه بال براي استخراج کلمات مرتبط به پرسوجو استفاده ميکند. کلمات بسط استخراج شده با پرسوجو اضافه ميشوند و با استفاده از پرسوجوي بسط دادهشده بازيابي نهايي انجام مي - گيرد. نتايج بازيابي با اين روش نسبت به مدل فضاي برداري نشان از بهبود عملکرد بازيابي را دارد.
هدف از اين تحقيق بررسي کارايي روش بازخورد شبه مرتبط در بازيابي اسناد است. در اين مقاله ما به بررسي اثربخشي روشهاي مدل فضاي برداري و بازخورد شبه مرتبط روي مجموعه دادهي MED پرداخته و نتايج حاصل را بررسي ميکنيم. نشان داده شده است که بازخورد شبه مرتبط نتايج جستجو را نسبت به مدل فضاي برداري بهبود ميدهد. در روش بازخورد شبه مرتبط کلمات با تابع وزندهي TF-IDF2 رتبهبندي شده و رتبهبالترين آنها براي بسط انتخاب ميشوند. ادامهي اين مقاله با بررسي کارهاي پيشين در قسمت ٢ شروع ميشود. در قسمت ٣ و ٤ جزئيات بازيابي با روشهاي VSM و PRF آورده شده است. در قسمت ٥ مشخصات مجموعه دادهي مورد استفاده ذکر شده است.
يادگيري پارامترها و انجام آزمايشات در قسمتهاي ٦و٧ آورده شده است. و نتيجهگيري در قسمت ٨ آورده شده است.
٢- کارهاي پيشين
مدل فضاي برداري به عنوان يکي از روشهاي بازيابي اطلعات، براي بازيابي دادههاي مختلفي استفاده شده است. علوه بر بازيابي اسناد، در بازيابي تصاوير نيز استفاده شده است ]٧[. از روش مدل فضاي برداري براي بازيابي روي مجموعهدادههاي TREC مثل WSJ استفاده شده است ]١[. بهطوري که به عنوان يکي از روشهاي مورد قبول بازيابي در بيشتر سيستمها استفاده ميشود. مدل فضاي برداري همچنين در بازيابي اسناد patent3 نيز استفاده شده است ]٨[. اسناد patent از لحاظ محتوايي به دليل وجود کلمات اختصاري متفاوتتر هستند که مدل فضاي برداري توانسته است در بازيابي اين عملکرد مناسبي داشته باشد ]١١،١٢[.
از روشهاي انطباق پرسوجو، بسط پرسوجو بسيار معمول ميباشد
که تعدادي کلمهي مرتبط را به پرسوجو اضافه ميکند. بازخورد مرتبط ]٢[ روشي براي بسط پرسوجو است که با استفاده از اسناد انتخابشدهي کاربر، کلمات مناسب را براي بسط انتخاب مي کند و به پرس وجو اضافه ميکند. بازخورد شبه مرتبط روشي براي بسط پرسوجو است که شکل خودکار روش بازخورد مرتبط است ]٣[. در روش بازخورد شبه مرتبط تعدادي از اسناد رتبهبال از نتايج اوليه بازيابي شده مرتبط به پرسوجو در نظر گرفته ميشود. از اسناد رتبهبال کلمات بسط استخراج مي شوند و رتبه - بالترين کلمات به پرسوجو اضافه ميشوند. روش بسط پرسوجوي بازخورد شبه مرتبط نشان داده شده است که ميتواند نتايج جستجو را بهبود مي دهد]٣[. روش بازخورد شبه مرتبط همچنين در بازيابي تصاوير نيز استفاده شده است و نتايج بهتري را بدست آورده است ]٩[.
کارايي روش بازخورد شبه مرتبط نسبت به بازيابي پايه با مدل زبان
4 مقايسه شده است و روي ٥ تا از مجموعهدادههاي استاندارد TREC نتايج بهتري نسبت به بازيابي اوليه با مدل زبان را بدست آورده است]١١[.
٣- مدل فضاي برداري
روش مدل فضاي برداري اسناد مجموعه و پرسوجو را به عنوان يک بردار در نظر ميگيرد در اين بردار کلمات بدون وابستگي به همديگر در بردار قرار ميگيرند. اندازهي اين بردار برابر با تعداد کلمات منحصر به فرد در مجموعه ميباشد و به کلمات موجود در سند وزني نسبت داده ميشود.
پرسوجو هم همانند سند با برداري شبيه به آن نشان داده ميشود. وزن - دهي کلمات در بردارها با تابع وزندهي TF-IDF که به صورت فرمول )١( ميباشد محاسبه ميشود.
که در آن فراواني کلمهي در سند d ميباشد.
تعدا اسنادي که کلمهي w را شامل ميشوند، مي باشد. براي بازيابي، اسناد و پرسوجو وزندهي ميشوند و اسناد نسبت به پرسوجو، با شباهت کسينوسي رتبهبندي ميشوند و رتبهبالترين اسناد به عنوان نتايج بازيابي به کاربر ارائه ميشود. محاسبهي شباهت کسينوسي بين يک سند و يک پرسوجو به صورت فرمول )٣( ميباشد ]١١[.
که وزن کلمهي kام در سند d و وزن کلمهي kام در پرسوجوي q ميباشد.
٤- بازخورد شبه مرتبط (PRF)
روش بازخورد شبه مرتبط، روش بازيابي اطلعات نيست بلکه روشي است که به روشهاي بازيابي اطلعات مثل مدل فضاي برداري کمک ميکند تا نتايج بهتري را توليد کند. اين روش فرض ميکند که اسناد رتبهبال از نتايج اوليه، مرتبط به پرسوجو ميباشند و از آنها براي بسط پرسوجو استفاده ميکند. ما |R| تعداد از اسناد رتبه بال را به عنوان اسناد مرتبط انتخاب ميکنيم. پس از انتخاب اسناد رتبهبال، سندي ترکيبي از اين اسناد [unknown error.خطای ناشناخته]ساخته ميشود. به طوري که فراواني يک کلمه در اين سند برابر با مجموع فراواني آن کلمه در همهي اسناد ميباشد. سپس کلمات سند ترکيبي با تابع رتبه بندي TF-IDF رتبهبندي ميشوند و e تعداد از رتبهبالترين کلمات، انتخاب شده و به پرسوجوي اوليه اضافه ميشوند. سپس بازيابي با پرسوجوي بسط داده شده با روش مدل فضاي برداري انجام ميشود.
هدف ما بررسي کارايي روش PRF روي مجموعهدادهي MED است که حاوي چکيدهي مقالت پزشکي است. همچنين بررسي تغييرات کارايي براي مقادير مختلف پارامترها انجام گرفته است.
٥- مجموعه داده ي MED
بازيابي براساس روش مدل فضاي برداري و اعمال بازخورد شبه مرتبط روي مدل فضاي برداري انجام گرفته است. آزمايشات روي مجموعهدادهي
MED که قابل دسترس در ]٥[ ميباشد انجام گرفته است. اين مجموعه داده شامل چکيدهي اسناد است و تعدادي پرسوجو که اسناد مرتبط به هر پرسوجو مشخص شده است. با بررسي آماري محتويات مجموعهداده، جزئيات اين مجموعه داده در جدول ١ آمده است.
جدول ١ - خلاصه اي از جزئيات مجموعه داده
اسناد اين مجموعه داده با الگوريتم ريشهيابي Porter پيادهسازي شده در نسخهي ٥.٧ موتور جستجوي متنباز indri ]٦[ ريشهيابي شده است.
٦- يادگيري پارامترها
کل مجموعهداده به دو قسمت آموزشي و آزمايش تقسيم شده است. با ١١ پرس وجو اول کار يادگيري پارامترهاي روش شبه بازخورد انجام ميگيرد.
تعداد اسناد بازخورد انتخابشده براي بسط ميتواند مقادير متفاوتي داشته باشد که از مجموعه مقادير }١١ ، ١٥ ، ٢١ ، ٢٥ ، ٣١ ، ٥١{ انتخاب مي - شود. تعداد کلمات بسط انتخابشده براي پرسوجو از مجموعه مقادير } ٢
، ٥ ، ١١،٧ ، ١٥{ انتخاب شده است. وزن پرسوجوي اوليه نسبت به کلمات بسط اضافهشده از مجموعه مقادير }١.٢ ، ١.٤ ، ١.٦ ، ١.٨{ انتخاب ميشود. مقدار پارامترهاي بدستآمده به صورت جدول ٢ ميباشد.
جدول ٢- مقادير پارامترها روي ١٠ پرس وجوي اولِ مجموعه داده ي MED