بخشی از پاورپوینت
اسلاید 1 :
بازیابی اطلاعات در وب
درس نوشت # 10:
گسترش پرس و جو در موتورهای جستجو
اسلاید 2 :
موتورهاي جستجو: چالشها و مشکلات
بهبود نتايج به کمک پردازش پرسوجو
روشهاي تغييردهنده پرسوجو
روشهاي غيرتغييردهنده پرسوجو
بررسی چند روش پایه
مروري بر محتواي ارائه
اسلاید 3 :
موتورهاي جستجو: معماري
اسلاید 4 :
مهمترين چالشهاي موتورهاي جستجو، عبارتند از:
تعدّد و تنوّع اسناد
ارزشيابي اسناد
تنوّع زبان هاي مورد استفاده در اسناد
اختلاف در بازنمايي زباني
اختلاف در نگارش
افزايش/کاهش فاصله و نيمفاصله ( نرمافزار ، نرم افزار )
علائم نگارشي و حروف متفاوت ( مثلاً ، مثلا / آلمان ، المان )
اختلاف در معنا
تأويل (چگونه ميتوانم دوچرخهام را تعمير کنم؟ ، چگونگي تعمير دوچرخه )
بازآرايي و بازنويسي ( کيف چرم زنانه ، کيف زنانه چرم )
چند معنايي و ترادف (رابطه هم پدري و برادري)
موتورهاي جستجو: چالشها و مشکلات
اسلاید 5 :
پردازشهايي که براي بهبود نتايج به کار گرفته ميشوند براساس نوع منبع مورد استفاده به دو دستهي زير تقسيم ميشوند:
مبتني بر اسناد خزش شده و اطلاعات وب
با دخالت پارامترهاي زير در رتبهبندي اسناد،
ساختار اسناد
اعتباردهي مبتني بر ارجاع
دستهبندي موضوعي
مبتني بر پرسوجوهاي کاربران
با اعمال تغييراتي در پرسوجو، مانند
تصحيح املايي
گسترش پرسوجو
موتورهاي جستجو: پردازشهاي بهبود نتايج
اسلاید 6 :
پردازشهاي پرسوجوکه نقش بهبوددهنده دارند، به دو دسته زير تقسيم ميشوند:
پردازشهاي تغييردهنده پرسوجو
اين پردازشها با اعمال تغييراتي در پرسوجو تلاش ميکنند تا دقّت بازيابي را افزايش دهند.
پردازشهاي غيرتغييردهنده پرسوجو
اغلب اين پردازشها مستقيماً در فرايند بازيابي اطلاعات نقشي ايفا نميکنند، بلکه زمينه اطلاعاتي لازم براي اعمال روشهاي تغييردهنده را فراهم ميآورند.
پردازش پرسوجو
اسلاید 7 :
شماي کلي دستهبندي روشهاي بهبوددهنده
اسلاید 8 :
هدف اصلي: تغيير پرسوجو به نحويکه نتايج مرتبط بيشتري در رتبههاي بالاتري قرار بگيرند.
اهداف جزئي :
گسترش دامنهي جستجو در نمايه
شبيهتر نمودن پرسوجو به محتواي اسناد وب
چشم پوشي از بخشي از پرسوجو
افزايش بخشهايي به پرسوجو
تغيير در رتبهبندي اسناد بازيابي شده
تعيين اهميت هر بخش از پرسوجو
گسترش پنجرهي جستجو در نمايه
پردازشهاي تغييردهنده پرسوجو
اسلاید 9 :
انواع روشهاي تغييردهنده پرسوجو عبارتند از:
تصحيح املايي
ريشه يابي
بازنويسي پرسوجو
کاهش پرسوجو
افزايش کلمه به پرسوجو
جايگزيني کلمات
روشهاي تغييردهنده پرس و جو
Q = روستاهاي کاشان
Q = روستا کاشان
اسلاید 10 :
روشهاي غيرتغييردهنده بيشتر نقش پيشپردازش را براي پردازشهاي تغييردهنده ايفا ميکنند. از آنجمله ميتوان به موارد زير اشاره کرد:
تعيين عبارت چندکلمهاي
عموماً عبارتهاي فعلي و اسمي ( قرمه سبزي خوشمزه: اسمي / کارکردن: فعلي )
تعيين موجوديت نامدار
موجوديت هاي انساني و موسسات (دکتر حميدرضا ربيعي/سازمان هدفمندسازي يارانه)
تعيين وزن کلمات پرسوجو
بيماري در ماه مبارک رمضان (مبارک ارزش کمتري دارد.)
تعيين مفاهيم کليدي
بيماري در ماه مبارک رمضان (بيماري و رمضان مفاهيم کليدي هستند)
کلاسهسازي پرسوجو
با من صنما با صداي شجريان : موسيقي زندگينامه محمد رضا شجريان: اشخاص
پيشنهاد پرسوجو
پردازشهاي غيرتغييردهنده پرسوجو
اسلاید 11 :
اگر بتوان پرس و جويي مانند q را به پرسوجويي مانند q’ به نحويکه شباهت q’ با اسناد وب بيشتر از q باشد، يعني:
نکته: فرايند گسترش پرسوجو به صورت عام ميتواند شامل انواع پردازشهاي تغييردهنده باشد ولي معمولاً در قالب جايگزيني کلمات پرسوجو به اجرا در ميآيد.
گسترش پرسوجو
اسلاید 12 :
کلمات چندمعنایی
مثال: مرد (انسان مذکر، انسان به صورت عام، انسان مذکر بالغ)
اشتقاق/تصریف
مثال: کتاب ها کتاب
تفاوت در ترتیب کلمات
مثال: جنگ بدنبال مناقشه : مناقشه بدنبال جنگ
کلمات کلیدی مرتبه دوم
مثال: گربه سیامی : گربه سانان
عبارات غیرطبقه بندی شده
مثال: Tiger : Operating System/ Cat
عدم همخوانی بازنمایی زبانی
اسلاید 13 :
تصفیه تعاملی پرس و جو
تولید کاندیداها و تنفیذ اتخاذ تصمیم به کاربران
بازخورد مرتبط
تولید کاندیداها، تغییر پرس و جو برای شبیه تر شدن به محتوای وب
رفع ابهام معنایی
تولید کاندیداها با واژه نامه و فرهنگ واژگان
خوشه سازی اسناد
خوشه سازی در اطراف پرس و جو
تکنیک های گسترش پرس و جو
اسلاید 14 :
روشهاي گسترش پرسوجو براساس نوع دادگان مورد استفاده به دستههاي زير تقسيم ميشوند:
روش هاي مبتني بر دادگان زبان شناسانه
استفاده از فرهنگهاي واژه و هستان شناسيها
روشهاي احتمالاتي مبتني بر پيکره
پيکرههاي آماده شده از اسناد خبري، علمي و حتي ويکيپديا
روشهاي مبتني بر پردازش پرس وجو و تاريخچهي پرس وجو
استفاده از سابقه جستجو، پرسوجو، IP، اطلاعات جغرافيايي و موارد مشابه
روشهاي مبتني بر تحليل وب
متن صفحات وب، انکورها و عناوين.
روشهاي گسترش پرسوجو
اسلاید 15 :
کلماتی نکه در پنجره های مشابه تکرار می شوند
استفاده از معیارهای شباهت معنایی
Tanimoto
Normalized Google Distance
روشهاي گسترش پرسوجو (هم وقوعی)
اسلاید 16 :
عبارت های مندرج در ترجمه های متفاوت از یک عبارت معادل همدیگر هستند.
روشهاي گسترش پرسوجو (مبتنی بر ترجمه ماشینی)
English
Foreign Language
Src
Trn
Syn
اسلاید 17 :
عبارت های مندرج در ترجمه های متفاوت از یک عبارت معادل همدیگر هستند.
بازنویسی دقیق
automobile insurance → automotive insuranceبازنویسی تقریبی
apple music player → ipod shuffleبازنویسی های ممکن
eye-glasses → contact lenses,
عدم همخوانی واضح jaguar xj6 7→ os x jaguar
عبارت های جایگزین
اسلاید 18 :
جفت سازی پرس و جوها
تعیین عبارت های پرس و جو
(britney spears) (mp3s) → (britney spears) (lyrics)
تعیین شباهت عبارت ها
تولید کاندیداها و رتبه دهی
استخراج عبارت های جایگزین
اسلاید 19 :
ارزيابي فرايند گسترش پرسوجو به روشهاي مختلف صورت ميگيرد:
ارزيابي ميزان بهبود فرايند بازيابي
استفاده از پارامترهايي نظير P@N، Precision و MRR
ارزيابي ميزان تأثير بر رضايتمندي کاربران
ارزيابي مستقيم
مصاحبه با کاربران
ارزيابي غيرمستقيم
بررسي تغييرات ميزان کليک کاربران
ارزيابي ميزان تأثير بر عدم هم خواني عبارتي
حذف برخي از کلمات پرسوجو از اسناد مرتبط (و نه اسناد غيرمرتبط)
ارزيابي فرايند گسترش پرسوجو
اسلاید 20 :
چالشهاي موتورهاي جستجو
پردازش پرسوجو
اهميت فرايندهاي تغيير پرسوجو
نقش فرايندها غيرتغييردهنده براي تامين اطلاعاتي
جمعبندي