مروری بر تحقیقات نمایه نویسی پس از سال ۱۹۸۰ - بخش دوم

اگر مثالی که کوکو ارائه داده است را نشانگر همهٔ مدارکی بدانیم که در پایگاه وجود دارند،متن افزوده شده در پایگاه وستلاو تقریبا دو برابر متن سرمقالهٔ سردبیری است. بنابراین،به دشواری میتوان پذیرفت که جستجو در متن سرمقالات سردبیری نتای بیشتری را به دست داده باشد (۹۱۳ در برابر ۷۲۸، هرچند که نمیدانیم چه تعداد از آنها مرتبط بوده اند). درحقیقت، فرد منطقاً باید انتظار داشته باشد که دوبرابر کردن طول متش باید بیش از ۲۰٪ بر تعداد مدارک بازیابیلی شده بیفزاید. درحقیقت، این افزایش بازیابی را نباید به حساب همپوشاني بین متن و سرمقالات سردبیری گذاشت. نتایج این بررسی از همان آغاز قابل پیش بینی بود؛ ما هرگز به تحقیقاتی نیاز نداریم که به ما بگویند دوبرابر کردنِ متن بر تعداو مدارک بازیابی شده خواهد افزود.

بلیر و مارون (۱۹۸۵) در یک پایگاه حقوقی و بر روی سیستم STAIRS تحقیقی نسبتاً گسترده تر را انجام دادند (حدود ۳۵۰٫۰۰۰ صفحه یا ۴۰,۰۰۰ مدرک و چهل درخواست). جمعی از شبه حقوقدانان جستجوهای درون خطی مفصل و دوسویه ای را انجام دادند و فقط زمانی دست از جستجو کشیدند که وکلای دعاوی که برای آنها کار می کردند اظهار داشتند که حداقل ۷۵٪ از مدارک مرتبط بازیابی شده است. به هرحال، از طریق نمونه گیری از محققین تخمین زده شد که جامعیتی بیش از ۲۰ درصد حاصل نیامده است. انها نتیجه گیری کردند که نتایج آنها، شبهاتی بسیار جدی درزمینهٔ کارایی جستجوهای تمام متن ایجاد کرده است. آنها همچنین برپایهٔ برخی از تحلیل های هزینه ای بسیار نامشخص نتیجه گرفتند که جستجوی تمام متن به نسبت سایر روش های جایگزین بسیار پرهزینه تر است. آنها در تحقیق خود به کلی این حقیقت را نادیده گرفتند که سیستم های عظیم واژگان کنترل شده نیز ممکن است نتایجی بهتر از نظام های تمام متن را ارائه ندهند. مثلاً در یک بررسی بر روی ۵۳۵ جستجو در پایگاه مدلاین که با استفاده از ۱۹۱ کاوشگر مختلف انجام شد، گفته شده است که جامعیتی با میانگین فقط ۲۳٪ و مانعیتی برابر با ۶۷ ٪ حاصل آمده است (وانگر" و دیگران، ۱۹۸۰). دابنی (۱۹۸۶a)، هرچند براساس نتایج بررسی های پلیر و مارون، بحث فوق العاده ای را دربارهٔ مشکلات بازیابی تمام متن در حوزه حقوق مطرح کرده است. دراینجا، اشاره به پاسخ های مک درموت " (۱۹۸۶) و ریند " و لیندبرگ (۱۹۸۶) به دابنی، و نیز اظهارنظر تکمیلی دابنی (b1986)در این خصوص خالی از فایده نخواهد بود. سالتونa1986) )در زمینهٔ تحقیقات پلیر و مارون بررسی جامعی انجام داده است. او از حاصل بررسیهای آنها نتیجه میگیرد که پایگاه های نمایهسازی شده انسانی، به نسبت سایر پایگاه ها بهتر عمل میکنند. تئوپایر (۱۹۸۴) یکی از تحقیقات عالی در زمینهٔ مقایسهٔ جستجوی تمام متن با چکیده و نمایه سازی کنترل شده را انجام داده است. تنوپایر با انجام بیش از ۳۱ جستجو بر روی پایگاه درون خطي گزارشی تجاری هاروارد" نتایج زیر را به دست آورده است:

جداول هزینه ای تنوپایر را نمی توان چندان جدی گرفت زیرا او برای دستیابی به قضاوت دربارهٔ ربط، هزینه های دریافت نسخه های مدارک را نیز محاسبه کرده است، در صورتی که در زندگی واقعی این مسئله به ندرت اتفاق میافتد (یعنی، باید براساس عناوین و / یا چکیدههایی که بهره گیران به صورت درون خطی مرور کردهاند قضاوت کرد). شاید نتیجهٔ مهم حاصل از یافته های تنوپایر آن باشد که جستجو از طریق اصطلاح کنترل شده، مدارکی را بازیابی کرده است که از طریق جستجوی تمام متن به دست نیامد و برعکس. او همچنین بر ضرورت استفاده از هر دو روش تاکید میکند. اخیراً رو (۱۹۸۸) یک بررسی تکمیلی دربارهٔ پایگاه گزارش تجاری هاروارد انجام داد و نتایجی شبیه به بررسیهای تنوپایر به دست اورد.