مقایسه کارایی پایگاه های تمام متن با پایگاه های واژگان کنترل شده

بررسی متونی که دراینجا به آنها اشاره شده است باعث شد تا او بیشتر بر تحقیقاتی تکیه کند که کارایی پایگاه های تمام متن را با پایگاه های واژگان کنترل شده (پایگاه هایی که در هنگام جستجوی بولی از واژگان کنترل شده استفاده می کنند) مقایسه می کردند. گرچه به مطالعات دیگری نیز اشاره شده بود، اما هیچ تلاشی برای بررسی همهٔ متونی صورت نگرفته است که با استفاده از عملگرهای بولی، بر جستجوی متنی تاکید داشته اند. در فصل بعد بعضی از جستجوهایی از این نوع را بررسی خواهیم کرد.

از این بررسیها مشخص می شود که گرایش افراطی به جستجو از طریق زبان طبیعی، با ذشت سالها کاهش یافته است و در این راستا بسیاری از مشکلات مربوط به آن نیز به خوبی شناسایی شده اند. بعضی از تحقیقات اولیه، بر روی پایگاه های آزمایشی بسیار کوچک انجام شدهاند. در جایی که مدارک معدودی بازایابی شدهاند، چون فرد میتواند مانعیت پایین را نادیده بگیرد، در نتیجه امکان دستیابی به سطح قابل پذیرشی از جامعیت وجود دارد. وقتی جستجو در پایگاه هایی انجام شود که از صدها هزار مدرک تشکیل شدهاند وضعیت به کلی تغییر خواهد کرد. در اینجا دیگر سطوح پایین مانعیت پذیرفتنی نیست زیرا تعداد مدارک بازیابی شده (همپوشانی نتایج) زیاد است و به همین نسبت نیز دستیابی به جامعیت بالا به همراه سطح قابل قبولی از مانعیت دشوار میگردد. به هرحال، شواهدی وجود دارد (مثلاً وانگر و دیگران، ۱۹۸۰) که این مسئله نه فقط در جستجوهای متن آزاد، بلکه در سیستم های عظیمی که بر کنترل واژگان متکی هستند نیز صادق است. ایجاد تمایز بین اصطلاحات متن آزاد و تمام متن بسیار ضروری است.

نتایج حاصل از بررسی بر روی پایگاه های تمام متن را نمی توان خود به خود بر پایگاههایی اعمال کرد که کمتر از تمام متن هستند (مثلاً چکیده ها را دربر دارند). مشکلات مربوط به مقیاس نیز با پایگاه های تمام متن عجین شدهاند. یعنی، در پایگاه های بزرگی تمام متن، دستیابی به سطح قابل قبولی از جامعیت و سطح قابل تحملی از مانعیت بسیار دشوارتر است. پایگاه های تمام متن باید جامعیت بیشتری ارائه دهند، اما میزان مانعیت آنها پایین تر از پایگاه هایی است که کمتر از تمام متن هستند. تنوپایر (۱۹۸۴) این موضوع را به روشنی نشان داده است.این یک واقعیت ناگوار است که بیشتر تحقیقاتی که وانمود میکنند کارابی بازیابی های تمام متن را با کارایي اصطلاحات نمایه ای که از واژگان کنترل شده گزینش شدهاند مقایسه میکنند، در واقع چنین نمیکنند.

به بیان دقیق تر، آنها کارایی بازیابی رکوردهایی با طول متفاوت را مقایسه کردهاند. در یک مقایسه بین اصطلاحات کنترل شده و متن ازاد، باید از رکوردهایی با طول یکسان (مثلاً تاحد ممکن باید همهٔ موضوعاتی که در یک چکیده وجود دارند را به اصطلاحات کنترل شده ترجمه کرد) و نیز راهبرد کاوش مشابهی استفاده کرد (یعنی، باید یک راهبرد مفهومی تهیه شده و سپس آن را به الف) توصیف متنی، و ب) اصطلاحاتی گزینشی از واژگان کنترل شده ترجمه کرد). به نظر نمیرسد که در مطالعات کرانفیلد هرگز چنین کاری انجام شده باشد. تنوپایر راهبردهای جستجوی خود را کنترل کرده بود اما از آنجا که از یک پایگاه روزآمد استفاده کرده بود، بر طول رکوردها کنترلی نداشت.

در نتیجه، نتایج او بیشتر به طول رکوردها مربوط بود نه با مناقشات مربوط به زبان طبیعی / واژگان کنترل شده. همچنین نکته ناگوار دیگر آن است که طرفداران یک چند مسلک که نمیخواهند این حقیقت را بپذیرند که زبان طبیعی و واژگان کنترل شده هر یک مزایای خاص خود را دارند، براساس شواهد داستان گونه، ادعاهای نسنجیده ای را در متون مطرح میکنند. برای مشاهده نمونه ای مناسب، به اثر فوگتن (۱۹۸۷) نگاه کنید.