مروری بر تحقیقات مرتبط: قبل از سال ۱۹۸۰

نویسندگان اولیه دربارهٔ تجربه با جستجوی متنی در رشته حقوق، از این توانایی جدید سرشار از شوروشوقی وصف ناپذیر بودهاند. به هرحال، این نویسندگان هیچ تجربه ای نداشتند که بتوانند کاوشهای تمام متنی را با نمایه سازی از طریق واژگان کنترل شده مقایسه کنند. سوانسون (۱۹۶۰) یک مجموعهٔ کوچکی آزمایشی، متشکل از۱۰۰ مقاله در حوزه موضوعی فیزیک، را تشکیل داد و مشخص کرد که کدامیک از آنها با ۵۰ پرسش تعیین شده مرتبط هستند. سپس با استفاده از سرعنوان هایی موضوعی که “اختصاصاً برای حوزه موضوعی فیزیک هستهای طراحی شده بودند این مجموعه را نماسازی کرد. با استفاده از یک مجموعهٔ شبه اصطلاح نامه ای از گروه هایی از کلمات و عبارات، جستجوهای تمام متن انجام شد. نتایج حاصل از این جستجو بهتر از نتایجی بود که از طریق استفاده از سرعنوان های موضوعی به دست می آمد.

به نظر میرسد که تحقیق کرانفیلدا درباره ویژگی ها و کارایی های زبان های نمایه، بر قانع شدن بسیاری از متخصصین اطلاع رسانی نسبت به اهمیت زبان طبیعی در بازیابی اطلاعات تاثیر عمیقی داشته است. همانطور که کلوردون” و دیگران (۱۹۶۶) گزارش داده اند، این بررسی فقط یک تحقیق آزمایشی و کنترل شده بوده است.

یک مجموعه آزمایشی، متشکل از ۱۴۰۰ مقاله تحقیقاتی که اغلب در حوزه موضوعی آیرودینامیک بودند، به  روش های مختلف نمایه شدند: ۱) مفاهیم مورد بحث عیناً ثبت شدند (مثل، خسارات آبشاره )، ۲)مفاهیم به کلمات سازنده خود تقسیم شده و به صورت مفرد ثبت شدند ( خسارت ، آبشاره)، و ۳) مفاهیم مرتبط با هم جمع شده و پیوندها” یا مضمون هایی را شکل دادند (مثل جریان محوری کمپرسور / خسارت آبشاره)، مدارک به روشی جامع نمایه شده بودند: ۳۰ تا ۵۰مفهوم برای هر مدرک غیر مشترک. یک مجموعه آزمایشی متشکل از ۲۲۰ سؤال تهیه شد. این سؤالات، که متخصصین موضوعی آنها را طرح کرده بودند، براساس مقالاتی تحقیقی که آنها خود نویسنده آن بودند تدوین شده بود. دانشجویان کارشناسی ارشد دانشکده هوانوردی (کالیفرنیا، انگلستان) این مجموعه سؤالات را بررسی کرده و مدارک مرتبط را برای طراحان سؤال ارسال کردند. مقیاس ارزیابی ۵ امتیازی بود. در نتیجه، مشخص شد که چه مدارکی از مجموعه (لااقل از دید طراحان آن سؤال) به هر سؤال مرتبط بودند و کدام ها مرتبط نبودند. کل بررسی در فضایی شبیه سازی شده انجام شد. انواع مختلفی از واژگان، از ساده ترین (کلمات مفرد بدون هیچ کنترلی، تلفیق کلمات مفرد / جمع، نوعی کلمات کنترل شده جستجوی ریشه کلمات، کنترل سادهٔ مترادفات) گرفته تا پیچیده ترین (دسته بندی اصطلاحات براساس سلسله مراتبی شبیه به رده بندی سلسله مراتبی) گردآوری شدند.

در مجموعه آزمایشی و در شرایطی که برای هر درخواست از واژگان متفاوتی استفاده می شد، برای هر سؤال ۳۳ مدرک پیدا شد. در نتیجه این امکان فرآهم آمد که بتوان نتایج حاصل از انواع واژگان را با هم مقایسه کرد. وقتی مقیاس های اندازه گیری جامعیت و مانعیت در یک مقیاس واحدی کارایی (که آن را “جامعیت متعارف” مینامند) ترکیب شدند، واژگانی که از اصطلاحات تک کلمه اي زبان طبیعی تشکیل شده بودند به نسبت دیگر انواع واژگان بهتر عمل کردند. بررسی کرانفیلد بسیار بحث برانگیز بود و در طول سالها، انتقادات مهمی بر آن وارد آمد. به هرحال، بسیاری از این انتقادات، حاصل درک نادرست از کاری بود که واقعاً در تحقیق انجام شده بود.

مثلاً سورگل (۱۹۸۵) نظر داده بود که هم نمایه سازی و هم زبان نمایه کیفیت مبهمی دارند. از آنجا که من یکی از این نمایه سازان بودهام می توانم بر دقت زیادی که برای نمایهسازی به کار رفت و اینکه نمایه سازان تجربه بسیار قابل توجهی در نمایه سازی داشته اند گواهی دهم. حتی امروزه هم انتقادها بسیار سطحی است. بعضی از نویسندگان تلاش کرده اند تا این نتایج را بیاعتبار جلوه دهند، زیرا از آنجا که سؤالات منطبق با مدارکی واقعی بوده است، این نتیجه باعث خواهد شد تا گرایشات و سوگیری ها به نفع زبان طبیعی تغییر یابد. دشوار است درک کنیم که این انتقاد با توجه به این حقیقت شکل گرفته بود که مدارکی که طراحان سؤالات مرتبط تشخیص داده بودند، همان مدارکی نبودند که سؤالات از آنها استخراج شده بود.