زبان طبیعی در برابر واژگان کنترل شده

بعضی از عوامل اصلی مؤثر بر کارایی نظامهای بازیابی اطلاعات را  می توان به نمایش گذاشت. در سمت راست، سه بازنمود متن آزاد از یک مدرک (یک عنوان و دو چکیده با طول متفاوت) وجود دارند درحالی که در سمت چپ دو مجموعهٔ متفاوت از اصطلاحات نمایهای (پوششي گزيده جامع نگری از محتوای موضوعی) ارائه شده است. اصطلاحات از اصطلاحنامه UNBIS استخراج شده اند. یکی از عوامل مهم تاثیرگذار بر کارایی نظام های بازیابی اطلاعات تعداد نقاط دسترسی فراهم امده است. بدیهی است که چکیده طولانی، نقاط دسترسی بیشتری نسبت به چکیده مختصر ارائه می دهد و نقاط دسترسی در چکیده مختصر بیشتر از نقاط دسترسی در عنوان است. همچنین، نقاط دسترسی در نمایه سازی جامع تقریباً سه برابر نقاط دسترسی در نمایه سازی گزیده است.

یک جستجوی متنی در عنوان اجازه می دهد تا این مدرک فقط براساسي محتواي موضوعی اصلی خود بازیابی شود. اگر متن بیشتری اضافه شود، می توان مدرک را از طریق جستجو درباره سایر جنبه های مورد بحث نیز بازیابی کرد. چکیده مختصر اجازه خواهد داد تا براساس کلماتی چون، کمک آمریکا، وضعیت فلسطینیان، اسرائیل، کمک آمریکا به اسرائیل و کنفرانس های صلح جستجو کنیم، درحالی که چکیده بلند نقاط بازیابی بیشتری مثل تلاش های صلح جویانه و رهبران خاورمیانه را نیز میافزاید. البته، این مسئله در مقایسهٔ بین نمایه سازی گزیده و نمایه سازی جامع نیز صادق است.

نمایه سازی گزیده فقط عنوان مدرک را برمی تاباند و نقاط بازیابی بیشتری از کلمات عنوان فراهم نمی اورد، درحالی که نمایه سازی جامع از نظر گستره، کم و بیش برابر با چکیده بلند است. باتوجه به قابلیت بازیابی مدارک نمایش داده شده، این طول رکورد – و نه نوع واژگان – است که اهمیت زیادی دارد. از این جنبه، نمایه سازی گزیده برابر است با عنوان، درحالی که ازنظر گسترهٔ پوششي محتوای موضوعی مدرک، نمایه سازی جامع چیزی بین دو چکیده (مختصر و بلند) قرار دارد. از آنجا که چکیده مختصر، به نسبت عنوان یا نمایه سازی گزیده، نقاط دسترسی بیشتری فرآهم می آورد، در نتیجه قابلیت بازیابی مدرک را افزایش می دهد. همچنین، ممکن است نمایه سازی جامع قابلیت بازیابی مدرک را به نسبت یک جستجو در چکیده مختصر افزایش دهد، اما قابلیت بازیابی ان به نسبت جستجو در چکیده بلند کمتر است.