مقایسه ی روش جستجو از طریق زبان طبیعی و جستجو از طریق اصطلاحات کنترل شده

بررسی مهمی دیگری که در این دوره انجام شد تحقیقی بود که بارها از آن غفلت شده بود.کلوردون (۱۹۷۷) در یک پایگاه فرعي ناسا که از 44000 مدرک تشکیل شده بود، روش جستجو از طریق زبان طبیعی و جستجو از طریق اصطلاحات کنترل شده را با هم مقایسه کرد. جستجوهای درون خطی در چهار مرکز، و با انجام ده جستجو در هر یک از آنها، انجام شد.هر جستجو به یک روش و از طریق نفر اول، و به روشی دیگر از طریق نفر دوم انجام شد. برای دو نفری که موضوع واحدی را، با دو روش مختلف، جستجو کرده بودند، ابتدا درخواست بهرهگیر مطرح شد تا بر روی آنچه که درخواست کننده نیاز دارد توافق حاصل کنند. روش های مختلف جستجو عبارت بودند از:

الف) فقط از طریق اصطلاحات کنترل شده،

ب) از طریق زبان طبیعی در عنوان ها و چکیده ها،

ج) ترکیبی از اصطلاحات کنترل شده و زبان طبیعی،

 د) جستجو به زبان طبیعی که با استفاده از فهرستی از مفاهیم مورد استفاده راهنمایی می شد.

نتیجه آنکه، جامعیت جستجو به زبان طبیعی بسیار بالا بود و مانعیت حاصل آمده نیز با مانعیت حاصل از جستجو از طریق اصطلاحات کنترل شده تفاوت کمی داشتند. کلوردون به درستی نتیجه گرفته است که طول چکیده عامل اصلی دستیابی به چنین نتیجه ای است. متاسفانه، بررسی کلوردون با گزارش نامناسب او همراه است. مثلاً در آن دسته از جستجوهایی که با استفاده از اصطلاحات کنترل شده و زبان طبیعی، هردو، انجام شده بودند، نسبت جامعیت و مانعیت کمتر از جستجوهایی بود که فقط با استفاده از زبان طبیعی انجام شده بود. این نتیجه کاملاً مخالف با انتظار فرد است و بیان علت چنین نتیجه ای نیز دشوار است، به ویژه آنکه انجام دو بار جستجو با روشی مشترک ، همان مدارکی را بازیابی کرد که جستجو به زبان طبیعی بازیابی کرده بود.

کلوردون در توضیح این نابهنجاری کوتاهی کرده است. نابهنجاری دیگر آن بود که جستجو به زبان طبیعی که با استفاده از فایلهای مفهومی سیستم تقویت شده بود، به نسبت جستجوهای انجام شده به زبان طبیعی، کارایی کمتری را ارائه دادند. این مسئله نیز به روشنی توضیح داده نشده و برای خوانندگان گزارش کلوردون دشوار است که خود نتیجه گیری کنند، زیرا تعریفی که از فایل مفهومی سیستم ارائه شده است نیز کاملاً روشن نیست. تنها چیزی که میتوان از توصیفی کلوردون حدس زد آن است که نتایج او از هم حضوری اصطلاحات موجود در عناوینِ مدارکی که در مجموعه وجود داشتند استخراج شده است.

در مقال های دیگر، مارتین (۱۹۸۰) توضیحاتی را ارائه داد اما خود نیز ابهاماتی بر آن افزود. او توضیح داد که اجزاي زبان طبیعي پایگاه اطلاعاتی، از کلمات مفردی تشکیل شده بود که با استفاده از رایانه از عناوین و چکیده ها استخراج شده بودند، اما بعداً برای حذف واژگان غیرمجاز و عادی سازی واژگان - حذف اشکال مختلفی کلمه ای و تلفظی - نیروهای انسانی این کلمات استخراجی از پایگاه را ویرایش کردند. فایل مفهومی، فایلی بود که از کلیدواژه های استخراج شده از عنوان تشکیل شده بود و بسامد هر کلمه را نشان میداد. مارتین نتایج را به صورت زیر خلاصه می کند: درصد جامعیت درصد مانعیت

                                                            اصطلاحات کنترل شده                   

                                                   زبان طبیعی

                                                زبان طبیعی + اصطلاحات کنترل شده

سپس میگوید: به ازای هر مدرک مرتبطی که از طریق زبان کنترل شده بازیابی شده بود، زبان طبیعی ۱/۴ مدرک، و زبان طبیعی بعلاوه اصطلاحات کنترل شده ۱/۶ مدرک ... را بازیابی کرده بودند.