تاریخچه ی روش های نوین استفاده از زبان طبیعی در بازیابی اطلاعات

تاریخچه

روش هاي نوین استفاده از زبان طبیعی در بازیابی اطلاعات می تواند به نظام تک اصطلاحی بازگردد که تاو به ۵ در سال ۱۹۵۱ آن را توصیف کرده بود. اصول نظام تکاصطلاحی، درخواستی بلافصل و فوری را برانگیخت: باید با استفاده از اصطلاحاتی واحد (تک اصطلاح) که نمایه سازان از متن مدارک استخراج کرده اند، محتوای موضوعی مدارک را، به روشی مناسب، توصیف کرد. از طریق تایپ یا نوشتن، شماره های مدارک بر روی کارتهایی چسبانده می شد که به طور خاص برای این منظور تهیه شده بودند. هر کارت یک اصطلاح واحد را ارائه می داد. از طریق مقایسهٔ شماره های دو یا چند کارت (درست به همان روشی که یک سیستم درون خطی، فهرست های شماره های همراه با اصطلاحات را مقایسه میکند)، جستجو انجام می گرفت.

تاو به بر پیشرفت نظام های بازیابی اطلاعات در دهه ۱۹۵۰ تاثیر قابل توجهی داشته است. متاسفانه، نظام تک اصطلاحی برخلاف آنچه که در نگاه اول به نظر میآمد، جاذبه کمتری ایجاد کرد. این نظام همهٔ مشکلاتی را در بر داشت که واژگانه ای کنترل شده برای حل آنها ایجاد شدند. اطلاعات موضوعی کاملاً مرتبط، در زیر چندین تک اصطلاح مختلف ارائه میشدند و برای جستجوی جامع بر روی یک موضوع، کاوشگر باید همهٔ راه هایی که ممکن بود این موضوع در متن ارائه شود را در نظر می گرفت، که البته انجام این کار نیز چندان ساده نبود. این مشکلات باعث شد تا به واژگان کنترل شده و ایجاد اصطلاح نامه های بازیابی اطلاعات توجه شود (هولم و راسمیوبین، ۱۹۶۱). در کنار مشکلات اصطلاح شناختی، نظام تک اصطلاح به محدودیت های مکانیکی نیز دچار بود. یک کاوشگر انسانی به سادگی می تواند فقط دو کارت را به طور همزمان با هم مقایسه کند، بنابراین، برای یک جستجو دربارهٔ موضوع الف که به موضوع اب وابسته است، در جایی که موضوع الف با چهار تک اصطلاح و موضوع با با ده تک اصطلاح بیان شده است، ما به انجام ۱۰ × ۴ مقایسه نیازمندیم. هرچند انجام این همه مقایسه ناممکن نیست اما وظیفه ای بسیار کاربر و وقتگیر است. بعلاوه، هرچند انجام عملیات جبری و (که مستلزم مقایسهٔ شماره ها است) از طریق استفاده صحیح از کارت های تک اصطلاح (یا برگه پیکابو") ساده است، اما در نظام هایی دستی از این نوع، انجام عملیات جبری یا ، به ویژه ترکیب کردن مجموعه هایی از اصطلاحات (با عملگر و) در یک رابطهٔ یا، بسیار دشوار است. البته چنین استفاده هایی از اصطلاح در نظام های رایانه مبنا، عملیاتی پیش پا افتاده است. بنابراین، رایانه، مشکلات مکانیکی که مستلزم استفاده از تعداد بسیار زیادی از اصطلاحات کنترل نشده بود را از میان برداشت اما، به خودی خود نتوانست مشکلات ذهنی حاصل از نبود کنترل واژگان را حل کند.