بررسی عملیات بازیابی خودکار

عملیات بازیابی خودکار

از آنجا که نمایه سازی و چکیده نویسی، موضوعات اصلی مطرح در این کتاب هستند، ازاینرو نمایه سازی خودکار و چکیده نویسی خودکار نیز در این فصل مورد توجه قرار دارند. علاوه بر این، روش های خودکار و معین دیگری نیز برای بازیابی اطلاعات وجود دارند که حتی اشاره مختصری به آنها می تواند بعضی از نکات مورد توجه در این فصل را توجیه کنند. در طول سال ها، هدف اصلی برخی از محققین آن بوده است تا فرآیندهایی را گسترش دهند که بتواند درخواستی اطلاعاتی به زبان طبیعی را با متن مدارک - تمام متن، نیمه متن یا نوعی بازنمود - تطبیق دهد. می توان این روش را به عنوان نوعی انطباق الگو در نظر گرفت: می توان به متون موجود در پایگاه اصلاعاتی نوعی امتیاز داد که این امتیاز بیانگر حدی باشد که در آن حد متون پایگاه با متن یک درخواست منطبق می شوند. بنابراین، اجازه داده می شود تا متون موجود در پایگاه، به صورت نتایجی رتبه بندی شده به کاوشگر عرضه شوند. انواع و سطوح مختلفی از انطباق می تواند صورت گیرد.

نمایه سازی مثلاً درخواست زیر را درنظر بگیرید،آسیب شناسی، فیزیولوژی، اشعه نگاری، و درمان ریه با اشعه یا اشعه نگاری التهابات ریوی و فرض کنید که پایگاه اطلاعاتی ما فقط متن چکیده ها را دربر دارد. ساده ترین روش برای انطباق آن است که ببینیم چه تعداد از کلمات درخواست در یک چکیده وجود دارند. بنابراین،چکیده ای می تواند بالاترین امتیاز را دریافت کند که اصطلاحات آسیب شناسی ، فیزیولوژی ، پرتونگاری"، "اشعه و درمان" (یعنی ۵ کلمه از ۸ کلمهٔ مهم موجود در درخواست) را دربر داشته باشد؛ اگر هیچ یک از کلمات موجود در درخواست را در بر نداشته باشد بدیهی است که مرتبط نخواهد بود. میتوان بسیاری از مراحل معمولي انطباق را حذف کرد. یکی از روشها آن است که به هر کلمه یک نمره داده شود. این نمره بیانگر تعداد باری است که آن کلمه در کل پایگاه تکرار شده است. در نتیجه، "التهابات و ریوی باید امتیاز بالایی دریافت کنند زیرا در یک پایگاه پزشکی، این دو اصطلاح به نسبت سایر اصطلاحات، از عمومیت کمتری برخوردارند.