چگونگی تهیه ی فهرستی از مدرکی براساس بسامد نسبی

تهیه فهرستی از کلمات یا عبارات یک مدرک براساسي بسامد نسبی، دشوارتر از تهیهٔ فهرستی از کلمات یا عبارات است که براساس بسامد مطلق تهیه شده باشد؛ اما اساساً اینطور نیست. بسامد بسیاری از اصطلاحات، در هر دو صورت یکسان هستند. تعداد کمی از اصطلاحات جدید وجود خواهند داشت که به ندرت - شاید یک بار - در یک مدرک خاص یافت می شوند، و تعداد تکرار آنها در کل پایگاه نیز بسیار کمتر است. حضور فقط یک بار در مقاله ای با طول ۵٫۰۰۰ کلمه بسیار بااهمیت خواهد بود، اگر آن کلمه فقط پنج بار در یک پایگاه اطلاعاتی، متشکل از ۱۰ میلیون کلمه، تکرار شده باشد. بدیهی است اصطلاحاتی که از نظر دور می مانند اصطلاحاتی خواهند بود که کراراً در پایگاه اطلاعاتی تکرار شدهاند - گرچه ممکن است در یک مدرک نیز بارها تکرار شده باشند.

البته، اصطلاحاتی که براساس بسامد مرتبط انتخاب می شوند با اصطلاحاتی که براساس بسامد مطلق انتخاب می شوند تفاوت زیادی ندارند. برای بازیابی کارآمد اطلاعات، فرد به اصطلاحاتی نیاز دارد که برای مدارک عامل تشخیصی خوبی به شمار میآیند و نیز اصطلاحاتی که طبقه های مناسبی از مدارک را شکل میدهند. در جستجوي مدارکی بسیار نادر، دستیابی به نتیجه صفر سودمند است - تنها مدرک در پایگاه شاید مدرکی باشد که دربارهٔ خطرات پنبه نسوز در سقف کتابخانه بحث می کند - اما فرد علاقمند است گروه هایی از مدارک مرتبط با آن را نیز بازیابی کند. در یک پایگاه اطلاعاتی در حوزه علوم کتابداری و اطلاع رسانی ممکن است بسامد کلماتی مثل خطرات یا اتفاقات به کمی بسامد کلمهای چون پنبه نسوز نباشد اما استفاده از انها برای بازیابی طبقات معینی از مدارک که ممکن است موردعلاقه برخی از بهره گیران باشند سودمند است. برای بازیابی کارآمد، عموماً فرد به طبقه ای نیاز دارد که بیش از یک مدرک را در بر داشته باشد.

بنابراین، بسامد مطلق، بسامد مرتبط یا ترکیبی از این دوو نيز معياړ جايگاه کلمه یا معیار نحوی، از جمله معیارهای استخراج اصطلاحات از مدارک هستند. البته اگر از یک روش مرتبط برای گزینش کلمات استفاده شود، تهیه فهرستی از کلمات ممنوعه واقعاً غیرضروری خواهد بود: حروف اضافه، حروف ربط و حروف تعریف بارها در یک مدرک خاص تکرار می شوند اما از آنجا که تکرار آنها در کل پایگاه نیز زیاد است، درنتیجه به همراه اسامی و حروف عام (مثل کلمه کتابخانه در یک پایگاه علوم کتابداری) پس زده خواهند شد.

همچنین میتوان براساس انطباق با واژهنامه ای از اصطلاحات قابل پذیرش ، اصطلاحات مورد نیاز را استخراج کرد. این روش مبنایی برای توسعهٔ نوعی نمایه سازی ماشینی بود که در دههٔ ۱۹۷۰ در مرکز مستندسازی وزارت دفاع آمریکا ابداع شد (مثلاً به اثر کلینگ بیل نگاه کنید). در واقع، زنجیره های کلمه ای موجود در عناوین و چکیده ها با یک پایگاه زبان طبیعی" مقایسه می شدند. آن دسته از زنجیره های کلمه ای که با زنجیره کلمات پایگاه همخوان بودند به عنوان اصطلاحات نمایه ای برگزیده میشدند. یعنی آنها باعث میشدند تا توصیفگرهایی از اصطلاحنامهٔ مرکز مستندسازی وزارت دفاع به مدارک اختصاص یابند. کلینگ ہیل و رینکر (۱۹۷۶) نتایج حاصل از نمایه سازی ماشینی را با نتایج حاصل از نمایه سازی انسانی مقایسه کردند.

دراثر نتایج حاصل از سه بررسی، آنها نتیجه گرفتند که نمایه سازي ماشینی ویرایش نشده " می تواند به سطحی از جامعیت دست یابد که با سطح جامعیت حاصل از نمایه سازی ماشینی قابل مقایسه است، و سطح مانعیت آن نیز به خوبی سطح مانعیت نمایه سازی انسانی است. نما به سازی ماشینی ویرایش شده، به جامعیتی قابل مقایسه با جامعیت نمایه سازی انسانی دست یافت اما نسبت مانعیت آن بهتر از مانعیت حاصل از نمایه سازی انسانی بود. اکنون در مرکز اطلاعات هوایی ناسا از این روش نمایه سازی استفاده می شود (سیلوستر" و دیگران، ۱۹۹۳، ۱۹۹۴).