نظریه ی باکسن دال در معیار بسامدی واژگان وجمله موضوعی

معیار بسامدی واژگان را می توان با سایر معیارها مورد استفاده قرار داد. مثلاً باکسن دال (۱۹۸۵) (۱۹۵۸) پیشنهاد داده بود که فقط اولین و آخرین جملات هر پاراگراف پردازش شوند زیرا یکی از دانشجویان او نشان داده بود که اولین جمله یک پاراگراف در ۸۵ درصد موارد و جمله آخر یک پاراگراف در ۷ درصد باقیمانده، جمله موضوعی هستند. جمله موضوعی جمله ای است که بیشترین اطلاعات را دربارهٔ محتوی فرآهم می آورد. در اولین روزهای ابداع نمایه سازی خودکار، روش های متنوع دیگری نیز برای شناسایی بخش های "اطلاعاتی متن پیشنهاد یا آزمایش شد؛ برنامه های رایانه ای باید عناصری مثل موارد زیر را جستجو میکردند؛ گروه قیدی، متنی که پس از کلماتی خبری مثل نتیجه گیری و خلاصه ظاهر میشدند، و بخش هایی از متن که پربسامد ترین کلمات اسمی را در بر داشتند.

یکی از معایب استفاده از کلمهٔ ساده یا بسامد عبارت برای انتخاب اصطلاحات آن بود که حتی پس از استفاده از فهرست کلمات ممنوعه ، بعضی از کلمات که کراراً در متن تکرار می شدند ممکن بود عامل تشخیصی " مناسبی نباشند زیرا آنها در کل پایگاه نیز بارها تکرار می شدند. مثلاً، کلمات "کتابخانه " و "اطلاعات عامل تشخیصی مناسبی برای انتخاب یک مدرک در بین مجموعه ای از مدارک در حوزه علوم کتابداری و اطلاع رسانی نبودند. در نتیجه، ممکن بود در یک مدرک خاص، کلمه کتابخانه دوازده بار تکرار شده باشد درحالی که بسامد کلمه پنبهٔ نسوز فقط چهار بار باشد. با این وجود، کلمه پنبه نسوز عامل تشخیصی بهتری است،

زیرا اصطلاحی است که به ندرت در متون مربوط به علوم کتابداری و اطلاع رسانی تکرار می شود. در این حوزه موضوعی ممکن است کلمه بسیار مهمی وجود داشته باشد که فقط یک بار در مدرک ظاهر شده است. بسامدی که براساس یک کلمه در یک مدرک تکرار می شود، تنها بسامدی نیست که باید در پردازش های رایانه ای متن مورد توجه قرار گیرد. بسامدی که براساس آن یک کلمه در یک پایگاه اطلاعاتی ظاهر می شود حتی اهمیت بیشتری دارد. یعنی، بهترین عاملهای تشخیصی، کلماتی هستند که در یک مجموعه، نادر و پیشبینی نشده هستند، مثل کلمهٔ پنبهٔ نسوز در حوزه علوم کتابداری و کلمه "کتابخانه در پایگاهی در یک کارخانهٔ پنبه نسوز، درحقیقت، محاسبهٔ بسامد ظاهرشدن یک کلمه در کل پایگاه ضرورتی ندارد بلکه باید بسامد حضور آن کلمه در فایل مغلوبی را اندازه گیری کرد که برای جستجوی متن مورد استفاده قرار میگیرد (یعنی، تعداد تکرار یک کلمه، با تعداد تکرار همهٔ کلمات در فایل ربط می یابد). درواقع، به جای اینکه بسامد مطلق حضور یک کلمه در متن را اندازه گیری کنند، بسامد نسبی آن واژه را در گلچینی از اصطلاحات اندازه گیری میکنند (اسوالدا و دیگران، ۱۹۵۹)،

در این روش، کلمات یا عبارات در صورتی انتخاب میشوند که بسامد حضور آنها در یک مدرک بیشتر از نسبت حضور آنها در پایگاه اطلاعاتی باشد. این روش کمی پیشرفته تر از روشی بسامد صرفی کلمات در متن است زیرا باید تعداد تکرار هر واژه در پایگاه (نسبت به تعداد ܢ̈ܘܼܟܼܘܫܨ حضور واژه در پایگاه) اندازه گیری شده و این نسبت حضور با نسبت حضور واژه در یک مدرک خاص مقایسه شود.