نمایه سازی استخراجی خودکار
در ابتدای این کتاب بین نمایه سازی تخصیصی و نمایه سازی استخراجی تمایز قایل شدیم. اغلب نمایه سازی های انسانی از نوع نمایه سازی تخصیصی است که در آن با استفاده از اصطلاحاتی که از نوعی واژگان کنترل شده انتخاب شده اند، محتوای موضوعی مدرک ارائهٔ می شود. در نمایه سازی استخراجی، کلمات یا عبارات موجود در متن استخراج شده و از آنها برای نشان دادن محتوای موضوعی متن استفاده می شود. نمایه سازان انسانی میکوشند تا آن دسته از اصطلاحات متنی را انتخاب کنند که به نظر راهنماهایی مناسب از ان چیزی هستند که مدرک دربارهٔ آن بحث می کند. احتمالاً، آنها تحت تاثیر بسامد یک اصطلاح یا احتمالاً محل ارائه آن در متن - در عنوان، در چکیده، در شرح تصاویر و غیره - و شاید بافت آن خواهند بود.
با این فرض که متن در قالب الکترونیکی ارائه شده باشد، بدیهی است که یک رایانه می تواند طوری برنامه ریزی شود که با استفاده از معیارهای بسامد، محل واژه و بافت، نمایه سازی استخراجی را انجام دهد. تاریخچهٔ نمایه سازی خودکار برمبناي بسامد تکرار واژه، به دههٔ ۱۹۵۰ و تحقیقات لوان (۱۹۵۷) و باکسن دال (۱۹۵۸) برمیگردد.
پس از اینکه متن با یک سیاهه واژگان غیرمجاز مقایسه شده و کلمات غیراسمی (حروف تعریف، حروف اضافه، حروف ربط، و مواردی از این قبیل) از آن حذف شد، با استفاده از یک برنامه ساده، تعداد تکرار واژه ها در یک متن شمارش می شود. سپس کلمات، به ترتیب فراواني تکرار، رتبه بندی می شوند. البته، تنها کلمات بالای فهرست هستند که به عنوان اصطلاحات نمایه ای یک مدرک انتخاب می شوند. نقطهٔ برش از تعیین شده تعیین حد برای انتخاب کلمات از بالای فهرست میتواند براساس چندین معیار صورت گیرد؛ تعداد مشخصی کلمه، تعیین تعداد کلمه متناسب با طول متن، یا همهٔ کلماتی که بسامد آنها از آستانهٔ تعیین شده بیشتر است. یک برنامهٔ پیشرفته تر میتواند عباراتی را بازیابی کند که اغلب به صورت معنادار در متن ارائه می شوند. بنابراین، متن می تواند به صورت ترکیبی از کلمات و عبارات ارائه شود؛ استفاده از معیار بسامد در انتخاب عبارات، به نسبت معیار مورد استفاده در انتخاب کلمات معنادار، از شدت و سخت گیری کمتری برخوردار است.
علاوه بر انتخاب کلمات و عبارات، میتوان برنامه هایی نوشت که ریشهٔ کلمات را انتخاب کنند. بنابراین، باید ریشه heat را به جای کلمات heat heated و heating انتخاب و ذخیره نمود. برنامه های ریشه یابی خودکار فقط برای حذف حروف پایانی کلمات انتخابی (مثل ed) مورد استفاده قرار میگیرند. البته، میتوان به کلمات، عبارات یا ریشه ها وزنی داد که نشانگر بسامدی باشد که باید براساس آن در مدرک ظاهر شوند. مثلاً می توان به کلمه ریشه ای heat وزنی عددی نسبت داد که بیانگر این حقیقت باشد که مثلاً این ریشه دوازده بار در متن تکرار شده است.