نمایه سازی ماشینی از دیدگاه لنکستر

لنکستر دو نوع نمایه سازی خودکار را برشمرده است:

نمایه سازی استخراجی خودکار:

تاریخچه نمایه سازی خودکار براساس بسامد تکرار واژه به دهه ۱۹۵۰ باز میگردد. برنامه های ساده ای برای شمارش حضور واژهها در متن نوشته شده است. این برنامه ها بدین صورت عمل می کنند که متن را با سیاهه بازدارندهای برای حذف واژه های غیر اسمی” مانند حروف تعریف، حروف اضافه، حروف ربط و نظایر آن مقایسه می کنند؛ سپس واژه ها را براساسی میزان حضورشان رتبه بندی می کنند. تنها واژه های بالای فهرست که بسامد حضورشان بیشتر است به عنوان اصطلاحات نمایه ای مدرک انتخاب می شوند.

نمایه سازی تخصیصی خودکار :

در این نوع نمایه سازی فهرستی از واژه هایی که احتمالا در مدرک زیاد تکرار می شوند از قبلی ایجاد میشود که ان را سیاهه کنترل مینامند. سپس رایانه واژه های مدرک را با این فهرست مطابقت میدهد و در صورت انطباقی، واژه به عنوان اصطلاح نمایه ای انتخاب و چاپ می شود. در اولین روزهاین ابداع نمایه سازی خودکار، روشهای متنوع دیگری نیز برای شناسایی بخشهای اطلاعاتی مدرک پیشنهاد یا آزمایش شد که برنامه های رایانه ای آنها، عناصری مانند گروه های قیدی ، واژه های کلیدی -که پس از واژه هایی مانند نتیجه گیری و خلاصه ظاهر میشوندو بخشهایی از متن که پربسامدترین واژه های اسمی در آنجا وجود داشت، را جستجو می کردند. اما اکثر نظام های نمایه سازی خودکار در جانشینی رایانه ها به جای انسان، واقعاً «خودکار» نبودند و برای کمک به نمایه سازان ایجاد شدند. عبارت بهتر برای آنها نمایه سازی به کمک ماشین است. به طور کلی دو رویکرد در نمایهسازی به کمک ماشین قابل شناسایی است:

۱. رایانه برای تدارک انواع گوناگون نمایشهای پیوسته و تهیه راهنماهای کمکی نمایه ساز استفاده می شود، همچنین امکان تشخیص سریع خطاهای نمایه ساز مانند استفاده از واژه های غیراستاندارد یا ترکیبهای نادرست سرعنوان های اصلی و فرعی را فراهم می آورد.

  1. برنامه های رایانه ای برای خواندن متن (شاید تنها عنوان یا چکیده) و انتخاب اصطلاحات نمایه ای به وسیله فرایندهای استخراج یا تخصیص به کاربرده می شوند. سپس واژه های منتخب نمایه ساز بررسی می شوند و نقاط دسترسی بیشتری که ممکن است برنامه نتواند آنها را تخصیص دهد اضافه می شود یا اصطلاحات نادرست را حذف می نماید (لنکستر۱۹۹۱،:۲۲۱-۲۲۹)