نمایه سازی ماشینی از دیدگاه اندرسون و پرز- کاربالو

 اندرسون و پرز- کار بالو اساس سادهترین نوع نمایه سازی خودکار را، حضور هر واژه در متن میدانند. نمایه هایی که به این روش ایجاد میشوند به نمایه های چرخشی ، کوئیک و کوواک معروف هستند که در مباحث قبل شرح داده شد. فنون نمایه سازی خودکار، ساخته ذهن انسان است اما در بیشتر موارد زمانی که این فنون به کار گرفته می شوند امکان هیچ تعامل ” یا بازخورد انسانی وجود ندارد. اما مدارک میتوانند به صورت خودکار و با هزینه ای اندک نمایه سازی شوند و این شیوه با کمک نمایه ساز بهبود مییابد. رایانه ها اجزای متن (نشانههای تشکیل دهنده متن) را شناسایی و مقایسه می کنند و با کاربرد الگوریتم های خاص به نمایه سازی میپردازند (آندرسون و پرز- کار بالو، ۲۰۰۱).

نمایه سازی ماشینی از دیدگاه کلیولند

ساده ترین سطح نمایه سازی خودکار، ایجاد فهرستی از واژه های گوناگون متن و سپس حذف واژه های بازدارنده است. رایانه متن را پویشی میکند و از حروف تعریف، قیدها، ضمیرها، حروف اضافه و حروف ربط -که سازنده جمله هستند اما بار محتوایی ندارند – صرف نظر می کند و آنچه باقی می ماند واژه های قابل نمایه شدن است. پویش میتواند از متن کامل یا بخش هایی از متن مانند عنوان، صورت گیرد. مرحله بعد کاربرد الگوریتمی برای ریشهیابی واژه ها است. این امر اجازه می دهد تا واژههایی با شکلهای گوناگون و ریشه یکسان با سیاهه بازدارنده یا کنترل، انطباق داده شوند. بعد از این مرحله، شمارش تکرار حضور واژه ها و رتبه بندی آنها براساس بسامد حضور – با این فرضیه که مهم ترین واژهها بیشترین حضور را در متن دارند – است. بعضی از نظام های نمایهسازی خودکار پیشرفته، دارای واژهنامه های ترادفی، واژههای سلسله مراتبی، اصطلاحنامه ها و نرم افزارهایی برای تحلیل معنایی و نحوی نیز هستند. اما اکثر نمایه سازی های خودکار در آزمایشگاه انجام می شود و ما به سادگی نمیتوانیم این فنون را به جهان واقعی وارد کنیم. روشهای خودکار در برخورد با واژههای مترادف و متشابه با مشکل روبرو هستند و مفهوم سازی آنها بسیار دشوار است. نمایه سازان از فرایند شناختی استفاده می کنند که به زمینه تجربی، اموزشی، تربیتی، هوشی و ادراکی آنها بستگی دارد. بنابراین آنها میتوانند زمینه موضوعی مدرک را درک کنند، اما رسیدن به این حد از تحلیلی در نمایه سازی، برای رایانه بسیار دشوار است و انتظار انجام این امور، خواسته ای دور و دراز است اما با گذشت زمان پیشرفتهای چشمگیری در این زمینه ایجاد شده است (کلیولند و کلیولند، ۲۰۰۱: ۲۱۱-۲۱۲).

بدین ترتیب نمایه سازی خودکار به معنای استفاده از رایانه در تعیین اصطلاحات نمایه ای است که باید از مقوله نمایه سازی به کمک رایانه جدا شود. در نمایه سازی به کمک رایانه، کاربرد رایانه در انجام کارهای تکراری و راهنمایی نمایه سازان است، در حالی که افراد خود نمایه سازی میکنند. اما در نمایه سازی خودکار، نمایه ها بدون دخالت انسان و به سادگی ایجاد می شوند. دو فرایند در ایجاد خودکار نمایه وجود دارد:

۱. استخراج خودکار واژه. که از سیاهه بازدارنده استفاده می کند و واژههای خارج از آن را با توجه به میزان حضورشان در متن به عنوان اصطلاح نمایه ای استخراج می کند.

 

۲. تخصیص خودکار واژه. از سیاهه کنترل استفاده می کند و واژه های موجود در آن را با توجه به بسامد حضور در متن انتخاب میکند. امروزه پیشرفت های بسیاری در نمایه سازی خودکار ایجاد شده است و نرم افزارهای گوناگون با قابلیت های زیاد فراهم آمده است که موجب تسریع تولید نمایه و کاهش خطاهای آن شده است. حتی میتوان امیدوار بود که زمانی رایانه بتواند به تحلیلی محتوای مدارک نیز بپردازد.