سیستم های خبره دراستخراج متن

سیستم های خبره دیگری توسعه یافته اند تا بتوانند به آموزش نمایه سازان و نه به فعالیت های روزانهٔ نمایه سازی کمک کنند؛ سیستم آموزش نمایه سازی رایانه ای (کایت)، سیستمی از این نوع است که در کتابخانه ملی کشاورزی وجود دارد (ایروینگ، ۱۹۹۷).

هاگه (۱۹۹۲) مروری سودمند درباره نمایه سازی ماشینی ارائه داده است اما اکنون اطلاعات آن کمی قدیمی شده است.

هر سیستم رایانه مبنایی که به انجام وظیفهٔ نمایه سازی کمک کند را می توان یک سیستم خبره نامید، به ویژه اگر به افراد غیرمتخصص کمک نماید تا همانند یک نمایه ساز حرفهای نمایهسازی کنند. سیستم هایی که اصطلاحاتی را به نمایه سازان پیشنهاد کرده یا بعضی از خطاهای آنان را اصلاح میکنند را می توان حداقل به عنوان سیستم هایی کمی خبره در نظر گرفت.در متون مختلف، بعضی از سیستم ها یا برنامه ها را با اصطلاح هوش مصنوعی مورد اشاره قرار داده اند. در آثار دریسکول" و دیگران (۱۹۹۱) و جونز و پل (۱۹۹۲) نمونه هایی از این نوع سیستمها را میتوان یافت.

سیستمی که جونز و پل توصیف کرده اند برای استخراج کلمات یا عبارات از متن و ایجاو مدخل های نمایه ای طراحی شده است. این سیستم بیشتر بر مبنای فهرست های ذخیره شده عمل میکند: فهرست کلماتی که باید نادیده گرفته شوند، فهرست کلمات / عبارات / نام هایی که موردعلاقه هستند و فهرستی از پسوندها (برای انجام تجزیه ساده). این فهرست ها با یکدیگر ترکیب شده و یک واژه نامه را شکل میدهند. این واژهنامه، اطلاعات دیگری را نیز دربر دارد که امکانات دیگری مثل امکان جای گماری نوعی " محدودی را فرآهم میآورند.

سیستمی که دریسکول و دیگران توصیف کرده اند نیز برای یافتن اصطلاحات نمایه ای از متن طراحی شده بود. متن براساس فهرستی متشکل از ۳,۰۰۰ عبارت پردازش می شود. بسامد یکی از این عبارات در متن باعث می شود تا قواعد مربوط به حذف یا اضافه مورد استفاده قرار گیرد. قواعد حذف صرفاً از پردازش بعدی کلمات یا عبارات مبهم جلوگیری می کند، درحالی که قواعد اضافه می تواند مجموعه محدودی از اصطلاحات جستجو شده را تولید نماید. مثلاً اگر کلمات تنظیم ، بالای او هدف با X فاصله از یکدیگر ظاهر شوند اصطلاح "جنگ هوایی را خواهند ساخت. مالون و دیگران (۱۹۹۱) برای پیشگویی کارای این سیستم الگویی آماری را ارائه کرده اند.

سیستم هایی از نوع سیستم توصیفی دریسکول و دیگران، و جونز و پل مبتکرانه نیستند. آنها ممکن است بتوانند نمایه سازی استخراجی یا استخراجی و کمی تخصیصی را در سطحی انجام دهند که، با هزینه ای کمتر، با نمایه سازی نمایه سازان انسانی قابل مقایسه باشد. در پایین ترین حد، از این سیستمها می توان برای تهیهٔ اصطلاحات انتخابی و پیشنهاد آنها به نمایه سازان انسانی استفاده کرد. با این وجود، نمی توان گفت که آنها واقعاً هوشمند هستند. چنین اظهارنظری دربارهٔ برنامه های تولید اصطلاح نامه ها و سایر راهنماهای جستجو که برمبنای هم ظهوری اصطلاح عمل میکنند نیز صادق است (چن" و دیگران، ۱۹۹۵).

در کنار نمایه سازی ماشینی، روش های هوشمند پردازش متن نیز وجود دارند که بر گل فرآیندهای مرتبطی مثل طبقه بندی متن، استخراج متن، اتصال متن، بهبود بخشی به متن، تلخیص متن و تولید متن اعمال شده اند.

اصطلاح مقوله بندی متن" به فرآیند طبقه بندی مدارکی متنی اشاره دارد، یعنی، قراردادن مدارک در یک طبقهٔ از پیش تعریف شده. سیستم کانسترو " که برای خبرگزاری رویترز ابداع شده است، با استفاده از یک رده، متشکل از ۶۷۴ مقوله، مجموعه ای از اخبار را طبقه بندی میکند (هایزه ۱۹۹۲a). چن و دیگران (۱۹۹۴) فرآیندهایی را برای شناسایی مفاهیم موجود در متن گردهمایی های الکترونیکی توصیف کرده اند. در این روش، مفاهیم براساس فرآیندها، و نه از طریق پیش تعریفی، تعیین می شوند.