مقایسه فرآیندهای نمایه سازی خودکاربا نمایه سازی متخصصین

مک دونالد (۱۹۹۲) به طور کلی اشاره می کند که بهترین تجزیه گرهای امروزی فقط می توانند با جملاتی نسبتاً کوتاه و ساده سروکار داشته باشند. برای جملات طولانی تر و پیچیده تر، حداکثر کاری که این سیستم ها میتوانند انجام دهند شناسایی بخش های تشکیل دهنده (مثل تشخیص گروه های اسمی) است. آنها پایین تر از حدی هستند که بتوانند یک تحلیل روشن و کامل را ارائه نمایند. تجزیه گرها به طور بالقوه میتوانند بر روی یک جمله روزنامه ای معمولی که از ۲۵- ۲۰ کلمه تشکیل شده است، صدها تحلیل انجام دهند. به گفته مکدونالد، هیچ سیستم تجزیه گری نمی تواند همه چیز را در یک متن واقعی، مثل یک مقاله خبری، بفهمد.

حتی با واحدهای نسبتاً محدودی (درحدود 1500 پیام) از متن های کوتاه (متشکل از حدود ۱۴ جمله)، بهترین روش های موجود نیز از ارائه نتایجی مناسب ناتوان اند؛ مثلاً در یک آزمایش بر روی استخراج متن، همهٔ جملات مرتبط انتخاب نشدند و همهٔ جملات انتخاب شده نیز مرتبط نبودند. در یک موقعیت ارزیابی کنترل شده، بهترین روش های موجود پنجاه پنجاه عمل کرده اند (جاکوبز و راو، ۱۹۹۴؛ ساندهایم ، ۱۹۹۵)؛ مثلاً آنها در حدود نیمی از الگوهایی (بازنمودهایی ساختار یافته که براساس متن استخراج شده از پیام ها شکل می گیرند) که باید تولید می کردند را تولید کردند و فقط در حدود نیمی از این الگوهای تولیدشده مرتبط بودند (یعنی با استانداردهای از پیش تعیین شده همخوانی داشتند). هرچند بعضی از سیستم های پردازشی نتایج بهتری را گزارش داده اند، اما آنها نیز بر روی نمونه های بسیار ساده آزمایش شده اند. مثلاً، هایز (۱۹۹۲a) ٪۹۴ جامعیت و ۸۴٪ مانعیت را در سیستم کانسترو گزارش داده است، اما آزمایش انجام شده - قراردادن گزارش های خبری در حداکثر200 مقوله - بسیار ساده تر از استخراج متن یا پر کردن قالب الگو است.در شرایط کنترل شده و در هنگام استخراج های سادهتر (مثل، یافتن اسامی در متن)، امتیازات بهتری میتواند حاصل اید (ساندهایم، ۱۹۹۵)

سطح کارایی پنجاه پنجاه در استخراج متن / تکمیل قالب الگو را نیز باید موردتوجه قرار داد. این نتایج در حوزه های موضوعی بسیار محدودی حاصل آمدهاند (مثل، فعالیت های تروریست ها در آمریکای لاتین). برای دستیابی به انتخاب جمله، باید یک واژه نامهٔ موضوعی - حوزه ای ایجاد شود. هرچند برای تولید خودکار یا نیمه خودکار این واژه نامه ها ابزارهایی ابداع شده است (ریلوف " و لنرت " ، ۱۹۹۳)، ولی حتی در حوزه های موضوعی بسیار محدود نیز ایجاد چنین واژهنامه هایی بسیار کاربر خواهند بود (فقط در یک نمونهه ۱۵۰ نفر ساعت گزارش شده است).

به طور کلی، حتی پیشرفته ترین فرآیندهاي نمایه سازی خودکار کنونی نیز با نمایه سازی متخصصین قابل مقایسه نیستند. مثلاً، چیوت و یانگ (۱۹۹۳) که با گزارشات جراحی سروکار داشته اند، دریافتند که رمزهای اختصاص یافته انسانی، به نسبت انواعی از فرآیندهای خودکار مثل نمایه سازی معنایی پنهان، نتایج بهتری را ارائه می دهند. پیش از این، هرش و هیکام" (۱۹۹۱) گزارش داده بودند که جستجو براساس کلمات متنی (فقط عناوین و چکیده ها)، به نسبت جستجو براساس نمایه سازی انسانی (مدلاین) یا رکوردهای خودکار پردازشی شده در یک مجموعه پزشکی ، نتایج بهتری ارائه داده است.