بررسی ادعای فیدل در مورد مدرک گرایی نمایه سازی خودکار
فیدل (۱۹۹۴) ادعا میکند که نمایه سازی خودکار بیشتر مدرک گرا است تا بهره گیر محور گرچه این گفته به طور کلی درست است، اما می توان مثلاً، با استفاده از فهرست هایی از اصطلاحات که کاملاً ناظر بر یک متن هستند، روش هایی بهره گیر محور نیز ایجاد کرد. همانطور که فیدل خود نیز اشاره می کند، یک سیستم کاملاً خودکار می تواند از طریق پذیرش درخواست ها به زبان طبیعی، بازخوردهای مرتبط و خروجی های رتبه بندی شده، خروجی بهره گیر محوری ارائه دهد همچنین، بسیاری از سیستم های خودکار برای ایجاد یک خروجی رتبه بندی شده، از نوعی نظام وزن دهی بهره می گیرند. گرچه بعضی از بررسی ها (مثل سالتون، ۱۹۷۲) رتبه بندی موفقیت آمیزی را گزارش کرده اند اما گزارشهایی نیز وجود دارند که از عدم موفقیت خبر می دهند. مارچیونینی و دیگران (۱۹۹۴) در یک بررسی دربارهٔ بازیابی اطلاعات، نتایج رتبه بندی شده ضعیفی را به دست آوردند. این گفته در سایر کاربردهای بازیابی نیز صحیح بوده است. مثلاً، سیستم های خودکار تشخیص در پزشکی، به ندرت تشخیص صحیح" یک بیماری را در بالاترین سطح رتبه بندی ها قرار میدهند و اغلب تشخیص صحیح در سطوح نسبتاً پایین قرار میگیرد (پرنر " و دیگران، ۱۹۹۴؛ کاسیرر، ۱۹۹۴).
روش های جدید برای تهیهٔ تلخیص های هوشمند از مدارک (چکیده های خودکار) نیز کمجاذبه هستند. سیستمی که براندو و دیگران (۱۹۹۵) تهیه نموده و خود نیز آن را ارزیابی کرده اند، خلاصه هایی تهیه کرده بود که به طور معنی داری کمتر قابل پذیرش ارزیابی شده بودند. آنچه از این گفته بر میآید آن است که براساس تحلیل های انجام شده، انتخاب به طور متوسط ۲۵۰ کلمهٔ از آغاز یک متن - به نسبت تهیه یک چکیده ۲۵۰ کلمهای که از انتخاب خودکار جملات از متن حاصل آمده است - می تواند نشانگر بهتری از محتوای مدرک باشد. گرایش دوباره به استفاده از فرآیندهای خودکار در جنبه های مختلفی بازیابی اطلاعات باعث شده است تا، برای اولین بار، گروه های تحقیقاتی جدیدی به این حوزه گرایش پیدا نمایند. عدم توجه به آنچه که در گذشته انجام شده، باعث شده است تا در این نوع تحقیقات، بررسی ها و تحقیقات گذشته تکرار شود و یا حداقل بدون توجه به تحقیقات گذشته کار خود را آغاز نمایند. برای اثبات این گفته فقط به یک نمونه اشاره می شود. فاولر و دیگران (۱۹۹۶)،و زیزی (۱۹۹۶) سیستمی را برای نمایش درون خطی مفاهیم توصیف کرده اند که بسیارشبیه به تحقیقی است که دویل " (۱۹۶۱) سی سال پیش انجام داده بود.
در فصل های قبل اشاره شده بود که بسیاری از تحقیقات که بازیابی متن را با بازیابی از پایگاه های نمایه شده مقایسه کرده اند، به کلی اشتباه بوده اند. متاسفانه، دربارهٔ مقایسه هایی که بین فرآیندهای خودکار نمایه سازی و فرآیندهای نمایه سازی انسانی انجام گرفته نیز چنین اظهارنظری صحیح است. برای ارائهٔ نمونه ای جدید از چنین اشتباهاتی می توان به بررسی حمیدی و دیگران (۱۹۹۷) اشاره کرد. براساس نتایج حاصل از بازیابی بر روی یک پایگاه کوچک عربی در حوزه علوم رایانه، نویسندگان نتیجه گرفته اند که نمایه سازی خودکار حداقل به اندازه نمایه سازی انسانی کارایی دارد و در بعضی از موارد حتی از کارایی بیشتری نیز برخوردار است . درحقیقت در این تحقیق، هیچ نمایه سازی دستی وجود نداشته است: بین یک فرآیند نمایه سازی خودکار براساس اثر سالتون، و جستجوی متنی در چکیده ها این مقایسه صورت گرفته است. از آنجا که فرآیندهای سالتون برای بهبود بخشیدن به جامعیت و مانعیت، هردو، مناسب اند (مثلاً، از طریق حذف کلماتی با بسامد بسیار زیاد و کلمات کم بسامد)، جای تعجب نخواهد بود اگر آنها، به نسبت متنی که شاید فقط آن را به قالب ریشه گیری از کلمات تقیل داده اند، نتایج بهتری به دست آورده باشند.
باتوجه به این حقیقت که هزینه های رایانش پیوسته در حال کاهش است، نباید تصور کرد که پردازش های متني نوین ضرورتاً باید ارزان باشند. هایز a (۱۹۹۲) با اشاره به سیستم کانسترو نمونه ای از این مسئله را ارائه می دهد. این سیستم با سرعتی برابر با ۱۸۰۰ کلمه در دقیقه (یک پیام خبرگزاری رویتر که به طور متوسط از ۱۵۱ کلمه تشکیل شده است را در کمتر از ۵ ثانیه پردازش می کند) متن را پردازش می کند. او اشاره می کند که با چنین سرعتی، برای پردازش یک گیگابایت متن، سیستم پردازشگر مرکزی رایانه باید دو ماه پیوسته کار کند. این مقدار زمان فقط برای قراردادن ساده متنها در ۲۰۰ مقوله مورد نیاز است. بدیهی است که برای استخراج و تغییرات پیچیده تر متون باید پردازش های بسیار بیشتری انجام شود. هایز به طور شگفت آوری اشاره میکند که سیستم کانسترو برای پردازش یک پایگاه اطلاعاتی به اندازه پایگاه نگزیس که از ۱۰۰ گیگابایت اطلاعات تشکیل شده است، به ۲۰ سال کار مداوم رایانه نیاز دارد. گرچه این مسئله اشاره به جایی است اما کمی گمراه کننده است.