دیدگاه های مختلف در باره نمایه سازی

سیستمی مثل سیستم کانسترو برای انجام عملیات هم زمان بر روی واحدهایی نسبتاً کوچک - مثلاً همهٔ پیام هایی که در یک روز دریافت می شوند - طراحی شدهاند نه برای تحلیل پایگاه های کلان گذشته نگر.

توسعه سیستم های محدود نیز بسیار پرهزینه است. مثلاً، ایجاد سیستم کانستر و ۹/۵ نفر سال کار برده است (هایز و واین شتاین"، ۱۹۹۱).

اشاره به این نکته جالب است که نتایج پنجاه پنجاه که در سیستم های نوین یردازش متن گزارش شده است برابر با سطح کارایی است که در دهه ۱۹۶۰ برای سیستم های بازیابی کتاب شناختی بزرگ (مثل مدلارز) گزارش شده بود (لنکستر، ۱۹۶۸a). گرچه از نظر ظاهر، این مقایسه ناعادلانه به نظر میرسد، چراکه وظیفهٔ استخراج متن / پرکردن الگوها بسیار پیچیده تر از بازیابی ارجاعات هستند، اما باید متذکر شد که واحدهای مورد استفاده در این بررسیها، در مقایسه با حجم پایگاه های اطلاعاتی حتی ۳۰ سال پیش، بی نهایت کوچک بوده اند (تقریباً ۱۵۰۰ پیام در مقابل نیم میلیون رکوردهای کتاب شناختی).

حقیقت آن است که امروزه عموماً از الگوهای نسبتاً ابتدایی کاوش بولی برای جستجو در پایگاه های بزرگ کتاب شناختی استفاده می شود. این الگوها، علی رغم انتقادهای بسیاری که بر

آنها وارد است و باتوجه به حجم بالای واحدی که با آن سروکار دارند، نتایج فوق العاده خوبی ارائه میدهند. استانفیل و واتس (۱۹۹۲) به طور مستدل اشاره کرده اند که:

نکته شگفت آور آن است که روش های آماری، که اصلاً از هیچ دانش تخصصی - حوزه ای بهره نمیگیرند، به خوبی عمل میکنند. آنها بر روی کمیتی از اطلاعات (به گیگابایت) که به طور غیرقابل تصوری حجیم هستند نیز به خوبی پاسخگو هستند. (ص ۲۱۷) توجه داشته باشید که آنها به روش های ساده جستجوی بولی اشاره دارند که در پایگاه های نمایه ای (مثل مدلاین) یا تمام متن (مثل نگزیس) مورد استفاده قرار گرفته اند و نتایج حاصل از آنها براساس روش های پیچیده رتبه دهی ارائه نمیشوند.

جاکوبز (۱۹۹۲a) چالش هایی را شناسایی کرده است که امروزه، محققین حوزه پردازش متن با آنها روبرو هستند: ایجاد سیستمی قوی (دقت بالا، سرعت بیشتر، تحلیل های زبان شناسی ارزانتر)، پالایش توانمندیها (مثل، رفتن از بخش بازیابی مدرک به بخش عبارات برای پاسخگویی با یک جستجو)، و ایجاد خروجی هایی با صرفه اقتصادی یا جذاب برای بهره گیر (از طریق نشانگذاری، استخراج متن یا تلخیص).

هرچند در استفاده از رایانه ها در امور مختلفی مربوط به بازیابی اطلاعات پیشرفته ایی حاصل شده است، اما شواهد کمی وجود دارد که در فعالیت هایی فکری مثل نمایه سازی، چکیده نویسی، تولید اصطلاح نامه و تدوین راهبردهای کاوش، فرآیندهای خودکار بتوانند جایگزین نیروی انسانی شوند.

کوهلن(۱۹۸۴) میگوید که ما از پردازش های فکری که مستلزم چکیده نویسی هستند (ودر مقایسه، نمایه سازی و فرآیندهای مربوط به آن) دانش کافی نداریم و به این دلیل نمی توانیم برنامه هایی را ایجاد کنیم که از طریق آنها رایانه بتواند این فعالیت ها را شبیه سازی کند: چکیده نویسی ... کاری فکری است و از این رو نمی تواند به فرآیندهای خودکار تبدیل شود. روانشناسی شناختی و هوش مصنوعی، درباره فرآیندهایی که در هنگام درک متن و خلاصه سازی ان در ذهن نمایه ساز جریان می یابد اطلاعات زیادی برای ما ارائه نداده اند. در نتیجه، تقلید مستقیم از یک فرآیند فکری، مثل چکیده نویسی، دور از دسترس به نظر میرسد. (ص. ۹۸)

علی رغم تحقیقات و پیشرفتهایی که در دهه گذشته صورت گرفته است اما امروزه نیز گفتار کوهلن همچنان صحیح به نظر میرسد