نمایه سازی و اینترنت
اینترنت، به ویژه وب، منابع اطلاعاتی را در مقیاسی در دسترس مخاطبان بالقوه قرار داده است که حتی یک دهه پیش نیز قابل تصور نبود. اغلب، سهولتی که از طریق آن متن و سایر رسانه ها می توانند از طریق هر کسی که حداقل دانش و امکانات را دارد، دردسترس قرار گیرند را به عنوان عمده ترین مزیت اینترنت به شمار میآورند. اما ایجاد این توانایی که هر کس ناشر آثار خود باشد عواقب ناخواست های را نیز در بی خواهد داشت. آشکارترین معضل آن است که انبوهی از منابع بسیار متنوع و غیرقابل مدیریت را فراهم می آورد. متاسفانه، کراراً کمیت محضی از منابع به چشم میخورند که فایده ای جز ایجاد دردسر ندارند. برای ارائه مثالی ساده، یک شرکت - شرکت و جا نیوز - که فقط در زمینه دسترسی به متن گروه های خبری " تخصص دارد، ادعا کرده است که در سال ۱۹۹۷ حدود 15000 گروه خبری، ازجمله بعضی از گروه های خبری غیر انگلیسی زبان در سطح جهان را زیر پوشش داشته است. درمنابع تبلیغی آنها ) w.dejanews.com/help/dnfaq.htmlچنین آمده است:
ما 80 میلیون مقاله داریم که فضایی (دیسک) بیش از 120 گیگابایت را اشغال کرده است. این مقدار اطلاعات برابر با تقریباً 120000 اکتاب داستانه 400 صفحهای است. ازآنجا که ما هیچ چیز قدیمی را حذف نمیکنیم، و ازآنجا که ماموریت یوزنت همواره در حال توسعه است، این حجم از اطلاعات به طور تصاعدی افزایش مییابد.
این شرکت ادعا می کند که یوزنت مقالاتی از سال ۱۹۷۹ را در بر دارد و اینکه ما تلاش کردهایم تا دامنهٔ پوششی آرشیو خود را با منابع قدیمیتر غنا بخشیم.
موارد استفاده از اینترنت اشتاینبرگ (۱۹۹۶) ادعا می کند که در حدود دو سال پیش، حدود ۳۰ تا ۵۰ میلیون صفحه اطلاعات (بین 200 تا ۳۳۰ گیگابایت متن) بر روی اینترنت وجود داشته و نرخ رشد این اطلاعات نیز در حدود ۲۰٪ در ماه بوده است.
حجم اینترنت نیز از تنوع منابع قابل دسترس حکایت دارد: صفحات وبی، سایت های گوفرا، سایت های افتی پیش، یوزنت ها، و غیره. یک سایت وبی، متعلق به یک شرکت، ممکن است صدها صفحه متن در قالب اجتی ام ال (زبان نشانه گذاری ابرمتن) را دربر داشته باشد. این صفحه و بی باید از همه توانایی های ارتباطی وب استفاده کند. با اضافه شدن منابع ابررسانه ای، در منابع اینترنتی تنوع بیشتری حاصل آمده است.
حجم و تنوع منابعی که از طریق اینترنت در دسترس قرار دارند، مشکلی جدی تر - یعنی مشکل کیفیت - را پیش کشیده است. صرف نظر از توانایی بالقوه اینترنت برای ترویج انواع فعالیت های مجرمانه و اشاعه منابعی که بسیاری از افراد انها را مبتذل مینامند، بیشتر انچه که در دسترس قرار دارند از کیفیت بسیار پایینی برخوردار است. گرچه مطمئناً بعضی از منابع اطلاعاتی از کیفیت بالایی برخوردارند و بسیاری از آنها نیز قبلاً به طور گسترده در دسترس قرار نداشتند، اما بازیابی منابع با کیفیت، بدون بازیابی همزمان بسیاری از منابعی که چیزی بیش از مشتی چرت و پرت نیستند میسر نیست. بعلاوه، با افزایش منابع و تعداد بهره گیران، زمان پاسخگویی تنزل یافته است. همچنین، بعضی از نویسندگان پیش بینی کرده بودند که اینترنت در اثر حجم همیشه افزایش یابنده ترافیک فرو خواهد پاشید بدیهی است حجم زیاد منابعی که از طریق اینترنت در دسترس قرار دارند مسائلی را برای نمایه سازی (و درسطحی پایین تر برای چکیده نویسی) فرآهم خواهند آورد که بیشتر در اثر زیادی منابع حاصل آمده اند تا موارد قابل تصور دیگری که در اولین ویرایش این کتاب در سال ۱۹۹۱ پیشبینی شده بودند.
در این فصل، به اینترنت به عنوان یک مسئله نمایه سازی نگریسته شده و تلاش خواهد شد تا روشهایی توصیف شوند که در حال حاضر برای نمایه سازی اینترنت مورد استفاده قرار می گیرند. انجام این کار چندان ساده نیست زیرا ابزارهایی که اکنون برای استفاده از منابع اینترنتی در دسترس قرار دارند بیشتر نگاه سودآورانه داشته و به افشای آنچه که انجام میدهند و روش کارکرد نرم افزار خود تمایل چندانی ندارند.
علاوه براین، بعضی از آنها ادعاهایی دارند که قبول آنها دشوار است. مشکل دیگر از این حقیقت ناشی می شود که کل محیط قابل دسترس اینترنت به سرعت در حال تغییر است: شرکت های جدیدی تاسیس می شوند، شرکت هایی منحل شده یا فعالیت آنها کاهش مییابد، و تقریباً هر روزه تواناییها و قابلیت های جدیدی افزوده میگردد. به دلیل شرایط بسیار متغییر و نیز پرهیز از هرگونه اظهارنظری که باعث شود تا نویسنده ابزاری را بر دیگر ابزارها ترجیح دهد، این فصل بیشتر با کلیات سروکار دارد نه با ابزارهای خاص (گرچه به طور اتفاقی به بعضی از آنها اشاره شده است جستجوی نام اشخاص وشرکت ها نیز مشکلاتی را درپی دارد.
به هرحال، در ادامه این فصل دربارهٔ مشکلات نمایه سازی موضوعی و دستابی موضوعی آنگونه که در کانون توجه این کتاب قرار دارد - بحث خواهد شد.