موتورهای کاوش
هرچند فهرست های کلی موضوعی یا راهنماهایی برای منابع اینترنتی تهیه شده است اما دراینجا، تاکید اصلی ما بر روی نرم افزارهایی است که به بهره گیران اجازه میدهند تا در این منابع جستجوهای موضوعی نسبتا خاصی را انجام دهند؛ یعنی، فعالیت های سنتی بازیابی اطلاعات مرورگرها. عمدتا مرورگر نت اسکیمپ و میکروسافت اکس پلوررآن که سطح مقدماتی دسترسی را فرآهم آورده اند، اکنون ما را به تعداد رشد یابنده و متنوعی از سیستم های اطلاعاتی راهنمایی میکنند که عموماً آنها را موتورهای کاوش می نامیم.
گرچه بعضی از این موتورها خود را به منابع خاصی محدود کرده اند، اما بیشتر آنها ادعا می کنند که هر چیز قابل دسترسی را .زیر پوششں دارند موتورهای کاوش، از طریق ایجاد نمایه هایی از منابع شبکه ای عمل میکنند. یعنی، آنها کلمات یا عبارات را از خود متن استخراج کرده و فایل هایی را شکل میدهند که با استفاده از عملگرهای جبر بولی (و گاهی سایر روش ها) می توان بر روی این استخراج ها جستجوی های کارآمدی را انجام داد. درحقیقت، این فایل های قابل جستجو چیزی بیش از فایل های مغلوبی نیستند که از زمان جایگزینی روشر دستیابی تصادفی به جای جستجوی ترتیبی " رکوردها در اوایل دهه ۱۹۶۰، برای تسهیل بازیابی اطلاعات مورد استفاده قرار میگیرند. به هرحال، قدرت پردازش رایانه ای و توانایی های نرم افزاری کنونی به ما اجازه می دهند تا به روشی کارآمد، فایل های مغلوب را روزآمد نگه داشته و در جستجو کنیم؛ فایلهایی که در مقایسه با فایل های ۳۰ سال پیش بسیار عظیم هستند.
نمایه های مغلوبی که در موتورهای کاوش مورد استفاده قرار میگیرد به طور خودکار ساخته می شوند. ابزارهای نرم افزاری، برای یافتن منابع، نمایه سازی و نیز روزآمد نگه داشتن منابعی که قبلاً در خود داشته اند، وب را می پیمایند. اگر منبع مناسبی یافت شود بلافاصله آن را نمایه میکنند. ممکن است منابع دیگری که از طریق پیوندها به منبع انتخابی مرتبط هستند نیز بازیابی و نمایه شوند.
متاسفانه، اصطلاحاتی که در اینجا مورد استفاده قرار میگیرد بسیار نادقیق هستند: این آدمواره های سیار" را به نام های مختلفی معرفی کرده اند، ازجمله خزنده ، عنکبوت، سرگردان و ”کرم,موتورهای کاوش، از نظر آنچه که از منابع استخراج میکنند تا به نمایه های خود بیفزایند و نیز از نظر قابلیت هایی که برای جستجو در این نمایه ها فراهم می اورند، بسیار با هم متفاوت هستند. این مسئله عاملی است که باعث میشود تا در هنگام استفاده از موتورهای مختلفی کاوش برای جستجوي موضوعی واحد، نتایج مختلفی حاصل آید (عامل دیگر آن است که انها متاسفانه منابع دقیقا یکسانی را زیر پوشش ندارند تولیدکنندگان بعضی از موتورهای کاوش صراحتاً مشخص کرده اند که واقعاً چه مقدار از.یک منبع را نمایه کرده اند (مثلاً تا X نویسه از Y تعداد کلمهٔ)، درحالی که سایر تولیدکنندگان اظهاراتی دوپهلو و مبهم را در این خصوص ارائه داده اند.
پذیرش اظهاراتی مبنی بر نمایه کردن محتوای کامل همهٔ سایتهای وبی زمانی دشوارنر می شود که دریابیم یک سایت واحد ممکن است از صدها صفحه متن تشکیل شده باشد. بعضی از ابزارهای نرم افزاری، ابتدا چکیده هایی را برای منابع باریابی شده تهیه می کنند؛ سپس کلمات موجود در چکیدهها را قابل جستجو کرده یا کلمات را از چکیده های فرآهم آمده، و نه کل متن سایتها، استخراج و نمایه می کنند. به هرحال، اطلاعات شرکت ها درباره فرآیندهای واقعی و خودکار چکیده نویسی خود چندان روشنگر نیست.