قابلیت های مشترک در موتورهای کاوش

در بعضی از موارد، موتور کاوش به تولیدکننده صفحه وبی اجازه می دهد تا از طریق ایجاد فیلدهای "ابر برچسب "، که کلیدواژه ها و/ یا متن توصیفی را در بر دارند، آنچه که نمایه شده است را مشخص نمایند.

بخش اعظم موتورهای کاوش، پیش از ایجاد فایلهای مغلوب، از یک سیاهه واژگان غیرمجاز برای حذفی کلمات غیر خبری موجود در محتوای موضوعی استفاده می کنند. اما حداقل یک موتور کاوش ادعا دارد که همهٔ کلمات را نمایه میکند.

موتورهای کاوش مختلف، قابلیتهای جستجوی مختلفی را نیز ارائه میدهند. قابلیت های مشترک در موتورهای کاوش عبارتند از:

  • استفاده از عملگرهای جبر بول
  • جستجوی دقیق عبارت
  • توانایی تعیین مجموعهای فرعی از یک مجموعه خاص (مثلاً در مجموعه سگها فقط سگهای مسابقه " بازیابی شوند)
  • توانایی محدودکردن یک جستجو به بخش خاصی از یک رکورد (مثلاً عنوان یا آدرس وبی یا چکیده)کوتاه سازی کلمات یا استفاده از نویسه جایگزین
  • جستجوی نزدیک یابی واژه
  • درخواست اطلاعات از طریق ارائهٔ نمونه (توانایی بازیابی منبعی شبیه " به نمونهای که قبلاً مفید تشخیص داده شده است).

توجه داشته باشید که قابلیت های مختلف کاوشی بر محتواهای اطلاعاتی مختلفی در فایلهای جستجو دلالت دارند. مثلاً. جستجوی عبارتی و نیز جستجوی نزدیک یابی واژه، متضمن ذخیرهٔ عبارات قابل جستجو یا ذخیره اطلاعاتی دربارهٔ محلی کلمه است. در غیر این صورت، جستجوهایی از این نوع باید در دو مرحله انجام شوند: بازیابی متنی که کلمه در ان وجود دارد، و پویش این متن برای یافتن محل دقیق کلمه.

بعضی از موتورهای کاوش ادعا می کنند که از قابلیتهای موتور های کاوش پیشرفته تری برخوردارند. مثلاًموتور کاوش سینتکتیکا" که در یکی از تولیدات شرکت آیکونووکسی" استفاده شده است، ادعا دارد که برای نمایهسازی خودکار متون، از سطح نسبتاً پیچیده ای از فرآیندهای زبانشناسی بهره میگیرد. نمونه زیر که از سایت وبی این شرکت گرفته شده، توانایی های این موتور کاوش را برشمرده است:

... از قواعد نحوی و وزن های معناشناختی برای تعیین مفاهیم مهم متن استفاده شده است. هر کلمهٔ موجود در این مفاهیم، با اصطلاحنامه ای متشکل از 130000کلمه مقابله شده و یک امتیاز معنایی اولیه دریافت میکنند. سپس، مسائل نحوی هر مفهوم تحلیل میشود تا اهمیت عناصر تشکیل دهنده آن مشخص گردد. عاقبت، برای تعیین اهمیت کلی مفهوم، همهٔ این اطلاعات نحوی و معنایی در هم ادغام می شوند. برای مثال، اگر اصطلاح "طرح های قدرت هستهای، در مخالفت مستقیم با یک مبحث و نیز موضوع اول در جمله ای باشد، دوبار بالاترین امتیاز را دریافت خواهد کرد. اگر این اصطلاح در یک طبقه فرعی ظاهر شود، امتیاز کمی دریافت میکند، و اگر به صورت نوعی جمله معترضه رخ دهد امتیاز دریافتی آن بسیار کمتر خواهد بود. مثال های زیر اهمیت استفاده از اطلاعات بافتی در هنگام ارزیابی محتوی را نشان میدهند.

به عنوان فاعل:

طرح های قدرت هستهای در کشورهای شمال غربی، عامل اصلی ۸۰ ٪ از بارانهای اسیدی در کانادا است.

به عنوان مفعول: قوانین محیطی سختگیرانهای که بر زباله های اتمی حاکم است، طرح های قدرت هستهای آمریکا را تحت تاثیر قرار داده است.

به عنوان عنصری معترضه طرح های کلانو عمومی در اتحاد جماهیر شوروی - مثل سدها، فرودگاه ها، و طرح های قدرت هستهای - به ناچار از کیفیت ساخت نامرغوب و مواد درجه دو رنج میبرند.

موتور کاوشي دیگری، یعنی اکسایتا، ادعا می کند که براساس همبستگی مفاهیم وکلیدواژه های اصلی، از استخراج هوشمند مفاهیم برای یافتن و امتیازدهی به مدارک استفاده می کند. متاسفانه، همانطور که شرکت اکسایت خود بیان کرده است، جزئیات عملیاتی فن آوري ثبت شده ما محرمانه است . به هرحال، به نظر میرسد که این موتور کاوش برای وزن دهی به اصطلاحات، از الگوی برداری و دسته بندی اصطلاحات که اولین بار سالتون از آنها در سیستم اسمارت خود استفاده کرد بهره میگیرد. باوجود این، براساس یک ارزیابی (وندیتو، ۱۹۶۶) مشخص شد که بین جستجوی کلیدواژهای و استفاده از این قابلیت ها تفاوت کمی وجود دارد.

اغلب موتورهای کاوش خروجی های رتبه بندی شده ای را ارائه می دهند، گرچه ممکن است روش آنها برای انجام این کار بسیار با یکدیگر فرق داشته باشد. همچنین در آنچه که بهره گیران میتوانند با نتایج حاصله از موتورهای کاوش مختلف انجام دهند نیز تفاوت هایی وجود دارد. البته قابلیت های رتبه دهی، به فرایندهای نمایه سازي مورد استفاده و حجم و نوع اطلاعات ذخیره شده در فایلهای جستجو وابسته است.در یک فرآیند رتبه دهی، منابع انتخابی ممکن است براساس تعداد رخداد متني کلمات مورد استفاده در گزاره جستجو امتیاز داده شوند. روش دیگر آن است که از طریق تعداد کلمات کاوش که با مدارک انتخابی جور هستند رتبه دهی صورت میگیرد. مثلاً این گزاره جستجو ”تاثیر حرکت سریع در مناطق زمانی بر روی چرخه های شبانه روزی بشر از هفت کلمه معنادار که احتمالاً جزء سیاهه واژگان غیرمجاز نیستند تشکیل شده است. مدارکی که همهٔ هفت کلمه را دربر داشته باشند در ابتدا قرار میگیرند، آنهایی که شش کلمه از هفت کلمه را دربر داشته باشند بعد از آنها و ... قرار خواهند گرفت.