بررسی روش سالتون در رتبه بندی مدارک

روش سالتون اصولاً شباهت های بین دو قطعه از متن را تعیین می کند و این نزدیکی را با یک نمره عددی - مقیاس همانندی - مشخص می نماید. در عملیات متداول بازیابی، شباهت بین متن یک درخواست و متون مدارک موجود در یک پایگاه اطلاعاتی اندازه گیری می شود؛ برای رتبه بندی خروجی از امتیاز عددی همانندی استفاده می شود. اما از این مقیاسی همانندی می توان استفاده های دیگری برد. مثلاً میتوان نزدیکی یا قرابت متنهای مدارک را اندازه گیری کرده و طبقاتی از متنهاي همانند را شکل داد. مثلاً به نقشهٔ ارتباط متنی در شکل ۱۱۱ توجه کنید. اگرچه از نظر معناشناختی می توان همهٔ شش متن ارائه شده را مرتبط در نظر گرفت اما بعضی از آنها با یکدیگر رابطه بسیار نزدیکی دارند (مثلاً مدارک ۱۷۰۱۲ و ۱۷۰۱۶ با امتیاز ۵۷/ شدیداً به هم مرتبط هستند)، درحالی که پیوند بین سایر جفت های

مدارک ضعیف است (مقدار ۰۹/. بین مدارک ۱۹۱۹۹ و ۲۲۳۸۷ و یک پیوند بی اهمیت بین مدارک ۲۲۳۸۷ و ۸۹۰۷). سالتون و دیگران پیشنهاد داده اند که از فرآیندهای مقیاس همانندی می توان برای برقراری اتصالات ابرمتن ها در یک شبکه اطلاع رسانی بهره گرفت. همانطور که قبلاً در این فصل اشاره شد، از این مقیاس می توان برای اندازه گیری شباهت های بین پاراگرافها در داخل متن های مشابه (همانندی فرامدرکی ) استفاده کرد و سپس از آن به عنوان مبنایی برای تلخیص متن بهره گرفت.

ساووی (۱۹۹۵) دربارهٔ ایجاد پیوندهای ابرمتنی از طریق استفاده از روش های احتمالی تحقیق کرده است. او همچنین اظهار می دارد که برای دستیابی خودکار به اصطلاحات کاوشی جدید می توان از پیوندهای ابرمتنی بهره گرفت. مثلاً اگر مدرک "الف، بسیار مرتبط با یک درخواست است و مدرک "الف به مدرک بپیوندهای ابرمتنی مستحکم و شدیدی دارد، بنابراین مدرک با نیز مرتبط با درخواست خواهد بود. بعلاوه، ممکن است بتوان از اصطلاحاتی که شدیداً با مدرک با مرتبط هستند برای شرح و بسط بیشتر جستجو استفاده کرد.

همچنین سیستم های دیگری توسعه یافته اند که به بهره گیر اجازه می دهند تا درخواست خود را به صورت گزاره متنی وارد سیستم کند. سیستم ترجمه رایانه ای اطلاعات به انگلیسی (سایت) نمونهٔ درخور توجهی است که دوس کوکسی (۱۹۸۳) آن را ابداع کرد. این سیستم بازخوردهای مرتبط را نیز دربر می گرفت. سیستم سایت به عنوان یک واسط زبان طبیعی برای پایگاه های اطلاعاتی مدلاین و کت لاین عمل می کرد. سیستم سایت می تواند هم بر روی پایگاهی که از اصطلاحات نمایه ای (مثل مدلاین) تشکیل شده و هم بر روی پایگاهی که متن آزاد را دربر دارد (مثلاً چکیدهها) عمل کند.

این سیستم می تواند به صورت خودکار از کلمات ریشه گیری کند (یعنی، ریشه کلمات را برای جستجو برگزیند)، به طور خودکار به اصطلاحات درخواست وزن دهد (وزن ها، نادر بودن اصطلاح را بیان میکنند: اصطلاحاتی که به ندرت در می شوند بالاترین وزن را میگیرند) و اصطلاحات ممکن برای تایید یا رد آنها پایگاه سوی بهره گیر را نمایش دهد. همانند سیستم اسمارت، به مدارک موجود در پایگاه اطلاعاتی یک امتیاز عددی داده می شود. این امتیاز عددی بیانگر دامنه ای است که در آن دامنه مدارک با گزارهٔ درخواست منطبق می شوند.