بررسی معیارهای استخراج کلمات

راش و دیگران (۱۹۷۱) اشاره کرده اند که هر روش مفید برای استخراج، باید معیارهایی را برای طرد و نیز انتخاب جملات دربر داشته باشد. روش آنها برای ارزیابی جملات، تاثیر بافتی را مورد توجه قرار می داد: یک کلمه یا یک زنجیره کلمه ای و بافت پیرامون نشانه هایی را مبنی بر طرد یا پذیرش یک جمله ارائه میدهند. روش استخراجی آنها بر انطباقي متن با فهرست واژگان کنترل استوار است؛ فهرستی واژگان کنترل، مجموعه ای از اصطلاحات را دربر دارد که اگر در یک جمله وجود داشته باشند باید آن جمله را حذف کرد و نیز فهرست بسیار مختصرتر دیگری از کلمات که وجود آنها باعث انتخاب جمله میگردد.

اصطلاحات طرد، بیانگرهایی از جمله را در بر دارند که بیشتر با پیشینه مطالب سروکار دارند نه با اهداف، روش ها و نتایج حاصل از مدارک، اصطلاحات انتخاب، اصطلاحاتی (مثل " این مقاله"، "این بررسی ، یا "اثر حاضر) هستند که اغلب از طریق آنها موضوع اصلی مقاله بیان می شود. ممکن است جملاتی انتخاب شوند که کلمات با اهمیت موجود در عنوان مدرک را در بر دارند.

نباید معیارهای بسامدی را نادیده گرفت اما باید از آنها فقط برای تعیین وزن نشانه های مثبت و منفی در فهرست واژگان کنترل استفاده کرد. روش های استخراج که راش و دیگران ابداع کردهاند، به نسبت روش های پیشین، مزایایی را در بر دارند؛ توانایی شناسایی جملات استخراج شده (مثلاً از طریق جملات معترضه) ازجمله این مزایا به شمار می آیند. ارجاع درون جمله ای " ویژگی دیگری بود که در روش های استخراج وجود داشت: وقتی یک جمله برای استخراج انتخاب می شد، باید معلوم می گردید که آیا معنی آن (مثلاً به دلیل وجود اصطلاحاتی چون ازاین رو یا به این دلیل ) به جمله بعد از خود وابسته است یا خیر.

اگر معنی آن به جمله بعد وابسته بود، جملات بعدی - حداکثر تا سه جمله - به چکیده اضافه می شدند. حتی اگر سایر معیارهای پذیرش را نیز در خود نداشتند. بنابراین، این شیوهٔ استخراج، بالقوه می تواند چکیده هایی را تولید کند که به نسبت چکیده های حاصل از روش های کمتر پیشرفته، پیوستگی بیشتری داشته باشند. شکل : ۱۱۰ نمونه ای از چکیده را نشان می دهد که از طریق فرآیندهای راش و دیگران حاصل آمده است. در زمینهٔ اصلاح جمله و ویژگی های ارجاع درون جمله ای در فرآیندهای اولیه، ماتیس و دیگران (۱۹۷۳) به پیشرفت هایی دست یافتند و بازنمودهایی را تولید کردند که معتبرتر بودند.