نگاهی به تحقیقات ایرل در زمینه ی ساختار جملات

ایرل (۱۹۷۰) تحقیقاتی را انجام داد تا تعیین کند که آیا می توان ازطریق تحلیل های نحوی جملات با اهمیت را شناسایی کرد یا خیر. فرض بر این بود که جملاتی با ساختارهای معین نحوی - به نسبت سایر جملات - باید محتوی اطلاعاتی مدارک را بهتر ارائه دهند. بیشتر به دلیل تعداد زیاد انواع جملاتی که باید شناسایی می شدند، نتایج چندان نویدبخش نبود. یک فرآیند نویدبخش مستلزم استفاده از معیارهای نحوی و آماری است: گروه های اسمی در یک مدرک شناسایی می شوند، کلمات جدی در متن مشخص می شوند، کلمات شمارش شده وجملات بر مبناي تعداد کلمات پربسامدی که در بر دارند انتخاب خواهند شد.
بایس(1981)فرایندهای خودکار استخراجی راتوصیف کرده است که برشناسایی جملاتی(مثل"هدف اصلی از""ازروشی استفاده شده است")استوار است که به نظر بیانگر مناسبی ازمحتوای متن میباشد.فوم و دیگران (۱۹۸۲) روشی را برای چکیده نویسی خودکار توصیف کرده اند که - به ادعای آنان - از طریق فرآیندهای وزن دهی و تجزیه " حذفی عناصر غیرضروری و ساختار بندی دوبارهٔ باقی متن در یک خلاصهٔ موجز و معنادار، مهمترین اطلاعات متن را شناسایی میکند. آنها این جمله را مثال آورده اند:

ضرورت تولید مقدار بسیار زیادی از قدرت الکتریسیته و نیز حفظ محیط زیست، یکی از مشکلات فنی و اجتماعی است که در آینده ای نزدیک جامعه ما باید ان را حل کند. که به این صورت خلاصه شده است: در اینده، جامعه باید در عین حفظ محیط زیست، مشکل نیاز به تولید برق را - .حل کند هرچند این پیشرفت در سطح جمله تحسین برانگیز است، اما آنها مشخص نکرده اند که آیا فرآیندهای توصیفی آنها می تواند خلاصه ای معنادار و سودمند از کل یک مقاله را ارائه دهد یا خیر.

هان" و رایمر" (۱۹۸۴) تحقیقی را توصیف کرده اند که براساسی استفاده از یک چارچوب دانشی برای تجزیه متن، میکوشد تا یک سیستم خبره" برای فشرده سازی متن را توسعه دهد. آنها استفاده از اصطلاح فشرده سازی متن را بر اصطلاح چکیده نویسی ترجیح داده اند زیرا از این روشها میتوان برای تولید متنی فشرده با سطوح مختلفی از طول و جزئیات استفاده کرد.

البته، هرچه متون مدارک رسمی تر و متجانس تر باشند، فرآیندهای استخراج موفقیت آمیزتر خواهد بود. مثلاً، بورکووسکی" و مارتین (۱۹۷۵) ادعا کرده اند که در استخراج خودکار چکیده های نمونه در حوزه متون حقوقی، به موفقیتی بیش از ۹۰٪ دست یافته اند.

روش های جدید برای استخراج خودکار که امروزه آن را تلخیص متن مینامند را قبلاً در این فصل مورد اشاره قرار دادیم. گرچه فرآیندهای کنونی می توانند امور پیچیده ای مثل ترکیب موفقیت آمیز جملات را به انجام برسانند، اما با استفاده از معیارهای نسبتاً ساده ای که لوان و باکسن دال معرفی کردهاند نیز میتوان همانند یا حتی بهتر از سایر روش ها، جملاتی را انتخاب کرد که بیانگر محتوای اطلاعاتی مدرک باشند. مثلاً، هیوئی و گو" (۱۹۹۶) چهار معیار متفاوت برای تهیهٔ چکیده های مقالات جدید را با یکدیگر مقایسه کردند: روش محل، فرآیند اخباری، بسامد کلیدواژه و کلیدواژه عنوان. استفاده از عبارات اخباری (مثل برای نتیجه گیری"، " هدف آن بود) برای شناسايي جملات با اهمیت، بدترین نتایج را ارائه داد. استفاده از معیار سادهٔ بسامد کلیدواژه نتایج بهتری ارائه داد، اما استفاده از روش هایی که برای محل وزن بیشتری قایل بودند (مثل، اولین جملات در پاراگراف) یا روش هایی که بر انتخاب جملاتی تاکید داشتند که کلمات موجود در عناوین، عناوین فرعی، شرح ها یا اطلاعات کتاب شناختی در آنها تکرار شده بودند، بهترین نتایج را به دست دادند.