استخراج متن” یک مرحله از مقوله بندی متن بالاتر است. هدف از استخراج متن آن است که بخشهایی از متن (مثل پاراگراف ها) که با یک موضوع معین سروکار دارند، شناسایی و بیرون کشیده شوند. در بعضی موارد، این فرآیند باعث میشود تا متن استخراجی در قالبی ساخت یافته ارائه شود. برای ارائه یک مثال کاملاً فرضی، یک سیستم باید بتواند از طریق تحلیل خبرها و جملات، فرآیند تجاري شرکت ها را ردگیری کند. این جمله:

جان اف رایتر، مسئول فروش شرکت “الف” در پنج سال گذشته، به سمت معاون اجرایی شرکت با منصوب شد.

باید به صورت زیر خلاصه شود:

مدیر اجرایی: جان اف رایتر

سمت قبلی: مسئولت فروش

شرکت قبلی: الف

سمت جدید: معاون اجرایی

شرکت جدید: ب

تاریخ: ۵ نوامبر ۱۹۹۶ (تاریخ برگرفته از خبرها)

کوی و لنرت ” (۱۹۹۶) بررسی سودمندی دربارهٔ وضعیت جاری استخراج متن فرآهم آورده اند و گریشی من” (۱۹۹۴) مشکلات ارزیابی نتایج حاصل از استخراج را توصیف کرده است. شولدبرگ ” و دیگران (۱۹۹۳) توضیحات مفصلی دربارهٔ یک روش استخراج را ارائه کردهاند. انیش کویچ (۱۹۹۴)، و هابز و عزرائیل (۱۹۹۴) توجه به طراحی الگو” را مورد بحث قرار داده اند. لاوسونو دیگران (۱۹۹۶) روش استخراج داده / پرکردن متن الگو را داده کاوی ” نامیده اند. به هرحال، این اصطلاح اغلب برای فرآیندها و برنامه هایی مورد استفاده قرار میگیرد که به دنبال یافتنِ الگوهای مهم و ارتباط های موجود در بین داده ها هستند (مثل رکوردهای فروش یا سوابق پزشکی) بدون آنکه برای آنچه که باید آن را جستجو کنند دستورالعملی ارائه شود.

این نوع از استخراج متن و پرکردن الگو (قاب)، کاربردهای بالقوهای دارند؛ شاید تهیهٔ خلاصهٔ اخبار جاری مهمترین کاربرد استخراج متن  باشد. هاوگ و بیسیلی (۱۹۹۲) برنامه دیگری را توصیف کردهاند که با آن میتوان دادههای موجود در سوابق بیماران را به طور خودکار تشخیص داد، استخراج کرد و آنها را زیر تعداد محدودی از سرعنوان ها (مثل شکایت بیماران از،بیماران تکذیب کردند) دسته بندی نمود تا بتوان به رادیولوژیست ها کمک کرد تا عکس های رادیولوژی را تفسیر کنند. پایس و جونز (۱۹۹۳) استفاده از یک روش قاب پرکنی ” برای تهیهٔ چکیده های خودکار را توصیف کردهاند. برنامه تخصصی دیگر از نوع روش الگو، استخراج استنادات کتاب شناختی از متن پروندهٔ بیماران است (لاوسون و دیگران، (۱۹۹۶) ارتباط متن از تحلیل های آماری و / یا نحوی برای تعیین شباهت های بین عبارات متن – به ویژه از مدارکی کاملاً متفاوت – استفاده می کند و از این طریق آنها را به هم مرتبط میسازد (سالتون و با کلی ” ۱۹۹۲؛ مارک ۳، ۱۹۹۲؛ سالتون و دیگران، ۱۹۹۷).

دراصل، از این روش می توان برای تهیهٔ خودکار پیوندهای ابرمتنی استفاده کرد. اضافه متن” را میتوان نوعی استخراج از ارتباط متن دانست. این سیستم ها به این دلیل توسعه یافته اند تا بتوان از طریق مثلاً ردگیری اخبار روزنامه ها درباره بعضی از وقایع مثل ادغام شرکت ها یا بروز بلایای طبیعی، عبارات یا بخش های متن را از چندین منبع گردآوری نموده و در یک متن متجانس و روایی واحد ادغام کرد. گونه ای از این سیستم ها، تحقیقاتی هستند که برای تولید ابزارهایی برای ادغام متن و تصاویر اجرا شدهاند، مثل ارتباط دادن یک عبارت توصیفی موجود در یک کتاب درسی به اجزای یک نمودار و استخراج متن برای شرح آن نمودار (راجا گوپالان، ۱۹۹۴). چن (۱۹۹۳) یکالگوی رایانهای برای ادغام متون مرتبط از منابع مختلف را توصیف کرده است.