روش های جدید
دهه ۱۹۶۰، دههٔ پایه ریزی تعداد شگفت آوری از طرح های تحقیقاتی در زمینهٔ استفاده از رایانه ها در کنترل متن بوده است. برای افزایش سرسام آور این نوع فعالیت ها دلایل متعددی وجود داشته است: مؤسسات تحقیقاتی (و محققین) خود را با امکانات رایانه ای گران قیمتی روبرو دیدند که آماده کاربری بودند، در بسیاری از مراکز دولتی بودجه های تحقیقاتی فراوانی وجود داشت، و پردازش متن، بیش از پیش، به عنوان وظیفه ای نسبتاً ساده برای رایانه های قدرتمند در نظر گرفته می شد. از آنجا که ترجمه ماشینی هدف اصلی بسیاری از این تحقیقات بود، در نتیجه برای بازیابی اطلاعات روش های مختلفی را مورد بررسی قرار دادند. جاه طلبانه ترین طرح ها در بازیابی اطلاعات، درصدد ایجاد سیستم های پرسش و پاسخ یا بازیابی اطلاعات بودند؛ یعنی ایجاد سیستم هایی که بتوانند مستقیماً به پرسش یک بهره گیر پاسخ دهند نه اینکه متنی را بازیابی نمایند که ممکن است پاسخی برای پرسش بهره گیر را در بر داشته باشد یا به چنین متنی ارجاع دهد.
البته، مشکلات، به ویژه در حوزه ترجمه ماشینی، بیشتر از آنی بود که تصور می شد. دراین سالها، علاقه به پردازش متن به سرعت در بین مؤسسات تحقیقاتی و سازمان های برنامه و بودجه رواج یافت، و بعضی از طرح های مهم تر در طول این سال ها، پیشرفت های قابل توجه ای داشته و نتایج نویدبخشی نیز ارائه داده اند. گسترهٔ تحقیقات در زمینهٔ پردازش متن در دهه 1990 یادآور فعالیت هایی بود که در دهه 1960 انجام می شد (به آثار جاکوبز1992a و پرایرا" و گروس 1994 نگاه کنید). این افزایش علاقه و فعالیت ها از این حقیقت ها نشات میگیرند: اکنون حجم زیاد تر ازمتن در قالب های الکترونیکی وجود دارند، قدرت پردازش رایانه ای بسیار زیاد. نر و ارزان تر است، و اکنون در بخش های خصوصی و عمومی نیازهای آشکاری برای برنامه های مناسب پردازشی وجود دارد (مثل، اشاعه کارآمد اطلاعات بر روی اینترنت و نیازهای فانونی چندزبانی در جامعه اروپا). تحقیقات امروزی در صدد ایجاد سیستم های هوشمند متن پایه هستند.
شگفت آن که امروزه حجم زیار متونی که باید پردازش شوند چالش های زیادی را برانگیخ به اند، اما در عین حال راه حل های بالقوه ای را نیز پیش پا نهاده اند که در دسترس محققین ۳۰ سال پیش وجود نداشت. مثلاً فرهنگ لغت های ریشهٔ کلمات می توانند - به جای صدها - هزاران مدخل را در بر داشته باشند (جاکوبز و راو، ۱۹۹۴) و میتوان از پیوند کلمات (هم ظهوری) برای شناسایی عبارات مهم در مقدار متناسبی از متن استفاده کرد (ویلکس " و دیگران، ۱۹۹۲؛ هاس، ۱۹۹۶). میتوان از بسامد واژه برای اختصاص دادن متن به مقوله های مختلف استفاده کرد (جاکوبز، ۱۹۹۲b).
بعلاوه، می نوان از ایالایش آماری"، که بر هم ظهوری کلمات یا ریشه های خاصی استواراست، بای انتخاب جملاتی استفاده کرد که مرتبط بر با نیازها به نظر میآیند و گزینهٔ مناسبی برای بررسی های دقیق تر هستند (ویلکس و دیگران، ۱۹۹۲).