ترنر (۱۹۹۰) خاطرنشان کرده است که حتی اگر کسی بتواند باسرعت به یک تصویر (در این جا فریم های تصویر متحرک دست یابداین مسله نمیتواند ضرورت دستیابی به یک توصیف متنی را از میان بردارد:
بعلاوه، متن اغلب به عنوان راهنمایی برای دستیابی به تصویر عمل میکند. در بسیاری از موارد، استفاده از یک چکیده به مشاهده کننده در تفسیر تصویر کمک خواهد کرد؛ مثلاً، اگر بدانیم که قطار شماره ۱ در آرینت اکسپرس دیده میشود یا اینکه روستای شانتی که در تصویر نشان داده شده در خارج از شهر کیوتو قرار دارد، بسیار سودمند خواهد بود. به عبارت دیگر، متن یک خلاصهٔ بصری می تواند اطلاعات باارزشی را فرآهم آورد که در تصویر وجود ندارد. بنابراین، گرچه بازیابی تصویری مطمئناً برای دستیابی سریع به تصویر مناسب است اما این مسئله به این معنی نیست که این روش جایگزین خلاصه متن خواهد شد. ( ص. ۷)
گرین و کلاسن نیز به روشی مشابه، تجربه تلوزیون سوئیس در نمایه سازی برنامه های تلویزیونی با استفاده از توصیفگرهای متنی را توصیف کرده اند. همهٔ صحنه هایی که طول آنها۱۰ ثانیه یا بیشتر است را با استفاده از گزارمان هاي متن آزاد توصیف کرده اند. نمونه ای از این شیوه عبارت است از:
بازاری پر از جمعیت. دکه ها، پرتغال ها، سیبها، انگورها، هلوها. صحنه هایی از افتادن سیب زمینی ها. سیب زمینی ها بر روی قلوه سنگ ها میغلطند. دختری که با دست صورت خود را پوشانده است.
ترانت" (۱۹۹۵) میگوید که "توصیف متنی همچنان به عنوان ابزاری کلیدی برای بازیابی تصاویر مورد استفاده قرار خواهند گرفت . او بر ضرورت وجود یک استاندارد برای توصیفی تصاویر در پایگاه های تصویری تاکید کرده و یادآور می شود که در این جهت گام هایی نیز برداشته شده است.
مصطفی و دیلون (۱۹۶۶) ابزار میانجي سیستم بازیابی تصویری که توانایی جستجوی تصویری و جستجوی شفاهی داشته است را مورد بررسی قرار دادند. آنها دریافتند که آزمودنی های آنها (هجده دانش آموز) بیشتر از روش شفاهی و کمتر بصری استفاده میکنند. آنها پیش بینی کردند که علت این کار اصولاً به دلیل ناآشنایی آنها با روش های بصری بوده است.
آگله و استون بریکر (۱۹۹۵) تجربهٔ خود بر روی یک سیستم بازیابی تصویری عظیم در دانشگاه کالیفرنیا را توصیف کرده و با این گفته موافق هستند که بهترین نتایج بازیابی وقتی حاصل میآید که معیارهای جستجوی متن مبنا با معیارهای محتوی مبنا ترکیب شوند. حتی در پیشرفته ترین برنامه های بازایابی چندرسانه ای نیز متن همچنان با اهمیت است.
مثلاً، هاپت من و ویت بروک (۱۹۹۷) از آوانویسي بخش سمعي اخبار تلویزیونی به عنوان ابزاری برای بازیابی بخش های مورد نیاز خبری استفاده کردند (برای تهیهٔ آوانویسی و نیز تولید درخواست های گفتاری از فن آوری تشخیص گفتار استفاده شد) و مانی و دیگران (۱۹۹۷)، در پژوهشی مشابه، برای بازیابی ویدیوهای خبری تلویزیونی از شرح کوتاه " بهره گرفتند.