تبیین بین بافت صوتی و بافت تصویری

کای و دیگران (۱۹۹۶) نمایه سازی خودکار برنامه های تلویزیونی از طریق موضوع و نوع آنها را بررسی کرده اند، اما آنها به جای نگارش های صوتی، بر روی متن چاپي برنامه های تلویزیونی کار کرده اند.

هاپت من و ویت بروک (۱۹۹۷) سیستمی را شرح داده اند که بخشهای درخواستي اخبار تلویزیونی را بازیابی می کند. در این سیستم، برای تهیهٔ رونوشت های متنی از بخش های صوتي برنامه های رادیو و تلویزیونی، از فن آوری تشخیص گفتار استفاده می شود. این رونوشت ها در قالبی قابل جستجو ذخیره میگردند. می توان از درخواستهای گفتاری برای بازیابی و پخش یک قطعهٔ خاص استفاده کرد. نویسندگان ادعا می کنند که سیستم آزمایشی آنها با کمی دقت در تشخیص صوتی، کاملاً قابل استفاده است . مانی و دیگران (۱۹۹۷) از تحقیق مشابهی صحبت به میان آورده اند که بر روی روش های بازیابي قطعات ويديويي اخبار تلویزیونی انجام شده است.

پاتل و ستی" (۱۹۹۶) روش هایی را شرح داده اند که آنها، خود، برای طبقه بندی قطعات فیلم به منظور پردازش های صوتی ابداع کردهاند. درحال حاضر، این سیستم فقط میتواند رده های کلی (مثل موزیکال) را تشخیص دهد، اما نویسندگان گفته اند که برای شناسایی انواع خاص تر صحنه ها (صحنه های حادثه ای، صحنهٔ رقص و غیره) می توان سیستم را ارتقاء داد. پایل و ستی، بعدها (۱۹۹۷) پژوهش خود را بر روی شناسایی و تشخیص سخنران (مثل تشخیص بازیگران نم آهنگهااز بازیگران فیلم ها) متمرکز کردند. توانایی بازیابی سخنرانی ها به میزان پیشرفته بودن فن آوری گفتاری وابسته است. به نظر میرسد که مجلات تجاري عامه پسند، دربارهٔ توانایی های آتی این فن آوری بسیار خوش بین هستند. مثلاً به ادعای فلاین (۱۹۹۳) که کاملاً غیر واقعی است توجه کنید:

در پایان این دهه، سیستم های تشخیص گفتار به ما اجازه خواهند داد تا با واژگانی نامحدود اما واقعی صحبت کنیم.

- هاس (۱۹۹۶)، به نقل از ریود نیکی"، په نکته دربارهٔ جنبه های اتی این حوزه اشاره می کند:

بین تشخیص گفتار و فهم گفتار تفاوت وجود دارد: تشخیص گفتار به سیستمی برای شناسایی کلمات در یک گفته نیاز دارد درحالی که فهم گفتار به سیستمی نیاز دارد که بتواند بر مشکلات فهم زبان طبیعی مثل مرجع پیشایند، حذف به قرینه، و سایر پدیده های گفتاری فایقی آید. تشخیص گفتار برای وظایفی ساخت یافتهای مثل ورودو داده و صادرکردن دستورات و فرمانهای ساده مفید است، اما یک گفتگو - از هر نوع - به فهم گفتار نیاز دارد. ( ص. ۹۸)

فهم گفتار انسانی از طریق رایانه، چشم اندازی نیست که در افقی نزدیک قرار داشته باشد.دربارهٔ دست آورده ای فن آوری تشخیص گفتار و آنچه در آینده ای نزدیک در این حوزه به وقوع خواهد پیوست، حتی در بین اجتماع محققین این رشته نیز عقاید بسیار متفاوتی وجود دارد. مثلاً، لوينسون (۱۹۹۵) اعتقاد دارد که زمان زیادی به طول خواهد انجامید تا سیستم هایی ابداع شوند که ارزش تجاری داشته باشند؛

اکثر افراد اعتقاد دارند که پیشرفتهای فنی به زودی باعث خواهد شد تا تشخیص گفتار تجاری، با واژگانی گسترده، برای اهدافی خاص میسر شود. پیشبینی من ... آن است که پیشرفتهای فنی بسیار آرام ظهور خواهند نمود اما در طول ۴۰ یا ۵۰ سال آتی، تشخیص گفتار در سطوح مختلفی گنش انسانی فراگیر خواهد شد. یعنی اینکه، پیشرفتهای فنی سریع، در کوتاه مدت، به یک فن آوری آسیب پذیر در یک بازار تجاری نسبتاً محدود دست خواهد | بافت، درحالی که پیشرفتهای فن آورانهٔ اصلی که از یک تغییر الگو در علم پایه حاصل خواهد آمد، میتواند سطوح مختلفی گنبش انسانی را در زبان گفتاری ایجاد نماید. این مسئله، به نوبه خود، بازاری از ارزش های غیرقابل محاسبهٔ تجاری را ایجاد خواهد کرد.( ص. ۹۹۵۴)

در یک تک نگاشت اثر مارکوويتس (1996) بر رسمی جامعی دربارهٔ تشخیص گفتاری ارائه شده است. تشخیص اینکه تحقیق در حوزه بازیابی تصاویر یا صوت، بیشتر به فنون نمایه سازی خودکار وابسته است تا به نمایه سازی انسانی، از اهمیت زیادی برخوردار است.

بنابراین، روش هایی که در دو فصل بعد مورد بحث قرار خواهند گرفت کاملا به محتوای اطلاعاتی این فصل وابسته است.