شناختی اجمالی از مشکلات نمایه سازی پایگاه های صوتی

مناسب ترین روش نمایه سازی حداقل برای بعضی از اهداف ممکن است روشی باشد که دستیابی معمول از طریق متن (اصطلاحاتِ نمایه ای یا شرح توصفی) را با انطباقي تصویری درهم می آمیزد. در نتیجه، یک جستجوی کلیدواژه ای (نبرد، حمله، جنگ) باید تصویری از یک برای بازیابی سایر تصاویر مشابه مورد استفاده قرار گیرد. روش عملی، استفاده . یک اصطلاح نامهٔ تصویری است؛ اصطلاح نامه ای که تصاویر نمونه را همراه با برچسب های شفاهی (سلف، ۱۹۹۰) یا احتمالا بدون برچسب های شفاهی ذخیره میکند. برای بحث . دربارهٔ مزایا و ویژگی های اصطلاحنامه های تصویری در جستجوی پایگاه های تصویری به اثر .هوگان و دیگران (۱۹۹۱) مراجعه کنید

پایگاه های صوتی

نمایه سازی پایگاه های صوتی مشکلاتی دربر دارد که حتی پیچیده تر از مشکلاتی است که  با پایگاه های تصویری همراه اند؛ بعلاوه در این حوزه تحقیقات بسیار کمتری انجام شده است.

اسپارک جونز و دیگران (۱۹۹۶) ادعا کرده اند که "اخیرا بازیابی گفتکو ازطریق پیشرفته ترین.پردازش های گفتاری به خوبی میسر است و بازیابی سایر انواع صداها (مثلا، از ارشیو صدای یک موسیقیدان) مشکلات بیشتری در بر دارد. بعلاوه، گفتار و سایر داده های صوتی، به نسبت متن، به فضا و پردازش های بیشتری نیاز دارند. اسپارک جونز و دیگران (۱۹۹۶) تجربیاتی را بر روی مجموعه پیام های گفتاری (مثل پست صدا ) گزارش داده اند و جونز و دیگران (۱۹۹۷) نیز نتایج نویدبخشی ارائه دادهاند، هرچند مجموعهٔ کوچکی مورد بررسی آنها کاملاً تصنعی بودند: پیامهای کوتاهی که بر روی موضوعات محدودی تهیه شده بود، واژگان بسیار اندک و تعداد معدودی سخنران، در این شرایط محدود و در مقایسه با جستجوهایی که بر روی آوانگاري گفتگوها به قالب متن انجام شده بود، محققین توانستند به نتایجی با کارایی بین ۷۵٪ تا ۹۷ ٪ دست یابند.

روش های جدید برای ترکیب و آرشیو کردن الکترونیکی صداها می تواند تعداد زیادی از صوتها را در دسترس موسیقی دانان قرار دهد، اما بازیابی یک صوت خاصی از چنین آرشیوی مشکلات عمده ای در بر دارد. فایتن" و گیونزل  (۱۹۹۴) از طریق شبیه سازی شبکه های عصبی، روشی را برای نمایه سازی و بازیابی صداها ایجاد کرده اند. نمایهٔ بازیابی به طورخودکار ایجاد می شود.