ارائه روشی پیشرفته برای تبدیل اصطلاحات متن

در دانشکده فنی دارمستات " روش پیشرفته تر دیگری برای تبدیل اصطلاحات متن به توصیفگرها توسعه یافت. روش دارمستات، روشی وزنی است که با توجه به وجود یک اصطلاح متنی خاص در عنوان یا چکیده، احتمال تخصیص یک توصیفگر به یک مدرک را برآورد می کند. همانطور که قبلاً در این فصل اشاره شد، اکنون یکی از برنامه های موفق نمایه سازی تخصیصی ماشینی در مرکز اطلاعات فضایی ناسا در حال استفاده است (سیلوستر و دیگران، ۱۹۹۳، ۱۹۹۴). این برنامه براساس ابداع پیشین کلینگ بیل طراحی شده است. گرچه در طول ۳۰ سال گذشته نمایه سازی تخصیصي خودکار توسعه یافته است (به فصل ۱۷ نگاه کنید)، اما هنوز به نقطه ای نرسیده ایم که بتوان به طور تمام خودکار و بدون مداخله انسانی، اصطلاحات را از یک واژگان عظیم (یعنی ۰ ۰ ۱۰,۰ توصیفگر در یک اصطلاح نامه) به مدارک اختصاص دهیم. در یک بررسی که هرش " و دیگران (۱۹۹۳) بر روی متون پزشکی انجام داده اند، ادعا شده است که از طریق جستجو بر روی متون ساده - به نسبت مقایسه متن با اصطلاحات واژگان کنترل شده -- نتایج بهتری حاصل آمده است.

امروزه، نمایه سازی تخصیصی خودکار، جز در تولید نمایه های چاپی، چندان مقبولیت عامی نیافته است. سی سال پیش این روش بسیار عمومیت یافته بود. زیرا در آن زمان، ذخیره و پردازش رایانه ای متون – درحجم زیاد - بسیار پرهزینه بود و استفاده از هر روشی که بتواند از طول متن بکاهد قابل توجیه بود. البته امروزه اگر متن کامل یک مدرک یا چکیده مناسبی از آن وجود داشته باشد، اندیشهٔ دربارهٔ نمایه سازی کردن یا نکردن آن معنایی نخواهد داشت مگر آنکه قبلاً نوعی نمایه چاپی از پایگاه استخراج شده باشد. با این وجود، همانطور که قبلاً نیز در این فصل بحث شد، برنامه های خاصی وجود دارند که استفاده از نمایه سازی تخصیصی خودکار در آنها مفید خواهد بود. " نمایهٔ آخر کتاب نوع خاصی از نمایه است. تلاش برای تولید رایانه ای این نوع از نمایه نیز به بیش از ۳۰ سال پیش بازمیگردد. آرتاندی (۱۹۶۳) با استفاده از رایانه، و در حوزه موضوعی شیمی، نمایه های کتاب تهیه کرد. او برای هر مدخل نمایه ای (اصطلاح توصیفی") فهرستی از عبارات وابسته (اصطلاحات تشخیصی") را تهیه کرد.

وقوع هر یک از اصطلاحات تشخیصی در یک صفحه از متن، باعث می شد تا یکی از مدخل های نمایه ای برای ان صفحه برگزیده شود. آرتاندی ادعا کرده است که یک نمایه تولید شده به این روش، از نظر کیفیت با یک نمایه دست ساز قابل مقایسه است، اما هزینه آن به نسبت نمایه دستساز بیشتر است به هرحال، تبدیل متن به قالب الکترونیکی، هزینه برترین بخش در تولید این نوع از نمایه است. ازآنجا که امروزه همهٔ انتشارات از طریق ورودی های الکترونیکی انجام می شود، دیگر عامل هزینه باعث نمی شود تا کار فکری انسانی در اولویت قرار گیرد. با این وجود، مسئلهٔ تهیهٔ خودکار نمایه برای کتابها دشوارتر از آن است که تجربه آرتاندی نشان داده است. حتی در حوزه های موضوعی محدود، ما به واژگان زیادی از اصطلاحات توصیفی نیاز داریم که برای هر یک از آنها نیز باید تعدادی اصطلاحات تشخیصی - که تعداد آنها نیز به مراتب بسیار زیاد خواهد بود - در نظر گرفته شوند. بعلاوه، باید هر دو نوع واژگان یادشده را روزآمد کرد تا بتوانند پیشرفت ها و تغییرات اصطلاح شناسی موجود در آن حوزه موضوعی را دربرگیرند.