آموزش نمایه سازی تخصیصی خودکار

نمایه سازی تخصیصی خودکار

استخراج کلمات و / یا عبارت از مدارک وظیفه ای است که رایانه ها می توانند به خوبی انجام دهند. استخراج خودکار بر استخراج انسانی مزیتی آشکار دارد: استخراج ماشینی کاملاً یکپارچه و منسجم است. به هرحال، بیشتر نمایه سازی های انسانی از نوع نمایه سازی استخراجی نیست بلکه از نوع نمایه سازی تخصیصی است و روی هم رفته انجام این نوع نمایه سازی از طریق رایانه دشوار است. بدیهی ترین روش برای نمایه سازی تخصیصی از طریق رایانه آن است که برای هر اصطلاحی که میخواهد اختصاص یابد پرونده "مای از کلمات یا عباراتی را ایجاد کرد که به نظر میرسد بارها در مدارک تکرار شده اند و نمایه سازان انسانی نیز آن اصطلاح را به مدارک اختصاص خواهند داد. این نوع از پرونده ها برای اصطلاح باران اسیدی باید عباراتی چون باران اسیدی، نزولات آسمانی اسیدی، آلودگی هوا، دی اکسید سولفور و غیره را در بر داشته باشند. اگر هر اصطلاح موجود در واژگان کنترل شده چنین پروندهای داشته باشد، می توان از برنامه های رایانهای برای انطباق عبارات مهم در یک مدرک (اساسا عباراتی که براساس معیار بسامد استخراج می شوند و قبلاً درباره آن صحبت شد) با مجموعهٔ پروندهها استفاده کرد و وقتی پرونده مدرک با پرونده اصطلاح - براساس بالاتر بودن از آستانهٔ تعیین شده - همخوان بود، ان اصطلاح را اختصاص داد.

نمایه سازی تخصیصی خودکار به نظر میرسد که این روش ساده و قابل فهم باشد. به هرحال، در عمل انجام آن چندان ساده نیست، در اولین مرحله، معیار انطباق قدری پیچیده به نظر میآید. اگر کلمه باران اسیدی ده بار در یک مقالهٔ مجله تکرار شده باشد، باید مطمئناً اصطلاح باران اسیدی را به آن مقاله اختصاص داد. از سوی دیگر، فرض کنید که کلمه باران اسیدی فقط دو بار در یک مدرک تکرار شده باشد اما اصطلاحات جو، دی اکسید سولفور و اسید سولفوریک بارها تکرار شده باشند. آیا باید اصطلاح باران اسیدی را تخصیص داد؟ بدیهی است که ترکیبات بسیار متفاوتی از کلمات یا عبارات وجود دارند که میتوانند براین حقیقت دلالت داشته باشند که میتوان یک اصطلاح نمایه ای خاص را برای تخصصیص انتخاب کرد.

بعلاوه، اهمیت هر ترکیب به عنوان یک پیشگویی برای اختصاص دادن یک اصطلاح خاص، باید مستلزم استفاده از مقادیر هم ظهوری متفاوتی باشد. مثلاً اگر کلمات گرما، دریاچه و آلودگی همگی به تعداد کمی در یک مدرک تکرار شده باشند، همین کافی است تا اصطلاحات آلودگی حرارتی و آلودگی آب را تخصیص داد. اما تکرار کلمات گرما و دریاچه در یک مدرک بدون وجود کلمه آلودگی، موجب خواهد شد که اصطلاح آلودگی حرارتی - به عنوان بهترین اصطلاح - اختصاص یابد. امروزه احتمال تکرار عبارت باران اسیدی در مدرکی که با این موضوع سروکار دارد بسیار زیاد است، بنابراین اختصاص صحیح اصطلاح نمایه ای باران اسیدی ممکن است به دشواری تخصیصی کلمات فوق الذکر نباشد. تخصیص اصطلاح آلودگی حرارتی دشوارتر است چرا که احتمال کمتری وجود دارد که در اغلب مدارک دربارهٔ الودگی حرارتی، این عبارت کراراً تکرار شده باشد. اختصاصی رایانه ای بسیاری از اصطلاحات دیگری که یک نمایه ساز انسانی به سادگی می تواند اختصاص دهد دشوار است. اکونور (۱۹۶۵) بعضی از مشکلات را مورد بحث قرار داده است.