صحت نمایه سازی در نظام های بازیابی اطلاعات

صحت نمایه سازی

یکی از نکات مورد توجه در نمایه سازی میزان صحت آن و عدم خطاهای نمایه سازی است که در نظام های بازیابی اطلاعات اهمیت بسیار دارد.

بااین وجود، در نمایه سازی خطاهایی رخ میدهد که نمایه ساز باید بتواند آنها را تشخیص دهد و کیفیت نمایه سازی را کنترل کند. بعضی از این خطاها عبارتند از:

۱. نمایه ساز از سیاست گذاری، به خصوص سیاست گذاری مربوط به جامعیت نمایه سازی تخطی می کند.

۲. در استفاده از عناصر واژگان به روشی که باید مورد استفاده قرار گیرند (مانند استفاده از ترکیب صحیح سرعنوان اصلی - سرعنوان فرعی) تخطی میکند.

3.نمایه ساز اصطلاحی را در سطح مناسب جزء نگری مورد استفاده قرار نمی دهد. این مساله به این معناست که اصطلاح انتخابی، خاص ترین اصطلاح نیست.

۴. نمایه ساز شاید به علت فقدان دانش موضوعی، از اصطلاحی استفاده می کند که آشکارا غلط است.

۵ نمایه ساز اصطلاح مهمی را حذف میکند. خطاهای نمایه سازی به دلایلی گوناگون و در تحلیل مفهومی یا در مرحله ترجمه به وجود می آیند. خطا در تحلیل مفهوم می تواند دو نوع باشد:

۱. خطا در تشخیص موضوعی که مورد علاقه کاربران است.

۲. تفسیر نادرست جنبه هایی از مدرک که در تعیین اصطلاح نقش مهمی دارند.

خطاهای مرحله ترجمه نیز دو نوع است:

۱. خطا در استفاده از اصطلاح اخص برای نمایش بعضی موضوع ها.

۲. استفاده از اصطلاحی نامتناسب با محتوای موضوع به علت بیدقتی یا فقدان دانش موضوعی.

به هر حال پیشگیری از ایجاد این خطاها بسیار دشوار است و لازم است نمایه سازی ارشد بر روند کار نمایه سازان نظارت کند و نسبت به این خطاها کاملاً آگاه باشد (لنکستر، ۱۹۹۱: ۷۶-۷۸).

از عوامل دیگری که بر صحت نمایه سازی تأثیر می گذارد، زمان تعیین شده برای نمایه سازی است؛ هر چه محدودیت زمانی بیشتر باشد، خطاهای نمایه سازی نیز افزایش مییابد. این خطاها عمدتاً دو نوع هستند:

۱. حذف اصطلاحی مهم که باید اختصاص داده شود.

۲. استفاده از اصطلاح نادرست.

مورد اول، بیشتر رایج است و موجب شک میشود. در حالی که مورد دوم موجب شکست در جامعیت و همچنین در مانعیت میشود. بنابراین خطاها بر جامعیت و مانعیت نظام بازیابی اطلاعات تأثیر می گذارند. پس باید صحت نمایهسازی را با فرایند بازبینی نمایهسازی (کنترل اثر یک نمایه ساز به وسیله فردی با تجربه بیشتر) افزایش داد. در اینجا این پرسش مطرح می شود که آیا فرایند بازبینی مقرون به صرفه است؟ پاسخ به این سؤال به موارد زیر بستگی دارد:

۱. میزان خطاهایی که در نمایه سازی بدون بازبینی، رخ میدهد.

۲. میزان خطاهایی که با عمل تجدید نظر تصحیح میشوند.

۳. تأثیر تقریبی که خطاهای نمایه سازی (بازبینی شده یا نشده) بر عمل بازیابی دارند.

۴. هزینه بازبینی بدین ترتیب، ما باید در مورد هزینه های بازبینی، درصد خطاهای تصحیح شده و تأثیری که بر میزان مانعیت و جامعیت نظام دارد اطلاعاتی کسب کنیم و هر دو نوع خطا را مورد تجدید نظر قرار دهیم (لنکستر، ۱۹۷۱).

به اعتقاد سور گل نمایه سازی مستعد دو نوع خطاست:

۱. خطاهای حذف . توصیفگری که باید تعیین شود، حذف می شود.

۲. خطاهای اختیار. توصیفگری که نباید تعیین شود، انتخاب می شود.

حذف توصیفگر صحیح و تعیین یک توصیفگر اعم، اخص، یا وابسته نوع خاصی از خطا است که بیدرنگ رخ میدهد. در تعیین خطاهای نمایه سازی فرد باید از ماهیت توصیفگرهای صحیح یا نادرست آگاه باشد. صحت نمایه سازی به حضور توصیفگرهای صحیح و فقدان خطاهای حذف بستگی دارد. صحت، کامل بودن نمایهسازی را نشان میدهد. کامل بودن نمایه سازی را از دو دیدگاه میتوان بررسی کرد:

۱. دیدگاه موجودیتی، در این دیدگاه این پرسش مطرح می شود که از توصیفگرهای مورد نیاز برای یک موجودیت چه تعداد واقعاً انتخاب می شوند؟ این پرسش تکمیل بودن را برای هر موجودیت به صورت مجزا بررسی نموده و از فرمول زیر استفاده می کند:

1

 

دیدگاه توصیفگرانه. پرسشی که در این دیدگاه مطرح می شود این مسأله بیان می کند که از هم  موجودیت ها یی که باید به وسیله توصیف گرها  نمایه سازی شوند چه تعداد به خوبی نمایه شده اند؟ این پرسش، کامل بودن نمایه سازی را از دیدگاه توصیفگر به صورتی که در کل مجموعه ظاهر می شود - بیان و از فرمول زیر استفاده میکند:

2

محاسبه دیدگاه توصیفگرانه دشوارتر است اما در پیش بینی میزان بازیابی اهمیت بیشتری  دارد زیرا به طور مستقیم با میزان جامعیت در ازتباط است.

مسأله دیگر خلوص نمایه سازی است که به فقدان توصیفگرهای نادرست و خطاهای نمایه سازی بستگی دارد. این مشخصه نیز از دو دیدگاه موجودیتی و توصیفگرانه مورد توجه قرار می گیرد. و فرمولهای آن عبارتند از:

1.دیدگاه موجودیتی:

3

2.دیدگاه توصیف گرایانه:

4

می توان گفت کامل بودن نمایه در اندازه گیری خطاهای حذف، و خلوص نمایه سازی در محاسبه خطاهای اختیار کاربرد دارند و هر چه میزان آنها بالاتر باشد. نمایه سازی بهتری انجام گرفته است. صحت نمایه سازی باید براساس قواعد و خط مشی های نظام بازیابی اطلاعات محاسبه شود. به عنوان مثال ممکن است مدرکی در نظام A با سه توصیفگر نمایه سازی شود و صددرصد کامل باشد اما در نظام B با 20 توصیفگر نمایه سازی شود اما ۵۰ درصد کامل باشد. همچنین توصیفگری در نظامی با جامعیت بالا ممکن است صحیح و در نظامی با جامعیت پایین میتواند نادرست باشد.

با نمایه سازی صحیح کاربر می تواند بر توصیفگرهای تعیین شده و نتایج بازیابی، اعتماد کند. سنجش صحبت نمایه سازی در عملی بسیار دشوار است و در حد احتمال باقی میماند (سورگل، ۱۹۹۴).

بدین ترتیب خطاهای نمایه سازی را به دو دسته خطاهای حذف و خطاهای اختیار تقسیم می کنند. و از جهات دیگر به دو دسته خطا در تحلیل مفهوم مدرک و خطا در مرحله ترجمه گروه بندی می شوند. شاید بتوان تقسیمبندی اول را زیرمجموعه ای از خطاهای مرحله ترجمه دانست. بر این اساس خطاهای نمایه سازی عبارتند از:

۱. خطا در مرحله تحلیل مفهوم. در این بخش نمایه ساز درک صحیحی از محتوای موضوعی مدرک ندارد و تفسیر او از مفهوم نادرست است.

2-خطا در مرحله ترجمه. نمایه ساز در تعیین توصیفگرها دچار خطا می شود و این خطاها عبارتند از:

 2-1 خطای حذف. در این حالت توصیفگری که باید تعیین شود، انتخاب نمی شود.

2-2. خطای اختیار. در این حالت اصطلاحی نادرست و نامتناسب با موضوع مدرک انتخاب میشود.

این خطاها به علت بی توجهی نمایه ساز به سیاست های نمایه سازی، فقدان دانش موضوعی و عدم آشنایی کامل با زبان نمایه سازی به وجود میآید. پیشگیری از آنها بسیار دشوار است و به نظارت افراد با تجربه و آگاه نیاز دارد. مباحث دیگری که در اینجا مطرح می شود کامل بودن نمایه سازی، خلوص نمایه سازی و صحت ان است که مفهوم فقدان خطاهای نمایه سازی را در بر دارند و براساس فرمول های خاصی سنجیده میشوند. به هر حال هر چه صبحت و خلوص نمایه سازی بیشتر باشد، کارایی نمایه در بازیابی اطلاعات افزایش مییابد و کاربر را به نتایج بهتری رهنمون خواهد کرد.