روش های استفاده از وزن در درجه بندی مدارک

روش های استفاده از وزن در درجه بندی مدارک

بیشتر نمایه سازان به اصطلاح خاورمیانه وزن بالا و به اصطلاحات رهبران سیاسی یا کمک خارجی وزن پایینی اختصاص دهند. در بازیابی از یک پایگاه اطلاعاتی، به دو روش میتوان از نمایه سازی وزنی از این نوع استفاده کرد. یک روش آن است که به کاوشگر اجازه دهیم تا بتواند تعیین کند که فقط مدارکی که زیر اصطلاحاتی با وزن مشخص نمایه شده اند بازیابی شوند. در نتیجه، اگر کسی به مقالاتی علاقه داشته باشد که مستقیماً زیر موضوع رهبران خاورمیانه نمایه شده اند، به هر دو اصطلاح خاورمیانه و رهبران سیاسی - که به هر دو اصطلاح حداقل وزن ۴ اختصاص خواهد یافت - نیاز خواهد داشت. این روش، از بازیابی مدرک شکل ۳ و احتمالاً بسیاری از مدارک مشابه که فقط به طور فرعی دربارهٔ موضوع رهبران سیاسی بحث می کنند جلوگیری خواهد کرد. روشر دیگر، استفاده از وزنها برای درجه بندی مدارکی است که در یک جستجو بازیابی می شوند. بنابراین، در یک جستجو که باید اصطلاحات خاورمیانه و رهبران سیاسی، هر دو، حضور داشته باشند، مدارکی که در آنها وزن هر دو اصطلاح پنج (مجموعاً ده) است ابتدا، مدارکی با وزن نه دوم و به همین ترتیب تا مدارکی که امتیاز دو گرفته اند چاپ شده یا نمایش داده میشوند.

مارون (مارون و کوهن ، ۱۹۶۰ مارون و دیگران، ۱۹۵۹، مارون، ۱۹۸۸) مدت ها پیشی، از اختصاص دادن وزن های عددی به اصطلاحات طرفداری کرده و این نوع نمایه سازی را نمایه سازی احتمالی" نامیده بود. علی رغم این طرفداری، من هیچ نظام بازیابی مرسومی (یعنی براساسی نمایه سازی انسانی نه ماشینی) را نمی شناسم که کاملاً به این روش از وزنهای عددی استفاده کرده باشد، گرچه وزن دادن به اصطلاحات تلویحاً در نظام های بازیابي خودکار یا نیمه خودکاری مثل نظام اسمارت وجود دارد (به فصل ۱۵ مراجعه کنید).

باوجوداین، بعضی از پایگاه ها از طریق فرق گذاشتن بین توصیفگرهای” اصلی” و “فرعی” ، که معادل ایجاد یک مقیاس عددي دو امتیازی است، فن وزن دهی سادها ی را اعمال می کنند. این شیوه ممکن است به تولید یک نمایه چای وابسته باشد که در آن توصیفگرهای اصلی آنهایی باشند که در نمایه چاپی، یک مدرک زیر آنها ارائه شده است و توصیفگرهای فرعی آن دسته از توصیفگرهایی باشند که فقط با پایگاه اطلاعاتی در قالب الکترونیکی ارتباط دارند. این روش مثلاً در کتاب خانهٔ ملی پزشکی (ایندکس مدیکوس و پایگاه اطلاعاتی مدلاین)، مرکز ملی اطلاعات فنی (انتی ای اس)" و مرکز اطلاع رسانی منابع آموزشی (اریک)" اعمال می شود. حتی این الگوي وزن دهی ساده، به نسبت روشی که قبلاً اشاره شد، انعطاف پذیری هایی را در جستجوی اطلاعات فرآهم می آورد. یک کاوشگر می تواند مشخص کند که مدارک فقط زمانی بازیابی شوند که یک اصطلاح (یا اصطلاحات) به عنوان توصیفگر اصلی مطرح شده است. راه دیگر اینکه، میتوان یک رتبه دهی ساده به دست آورد، یعنی، مدارکی که در آنها هر دو اصطلاح - که کاوشگر آنها را با عملگر و مورد استفاده قرار داده است - اصلی (ت) هستند ابتدا ارائه شوند و به دنبال آن مدارکی که تنها یکی از دو توصیفگر اصلی هستند، و سپس مدارکی بازیابی شوند که هر دو توصیفگر در آنها فرعی (ت ف) هستند.

بعضی از مراکز خدمات علمی، از مقیاس وزن دهی دووجهی کمی فراتر می روند. مثلاً در پایگاه اطلاعاتی بایوسیس، سرعنوان های مفهومی ابتدا براساس یکی از سه سطح تاکید" اختصاص می یابند: سطح یک (در نمایه های چاپی، مدارک زیر این سرعنوان ها ارائه می شوند)، سطح دو (تاکیدی نسبتاً قوی)، و سطح سه (تاکید کم) (ولیداتس-باس توکولوو" ...1987)توجه کنید که نمایه سازی وزنی، درحقیقت، به کاوشگر امکان میدهد تا جامع نگری نمایه سازی را تغییر دهد. در شکل شماره ۳، میتوان پنج اصطلاح اول را به عنوان توصیفگرهای اصلی و نه اصطلاح باقیمانده را به عنوان توصیفگرهای فرعی درنظر گرفت.دراین صورت، یک راهبرد کاوش که در آن از توصیفگرهای فرعی استفاده شده باشد، درواقع به معنی کاوش در یک سطح نمایهسازی با جامع نگری پایین است.ایجاد تمایز بین نمایه سازی وزنی، از نوعی که شرح داده شد، و جستجوی اصطلاح وزن دار" اهمیت دارد. جستجوی اصطلاح وزن دار با نمایه سازی وزنی هیچ رابطه ای ندارد. جسستجوی اصطلاح وزن دار به ساختار یک راهبرد کاوش اشاره دارد که منطق آن از طریق وزن های عددی، و نه منطق بولی، تعیین می شود.

۲۰ پایین ترین وزن قابل پذیرش است، یعنی پیش از بازیابی باید هر دو اصطلاحات "الف" و "ب" در یک رکورد وجود داشته باشند. به هرحال، ممکن است یک رکورد از حداقل وزن (یا آستانه) فراتر رود طوریکه احتمالاً ممکن است بعضی از رکوردها امتیاز ۲۶ (اگر همهٔ شش اصطلاح در یک رکورد وجود داشته باشند)، بعضی ۲۵ و غیره دریافت کنند. در خروجی، این مدارک که امتیاز بالایی دارند، ابتدا قرار خواهند گرفت. به این ترتیب، اگرچه از هیچ روش وزن دهی برای اصطلاحات نمایه ای استفاده نشده است اما یک خروجی امتیاز بندی شده حاصل می آید. در نظام های پردازش دسته ایا، به ویژه نظام هایی که در اشاعه اطلاعات گزیده (اس دی آی)" به کار میروند، استفاده از این روش معمول است اما بهره گیری از آن برای کاوش در نظام های درون خطی چندان مناسب نیست. روش مناسب وزن دهی مستلزم وجود گروهی است که نمایه سازی را از طریق اصطلاحاتی انجام دهند

وزن دهی احتمالی که همهٔ نمایه سازان بر اختصاص وزن بالا یا پایین به آنها توافق دارند (به فصل ۵ نگاه کنید). به دلیل هزینه، نمی توان چنین روش مناسب و دلخواهی را اعمال کرد. بسیاری از نظامهای خودکار نوعی از نظام وزن دهی را اعمال میکنند تا بتوانند اطلاعات خروجی را رتبه بندی شده ارائه دهند. در فصل ۱۵ نظام هایی از این نوع مورد بررسی قرار گرفته اند. در بیشتر موارد، نظام های پردازش خودکار ازطریق معیار بسامد " وزن دهی می کنند: بسامد اصطلاح در یک متن و / یا بسامد اصطلاح در یک پایگاه اطلاعاتی، و یا روش های دیگری از این قبیل کوشیده اند تا از معیار جایگیری (مثلاً فاصله دو اصطلاح از یکدیگر در یک متن چقدر است) استفاده کنند. کین (۱۹۹۱) روش های مختلف را با یکدیگر مقایسه کرده و به این نتیجه رسیده است که نتایج روش های ترکیبی احتمالاً نتایج بهتری را ارائه خواهند داد.