چالش ریزش کاذب در اطلاعات و دلایل آن

ریزش کاذب در بازیابی اطلاعات

 تعریف

یکی از چالش های بازیابی اطلاعات مسأله ای به نام ریزش کاذب است. نیز و ریزش کاذب را به معنای بازیابی مدرک نامربوط میداند در حالی که اصطلاحات نمایه و درخواست کاربر با یکدیگر انطباق دارند اما معانی آنها به علت هم نگاری یا ترکیب نادرستی از اصطلاحات با یکدیگر مرتبط نیستند (نیزو، ۱۹۹۷).

ریزش کاذب هنگامی رخ میدهد که کلیدواژه های انتخابی کاربر با اصطلاحات نمایه ای سازگار هستند، اما در استفاده عملی مفهومی ندارند و در نهایت مدارک نامرتبط بازیابی می شوند (هلاوا، ۲۰۰۲).

به طورکلی ریزش کاذب به معنای بازیابی مدارک نامرتبط با نیازهای کاربران است و هنگامی رخ میدهد که کلیدواژه های کاربران با اصطلاحات نمایه ای مدرک تطابق دارد، اما مدرک بازیابی شده نیاز اطلاعاتی کاربر را برطرف نمی کند.

دلایل ریزش کاذب

به اعتقاد میلر و تیتلبوم یکی از عوامل مهم که موجب ریزش کاذب می شود، استفاده از متن آزاد در برابر زبان کنترل شده (کنترل واژگان) در بازیابی اطلاعات است. در حالی که جستجو با استفاده از متن آزاد مزایای بسیار به خصوص در ارتباط با سرعت بازیابی اطلاعات دارد، اما معایب اصلی آن بازیابی اطلاعات نامناسب در جستجو، مانعیت پایین در برونداد جستجو و از دست دادن مقدار زیادی اطلاعات (جامعیت پایین) و در نتیجه ریزش کاذب است. این مسأله پیامد کمبود کنترل و وحدت لازم در زبان طبیعی است (میلر، تیتلبوم، ۲۰۰۲).

کمبیل و بودوف، تطابق برون بافتی  را عامل اصلی ریزشهای کاذب میدانند. شناخت انواع تطابق های برون بافتی برای بهبود روشهای جستجو امری ضروری است و تعدادی از انها تاکنون شناسایی شده اند:

1.چند معنایی

ریزشهای کاذب برون بافتی هنگامی رخ میدهد که اصطلاحی در نمایه مدرک از نظر معنایی با اصطلاح مشابهی در درخواست متفاوت باشد. این ریزشهای کاذب که از واژه های چند معنایی ناشی شدهاند در جستجوی پیوسته بیشتر رخ میدهد. پس هنگامی که واژه ای یکسان در مدرک و درخواست معانی گوناگون دارد، امکان ریزش کاذب بیشتر می شود.

  1. اصطلاحات بیرون از عبارت:

این گونه ریزش های کاذب زمانی روی می دهند که عبارت موجود در درخواست یا مدرک مانند واحدی منفرد تلقی نگردد. بدین ترتیب، واژه ای منفرد، ممکن است در عبارتی از سرعنوان مدرک یا به عنوان اصطلاح مجزا در درخواست (یا برعکس) ظاهر شود. مطابقت اشتباه هنگامی رخ میدهد که اصطلاح با عبارت واژه ای بیرون از بافت خود تطابق داده شود.

  1. اختصاص نادرست اصطلاح نمایه ای:

دسته سوم تطابق های برون بافتی هنگامی است که اصطلاح تطبیقی در مدرک و درخواست، معنایی کمابیش یکسان داشته باشند، اما اصطلاح مدرک، موضوع اصلی آن را نشان ندهد. تخصیص دستی سرعنوان های موضوعی می تواند از بروز این مسأله جلوگیری کند اما از میزان جامعیت و مانعیت میکاهد چرا که تنها کلی ترین موضوع هر مدرک نمایه می شود. به هر حال عوامل بالا منجر به ریزش کاذب یا به عبارتی بازیابی مدارک نامرتبط میشود (بودوف و کمبیلی، ۱۹۹۸).

بنابراین علت های گوناگونی موجب ریزش کاذب می شود از جمله:

۱.استفاده از زبان طبیعی در بازیابی اطلاعات به علت تنوع واژه هایی که در بیان موضوع مدرک به کار میرود و ایجاد مانعیت پایین موجب ریزش کاذب می شود. بنابراین استفاده از زبانهای کنترل شده می تواند مفید باشد.

۲. هنگامی که اصطلاح نمایه ای مدرک و کلیدواژهای مورد جستجوی کاربر مشابه اما از لحاظ معنایی گوناگون باشد این چالش رخ میدهد. بدین ترتیب عدم استفاده از واژه های چندمعنایی میتواند از وقوع ریزش کاذب پیشگیری کند.

۳. هنگامی که یک واژه منفرد با واژهای مشابه در یک عبارت انطباق داده شود، آنگاه مدارک بازیابی شده به آن عبارت و نه با واژه منفرد مورد نظر کاربر مربوط است. بنابراین ریزش کاذب رخ میدهد.

۴. هنگامی که اصطلاح نمایه ای که به مدرک اختصاص داده شده است نادرست باشد و محتوای موضوعی مدرک را منعکس نکند، در این حالت اگرچه انطباق میان اصطلاح نمایه ای و کلیدواژه کاربر به درستی انجام گرفته است اما مدرک بازیابی شده نامرتبط است. در این مورد باید به نمایه سازی صحیح و درک درست محتوای مدرک توجه کرد.

بدین ترتیب باید در انتخاب اصطلاحات نمایه ای بسیار دقت کرد و براساس سیاست های نظام و استانداردهای موجود به نمایه سازی پرداخت تا میزان ریزش کاذب کاهش یابد و کارایی نظام بازیابی اطلاعات حاصل شود