آشنایی با راه های رتبه بندی مدارک

یک چکیده که این دو کلمه را دربر داشته باشد می تواند امتیاز بالایی را دریافت کند حتی اگر سایر کلمات درخواست را نیز دربر نداشته باشد. برای رتبه بندی مدارک، میتوان تعداد رخداد یک کلمه در درخواست و چکیده را مورد توجه قرار داد. باتوجه به این معیار، چکیده ای که کلمه اشعه چندین بار در آن تکرار شده باشد احتمالاً امتیاز بالایی را دریافت خواهد کرد زیرا این کلمه تنها کلمه ای است که بیش از یک بار در درخواست تکرار شده است. در پایگاهی که مدارک تمام متن را در بر دارد، باید طول مدارک را نیز مورد توجه قرار داد. در غیراین صورت، احتمال بازیابی مدارکی که طولانی ترند بیشتر است. می توان براساسی ریشه کلمات، و نه براساسی کلمات کامل، عمل انطباق را انجام داد. در این معیار و در ارتباط با درخواست فرضی بالا، چکیده هایی که کلمات اشعه نگاری، اشعه ها و نیز اشعه را دربر داشته باشند امتیاز بالایی را دریافت خواهند کرد. اگر در سیستم، یک اصطلاحنامه برای انطباق وجود داشته باشد، می توان یک گروه کلمه ای از اصطلاحنامه که به آن کلمه مرتبط است را جایگزین یک یا چند کلمهٔ موجود در درخواست نمود (به شکل ۱۰۷ نگاه کنید). اگر برای کلمات اشعه و ریوی که در درخواست وجود دارند چنین جایگزینی صورت گیرد، وزن یا امتیاز چکیده هایی که کلمات ریه، و شعاع را در بر دارند افزایش خواهد یافت زیرا کلمات ریه و ریوی در یک گروه اصطلاح نامه ای و اشعه نگاری، اشعه و شعاع نیز باهم در یک گروه دیگر اصطلاح نامه ای قرار دارند.

البته، اگر انطباق برمبناي عبارات و نه بر مبنای کلمات واحد انجام شود، نتیجه بسیار دقیق تر خواهد بود؛ یعنی در هر سیستمی که متن درخواست را با متن مدارک انطباق می دهد، توانایی های جستجوی عبارتی مسلم تر و قطعی تر خواهد بود. چکیدههایی که عبارات اشعه نگاری ریوی و اشعه نگاری التهابات ریوی را در بر دارند باید در رابطه با مثال فرضی فوق امتیاز بالاتری را دریافت کنند. چکیده هایی که اصطلاح "التهابات ریوی را در بر دارند نیز باید امتیاز بالایی دریافت نمایند، هرچند با در برنداشتن اصطلاح اشعه کمتر مرتبط به نظر میرسند.

استفاده از نزدیک یابی واژه، واسط بین کلمه و عبارت است. در این حالت، به کلماتی که در متن نزدیک به یکدیگر ظاهر شده اند امتیاز بالایی داده میشود هرچند ضرورتاً با هم همجوار نیستند.آنچه از این بحث حاصل می آید آن است که برای اختصاصی یک امتیاز به بخشی از یک متن، میتوان از معیارهای مختلفی استفاده کرد تا بتوان حدی را نشان داد که در آن حد، آن بخشی از متن با متن یک درخواست منطبق می شود. همچنین میتوان با استفاده ترکیبی از چند معیار به متن مورد نظر امتیاز داد (مثلاً می توان تعداد کلمات یا عبارات منطبق شده و نیز میزان رخداو این کلمات یا عبارات در کل پایگاه را - با هم - مورد توجه قرار داد). بنابراین، در یک شرایط مطلوب، سیستم خودکار باید از چندین معیار انطباق استفاده کند و به بهره گیر اجازه دهد تا به دلخواه یکی از روشها را انتخاب نماید.

سیستم اسمارتِ سالتون، پیچیده ترین نوع این سیستم است که در طول دورهای ۳۰ ساله توسعه یافته و اصلاح شده است. درباره سیستم اسمارت متون قابل توجهی وجود دارد اما سالتون و مکگیل (۱۹۸۳) خلاصه ای مناسب از این سیستم را ارائه دادهاند. هرچند در زمان انتشار این کتاب فرآیندهای آن اصطلاح شده بود، اما به نظر میرسد که این سیستم بهترین سیستمی باشد که به خوبی اصول پایه را مورد توجه قرار داده است. سیستم اسمارت برای اختصاص دادن وزنهای عددی به مدارک طراحی شد تا بتوان دامنه ای را مشخص کرد که در آن دامنه، مدارک با گزارههای درخواست منطبق می شوند. در نتیجه بتوان مدارکی حاصل را براساسي رتبه به بهره گیر عرضه کرد طوری که مدارکی با وزن های بیشتر در اول فهرست قرار گیرند.

سیستم اسمارت از چندین معیار انطباق مختلف، ازجمله وزن دهی به اصطلاحات برای تعیین بسامد رخداد آنها در پایگاه، انطباقي عبارت و انطباق براساس ریشه کلمه، استفاده میکند. این سیستم همچنین اجازه می دهد تا از یک اصطلاحنامه که از فرآیندهای ماشینی و دستی حاصل آمده است نیز استفاده کرد. بازخورد ربط " عنصر مهم دیگر در سیستم اسمارت است. اگر بهره گیر، از طریق یک خروجی یا نتیجه اولیه، بتواند مشخص کند که کدام مدارک مرتبط هستند و کدام ها نامرتبط، سیستم خواهد توانست وزن مدارک موجود در پایگاه را دوباره تعیین نماید. این عمل از طریق کاستن از امتیاز یا وزن ویژگی های مدارک نامرتبط و افزایش وزن ویژگی های مدارک مرتبط انجام میگیرد. سالتون (۱۹۸۹) نیز توضیح داده است که از طریق تحلیل نحوي متن فصل های یک کتاب و فرآیندهای تولید عبارت، چگونه می توان نمایه های انتهای کتاب تهیه کرد.