روش های استفاده از داده های هم ظهوری در مقاله نویسی

به دو روش می توان از داده های هم ظهوری استفاده کرد: ۱) می توان شبکه ای از روابط را در بین اصطلاحات برقرار کرده و ذخیره کرد، یا ۲) براساس روابطی که از شبکهٔ اصطلاحات حاصل آمده است، میتوان طبقات گسستهای از اصطلاحات را شناسایی و ذخیره نمود. در مورد اول، از طریق یک کاوشگر و در قالب فهرست یا به صورت گزارهای از عبارات یا جملات، اصطلاحات وارد رایانه میشوند و می توانند برای تولید خودکار فهرست مبسوطی از اصطلاحات کاوش تعریف شوند. در روشی که استایلز (استایلز، ۱۹۶۱؛ سالیزبوری" و استایلز، ۱۹۶۹) توسعه داد، اصطلاحاتی که به یک راهبرد کاوش اضافه می شدند اصطلاحاتی بودند که، برمبنای بسامد هم ظهوری، با همهٔ اصطلاحات جستجوی اصلی رابطه نزدیکی داشتند. مثلاً اصطلاحات الف، ب و ج در راهبرد اصلی رخ داده اند و اصطلاحات د و هر نیز اضافه شده اند، چراکه به نظر میرسد با هر سه اصطلاح اولی هم ظهور هستند. باید این فرایند ادامه یابد تا اصطلاح و فراخوانده شود چرا که این اصطلاح با اصطلاحات الف، ب، ج، د و ه رابطه دارد. می توان به مدارک موجود در پایگاه یک وزن عددی داد که بیانگر تعداد اصطلاحاتی باشد که بین مدرک و راهبرد کاوش بر هم منطبق اند و سطح رابطه ای (براساس هم ظهوری) را نشان دهد که بین این اصطلاحات وجود دارند؛ ازطریق وزن می توان مدارک بازیابی شده را رتبه بندی کرد. در نتیجه ممکن است بعضی از مدارک که در ضدر رتبه ها قرار میگیرند در بردارنده اصطلاحاتی نباشند که کاوشگر جستجوی خود را با آنها آغاز کرده است.

در مورد دوم، هر کلمه موجود در گزاره جستجو را می توان با طبقه ای از کلمات که به آن تعلق دارد جایگزین نمود. این جایگزینی می تواند به صورت خودکار یا با نظارت کاوشگر انجام شود. سالتون و مکگیل (۱۹۸۳) انواع طبقات واژه که می توانند از داده های هم ظهور استخراج شوند را به روشنی شناسایی کرده اند. در یکی از این طبقات که دسته " نامیده می شود، همهٔ کلمات گروه با همهٔ کلمات دیگری از گروه که بالای آستانهٔ معینی هستند رابطه دارند. از سوی دیگر، در یک گرو و تک پیوندی هر کلمه فقط به یک کلمه دیگری که در بالای آستانهٔ تعیین شده قرار دارد مرتبط است.

طبقاتی که از طریق فرآیندهای آماری شکل می گیرند ضعیف تر از طبقاتی خواهند بود که از طریق اصطلاح نامه های مرسوم ایجاد می شوند. یک گروه از کلمات که به شدت هم ظهور هستند ممکن است، همانند مثال زیر، ترکیب جنس / گونه، جزء / کل یا سایر رابطه ها را دربر داشته باشند:

بال                        آبرودینامیک

سطوح هواپیما          جریان

دلتا

دم

لرزش

 

لرزش مسئلهٔ اصلی، یکدست بودن طبقه نیست. انچه اهمیت دارد ان است که ایا طبقه، فایدهٔ بالقوه ای برای بازیابی دارد یا خیر. مثلاً اگر طبقه فرضي کلماتی که در بالا ارائه شد، به صورت خودکار، جایگزین هر یک از اعضای خود شود آیا این احتمال وجود دارد که نتایج کاوش را بهبود بخشد؟ به نظر میرسد که این نوع جایگزینی - بسته به نوع درخواست - ممکن است جامعیت را افزایش دهد. به طور همزمان، این جایگزینی ممکن است باعث کاهش شدید مانعیت شود به ویژه اگر طبقه (مثل مثال ارائه شده) از اصطلاحات بسیار ناهمگنی تشکیل شده باشد.