بخشی از مقاله
چکیده
رتبهبندی صفحات وب با استفاده از ارتباط معنایی کلمات و وزن به دست آمده میتواند دربهبود نتایج کمک زیادی به جستجوی کاربر نماید. معمولا در یک پرسوجو، کاربر چندین صفحه ابتدایی را مرور میکند، که این امر ممکن است زمانبر بوده یا به نتایج مورد نظر خود نرسد، همچنین امکان دارد جستجوی خود را فراموش نماید. برای مبارزه با این چالشها در حوزهی وب معنایی، انواع مختلفی از منابع و روابط معنایی در بین منابع موجود در هستانشناسی تعریف میگردد که موجب رتبهبندی با کیفیت مطلوب میشود. تکنیک پیشنهادی ما با بهرهبرداری از روابط معنایی، اقدام به بازیابی k منبع اولی که بیشترین ارتباط با کلیدواژههای یک پرسوجوی کاربر را در نظر میگیرد. برای این کار، یک مقیاس وزن دهی را برای رابطهی معنایی ارائه دادهایم. بر مبنای این مقیاس، یک روش رتبهبندی جدیدی ارائه شده است. که تعداد روابط معنایی در بین یک منبع و یک کلید واژه را به همراه قدرت تشریحی آن کلیدواژهها در نظر میگیرد.
کلمات کلیدی: جستجوی معنایی، رتبهبندی، رابطهی معنایی، علم اطلاعات، وب معنایی
.1 مقدمه
با توجه به رشد قابل ملاحظهی وب، شاهد ظهور طوفانی از اطلاعات بودهایم و از این رو موتورهای جستجو نیز به یکی از مفیدترین ابزارها به منظور به دست آوردن اطلاعات مطلوب از وب مبدل گردیدهاند. روشهای جستجوی مبتنی بر کلیدواژه به عنوان رایجترین روشها در موتورهای جستجو مورد استفاده قرار میگیرند چرا که یک چنین روشی میتواند واسط کاربری ساده و کاربر پسندی را پیش روی کاربر قرار دهد. روش جستجوی مبتنی بر کلیدواژه میتواند سطح ارتباط منابع را بر مبنای رخداد آن کلیدواژه در متون آن منبع مشخص نماید و نمیتوان این اطمینان را داد که نتایجی که بازگردانده میشود بتواند دارای روابط معنایی در بین کلیدواژههایی باشد که کاربر مشخص کرده است - لی و همکاران . - 2007 به همین منظور، موتورهای جستجوی فعلی در بعضی مواقع قادر به مشخص کردن نتایج مرتبط نبوده و از این رو نتایج بی ربطی با کلیدواژهی کاربر را فراهم میسازند.
ما یک چارچوب جستجوی معنایی را به منظور غلبه بر چنین محدودیتهایی در جستجوی مبتنی بر کلیدواژه ارائه میدهیم که برای این کار، فرآیند جستجو را مجهز به علم اطلاعات مینماییم که این یکی از اهداف وب معنایی میباشد. علم اطلاعات را میتوان تشریحی رسمی از مفاهیم و سایر روابط دانست. روابط معنایی در بین منابع و کلیدواژهها را میتوان به وسیلهی پیمایش این علم اطلاعاتی به دست آورد . روابط معنایی استخراج شده میتواند مکملی برای روشهای جستجوی مبتنی بر کلیدواژه باشد. چارچوب جستجوی معنایی ما با بهرهبرداری از علم اطلاعات باعث توسعهی جستجوی مبتنی بر کلیدواژه شده است که هدف آن، پیدا کردن منابع مربوط به کلیدواژهها و آنهم از طریق روابط معنایی میباشد. جستجوی معنایی اقدام به ایجاد روابطی مخفی در بین واژههای منابع و کلیدواژهها میکند که برای این کار، از روابط معنایی که در این علم اطلاعاتی تعریف شده است استفاده نموده و از این رو به شکلی کارآمد میتواند به منابع مربوطه دسترسی داشته و آنها را رتبهبندی نماید.
در نتیجه انتظار میرود که دقت و فراخوانی در جستجو بهبود پیدا کند. اخیراً شرکت گوگل اقدام به پشتیبانی از جستجوهای معنایی مبتنی بر گراف دانش که مشابه با علم اطلاعات میباشند نموده است. شرکت گوگل سرویسهای جستجوی خود را با ارتقای نتایج جستجو به وسیلهی مجموعهای از حقایق مربوطهی مبتنی بر گراف دانش بهبود داده است. مفید بودن و امکان پذیرش جستجوی معنایی ما میتواند این تلاش را تصدیق نماید. این جستجوی معنایی، در زمانی مفید بوده که علم اطلاعاتی کافیای مربوط به دامنهی جستجو از قبل وجود داشته باشد.
شکل شماره یک، فرایند کلی جستجو در این چارچوب را نشان میدهد. قبل از جستجوی اسناد، تولید کنندهی علم اطلاعاتی اقدام به ایجاد یک علم اطلاعاتی برای تشریح اسناد جمع آوری شده میکند. برای همین کار، فرض بر آن است که این علم اطلاعاتی از قبل ایجاد شده است. در نظر داشته باشید که پژوهشهای فعالی در خصوص ساخت علم اطلاعاتی وجود دارد - کیاروکو و همکاران 2003، کراولو و دومانی . - 2007 یک کاربری که یک پرسوجوی شامل نوع T و مجموعهای از کلیدواژهها را مورد پرسوجو قرار میدهد، موتور جستجوی معنایی اقدام به پیدا کردن منابع مربوطه میکند که برای این کار، علم اطلاعاتی را مورد کاوش قرار داده و لیستی رتبهبندی شده از URL های مربوط به منابع را بر اساس سطح ارتباط آنها بر میگرداند. در نهایت، بازیاب سند اقدام به بازیابی اسناد متناظر با URL های بازگردانده شده میکند.
با توجه به اینکه روابط معنایی در بین منابع و کلیدواژههای پرسوجو را در فرآیند جستجو در نظر میگیریم، رتبهبندی مجموعهای از نتایج باید منعکس کنندهی مطلوب بودن هر رابطهی معنایی باشد. بنابراین از یک مقیاس رتبهبندی جدید برای روابط معنایی استفاده میکنیم، به طوری که بتوان وزن سنگینتری را به روابط معنایی که ابهام کمتری در تشخیص منابع مد نظر دارند تخصیص میدهیم. علاوه بر این، یک مدل رتبهبندی جدیدی را برای منابع طراحی میکنیم که برای این کار، سه معیار زیر را در نظر میگیریم: تعداد روابط مهم در بین منابع و کلیدواژههای پرسوجو، پوشش کلیدواژهها و قدرت متمایز سازی کلیدواژهها. در صورتی که روابط معنایی زیادی در بین منابع و کلیدواژهها وجود داشته باشد، زمان زیادی برای بررسی فضای جستجو و آنهم با توجه به اهمیت روابط معنایی نیاز میباشد. جستجوی معنایی ما ممکن است نتایج زیادی را که مربوط به کلیدواژههای پرسوجو میباشند ایجاد نماید. بنابراین از الگوریتم آستانه - فاگین و همکاران - 2003 استفاده کرده تا به شکلی کارآمد به بازیابی K نتیجهی اول و آنهم بدون نیاز به بررسی کل مجموعه نتیجه بپردازیم.
نقش اصلی که در این مقاله ایفا کردهایم به صورت زیر است:
· یک روش وزن دهی برای روابط معنایی
· یک روش رتبهبندی جدید: یک روش رتبهبندی جدیدی را با در نظر گرفتن تعداد روابط معنایی معنادار، پوشش واژگان کلیدی و قدرت متمایز دو کلیدواژه ارائه دادهایم.
· تکنیکهای کارآمد جستجو: برای بهرهوری موجود جستجوی معنایی، روابط بی معنا را با استفاده از طول و وزن روابط معنایی هرس سازی کردهایم. تکنیک هرس سازی باعث کاهش 49 تا 45 درصد فضای جستجو میشود.
.2 سوابق
ارتباطات بین کلمات را میتوان به دو دسته تقسیم کرد - وینستون . - 1987- دستهی اول به syntagmatic یا نحوی معروف است. این نوع ارتباط به ساختار نحوی جملات بستگی دارد و بیان میکند که مثلا کدام کلمه باید قبل یا بعد از کلمهی دیگر قرار گیرد. دستهی دوم به paradigmatic یا معنایی لغوی معروف است و بر مبنای مفاهیم معنایی مانند شباهت، شمول و استنتاج است. در حوزهی وب معنایی، روابط معنایی در بین منابع میتواند پیچیده و مختلف باشد. - آنیاوا و شاتا - 2003 اقدام به تدوین روابط مختلف و پیچیده در بین دو منبع نمودهاند. این روشها بر روی روابط بازیابی و رتبهبندی در بین یک زوج از منابع متمرکز میباشد. اخیراً تکنیکهایی با در نظر گرفتن روابط معنایی در بین منابع ارائه شده است که به منظور بهبود میزان صحت جستجوی مبتنی بر کلیدواژه کاربرد دارد. آقای - لی و همکارانش - 2007
به بررسی مسئلهی جستجوی مبتنی بر کلیدواژه پرداختهاند. آنها یک موتور جستجوی مبتنی بر رابطه را تحت عنوان OntoLook معرفی کردهاند. این موتور اقدام به ایجاد یک گراف رابطه-مفهوم نموده که متشکل از مفاهیم - یعنی کلاسها - از کلیدواژهها و همهی روابط معنایی بین آنها نمودهاند. در ادامه، این موتور اقدام به پیدا کردن تطابقهای موجود در یک گراف نموده و URL ها و مقادیر متناظر با گرهها در گراف را پیدا میکند. OntoLook اقدام به کاهش بسیاری از صفحات مجزا از نظر کلیدواژه میکند که برای این کار، روابط بین بسیاری از کلیدواژهها را در نظر میگیرید. اگرچه این موتور جستجو نیاز به فعالیتهای زیادی برای ایجاد یک پرسوجو دارد چرا که کاربران باید مفاهیمی را برای همهی کلیدواژهها وارد نمایند. علاوه بر این، به منظور کاهش فضای جستجو، این روش میتواند کمانها - یعنی روابط - را از گراف رابطه – مفهوم حذف کند ولی الگوریتم اقدام به در نظر گرفتن معناییها و اهمیت کمان نمیکند. علاوه بر این، OntoLook نمیتواند هیچ روش رتبهبندی را برای رتبهبندی نتایج بازیابی شده فراهم سازد.
- کاستل و همکاران - 2007 اقدام به ارائهی چارچوب بازیابی اطلاعات نمودهاند تا میزان صحت را بهبود دهند. عموماً اسناد نشان گذاری شده و سپس علم اطلاعاتی بر مبنای این نشان گذاریها ایجاد میشود. سپس این نشان گذاریها به ازای هر سند و آنهم با بکار گیری مقیاس وزن دهی میشوند. برای یک پرسوجوی کاربر، این نمادهایی که با پرسوجو تطابق دارند، از این علم اطلاعاتی بازیابی شده و سپس سندی که شامل نماد گذاریها میباشد در قالب نتایج پرسوجو برای کاربر ارسال میشود. اسناد حاصله نیز به وسیلهی یک مدل فضای بردار رتبهبندی شده و به اسنادی که دارای نماد گذاریهایی با وزن بالاتر میباشد، امتیاز بیشتری داده میشود. در این مقاله، رابطهی بین نمادها برای پیدا کردن سند مربوطه بکار گرفته میشود ولی تفاوت بین وزنهای روابط در نظر گرفته نشده است.