بخشی از مقاله
چکیده
سیستمهای پرسشوپاسخ مبتنی بر دادههای پیوندی، به منظور ارائه پاسخ دقیق به پرسشهای زبان طبیعی کاربران و مبتنی بر مجموعه حجیم دادههای پیوندی ارائه شده است. از مراحل اصلی کار این سیستمها، مرحله نگاشت عناصر پرسش زبان طبیعی به عناصر دادههای پیوندی میباشد. این مرحله عموماً با چالشهایی مانند چندمفهومی و ابهام مواجه است که باعث کاهش دقت نگاشت و در نتیجه کاهش دقت سیستمهای پرسشوپاسخ میشود.
در این مقاله راهکاری جدید برای نگاشت عناصر پرسوجوهای ساده زبان طبیعی به اطلاعات موجود در دادههای پیوندی دیبیپدیا ارائه میشود. در این راهکار، پرسش زبان طبیعی به شکل گراف دریافت میشود. برای عناصر مجهول گراف مجموعهای از عناصر کاندید تعیین شده و سپس در مرحله رفع ابهام، مجموعه نهایی عناصر متناظر مشخص میشود. در این پژوهش، علاوه بر روابط صریح موجود در پرسش، روابط ضمنی نیز مورد بررسی واقع میشوند و عناصر کاندید برای آنها نیز تعیین میگردد. نتایج ارزیابی راهکار پیشنهادی، نشاندهندهی بهبود درصد نگاشت روابط ضمنی به عناصر متناظر، و بهبود معیارهای و Precision در مقایسه با آخرین کارهای انجامشده در این زمینه است.
-1 مقدمه
سیستمهای پرسشوپاسخ با هدف پنهانسازی پیچیدگیهای مربوط به ایجاد پرسوجوی اسپارکل از دید کاربران ایجاد شدهاند، بنابراین کاربران میتوانند پرسش خود را با هدف یافتن پاسخ دقیق آن، بر روی پایگاهدادههای ساختیافته مانند دیبیپدیا5، یاگو6 وفِریبِیس7 ارائه دهند و بدون نیاز به آشنایی با شمای دادهها و همچنین زبان پرسوجوی اسپارکل به پاسخ مطلوب دست یابند. اکثر سیستمهای پرسشوپاسخ به طور کلی چهار مرحله اصلی را شامل میشوند که عبارتند از:
-1 تحلیل پرسش،
-2 نگاشت عناصر،
-3 رفع ابهام،
-4 ایجاد پرسوجوی ساختیافته .[2]
در مرحله تحلیل پرسش، پرسش زبان طبیعی با استفاده از ابزارهای پردازش زبان مورد تحلیل قرار گرفته و روابط و موجودیتهای آن استخراج میشوند. در مرحله نگاشت، هر کدام از عناصر استخراجشده از مرحله قبل، به مفاهیم متناظر خود در دادههای پیوندی نگاشت میشود. در این مرحله ممکن است چندین مفهوم متناظر برای هر عنصر انتخاب شود، بنابراین در مرحله رفع ابهام از بین عناصر کاندید ارائه شده، عناصر مناسب انتخاب میشوند. در مرحله ایجاد پرسوجوی ساختیافته نیز، اطلاعات بهدستآمده از مراحل قبل، به شکل پرسوجوی اسپارکل درآمده و نتایج نهایی تعیین میشود.
مراحل نگاشت عناصر و رفع ابهام، از مهمترین قسمتهای هر سیستم پرسشوپاسخ محسوب میشوند. این مراحل نقش مستقیمی در افزایش دقت نگاشت و در نتیجه افزایش دقت سیستم در ارائه پاسخ صحیح به کاربر دارند و کارهای پیشین در این حیطه نیز، بخش عمده توجه خود را به این دو مرحله اختصاص دادهاند. در این مقاله، راهکاری جدید برای نگاشت عناصر پرسوجوهای ساده زبان طبیعی انگلیسی به اطلاعات موجود در دیبیپدیا ارائه میشود.
منظور از پرسوجوهای ساده، پرسوجوهای فاقد توابع تجمعی8، توابع شمارشی و غیره میباشد، در این نوع پرسوجوها تمرکز اصلی بر شناسایی عناصر پرسش و روابط بین آنها میباشد. راهکار پیشنهادی با در نظر گرفتن تمام روابط صریح و ضمنی موجود در پرسش کاربر، تعدادی عنصر کاندید برای موجودیتها و روابط پرسش، از دادههای پیوندی استخراج کرده و بر اساس معیارهای شباهت معنایی و ارائه یک حدآستانه، عناصر متناظر نهایی را تعیین میکند. در ادامه، در بخش 2، ادبیات تحقیق، شامل مفاهیم کلی و پیشینه تحقیق، ارائه شده است، راهکار پیشنهادی در بخش 3 تشریح شده و در بخش 4 نیز نحوه ارزیابی این راهکار بیان گردیده است.
-2 ادبیات تحقیق
سیستمهای پرسشوپاسخ مبتنی بر دادههای پیوندی، از مجموعه حجیم دادههای پیوندی به عنوان منبع استخراج اطلاعات بهره میبرند. در این پژوهش، بخشی از مجموعه بزرگ دادههای پیوندی موجود در وب، به عنوان پایگاهدانش استفاده شده است و پرسش ورودی بر اساس اطلاعات موجود در آن مورد بررسی قرار گرفته است. در ادامه توضیحاتی در مورد دادههای پیوندی داده شده و سپس تعدادی از کارهای پیشین در حیطه کار این مقاله ارائه گردیده است.
-1-2 دادههای پیوندی
از نقطه نظر فنی، دادههای پیوندی به مجموعه بزرگی از دادههای منتشر شده بر روی وب اطلاق میشوند که ماشین قادر به خواندن و تفسیر آنها میباشد، مفاهیم آنها بهصورت صریح ارائه شده است و میتوانند بهصورت دوجهته با مجموعه دادههای خارجی اتصال داشته باشند .[3] به دلیل این ویژگیهای منحصربهفرد، دادههای پیوندی گزینه مناسبی برای استخراج اطلاعات در سیستمهای پرسشوپاسخ هستند. اطلاعات دادههای پیوندی بهصورت سهتاییهای - نهاد9 ، گزاره 10 ، شی - 11 ارائه میشوند و این سهتاییها با یکدیگر ارتباط داشته و یک گراف را تشکیل میدهند. در این مقاله، از بخش بزرگی از اطلاعات دادههای پیوندی به نام دیبیپدیا برای استخراج پاسخ استفاده میشود.
-2-2 پیشینه تحقیق
نخستین سیستمهای پرسشوپاسخ به منظور استفاده از زبان طبیعی برای دستیابی به پایگاه دادههای رابطهای، در اواخر دهه شصت و اوایل دهه هفتاد ارائه شدند. در ادامه، سیستمهای پرسش و پاسخ مبتنی بر متون و مبتنی بر وب مطرح شده و مورد توجه قرار گرفتند و در نهایت با گسترش وب معنایی و ارائه حجم بالایی از اطلاعات مبتنی بر آنتولوژی، سیستمهای پرسشوپاسخ معنایی و مبتنی بر آنتولوژی ارائه گردیدند [4] و تا به امروز مورد تحقیق و توسعه قرار گرفتهاند. در ادامه، تعدادی از کارهای مرتبط با حیطه پژوهش فعلی معرفی میشوند.
سیستم [1] DEANNA برای نگاشت موجودیتها به عناصر متناظر از یک دیکشنری استفاده میکند که عناصر را به مفاهیم متناظر در دادههای پیوندی نگاشت میکند. برای روابط نیز یک دیکشنری روابط که الگوهای متنی را به روابط موجود در دادههای پیوندی متناظر میکند، مورد استفاده قرار میگیرد. سپس یک گراف رفع ابهام، متشکل ازگرهها و روابط و عناصر کاندید شناساییشده برای آنها، ایجاد میشود. در این مرحله، مسئله رفع ابهام به مسئله یافتن زیرگرافی از گراف رفع ابهام که دارای بیشترین تراکم از نظر امتیاز شباهت میباشد، تبدیل میشود و مفاهیم نهایی متناظر با عناصر گراف مشخص میشوند.
سیستم [5] CASIA عمل نگاشت را در سه مرحله نگاشت کلاسها، نگاشت موجودیتها و نگاشت روابط انجام میدهد و در این فرآیند از دیکشنریهای روابط و دیکشنریهایی برای نگاشت موجودیتها بهره میبرد. سیستم [6] gAnswer پرسوجوی ورودی را به یک گراف به نام گراف پرسش تبدیل کرده و مسئله اصلی را به یک مسئله تطابق زیرگراف، تبدیل میکند. به ازای هر گره و رابطه در گراف، با استفاده از دیکشنریهای موجود، تعدادی عنصر کاندید بهدست میآید و هرکدام از این عناصر با یک امتیاز خاص به عنصر موردنظر نگاشت میشوند و سپس تمام حالات قرارگیری این عناصر در گراف مورد بررسی قرار گرفته و امتیازدهی میشود، هر کدام از این حالات که امتیاز بیشتری را بهدست بیاورد، به عنوان گراف متناظر با گراف پرسش درنظر گرفته میشود و عناصر و روابط آن به گراف پرسش نگاشت میشوند.
ژو و همکاران[7] 12 در راهکار پیشنهادی خود، پرسش ورودی را به گراف تبدیل کرده و سپس عناصر خاص پرسش را شناسایی میکنند. با استفاده از ابزار wikifier، مفاهیمی از دیبیپدیا که متناظر با عناصر خاص پرسش هستند استخراج شده و بر اساس ساختار گراف پرسش، زیرگرافی در اطراف این عناصر در نظر گرفته میشود. در ادامه، تمام مسیرهای موجود در این زیرگرافها امتیازبندی شده و مسیرهایی بین این زیرگرافها که از نظر ساختاری با گراف پرسش تطابق داشته باشند، در نظر گرفته میشود و مسیری با بالاترین امتیاز به عنوان نگاشت نهایی ارائه میگردد.
سیستم [8] RTV پرسش ارائه شده را به مدل پنهان مارکوف13، نگاشت کرده و از این طریق عمل نگاشت و رفع ابهام را ساماندهی میکند. در این روش، ابتدا تحلیل ساختاری در مورد گراف انجام میشود که منجر به شناسایی موجودیتهای خاصی که با عناصر دیبیپدیا متناظر هستند میگردد، این مرحله تحت عنوان مرحله مقداردهی مدل پنهان مارکوف معرفی میشود. در این مدل، عناصر state ، emission و transition های زنجیره مارکوف تعریف میشوند.
در این راهکار، stateها، متناظر با مفاهیم بازیابی شده از دیبیپدیا برای عناصر پرسش هستند. سپس در ماژول رمزگشایی، بهترین توالی از state ها محاسبه میشود. در این مرحله، فرآیند رفع ابهام با بهرهگیری از ترکیب محدودیتهای آنتولوژی و آماری بهدستآمده از توالی حالات قابل نگاشت به عناصر دیبیپدیا انجام میشود. به طور کلی، عمل نگاشت در کارهای انجامشده دچار ضعفهایی به شرح زیر میباشد:
· بسیاری از کارهای پیشین از دیکشنری روابط بهره میگیرند، این دیکشنریها اگرچه مفید هستند، اما کامل نیستند و در بسیاری موارد، قادر به ارائه الگوی مناسب برای نگاشت نمیباشند، به عنوان مثال راهکارهای gAnswer ، DEANNA و CASIA به دلیل استفاده از دیکشنری روابط با محدودیتهایی در نگاشت روابط مواجه هستند.
· نگاشت روابط ضمنی به عناصر کاندید متناظر، به دلیل عدم ارائه و بیان صریح این روابط، در بسیاری از کارها مورد توجه قرار نگرفته است. راهکار پیشنهادی در این مقاله، علاوه بر نگاشت روابط صریح به دادههای پیوندی، روابط ضمنی را نیز مورد بررسی قرار داده و آنها را به عناصر متناظر در دادههای پیوندی نگاشت میکند. این عمل موجب افزایش دقت نگاشت و در نتیجه افزایش دقت پاسخهای ارائهشده به عنوان خروجی میشود. همچنین با تعیین عناصر کاندید برای روابط بر اساس اطلاعات گرههای مجاور در گراف، نیاز به استفاده از دیکشنری روابط برطرف شده است.
-3 راهکار پیشنهادی
راهکار ارائهشده در این مقاله، شامل چند گام میباشد. مراحل متوالی اعمالشده بر روی گراف پرسش اولیه در شکل - 1 - نشان داده شده است. به دلیل ساختار گرافی دادههای پیوندی و از سویی ناساختیافته بودن پرسش ورودی، بهتر است که پرسش ورودی ابتدا به حالت ساختیافته تبدیل شده تا بتواند به راحتی با اطلاعات دادههای پیوندی منطبق شود؛ بنابراین ساختار گراف پرسش ایجاد میگردد. گراف مذکور، روابط موجود در جمله را به شکل یالها و آرگومانهای این روابط را به عنوان گرههای مجاور به رابطه، نمایش میدهد. در برخی از پرسشهای ورودی، امکان بیان ضمنی روابط وجود دارد که در این صورت روابط با برچسب تهی - null - در گراف مربوطه نمایش داده میشوند.
در این راهکار، پرسش زبان طبیعی ارائه شده توسط کاربر به یک گراف تبدیل میشود. در ادامه پس از نگاشت و اولویتبندی گرههای گراف و رفع ابهامهای موجود، عناصر متناظر با گرهها و یالهای گراف تعیین میشود. در راهکار پیشنهادی، به دلیل اینکه فقط سؤالات ساده مورد پردازش قرار میگیرند، نیازی به تبدیل نگاشتهای انجامشده به پرسوجوی ساختیافته اسپارکل وجود ندارد و پس از یافتن همه تناظرات بین عناصر گراف و عناصر دیبیپدیا، میتوان پاسخ را به صورت مستقیم از گراف نگاشت شده بهدست آورد.