بخشی از مقاله
چکیده
امروزه شبکه جهانی وب، منبع بزرگی از اطلاعات برای هر فرد، اعم از کاربر عمومی تا محققان علوم مختلف به حساب میآید. تحقیقاتی که در سال 2008 انجام شده نشان میدهد که تعداد صفحات وب، طی تنها دو سال - - 2008-2006 از 200 میلیون نشان اختصاصی به بیش از یک میلیارد نشان افزایش یافته است. لذا مدیریت چنین حجم وسیعی از اطلاعات ساده نیست. سیستمهای پرسش و پاسخ به منظور ارائه پاسخی مختصر و کوتاه پیاده سازی میشوند.
چنین سیستمهایی، توانایی فراوانی در بازیابی اطلاعات داشته و نیاز به دانشی در رابطه با انتظارات کاربر از پرسش مورد نظر او دارند. فرایند طبقه بندی سوال در یک سیستم پرسش و پاسخ نقش بسیار مهمی در شناسایی انتظارات کاربر دارد. در روش پیشنهادی با استفاده از طبقه بندی سلسله مراتبی سعی شده است که هدف اصلی کاربر را در سوال مشخص نموده و در ادامه با استفاده از عبارات کمکی استخراج شده از پرسش، مرتبط ترین پاراگراف را در صفحات یافته شدهی وب به کاربر نمایش داده و در نهایت با اجرای یک الگوریتم استخراج پاسخ، پاسخ نهایی در قالب یک جمله، آماده ساخته و ارائه گردد.
1 -مقدمه
سیستمهای پرسش و پاسخ - QA - 1 روی مجموعهای از اسناد، پردازش انجام میدهند. مجموعه اسناد مورد پردازش ممکن است شامل مجموعهای محدود و یا تمام اسناد و صفحاتی باشند که در شبکه جهانی وب موجودند. روی شبکه جهانی وب، حجم اطلاعات به طور سرسامآوری، با پوشش دهی درباره هر موضوعی، در حال توسعه است. درنتیجه هنگامی که کاربر برای کسب اطلاعات، جست وجو مینماید، گستردگی نتایج حاصل از موتورهای جستجو، وی را دچار سردرگمی می کند. بنابراین، مدیریت چنین حجم عظیمی از داده ها کار آسانی نیست. زمینه تحقیقاتی سیستمهای پرسش و پاسخ به عنوان تلاشی برای مقابله با این مشکل فراوانی اطلاعات، پدید آمده است.
سیستمهای پرسش و پاسخ برخلاف موتورهای جستجو، پاسخ مربوط به پرسش کاربر را، به صورت مختصر ارائه میدهند. QA زمینه تحقیقاتی رو به رشدی است که شامل علوم مختلفی از جمله بازیابی اطلاعات - IR - 2، استخراج اطلاعات - IE - 3 و پردازش زبانهای طبیعی - NLP - 4 است. سیستم های پرسش وپاسخ به دو دسته سیستم پرسش و پاسخ دامنه باز5 و سیستم پرسش و پاسخ دامنه بسته6 تقسیم میشوند. سیستمهای دامنه باز، قادر به پاسخگویی به سئوالات در همه زمینهها و سیستمهای دامنه بسته قادر به پاسخگویی در حوزه خاصی مثل هواشناسی، داروسازی و... میباشند
سیستم پرسش وپاسخ شامل 3 بخش "پردازش سوال"7 ، "بازیابی اطلاعات" و "پردازش جواب"8 است
شکل:1 نمایی از معماری سیستمهای پرسش و پاسخ
بخش پردازش سوال شامل طبقه بندی سوال است. این فرآیند در یک سیستم پرسش وپاسخ نقش بسیار مهمی در شناسایی انتظارات کاربر از سیستم دارد. طبقه بندی ناصحیح، یکی از عوامل عملکرد ضعیف یک سیستم پرسش وپاسخ است. این امر اهمیت طراحی فرآیند طبقه بندی سوال را بیشتر نشان میدهد، که در بخش مطالب اصلی در رابطه با روش پیشنهادی در این زمینه بیشتر توضیح خواهیم داد. تحقیقات در حیطهی سیستم های پرسش و پاسخ در تلاش است که بتواند دامنه وسیعی از انواع پرسشها شامل : بدیهیات، لیست، تعریف و توضیح، چگونگی، چرایی، فرضیه ای و... را پاسخ دهد.
بخش بازیابی اطلاعات، درخواست - سوال - کاربر را به عنوان ورودی گرفته و مجموعهای از اسناد که کلمات کلیدی را در برداشته و مرتبط با سوال باشند را باز میگرداند. الگوریتم های امتیاز دهی روی این اسناد اعمال شده و اسناد را براساس اینکه کدام یک به پرسش مورد نظر پاسخ مرتبطتر دهند امتیازدهی میکنند.
بخش پردازش جواب شامل دو بخش اصلی "استخراج جواب"9 و "تایید اعتبار جواب"10 است. در این فاز، سیستم، جملات منتخب برای پاسخ را شناسایی کرده، صحت آنها را مورد بررسی قرار میدهد، آنها را امتیاز دهی کرده و در نهایت پاسخها را که با استفاده از روشهای استخراج اطلاعات بدست آمدهاند به کاربر ارائه میدهد. از جمله کارهایی که در این زمینه انجام شده به شرح زیر است:
دو رویکرد کلی برای طبقه بندی سوال وجود دارد: به طور دستی و به طور خودکار. هرمی ژاکوب - 2001 - با استفاده از طبقه بندی دستی، یک سیستم پرسش وپاسخ طراحی کرده است که این قوانین - منظور قوانین دستکاری شده دستی برای شناسایی انواع پاسخهای مورد انتظار است - ممکن است بسیار دقیق باشند، اما وقت گیر، خستهکننده و غیر قابل ارتقا هستند. از سوی دیگر، طبقهبندی خودکار، به انواع جدید سوال قابل توسعه است و سوالات را با دقت منطقی خوبی، طبقه بندی میکند
طبقه بندی سوال به صورت خودکار به دو رویکرد اصلی شناخته شده تحت نام "یادگیری ماشین" و "مدل سازی زبان" تقسیم شده است. الگوریتم یادگیری ماشین اولیه مورد استفاده برای طبقه بندی سوال ماشین بردار پشتیبان - هوسیوگلا و وارد - 2003 است.
ژانگ و لی tree kernel - 2003 - را با یک طبقه بندی کننده SVM برای طبقه بندی سوال به کار گرفتهاند و بدون استفاده از ویژگیهای نحوی یا معنایی، به دقت % 80 ,2 دست یافتند. لی و راث - 2002 - یک روش سلسله مراتبی، برای طبقه بندی سوال بر اساس معماری آموزش SNOW پیشنهاد دادند. آنها از یک فرآیند طبقه بندی دو مرحلهای استفاده می کنند.
- لی و راث، - 2006 با استفاده از منابع آنلاین معنایی مانند wordnet برای پاسخ دادن به سوال استفاده کردهاند. این آزمایش ها با استفاده از wordnet نشان میدهد که استفاده از اطلاعات معنایی برای طبقه بندی سوال تا حد زیادی، عملکرد سیستمهای پرسش پاسخ را بهبود میبخشد.[8] سانتوش کومار ری[8] برخی از روشهای موجود برای طبقه بندی سوال را مورد بحث وبررسی قرار داده و روشی جدید بر اساس - word - net پیشنهاد داده است.
سوتلانا استویانچف[9] یک آزمایش بازیابی سند روی یک سیستم پرسش وپاسخ ارائه داده است، و با استفاده از نام اشخاص و اسم، فعل، و عبارتهای گزارهای، درخواست بازیابی سند را ارزیابی می کند. در حالی که دکتر محمدرضا کنگاوری [10]ساده ترین روش برای بهبود دقت سیستم پرسش وپاسخ را ارائه داده است که ممکن است دامنه تحت پوشش آن محدود شود.
پالوما موردا و همکاران [11]با استفاده از اطلاعات معنایی در سیستم پرسش وپاسخ ، مخصوصا در مرحله استخراج جواب، دو پیشنهاد ارائه دادهاند. لی پنگ، تنگ ون دا و ژنگ وی [12] یک روش استخراج جواب به رسمیت یافته بر اساس الگوی یادگیری و دستیابی به یک قالب به رسمیت یافته برای یادگیری خودکار ارائه دادهاند.
از جمله کارهای داخلی می توان به سیستم ماهر ساختهی شمس فرد و همکاران ,[1] سیستم پرسش وپاسخ کاوه یزدی و همکاران ,[2] سیستم پرسش و پاسخ به زبان طبیعی در حوزه زندگی نامه به زبان فارسی محمدی
وهمکاران ,[3] وضعیت پرسش و پاسخ معنایی ویسی نژاد ,[4] سیستم پرسش و پاسخ با رده بندی سوالات و جملات کاندید با استفاده از n-gram محمدی جنقرا ,[5] سیستم پرسش و پاسخ با استفاده از الگوریتم ژنتیک شفیعی ,[6] سیستم آموزشیار چندکارگزاره هوشمند به منظور شخصی سازی محیط یادگیری الکترونیکی براساس نظریه پرسش- پاسخ بایلری [7] اشاره کرد.
در سیستم ماهر شمس فرد و همکاران " ماهر" آموزشگر هوشمندی است که به آموزش ریاضی دوم دبستان اختصاص دارد. این سیستم متشکل از مدل یادگیرنده - دانش آموز - ، پایگاه دانشی حاوی دانش قلمرو و دانش آموزشی، پیمانه آموختار، پیمانه ارزیاب، پیمانه پاسخگو و واسط کاربر است. در سیستم پرسش وپاسخ کاوه یزدی و همکاران به بررسی وپیاده سازی یک نمونه سیستم پرسش و پاسخ برای زبان انگلیسی پرداخته شده است.
در این سیستم از یک ضمیمه گر مبتنی بر الگوریتم ویتربی با دقت %89 برای ضمیمه نقشهای دستوری و یک ضمیمه گر مبتنی بر رایج ترین معنا با دقت %56 برای مرحله تحلیل معنایی بهره گرفته شده است. در وضعیت پرسش و پاسخ معنایی ویسی نژاد، یک روش مبتنی بر رده بندی و وزندهی کلمات برای پاسخدهی به سوالات در حوزه زندگی نامه پیشنهاد شده است.
با استفاده از یک پیکره از پاسخهایی که به صورت دستی استخراج شدهاند، کلمات فنی در این حوزه، تعیین میشوند و سپس این کلمات وزندهی شده و برای ردهبندی سوالات مطرح شده و جملات کاندیدا برای پاسخ ، مورد استفاده قرار می گیرند. سیستم پرسش و پاسخ با رده بندی سوالات و جملات کاندیدا با استفاده از n-gram محمدی جنقرا، یک روش مبتنی بر رده بندی و وزندهی کلمات برای پاسخدهی به سوالات در حوزه زندگینامه پیشنهاد شده است.
با استفاده از یک پیکره از پاسخ هایی که به صورت دستی استخراج شدهاند، کلمات فنی به همراه bi-gram ها و uni-gram ها دراین حوزه، تعیین میشوند و سپس این کلمات وزندهی شده و برای رده بندی سوالات مطرح شده و جملات کاندیدا برای پاسخ ، مورد استفاده قرار می گیرند. سیستم پرسش و پاسخ با استفاده از الگوریتم ژنتیک شفیعی، سیستم پرسش و پاسخی را با استفاده از الگوریتم ژنتیک طراحی کرده، که ارزش هر جواب کاندید با در نظر گرفتن درصد مشابهت با سوال از طریق تابع پردازش سنجش شده و سپس بهترین کاندیداهای جواب برای تولید نسل بعدی انتخاب می گردند. سپس عملگر تقاطعی و جهشی برروی آنها اعمال شده و جوابهای جدید تولید می شود.
سیستم آموزشیار چندکارگزاره هوشمند به منظور شخصی سازی محیط یادگیری الکترونیکی براساس نظریه پرسش - پاسخ بایلری، آموزشیار هوشمند چند کارگزارهای ارائه شده، که قابلیت ارائه آزمون شخصی با در نظر گرفتن همزمان توانایی یادگیرنده و درجه دشواری آزمونها - براساس نظریه پرسش- پاسخ - و ارائه توصیه شخصی شده - بر اساس شبکه عصبی مصنوعی - را دارد. کارگزارهای این سیستم همانند معلم انسانی در کلاسهای سنتی هستند که به توانمندیهای یادگیرنده تطبیق شده و به یادگیری وی کمک می کنند.
درنظرگرفتن مفاهیم مرتبط برای پیدا کردن جواب بسیار مهم است ولی در بسیاری از کارهایی که انجام شده، اهمیت این موضوع نادیده گرفته شده است به طور مثال در عبارت "پایتخت فرانسه پاریس است" کلمه کلیدی فرانسه انتخاب می شود و با استفاده از موتور جست وجو، عبارات "انتخابات فرانسه برگزار شد" یا "در فرانسه اعتصاب است" پیدا می شود که این عبارات مورد نظر این تحقیق نیست و بیشتر دنبال عباراتی مانند "فرانسه کشوری در اروپای شمالی است" هستیم، به تعبیر دیگر، یافتههای نهایی، بایستی صرفا جملات مرتبط باشند.
2 -سیستم پیشنهادی
سیستم طراحی شده در این پژوهش تحت وب عمل میکند و پاسخهای مناسب با درخواست کاربر را با جست و جو در صفحات وب یافته و باز می گرداند. برای طراحی این سیستم در بخش پردازش زبانهای طبیعی مانند جدا کردن جملات، تجزیهی جمله به کلمات سازندهاش، شناسایی نهاد اسمی و ... از ابزار CoreNLP استفاده شده است؛[13] که مجموعهای از ابزارهای تجزیه و تحلیل زبان طبیعی است. پیادهسازی این سیستم به کمک زبان جاوا صورت گرفته است.
1- 2 -پردازش و تجزیه سوال
در فرایند طبقه بندی سوال، سیستم سوال کاربر را تجزیه کرده و فرمت پاسخ مورد نظر را از آن استخراج می کند. در این پژوهش، به صورت سلسله مراتبی عمل کردهایم. ابتدا کلمه پرسشی که با 11 POS های …,WRP,WR مشخص میگردد را از سوال استخراج نموده و براساس اینکه کلمه پرسشی فوق به دنبال چه واقعیتی میگردد، در جوابهای بدست آمده بدنبال واقعیت مورد نظر میگردیم. برای مثال کلمه پرسشی Where بدنبال اسم مکان میگردد لذا در جوابهای بدست آمده در فاز پردازش جواب این امر را در نظر میگیریم که عباراتی با برچسب مکان - LOCATION - ، در جملات بدست آمده، برای جواب موجود باشد و به همین صورت برای کلمه پرسشی When بدنبال اسم زمان، برای Who بدنبال اسم شخص و ... هستیم.
سایر لغات به دو دستهی کلمات اصلی و کمکی تقسیم میشوند. در روش پیشنهادی با وارد کردن سوال از طریق کاربر، درخت تجزیه12 سوال مربوطه ساخته می شود و نوع کلمات - کلمه پرسشی، اسم، فعل، صفت، قید - با استفاده از شناساگر POS - جدول - - 1 - مشخص می گردد.برای مثال در سوال Where did Mahmoud Hessaby graduate university? با استفاده از شناساگرPOS میتوان نقش کلمهای هر کدام از اجزای سوال را بدست آورد و در فاز طبقه بندی سوال از آن استفاده نمود
شکل:2 نمایی از تجزیه یک سوال به کلمات سازنده آن
جدول:1 نمونه ای از برچسب گذاری POS