بخشی از مقاله

چکیده

تکنولوژي اطلاعات نوین و سرویسهاي اینترنتی با مشکل انتخاب و مدیریت اطلاعات متنی رو به رشد روبرو هستند . سیستم پرسش و پاسخ روشی جهت شناسایی پاسخ صحیح از میان مجموعهي وسیعی از اسناد است. در این پژوهش طرحی بر پایهي روشی ترکیبی براي سیستمهاي پرسش و پاسخ ارائه شده است؛ در بخش پردازش پاسخ، ویژگیهاي مختلفی مثل ویژگیهاي آماري، ویژگیهاي معنایی و ویژگیهاي نحوي جهت آموزش و آزمایش طبقهبند SVM از پاسخ استخراج میشود.

در نهایت بر اساس این که پاسخ یافته شده براي یک پرسش در چه دستهاي قرار گرفته و امتیاز نهایی آن، بر اساس امتیاز ویژگیهاي محاسبه شده چیست، پاسخها رتبه دهی میشوند. پاسخ-هاي با اولویت بیشتر به عنوان پاسخ صحیح، به کاربر ارائه میشوند. جهت ارزیابی سیستم از معیار رتبه متقابل میانگین استفاده شده است، این معیار با مقدار 0,693 نشان از عملکرد خوب شیوهي پیشنهادي دارد. درصد بالاي صحت سیستم نیز نشان دهنده قابل قبول بودن عملکرد سیستم است.

-1 مقدمه

سیستم پرسش و پاسخ براساس جستجوي کلمات کلیدي شکل میگیرد و مشابه جستجوي تحت وب است. جستجوي تحت وب صفحات بسیاري را براي جستجوي یک کلمه بازمیگرداند، یافتن پاسخ صحیح از میان اسناد مرتبط با پاسخ زمانبر است. پرسش و پاسخ عملی است که به سوالی که در فرمت زبان طبیعی پرسیده شده است پاسخی به صورت خودکار ارائه میدهد. پرسش به عنوان یک جمله در زبان طبیعی تعریف میشود که معمولاً با یک لغت پرسشی آغاز میشود و اطلاعاتی که کاربر به آنها نیاز دارد را نشان میدهد.

سیستم هاي پرسش و پاسخ در دامنههاي باز1 و محدود2 مورد بررسی و پیادهسازي قرار میگیرد .[1] سیستمهاي با دامنه باز، سیستمهایی هستند که حیطه کاري آنها به دامنه و دانش خاصی محدود نمیشود و اغلب مبتنی بر وب هستند. این سیستم ها باید قابلیت پاسخگویی به هر پرسشی را داشته باشند. در سیستمهاي با دامنه محدود حیطه کاري به حوزه خاصی مثل پزشکی، کامپیوتر یا زندگینامه محدود میشود و سیستم فقط سوالات مربوط به آن حوزه خاص را میتواند پاسخ دهد.

1-1 اجزاي سیستم پرسش و پاسخ

هر سیستم پرسش و پاسخ به صورت معمول از سه جزء اصلی تشکیل می-شود:[2] فرآیند پردازش پرسش3 فرآیند بازیابی اطلاعات4 فرآیند پردازش پاسخ5

1-1-1 فرآیند پردازش پرسش

در این فرآیند سوال مطرحشده از سوي کاربر مورد پردازش قرارگرفته، نوع پرسش مورد نظر مشخصشده و مجموعهاي از کلمات کلیدي جهت بازیابی اطلاعات تولید میشود. انواع مهم پرسشها عبارتنداز: پرسشهاي حقیقی، لیستی، تعریفی، فرضیهاي، چرایی، رابطهاي فرآیند پردازش پرسش با دو بخش اصلی روبرو است:

•    طبقهبندي پرسش

•    فرمولبندي پرسش

فرآیند طبقهبندي پرسش، سوال کاربر را تجزیه کرده و فرمت پاسخ مورد نظر را از آن استنتاج میکند. در این گام بر اساس کلمه پرسشی مطرح شده در صورت سوال، پاسخهاي بازگشتی متفاوت از یکدیگر خواهند بود. فرمول بندي پرسش ها، براي شناسایی روشهاي مختلف ارائه پاسخ به سؤال زبان طبیعی، صورت میگیرد . زمانی که کاربر سؤال را میپرسد، در ابتدا عبارت به مؤلفههاي نحوي آن تجزیه میشود و سپس کلمات کلیدي براي فرمولبندي استفاده میشود.

2-1-1 فرآیند بازیابی اطلاعات

این فرآیند کلمههاي کلیدي تولید شده توسط پردازش سوال را دریافت کرده و از شیوههاي متفاوت جستجو، جهت بازگردان سند یا پاراگراف استفاده میکند. پام و همکارانش Wikipedia را به عنوان منبعی غنی جهت سیستم هاي پرسش و پاسخ دامنه باز معرفی کرده اند. آنها روش هاي تطبیق پاسخ بر اساس گونه هاي مختلف منابع شبه ساختاري ویکیپدیا شامل محتواي مقاله، ساختار مقاله، ساختار طبقه بندي ها و ... را ارائه داده اند .[3]

3-1-1 فرآیند پردازش پاسخ

پردازش پاسخ با پیچیدگی سوال در رابطه است، علاوه بر آن نوع پرسشی که مطرح شده، دادههاي موجود که پاسخ از روي آن جستجو میشود، روش جستجو در بازیابی اطلاعات و مفهوم پرسش، تأثیر بسیاري بر نحوه پردازش و تولید پاسخ نهایی دارند. با دریافت N سند یا پاراگراف مرتبط با سوال توسط فرآیند بازیابی اطلاعات، پردازش پاسخ، تحلیلهاي جزییتر را انجام داده و پاسخ مرتبط را بازمیگرداندمعمولاً. پردازش پاسخ، لیستی از پاسخهاي منتخب را تولید کرده و آنها را بر اساس توابع نمرهدهی امتیازدهی میکند.

جهت انتخاب پاسخ در سیستم پرسش و پاسخ راهکارهاي متفاوتی وجود دارد که در ادامه بعضی از این شیوهها مورد بررسی قرار میگیرند. بعضی از سیستمها بر اساس یافتن الگو بناشدهاند، در این نوع سیستمها گاهی جداسازي استخراج پاسخ از انتخاب پاسخ امري دشوار است. گنزالز و همکارانش [4] جهت شرکت در رقابت 6Clef2006 سیستمی را طراحی کردند که از عبارات منظم جهت استخراج پاسخ از میان پاراگرافهایی که پیشتر جمعآوري شده بود استفاده میکرد.

روشی دیگر که در بعضی از سیستمهاي QA مورد استفاده قرار می-گیرد و با عنوان انتخاب پاسخ بر مبناي مدل نیز شناخته میشود، در دستهي روشهاي بر مبناي دانش قرار میگیرد. این ایده توسط سینها و نارایان [5] معرفی گردید. این روش ارتباطات میان رویدادها، موجودیتها و ویژگیهاي آنها را بررسی کرده و با انجام استدلال روي آنها به دنبال پاسخ صحیح است.

بعضی از سیستمها در ساختار خود جهت استخراج پاسخ منتخب و تولید پاسخ نهایی از n-gram ها - دنبالهاي به هم پیوسته از n عنصر در یک توالی داده شده از متن - استفاده میکنند. سیستمهاي[6] Aranea و [7] OpenEphyra در ساختار خود از روشی مشابه استفاده میکنند. Aranea تمامی n-gram هاي یک عبارت یا جمله را - unigram تا -tetragram از میان پاراگرافهاي بازگشتی تولید میکند. این n-gram ها بر اساس اینکه از چه پرس وجویی برآمده باشند، امتیازهاي اولیهاي را به خود اختصاص میدهند و بر اساس آنها پاسخهاي منتخب شناسایی می-شوند.

با استفاده از علم آمار و روابط آماري نیز سیستمهایی جهت استخراج پاسخ ارائه شدهاند. ماتیاس و همکارانش[8] روشی آماري جهت پاسخ به پرسشها ارائه دادهاند. در این سیستم مدلی بر اساس روابط ریاضی جهت بازیابی پاسخ و طبقه بندي پاسخها ارائه شده است. جهت انتخاب محتملترین پاسخها از میان پاسخهاي منتخب، سیستم هاي پرسش و پاسخ روشهاي رتبهبندي مختلفی را به کار میبرند . یکی از متداولترین شیوه ها فیلترینگ است.

فیلترینگ بر اساس لیستی از پیش تهیه شده و یا هستانشناسی هایی مثل Gazetter - لغت نامهي جغرافیایی که در ارتباط با اطلس ها و نقشه ها استفاده میشود - ، CYC - پروژه اي در حیطه هوش مصنوعی جهت تهیهي هستان شناسی و پایگاه دانش جامع بر اساس استدلالات انسانی - و wordnet صورت میگیرد. پاسخ مورد انتظار، براساس نوع سوال، با پاسخهاي منتخب مقایسه شده و پاسخهایی که با پاسخ مورد نظر همخوانی ندارند حذف میشوند. پراگر و همکارانش [9] از این شیوه بهره بردهاند.

اعتبارسنجی پاسخ یکی دیگر از شیوههاي متداول جهت رتبهدهی به پاسخها است. زو و همکارانش [10] از محدودیتهایی که روي زیر نوعها اعمال میکردند استفاده نمودند و جوابهایی که به صورت بهتري محدودیتها را ارضا میکردند را به عنوان پاسخ برتر به بالاي لیست پاسخهاي منتخب انتقال میدادند. شاون جین و همکاران [11] سیستمی جهت امتیازدهی محتواي متن در سیستمهاي پرسش و پاسخ با استفاده از طبقه بند SVM معرفی کرده-اند. در این سیستم، چارچوبی بر اساس یادگیري ماشین ارائه شده است که شامل طبقه بند سوال، بازیابی ساده اي از اسناد و مدلی جهت امتیازدهی محتوا در بخش استخراج پاسخ است . از ویژگیهایی مثل شکل کلمات، ویژگیهاي نحوي جملات و ... استفاده نمودهاند.

فاکاموتو و همکارانش روشی جهت هدایت پاسخ به سمت پاسخ صحیح با استفاده از محاوره با کاربر پیشنهاد داده اند .[12] در این روش سیستم QA لغتی راهنما را از طریق محاوره با کاربر انتخاب مینماید تا بر اساس آن موضوع متناسب با پرسش مطرح شده را از میان موضوعات اسناد بازگشتی شناسایی نماید. لذا فضاي جستجو کاهش خواهد یافت و احتمال یافتن پاسخ صحیح افزایش می یابد.

هیوجونگ و همکارانش با استفاده از روش تقسیم و غلبه سیستمی ارائه داده اند که در فاز استخراج پاسخ بنابر طبقه بندي انجام شده روي پرسش، روشهاي مختلفی را براي بازیابی پاسخ به کار میبرند. در این سیستم بنابر پیچیدگی پرسش مطرح شده از استخراج کنندههاي پاسخ با پیچیدگی متفاوت استفاده میشود .[13] در ادامه پیش از معرفی سیستم پیشنهادي، مفاهیم استفاده شده، معرفی میشود.

ماشین بردار پشتیبان - SVM - 7 یکی از روش هاي یادگیري با نظارت8 است که هم براي دستهبندي و هم رگرسیون قابل استفاده است. تجزیه و تحلیل جمله و شکستن آن به اجزاي تشکیل دهنده مانند گروههاي اسمی، فعلی، قیدي و غیره توسط ابزاري به نام پارسر صورت میگیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهاي پردازش متن دارد. در دستور زبان، اجزاي کلام - POS - 9، طبقه بنديهایی زبانی از کلمات هستند که رفتار نحوي یک قسمت از جمله را بیان میدارند. به طور عموم، اجزاي کلامی شامل فعل، اسم، صفت و قید هستند.

نهاد اسم 10، اسامی خاص مربوط به افراد، اماکن، تاریخها، اسم سازمان-ها، اعداد، ملیت و... را شامل میشود. Wordnet اطلاعاتی در مورد چهار جزء کلامی در اختیار میگذارد که عبارتند از اسم، صفت، فعل و قید . Wordnet تعدادي ارتباط لغوي بین کلمات و نیز بین synset ها مشخص کرده است که عبارتند از هدف از سیستم پیشنهادي ارائه راهکاري است که از روشی ترکیبی جهت استخراج پاسخ بهره گیرد و بررسی شود که در مقایسه با سیستمهاي دیگر به نتایج بهتري دست خواهد یافت یا خیر. براي طراحی سیستم پیشنهادي در بخش پردازش زبانهاي طبیعی مانند جدا کردن جملات، تجزیهي جمله به کلمات سازندهاش، شناسایی نهاد اسمی و ... از ابزار 11CoreNLP استفاده شده است؛ که مجموعهاي از ابزارهاي تجزیه و تحلیل زبان طبیعی است. پیادهسازي این سیستم به کمک زبان جاوا صورت گرفته است.

-2روش انجام کار

سیستم پیشنهادي، به صورت دامنه باز در دو دستهي پرسشهاي تعریفی و حقیقی عمل میکند. جهت منبع اطلاعاتی از Wikipedia استفاده شده-است. به دلیل ساختار سلسله مراتبی Wikipedia از طبقه بندي چند سطحی استفاده شده که در ادامه مورد بررسی قرار خواهد گرفت.

1-2 پردازش پرسش
 
1-1-2 طبقه بندي پرسش

فرآیند طبقهبندي سوال در یک سیستم پرسش و پاسخ نقش بسیار مهمی در شناسایی انتظارات کاربر دارد. در نوشتهجات، طبقه بندي ناصحیح پرسش، یکی از عوامل در عملکرد ضعیف یک سیستم پرسش و پاسخ است. این امر اهمیت طراحی فرآیند طبقه بندي سوال را بیشتر متوجه میسازد. در سیستم مورد نظر در طبقه بندي پرسش، براي پرسش مطرح شده دو حالت در نظر گرفته میشود:

•    پرسش تعریفی است.

•    پرسش حقیقی است.

در صورتی که پرسش مطرح شده از نوع پرسشهاي تعریفی باشد با عبارت پرسشی what is یا who is آغاز میشود و در ادامه با یک عبارت اسمی خاتمه مییابد. در این حالت عبارت اسمی پس از عبارت پرسشی به عنوان عبارت کلیدي بازگردانده میشود؛ مانند What is DNA?, Who is Hillary Clinton? و... در صورتی که پرسش مطرح شده از نوع پرسشهاي حقیقی باشد با هریک از کلمات پرسشی wh فرم آغاز میشود - در صورت آغاز با لغات پرسشی who وwhat ، فرمت پرسش مطرح شده متفاوت با پرسشهاي تعریفی است- کلمات پرسشی به صورت معمول شامل کلماتی نظیر When, Where, Who, Which ,Whatاست .

2-1-2 فرمول بندي پرسش

جهت یافتن عبارت کلیدي به صورت زیر عمل شده است: بازگرداندن عبارت میان دو double quatation به عنوان عبارت کلیدي در غیراین صورت:

•    بازگرداندن اجزاي کلامی لغات پرسش

•    بازگرداندن نهاد اسمی لغات پرسش در صورت وجود

•    یافتن عبارات اسمی که میتوانند دنباله اي از صفات و اسامی باشند. - اسامی با اجزاي کلامی به صورت - NN|NNP|NNS|NNPS - و صفات با اجزاي کلامی به صورت - JJ|RD -

• مشخص کردن عبارات اسمیاي که لغات آنها جزء نهادهاي اسمی مثل - LOCATION| ORGANIZATION| PERSON|NUMBER - باشند.

•    عبارات اسمی با اجزاي کلام مورد نظر، داراي بیشترین طول و داراي نهاد اسمی اشاره شده که در Wikipedia احتمال اینکه براي آنها صفحه مجزایی وجود داشته باشد، اولویت بیشتري داده شده و در دسته عبارات اصلی قرار میگیرند.

•    در صورت نبود نهاد اسمی در عبارتهاي اسمی یافته شده، عبارات اسمی با بیشترین طول، ارجحیت مکانی - عباراتی که پیشتر آمدهاند نسبت به عباراتی که در انتهاي پرسش دیده میشوند ارجحیت دارند - ، در اولویت بعدي در دسته کلمات اصلی قرار میگیرند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید