بخشی از مقاله

چکیده

در این مقاله به معرفی و روش ساخت "قرانجوی" به عنوان اولین سامانه پرسش و پاسخ قرانی به زبان فارسی میپردازیم. مبحث پرسش و پاسخ در قران در حوزههای ترجمه، مفاهیم و تفسیر قران از اهمیت بالایی برخوردار است. سامانههای متداول فعلی بازیابی اطلاعات، بر اساس یک یا چند کلمه کلیدی که کاربر وارد میکند، تعدادی سند را برمیگردانند.

در این سامانه هدف آن است که ابتدا سایت ها و بانک های اطلاعاتی معتبر قرانی شناسایی شده و اطلاعات آن در یک مخزن اطلاعاتی ذخیره گردد. سپس سامانه پس از دریافت پرسش کاربر و پردازش آن - تعیین نوع پرسش، تأکید پرسش و استخراج کلمات کلیدی - ، اسناد و اطلاعات موجود در مخزن داده را جستجو میکند و پس از یافتن پاسخهای مناسب - که ممکن است یک پاراگراف، یک جمله و یا یک عبارت باشد - ، چند پاسخ برتر که رتبه بالاتری را کسب کردهاند به کاربر باز میگرداند.

البته در کنار این مخزن اطلاعاتی، از یک هستان شناسی قرانی - بنام قران نگار که تنها هستان شناسی معتبر قرانی به زبان فارسی است و در همین طرح توسعه داده شده است - استفاده میگردد که این منجر به یافتن پاسخ های کوتاه و دقیق از منابع دانش سامانه می شود. نتایج حاکی از آن است که سامانه با دقت خوبی میتواند پاسخهای مورد نیاز کاربران را بازگرداند.

-1 مقدمه

در دهههای اخیر حجم اطلاعات تولیدشده توسط بشر به صورت تصاعدی بالا رفته است، به نحوی که پیدا کردن دانش مورد نیاز از انبوه دادههای موجود فعالیتی چالش برانگیز شده است. برای رفع این مشکل، سامانههای بازیابی اطلاعات [Baeza 1999] طراحی شدند که هم اکنون نیز انواع تحت وب آنها - مانند گوگل - محبوبیت فراوانی دارند. سامانههای پرسش و پاسخ نوع عالیتری از سامانههای بازیابی اطلاعات - مانند موتور جستجوی گوگل - محسوب میشوند که یک پرسش را به زبان طبیعی از کاربر دریافت نموده و سپس جواب را از منبع دانش خود  استخراج  مینماید  و به کاربر  برمیگردانند

در مقایسه با سامانههای بازیابی اطلاعات کلاسیک که در آنها واحد ارائه اطلاعات سند است سامانههای پرسش و پاسخ تلاش مینمایند »جواب دقیق« را مستقیما محاسبه و ارائه نمایند که باعث تسهیل و افزایش سرعت دسترسی به دانش میشود. این امکان برای برخی کاربردهای آیندهنگر که نیاز به تصمیمگیریهای بلادرنگ دارند حیاتی است. همچنین چون روش ارتباط کاربر با این سامانه به گفتمان انسان نزدیکتر است امکان تعاملپذیری1 آنها بالاتر میباشد. هرچند ارائه این قابلیتها، چالشهای بسیار بزرگی مانند فهم نسبی جملات زبان طبیعی را به دنبال دارد.

در این مقاله به ارائه یک سامانه پرسش و پاسخ فارسی مخصوص حوزه قرآنی با نام "قرانجوی" میپردازیم. این سامانه، اولین سامانه پرسش و پاسخ کاملا خودکار برای این حوزه میباشد و تا جایی که اطلاع داریم اولین سامانه پرسش و پاسخ مقیاسپذیر2 برای زبان فارسی میباشد. این سامانه از طریق وبگاه اینترنتی3 جهت استفاده عموم در دسترس میباشد.

در ادامه، این نوشتار به هفت بخش اصلی تقسیم شده است. در بخش 2 به شرح کارهای مشابه پرداخته شده است. در بخش 3 معماری سامانه بیان شده و در بخشهای 4 و 5 به ترتیب به شرح گراف مفاهیم قرانی و فرایندهای سامانه میپردازیم. در نهایت در بخش 6 نتایج آزمایشات بخشهای مختلف سامانه ذکر شده است. در بخش 7 نیز جمعبندی نهایی آورده شده است.

-2 کارهای مرتبط

سامانههای پرسش و پاسخ مختلفی در سال های اخیر چه به صورت آزمایشگاهی و چه به صورت تجاری ایجاد شده است. از آنجایی که سامانههای پرسش و پاسخ می توانند رقیبی جدی برای موتورهای جستجو محسوب شوند، تمامی شرکت های بزرگ نرمافزاری از جمله ایبیام4 و یاهو5 در آزمایشگاههای خود بر روی این سامانهها تحقیقات گستردهای انجام میدهند. بررسی سامانههای مختلف پرسش و پاسخ چه در دامنه باز و چه در دامنه محدود، می تواند در تعیین معماری و ابزارهای مختلف مورد نیاز برای سامانه پرسش و پاسخ قرآنی راهگشا باشد.

اولین تلاش ها برای ایجاد سامانههای پرسش و پاسخ مربوط به سال 1964 و سامانه الیزا6 میباشد . - Weizenbaum 1966 - این سامانه نمونه اولین سامانههای پردازش زبان طبیعی می باشد که برای تعامل و پاسخ دادن به صحبتهای کاربران به صورت متنی در دانشگاه امایتی7 ایجاد شد. براساس الیزا سامانه داکتر8 ایجاد شد که یک برنامه کامپیوتری برای تعامل با کاربران برای رواندرمانی می باشد. سامانه دیگری به نام لونار9 نیز بر اساس الیزا بنا شده است. این سامانه برای پاسخگویی به سؤالات در دامنه علوم فضایی می باشد و قادر است به 90 درصد از سؤالات پاسخ صحیح بدهد. در دهه 60عمدتاً سامانههای پرسش و پاسخ در تست تورینگ10 مورد بررسی قرار میگرفتند.

نمونههای بسیار دیگری نیز مورد بررسی قرار گرفتند. به عنوان مثال AnswerBus یک سامانه پرسش و پاسخ دامنه باز11 میباشد که برای پرسشهای کاربران پاسخ هایی در حد جمله پیدا می کند. این سامانه قادر است پرسش کاربران را در زبان های انگلیسی، آلمانی، فرانسوی، اسپانیایی، ایتالیایی و پرتغالی دریافت کند و در چند ثانیه برای آن ها پاسخهایی به زبان انگلیسی فراهم کند AQUA . - Zheng 2002 - یک سامانه پرسش و پاسخ است که در دانشگاه آزاد کشور انگلستان توسعه پیدا کرده است .

یکی از مشخصه های اصلی این سامانه استفاده از دانش - ذخیره شده به صورت هستان شناسی - می باشد. این دانش در مراحل مختلف پرسش و پاسخ مانند اصلاح پرسش بکار برده میشود. سامانه TelQAS میتواند به پرسشهای مطرح شده در حوزه تخصصی مخابرات پاسخ دهد

پایگاه داده سامانه حاوی مفاهیم و واقعیات اطلاعات مربوط به حوزه تخصصی مورد نظر است که در قالب گراف هستانشناسی ذخیره شده است. OpenEphyra اولین چارچوب12 باز برای سامانههای پرسش و پاسخ میباشد - Schlaefer et . - al. 2006 چارچوب ارائه شده میتواند علاوه بر زبان انگلیسی بر روی سایر زبان ها نیز با جایگذاری اجزای زبانی اعمال شود.

این سامانه از وب برای پایگاه دانش خود استفاده می نماید، ولی قادر است از مجموعه های داده ای کوچک تر نیز استفاده کند. بنابراین این سامانه بیشتر برای دامنه باز طراحی شده است هر چند که میتوان از آن برای دامنه محدود نیز استفاده نمود. سامانه پرسش و پاسخ Mulder در سال 2001 در دانشگاه واشنگتن ساخته شده است

هدف اصلی از طراحی این سامانه گسترش دامنه سامانه های پرسش و پاسخ به دامنه وب میباشد به طوری که به ادعای سازندگان این سامانه، این اولین سامانه پرسش و پاسخ با دامنه باز می باشد. سامانه پرسش و پاسخ تک زبانه اسپانیایی در بخش پردازش ه ای زبان طبیعی و سامانه های اطلاعاتی دانشگاه آلینتکا13 ساخته شده است. این سامانه بر پایه ترکیب ابزارهای کمعمق پردارش زبانهای طبیعی و تکنیکهای حذف آماری ساخته شده است. سامانه تنها قادر است روی اسناد اسپانیایی کار کند و میتواند برای پرسشها پاسخهای دقیق بیابد. QArab سامانه پرسش و پاسخی است که پرسشها را به زبان عربی گرفته و تلاش میکند تا برای آنها پاسخ کوتاهی بیابد.

منبع اطلاعات اولیه این سامانه، مجموعهای از متون استخراج شده از روزنامه "الرایا" میباشد. در این سامانه از موتورهای جستجوی سنتی برای بازیابی اطلاعات استفاده میشود، اما بر روی پرسش و پاسخهای یافت شده پردازشهای زبانی صورت میگیرد. سامانه پرسش و پاسخ هواشناسی یک مدل پرسش و پاسخ عمومی است که بر روی یک دامنه محدود - هواشناسی - و بر پایه الگوهای تعریف شده به پیشبینی وضع هوا میپردازد. مدل طراحی شده برای تحقق هدف استخراج پاسخ در حداقل زمان از روابط معنایی و نحوی، پرسش های قبلی و الگوهای پویا استفاده می کند. اگر هیچ الگوی مناسبی برای پاسخ یافت نشود کاربر میتواند الگوی مناسبی با توجه به گرامر زبان انگلیسی بسازد.

سامانه AquaLog یک سامانه قابل حمل14 پرسش و پاسخ میباشد، به طوری که پرسشهای کاربران به صورت زبان طبیعی و هستان شناسی مربوطه را از ورودی دریافت، سپس جواب هایی را بر اساس پایگاه دانش خود به سؤالات پرسیده شده به کاربران نشان میدهد

PowerAqua  یک سامانه پرسش و پاسخ مبتنی بر چند هستان شناسی15 است که پرس-وجوهای زبان طبیعی را به عنوان ورودی دریافت می کند و این توانایی را دارد تا از منابع توزیع شدهمرتبطِ موجود در وب معنایی 16، پاسخ مناسب را استخراج کند. لازم به ذکر است که PowerAqua فقط به یک هستان شناسی محدود نمی شود. PowerAqua سامانه جدیدی است که برای پشتیبانی از پرسش و پاسخ در حوزه وب معنایی، قابلیتهای بیشتری نسبت به AquqLog دارد

سامانه DeepQA توسط گروه تحقیقاتی IBM ساخته شده است با این هدف که بتواند با یک انسان به صورت بلادرنگ 17 در یک مسابقه ی تلوزیونی، Jeopardy، به رقابت بپردازد. این مسابقه دامنهی وسیعی از موضوعات را پوشش می دهد. این نیازمندی باعث طراحی معماری DeepQA و پیادهسازی واتسون18 شده است.

-3 معماری سامانه

سامانه های پرسش و پاسخ در حالت کلی، گونه ای از سامانه های بازیابی اطلاعات بشمار می روند که با در اختیار داشتن مجموعه ای از اسناد، می کوشند تا برای پرسشهای مطرح که اغلب در قالب زبان طبیعی هستند، پاسخهای مناسب را استخراج نمایند. بر این اساس، این قبیل سامانه ها نسبت به سامانه های معمول بازیابی اطلاعات، به تکنیکهای پیچیدهتر پردازش زبان طبیعی19 سروکار دارند و در محافل علمی به عنوان نسل آینده موتورهای جستجوی اطلاعات مطرح هستند.

-1-3 معماری کلی سامانههای پرسش و پاسخ

ابتدا باید خاطر نشان کرد سامانههای پرسش و پاسخ حوزه محدود که بر اساس منابع دانش و نیازمندیهای خاص خود طراحی و پیادهسازی میشوند بعضا از روشهای تک منظوره استفاده مینمایند، لذا معماری مشترکی برای این سامانهها نمیتوان متصور شد - Unger .2013 - لیکن سامانههای حوزه باز چون تعریف و منابع دانش یکسانی دارند - متون خام - معمولا از یک معماری مشترک تبعیت مینمایند که در شکل 1 نشان داده شده است.

شکل1 یک معماری کلی از سامانه پرسش و پاسخ میباشد که از مقاله لمپرت - Lampert 2004 - 20 با کمی اصلاح اقتباس شده است.

در ادامه به تشریح بخش های مختلف این معماری پرداخته میشود.

·    فرایند پردازش پرسش:

فرایند پردازش پرسش اولین مرحله فرایند پرسش و پاسخ می-باشد. این فرایند پرسش کاربر را به عنوان ورودی دریافت می کند و پردازشهای لازم را روی آن انجام میدهد تا برای فرایندهای بعدی آماده شوند؛ این فرایندشامل بخشهای زیر است

الف - طبقهبندی نوع پرسش/پاسخ:

برای یافتن پاسخ مناسب در ابتدا باید بدانیم که دنبال چه چیزهایی در میان اسناد بگردیم. نوع پرسش به ما کمک میکند که اطلاعات مرتبط را محدودتر کنیم و موجب تسهیل فرآیندهای بازیابی پاراگراف و پردازش پرسش میشود. نوع پاسخ بر مبنای نوع پرسش انتخاب میشود، بنابراین طبقهبندی پرسش بخش مهمی از پردازش پرسش میباشد و حتی اگر به عنوان یک بخش اساسی مدنظر نباشد میتواند اطلاعات مهمی را برای پاسخ به پرسش کاربر ارائه کند.

ب - تعیین تأکید پرسش:

گاهی دانستن نوع پرسش به تنهایی برای پیدا کردن پاسخ کفایت نمیکند خصوصاً اینکه بعضی از پرسشها میتوانند بسیار ابهام آمیز باشند؛ به منظور کاهش ابهام به یک بخش اضافی برای پیدا کردن تأکید پرسش احتیاج است. منظور از تأکید پرسش، کلمه یا مجموعه کلماتی در پرسش میباشد که اشاره به اطلاعات درخواستی توسط پرسش دارند. برای مثال در پرسش "چه کسی به مدرسه رفت؟" تأکید پرسش روی "مدرسه" میباشد. اگر نوع پرسش و تأکید آن مشخص شود، سامانه راحتتر میتواند نوع پاسخ را تشخیص بدهد.

ج - استخراج کلمات کلیدی :

در این قسمت کلمات کلیدی متناظر با پرسش کاربر بر حسب اولویتی که دارند به فرایند بازیابی اسناد فرستاده میشوند و کلمات بیارزش حذف میشوند.

·    فرایند بازیابی پاراگراف:

این فرایند بر مبنای یک یا چند سامانه مجزای بازیابی اطلاعات به جمعآوری اسناد مرتبط از میان اسناد موجود در وب میپردازد، سپس نتایج حاصل از سامانه بازیابی به منظور حذف قسمتهایی که شامل کلمات کلیدی پرسش نمیباشند مورد پالایش قرار میگیرند.

بعد از ارزیابی کیفیت پاراگرافها، آنها به ترتیب احتمال قرار گرفتن پاسخ مرتب میشوند. اگر پاراگرافها خیلی کم یا زیاد باشند از کاربر خواسته میشود تا پرسش خود ر ا با کاهش یا افزایش کلمات کلیدی تغییر دهد و دوباره ارسال کند. این کار تضمین میکند تعداد قابل قبولی از اسناد به قسمت بعدی فرستاده شود. انگیزه کاهش اسناد به پاراگراف قبل از فرستادن به فرایند پردازش پرسش منجر به تسهیل و تسریع فعالیتهای فرایند بعدی میشود

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید