بخشی از مقاله

چکیده

امروزه یافتن پاسخهای صحیح و دقیق برای سئوالات مورد نظر در کوتاهترین زمان ممکن به یکی از چالشهای افراد تبدیل شده است. برای پاسخگویی به این نیازمندی اطلاعاتی انواعی از سیستمهای بازیابی اطلاعات طراحی شدهاند که میتوانند برای سئوالات کاربران پاسخهایی را به صورت متن ارائه کنند .[1] هدف این مقاله طراحی و پیاده سازی سیستم پرسش و پاسخ برای سیستم عامل اندروید است که با استفاده از تکنیک های آماری بتواند دانش نهفته در متون ساختار نیافته را استخراج و مستقل از زبان و حوزه دانش قطعه ای از متن را که شامل پاسخ کاربر است بازیابی نماید .

مقدمه

با توجه به افزونگی اطلاعات در فضای وب بسیاری از افراد تلاش میکنند تا با بهرهگیری از سیستمهای بازیابی اطلاعات مانند سیستمهای کلاسیک یاهو، گوگل و غیره نیازمندیهای اطلاعاتی خود را در کوتاهترین زمان ممکن برطرف نمایند.

در این نوع بازیابی به جای پاسخ دقیق و مختصر، مجموعهای از اسناد مرتبط به کاربر ارائه میشود و کاربر باید پاسخ موردنظر خود را از اسناد ارائه شده استخراج نماید که این فرآیند نیازمند صرف زمان و تلاش قابل توجه از سوی کاربر میباشد.

برای رفع این اشکال، سیستمهای پرسش و پاسخ طراحی شدهاند که قادرند سئوال کاربر را به شکل زبان طبیعی دریافت کرده و پس از تجزیه و تحلیل سئوال و نیز مجموعه اسناد مرتبط، پاسخ مناسب و دقیق را به صورت یک متن کوتاه و یا حتی یک جمله، عبارت یا کلمه بازگردانند. در روش پیشنهاد شده، هر یک از منابع داده و سئوالات مطرح شده به عنوان مجموعهای از کلمات شناخته میشوند که فارغ از معنا و گرامر بوده و سیستم تنها با استفاده از تکنیکهای آماری محتملترین پاسخ را از بین گزینه های احتمالی انتخاب نموده و باز میگرداند و محدودیتی در زمینه حجم منابع داده، حوزه دانش و زبان وجود ندارد. در ادامه به توضیح مهمترین الگوریتم و مدل در زمینه تکنیک های آماری می پردازیم .

مدل - N گرام

یک - N گرام دنبالهای از n کلمه یا n واج است که به صورت متوالی در یک متن ظاهر شدهاند. جملاتی با موضوعات یکسان، عمدتاً از - N گرامهای مشابه استفاده میکنند و بنابراین با محاسبه تعداد تکرار - N گرامهای عبارت کاربر در هر یک از متون پایگاه داده، میزان ارتباط آن متن با عبارت مطرح شده توسط کاربر مشخص میشود. - N گرام با اندازه یک،-1 گرام و با اندازههای دو و سه به ترتیب -2 گرام و -3 گرام نامیده میشوند .[2] مدل آماری - N گرام از سایر روشها عملیتر و مؤثرتر میباشد، زیرا علاوهبر سادگی پیادهسازی، نسبت به نویز نیز مقاوم است.

از ویژگیهای قابل انتظار مدلهای - N گرام این است که دقت و کارایی مدل با افزایش مقدار N افزایش مییابد. با وجود این واقعیت در بیشتر کاربردها عملاً از مدلهای -2 گرام یا حداکثر -3 گرام استفاده میشود، زیرا مدلهای مرتبه بالاتر از 3 برای آموزش مناسب احتیاج به مجموعه متون بزرگتری دارند و در غیر این صورت نمیتوان تخمینهای مناسبی برای احتمالا به دست آورد. ویژگی دیگر مدلهای - N گرام وابستگی زیاد آنها به متون آموزشی از نظر نوع و اندازه میباشد. اگر مجموعه آموزشی تنها مربوط به یک زمینه و موضوع خاص باشد، احتمالات نتیجه شده نمیتوانند برای جملات جدید به شکلی مناسب تعمیم یابند. از طرفی اگر مجموعه متون آموزشی بسیار عمومی و کلی باشد، ممکن است احتمالات نتیجه شده برای آن کاربرد خاص مناسب نباشند

الگوریتم TF*IDF

با توجه به اهمیت متفاوت واژهها و اصطلاحات بکار رفته در یک متن از شاخص »وزن اصطلاح« برای نشان دادن اهمیت هر اصطلاح استفاده میشود. در این روش به اصطلاحات مهمتر وزن بیشتر و به اصطلاحات دارای اهمیت کمتر، وزن کمتری اختصاص داده میشود. برای مشخص کردن وزن یک اصطلاح در یک متن، از ضرب تعداد تکرار آن اصطلاح در متن مورد نظر - TF - در معکوس تعداد اسناد دارای آن اصطلاح استفاده میشود. باید توجه داشت که هر چه تعداد دفعات تکرار یک اصطلاح در یک متن بیشتر و تعداد اسناد دارای آن اصطلاح کمتر باشد، آن اصطلاح دارای اهمیت و وزن بیشتری خواهد بود. فراوانی مدرک معکوس برای واژه i از رابطه زیر محاسبه میشود:

برای بازیابی اسنادی که دارای بیشترین احتمال داشتن پاسخ صحیح میباشند، میتوان از روش TF*IDF استفاده نمود تا میزان ارتباط آنها را با پرسش مورد جستجو توسط کاربر تعیین نمود. به این منظور ابتدا با استفاده از روش TF*IDF ، وزن هر یک از لغات موجود در پرسش کاربر در هر یک از اسناد محاسبه میشود. سپس اسناد بر اساس مجموع وزن همه لغات، مرتب شده و اسناد دارای بیشترین امتیاز بازگردانده میشوند. باید توجه داشت که در این روش، وزن یا همان اهمیت یک اصطلاح در یک متن با توجه به تعداد تکرار آن اصطلاح در متن مشخص میشود و محل به کار رفتن آن در متن تأثیری در وزن کلمه نمیگذارد. دلیل استفاده گسترده از این روش نسبت به سایر روشها، سادگی استفاده از آن و نتایج قابل قبول آن است.

معماری سیستم پیشنهادی

این سیستم  با در اختیار داشتن پایگاه دادگان مناسب هر زبان به سئوالات مطرح شده به آن زبان پاسخ دهد و با افزودن سطح تعامل، امکان پاسخگویی دقیق تر و بهتر را فراهم نماید. باید توجه داشت که سیستمهای پرسش و پاسخ تعاملی موجود عمدتاً یا از تجزیه و تحلیلهای معنایی و گرامری استفاده میکنند که آنها را محدود به زبان خاص مینماید و یا نیازمند آموزش با پیکره بزرگی از دادگان از طریق بکارگیری تکنیکهای یادگیری ماشین میباشند. ویژگی که سیستم طراحی شده را از سیستمهای موجود متمایز میکند، استخراج دانش نهفته در متون با استفاده از رویکرد آماری جهت پاسخگویی و برقراری تعامل است.

تکنیکهای آماری استفاده شده، علاوهبر ایجاد یک سیستم مستقل از زبان سرعت جستجو را افزایش میدهد. با این وجود کاهش دقت پاسخگویی با توجه به عدم استفاده از دانش زبانشناختی امری محتمل است. از اینرو سیستم طراحی شده به جای پاسخ دقیق، یک قطعه از متون را باز میگرداند تا احتمال ارائه پاسخ مناسب افزایش یابد. توانایی سیستم در باز گرداندن قطعهای از متون، آن را قادر میسازد که هم به سئوالاتی درباره حقایق کوتاه مانند »کجا«، »کی« و »چه کسی« و هم به سئوالات پیچیدهتری مانند »چرا« و »چگونه« که به پاسخهای طولانیتری نیاز دارند پاسخ دهد. سیستم طراحی شده همچنین میتواند با ارائه اطلاعات بیشتر کاربر را از طرح برخی از سئوالات بینیاز نماید .[4]شکل شماره [1] معماری سیستم طراحی شده را نمایش می دهد .

شکل شماره [1] معماری سیستم طراحی شده

روال اجرای سیستم طبق مراحل زیر می باشد :

    کاربر پرسش خود را مطرح میکند؛ در این فرآیند ماژول پیشنهاد دهنده کلمات در پرسش، به کاربر کمک میکند تا پرسش خود را به شکل مناسبتری طرح نماید.

    پرسش ورودی بررسی میشود تا مشخص شود آیا پاسخگویی به آن نیاز به تعامل با کاربر دارد یا خیر.

    اگر پرسش مطرح شده دارای خطای املایی و یا کلمات ناشناخته باشد، ماژول تصحیح خطای املایی با رویکرد تعاملی خود، ابهام را برطرف مینماید.

    در مرحله بعد، ابتدا با استفاده از TF*IDF سند مناسب از میان مجموعه اسناد انتخاب میشود و سپس سیستم با استفاده از الگوریتم JIRS ، قطعهای از متون را که به احتمال زیاد شامل پاسخ صحیح است تعیین و به کاربر نمایش میدهد.

    ماژول پیشنهاد دهنده پرسشهای پرتکرار، فهرستی از پرسشهای مرتبط با پرسش فعلی را به کاربر نمایش میدهد تا در صورت تمایل آن را جهت کسب اطلاعات انتخاب نماید.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید