بخشی از مقاله

چکیده

در این مقاله، به بر سی یک سی ستم پا سخگوی خودکار و هو شمند بر ا ساس روشهای هوش م صنوعی و پایگاه دانش میپردازیم که سی ستم با استفاده از پایگاه دانشی که دارد سؤال را تحلیل میکند و پاسخ مناسب را ارائه میدهد و برای بهبود پاسخها از روشهای یادگیری استفاده میشود. در این سیییسییتم با پرسیش سییؤال از کاربر، او را به محل موردنظر راهنمایی و یا جواب او را میدهد؛ که بدیهی اسییط اراحی و پیادهسیازی چنین سی ستمی نیازمند اراحی الگوریتمهای هو شمند درزمینه یادگیری ما شین میبا شد. در این مقاله بهمنظور پیدا کردن ویژگیها سؤال، از تحلیل جداسازی خطی به همراه الگوریتم ژنتیک استفاده میشود.

در این مقاله فقط در فاز تحلیل سؤاالت کارشده و در بقیه فازهای مربوط به سیستمهای پرسش و پاسخ از روشهای ارائهشده قبلی استفاده میشود که بر اساس این روش پیشنهادی به نتایج بهتری در دقط جوابهای مرتبطتر با موضوع سؤال مطرحشده، دسترسی پیدا کردیم.

کلمات کلیدی سیستم پرسش و پاسخ، تحلیل جداسازی خطی، الگوریتم ژنتیک، یادگیری ماشین، دقط            

مقدمه  

دادههای سیییاخته یافته بود. این سیستم  تبدیل کویری مبتنی برجسط و جو بوده و بانام سیستمهای دامنه محدود نامگذاری شدهاند؛  سیستم های پرسش و پاسخ1 کمک میکند به موتورهای جستجو برای زیرا آنها میتوانند به سؤاالت دادههای ساخطیافته ارائهشده مربوط به ارائه یک پاسیییخ کامل و مختصر، بهجای اینکه مجموعه ای از اسناد خود جواب دهند. بااینحال با گسیییترش سیییری  دادهها در فرمطهای ساخته و خوانده شود.

سیستم - QAپرسش و پاسخ - یک ابزار ضروری    بدون ساختار، ا ستخراج پا سخ از مناب  م ستقل از دامنه، چالش ا صلی  اسیییط برای مواجه با این حجم ااالعات زیاد جهانی در حال رشییید،  QA میباشد. سیستمهای QAدامنه باز، سیستمهای QAای هستند بااینحال بروز رسانی یک موتور جستجو با یک سیستم پرسش و پاسخ    که میتوانند بهاورکلی و رایگان در مناب    و دامنههای خاص فعالیط یک مسییهله پیچیده و مشییکل اسییط. ماشیینآالت پاسخگوی انسییانی کنند.

اولین سیستم QA مبتنی بر وب در سال 2004 شروع به توسعه ماشییین های خودکار پاسییخگو مانند انسییان یک راهکاری هسییتند در یافط و از سیستمهای QA معاصر میتوان به سیستم های هوش مصنوعی که دان شمندان برای ر سیدن به آن تالش میکنند. بر  از IBM نام برد. سادهترین شکل پا سخ یک سی ستم اساس کتاب را سل و نورویگ، فیلد هوش م صنوعی2 دارای چهار گروه QA برگشیییتن یک پاراگراف به یک سیییؤال تعریفی اسیییط. بااینحال  تعریف هسط که یکی از آنها آزمون تورینگ - تسط تورینگ اسط که  درخوا سط نوع  سؤال موردبحث میبا شد. پا سخ یک سؤال در مورد تواناییهای دستگاهها برای برقراری ارتباط و پاسخ بهمانند یک  حقیقط، جواب ساده ا سط، مانند نام یک فرد یا یک مکان که میتواند  انسییان میباشیید.

عالوه بر این آرتور سییاموئل در نوشییته خود با عنوان در یک جمله پیدا شود. هوش مصنوعی کجاسط و به کجا میرود" اظهار داشط هدف اصلی از    عالوه بر این دو نوع سؤال، لیسط دیگری از جمالت مانند فرضیات،علّط هوش مصنوعی و یادگیری ماشین به دسط آوردن رفتاری شبیه انسان    و معلول، روابط، رویهها، پرسشهای تأثیری وجود دارد. در این مقاله ما  برای ماشیییین اسیییط بهعبارتدیگر اسیییتفاده از هوش برای ماشیییین    در مورد مسائل و تعاریف و حقایق با یک چهارچوب چهار فازی ازجمله میباشد.

بانامهای رتبهبندی پاراگراف، رتبهبندی جمله، استخراج کلمه در در سالهای اولیه مشکل اساسی QA تبدیل یک سؤال زبان ابیعی به    رتبهبندی کلمات کارکردهایم. بهمنظور پاسخ دادن به یک سؤال یک زبان پرسوجو - SQL - و پرسوجوی سیییاخطیافته و بازیابی پاسیییخ از    مجموعهای از    جوابها کاندید میشود    که بایستی رتبهبندی شوند. محاسبه مجموع تمام ویژگیها نمیتواند فرمولی باشد که پاسخ ارزش واقعی را مشخص کند چراکه هر یک از ویژگیها دارای یک وزن میباشند. پیدا کردن وزنها یک مسهله یادگیری تحط نظارت اسط که میتواند توسط یک الگوریتم ابقهبندی مبتنی بر تفکیک حل شود.

در سیستمهای پرسش و پاسخ، کاربران پرسشهای خود را به زبان ابیعی مطرح نموده و سیستم، پاسخ ممکن را بازمیگرداند. از آنجائی که گفتگوی پیوسته بین کاربر و سیستم وجود ندارد، کاربران نمیتوانند نیاز خود را توضیح دهند لذا دسترسی به ااالعات موردنیاز در اولین تعامل بین کاربر و سیستم بسیار مشکل اسط. افزودن تعامل به این سیستمها، امکان ارح سؤاالت مرتبط و ارائه توضیحات الزم از اریق گفتگو بین سیستم و کاربر را فراهم میکند و دقط پاسخگویی را افزایش میدهد.

در سیستمهای پرسش و پاسخ که شکل پیچیدهتری از سیستمهای بازیابی ااالعات هستند، کاربر پرسشی را بهصورت مستقل از پرسشهای پیشین مطرح مینماید تا سیستم با استفاده از تحلیلهای موجود پاسخ احتمالی را بهصورت کوتاه بازگرداند. عالوه بر این، موفقیط جستجو در این سیستمها به نوع پرسش مطرحشده بستگی دارد. بعضی سؤاالت مطرحشده ساده بوده و پاسخگویی به آنها بهراحتی انجام میشود. در مقابل سؤاالت پیچیدهای مطرح میشوند که پاسخگویی به آنها نیازمند ارح توضیحات اضافی از سوی کاربر میباشد .

این محدودیطها سبب میشود تا در بسیاری از موارد کاربران دریافتن پاسخ صحیح با مشکل مواجه شوند. در سیستمهای پرسش و پاسخ خودکار امکان برقراری تعامل دوارفه بین کاربر و سیستم وجود ندارد و کاربران قادر به ارائه توضیح اصالحی درباره نیاز لعاتی خود نیستند، بعالوه سیستم نیز نمیتواند با ارح پرسشهای خود از کاربر، جهط رف ابهامات احتمالی در سؤاالت مطرحشده اقدام نماید. بدین ترتیب دسترسی به لعات موردنظر در اولین پرسش و پاسخ چندان آسان نیسط و کارایی باال، نیازمند وجود مجموعه دادههایی میباشد که از قبل گردآوریشده باشد. سیستم های موجود دارای زمان زیاد جهط اجرا، عدم دقط مناسب و دارای درصد قابلتوجهی خطا میباشند که جهت تحقیق و پاسخدهی درسطکامال، مناسب نمیباشند.

در سال 2012 یک رویکرد جدید تحط نظارت با استفاده از روابط ساختاری بین سؤال و عبارات و رتبهبندی مجدد تعریف شد. در این ساختار، SVM با استفاده از توالی هسته، درخط بهاور ضمنی که نشاندهنده پرسش و پاسخ بهصورت جفتی در فضاهای بزرگ ویژگیها بود کدگذاری شد. در سال 2013 از یک سیستم مهندسی پاسخ خودکار بهعنوان جایگزینی برای سیستمهای مورداستفاده دستی استفاده شد.

پیشنهاد یک روش برای الگوهای یادگیری بهاور خودکار و پیچیده را، مانند روابط ساختارهای معنایی در پرسشها و عبارات و پاسخ خود ارائه شد. با ارائه این الگوریتم، یادگیری خود را با استفاده از پرسشهای نحوی، درختان را به دسط آورده و عبارات منتقل شده توسط برچسب های رابطهای که در آن ابقهبندی خودکار ارائه و به دسط میآورند. در سال 2014 باستفاده از پرسش و پاسخ یک کاندید معتبر با جفط نحو/معنا ایجاد و یک درخط معنایی کمعمق تشکیل شد که اینها با استفاده از ترکیبشان به هم متصل میشوند . - LOD3 - این درختان در اثرSVM4 میتوانند به اور خودکار به قطعات قابل بهرهبرداری پردازششده، تبدیل شوند.

درزمینه رتبه بندی اسناد مقاالت زیادی وجود دارد. یک مدل مبتنی بر SVM برای رتبهبندی این زمینه وجود دارد که با استفاده از تمرکز روی نام موجودیطها و کلمات - NES5 - بر اساس خود کلمات و سرنخهای موجود در متن مانند ااالعات موقعیتی، نام کلمات موجودیتی و ساختارهای الفبایی و کلمات سؤالی عمل میکند. آنها عبارتاند از چهار ویژگی:کیسه کلمات - ، N-grams، قسمطهای نحوی و گروه اسم عبارات، فعل، حروف اضافه. یک مدل مبتنی بر رتبه بندی با استفاده از کلمات کلیدی و ویژگیها نوع سؤال و یک مدل ریاضی برای استخراج پاسخ ارائه شد. نتایج آنها نشان میدهد که با استفاده از دادههای وب و بهرهبرداری از افزونگی دادهها میتوان بهترین عملکرد را به دسط آورد.

ویژگی ها مع نایی در QA ها در مقا له موردبررسیییی و ب حث قرارگرفته شده اسط. آنها با استفاده از دو ویژگی معنایی کار میکنند قوانین معنایی و که دامنه عمومی و بازی برای استخراج پاسخ از یک سیستم QA اسط. یک چارچوب احتمالی یکپارچه پیشیینهاد داده شیید که ترکیبی از ادله متعدد برای مقابله با چالش ها در رتبهبندی پاسیییخ و اد ام جواب میباشید. چارچوب ترکیبی از ارتباط و شیباهط ویژگیها با اسیتفاده از ارزیابی چند استخراج گر ازجمله مبدل حالط محدود و SVM میباشد. سیستم QA مبتنی بر وب بهاورکلی جسییتجوی بزرگی را در دامنه دادههای وب و الگوریتمهای تکاملی در سییاختار اصییلی خودش اعمال میکند.روشهای تکاملی با سیستم QA مبتنی بر وب نیز ارائه گردید.

از الگوریتم متمتیک برای ج ستجو در میان جمالت ا سناد بازیابی شده از یک موتور ج ستجو ا ستفاده شد. یک مقدار آ ستانه برای تعداد ا سناد بازیابی شده مؤثر - مفید - با توجه بهدقط و فرآیند زمان به د سط آورده شد. در سال 2013 یک مدل تکاملی برای رتبهبندی پا سخها و نحوه چگونگی پا سخ سؤاالت در یک سی ستم ارائه شد. رویکرد ترکیبی از روشهای محاسییباتی تکاملی و روشهای خوشییهبندی بود که بهترین پا سخ از محتویات تولید شده تو سط کاربر مبتنی بر وب را ارائه میداد.

در سییال 2008 الگوریتم ژنتیک - GA - را برای جسییتجو در میان n-gram ها برای پیدا کردن حقایق اسییتفاده کردند. n-gram ها بهعنوان بهترین قطعه از پا سخ تو سط یک موتور ج ستجو ا ستخراج و م شخص شد. ایده اصلی برای کسانی اسط که به دنبال زیررشتهای در قطعاتی از جمالت آن زمی نه هسیییت ند که بیشیییتر به زمی نه های پاسیییخ های شییناختهشییده موجود شییبیه هسییتند. روش دیگر ابقه بندی سییلسییله مراتبی پاسخهای باکیفیط باال در سیستمهای پرسش و پاسخ میباشد. روش دیگر اسیییت فاده از اد ام در خط های وابسیییتگی و پیچ یدگی شباهت های واژگانی، پا سخ سؤاالت را د ستهبندی نمودند.

روش دیگر سیییبکی از آموزش یادگیری نیمه نظارتی را برای ابقهبندی اسیییتفاده نمودند. در این روش، اسیییتفاده از تکرار زیاد کلمات کلیدی بهعنوان ویژگیها ابقهبندی و ا ستفاده از شباهط معنایی برای تنظیم وزن آن ویژگی میباشییید. در بسییییاری از مقاالتی که درباره پرسش در مورد حقایق کارشده اند از پرسش تعریفی استفاده کردهاند. از ویژگیها زبان شناختی و تعریف اصطالحات برای استخراج پاسخ و استراتژیهای رتبهبندی در QA ا ستفاده شد. یک سی ستم پز شکی QA بانام med QA تعریف شییید که به اور خودکار دارای تعداد زیادی از اسناد الکترونیکی تجزیه وتحلیل برای تولید پاسیییخ کوتاه و منسیییجم برای پرسشهای تعریفی مانند چیست بود.

مفاهیم اولیه

در این مقاله ااالعات با روش کتابخانهای گردآوری و سییپ جنبه های مختلف تحقیق بررسیشده اسط. در این بخش در ابتدا سیستم پرسش و پاسخ را با استفاده از شکل توضیح میدهیم در قسمط بعدی تحلیل جداسازی خطی را توضییییح داده و الگوریتم ژنتیک را بهاور اجمالی بررسی میکنیم.ابتدا ورودی که درخواسییتی اسییط که آن به یک موتور جسییتجو داده میشود . مطالب از مناب بازیابی میشوند در دومین گام، در بخش آنالیز سییؤال نوع و ویژگیها آن مورد بررسی قرار میگیرد.

نوع درخواست سؤال بر ا ساس مجموعه نوع درخواست ها  اسط که یک مجموعهای اسط از الگوهای نوعی سؤال که توسط خود ما ساخته میشود. محتویات از ویژگی استخراجشده از پاراگرافهای مناب و تو سط بخشهای پیشپردازش و ا ستخراج ویژگیها بازیابی می شوند تا در قسمت های بعدی ویرایش شوند. متون پیشپرداز شده و ویژگیهای آنها و ویژگیها درخواست ها و نوع درخواست به بخش رتبه بندی پاراگراف داده می شود.

در بخش رتبهبندی پاراگراف با توجه به ویژگی و وزنشان و وزن مجموعه تشکیلشده، خروجی توسط قسمط رتبهبندی پاراگراف و بهترین پاراگراف یا بخشیییی از یک پاراگراف به قسییمطهای بعدی ارسییال میشییود. در بخش اسییتخراج ویژگی جمله ویژگی ها جمالت و در بخش رت بهب ندی جمالت هر جم له ارز یابی و بخشی از آنها را از بین میرود. جمالت واجد شرایط به بخش استخراج کلمه رفته و هر یک از کلمات یا چند کلمه از هر جمله بهعنوان حقایق بر ا ساس مجموعه نوع سؤال شناخته می شوند.

کلمات ا ستخراج شده بایسییتی برای پیدا کردن بهترینها رتبه بندی شوند. پس از بین بردن خطاهای واضح توسط بخش پیشپردازش متن و بخش استخراج ویژگی کلمات جواب با استفاده از حقایق ارزیابی میشود و با توجه به ویژگیها و وزن آنها یکی از بهترینها بهعنوان یک پاسخ نهایی ارسال میشود. استخراج شییده اسییط. مسییهله رتبهبندی شییامل تعریف مجموعهای از ویژگی های و کار ما این اسییط که وزن این ویژگیهای سییؤال را به د سط آوریم مشخص کنیم هدف ا صلی ما رتبهبندی جمله بهو سیله روش تحلیل جدا سازی خطی و الگوریتم ژنتیک ا سط که با ا ستفاده از این ویژگی جدید منجر به انجام یک رتبهبندی بهتر شود. تحلیل تحلیل جداسازی خطی یکی از تکنیکهای کاهش بعد دادهها میباشد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید