بخشی از مقاله

چکیده

در این مقاله به توضیح مراحل برچسبزنی و آمارههای مربوط به درختبانک سازهای زبان فارسی میپردازیم. این درختبانک شامل حدود 30000 جمله است که بهصورت نیمهخودکار و با تبدیل ساختار وابستگی به سازهای تولید شدهاست. در مرحله اول ساختار وابستگی بهصورت خودکار به ساختار سازه تبدیل شده و سپس ساختار سازه تولیدشده، بهصورت دستی موردبازبینی قرار گرفتهاست. با کمک درختبانک تولیدشده دو تجزیهگر نحوی سازهای آموزش داده شدهاست. با انجام یک پیشپردازش و افزودن اطلاعات مربوط به کلمه به برچسب کلمات کیفیت تجزیهگرها بهبود یافته و کیفیت نهایی 85,51 درصد بهدست آمدهاست.

.1 مقدمه

.1,1 بیان مسئله

پردازش زبان طبیعی1 یکی از زیرشاخههای هوش مصنوعی، زبانشناسی و علوم رایانه است، که کاربردهای فراوانی در پردازش زبان گفتار و نوشتار دارد - کومار2، . - 2011 ازجمله موارد پیچیده پردازش زبان طبیعی میتوان به ترجمه ماشینی3 و پاسخ دادن به پرسشها4 اشاره کرد. بهمنظور انجام پردازش زبان طبیعی توسط رایانه، نیاز است که زبان انسان توسط رایانه درک شود. به دست آوردن دستور یک زبان، یکی از مراحل مهم در درک زبان طبیعی است که کمک میکند بتوان زبان را تحلیل نحوی و درنهایت تحلیل معنایی کرد. برای تحلیل معنایی، ابتدا باید نقش نحوی هر کلمه را در جمله مشخص کرد، که بدینمنظور میتوان از برچسبدهی اجزای سخن5 استفاده کرد. سپس با تجزیه نحوی جمله میتوان ارتباط بین کلمات یک جمله را به دست آورد و از تحلیل نحوی جمله در تحلیل معنایی آن استفاده کرد.

به دست آوردن تحلیل نحوی توسط راهکاری قاعدهبنیان، احتمالاتی و یا ترکیبی از این دو امکانپذیر است. در روشهای قاعدهبنیان قواعد مربوط به یک زبان توسط فرد خبره به دست میآید و با کمک قواعد بهدستآمده به تجزیه جملات آن زبان میپردازند. از مزیت این روشها عدمنیاز به داده آموزش است؛ ولی این دسته از روشها مختص همان زبانی است که قواعد زبانی از آن به دست آمدهاست. روشهای احتمالاتی به دو صورت باناظر6 و بیناظر7 امکانپذیر است. این دسته از روشها معمولاً مستقل از زبان هستند.

روشهای بیناظر نیاز به داده آموزش ندارند ولی بهطور معمول نسبت به روشهای باناظر دارای کیفیت پایینتر هستند. داده آموزش، یکی از مهمترین پیشنیازهای لازم در بیشتر روشهای آماری پردازش زبان طبیعی است. درصورتیکه نتوان مدل مورد استفاده در یک راهکار را آموزش داد، استفاده از آن راهکار امکانپذیر نخواهد بود. درختبانک سازهای یکی از منابع مهم جهت آموزش تجزیهگرهای نحوی است.

فقدان درختبانک سازهای با حجم مناسب در زبان فارسی منجر به آن شدهاست که، آموزش تجزیهگر سازهای احتمالاتی با کیفیت بالا امکانپذیر نباشد. استفاده از دیگر روشها، مانند روشهای قاعدهبنیان یا بیناظر با اینکه نیاز به داده آموزش ندارند، اما دارای اشکالاتی نظیر کیفیت پایین تجزیه جملات هستند. علاوهبر این برخی کاربردهای پردازش زبان طبیعی نظیر مترجم ماشینی و پاسخگویی به پرسشها در صورت وجود درختبانکهای دارای دو نمایش نحوی معادل، کیفیت بالاتری خواهند داشت - مکدونالد1 و پریرا2، 2006 و محمودی و همکاران، 2013 و محمودی و فیلی، . - 2015 تولید درختبانک بهصورت دستی کاری هزینهبر و در عین حال زمانبر است.

علاوهبر این حتی در صورت وجود درختبانکهای مختلف در یک زبان، برخی کاربردهای پردازش زبان طبیعی نیاز به درختبانکهای معادل یکدیگر دارد. به همین دلیل نیاز است که درختبانک از نوعی به نوع دیگر تبدیل شود. تبدیل خودکار درختبانکها به یکدیگر کمک میکند تا علاوهبر صرفهجویی در زمان و هزینه، بتوان برای یک جمله دو نمایش درختی به دست آورد. از اینرو روشهای تبدیل خودکار درختبانکها مورد توجه قرار گرفته و راهکارهای مختلفی برای تبدیل انواع درختبانکها به یکدیگر به وجود آمده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید