بخشی از مقاله

چکیده

این مقاله مدل سلسله مراتبی جدیدی را برای ترجمه ماشینی آماری پیشنهاد میدهد که غیرپایانهها را با تطابق مرز عبارات مقصد با برچسبهای کم عمق نحوی در سمت مقصد پیکره آموزش، نامگذاری میکند. در جایی که برچسبی برای کل عبارت موجود نباشد، نام غیرپایانه از اتصال برچسبهای مرزی تعریف میشود. برچسبگذاری با کلاس کلمات مرزی عبارات قبلا معرفی گردیده است که میتواند شکل مبنای مدل پیشنهادی درنظر گرفته شود.

ما این شکل مبنا را در مقاله حاضر با استفاده از برچسب قطعات توسعه میدهیم. در این توسعه، اگر برچسب قطعه در مرز عبارت وجود نداشته باشد، از برجسب POS کلمه مرزی استفاده میشود. با استفاده از برچسب عبارات به جای کلاس کلمات، قواعد مدل پیشنهادی تعمیم داده میشود. تعدادی آزمایش در ترجمه فارسی به انگلیسی انجام شد. با استفاده از معیار BLEU در قیاس با مدل SAMT که از درخت تجزیه نحوی برای برچسب گذاری استفاده میکند، مدل پیشنهادی بهبود قابل توجهی به دست آورد.

-1 مقدمه

مدلهای سلسله مراتبی نسبت به مدلهای مبتنی بر عبارت از بازترتیب کلمات بهتر حمایت میکنند. این مدلها ترجمه بهتری را برای زبانهایی با اختلاف زیاد در ترتیب کلمات، نوید میدهند. برمبنای نوع برچسبهای استفاده شده در قواعد، مدلهای سلسله مراتبی مختلفی پیشنهاد شده است. مدل مبتنی بر عبارت سلسله مراتبی[1] از یک برچسب عمومی برای تمام غیر پایانهها استفاده میکند.

مدل SAMT [2] یک مدل به خوبی شناخته شده است که از کلاسهای نحوی زبان مقصد برای برچسب قواعد استفاده میکند. در این مدل برچسب از تطابق سمت مقصد عبارات تراز شده با زیردرختهای درخت تجزیه نحوی جمله در پیکره مقصد بهدست میآید. عباراتی که با بازهای در درخت تجزیه تطابق نداشته باشند با غیر پایانه عمومی X برچسب گذاری میشوند. برای مثال، تراز جملات فارسی-انگلیسی شکل 1 را در نظر بگیرید. قاعده زیر با یک بازه نحوی در درخت تجزیه جمله انگلیسی تناظر ندارد و با برچسب پیش فرض در مدل SAMT تعریف میشود - برای سهولت، کلمات فارسی از چپ به راست نمایش داده شده است. - :

شکل -1 تراز جملات فارسی-انگلیسی به همراه درخت تجزیه نحوی و برچسب قطعات کلمات انگلیسی    
- جمله فارسی از چپ به راست نوشته شده است. -

در مدل عبارت-مرزی [3] برچسب قواعد با کلاس کلمات مرزی سمت مقصد عبارات تراز شده تعریف میشود. برای مثال، با استفاده از برچسب POS به عنوان کلاس کلمات، قواعد زیر در این مدل، معادل قواعد 1 و 2 تعریف شده است:
مدل عبارت-مرزی در مقایسه با SAMT همه عبارت تراز شده را پوشش میدهد و نیازی به برچسب پیش فرض X ندارد. در آزمایشها، کیفیت ترجمه این مدل با مدل SAMT مشابه است. به عنوان مثالی دیگر، قواعد زیر در مدل عبارت-مرزی برای تراز جملات فارسی-انگلیسی در شکل 2 استخراج شده است

ما قصد داریم با اضافه کردن دانش زبانی بیشتر در مدل عبارت-مرزی کیفیت ترجمه بالاتری بهدست آوریم. در این مقاله استفاده از برچسب قطعات همراه با برچسب POS کلمات برای نامگذاری غیرپایانهها پیشنهاد میگردد. برچسب قطعات حاصل تجزیه کم عمق نحوی - قطعه بندی - هستند که اجزاء جمله - مانند عبارت اسمی و فعلی - را به صورت یکتا تعیین میکنند. البته ساختار داخلی و نقش قطعات در جمله مشخص نمیشود. در مدل پیشنهادی، اولویت نامگذاری با برچسب قطعه است. اگر برچسب قطعه برای کل عبارت و یا در مرز عبارت وجود نداشته باشد، از برچسب POS کلمه مرزی استفاده میشود. نامگذاری غیرپایانهها در این مدل سرراست است زیرا برچسب POS در مرز همه عبارات تعریف شده است.

شکل -2 تراز جملات فارسی-انگلیسی به همراه برچسب POS و قطعات کلمات انگلیسی

مدل پیشنهادی از برچسب مرزی عبارات مقصد برای بیان همجواری عبارات خروجی استفاده میکند. نامگذاری غیرپایانهها با استفاده از همه برچسبهای واقع در عبارت مقصد، تنکی مدل را افزایش میدهد. در مقایسه با مدل عبارت-مرزی مبنا، قواعد مدل پیشنهادی با استفاده از برچسب عبارات به جای برچسب کلمات تعمیم مییابد. نامگذاری غیرپایانهها با استفاده از برچسبهای نحوی عبارات مقصد امکان ساخت نحوی خروجی ترجمه را فراهم میکند، در حالیکه رمزگشایی به وسیله ورودی ترجمه هدایت میشود. از سوی دیگر، تناظر خوبی بین برچسبهای کم عمق نحوی در عبارات مبداء و مقصد وجود دارد.

با استفاده از مدل مبتنی بر عبارت سلسله مراتبی، گونهای از مدل SAMT و مدل عبارت-مرزی به عنوان مبنای مقایسه، مدل پیشنهادی در ترجمه فارسی به انگلیسی، بهبود قابل توجهی با معیار BLEU بهدست آورد. در این مقاله برخی کارهای مرتبط در بخش 2 معرفی میشود. در بخش 3 نامگذاری غیر پایانهها با استفاده از برچسبهای کم عمق نحوی تعریف میشود. بخش 4 آزمایشهای انجام شده را تشریح میکند. سرانجام، مقاله در بخش 5 نتیجه گیری میشود.

-2 کارهای مرتبط

مدل مبتنی برعبارت سلسله مراتبی [1] برای استخراج گرامر بدون نظارت بر مبنای تراز عبارات با یک غیرپایانه عمومی معرفی گردید. تولید ناپیوسته کلمات مقصد هرس فضای رمزگشایی با مدل زبانی مقصد را محدود میکند. با محدود کردن قواعد ترجمه به فرم [5] GNF جمله مقصد از چپ به راست تولید گردید. در کاری دیگر [6]، با اجتناب از فرم بازگشتی قواعد سلسله مراتبی فضای رمزگشایی مدل مبتنی برعبارت سلسله مراتبی محدود گردید. در این کار از دوغیرپایانه مختلف در سمت چپ و راست قواعد سلسله مراتبی استفاده شد. بدون استفاده از منابع زبانی، الگوی تجزیه عبارات برای برچسب گذاری قواعد استفاده گردید

برای انتخاب بهتر قواعد در فرایند رمزگشایی مدل مبتنی برعبارت سلسله مراتبی، اطلاعات بافتار ورودی به شکل برچسب [8] POS و برچسب CCG استفاده شده است. با استفاده از دانش نحوی، اشتقاقها در زمان رمزگشایی امتیازدهی شدند

غیرپایانهها با برچسب POS سرآیند کلمات نامگذاری شدند .[11] دقت مدل مبتنی بر عبارت سلسله مراتبی با کلاسهای نحوی به عنوان مدل [2] SAMT و برچسب [12] CCG بهبود یافت. برچسبهای نحوی برای کاهش تعداد قواعد در SAMT خوشه بندی شدند

کلاس کلمات مرزی عبارات در برخی کارهای جدید استفاده شده است. کلاس کلمات مرزی عبارات برای بهبود بازترتیب کلمات در مدل مبتنی برعبارت سلسله مراتبی [6] و مبتنی برعبارت [14] به کار رفت. با برچسب گذاری قواعد با کلاس کلمات مرزی عبارات، کیفیت ترجمه مشابه مدل SAMT به دست آمد .[15] برچسب گذاری قواعد با کلاس کلمات مرزی عبارات همراه با استخراج فیلتر شده قواعد برای کاهش اندازه مدل و زمان رمزگشایی در مدل عبارت-مرزی [3] پیشنهاد شد. مدل پیشنهاد شده در این مقاله برچسب گذاری مرزی را به برچسب POS و قطعه برای کیفیت بهتر ترجمه تعمیم میدهد.

-3 مدل

مدل پیشنهادی یک گرامر همگام مستقل از متن را از عبارات تراز شده استخراج میکند. پیرو [1]، قواعد وزن دار به شکل واژگانی، سلسله مراتبی و چسب تعریف میشوند. قواعد واژگانی بیانگر عبارات تراز شده بدون غیرپایانه در سمت راست هستند. قواعد سلسله مراتبی با حداکثر دو جایگذاری زیرعبارات با غیرپایانهها تعریف میشوند. قواعد چسب برای همه غیرپایانههای گرامر جهت اتصال متوالی عبارات خروجی تعریف میشوند.

مدل عبارت-مرزی در شکل مبنا [3] به صورت یکنواخت، کلاس کلمات مرزی عبارات مقصد را با یک خط پیوند برای نامگذاری غیرپایانهها اتصال می-دهد. با استفاده از برچسب POS به عنوان کلاس کلمات، برچسب عبارت تراز
شده < , > - که به ترتیب بیانگر زیر رشته بسته از موقعیت i تا j و موقعیت m تا n است - به شکل زیر تعریف میشود

علاوه بر برچسب POS، مدل عبارت-مرزی توسعه داده شده از برچسب قطعه در مرز عبارات مقصد نیز استفاده میکند. وقتی یک قطعه تمام عبارت تراز شده را پوشش دهد، به عنوان برچسب استفاده خواهد شد. در غیر این صورت قطعه واقع در عبارت مقصد که از سمت چپ شروع شود یا در سمت راست پایان یابد برای محاسبه برچسب استفاده میشود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید