بخشی از مقاله
چکیده
این مقاله با هدف ارائه روشهای ارزیابی مترجمهای ماشینی تدوین گردیده است. بدین منظور ابتدا رویکردهای اصلی توسعه سیستمهای ترجمه ماشینی تشریح میگردد. در بخشهای بعدی روشهایی جهت ارزیابی این سیستمها ارائه میگردد. این ارزیابی-ها در سه سطح ارزیابی کیفیت ترجمه، میزان سرویس دهی و سطح محبوبیت انجام میگیرد و برای هریک از این سه بخش ابزاری مجزاء طراحی و پیاده سازی شدهاست. همچنین برای هریک از این روشها، معیارها و شاخصهایی استخراج شده است که با تحلیل نتایج بدست آمده از هر بخش میتوان ارزیابی کاملی از سیستمهای ترجمه نمود.
-1-2 مترجم آماری مبتنی بر عبارت
ترجمه آماری مبتنی بر عبارت نیز بر این مبنا استوار است که ترجمه جملات را با لحاظ کردن بسترشان و توجه به مفهوم متن، انجام می دهد. بدین شکل که برای ترجمه متن ورودی به جای لحاظ کردن کلمات به عنوان اجزای اصلی جملات، عبارات را به عنوان اجزای اصلی در نظر میگیرند. مفهوم عبارت در ترجمه مبتنی بر عبارت، با مفهوم عبارت در زبانهای طبیعی متفاوت است. یک عبارت میتواند شامل تعدادی از کلمات همسایه باشد که در زبان طبیعی، معنای مستقلی ندارد و صرفا به خاطر تکرار بیشتر در متن آموزشی و تناظر لغوی، به عنوان یک واحد پرکاربرد، در نظر گرفته شدهاند. بهرهگیری از عبارات به جای کلمات، امکان یادگیری آسانتر جابجاییهای محلی عبارات را ایجاد میکند. همچنین استفاده از عبارات، ترجمه گروههای مختلف کلمات، مانند اصطلاحات چند کلمهای و درج و حذف کلمات را ساده-تر میکند. شکل 2 شمای کلی این روش را نمایش می دهد.
حال طی این دو مرحله مدل ترجمه آموزش دیده است و می توان از این مدل برای ترجمه استفاده نمود. این مرحله دیکد نام دارد. مرحله دیکد در واقع شامل ساخت گراف حالات مختلف فرضیههای ممکن برای ترجمه جمله ورودی است. در این مرحله در رویکرد مبتنی بر عبارت ابتدا جمله ورودی به عبارت شکسته میشود. برای هر عبارت تمام ترجمههای ممکن از زبان مقصد لحاظ میشود. سپس در صورت نیاز عبارات زبان مقصد در جمله نهایی جابجا میشود. در انتها برای یافتن ترجمه مناسب برای جمله ورودی این گراف حالت جستجو شده و بهترین مسیر یافته شود.
برای حل بهینه این مرحله از الگوریتمهای جستجو مانند A* و جستجوی شعاعی استفاده میشود. همچنین گراف جستجوی حاصل هرس میشود تا حالتهای تکراری و یا فرضیات با احتمال پایین از فضای حالت کم شده و پیچیدگی جستجو تا حدودی کاهش یابد. در نهایت پس از انجام ترجمه، می توان کیفیت آن را بر اساس روش های موجود بررسی نمود. این مرحله ارزیابی نام دارد. علاوه بر مدل ترجمه، مدل دیگری در کیفیت ترجمه تاثیر دارد که مدل زبانی نام دارد. آموزش مدل زبانی با استفاده از سمت زبان مقصد پیکره صورت می گیرد و نقش آن کنترل کیفیت و میزان فصاحت جمله تولید شده در زبان مقصد میباشد. شکل 3 مثالی از خروجی این سیستم را نشان میدهد.
شکل : - 2 - شمای کلی ترجمه مبتنی بر عبارت
همانطور که در این شکل نمایان است، برای استخراج مجموعه عبارت یک پیکره، ابتدا لازم است جملات پیکره همتراز شوند. این همترازی بایستی بهصورت چند به چند باشد. برای این منظور عموما از متقارنسازی استفاده میشود بدین ترتیب که ابتدا همترازی جملات در هر دو طرف، از مبدا به مقصد و از مقصد به مبدا، تولید میشود و با الگوریتم هایی مبتنی بر اجتماع و یا اشتراک دو جدول را ترکیب مینمایند و همترازی چند به چند ایجاد می شود .[1] در مرحله بعد با استفاده از جدول همترازی چند به چند، عبارات استخراج میشوند. برای استخراج عبارت دو قانون کلی بایستی رعایت شود و تنها عباراتی مجاز شمرده میشوند که از این دو قانون تبعیت نمایند.
-3 سیستمهای مترجم ماشینی مبتنی بر قاعده
سیستمهای مترجم ماشینی مبتنی بر قاعده در مجموع به سه دسته اصلی زیر تقسیم میشوند:
· ترجمه ماشینی مستقیم - Direct -
· ترجمه ماشینی انتقالی - Transfer -
· ترجمه ماشینی میانزبانی - Interlingua -
معمولا از مثلث شکل 4 که هرم واکوئیس4 نام دارد، به عنوان بیان تصویری این دستهبندیها استفاده میشود.قسمت پایینی این مثلث سیستمهایی را نشان میدهد که در فرآیند ترجمه، از هیچ سطحی از تجزیه زبانی بر روی جمله ورودی استفاده نمیکنند. با حرکت به سمت بالا در این مثلث، با سیستم هایی که از مقداری تجزیه صرفی-نحوی بهره میبرند مواجه میشویم. در بالاترین نقطه این هرم، یک تجزیه معنایی بر روی جمله ورودی انجام شده و مفهوم جمله استخراج شده و ترجمه میگردد.
در شکل 5 معماری کلی یک سیستم انتقالی نشان داده شده است. جمله ورودی توسط یک تجزیهگر که معمولا مبتنیبردستور است، از لحاظ زبانی تجزیه میشود. ساختار جمله در زبان مبدا با کمک تعدادی قواعد انتقال - عملیات دوزبانه - به ساختاری تبدیل میگردد که از آن، جملهای در زبان مقصد تولید خواهد شد. ترجمه ماشینی انتقالی شامل سه مرحله است: تجزیه، انتقال و تولید. مرحله انتقال به مانند پلی است میان مراحل تجزیه جمله در زبان مبدا و تولید جمله در زبان مقصد. پس از اینکه جملات مبدا تجزیه گردیدند، به مجموعه ای از قواعد انتقال معنایی و انتقال لغوی نیاز است تا ساختار جمله در زبان مقصد تولید شود. قواعد انتقال معنایی کمک میکنند تا درخت تجزیه از زبان مبدا به زبان مقصد منتقل شود. این بخش در حقیقت نگاشتی بین ساختارهای درختی به یکدیگر است. ترجمه کلمات با استفاده از قواعد انتقال معنایی انجام میشود.
-4 ارزیابی خودکار کیفیت ترجمه ماشینی
به طور کلی این ارزیابی ها به منظور مقایسه ترجمه های صورت گرفته توسط ماشین با ترجمه های انسانی انجام می گردد، تا با تجزیه و تحلیل نتایج این ارزیابی ها به توسعه و پیش رفت ترجمه های ماشینی خودکار نائل گردیم. این ارزیابی ها در دو دسته قرار دارند:
الف - سنجش انسانی
ب - سنجش خودکار و ماشینی ارزیابی سیستم های ترجمه ماشینی توسط انسان بسیار وقت گیر و زمان بر است در نتیجه سیستم های ارزیابی خودکار ترجمه ماشین در دنیای امروز بسیار پر اهمیت و پر کاربرد می باشند. این سیستم ها از طریق امتیاز دهی به متن خروجی، بر اساس معیار های خاص و تعریف شده ای عمل می کنند. متداول ترین معیار ارزیابی در حال حاضر معیار 5BLEU میباشد. در این مقاله به شرح این معیار میپردازیم .[3] به منظور ارزیابی کیفیت سامانههای ترجمه ماشینی از روشهای خودکار استفاده میگردد. به طور کلی روشهای ارزیابی به دو بخش کلی تقسیم می-گردند:
· معیارهای مبتنی بر سنجش میزان دقت برحسب N-gram
· معیارهای مبتنی بر سنجش میزان خطا
-1-4 معیارهای سنجش میزان دقت برحسب :N-gram
استراتژی مورد استفاده در این معیارها براساس تقسيیم بني ی جمي ت متون مرجع و متن كان ی بيه بشيه هيای مشتويب و بررسيی میي ان برابری و تطابق این بشه ها می باش . مت اولترین معیار در این حوزه معیار BLEU اسي . روش BLEU جایگزینی برای روش های ارزیابی انسانی نیست بلکه پیشنهادی است که به ما درارزیابی های مکرر و سریع کمک میکند. طرزکار متد BLEU بدین ترتیب است که n-gram های ترجمهای که توسط ماشین انجام شده است - ترجمه کاندید - را با n-gram های ترجمه ی انسانی مقایسه میکند و تعداد تطابقها را شمارش میکند. این تطابق مستقل از جایگاه n-gramها بوده و هرچه تعداد آن بیشتر باشد نشاندهنده کیفیت بهتر متن ترجمه شده است. همانگونه که مشاهده میشود اساس روش BLEU بر مبنای محاسبه دقت است که از تقسیم تعداد n-gramهای منطبق بر تعداد کلمات در متن کاندید بدست میآید.
- در فرمول باال m تع ادunigramهای نگاش ش ه بین عبارت مرجع با عبارت ترجمه ماشین و تع اد unigram ها در متن ترجمه ش ه اس . - بدین منظور ابتدا ماکزیمم تعداد رخداد هر کلمه در هر متن مرجع شمرده شده و سپس تعداد کل هر کلمه در متن کاندیدا به ماکزیمم تعداد رخداد آن کلمه در متن مرجع کاهش میباید. به عبارت دیگر معیار BLEU تنها یک تطبیق را به ازای هر لغت مرجع امکان پذیر میکند. از همین روش میتوان برای محاسبه دقت اصلاح شده n-gram در سطح پیکره متنی نیز استفاده کرد. اگرچه ارزیابی سیستم ترجمه ماشینی به ازای کل متن انجام میگیرد اما واحد اصلی ارزیابی در سطح جمله است. لذا برای محاسبه امتیاز کلی، تطابق N-gramها جمله به جمله محاسبه می-شود. محاسبه امتیاز دقت در سطح پیکره متنی به شرح زیر است:
• تركیب دق برای N-gram ها با طول مشتوب:
یکی از مسائل مهم در این حوزه چگونگی ترکیب دقت به ازای اندازههای مختلف N-gram است. سادهترین روش ممکن میانگینگیری ساده از دقت N-gramها به ازای اندازههای مختلف است اما تحقیقات نشان داده است که دقت تکگرمها به مراتب بیشتر از دقت دوگرمها است که به نوبه خود از سه-گرمها دقت بیشتری دارند. بنابراین روش میانگینگیری مناسب باید این روند نمایی را مدنظر قرار دهد. براین اساس معیار BLEU از لگاریتم میانگین با وزندهی یکسان استفاده میکند که معادل با استفاده از میانگین هندسی دقت N-gramها است. به صورت تجربی، بهترین همبستگی با ترجمه انسانی در استفاده از ماکزیمم N-gram از درجه 4 بدست آمده است .[2]