بخشی از مقاله
چکیده
منبع اصلی رویکردهاي رایج امروزي در ترجمه ماشینی، متون دوزبانه در اندازههاي بسیار بزرگ است که اصطلاحا پیکره موازي خوانده میشوند. اما اکثر زبان هاي طبیعی با کمبود پیکره هاي موازي روبه رو هستند. بنابراین تلاش براي ساخت پیکره هاي موازي بیشتر همچنان یک ضرورت مهم در حوزه ترجمه ماشینی محسوب میشود. شناسایی جملات همترجمه که جملات موازي نیز خوانده میشوند، رکن مشترك در اکثر تلاش ها براي ساخت خودکار پیکره هاي موازي است.
ما در اینجا از طبقه بند آنتروپی بیشینه جهت شناسایی جملات همترجمه استفاده میکنیم. همچنین براي این طبقه بند از ویژگی هاي عمومی جمله و ویژگی هاي مبتنی بر همترازي در سطح کلمه بین دو جمله استفاده میکنیم. همترازي در سطح کلمه جملات با استفاده از ابزار متن باز Giza++ انجام میشود. این ویژگی ها به تفکیک شرح داده میشوند و تأثیري که بر نتیجه طبقهبند میگذارند، بررسی میشود. نتایج ارزیابی نشان میدهد که طبقه بند آنتروپی بیشینه طراحی شده میتواند با دقت بالایی جملات را به جملات موازي و جملات غیر موازي طبقهبندي کند.
-1 مقدمه
پیکره موازي1 عبارتست از مجموعه اي از متون در یک زبان به همراه ترجمه شان در یک زبان دیگر. با این وجود، اغلب - و همچنین در اینجا - پیکره هایی که شامل یک سري متن همراه با ترجمه هایشان هستند و در سطح جمله همتراز شده اند، پیکره موازي خوانده میشوند. پیکره موازي، یک منبع اصلی و ضروري براي رویکردهاي ترجمه ماشینی امروزي به حساب میآید. ترجمه ماشینی آماري به عنوان رایج ترین رویکرد ترجمه ماشینی حال حاضر، از پیکره موازي به عنوان داده آموزشی استفاده میکند و قوانین ترجمه را از متون ترجمه شده قبلی میآموزد. سیستم ترجمه ماشینی آماري، احتمالات ترجمه را از پیکره موازي میآموزد و با استفاده از این احتمالات براي جملات ورودي که در فرآیند آموزش دیده نشده اند، ترجمه اي مناسب تولید می کند.
بنابراین اگر به ترجمه ماشینی آماري به عنوان یک مسئله یادگیري ماشین نگاه کنیم، کارآیی آن به شدت به کیفیت و کمیت پیکره ي مورد استفاده براي یادگیري بستگی دارد .[1] همانطور که گفته شد هر چه اندازه پیکره موازي مورد استفاده در ترجمه ماشینی آماري بزرگتر باشد کارآیی سیستم بالاتر میرود. اما در اکثر زبان ها، اغلب با کمبود این منبع مهم روبه رو هستیم. در زبان فارسی نیز با کمبود شدید مواد زبانی دیجیتالی ذخیره شده و در نتیجه با کمبود متون دوزبانه مواجه هستیم .[2]
تا کنون تلاش هاي زیادي براي ساخت پیکرههاي موازي صورت گرفته است. در برخی از این تلاش ها، از متونی که ترجمه هم هستند استفاده میشود و با همتراز کردن این ترجمهها در سطح جمله، پیکره موازي ساخته میشود. همچنین در برخی دیگر از این کارها با استخراج جملات همترجمه - که اصطلاحا جملات موازي گفته میشوند - از متون دو زبانه اي که ضرورتا ترجمه یکدیگر نیستند و تنها از نظر محتوا شباهت دارند براي ساخت پیکره موازي تلاش شده است.
در تمام این تلاش ها براي ساخت پیکره موازي، تشخیص جملات موازي از جملات غیر موازي یک امر ضروري است. در اینجا از یک طبقه بند آنتروپی بیشینه2 براي این منظور استفاده میشود. طبقه بند آنتروپی بیشینه طراحی شده، یک جفت جمله را از ورودي دریافت کرده و با در نظر گرفتن برخی ویژگی هاي3 آن جفت جمله، مشخص میکند که این جفت جمله موازي است یا غیر موازي. در این مقاله، ما برخی ویژگی هاي موثر را براي طبقه بند آنتروپی بیشینه پیشنهاد میکنیم.
سپس تأثیر ویژگی هاي ارائه شده را بر کارآیی طبقه بند آنتروپی بیشینه ارزیابی میکنیم. در ادامه، ما درباره تأثیر دامنه مورد استفاده در داده هاي آموزشی4 و آزمایشی5 بر کارآیی طبقهبند آنتروپی بیشینه طراحی شده بحث خواهیم کرد. در این پژوهش ما از جفت زبان فارسی - انگلیسی در آزمایشاتمان استفاده میکنیم، اما طبقه بند آنتروپی بیشینه طراحی شده و ویژگی هاي معرفی شده، مستقل از زبان بوده و براي هر جفت زبان دلخواه میتوانند به کارگرفته شوند. بخش هاي این مقاله به این ترتیب میباشند: بخش دوم طبقه بند آنتروپی بیشینه را به طور مختصر معرفی میکند، به همراه شرح ویژگی هاي به کار گرفته شده در طبقه بند آنتروپی بیشینه. بخش سوم مروري است بر کارهاي پیشین انجام شده در این حوزه. بخش چهارم آزمایشات و نتایج به دست آمده را نشان میدهد. در نهایت بخش پنجم نتیجه گیري این مقاله را شامل میشود.
-2 طبقهبند آنتروپی بیشینه
اصل آنتروپی بیشینه بیان میکند که با محدودیتهاي داده شده، توزیع احتمالاتی که بیشترین آنتروپی - بی نظمی - را دارد، حالت جاري دانش را بهتر میتواند نمایش دهد. مدل هاي آنتروپی بیشینه اي که بر پایه این اصل هستند، به طور وسیعی در پردازش زبانهاي طبیعی به کار گرفته میشوند از جمله در تگ گذاري، تجزیه جمله و تشخیص موجودیت اسمی .[3] در اصل آنتروپی بیشینه، مدلی انتخاب میشود که تمام حقایق موجود در داده نمونه را به حساب میآورد و در غیر اینصورت تا حد ممکن عدم قطعیت را حفظ میکند. تقی پور و همکاران در [4] براي فیلتر کردن جفت جمله هاي نویزي از پیکره موازي، از چهار طبقه بند استفاده کردند، و با ارزیابی آن چهار مدل نشان دادند که طبقهبند آنتروپی بیشینه از دیگر الگوریتمهاي طبقهبند بهتر عمل میکند.
ما در اینجا از طبقه بند آنتروپی بیشینه براي طبقهبندي کردن جفت جمله ها به دو دسته »جفت جمله موازي« و یا »جفت جمله غیر موازي« استفاده میکنیم. طبقه بند آنتروپی بیشینه اي که در اینجا استفاده میشود، MaxEnt است6 که نسخه اي از طبقه بند آنتروپی بیشینه OpenNLP میباشد. ویژگی هایی که براي ساخت مدل توسط طبقه بند آنتروپی بیشینه استفاده میشود، در دو دسته ویژگیهاي عمومی یک جفت جمله و ویژگی هاي مبتنی بر همترازي در سطح کلمه7 بین دو جمله، قرار میگیرند. هر کدام از این ویژگیها در ادامه به تفصیل شرح داده میشوند.
-1-2 ویژگیهاي عمومی
ویژگی هاي مبتنی بر طول دو جمله. تعداد کلمات هر کدام از جمله هاي یک جفت جمله، اختلاف این تعداد کلمات و نسبت آنها به یکدیگر، ویژگی هایی عمومی هستند که میتوان براي یک جفت جمله در نظر گرفت. اختلاف و نسبت طول دو جمله بر حسب تعداد کاراکترهاي جمله ویژگی هایی هستند که در [5] به کارگرفته شده اند. کلمات مشترك. در [6] تعداد کلماتی از جمله مبدأ که ترجمه اي در جمله مقصد دارند تحت عنوان ویژگی کلمات مشترك آورده شده است. آنها همچنین از این ویژگی به عنوان یک فیلتر براي انتخاب جملات کاندیداي موازي بودن استفاده کردند. به این معنا که تنها جفت جملههایی میتوانستند به عنوان داده هاي آموزشی و آزمایشی براي طبقه بند آنتروپی بیشنه استفاده شوند که حداقل نیمی از کلمات جمله مبدأ ترجمه اي در جمله مقصد داشته باشند.
در اینجا از کلمات مشترك تنها به عنوان یک ویژگی براي طبقه بند آنتروپی بیشینه استفاده میشود. براي بدست آوردن این ویژگی ابتدا باید جمله مبدأ به کلماتش تقسیم شود و یا به عبارتی مرز بین کلمات جمله تعیین شود. سپس کلمات رایج مانند حروف ربط یا حروف پیوند حذف میشوند، زیرا بار معنایی این کلمات نسبت به کلمات دیگر جمله کمتر است. پس از آن کلمات باید ریشه یابی شوند تا به شکلی که در دیکشنري ظاهر میشوند درآیند. در نهایت تمام ترجمه هاي مربوط به یک کلمه از دیکشنري استخراج میشوند، این کار به دلیل احتمال وجود ابهام در معنی کلمه است و اینکه معنی دقیق کلمه مورد نظر در جمله مشخص نیست. با شمردن تعداد کلمات ترجمه اي که در جمله مقصد نیز حضور دارند، ویژگی کلمات مشترك به دست میآید.
-2-2 ویژگیهاي مبتنی بر همترازي در سطح کلمه
یک جفت جمله
در همترازي در سطح کلمه بین دو جمله، کلمات متناظر از دو جمله به دو زبان مختلف شناسایی میشوند. شکل - 1 - نمونه اي از همترازي در سطح کلمه بین دو جمله موازي فارسی - انگلیسی را نشان میدهد. از آنجایی که بین دو جمله موازي اکثر کلمات یک جمله، کلمه متناظري در جمله دیگر دارند، همترازي کلمات نسبت به همترازي بین دو جمله غیر موازي بهتر صورت میگیرد. بنابراین ویژگیهاي مربوط به همترازي در سطح کلمه بین دو جمله براي تشخیص جملات موازي از جملات غیر موازي بسیار مفید خواهند بود. حال باید ببینیم کدام ویژگی ها همترازي در سطح کلمه یک جفت جمله را بهتر توصیف میکنند. این ویژگیها در ادامه شرح داده میشوند.
کلمات همتراز نشده. به دلیل اینکه کلمات در جفت جمله هاي غیر موازي به میزان خیلی کمی با یکدیگر همتراز میشوند، تعداد کلماتی که در همترازي در سطح کلمه شرکت نکرده اند، ویژگی بسیار خوبی براي تشخیص جملات غیر موازي است. در اینجا تعداد کلمات همتراز نشده و نسبت این تعداد به کل طول جمله، به کارگرفته میشوند. باروري.8 در همترازي در سطح کلمه بین دو جمله ممکن است یک کلمه از یک جمله به چندین کلمه از جمله مقابل متصل شود. در [7] تعداد اتصالات یک کلمه در همترازي بین دو جمله »باروري« آن کلمه خوانده میشود. نویسندگان در [6] سه تا از بیشترین باروريها را به عنوان ویژگی براي طبقهبند آنتروپی بیشینه به کار میگیرند.
محدوده پیوسته. در همترازي بین دو جمله تعداد زیادي از کلمات با هم همتراز میشوند. اما شمردن تنها تعداد این کلمات نمی تواند به خوبی همترازي بین دو جمله را توصیف کند. بلکه شمارش تعدادي از کلمات مجاور در یک جمله که با تعدادي از کلمات مجاور در جمله دیگر به همدیگر متصل شده باشند، نشان گر بهتري براي موازي بودن دو جمله است. هرچه طول این محدوده کلمات مجاور شرکت کننده در همترازي بیشتر باشد، احتمال موازي بودن دو جمله بالاتر میرود.
نمره همترازي. در همترازي در سطح کلمه بین دو جمله، هر دو کلمه متناظر با یک احتمال به یکدیگر متصل شده اند. حاصلضرب نرمالیزه شده این احتمالات میتواند نشانگر قدرت همترازي صورت گرفته بین دو جمله باشد. به این معنا که هر چه این حاصلضرب بزرگتر باشد، همترازي بهتري بین دو جمله صورت گرفته است. از آنجایی که اغلب همترازي بین دو جمله موازي بهتر از همترازي بین دو جمله غیر موازي است، لذا امتیاز همترازي به دست آمده ویژگی خوبی براي تشخیص جملات موازي است.
-3 کارهاي مرتبط
تا کنون براي ساخت پیکره هاي موازي تلاش هاي بسیاري شده است [1]، [6]، [9]، .[10] براي جفت زبان فارسی - انگلیسی نیز تلاشهایی در جهت ساخت پیکره موازي صورت گرفته است [5]، .[11-14] از میان کارهایی که در آنها از طبقه بند آنتروپی بیشینه براي رسیدن به این هدف استفاده شده است میتوان به [5]،[6] و [15] اشاره کرد. مانتیانو و همکاران در [16] تلاش میکنند تا جملات موازي را از پیکره هاي تطبیقی خبري استخراج کنند. طبقهبند آنتروپی بیشینه قسمت اصلی کار آنهاست. آنها ابتدا تمام جملات هر دو مقاله خبري مشابه را با یکدیگر جفت کردند و سپس این جفت جملات را از فیلتر طول کلمه و فیلتر کلمات مشترك عبور دادند.
به این معنی که نسبت طول هر جفت جمله باید کمتر از 2 باشد و حداقل نیمی از کلمات جمله مبدأ ترجمه اي در جمله مقصد داشته باشند. آنها از ویژگیهاي عمومی جمله ها و همچنین ویژگیهاي مبتنی بر همترازي در سطح کلمه بین دو جمله براي تشخیص موازي بودن یا غیر موازي بودن دو جمله استفاده کردند. آنها براي آموزش طبقهبند آنتروپی بیشینه از دو پیکره موازي 5000 جمله اي که یکی از داده هاي »در دامنه« و دیگري »خارج از دامنه« است استفاده کردند. داده هاي آزمایشی آنها نیز شامل 7000 جمله خارج از دامنه است.
نتایج ارزیابیهاي آنها از طبقهبند آنتروپی بیشینه نشان داد که طبقه بندي که با داده هاي در دامنه آموزش داده شده، دقت9 بالایی به دست می آورد و این به خاطر کیفیت بالاي دادههاي در دامنه است. از طرف دیگر میزان بازخوانی10 براي طبقه بندي که با داده هاي مشابه داده هاي آزمایشی یعنی داده هاي خارج از دامنه آموزش داده شده، بسیار بالا است. آنها از ارزیابی ها دریافتند که %99 کارآیی طبقه بند آنتروپی بیشینه از ویژگی هاي عمومی به همراه ویژگی هاي مربوط به درصد کلماتی که در همترازي در سطح کلمه اتصالی نداشته اند، به دست میآید. اما آنها اظهار داشتند براي داده هاي واقعی مانند جملات ورودي طبقه بند آنها که از پبکره هاي تطبیقی به دست میآید تفاوت بین جملات موازي و غیر موازي خیلی واضح نیست، بنابراین باید از دیگر ویژگی هاي مربوط به همترازي در سطح کلمه یک جفت جمله نیز استفاده کرد.
منصوري و فیلی نیز در [5] تلاشی براي ساخت یک پیکره موازي داشته اند. آنها براي ساخت پیکره موازي از کتاب هاي دوزبانه انگلیسی - فارسی استفاده کردند. روشی که آنها براي همترازي پیکره موازي در سطح جمله به کار گرفتند، ترکیبی از روش هاي برپایه طول و روش هاي مبتنی بر کلمات مرتبط است. آنها اظهار داشتند که جملات همتراز شده در این سطح شامل برخی خطاها بوده و نویزي هستند. سپس براي فیلتر کردن این جملات نویزي از طبقه بند آنتروپی بیشینه استفاده کردند.
آنها ویژگی هاي عمومی یک جفت جمله را در نظر گرفتند و همچنین احتمال ترجمه با میانگین هندسی به دست آمده از مدل IBM 1 را به عنوان ویژگی به کارگرفتند. آنها علاوه بر نسبت تعداد کلمات همتراز نشده هر کدام از جمله هاي مبدأ و مقصد به طول جمله که در این مقاله استفاده شد، از نسبت تعداد کلمات همتراز نشده هر کدام از جمله هاي مبدأ و مقصد به ضرب طول جمله مبدأ در طول جمله مقصد نیز استفاده کردند. آنها در ارزیابی طبقه بند آنتروپی بیشینه از چهار مجموعه داده آزمایشی شامل 400 جمله استفاده کردند و به دقت و بازخوانی بالایی دست یافتند.
کافمن در [15] براي تشخیص جملات موازي و جملات غیر موازي، یک طبقهبند آنتروپی بیشینه پیاده سازي شده با جاوا به نام «JMaxAlign» ارائه میدهد. او از مجموعه ویژگی هایی که در [16] آمده است استفاده میکند و ادعا میکند فیلترهایی که آنها براي ورودي طبقه بند آنتروپی بیشینه به کار میبرند در حقیقت باعث میشود طبقه بند نمونه هاي خوبی را براي آموزش از دست بدهد. او میزان شباهت زبان هاي به کار رفته را بررسی کرد و نشان داد که در جفت زبان هایی که از نظر زبانی به هم نزدیکترند معیار F بالاتري به دست میآید.