بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

مقدمه 
ترجمه ماشینی
پیکره های موازی
منابع ساخت پیکره 
پیکره های فارسی - انگلیسی
الگوریتم‌های ساخت پیکره
شیوه های ساخت پیکره فارسی -  انگلیسی (تاکنون)
معیارهای ارزیابی
پیشنهادات آتی
 

اسلاید 2 :

زبان فارسی یک زبان هندی ایرانی
قاعده نوشتاری راست به چپ. 
درافغانستان تاجیکستان و قسمتهایی از جنوب خلیج فارس و ..
تقریبا 134 میلیون نفر از ساکنان زمین به عنوا زبان اول یا دوم
تعداد زیادی از کلمات با اضافه شده وند ها تولید می شوند.
استفاده از ضمایر منفصل در زبان بندرت استفاده می شود و غالبا عامل در درون افعال جای می گیرد . 
 

اسلاید 3 :

ترجمه مبتنی بر قاعده
روشی در ترجمه که از اطلاعات نحوی ، معنایی و زبانی به شکلی قاعده مند استفاده می کند
 
ترجمه مبتنی بر روشهای آماری
بر اساس تحلیل های آماری انجام گرفته بر روی   پیکره دو زبانی به دنبال  یافتن عبارتی است که با احتمال بیش از همه ، ترجمه عبارت ورودی باشد.
 
ترجمه مبتنی بر نمونه
مشابهت زیادی با روش آماری دارد و به دنبال کشف الگوهایی است که به وسیله آن بتوان ترجمه صحیح را بدست آورد. 
 
 

اسلاید 4 :

پیکره متنی در واقع یک منبع الکترونیکی ساخت یافته است که اطلاعات مورد نیاز جهت ترجمه توسط ماشین های ترجمه آماری را فراهم می‌آورد.
ماشین های ترجمه آماری به قواعد زبانی ابدا بستگی ندارند اما وابستگی شدید آنها به پیکره های حجیم و موازی (دو یا چند زبانه) تا حد بسیاری تعیین کننده میزان قدرت ترجمه توسط  این گونه از مترجم های ماشینی می باشد.
 

اسلاید 5 :

تا حد امکان ترجمه کلمه به کلمه باشد
وفادار به متن بودن
دارا بودن حداقل نویز
حجم مناسب برای تولید پیکره
 
 

اسلاید 6 :

—قرآن ، انجیل ، تورات و.

—خبرگزاری ها دو زبانه  وفادار به متن

—سایتهای دو زبانه وفادار به متن

—زیر نویس فیلم ها

—ماشین های ترجمه از جمله Google translator

—کتاب های ترجمه شده مرجع با رعایت حق کپی رایت

—ویکی پدیا

اسلاید 7 :

پیکره شیراز :
شامل 3000 جمله فارسی –انگلیسی است. منبع اصلی پیکره، آرشیو آنلاین روزنامه همشهری که به صورت انسانی توسط CRL3  زیر نظر دانشگاه ایالت نیو مکزیکو ترجمه شده است.
پیکره اطلاعات پزشکی دانشگاه کالیفرنیای جنوبی:
در این پیکره بیش از 3000 جمله فارسی با جملات معادل انگلیسی شان وجود دارد که برای تولید یک سیستم مترجم گفتاری مورد استفاده قرار گرفته است . تعداد کلمات موجود در این کرپوس 300K کلمه است. این پیکره به صورت انسانی تهیه شده است.
پیکره ویکی پدیا 
این پیکره با کمک تکنیک های مربوط به تراز جمله روی 1600 صفحه از وب سایت ویکی پدیا شامل 12530 جفت جمله ایجاد شده است.
 
 
 

اسلاید 8 :

پیکره Elda
این پیکره در سال 2010 به وجود آمد در حدود 50000 ردیف با هم تراز شده وجود دارد. جملات موجود در این پیکره به صورت زیر توزیع شده و در یک فایل Access  جمع آوری شده است.
Art: 1804 entries (3.61%) - Culture: 5097 entries (10.19%) - Idiom: 435 entries (0.87%) - Law: 2266 entries (4.53%) - Literature: 11470 entries (22.93%) - Medicine: 1089 entries (2.18%) - Others: 16989 entries (33.96%) - Poetry: 692 entries (1.38%) - Politics: 5493 entries (10.98%) - Proverb: 292 entries (0.58%) - Religion: 686 entries (1.37%) - Science: 3708 entries (7.41%)
 

اسلاید 9 :

پیکره دانشگاه تهران TEP
این پیکره به صورت نیمه ماشینی نیمه انسانی تولید شده و منبع اساسی برای تولید عبارات تراز شده ، مجموعه 1200 زیر نویس فیلم به دو زبان فارسی – انگلیسی است که از سایت open-subtitle  جمع آوری شده است.
مهمترین ویژگی این روش دقت بالایی است که در تراز جملات بدست می آورد 
 مهمترین ضعف آن وجود ابهاماتی است که ناشی از تفاوت زیادی است که میان واژگان موجود در زبان محاوره و زبان نوشتاری وجود دارد.
 
 

اسلاید 10 :

ترازبندی به روش Brown
ترازبندی به روش Gale – church
تراز بندی مبتنی بر داده های نحوی
ترازبندی به کمک هم ریشه ها Cognates
تراز بندی به کمک روشهای Classification
تراز بندی به کمک POS  Tagger
ترازبندی با استفاه از مترجم ماشینی
تراز بندی ترکیبی
 
در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید