بخشی از مقاله
چکیده
در سالهاي اخیر، تولید اطلاعات در فضاي مجازي با سرعت چشمگیري در حال افزایش میباشد. تولید اطلاعات فقط به زبان انگلیسی محدود نمیگردد، بلکه در زبانهاي دیگر نیز تولید محتوا صورت میگیرد. جهت دسترسی به این محتواي چندزبانه، باید از ابزارهاي هوشمندي مانند نظامهاي بازیابی اطلاعات بین زبانی استفاده نمود . بر این اساس، در پژوهش حاضر، یک رویکرد جدید براي بازیابی اطلاعات بین زبانی انگلیسی و فارسی بررسی شده است.
در دهههاي اخیر، پژوهشهایی در زمینه بازیابی اطلاعات بین زبانی انجام شده است، ولی هنوز مسائل حل نشده زیادي در این زمینه وجود دارد. هدف از انجام پژوهش حا ضر ساخت یک نظام بازیابی اطلاعات ﺑﯿﻦ زبانی به نام رای س ستکیوترن سلیت 1 میبا شد. این نظام هو شمند کاربران غیر فارسی زبان را قادر می سازد تا از منابع فارسی مرکز منطقهاي اطلاعرسانی علوم و فناوري نیز استفاده نمایند. در این پژوهش دو الگوریتم جدید ارائه شده است. الگوریتم اول، تحت عنوان EPATA12 یک الگوریتم ترجمه متن خودکار میباشد. الگوریتم دوم، یک الگوریتم تغییر اولویت پیشنهاد پرسوجو میباشد. پس از ارزیابی نظام تولید شده، الگوریتم ترجمه به صورت معناداري نمره بلو را افزایش داد. همچنین نمره آزمون میانگین متوسط دقت نیز افزایش یافت.
1. مقدمه
ﻓضاي اینترنت، یک حافظه عظیم و چندزبانه از اطلاعات به شمار میرود. از زمان پیدایش، اطلاعات در این ف ضاي مجازي با سرعت بسیاري رشد پیدا کرده است. اطلاعات در این فضا، به زبانهاي مختلفی تولید شده است. نیاز به بازیابی اطلاعات چندزبانه در فضاي مجازي انگیزهاي براي به وجود آمدن نظامهاي بازیابی اطلاعات بین زبانی به شمار میرود. اگر یک پرسوجو و اسناد بازیابی شده به یک زبان با شند، این فرایند تحت عنوان بازیابی اطلاعات تک زبانه مطرح می شود، اما اگر پرسوجوي وارد شده به یک زبان باشد و اسناد بازیابی شده به زبان دیگر این فرایند تحت عنوان بازیابی اطلاعات بین زبانی شناخته میشود.
[1,2] به علت وجود موانع زبانی، دسترسی به اطلاعات چندزبانه مشکل میباشد و نظامهاي بازیابی اطلاعات بین زبانی این امکان را فراهم میسازد تا پرسوجو را، مثلا، به یک زبان وارد، و سپس اطلاعات به زبان دیگري بازیابی شود.[3,4] از زمان تاسیس، در مرکز منطقهاي اطلاعر سانی علوم و فناوري - رای س ست - 3، دهها پایگاه اطلاعاتی فار سی و انگلی سی تولید شده ا ست. به علت وجود وجود موانع زبانی، کاربران غیر فار سی زبان قادر به ا ستفاده از پایگاههاي فار سی این مرکز بینالمللی نی ستند. براي حل این م شکل، در پژوهش حاضر یک نظام بازیابی اطلاعات بین زبانی تحت عنوان رایسستکیوترنسلیت طراحی گردید تابه کاربران غیر فارسی زبان کمک نماید تا از پایگاههاي اطلاعاتی فارسی رایسست استفاده نمایند.
رویکردهاي مختلفی نسبت به طراحی نظامهاي بازیابی اطلاعات بین زبانی وجود دارد. از جمله این رویکردها میتوان به »ترجمه پرسوجو«، »ترجمه سند« و »ترجمه پرسوجو« و سند اشاره کرد.[5,6] هر کدام از این مدلها معایب و محاسن مختلفی دارند. مثلا روشهاي ترجمه سند و ترجمه پرسوجو و سند هزینهي محاسباتی زیادي را به سیستم وارد میکنند. به همین دلیل در سالهاي اخیر ترجمه پرسوجو بیشتر مورد استفاده قرار گرفته است.[7] واژهنامه ماشینخوان، پیکره دوزبانه و ماشین ترجمه ابزارهایی هستند که در ترجمه پرسوجو میتوان از آنها بهره گرفت. واژهنامه و پیکره دوزبانه مشکل عدم پوششدهی کامل کلمات را دارند؛ به همین دلیل از ماشین ترجمه در ترجمه پرسوجو بیشتر استفاده شده است.
[8,9] اگرچه ماشین ترجمههاي آماري از انواع دیگر ما شین ترجمه مانند مبتنیبرقانون و مبتنیبرمثال از دقت بالاتري برخوردار ه ستند، اما الگوریتم ترجمه آماري هزینهي محاسباتی بسیار بالایی دارد.[10] ادوپا و ماجی [11] براین باورند که جهت آموزش الگوریتم آماري داده بسیار حجیمی نیاز است. علاوه بر داده حجیم، این الگوریتم بسیار پیچیده بوده و از نظر هزینه محاسبه الگوریتمی، هزینه الگوریتم چندجملهاي را در بردارد. در پژوهش حاضر یک الگوریتم ترجمه خودکار تحت عنوان EPATA1 پیشنهاد شده است که از لحاظ پیچیدگی زمانی بسیار از الگوریتمهاي آماري سادهتر است و در عین سادگی از دقت لازم در ترجمه نیز برخوردار میباشد. در بخشهاي بعدي در مورد این الگوریتم بحث خواهد شد. در بخش بعد پژوهشهاي مرتبط مورد بررسی قرار میگیرد.
.1-1پژوهشهاي انجام شده در زمینه بازیابی اطلاعات بین زبانی
از سال 1996 اولین تلاشها در زمینه طراحی و ساخت نظامهاي بازیابی اطلاعات بین زبانی صورت گرفت.[12] ابزارهاي محتلفی مانند واژهنامه، مدلهاي احتمالی و ماشین ترجمه در این فرایند به کار گرفته شده است. صالح و پسینا [2] با استفاده از یک روش یادگیري ما شین جدید و یک ما شین ترجمه آماري یک نظام بازیابی اطلاعات بین زبانی طراحی نمودند. شارما و مارول [5] نیز به بررسی مدلها و پژوهشهاي مرتبط در این حوزه پرداختند. نیکولینا و همکاران [13] از ماشین ترجمه جهت ترجمه پرسوجو استفاده نمودند. علاوه مدل آماري، این پژوهشگران با اضافه کردن مشخصههاي دستوري به فرایند ترجمه، الگوریتم پیشنهادي را بهینه نمودند.
ترو و همکاران [9] نیز روشهاي مختلف ترجمه آماري را در ترجمه پرسوجو باهم ترکیب کردند. نتیجه پژوهش رضایتبخش گزارش شد. گوپتا و همکاران [14] نیز با استفاده از یک ماشین ترجمه آماري روال بازیابی اطلاعات بین زبانی را تسریع نمودند. نتیجه پژوهش نشان داد که استفاده از ماشین ترجمه در مقایسه با دیگر ابزارها، نتیجه بازیابی اطلاعات را یهبود میبخشد. نوگویان و همکاران [15] از ویکیپدیا به عنوان داده آموزش، استفاده نمودند. پژوهشگران با استفاده از یک ماشین ترجمه آماري عملیات ترجمه پرسوجو را انجام دادند. عملکرد این نظام 67 درصد شبیه به نظام بازیابی تک زبانه گزارش شد.
.2 روش تحقیق
در این بخش به بررسی رویکرد پیشنهادي در این پژوهش، داده مورد استفاده، معماري نظام رایسستکیوترنسلیت، الگوریتم ترجمه اتوماتیک و بخشهاي دیگر این پژوهش پرداخته خواهد شد.