بخشی از مقاله
چکیده
لزوم صحت املایی و نگارشی محتواي تولید شده در فضاي مجازي و غیرمجازي جهت جلوگیري از زوال تدریجی زبان فارسی نقش ویراستاران را به خوبی توجیه مینماید. نرمافزارهاي غلطیاب، به عنوان ابزار کمکی، ویراستاري متن را تسهیل و تسریع میبخشد.بر همین اساس، هدف از انجام پژوهش حاضر طراحی یک نرمافزار جهت بررسی صحت املایی متون خبري زبان فارسی میباشد. در این پژوهش، جهت تشخیص غلطهاي احتمالی در متون، از روش جستجو در واژهنامه استفاده شده است.
در سایر پژوهشها، کلمات متن باکلمات صحیح درون واژهنامه مقایسه میشوند و اگر کلمهاي از متن در واژهنامه موجود نباشد، کلمه مورد نظر بهعنوان ناواژه در نظر گرفته می شود، اما در پژوهش حاضر در فرآیند غلطیابی، کلمات متن ورودي با کلمات ناواژه در واژهنامه مقایسه میشوند و سپس ناواژهها در متن مشخص میشوند. با به کارگیري روش فاصله ویرایشی نظام پیشنهاد واژه نیز طراحی گردیده است.
قسمت غلطیابی و همچنین پیشنهاد واژه در نرمافزار طراحی شده و نرمافزار برخط ویراستلایو1 بر اساس دو معیار دقت و جامعیت مورد بررسی قرار گرفت. بر اساس معیار اف، ماژولهاي ﻏﻠﻂﯾﺎﺑﯽ و تصحیح غلط در نرمافزار حاضر به ترتیب عملکرد حدود 92/5 درصد و 90 درصد را ارائه دادند. ویراستلایو نیز با عملکرد 60 درصد و 63 درصد براي هردو ماژول، نسبت به نرم افزار تولید شده از دقت و جامعیت کمتري در تشخیص و تصحیح غلطهاي موجود برخوردار است. بر اساس نتایج بدست آمده، رویکرد ارائه شده در پژوهش حاضر را میتوان به شرط وجود یک واژهنامه کامل، رویکردي موثر و مفید دانست.
.1 مقدمه
با گسترش فضاي اینترنتی و تولید محتوا، خصوصا محتواي متنی، لزوم صحیح بودن متون تولید شده از اهمیت ویژهاي برخوردار ا ست. خبر، بهعنوان یکی از مهمترین تولیدات در ف ضاي مجازي بی شترین سهم از حجم محتویات تولید شده را به خود اختصاص داده است، لذا ویرایش این متون الکترونیکی تولید شده به روش انسانی بسیار وقتگیر خواهد بود. ابزارهاي هوشمندي مثل غلطیابها میتواند به ویرا ستاران در این زمینه کمک شایان بنماید.
اولین غلطیاب هو شمند براي زبان انگلی سی در سال 1980 تولید شد.[2] سپس پلک و زامورا[3] 2 با استفاده از یک واژهنامه غلطیاب ﺟﺪﯾﺪي را طراحی نمودند. اتول و الیوت[4] 3 نیز با اﺳﺘﻔﺎده از روش ان-گرم4 غلطیابی را جهت تشخیص اشتباهات موجود در متن طراحی کردند. مانگو و بریل[5] 5 روش جدیدي را جهت پیشنهاد کلمه صحیح ارائه کردند. این روش بر اساس تغییر جایگاه نویسههاي کلمه طراحی گردید.
در جدول 1 نمونه غلطهاي معمول املایی قابل مشاهده است. در این نوع غلطها چهار حالت عمده درج نویسه در کلمه، حذف نویسه از کلمه، جایگزینی نویسه به جاي نویسه دیگر و در نهایت جابجایی نویسههاي همجوار اتفاق میافتد. در ادامه روشهاي غلطیابی و تصحیح این نوع غلطها مورد بررسی قرار میگیرد.
از مهمترین روشهاي ت شخیص خطاهاي املایی میتوان به روشاِن-گرم و روش مبتنیبر واژهنامه ا شاره کرد.[6] در روش اِن-گرم مجموعهاي از حروف متوالی یک ر شته به طول n درنظر گرفته می شوداِن.-گرمهاي یکحرفی را یونی-گرم، دو حرفی را باي-گرم و سهحرفی را تراي-گرم مینامند. هراِن-گرم یک رشتهي ورودي میباشد که با جدولی اِناز-گرمهاي صحیح که از قبل آماده شده مقای سه می شود. در صورت عدم وجود یا رخداد پایین ر شتهي ورودي سی ستم آن را خطا ت شخیص میدهد.
روش مبتنیبر واژهنامه، هر واژهي ورودي را در واژهنامه جستوجو میکند. اگر واژه در واژهنامه موجود باشد آن را صحیح تشخیص میدهد در غیر اینصورت آن را در فهرست واژههاي نادرست ذخیره میکند.[8,7] در ادامه روشهاي تصحیح خطاهاي املایی مورد بررسی میشود.
روش حداقل فاصله ویرایشی :6 حداقل فاصله ویرایشی یکی از سادهترین روشهاي غلط ﯾﺎﺑﯽ محسوب میشود که غلط یابی را بر مبناي کمترین خطاي کاربر انجام میدهد.[9] بنابراین براي هر واژه ابتدایی ترین عملیات ویرایشی - درج، حذف، جایگزینی - را که منجر به تبدیل واژهها به ناواژهها میشود را در نظر میگیرد. :
در جدول 2 فاصله ویرایشی مربوط به هر چهار نوع رایج غلطهاي املایی نیز آورده شده است. براي مثال در عملیات درج، میان کلمات آ شکارتر و آ ش سکارتر یک نوی سه ا ضافی وارد شده ا ست که فا صله ویرای شی بین این دو کلمه برابر با یک میبا شد . لونشتاین7 نیز در از روشی مشابه همین روش استفاده کرد با این تفاوت که او عملیات ویرایشی درج و حذف و جابجایی را در مدل خود به کار برد
روش کلید شباهت:8 روش کلید شباهت براي هر واژه و ناواژه کلید تعیین میشوند به این ﺗﺮﺗﯿﺐ واژههایی که کلید آنها بیشترین شباهت را با کلید ناواژهها دارند به عنوان پیشنهاد ارائه میشوند.[10] این روش در تسریع پردازش تاثیر بسزایی دارد که خود یک مزیت محسوب میشود.
روش مبتنیبر قاعده : روش مبتنیبر قاعده شامل الگوریتمهایی است که بر اساس خطاهاي رایج املایی طراحی شده و به شکل قاعده درآمدهاند. این الگوریتمها واژههاي نادرست را به واژههاي صحیح تبدیل میکنند.[12]
روشهاي احتمالی : روشهاي احتمالی مبتنیبر ویژگیهاي آماري زبان میباشند. این روش به دو رویکرد احتمال جابهجایی و احتمال اشتباه تقسیم میشود. احتمال جابهجایی به روشاِن-گرم شباهت دارد. این روش احتمال رخداد هر حرف پساز حرف دیگر را تخمین میزند. رویکرد دیگر احتمال اشتباه میباشد که احتمال رخداد یک حرف بجاي حرف دیگر را محاسبه میکند.
روش مبتنیبراِن-گرم:اِن-گرم در غلط یابی به دو صورت با استفاده از واژهنامه و بدون استفاده از آن بکار میرود. در صورت عدم وجود واژهنامه، میتوان با استفاده اِناز-گرم آن قسمت از واژه که در آن خطاي املایی رخ داده را پیدا کرد. در صورت امکان تبدیل واژهي نادرست بهاِن-گرمهاي صحیح میتوان آن را تغییر داد و به عنوان واژهي صحیح معرفی کرد. در صورت وجود واژهنامه اِن-گرمها براي تعریف فا صلهي میان واژهها بکار خواهند رفت و واژهها دائما با واژهنامه تطبیق داده خواهند شد. بدین ترتیب که اِن-گرمهاي واژهي نادرست اِنبا-گرمهاي واژهي درون واژهنامه با یکدیگر مقایسه میشوند.