بخشی از مقاله

برخی از منابع:

. شیرعلي شهرضا تشخیص کلمات و ارقام دستنویسی فارسي بوسیلة شبکه هاي عصبي"، رسالة دکتريا، دانشکدة برق، دانشگاه صنعتی امیرکبیر، ۱۳۷۹.

- را عزمي بازشناسي متون چاپي فارسي"، رسالة دکتري مهندسي برق، دانشگاه تربیت مدرس، تابستان ۱۳۷۸

- لك فائز، م. شیرعلي شهرضا، " تشخیصی متن چاپي فارسي با فونت ثابت با استفاده از شبه کلمات " ، مجله امیرکبیر ر سال هفتم شماره ۲۸، ص ۲۹۱- ۳۰۰ و ۱۳۷۶
- لثت. مسروري شناسایي برون خط کلمات دستنویس فارسي در ایالثت مجموعة محدود رساله دکتري مهندسي برقر دانشگاه تربیت مدرس و تابستان ۱۳۷۹

- R. Azmi and E. Kabir, “A New Segmentation Technique for Omnifont Farsi Text”, Pattern Recognition Letters, Vol. 22, pp. 97-104, 2001

مقدمه
بازشناسي نوشتار یکی از مهمترین شاخه هاي بازشناسي الگو است که تحقیقات گسترده اي در این زمینه انجام شده است و هنوز یکی از مسائل تحقیقاتي در حال رشد است. بازشناسي نوشتار با توجه به نحوة اخذ اطلاعات به دو دسته اصلي برون خط و برخط تقسیم بندي مي شود. بازشناسي برون خط هم شامل بازشناسي نوشتارتایپي وهم نوشتار دستنویس مي شود ولي بازشناسي برخط فقط در بازشناسي دستنوشته کاربرد دارد. در بازشناسي برون خط، تصویر روبش شدة نوشتار به عنوان ورودي در نظر گرفته می شود، ولي در بازشناسي برخط، مختصات نقاط مسیر حرکت قلم و فشار قلم ورودي سیستم است. در این حالت وسیلة ارتباط انسان با کامپیوتر معمولا یلت قلم ویلث صفحة رقوميكننده" است[4-1] . شكل (1) نشان دهندة نحوة ورود اطلاعات در دو حالت است.

تحقیقات گسترده اي هم در زمینة بازشناسي برخط و هم در زمینة بازشناسي برون خط انجام گرفته است . تحقیقات در زمینه بازشناسي برون خط از بازشناسي کاراکترها با جوهر مغناطیسي شروع شده است و هم اکنون سیستمهاي تجاري OCR وجود دارند که تصویر متون را به فایل متني تبدیل مي کنند. در بازشناسي برخط نیز پیشرفتهاي زیادي رخ داده است. بعضي از سیستمهاي بازشناسي برخط فقط کاراکترهاي خاصی را بازشناسي مي کنند. سیستمهایي نیز وجود دارند که نوشتار پیوسته لاتین را بازشناسي مي کنند. در زمینه بازشناسي برون خط نوشتار فارسي تحقیقات زیادي انجام شده است ولي هنوز نرم افزار کاربردي در این زمینه وجود ندارد[12-7] در زمینه بازشناسي برخط نوشتار فارسي تحقیقات اندکي انجام شده است (14-13] بازشناسي برخط به دلایل زیر کاربردهاي زیادي پیدا کرده است و هم اکنون تحقیقات زیادي در این زمینه انجام مي شود [2].
۱- نوشتن با قلم خیلی سریعتر و راحت تراز تایپ کردن است
۲- بعضی جاها امکان تایپ وجود ندارد مثلا در ایالت کلاس درس دانشجویان نمي تواتنند مطالب درسي را تایپ کنند ولي مي توانند آن را بنویسند.
۳PDA - Personal Digital Assistant ها ، کامپیوترهاي جيبي که امکان ذخیرة تقویم و آدرسها و دسترسي به email را دارند، گاهي آنقدر کوچکند که یا امکان وجود یک صفحه کلید کامل در آنها وجود ندارد و یا صفحه کلید ندارند.
4- کامپیوترهاي شخصي صفحهاي (Tablet PCs) اطلاعات را ميتوانند از طریق دستنوشته دریافت کنند.
۵- بعضي زبانهاي طبیعي تعداد زیادي نماد دارند ، مثلا خط Kanji شامل ۹۰۰۰ کاراکتر مي باشد. در چنین زبانهایی وارد کردن اطلاعات از صفحه کلید کار بسیار دشواري است.
بنابراین بازشناسي دستنوشتة برخط ضروري به نظر مي رسد. اولین تحقیقات در این زمینه براي خطوط چیني و ژاپني انجام شده است 6-5. در زمینة بازشناسي برخط نوشتار لاتین نیز تحقیقات گسترده اي انجام شده و هنوز در حال انجام است. براي بازشناسي بهتر ، مجموعه نویسههاي خاصي تعریف شده اند که در بعضي از حالات با شکل اصلي نویسهها تفاوت اساسي دارند. اخیرا سیستمهاي تجاري زیادي به بازار آمده اند که از این الفباها استفاده مي کنند. دقت بازشناسي با استفاده از چنین الفباهایی خیلی خوب (%99ح) گزارش شده است. ولی این سیستم ها در مواقعی که سرعت در نوشتن مطرح است، مثل نت برداري و کاربردي نیستند. سیستمهاي تجاري ديگري از الفباهاي طبيعي تر استفاده می کنند ولي آنها محدودیت روي نوشتن کاراکترها به صورت مجزا و کلمات جداشده از همدیگر را دارند. محصولاتي نیز وجود دارند که سعي در بازشناسي نوشته هاي بدون قید و محدودیت دارند [2]. در زمینة بازشناسي دستنوشتة هاي برخط فارسي و عربي تحقیقات کمي انجام شده است. تحقیقات انجام شده بیشتر روي بازشناسي نویسهها، شامل ارقام ، حروف مجزا و علائم ، است. در زمینه بازشناسي کلمات دستنویس برخط تحقیقات بسیار کمي و با محدودیت هایي در نحوه نوشتن و در تعداد کلمات معتبر انجام شده است . بعنوان مثال در مرجع [15 براي بازشناسي برخط کلمات دستنویسی از یاث فرهنگ ۹۰۰ کلمه اي معتبر استفاده شده است. یعني تعداد کلماتي را که سیستم بازشناسي مي کند فقط ۹۰۰ کلمه است. نرخ بازشناسي براي همین ۶۰۰ کلمه ۸۰% گزارش شده است: با توجه به مطالب فوق انجام تحقیقات در زمینه بازشناسي برخط نوشتار فارسي ضروري به نظر مي رسد. براي انجام هر تحقیق نیاز به داده مي باشد. که ما دادههایی از دستنوشتههاي افراد مختلف بصورت برخط جمع آوري کرده ایم. در هر مسئلة بازشناسي نوشتار یالث مجموعه کلمات معتبر نیز لازم است که ما یالت مجموعه کلمات معتبر ورایج با بیش از ۳۰۰۰۰۰ کلمه را بدست آورده ایم در بخشی ۲ به چگونگي بدست آوردن مجموعة کلمات معتبر و رایج می پردازیم و در بخش ۳ جمع آوري داده هاي برخط را توضیح خواهیم داد .

۲- تهیة یک مجموعه کلمات رایج در زبان فارسي
یک مجموعه کلمات معتبر براي بازشناسي کلمات لازم است. همة کلمات موجود در ایالت زبان خیلی زیاد است. ولي مجموعة کلمات رایج زیر مجموعه اي از کل کلمات است که بیشتر بکار برده مي شوند. یلت مجموعه از کلمات را مي توان از مدخلهاي یک فرهنگ یافت. مثلا یک فرهنگ دوزبانة فارسي - انگلیسي شامل تعداد زیادي کلمه است. کلمات موجود در فرهنگ ممکن است شامل همة کلمات رایج نباشد، مثلا از مجموعة کلمات ( گفتن ، گفتم، گفتي ، گفت ، گفتیم، گفتید ، گفتند، گفته} فقط کلمات {گفتن ، گفت ، گفته} در مداخل یک فرهنگ نمونه وجود دارد. اطلاعات موجود در فرهنگ هاي الکترونیکی را براحتي نمي توان توسط برنامه هاي کامپیوتري استخراج کرد. سازندگان فرهنگ هاي الکترونیکی نیز اطلاعات فني را در اختیار دیگران قرار نمي دهند. همچنین اطلاعاتی در مورد تکرار کلمات در متون مختلف در فرهنگهاي معمولي وجود ندارد بنابر این تصمیم به تهیه یک مجموعه کلمات رایج معتبر گرفتیم. چون روزانه هزاران کلمه در یک روزنامه چاپ مي شود ، روزنامهها را براي استخراج کلمات رایج مناسب دیدیم، اکثر روزنامهها در ایران بصورت الکترونیکي با فرمت PDF منتشر می شوند و استخراج متون آنها کار راحتي نیست. با جستجو در اینترنت دو روزنامه را که اطلاعات آنها بصورت فایل متني html است یافتیم. این دو روزنامه داراي آرشیوي هستند که مطالب گذشته آنها از چند سال پیش تا کنون در آن بایگانی شده است و میتوان به آن دست یافت. مطالب شش سال از یک روزنامه و یک سال از روزنامه اي دیگر را از اینترنت دریافت کردیم و براي بدست آوردن مجموعه کلمات مورد نظر آنها را پردازش کردیم . این کار در مراحل زیر انجام شد.

۲ - ۱- خواندن اطلاعات موجود در فایل هاي html و حذف حروف لاتین و علائم و ارقام
هر صفحة html یک فایل منبع دارد که داراي دستورات html و متونی است که در صفحة html نمایش داده می شود. نمونه اي از یلت صفحة html و قسمتی از فایل منبع آنرا در شکل (۲) می بینید. از فایل Html اطلاعات بصورت کاراکتري خوانده می شود و بجاي کاراکترهاي لاتین و ارقام و علائم ، blank قرار داده مي شود و فایل جدید يا حاصل مي شود این فایل فقط شامل کلمات فارسي است

۲ - ۲- خواندن و شمارش کلمات فارسي و ذخیرة آنها
از فایلی که در مرحلة الف حاصل مي شود اطلاعات بصورت کلمه کلمه خوانده مي شود ودر آرایه اي قرار مي گیرد. فرض بر اینست که بین هر دو کلمه حداقل یک فضاي خالي وجود دارد. اگر کلمه اي که خوانده مي شود قبلا در آرایه وجود داشته باشد فقط به شمارنده مربوط به آن کلمه یلت واحد اضافه میشود در غیر اینصورت کلمه به آرایه اضافه مي شود و شمارندة مربوط به آن یالث مي شود. این کلمات و تعداد تکرار آنها در ایالت فایل ذخیره مي شوند. نمونه هایی از کلمات استخراج شده و تعداد تکرار آنها را در جدول (۱) می بینید. تعداد کل کلمات استخراج شده ۳۱۳۲۲۵ کلمه است. همانطور که در ستون آخر جدول (۱) دیده مي شود کلماتي که تعداد تکرار آنها کم است کلمات رایجي نیستند. بعضی از این کلمات بخاطر اشتباهات تایپیستها بوجود آمدهاند. اما براي آزمایشات بعدي ۲۹۷۳۹ کلمه را که تعداد تکرار آنها بیش از ۳۰ است انتخاب کرده ایم. همانطور که در جدول (۱) مشاهده مي شود ، کلماتي با تعداد تکرار کم کلماتي مثل روشنفکرترین هستند که کمتر استفاده مي شوند یا بخاطر اشتباه تایپیستها بوجود آمده اند. مثلا "روندرو به" از سه کلمة جدا تشکیل شده است که هنگام تایپ باید علامت فضاي خالي بین سه کلمة " روند، رو ، به " قرار داده می شد. یا " روند صعودي " از دو کلمه تشکیل شده که فضاي خالي بین دو کلمه فراموش شده است

1 . ۳- استخراج زیرکلمات
هر کلمه از چند حرف تشکیل مي شود. در زبان فارسي بعضي از حروف یلت کلمه بهم مي چسبند. به حروفي که در یک در متون تایپي زیرکلمات جدا از هم نوشته مي شوند. بصورت تصویري مي توان زیرکلمات را از هم جدا کرد و هر زیر کلمه را جداگانه بازشناسي کرد. گاهي زیرکلمات با الگوریتم هاي جداسازي به حروف شکسته می شوند و حروف بازشناسي مي شوند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید