بخشی از مقاله
چکیده
با گسترش حوزه فعالیت سامانه های مکانیزه ، بازشناسی خودکار متون و کاراکترهای مورد توجه بسیاری از پژوهشگران قرار گرفته است. در مورد زبان انگلیسی تحقیقات وسیعی صورت پذیرفته که با ضریب خطای نزدیک به صفر ، بازشناسی را در شرایط تعیین شده انجام می دهند . در این زمینه از روشهای متفاوتی نظیر مدل مخفی مارکف ، شبکه های عصبی×استفاده شده است.
در سال های اخیر بازشناسی متون فارسی و عربی بیش از پیش مورد توجه قرار گرفته است ولی پیشرفت های حاصل شده به دلیل پیچیدگی های موجود ، کمتر از زبان انگلیسی بوده است . از موارد استفاده سامانه های بازشناسی الگو ، شناسایی آدرسهای روی بسته های پستی ، شناسایی نوشته های روی چک را نام برد . در این مقاله یک الگوریتم جدید بهبود یافته معرفی میشود که تشخیص کاراکتر را با استفاده از شبکه عصبی art mapانجام میدهد
-1 مقدمه
نگهداری اسناد به شکل کاغذی در گذشته نه چندان دور در همه سطوح دولتی و شخصی رایج بود . امروزه با رشد فناوری های دیجیتالی و استفاده از آنها در زمینه هایی همچون ویرایش و آرشیو اطلاعات نیازبه تبدیل متن های دست نویس احساس می شود . حتی اسنادی که به صورت تصویری نگهداری می کردند نیز نیاز به بروز رسانی پیدا می کنندکه این امر نیز یک نیاز دیگر برای تبدیل این تصاویر به متن می باشد . در کل شناسایی متن از تصاویر دست نوشته ایی یا چاپی و تبدیل آنها به قالب متنی را بازشناسی متن می نامند . بازشناسی متن شاخه ایی از شناسایی الگو در علم هوش مصنوعی می باشد.
در بازشناسی متن با توجه به ویزگی حروف ، دسته بندی صورت می گیرد. ورودی با این دسته ها مقایسه می شود و نزدیک ترین دسته به ورودی به عنوان پاسخ پذیرفته می شود .
-2 ویژگی های متون فارسی
زبان فارسی دارای ویزگی هایی است که آن را از زبان های دیگر مانند انگلیسی متمایز می سازد . از آنجا که بیشتر تحقیقات در زمینه بازشناسی بر روی زبان انگلیسی بوده باید پسش از به کار گیری این تحقیقات در زبان فارسی به ویژگی های متون فارسی دقت شود. در ذیل این ویژگی ها بر شمرده شده است :
- پیوسته بودن حروف
- وجود نقطه و علائم در حروف
- استفاده از پیشوندها و پسوندها مجزا از کلمه اصلی
- همپوشانی حروف توسط یکدیگر
- وجود رسم الخط های مختلف در نوشتار - زبان فارسی 32حرف دارد که هر کدام بسته به موضعی که در کلمات قرار می گیرند - ابتدای کلمه، وسط، آخر و یا حرف جدا - میتوانند 4 - 2 شکل مختلف داشته باشند.
- نوشتن برخی کلمات با نوشتارهای متفاوتبٍب
شکل : - 1 - حروف فارسی در انواع اشکال مختلف
-3 تشخیص کاراکتر
اولین مرحله برای تشخیص کاراکتر و حروف به صورت مجزا این است که مشخص شود که اطلاعات مورد نظر می بایست چگونه دریافت شود ، دریافت اطلاعات به طور کلی برای تشخیص به دو روش زیر انجام می گیرد :
- - Offline برون خط - : این روش شامل تصاویری است ، که از نوشته ها تهیه می شود . اگر در اطلاعات ورودی معیار زمان ورود مطرح نباشد به این روش دریافت اطلاعات برون خط گویند . مانند عکس توسط دوربین دیجیتال ، اسکن نامه ها و صفحه های کتاب و از این نمونه تصاویر که به صورت غیر مستقیم برای پردازش آماده می شود
- - Online بر خط - : در این مدل تشخیص ، چون زمان ورود اطلاعات برای تشخیص مهم است و متن همزمان با نوشتن آن تشخیص داده و شناسایی می شود مانند تشخیص دست خط در handled ها و یا در tablet pc ها .
بعد از این که مشخص شد که روی چه نوع از داده های ورودی کار خواهد شد ، عملیات تشخیص متن یا کاراکتر عموما شامل مراحل زیر می باشدبَب :
- پیش پردازش - prepocesion -
- قطعه بندی - segmentation -
- استخراج خصوصیات - feature extraction -
- کلاس بندی
- تشخیص کاراکتر
1-3 پیش پردازش
پیش پردازش شامل روش های مختلف پردازش تصویر است ، که طی این مرحله تصویری بدون نویز و در اندازه مناسب برای قطعه بندی آماده می شود . در روش online در زمان نوشتن متن به علت اینکه هر فرد سبک نوشتن و دست خط مخصوص خود را دارد و در روش offline در زمان اسکن متن ، ممکن است حروف و کلمات دارای چرخش یا اندازه ای خارج از استاندارد مورد نظر را داشته باشد که این اشکالات در این مرحله بر طرف می گردد و حاصل در فرمی استاندارد برای مرحله قطعه بندی ارسال می گردد.
2-3 قطعه بندی
جداسازی کاراکترها را در دو مرحله مجازی و واقعی انجام میدهیم. قبل از قطعهبندی مجازی با توجه به این واقعیت که کلیه حروف فارسی به خط زمینه پیوستگی دارند، پیش از قطعه بندی کلیه نقاط و سرکشهای حروف مانند ک و گ با یک الگوریتم بازگشتی به علت عدم پیوستگی حذف میشوند.این الگوریتم به این نحو عمل میکند که با پیمایش هیستوگرام عمودی به محض رسیدن به یک پیکسل یک به صورت بازگشتی هشت جهت اطراف آن مورد بررسی قرار میگیرد و در صورت عدم پیوستگی حذف میشوند.یعنی به عنوان یک حرف مستقل در نظر گرفته نمی شوند
قطعه بندی مجازی
در قطعهبندی مجازی ، تصویر متن را از راست به چپ پیمایش میکنیم و قطعهبندی را با توجه به اصول زیرانجام میدهیم:
- هیستوگرام عمودی را بررسی میکنیم رسیدن به یک ستون خالی باعث ایجاد یک قطعه مجازی میشود.
- با پیمایش تصویر از راست به چپ تعداد یکهای هر ستون را بدست آورده، میانگین این تعداد مقدارآستانه - معیاری برای شروع قطعه جدید - را تشکیل میدهد.
- با بررسی هیستوگرام عمودی از راست به چپ، درهر ستونی که مقدار یکها ازآستانه عبور کرده قطعه جدید آغاز میگردد و این قطعه تا جایی که به یک مقدارآستانه دیگری برسیم، ادامه مییابد البته این مرحله باید با شرط پیوستگی به خط زمینه همراه باشد. - پایان قطعه حتما" با خط زمینه پیوستگی دارد.
قطعه بندی واقعی
در این قسمت برای انجام قطعه بندی برخلاف قطعه بندی مجازی از نقطهها و سرکشها استفاده میشود.
- ابتدا ستونها را از راست به چپ پیمایش میکنیم. رسیدن به یک ستون خالی مرز مجازی تشکیل شده در مرحله قبل به مرز واقعی تبدیل میشود.
- در مرحله بعد مرزهای نادرست تشخیص داده میشود و مرزهای درست باقیمانده به عنوان مرز واقعی علامتگذاری میشود.
الف - یکی از مرزهای نادرست و شایع که در قطعهبندی واقعی باید اصلاح شود انتهای حروف ت،ب،د و... میباشدکه به عنوان یک حرف مستقل در نظر گرفته میشود. برای حل این مشکل کلیه حروفی که در قطعهبندی مجازی علامتگذاری شده اند و عرض آن ها از مقدار میانگین عرض حروف کمترو در پایین خط میانه قرار دارندو در عین حال بعد از این حروف یک ستون خالی وجود دارد را مییابیم سپس مرز مجازی بین آنها پاک میگردد. در صورتی که این قطعه بالای خط میانه باشد یک مرز واقعی تشخیص داده میشود. - این امر برای حروفی مانند الف در انتها و لام در وسط کلمات میباشد. -
ب - مشکل بعدی حروف دایرهای در انتهای کلمات مانند س، ش، ص و ... میباشد. در این موارد ابتدای حروف به عنوان یک سگمنت و دایره انتهایی آنها به عنوان سگمنت دیگر مرزبندی میشود که این دو مرز باید با هم ترکیب شوند. سه حرف ن، ل و ی از این قاعده مستثنی هستند. مشکل اصلی تشخیص دایرههای انتهایی حروف بالا و تمایزآنها از این سه حرف میباشد. در این روش حروف انتهایی بررسی میشود و چنانچه شرایط زیر را دارا باشند به عنوان حروف دایرهای در نظر گرفته میشوند.
- در ابتدا و انتها در محدوده خط زمینه تصویر داشته باشیم.
- در اواسط حروف در بالای خط زمینه خالی باشد.
- در اواسط حروف در زیر خط زمینه تصویر وجود داشته باشد.
- در محدوده خط زمینه از اواسط حروف به سمت ابتدای قطعه تا رسیدن به پیکسل یک پویش میکنیم.