بخشی از مقاله

خلاصه:

در متون چابی که شامل چندین زبان نوشتاری میباشد.شناسایی زبان نوشتاری اولین گام در سیستم شناسایی نوری حرو میباشد. در این مقاله یک روش جدید و موثر برای شناسایی زبان نوشتاری خطوط و کلمات در متون چابی دو زبانه فارسی و انگلیسی روبش شده ارائه شده است.ابتدا خطوط متنی و کلمات از تصویر جداسازی میشوند و سپس برای جداسازی این دو زبان و استخراج ویژگیها از دو روش مبتنی بر طرح پروفایل افقی استفاده شده است.

در روش اول نسبت میانگین به واریانس تعداد نقاط روشن از هر کلمه نسبت به محیط محاط شده را محاسبه میکنیم و در تکنیک دوم هر خط به سه ناحیه بالایی،میانی و پایینی تقسیم می شود که آنگاه نقطه ماکسیمم مطلق و بزرگترین نقطه ماکسیمم نسبی بعدی ناحیه میانی را بر اساس پروفایل افقی بدست میآوریم. خطوط نوشتاری و کلمات با قلم ها و اندازه های متفاوت برای تست سیستم پیشنهادی استفاده شدهاند. این الگوریتم بر روی 75 صفحه روبششده متفاوت که شامل 1250 خط متنی و 20400 کلمه از دو زبان نوشتاری میباشد بادقت99,85تست شده است.

.1مقدمه:

شناسایی زبان نوشتاری متون در مستندات چند زبانه روبششده به یکی از چالشها در زمینه پردازش تصویر در سالهای اخیر تبدیل شده است.درسیستم شناسایی نوری حروف در مستنداتی که شامل چندین زبان نوشتاری میباشند. اولین گام شناسایی زبان نوشتاری خطوط و کلمات میباشد .کشورهای زیادی وجود دارد که دارای ملیت چند زبانه و چندین زبان رسمی میباشند مانند هند و کانادا[5] و امروزه با توجه به گستردگی روابط بین کشورها ،مستندات اداری و تجاری، مجله ها ، گزارشات و مقالات تکنیکی وجود دارند که ممکن است دارای چندین زبان نوشتاری باشند که بیانگر اهمیت این موضوع می باشد.

نتایچ کمی تا حال حاضر در این زمینه منتشر شده است و اغلب در متون چند زبانه با یک زبان لاتین و زبان دیگر آسیایی از قبیل چینی،کره ای،ژاپنی و هندی بحث شده است.[6]برای دسته بندی زبان نوشتاری خطوط متنیو کلمات عمدتاً روش های زیر تا کنون ارائه شده است .شناسایی به کمک تحلیل قالب کلمات[8-7-3-2] آنالیز تراکم نوری - نسبت تعداد نقاط روشن در یک ناحیه - [9] و همچنین آنالیز بر اساس ویژگیهای استخراجی از پروفایل در جهات مختلف [11-10-7-6] و بر اساس فیلترهای گابور [12] و سیستم های مبتنی بر شبکه عصبی [16-15- 14-13-1] و استفاده از محدوده اتصال کلمات [4] و برخی نیز با ترکیبی از روشهای فوق [7] برای جداسازی زبان نوشتاری استفاده کرده اند.

در این مقاله درباره جداسازی زبان نوشتاری کلمات در متون دو زبانه فارسی،انگلیسی با قلمها و اندازههای متفاوت بحث میکنیم.ابتدا خطوط و کلمات از تصویر جداسازی میشوند و سپس ویژگیها استخراج میشود و به کمک نسبت میانگین به واریانس تعداد نقاط روشن هر کلمه، بخشی از کلمات که اغلب انگلیسی میباشند را شناسایی و سپس بر اساس فاصله نقطه ماکسیمم مطلق نسبت به نقطه ماکسیمم نسبی بعدی،زبان کلمات باقی مانده را شناسایی میکنیم.آنگاه دسته بندی خطوط براساس قوانین مبتنی بر ویژگیها صورت میگیرد. این مقاله به شرح زیر سازماندهی شده است.بخش دوم مجموعه داده ها بخش سوم جداسازی خطوط متنی وکلمات ،بخش چهارم روشهای استخراج ویژگیها ،بخش پنجم دسته بندی بر اساس قوانین،بخش ششم آزمایشات و نتایچ عملی و نتیجهگیری در بخش هفتم بیان شده است.

-2مجموعه داده

امروزه موارد زیادی وجود دارد که نشان میدهد دقت یک سیستم شناسایی تا حد زیادی به اندازه، کیفیت و تنوع نمونههای آموزشی بستگی دارد.به عنوان یک نمونه، میتوان به مسابقات برگزار شده در زمینه شناسایی ارقام دستنویس لاتین که بوسیله موسسه NIST انجام شده است اشاره کرد . تیم برنده در این مسابقه، برخلاف سایر گروه ها،از یک ویژگی و یک طبقهبندی کننده ساده استفاده کرده بود. رمز موفقیت آنها در بکارگیری یک مجموعه داده بزرگ و با تنوع زیاد، بجای مجموعه آموزش در دسترس همگان بود این نتیجه شگفت انگیز نشان داد که برخلاف تصور عمومی، نوع ویژگی های استخراج شده وطبقه بندیکننده بکار رفته، به تنهایی در، درصد شناسایی سیستم نقش ندارد.

لذا با توجه به اینکه داده های استانداردی از دو زبان فارسی و انگلیسی وجود ندارد. مجموعه ای از داده ها را با این ساختار که شامل دو زبان نوشتاری با قلم ها و اندازه های مختلف باشد را تشکیل دادیم. در این الگوریتم فرض کردیم هر ورودی یک تصویر از صفحه روبش شده است که هر کلمه آن ممکن است به یکی از دو زبان فوق باشد.و فرض کردیم در هر خط نوع و اندازه قلم می تواند متفاوت باشد.برای جمع آوری داده ها از اینترنت و برخی مجلات و کتب استفاده کردیم.

نوع قلم های استفاده شده برای دو زبان بر اساس جدول - - 1 می باشد.اندازه قلم ها از 12 تا 32 برای هر دو زبان استفاده شده است. تعداد 75 صفحه در حدود 20400 کلمه    گردآوری شد.سپس تمامی صفحات با استفاده از  روبشگر kodak i1120 به صفحات دیجیتال تبدیل  شدند.روبش با اندازه نرمال %100 و با رزولشن    dpi  300 انجام شد. مجموعه داده های شامل تصاویر با فرمت ذخیره سازی tif میباشند.                            

.3جداسازی

در این بخش نحوه جداسازی خطوط متنی و کلمات از تصویر شرح داده میشود.

-1-3جداسازی خطوط متنی

یک تصویر روبش شده با فرمت tif یک تصویر دودویی میباشد. برای هر تصویر ورودی پروفایل افقی که بیانگر تعداد نقاط روشن - سیاه - برای هر سطر تصویر می باشد را بدست می آوریم.آنگاه از فضای سفید بین خطوط برای جداسازی آنها استفاده می کنیم یعنی در فضای بین خطوط مقدار پروفایل افقی سطرها صفر می باشد. شکل - 2 - پروفایل افقی دو خط متوالی از شکل - 1 - را نشان می دهد خروجی این مرحله استخراج خطوط متنی هر تصویر ورودی می باشد.

-2-3جداسازی کلمات در خطوط متنی

پس از استخراج خطوط متنی نیاز به جداسازی کلمات می باشد.برای جداسازی کلمات باید از فضای سفید بین کلمات استفاده نمود.لذا از پروفایل عمودی جهت جداسازی کلمات استفاده می شود. پروفایل عمودی بیانگر تعداد نقاط روشن - سیاه - در هر ستون از تصویر میباشد. شکل - 3 - پروفیل عمودی از یک خط متنی به زبان انگلیسی را نشان میدهد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید