بخشی از مقاله

چکیده-

در این مقاله، به ارائه یک روش پیشنهادي براي تشخیص ساختار اسناد، در تصاویر پیچیده اسناد اسکن شده فارسی ، براي استفاده در سیستمهاي نویسهخوان نوري پرداخته شده است. هدف از مرحله تشخیص ساختار اسناد در سیستمهاي نویسهخوان نوري، تشخیص قسمت-هاي متنی از غیرمتنی است. عدم تشخیص قسمتهاي متنی در تصاویر اسناد پیچیده باعث کاهش دقت سیستم-هاي نویسهخوان نوري میشود.

در روش پیشنهادي، با تحلیل و تخمین برخی از ویژگیهاي تصاویر اسناد، از جمله فاصله بین خطوط پسزمینه، ابتدا نواحی غیرمتنی تشخیص داده شده و از تصویر حذف میشوند، در ادامه با چند مرحله آغشته سازي، محدوده جملهها و کلمهها در تصویر اسناد مشخص میشوند. براي مقایسه و ارزشیابی روش پیشنهادي، بیست تصویر پیچیده از مجلههاي فارسی به عنوان داده آزمون تهیه و از بخش تحلیل ساختار اسناد نویسهخوان نوري تسرکت به عنوان روش مرجع استفاده شده است. روش پیشنهادي با دقت 87,2 درصد و با 4,16درصد بهبود دقت نسبت به روش مرجع، توانست قسمت-هاي متنی و غیر متنی را تشخیص دهد.

١- مقدمه

بازشناسی متون چاپی یا به عبارتی استخراج متن از تصویر اسناد، یکی از موضوعات جذاب در زمینه بازشناسی الگو است. به سیستم بازشناسی متون چاپی در اصطلاح نویسهخوان نوري1گفته میشود. امروزه پیشرفتهاي بسیار خوبی در زمینه نویسهخوان نوري شده و محصولات تجاري بسیاري نیز در این راستا روانه بازار شدهاند. هر سیستم نویسهخوان نوري براي بازشناسی تصویر شامل مراحل مشخصی است. اولین مرحله در این سیستمها، تشخیص قسمتهاي متنی و غیر متنی در تصاویر میباشد. قسمتهاي متنی شامل هر نوع متن در تصویر و قسمتهاي غیر متنی شامل شکلها، نمودارها، لوگوها و ... موجود در تصویر است. این مرحله تشخیص ساختار اسناد2 نامیده میشود.

در تشخیص ساختار اسناد سه رویکرد کلی بالا به پایین3، پایین به بالا4 و ترکیب این دو وجود دارد.[2] روشهاي بالا به پایین از تصویر کل سند شروع کرده و به طور متوالی آن را به نواحی کوچکتر تقسیم مینمایند تا در آخر اجزاي تشکیل دهنده تصویر به صورت تفکیک شده از یکدیگر حاصل شود. اجزاي تفکیک شده شامل: عکسها، جملهها، کلمهها است. در روش پایین به بالا، از عناصر اصلی مانند: مجموعهاي از پیکسلها یا کلمهها شروع کرده و با ترکیب آنها با یکدیگر، نواحی بزرگتر ساخته میشود. در روش ترکیبی، هدف استفاده از نقاط قوت هر دو روش براي دستیابی به حداکثر دقت است.

نویسه خوانهاي نوري در برخورد با تصویر اسنادي با ساختار پیچیده دچار مشکل شده و دقت پایینی دارند.[1-3] دلیل اصلی کاهش دقت در این اینگونه تصاویر، به دلیل ضعف در مرحله تشخیص ساختار اسناد است. مرحله تشخیص ساختار اسناد در برخورد با تصاویر پیچیده نمیتوانند قسمتهاي متنی را به خوبی تشخیص دهند، به این ترتیب قسمتهاي متنی به طور کامل و صحیح تشخیص داده نشده و باعث کاهش شدید دقت بازشناسی در سیستم نویسهخوان نوري میشود.

منظور از تصاویر پیچیده، تصاویري است که محل قرارگیري قسمتهاي غیرمتنی و متنی از قاعده مشخصی پیروي نمینمایند و اجزاي آنها داراي چینش هنرمندانهاي است - شکل 1 را ببینید - . از جمله تصاویر اسناد پیچیده میتوان به تصاویر اسکن شده مجلات، روزنامهها اشاره نمود. در این تصاویر، متنها لزوما ساختار عمودي و منظمی ندارند و یا آنکه شکلها در میان متنها قرار گرفتهاند و مرحله تشخیص ساختار را دچار مشکل و کاهش دقت مینمایند.

در این مقاله به ویژگیهاي خاص هر تصویر، از جمله فاصله بین خطوط پسزمینه توجه بیشتري شده و یک روش پیشنهادي، با توجه به این ویژگیها طراحی و پیادهسازي شده است. به این ترتیب، مقادیر و آستانههاي مورد نیاز براي روش پیشنهادي با توجه به ویژگیهاي هر تصویر به صورت اختصاصی مقداردهی شده و دقت تشخیص ساختار اسناد افزایش پیدا مینماید.

در ادامه، بخش 2 مروري بر کارهاي مرتبط آورده شده است.

بخش 3 فرایند جمع دادگان را بیان مینماید. بخش 4 به تشریح روش پیشنهادي پرداخته است. بخش 5 بیانگر ارزیابی و مقایسه روش پیشنهادي با روش مرجع است. بخش 6 خلاصه و جمعبندي مقاله را بیان میکند.

٢- مروري بر کارهاي مرتبط

در حوزه تشخیص ساختار اسناد هر دو سال یکبار مسابقات جهانی ICDAR5 برگزار میشود. در این مسابقات، گروههاي پژوهشی از شرکتها و دانشگاههاي سراسر دنیا شرکت مینمایند.
از معروفترین گروههاي پژوهشی در این زمینه، شرکت گوگل است.

شرکت گوگل در قالب نرمافزار نویسهخوان نوري تسرکت6، در این مسابقات شرکت مینماید.[4] نرمافزار تسرکت از سال 1985 تا سال 1995 در آزمایشگاه شرکت اچپی7 توسعه و در ادامه با متن باز شدن آن، از سال 2005 تا کنون، در شرکت گوگل در حال توسعه است. این نرمافزار، از بیشتر زبانهاي دنیا از جمله فارسی و عربی پشتیبانی مینماید. تسرکت داراي بخش تشخیص ساختار اسناد بسیار خوبی است.

همین امر باعث شده تا در برخی از سایر نویسهخوانهاي نوري از جمله [5] OcrOpus، از تسرکت براي تشخیص ساختار اسناد استفاده نمایند. به دلیل قدرت و رایج بودن تسرکت، از بخش تحلیل ساختار اسناد این نرمافزار به عنوان روش مرجع براي ارزیابی روش پیشنهادي استفاده شده است. تسرکت براي تشخیص ساختار اسناد، ابتدا شکلهاي موجود در تصاویر را تشخیص داده و در ادامه با حذف شکلهاي موجود در تصاویر، با استفاده از آغشته سازي، نواحی متنی را تشخیص میدهد.

روش9[6 ,1]، از جمله دیگر روشهاي تشخیص ساختار اسناد شرکت کننده در مسابقات جهانی ICDAR 2015 است. این روش، در ابتدا جملههاي موجود در تصاویر را استخراج کرده و با ترکیب جملهها با یکدیگر، پاراگرافها را تشخیص میدهد.

روش 10[7]،این روش نیز اجزاي به هم پیوسته را استخراج مینماید و با استفاده از روش دستهبندي ماشین بردار پشتیبان11اجزاي به همپیوسته را به دو دسته اجزاي متنی و غیرمتنی تقسیم مینماید. در ادامه با ترکیب اجزاي به هم پیوسته متنی با یکدیگر، کلمهها و در نهایت پاراگرافها را تشخیص میدهد. بخش تحلیل ساختار اسناد نویسهخوان نوري پرشیانگار [8] نیز محصولی کاملا بومی بوده که تمرکز آن بر روي زبان فارسی است. در این پژوهش از آغشته سازي محدود براي تشخیص نواحی متنی از غیر متنی بهره برده شده است. از دیگر کارهاي انجام شده در زمینه ساختار اسناد فارسی میتوان به پایاننامههاي کارشناسی ارشد از دانشگاه سهند[9] و صنعتی شاهرود [10] نیز اشاره کرد.

٣-  طراحی و جمع آوري دادگان

هدف از این مقاله، ارائه راهکاري براي تحلیل ساختار تصاویر پیچیده اسناد فارسی است. در این راستا، براي تهیه دادگان نیاز به تصاویر اسنادي با ساختار پیچیده بوده است. منظور از تصاویر پیچیده، تصاویري است که محل قرارگیري قسمتهاي غیرمتنی و متنی از قاعده مشخصی پیروي نمینمایند و اجزاي آنها داراي چینش هنرمندانهاي است. از همین رو، از تصاویر اسکن شده مجله و روزنامههاي فارسی استفاده گردید. این تصاویر داراي ساختار پیچیدهاي میباشند و جملهها، متنها، محل قرارگیري آنها و شکلهاي موجود در تصاویر از قانون مشخصی پیروي نمینمایند.

نمونه هایی از تصاویر مجلات فارسی در شکل 1 آورده شده است.

شکل -1تصاویر اسکن شده اسناد فارسی با ساختار پیچیده

٤- روش پیشنهادي

روشهاي پیشین در برخورد با تصاویر پیچیده عملکرد خوبی از خود نشان نمیدهند.در بسیاري از موارد، قسمتهاي متنی و غیر متنی را اشتباه تشخیص داده یا به اشتباه با یکدیگر ترکیب    پسزمینه و بزرگتر از حد آستانه به عنوان قسمت متنی یا غیر میکنند. روش پیشنهادي بر اساس ویژگیهاي خاص هر تصویر متنی در نظر گرفته میشود.    

ویژگیهاي خاص هر تصویر شامل: وضوح تصویر، اندازه قلم ٢-٤- تخمین فاصله خطوط پسزمینه نوشتاري، فاصله بین خطوط، فاصله بین کلمهها در جملهها، اندازه براي به دست آوردن فاصله میان خطوط پسزمینه، تصویر    
شکلهاي موجود در تصویر میباشد. با استفاده از تحلیل این دودویی از بالا به پایین پیمایش شده و فاصله میان هر دو پیکسل ویژگیها و تخمین برخی از آنها، یک روش پیشنهاد شده است که سفید متوالی که فاصله آنها حداقل یک پیکسل است، اندازه گرفته با دقت مناسبی نواحی متنی و غیر متنی موجود در تصویر را مشخص مینماید.

شکل 2 -فلوچارت روش پیشنهادي

١-٤-  تبدیل تصاویر اسناد رنگی به تصاویر دودویی

براي تبدیل تصاویر رنگی به تصاویر دودویی، از روش Otsuاستفاده شده است. در این روش، ابتدا تصاویر رنگی به محدوده خاکستري12 نگاشت میشوند. در ادامه هیستوگرام تصویر خاکستري حساب شده و حد آستانهاي با توجه به آن تعیین میشود.

شکل 3 -هیستوگرام فاصله بین پیکسلهاي روشن در جهت عمودي

٣-٤-  حذف نواحی غیر متنی

نواحی غیر متنی موجود در تصاویر، داراي اندازه بزرگتري نسبت به متن نوشتاري هستند. با استفاده از این ویژگی میتوان قسمتهاي غیر متنی بزرگ را تشخیص و از تصویر اصلی حذف نمود. براي استفاده از این ویژگی، ابتدا تصویر را پیمایش کرده و اجزاي به هم پیوسته14مشخص میشوند. اجزاي به هم پیوسته، به مجموعهاي از پیکسلهاي روشن متصل به یکدیگر گفته میشود که یک واحد را تشکیل میدهند. براي مثال، تصویر کلمه "خدا" داراي سه جزء متصل به یکدیگر "حد"، "نقطه" و "ا" است. با تشخیص اجزاي به هم پیوسته و اعمال مراحلی که در ادامه آورده شده است، قسمتهاي متنی از غیر متنی تشخیص داده میشوند.

١-٣-٤-  پر کردن حفره ها

در برخی از حروف یا شکلها مانند حرف "م"، قسمتی تو خالی وجود دارد، به این قسمتهاي خالی حفره15گفته میشود. اندازه این حفرهها در نواحی غیرمتنی تصویر بزرگتر است. به این ترتیب، در صورتی که حفرههاي اجزاي به هم پیوسته پر شود

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید