بخشی از مقاله

چکیده

امروزه، شناسایی و تشخیص متن از مدارک چاپی را میتوان بهعنوان یک مسئلهی حلشده به شمار آورد؛ بنابراین، این پژوهش بر روی جستجو و تشخیص متن در تصاویر واقعی متمرکز است. به علت مشکلات ناشی از تصاویر در پسزمینهی واقعی، امکان استفاده از تکنیکهای استاندارد نویسهخوان نوری - OCR - وجود ندارد، بنابراین لازم است تا روشهای جایگزین طراحی شوند. روش پیشنهادی برای خواندن متن موجود در یک شیء خاص جای گرفته در تصویر، استفاده میشود. به جهت نمایش نتایج الگوریتم، از آن برای حل مشکل خواندن شمارههای کنتور گاز بهصورت خودکار استفاده شده است.

درروش ارائهشده ابتدا نواحی حدی حداکثر پایدار - MSER - تصویر موردنظر تشخیص داده شده و پس از یافتن قسمت شمارههای کنتور گاز در تصویر، عمل جستجوی متن در آن انجام میگیرد؛ سپس کاراکترهای یافت شده را پس از شناسایی، به عنوان خروجی نمایش میدهد. باوجود پیچیدگی مسئله، روش پیشنهادی نتایج خوبی را به نمایش میگذارد و زمان کوتاه محاسبه، این امکان را فراهم میکند تا از آن در نرمافزارها و همچنین دستگاههای موبایل استفاده شود.

1 -مقدمه

امروزه خواندن شمارههای کنتور گاز بهصورت دستی در محل انجام می-پذیرد، که این عمل زمانبر بوده و مستعد بروز اشتباه است. به همین دلیل روش جدیدی برای خواندن شمارههای کنتور گاز به صورت خودکار با استفاده از تصویر دریافتی توسط اپراتور ارائه میشود. تصاویر دریافتی میتوانند به-عنوان مدرک جهت تأیید عملکرد سیستم ذخیره شوند.

در حالت تئوری، چندین روش برای موقعیتیابی و شناسایی متن در تمام تصویر وجود دارد. جانگ و همکارانش [1] از یک شبکهی عصبی متکی بر تفکیککنندهی متن برای موقعیتیابی ناحیهی متنی استفاده کردند؛ و همچنین چن و همکارانش [2] یک دسته از بخشهای Harr-like را برای موقعیتیابی متن داخل تصویر به کاربردند که از الگوریتم Adaboost بهره گرفته بود. موقعیتیابی متن، بعد از عمل تشخیص ناحیهی متنی اتفاق میافتد که این مرحلهی آخر با استفاده از نرمافزارهای تجاری 1OCR انجام شد.

شن و همکارانش [3] از یک روش طبقهبندی برای تشخیص لبهها، گوشهها و دیگر بخشهای تصویر با بهرهگیری از یک روش پائین به بالا استفاده کردند. از ترکیبی از این بخشها بهمنظور جستجوی جعبههای نمایشدهندهی متن در تصویر استفاده شد. لی و همکارانش [4] الگوریتم ویرایش شدهی K-means را برای ناحیههای احتمالی دارای متن با استفاده از اطلاعات رنگی، متنی و لبهای به کار میگیرند، سپس هر منطقهی احتمالی برای بهرهگیری از مدل Random Field تائید میشود.

پن و همکارانش [5] یک خط لولهی سه سطحی را پیشنهاد میکنند که ناحیهی نوشتاری با استفاده از یک هیستوگرام با ضریب متمایل جستوجو میشود، سپس از Random Filed مشروط برای فیلترکردن قسمتهای غیر نوشتاری و سرانجام از یک روش کاهندهی انرژی بر پایهی یادگیری برای جمعآوری اجزای نوشتاری کنار هم استفاده میشود.

یک روش بسیار متفاوت توسط کواتس و همکارانش [6] پیشنهاد شد که در آن الگوریتم مدیریت نشده بر اساس K-means را برای فهم بخشهایی از تراکم پیکسلها به کاربردند؛ سپس مکانیابی متن و شناسایی کاراکتر با استفاده از این بخشها و یک طبقهبندی کنندهی دستگاههای آنالیزور و تشخیصدهندهی الگوها در بردار بهصورت SVM خطی انجام پذیرفت. جانگ و همکارانش [7] معماری کلی برای سامانههای استخراج اطلاعات متن 2 - TIE - ارائه کردهاند. بهطورکلی این معماری برگرفته از الگوی لوله و فیلتر است و چهار مرحله اصلی آن عبارتاند از:

·    تشخیص موجود بودن متن در تصویر

·    پیدا کردن مکان متن در تصویر

·    استخراج متن و بهبود کیفیت آن

·    بازشناسی نویسههای متن

اپشتاین و همکارانش [8] از تبدیل موجک ساکن 3 - SWT - برای استخراج ویژگی از عکس استفاده کردهاند. ویژگیهای استخراجشده با این تبدیل با استفاده از روشی مبتنی بر مؤلفههای همبند، تبدیل به حروف شدهاند. سپس حروف تبدیل به خطوط شده و از آنها کلمات بهدستآمدهاند. چن و همکارانش [9] روشی را بر اساس استخراج نواحی کاندید، هرس آنها و گروهبندی ارائه کرده است. در این روش ابتدا نواحی کاندید برای وجود داشتن متن به دست میآید، سپس با اعمال دو فیلتر مختلف - فیلتر بر اساس مؤلفههای همبند و فیلتر بر اساس - SWT نواحی بدون متن هرس شده و در انتها با تشکیل خطوط، کلمات به دست میآیند.

هوانگ و همکارانش [10] ابتدا با استفاده از عملگر 4MSER ناحیه محدود به حضور متن را مشخص سپس از شبکه عصبی کانولوشن 5 - CNN - برای خواندن متن بهره میگیرند. در گذشته مشکلات کمتری برای پیدا کردن متن در تصویر وجود داشت. در اکثر موارد تصاویر موردبررسی، پسزمینه سفید داشتند. جهت متن نیز تقریباً افقی بود.

این موارد از پیچیدگی مسئله کاسته و کار را بسیار سادهتر میکند. ابزارهای امروزی برای بررسی این قسم متون کارایی مناسبی دارند و تقریباً اشتباهات آنها بسیار کم و قابلچشمپوشی است. پیشفرض اکثر این ابزارها استفاده از تصاویر با تفکیکپذیری بالاو تقریباً سیاه و سفید - متون سیاه و پسزمینه سفید - است. البته برخی از آنها وجود عکس، نمودار و سایر خطوط را نیز تشخیص میدهند. تصاویر موردبررسی در این پژوهش؛ این پیشفرضها را ندارد. در ادامه به برخی از مشکلات پیدا کردن متن در این قسم تصاویر اشاره شده است.

1    - -1 مشکلات اصلی تصاویر موردبررسی

·    کیفیت پایین: یکی از اصلیترین مشکلاتی که برای پیدا کردن متن در تصویر وجود دارد کیفیت پایین تصاویر است. تصاویری که با دوربینهای معمولی ثبت میگردند؛ قطعاً کیفیت پویشگرها را نخواهند داشت.

·    نورپردازی ناهموار: میزان نور ممکن است بسیار کم یا بسیار زیاد باشد. امکان تفاوت میزان نور در بخشهای مختلف یک تصویر به دلیل وجود سایه و بازتاب نور نیز وجود دارد. در صورت استفاده از نور مصنوعی مانند فلاش بخشهایی از تصویر روشن و سایر بخشها دارای روشنایی کمتر هستند.

·    سطوح غیرمسطح: در تصاویر مورد بررسی، سطح ناحیه شمارنده مسطح نبوده و اعداد آن دارای عمق میباشند.

·    پس زمینههای پیچیده: وجود پسزمینه پیچیده از دو جهت میتواند ایجاد مشکل نماید. اول آنکه برخی از اشیا که دارای ساختار منظم و یا بافت خاصی هستند - مانند اعداد مختلف موجود در قاب کنتور گاز، بدنهی کنتور گاز، دیوارها و غیره - به اشتباه متن شناسایی میشوند. دوم آنکه زمانی که پسزمینه متن تصویری پیچیده است نمیتوان لبههای متن را بهدرستی مشخص نمود.

·    جهت متن: یکی دیگر از مشکلات، جهت متن در تصویر است. هیچ دلیلی برای افقی بودن متن در تصاویر وجود ندارد. این موضوع با مسطح نبودن متن متفاوت است. با فرض مسطح بودن متن، امکان دارد متن جهت افقی نداشته و نسبت به افق دارای زاویه باشد.

همچنین در مورد مقولهی تشخیص متن، مشکلات و مسائل دیگری همچون: فونتهای عددی متفاوت، تنوع کنتورها ازنظر سایز، شکل، رنگ و غیره وجود دارد که مزاحم عملکرد صحیح این نرمافزار است. به دلیل وجود مشکلات فوق در تصاویر دریافتی، روش جدیدی برای خواندن شمارههای کنتور گاز بهصورت خودکار، ارائه میشود. روش پیشنهادی با چشمپوشی از باقی بخشهای تصویر، میتواند بهخوبی قسمت حاوی شمارههای کنتور گاز را جستجو و تشخیص دهد.

این یک خاصیت مفید برای چنین نرمافزاری است که فقط نیاز به خواندن متن نوشتهشده روی یک شیء خاص موجود در تصویر را دارد؛ بنابراین، امکان استفاده از آن برای سیستمهای با قدرت پردازش کم نیز وجود دارد. برای حل این مسئله، تحقیق به دو بخش تقسیم میشود: نخست منطقهی خاصی را که شمارهها در آن حضور دارند جستجو میشود. در مرحله دوم، برای تشخیص اعداد، ابتدا نویز عکسها را برطرف نموده و بعد از نرمالسازی سعی به آموزش و یا جمعآوری اطلاعات و تولید ویژگی برای حل مسئله میشود. درنهایت، مدل آموزشدیده با دادههای آزمونی، موردسنجش قرار میگیرد تا میزان دقت کار به دست آید.

2 -روش پیشنهادی

روش پیشنهادی برای خواندن شمارههای کنتور گاز به صورت خودکار، شامل دو مرحله است. در مرحله اول از تابع MSER جهت یافتن مکان شمارنده استفاده میشود و در مرحله دوم اعداد استخراجشده از شمارنده، توسط OCR خوانده میشوند. لازم به ذکر است که برای هر مرحله، پایگاه دادهای متفاوت تهیه شده است. کلیه آزمایشها با استفاده از نرمافزار MATLAB R2014a پیادهسازی شدهاند. شکل زیر فلوچارت عملکرد نرم-افزار را به همراه نتایج آن نمایش میدهد. در ادامه بهاختصار به توضیح هر مرحله و نمایش نتایج آزمایش پرداخته میشود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید