بخشی از مقاله
چکیده
در این مقاله، روش جدیدی برای استخراج متن فارسی از تصاویر رنگی پیشنهاد شده است. در این الگوریتم از میان موجکهای موجود، موجک گسسته هار به علت داشتن سرعت پردازش بالا انتخاب میشود. این موجک برروی اجزای رنگ - R،Gو - B اعمال میشود تا لبههای متن شناسایی شوند. لبههای قوی که اکثر لبههای متن را در خود دارند، با اعمال آشکارساز لبه رنگی بر روی زیر باندهای جزئیات آشکارسازی می-شوند. با باینریکردن زیر باندهای جزئیات و اعمال عملگر منطقی AND، نواحی نامزد متن شناسایی میشوند. سپس، نواحی غیرمتن با مجموعه-ای از قواعد شهودی حذف خواهند شد. در نهایت با برچسبزنی نواحی و آستانهیابی، متن فارسی از تصویر، استخراج میشود. نتایج آزمایشها بر روی 100 تصویر نمونه، کارایی روش پیشنهادی را از نظر کیفیت متن استخراج شده نشان میدهد.
کلید واژه- آستانهیابی،استخراج متن فارسی، تبدیل موجک هار، عملگر منطقی .AND
1مقدمه
اطلاعات معنایی موجود در تصویر - موضوعات، رویدادها همچنین رابطه بین آنها - می تواند برای بازیابی محتویات تصویر مفید باشد.حضور متن در تصاویر، اطلاعات مفیدی از محتویات تصویر به ما میدهد. اما پیداکردن متن در تصویر کار مشکلی است، زیرا حروف متن میتوانند در نوع قلم، اندازه، ترتیب قرار گرفتن در یک خط، رنگ و بافت تغییر کنند. همچنین،متن ممکن است در یک زمینه پیچیده رنگی قرار داشته باشد. استخراج متن فارسی به دلیل نحوه نگارش خاص آن و چسبیدن حروف به یکدیگر مشکلات خاص خود را دارد. تصاویر برحسب متن موجود در آنها به 4 دسته عمده تقسیم میشوند: الف - تصاویر گرافیکی. ب - تصاویر روزنامهها و مجلات خاکستری و رنگی. ج - تصاویر عنواندار - 1در این تصاویر متن برای معرفی محتویات تصویر به طورجداگانه به تصویر اضافه می-شود - .د - تصاویر مناظر - 2متن جزئی از تصویر میباشد - . این 4 دسته تصویر در شکل 1 نشان داده شده است.در تحقیقات انجام شده، دو روش عمده برای پیدا کردن متون لاتین پیشنهاد شده است:
الف - روشهای مبتنی بر لبه
روشهای مبتنی بر لبه روی تمایز بالای بین متن و زمینه تمرکز میکنند و لبههای نواحی متن را شناسایی و با هم ادغام3 میکنند. سپس، از روشهای شهودی4 برای حذف نواحی غیرمتن استفاده میکنند.در مرجع [1] لبههای موجود در تصویر با کانوالو کردن تصویر ورودی با فیلترهای جهتی، استخراج میشوند . سپس با پیدا کردن لبههای طویل وکوتاه، لبههای متن شناسایی و لبه-های غیر متن حذف میشوند. در نهایت، با برچسب زنی نواحی و حذف نواحی غیرمتن، نواحی متن استخراج میشوند. در مرجع [2]برای آشکارسازی لبه،از لبه یاب پرویت5استفاده شده است. در این روش، پیکسلهای لبه در جهات افقی، عمودی و قطری در نظرگرفته میشود که برای جداسازی متن موجود در مجلات و روزنامهها به کار میرود.
در روشی دیگر[3]ابتدا لبهها با استفاده از عملگر گرادیان شناسایی میشوند. سپس با استفاده ازعملگرهایمورفولوژی گسترش و سایش6 نواحی متن استخراج میشوند.در مرجع [ 4]ابتدا تصویر ورودی بعد از کاهش رنگ، شامل کاهش درجه تفکیک روشنایی و خوشه یابی رنگ، به چندین تصویر پیش زمینه7 تجزیه می شود. سپس،تصاویر پیش زمینه از مراحل پردازش یکسانی گذرانده می شوند. در نهایت خروجی همه کانالها برای پیدا کردن متن باهم ترکیب می شوند. درکار دیگری[5]، از روش ناحیهبندی و برچسب زنی اجزاء برای آشکارسازی متن استفاده شده است.
ب - روشهای مبتنی بر بافت در این روشها، از ابزارهایی همچون: فیلتر گابور،تبدیل
موجک، تبدیل فوریه، واریانس مکانی و ... برای استخراج متن از تصویر استفاده میشود. Zhongاز واریانس مکانی افقیبرای استخراج متن استفاده کرد.[6] از کارهای انجام شده در زمینه موجک میتوان به مرجع[ 7] اشاره کرد که در این روش از ویژگیهای زمان-فرکانس تبدیل موجک برای بخش بندی تصاویر اسناد8 استفاده شده است.Chungروش استخراج متن بر اساس تبدیل موجک گسسته برای استخراج متن چینی از تصاویر عنوان دار با پیش زمینه ساده راپیشنهاد داد.[8]فلسفه اصلی این روش این است که تصاویر متن در تمام جهات - عمودی، افقی و قطری - دارای لبه-های قوی هستند. بنابراین، از زیرباندهای مختلف جزئیات برای آشکارسازی لبهها در جهات متفاوت استفاده میکند.در این روش، نواحی متن در محیط موجک و با استفاده از عملگرهای مورفولوژی استخراج میشود.
نامزدهای اولیه ی متن نقاطی در نظر گرفته میشوند که در تمام جهات دارای لبه باشند [8] که برای این منظور از عملگر AND منطقی زیرباند جزئیات پردازش شده استفاده میشود. این روش در مرجع[9] با تغییر عملگر ANDمنطقی به یک عملگر OR منطقی وزن دار، برای استخراج متن انگلیسی از تصاویر با پیش زمینه ساده شبیه به تصاویر صفحات وب ارائه استفاده شده است.در مرجع [10]، ابتدا تبدیل موجک روی تصویر اعمال می-شود. سپس از الگوریتم خوشهیاب K-meansاستفاده کرده و تصویر به نواحینامزد متن، زمینه ساده و پیچیده دستهبندی می-شود. سپس نواحی غیر متن با استفاده از روشهایمورفولوژی حذف میشود.
از کارهای انجام شده بر روی متن فارسی میتوان به مرجع[11] اشاره کرد. در این روش، تبدیل موجک در 1 سطح تجزیه روی تصویر ورودی اعمال میشود. سپس، لبه های قوی در زیرباندهای حاصل از اعمال تبدیل موجک که شامل لبههای متن و غیرمتن میباشد با اعمال آشکارساز لبه سوبل، استخراج میشوند. در نهایت با به کارگیری عملگر مورفولوژی گسترش برروی زیر باندهای جزئیات، نواحی متن استخراج میشود.از دیگر کارهای انجام شده بر روی متون فارسی میتوان به مراجع[12]و [13] اشاره کرد که این روش ها به ترتیب برای استخراج متن چاپی از زمینه مصور و تصاویرگرافیکی به کار میروند.
در زمینه استخراج متن از تصاویر مختلف، تحقیقات انجام شده از دهه 90 نشان میدهد که اکثر کارها بر روی متون لاتین وپردازش تصاویر مجلات و تصاویر عنواندار است.همچنین، تمام روشهای فوق دراستخراج متون با انواع قلم، اندازه،جهت و رنگ-های متنوع مقاوم نیستند.درزمینه متون فارسی وبه خصوص تصاویر دسته آخر - تصاویر طبیعی مناظر - ، به علت داشتن زمینه-های پیچیده، کارهای کمتری انجام شده است.در این مقاله،با الهام از ایده روش مرجع [8] روشی برای استخراج متن فارسی - با تنوع در اندازه، قلم، رنگ، جهات مختلف متن و پیش زمینههای پیچیده - از تصاویر رنگیمناظر در حوزه موجکطراحی و پیشنهاد شده است. ادامه این مقاله اینگونه سازماندهی شده است که در بخش دوم الگوریتم پیشنهادی ارائهمیشود. نتایج آزمایشدر بخش سوم بیان میشود. نهااًیت مقاله در بخش چهارم جمع بندی میشود.
2 روش استخراج متن پیشنهادی
بلوک دیاگرام الگوریتم استخراج متن در شکل 2 نشان داده شده است. در این شکلنمادهای R،Gو Bبه ترتیب بیانگر اجزاء قرمز، سبز و آبی رنگ هستند.نمادهایH،Vو Dبیانگر زیرباندهای جزئیات افقی، عمودی و قطری بدست آمده برای هر یک از اجزاء رنگ در حوزه موجک و نمادT، آستانهیابی از زیر باندهای جزئیات به طور جداگانه،برای باینری کردن آنها است. در روش پیشنهادی، بعد از جداکردن اجزای رنگ و عملیات پیشپردازش، تبدیل موجک روی اجزای رنگ اعمال میشود تا زیرباندهای جزئیات بدست آید. سپس آشکارساز لبه بر روی زیرباندهای جزئیات اعمال میشود تا لبههای قوی شناسایی شوند. با آستانه-یابی از زیرباندهای جزئیات و اعمال عملگر منطقیANDروی آنها نواحی نامزد متن شناسایی میشوند.
در نهایت،با استفاده از روشهای مورفولوژی، نواحی غیرمتن حذف و حروف استخراج میشود.در این بخش به جزئیات الگوریتم پیشنهادی پرداخته میشود.همانگونه که ذکر شد، ایده اصلی این تحقیق که استفاده از تبدیل موجک برای آشکارسازی لبهها در جهات مختلف است از مرجع [8] الهام گرفته شده است. به عبارتی دیگر، فرض میشود که متن دارای لبههای قوی در تمام جهات است. بنابراین، ابتدا جزئیات قوی تصویر در جهات عمودی، افقی و قطری در حوزه موجک با اعمال لبهیاب رنگی به زیرباند جزئیات استخراج شده و فصل اشتراک این جزئیات به عنوان نامزد متن به مراحل بعدی سپرده میشود.
در بسیاری از کارهای انجام شده در زمینه استخراج متن از تصویر، به خصوص هنگامی که پردازش در حوزه تبدیل انجام میشود، عملیات روی مولفهی لومینانس یا شدت روشنایی تصویر صورت میگیرد. در این تحقیق، برای آشکارسازی لبههای متن - با این فرض که رنگ متن از رنگ پیش زمینه متمایز است - از هر سه مولفهی رنگ استفاده شده است و تبدیل موجک بطور مجزا به هر یک از مولفههای رنگ اعمال میشود. حسن این کار در این است که صرفاً لبههای برجسته تصویر که شامل جزئیات در هر سه مولفهی رنگ هستند در مراحل بعدی آشکار شده وبسیاری از جزئیات - مانند نویز - که در یک مولفهی رنگ مقداردارند در هنگام ANDمنطقی جزئیات مولفههای رنگ با یکدیگر، حذف میشوند.
اعمال عملگر گسترش بعد از مرحله ANDمنطقی جزئیات، تغییر عمدهی دیگری است که در روش پیشنهادی نسبت به سایرالگوریتمهای مشابه وجود دارد. از آنجایی که هدف این تحقیق، آشکارسازی متن از تصاویر با پیش زمینههای شلوغ و متنوع - تصاویر مناظر - است، چنانچه عملگر مورفولوژی گسترش به زیرباندهای جزئیات قبل از عملگر ANDاعمال شود، بسیاری از لبههای غیر متن آشکار میشوند که موجبات ناکارآمد بودن الگوریتم را فراهم میکند. در این تحقیق با تغییر روش آستانه-یابی و تغییر هدفمند تقدم و تاخر اعمال عملگرها، روشی دقیق و موثر در آشکارسازی متن فارسی از تصاویر مناظر ارائه شده است.