بخشی از مقاله

چکیده

امروزه حجم عظیمی از تصاویر با رشد تکنولوژی در عرصه دوربین های دیجیتال، دسترسی همگان را به این مهم فراهم آورده است. دستیابی به اطلاعات سودمند تصاویر، نیازمند پردازش دقیق با کارایی مناسب می باشد. یکی از پردازش های مهم در حوزه پردازش تصویر، تشخیص متن در تصویر است که پیدا کردن محل متن تصویر یکی از مهمترین مراحل در این فرآیند تلقی می گردد.

هدف در این سامانه آن است که بتوان مکان متن پارسی موجود در تصویر را مشخص کرد که کاربرد اصلی این مسئله به عنوان یک پیش پردازش قبل از تبدیل تصویر به نوشتار است. در این رویکرد به جداسازی متن از پس زمینه تصویر با الگوریتم SIFT و ترکیب روش فازی با داشتن دو دیکشنری برای زمینه و کلمات پرداخته خواهد شد. مدل سیستم فازی ممدانی می باشد و جهت ارزیابی پروژه از MSE استفاده شده است.

مقدمه

بازشناسی متن یکی از زمینه های تحقیقاتی مهم در حوزه پردازش تصویر، بینایی ماشین و شناسایی آماری الگو در چند دهه اخیر بوده است. سیستم OCR برای چند سال در دسترس بوده است و سیستم های تجاری در حال حاضر می توانند نرخ تشخیص بسیار بالا برای اسناد ماشین چاپ شده بر روی یک پس زمینه ساده تولید کنند. با این حال، استفاده از نرم افزار تجاری OCR برای شناسایی متن استخراج شده از تصاویر صحنه آسان نیست.

این تکنولوژی امکان شناسایی خودکار از طریق یک مکانیزم نوری را در اختیار می گذارد. در مورد انسانها، چشم نقش مکانیزم نوری را ایفا می کند. OCRیک تکنولوژی است که تابعی از قابلیت های انسان مانند توانایی انسان از خواندن را ارائه می کند. اگر چه OCRقادر به رقابت با خواندن انسان نیست، می تواند متون دست نوشته و چاپ شده را تشخیص دهد، اما عملکرد OCRبه طور مستقیم وابسته به کیفیت اسناد ورودی OCR طراحی شده برای پردازش تصاویر است.

یکی از مهمترین مشکلات تصاویر گرفته شده با دوربین، وضوح پایین، تاری، انحراف دید، تنوع در رسم الخط و فونت های مختلف، رنگ و اندازه متون و همچنین به عنوان طرح و بافت پیچیده از محتوا و پس زمینه می باشد. در میان اطلاعات مختلفی که در تصویر موجود است، اطلاعات متنی از اهمیت ویژه ای برخوردار می باشند، چرا که به آسانی از سوی انسان یا حتی رایانه قابل فهم بوده و امکان توصیف محتوای یک تصویر را فراهم می کنند. علاوه بر این، از داده های استخراج شده براساس تحلیل اطلاعات متنی موجود در تصاویر می توان کاربردهای متنوعی نام برد که به انسان در تعامل با طبیعت و صنعت کمک می کند.

یکی از چالش های دهه های اخیر در زمینه OCR، شناسایی و تشخیص متن پارسی از تصویر است. الفبای پارسی دارای ویژگی های منحصر به فردی می باشد که امر شناسایی و تشخیص را پیچیده تر از زبان های دیگر می کند. یک سری از مهمترین این ویژگی ها عبارتند از:

- 1 دارای الفبای متصل به هم است که از راست به چپ نوشته می شود، لذا شناسایی آن نیز بایستی از راست به چپ یا عمقی در نظر گرفته شود،

- 2 زبان پارسی 32 حرف دارد که هر کدام 2 الی 4 نماد مختلف دارند و اگر به صورت شکسته یا نستعلیق نوشته شوند، کار تشخیص به مراتب سخت تر و پیچیده تر می گردد. این ویژگی به تنهایی باعث می شود چیزی حدود 500 کاراکتر برای الفبای پارسی در نظر داشته باشیم،

- 3 در زبان ژاپنی و چینی، علائم شباهت های بالایی به یکدیگر دارند و کاملا قابل تمیز از یکدیگر هستند، اما این امر در زبان پارسی نیز ممکن نیست،

- 4 حروف ممکن است یک نقطه، دو نقطه و یا سه نقطه باشند و در بعضی مواقع در زبان پارسی، از علائم دیگری مانند - ِ ّ ٍ ٌ َ ً ه ؤ إ أ ء آ - نیز استفاده می شود،

- 5 بعضی از حروف ممکن است در دامنه افقی خود، همپوشانی داشته باشند.

در این پژوهش به منظور شناسایی و تشخیص متون پارسی از تصاویر به استفاده از روش های الگوریتم SIFT که دارای یک سری ویژگی منحصر به فرد هستند و همین طور استفاده از منطق فازی پرداخته خواهد شد.

کارهای پیشین

شناسایی متن در تصویر سابقه ای طولانی دارد و روش های متنوعی تا به امروز جهت این مهم ارائه شده است. یکی از روش های سنتی در این امر بدین صورت است که تصویر بررسی و در تمام موارد، متن ها به صورت افقی و پس زمینه سفید هستند و متن از آن استخراج می شود. یکی دیگر از روش های سنتی این است که محل متن توسط کاربر به صورت دستی مشخص می شود، اما امروزه به دلیل حجم عظیم داده ای که برای داده کاوی مورد استفاده واقع می گردد، این روش کارایی خود را از دست داده است. در گذشته مشکلات کمتری برای شناسایی متن در تصویر به دلیل وجود پس زمینه سفید وجود داشت و جهت متن تقریبا افقی بود که این امر از پیچیدگی مسئله کاسته و کار را بسیار ساده تر می کند. تصاویری که امروز تهیه می شوند دارای بافت های متوعی می باشند و شناسایی را پیچیده تر کرده اند.

یک معماری کلی برای سامانه های استخراج اطلاعات متن را ارائه داده اند که در شکل 1 قابل مشاهده است. این معماری برگرفته از الگوی لوله و فیلتر است که شامل 4 مرحله اصلی است:

- 1 تشخیص موجود بودن متن در تصویر،

- 2 پیدا کردن مکان متن در تصویر،

- 3 استخراج متن و بهبود کیفیت آن،

- 4 بازشناسی نویسه های متن.

این روش به عنوان یک انقلاب جدید در زمینه پردازش متن در تصویر به شمار می رود.

شکل - 1 معماری پیشنهادی سامانه استخراج متن توسط K.Jung - Xu-Cheng Yin et al, 2013 - روشی را برای تشخیص نوشتار ارایه نمودند که در این روش برای استخراج مناطق دارای بیشترین پایداری به عنوان نویسه کاندید که از استراتژی مینیمم کردن تغیرات و اختلافات منظم طراحی شده است، نویسه های کاندید شده بوسیله یک الگوریتم خوشه بندی تک پیوندی به متن های کاندید شده گروه بندی می شوند.

یک سیستم مبتنی بر احتمال را ساخته اند که از یک ردیاب کاراکتر چند مقیاسی موثر برای تعیین مکان کاراکترها درون یک تصویر بدون نقطه قطعه سازی استفاده می کند. این عمل با یک جستجوی مبتنی بر گراف دنبال می شود که ردیابی ها را به لغات تقسیم بندی کرده و احتمالات نسبی شان را ارزیابی می کند. توصیف گرHOG یک توصیف گر مبتنی بر Patch است که تخمین متراکمی از شکل در یک تصویر کلی با استفاده از هیستوگرام های جهت گیری های گرادیانی کوانتیزه شده برای Patch های تصویری کوچک فراهم می کند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید