بخشی از مقاله

چکیده 

در این مقاله یک روش جدید براي بازشناسی ارقام دست-نویس فارسی ارائه کردهایم. در این روش با بهره گیري از یک شبکه عصبی کانولوشن عمیق به استخراج ویژگیهاي با ارزش از تصاویر ارقام دستنویس فارسی پرداختهایم. سپس ویژگیهاي حاصل از این شبکه را به یک ماشین بردار پشتیبان ارسال کردهایم. مجموعه ارقام دستنویس هدي اولین مجموعهي بزرگ ارقام دستنویس فارسی است. ابتدا به بررسی مقالاتی که بر روي این مجموعه داده کار کردهاند پرداختهایم و سپس مدل پیشنهادي را بر این مجموعه داده اعمال کردهایم. نتایج بدست آمده از آزمایشات، برتري مدل پیشنهادي ما را نشان میدهد.

.1  مقدمه

نویسه خوانی نوري یکی از زیرشاخههاي مهم در بینایی ماشین است. بازشناسی ارقام دستنویس یک شاخه جذاب از نویسهخوانی نوري است که برخی از کاربردهاي مهم آن در فرایندهاي بانکی، مرتب سازي نامههاي پستی و غیره میباشد.

در سالهاي اخیر، بازشناسی ارقام دست نویس فارسی بسیار مورد توجه محققین قرار گرفته است. مجموعه ارقام دستنویس هدي اولین مجموعهي بزرگ ارقام دست-نویس فارسی است.در ادامه، برخی از مقالات که از مجموعه داده هدي براي ارزیابی مدل پیشنهادي خود استفاده کردهاند، با دقتشان ذکر شده است.

خراشازاده و لطیف ، با ترکیب CCH 1 چهار جهته و HOG2 توانستند 164 ویژگی از تصاویر استخراج کنند. براي طبقهبندي تصاویر از ماشین بردار پشتیبان با هسته گوسی استفاده کردهاند. آنها با 60000 داده آموزشی مدل خود را آموزش داده و با 20000 داده آزمایش کردهاند. دقت بدست آمده از آزمایش آنها برابر %99,31 است. آن ها با ترکیب دادههاي آموزشی و آزمایشی و اعمال 5-fold cross validation به دقت %99,58 رسیدند.

سلیمی و گیوکی ، یک طبقهبند ترکیبی بر پایه SVD3 ارائه کردهاند. تصمیمات به دست آمده توسط طبقهبند SVD توسط یک روش پیشنهادي قانون ترکیبی که بهینه سازي ازدحام ذرات چند مرحلهاي قابل اعتماد نام گذاري شده، ترکیب شده است. از مزایاي روش پیشنهادي آنها می توان به عدم حساسیت مدل به اندازه داده-هاي آموزشی اشاره کرد. آنها مدل پیشنهادي خود را با چند طبقهبند ترکیبی دیگر  نظیر MLP4, RBF5  و ANFIS6 با ترکیبات مختلف قوانین مقایسه کردهاند. آنها با 1000 داده  آموزشی مدل خود را آموزش داده و با 5000 داده آزمایش کردهاند. میانگین دقت بدست آمده از آزمایش آنها برابر %97,02 و بهترین دقت بدست آمده %97,30 است.

سلطانزاده و رحمتی ، روش جدیدي براي بازشناسی ارقام دستنویس فارسی ارائه کردهاند. این روش از پروفایلهاي بیرونی تصویر ارقام که در جهتهاي متعدد محاسبه و ویژگی هاي اصلی را استخراج میکند بهره برده است. در مرحله طبقهبندي، ویژگیهاي استخراج شده را به یک ماشین بردار پشتیبان ارسال میکند. آنها بعد
از بررسی مجموعه داده، تصاویري که در آن ارقام به صورت اشتباه یا غیر معمول نوشته شده بود را حذف کردهاند. بعد از حذف دادههاي مذکور، تعداد 4974 تصویر آموزشی و 3939 تصویر براي آزمایش باقی ماند. بهترین نتیجه را با استفاده از 8 جهت و با استفاده از هسته RBF به دست آوردند. این دقت برابر %99 ,57 گزارش شده است.

ابراهیمپور و همکاران، یک روش جدید براي بازشناسی ارقام دستنویس ارائه کردهاند. از روش توصیف مکان، براي استخراج ویژگی و روش Mixture of experts براي طبقهبندي استفاده کردهاند. در روش Mixture of experts از 4 شبکه رو به جلو که هر کدام 25 نرون در لایه مخفی دارند به عنوان متخصص و 5 نرون در لایه مخفی gating network استفاده کردهاند و به دقت %97,52 دست یافتند.

شایگان و همکاران، از روش نمودار فرکانس اصلاح شده براي کاهش اندازه مجموعه داده استفاده کردهاند. آنها دادهها را با استفاده از این روش کاهش داده و با استفاده از روش تحلیل مولفههاي اصلی، ویژگیهاي با ارزش را استخراج کردند. آنها با 60000 داده آموزشی و 20000 داده آزمایشی و 79 ویژگی و طبقهبند Kنزدیکترین همسایه به بالاترین دقت %97,11 رسیدهاند.

اعلایی و همکاران، روش ویژگی اصلاح شده مرز ارقام براي ارائه مجموعه ویژگی خوب و کارآمد را ارائه کردهاند. براي طبقهبندي از ماشین بردار پشتیبان استفاده کردهاند. مجموعه ویژگیهاي بدست آمده از این روش شامل 196 ویژگی است. آنها از 60000 تصویر براي آموزش و 20000 تصویر براي آزمایش مدل پیشنهادي خود استفاده کردند وبه دقت %98,71 رسیدند. آنها با اعمال 5-fold cross validation به دقت %99,58 رسیدند.

اعلایی و همکاران ، دو نوع مجموعه از ویژگی ها بر اساس فرکانس جهت کد هاي زنجیره اي اصلاح شده در پیکسل مرزي از تصویر ورودي و ویژگی هاي انتقال اصلاح شده - افقی و عمودي - ارائه کردهاند. در مرحله طبقهبندي نیز ماشین بردار پشتیبان چند سطحی ارائه کردهاند. در مرحله اول کلاسهایی ک ه از لحاظ ظاهري شبیه به هم بودند را در یک کلاس قرار دادند. در مرحله دوم کلاسهایی که شامل چند رقم مختلف بود را با ویژگی هاي انتقال اصلاح شده از هم جدا کردند. آنها با 60000 داده آموزشی و 20000 داده آزمایشی به دقت %99,02 دست یافتند.

حمیدي و برجی ، روش استخراج ویژگی c2 را بهبود دادند. و ویژگیهاي حاصل از آن را به ماشین بردار پشتیبان ارسال کردند. براي حذف نویز تصاویر از فیلتر میانه 3x3 استفاده کردند. دقت بدست آمده از این روش %99,1 است.

پروین و همکاران ، از طبقهبند دودویی مبتنی بر MLP و Kنزدیکترین همسایه براي بهبود دقت طبقهبندي ارقام دستنویس فارسی بهره بردند. روش آنها مانند درخت دودویی رفتار میکند. در هر سطح داده ها را به دو متا کلاس تقسیم میکند. این کار تا زمانی ادامه پیدا میکند که همه گره ها متعلق به یک کلاس بشوند. سپس با استفاده از الگوریتم ژنتیک اقدام به بهینه کردن خطاي مدل کرده-اند. آن ها مجموعه داده را به سه قسمت آموزش، ارزیابی و آزمایش که هرکدام به ترتیب شامل 40000 ، 20000 و 20000 تصویر است تقسیم کردند . نتایج بدست آمده از آزمایشات نشان میدهد مدل پیشنهادي بر پایه MLP به دقتی معادل %97,12 و بر پایه Kنزدیک-ترین همسایه برابر %96,86 رسیده است.

ساجدي و بهادر ، از تکنیک ترکیب ویژگی کادربندي و ویژگی پروفایل بیرونی براي قطعهبندي تصاویر استفاده کردهاند . براي طبقهبندي نیز از ماشین بردار پشتیبان استفاده کردهاند. آنها با 96 ویژگی و طبقهبند ماشین بردار پشتیبان، موفق شدند به دقت %99,07 دست پیدا کنند.

در مقالاتی که در بالا آورده شد، یک نقطه مشترك وجود دارد. تمام مقالات بالا براي استخراج ویژگی از روشهاي موجود در این زمینه استفاده کردند. در ادامه سه مقاله گزارش میشود که در آنها از مدلهاي مبتنی بر یادگیري عمیق براي استخراج ویژگی استفاده شده است.

کیانی و همکارش ، از ماشین بولتزمن محدود براي استخراج ویژگی استفاده کردهاند. براي طبقهبندي از مدل SNN7 و شبکه باور عمیق استفاده کردهاند. آنها در مرحله آموزش از 60000 داده و در مرحله آزمایش از 20000 داده استفاده کردهاند. دقت گزارش شده از روش آنها برابر %95 درصد است.

صفدري و معین ، براي یادگیري سلسله مراتبی ویژگی از خودرمزنگار تنک استفاده کردهاند. آنها براي مرحله طبقهبندي از رگرسیون softmax در چارچوب پیشنهادي خود بهره بردهاند. در مرحله آموزش از 60000 و در مرحله آزمایش از 20000 داده استفاده کردهاند . زمانی که آنها از خودرمزنگار دو لایه استفاده کردند، به بهترین دقت در آزمایشات خود که برابر %98,22 است رسیدهاند.

زمانی و همکاران[15] ، از طبقهبنهاي جنگل تصادفی و شبکه عصبی کانولوشن براي بازشناسی ارقام بهره بردهاند. آنمدل پیشنهادي خود را با چند طبقه بند دیگر مقایسه کردند که مدل پیشنهادي آنها با دقت %99,03 بهترین عملکرد را داشت.

در ادامه این مقاله به شرح زیر سازماندهی شده است:

در بخش 2، ابتدا شبکه عصبی کانولوشنی را معرفی میکنیم و سپس به معرفی لایههاي اصلی آن میپردازیم. در بخش 3 ، روش پیشنهادي را به سه قسمت اصلی پیشپردازش، استخراج ویژگی و طبقه بندي تقسیم کرده و هر قسمت را شرح میدهیم.

.2 شبکه هاي عصبی کانولوشنی

شبکه هاي عصبی کانولوشنی یکی از مهمترین روشهاي یادگیري عمیق هستند که در آنها چندین لایه با روشی قدرتمند آموزش می-بینند. این روش بسیار کارآمد بوده و یکی از رایجترین روشها در کاربردهاي مختلف بینایی کامپیوتر است.

در هر شبکه عصبی کانولوشن دو مرحله براي آموزش وجود دارد. مرحله رو به جلو و مرحله پسانتشار. در مرحله اول تصویر ورودي به شبکه ارسال می-شود. این عمل شامل ضرب نقطهاي بین ورودي و پارامترهاي هر نورون و نهایتا اعمال عملیات کانولوشن در هر لایه میشود. سپس خروجی شبکه محاسبه میشود . به منظور آموزش شبکه, پاسخ شبکه را با استفاده از یک تابع خطا با پاسخ صحیح مقایسه کرده و میزان خطا محاسبه میشود. در ادامه گرادیانت هر پارامتر محاسبه میشود و پارامترهاي تاثیرگذار بر خطاي ایجاد شده در شبکه، تغییر پیدا می-کنند. بعد از بروز رسانی پارامترها مرحله بعدي رو به جلو آغاز میشود. بعد از تکرار تعداد مناسبی از این مراحل، آموزش شبکه پایان مییابد. شکل 1 نماي کلی شبکه عصبی کانولوشنی را نشان میدهد.

شکل :1 نماي کلی شبکه عصبی کانولوشنی[17] در ادامه به معرفی لایههاي اصلی شبکه عصبی کانولوشنی می-پردازیم.

لایه کانولوشن: در لایههاي کانولوشن، از هستههاي مختلف براي کانوالو کردن تصویر ورودي و feature map هاي میانی استفاده می-شود و feature map هاي مختلفی ایجاد میکند. از مهمترین مزایاي عملیات کانولوشن میتوان ابتدا به کاهش شدید پارامترهاي شبکه، به دلیل استفاده از مکانیزم اشتراك وزن در هر feature map اشاره کرد. بدلیل اتصال محلی، ارتباط بین پیکسلهاي همسایه را یاد میگیرد. و مزیت بعدي، تغییر ناپذیري و ثبات نسبت به تغییر مکان شی میباشد. شکل 2 عملیات کانولوشن را نشان میدهد.

شکل :2 عملیات کانولوشن

لایه پولینگ: معمولا بعد از یک لایه کانولوشنی لایه پولینگ قرار میگیرد. از لایه پولینگ براي کاهش اندازه feature map ها و پارامتر-هاي شبکه میتوان استفاده کرد. ، این لایهها نیز همانند لایههاي کانولوشنی به دلیل در نظر گرفتن پیکسلهاي همسایه، نسبت به تغییر مکان با ثبات هستند. پیاده سازي آنها معمولاً استفاده از تابع max pooling و تابع Average pooling رایجتر هستند. در شکل 3 نمونه اي از فرایند Max pooling را نشان میدهد.

شکل :3 فرایند [17] max pooling

لایه تماماً متصل: همانطور که در شکل 1 میبینید، بعد از آخرین لایه پولینگ، لایههايتماماً متصل وجود دارند که feature map هاي 2 بعدي را به بردار ویژگی یک بعدي جهت ادامه فرآیند بازنمایی ویژگی تبدیل میکند. لایه تماما متصل نتیجه شبکه را در قالب یک بردار با اندازه مشخص ارائه میکند. از این بردار میتوان براي طبقه-بندي تصاویر استفاده کرد و یا اینکه از آن جهت ادامه پردازش-هاي بعدي بهره ببریم. عیب این لایه، تعداد زیاد پارامترها و در نتیجه بار محاسباتی زیاد آن است. شکل 4عملیات لایه تماماً متصل را نشان میدهد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید