بخشی از مقاله
*** اين فايل شامل تعدادي فرمول مي باشد و در سايت قابل نمايش نيست ***
تشخیص ارقام دستنویس با استفاده از یادگیري عمیق
Recognize Handwritten Persian Digits Using Deep Learning
Abstract
The identification of varieties of Persian manuscripts in most collections that deal with the collection of digitized information can be used like cash, checks, and data reading postal code and ... The goal of this paper is to identify Persian manuscript figures , with different people can be diagnosed are written in the automation software like reading zip code in the post office . to do and to test the manuscript figures for English database mnist and for Persian language database Hoda is available, the bank in about two thousand for each sample is available . In this paper, identifying the Persian manuscript figures from learning how deep is used to this effect is that of the deep - dβ Boltzmann probability two automatic encoder in each layer of the number of neurons 200 , has been carried out. The
proposed method represents percent to 93 % recognition numbers .
Keywords: deep learning, recognize numbers, figures manuscript, handwritten digits recognition, figures Persian, Persian manuscript
چکیده
از تشخیص ارقام دستنویس فارسی در اکثر مجموعههایی که با جمعآوري عمومی اطلاعات رقمی سروکار دارند میتوان استفاده کرد مانند
خواندن مبالغ چکها و ارقام کد پستی و ...
هدف از ارائه این مقاله شناسایی ارقام دستنویس فارسی است که با دستخط افراد مختلف نوشتهشدهاند را بتوان تشخیص داد تا در نرمافزارهاي خودکارسازي مانند خواندن کد پستی در بخش اداره پست استفاده کرد . براي انجام و آزمایش نیاز به بانک اطلاعاتی ارقام
دستنویس است که براي زبان انگلیسی بانک اطلاعاتی mnist و براي زبان فارسی بانک اطلاعاتی هدي موجود است که در این بانک براي هر رقم در حدود دوهزار نمونه موجود است . در این مقاله شناسایی ارقام دستنویس فارسی از یادگیري عمیق استفادهشده است که نحوه اجرا به این صورت است که از ماشین بولتزمن عمیق و دولایه رمزگذار خودکار که در هر لایه از 200 عدد نورون استفادهشده، انجامشده است . روش پیشنهادي ما نشاندهنده درصد بازشناسی اعداد تا نودوسه درصد است.
کلمات کلیدي: یادگیري عمیق، تشخیص ارقام، ارقام دستنویس، بازشناسانی ارقام دستنویس، ارقام فارسی،
دستنویس فارسی
بیان مسئله
پیدایش علوم و فنون جدید، جوامع بشري را با شکلهاي مختلفی از اطلاعات روبرو نموده است. سطح توسعهي یـک جامعـه را میتوان با مقدار اطلاعات و دانش تولیدشده در آن ارزیابی کرد. تولید فراینده اطلاعات به شکلهاي مختلف صورت میگیرد و با درجات متفاوتی از پیچیدگی همراه است. درنتیجه نیاز به دستگاههاي پردازش اطلاعات بهصورت روزافزون افزایش مییابد. یکی از مسائل مهم در طراحی دستگاههاي مدرن اطلاعاتی، بازشناسی خودکار الگوها است.
بازشناسی ارقام و حروف دستنویس فارسی، موضوعی اسـت کـه سالهاسـت روي آن کـار مـیشـود؛ چـه در حـوزه تحقیقات دانشگاهی و چه در حوزههاي تجاري و کاربردي. مقالات و پایاننامههاي متعددي در این زمینهها ارائهشده است و البته کارهاي صنعتی زیادي هم صورت گرفته است.
از مهمترین کاربردهاي شناسایی ارقام و حروف دستنویس، پردازش برگههاي ورود اطلاعات اسـتمـثلاً. برگـههاي بانکی، برگههاي ثبتنام در مؤسسات مختلف، برگههاي پاسخنامه آزمونهاي سراسري و المپیادها یا برگـههاي دریافـت وام! در اکثر این برگهها، اطلاعات دستنویس مهم مانند نام و نام خانوادگی و شماره دانشجویی یا کد ملی و امثال اینهـا در فیلـدهاي مخصوصی وارد میشوند کهبعداً پردازش آنها آسانتر صورت گیرد. البته ناگفته پیداست که در بسیاري از سازمانهاي مـا هنـوز پردازش خودکار فرم صورت نمیگیرد و همچنان کاربر انسانی است که اطلاعات را میخواند و وارد کامپیوتر میکند و اگر بدانیم که سالانه چند صد میلیون و یا شاید چندین میلیارد فرم توسط کاربر انسانی دادهآمایی میشـود، بـه اهمیـت تشـخیص ارقـام و حروف دستنویس پی خواهیم برد
سرانجام، حاصل سه دهه تلاشها و تحقیقات مختلف درزمینهي بازشناسی زبان نوشتاري فارسـی، توسـط پژوهشـگران ایرانی، چند سیستم نویسهخوان تجاري به نامهاي سیستم تجاري صخر1، نرمافزار 2ReadIris و نویسهخوان آرا کس و ... ارائه
شد؛ اما این تلاشها میتواند همچنان در جهت بهبود هر چه بیشتر عملکرد و سرعت این دستگاهها، ادامه داشته باشد.
ضرورت انجام تحقیق
براي طراحی دستگاههاي نویسهخوان، مباحث مختلفی باید موردبررسی قرار میگیـرد. ازجملـه مباحـث مطـرح در طراحـی ایـن دستگاههاي بازشناسی نوري حروف ، بازشناسی قلم، بازشناسی زبان، اندازهگیري میزان چرخش صفحه، تحلیل پیکربندي اسـناد، روشهاي استخراج ویژگی3، سیستم طبقهبندي، روشهاي قطعهبندي کلمات و ... هسـتند. از بـین ایـن مباحـث، انتخـاب روش استخراج ویژگی بهعنوان مهمترین عامل در بازشناسی الگو مطرح است که جاي کار زیادي دارد.
براي شناسایی حروف و ارقام، روشهاي استخراج ویژگی متعددي پیشنهادشده اسـت. ازجملـه، ویژگـیهـاي ناحیـهاي، گشتاورهاي هندسی، گشتاورهاي زرنیکی، توصیفگرهاي فوریه، هیستوگرام و ویژگیهاي مکان مشخصـه و بسـیاري روشهـاي دیگر. براي مثال تحلیل تصاویر و طبقهبندي کروموزومها میتوان نام برد.در این نـوع کاربردهـا تصـاویر ارسالشـده بـه کمـک بازشناسی الگو تفسیر میشوند .
اهداف و فرضیههاي پژوهش
هدف از انجام این مقاله آزمایش توانایی تشخیص ارقام دستنویس فارسی با اسـتفاده از یـادگیري عمیـق و کـاربرد آن جهت شناسایی ارقام دستنویس فارسی است که با تولید نرمافزاري جهت خواندن ارقام دستنویس فارسـی بتـوانیم از وقـت و هزینه صرفهجویی بکنیم که این موارد در قسمتهاي آتی برسی گردیده است.
فرضیه موردنظر مبنی بر این است که با افزایش دادههاي آماري میتـوان دقـت تشـخیص را بـالا بـرد و نـرخ خطـاي تشخیص با یادگیري عمیق کاهش خواهد یافت.
متغیرهاي مورد برسی
مجموعه ارقام دستنویس هدي که اولین مجموعهي بزرگ ارقام دستنویس فارسی مشتمل بر102353 نمونه دستنوشته سیاهسفید است. این مجموعه طی انجام یک پروژهي کارشناسی ارشد درباره بازشناسی برگههاي دستنویس تهیهشده است .دادههاي این مجموعه از حدود 12000 فرم ثبتنام آزمون سراسري کارشناسی ارشد سال 1384 و آزمون کاردانی پیوستهي دانشگاه جامع علمی کاربردي سال 1383 استخراجشده است که مورداستفاده در آزمایشها است.
بخشهاي مختلف یک سیستم بازشناسی نویسه
نویسه کوچکترین جزء نوشتاري است که شامل ارقام، حروف و علائم است. بازشناسی نویسهها به معنی تشخیص حروف یـا ارقام از روي تصویر آنهاست.(خسروي و کبیر، (1387
بخشهاي مختلف یک سیستم بازشناسی نویسه در شکل1 نشان دادهشده است. فرآیند بازشناسی حروف در این سیستم از مراحل زیر تشکیلشده است(رضوي و کبیر، : (1385
1. دریافت ورودي
2. پردازشهاي اولیه
3. استخراج ویژگیها
4. بازشناسی با یک یا چندطبقه بندي کننده
5. پـــس پـــردازش، بـــهعنوانمثال تائیـــد یـــا تصـــحیح حـــروف شناساییشـــده بـــر اســـاس اطلاعـــات ضـــمنی
شکل-1 بخشهاي مختلف یک سیستم بازشناسی نویسه(اندریوس، (1971
دریافت وروديها
تصویربرداري از متن ورودي با سطوح خاکستري یا بهصورت سیاهوسفید و درجهي تفکیک مناسب انجام میشود. فاصله درجه-
ي تفکیکمعمولاً 200 تا 300 نقطه در اینچ است.
پردازشهاي اولیه
دوسطحی کردن تصویر خاکستري با استفاده از یک آستانهي کلی یا آستانههاي محلی انجام میشود. تصحیح کجی، تصـحیح شیب، جداسازي کلمات به حروف یا عناصر اولیه مانند پارهخطها، منحنیها و حفرهها (در روشهاي مبتنـی بـر قطعهبنـدي) و
نرمالیزاسیون اندازه، پیشپردازشهایی هستند که در این مرحله انجام میشوند.
استخراج ویژگی
در هر سیستم بازشناسی الگو، بخش استخراج ویژگی یکی از بخشهاي اصلی است. چراکه نتایج حاصل از این مرحله،مستقیماً بر روي کیفیت مرحله بازشناسی اثر میگذارد. در این مرحله، به هر الگوي ورودي، یک کد یا بردار ویژگی نسبت داده میشود که معرف آن الگو در فضاي ویژگیها است و آن را از دیگر الگوها متمایز میسازد.
دویج و کیتلر استخراج ویژگی را چنین تعریف کردهاند: استخراج اطلاعاتی از دادهي خام که براي اهـداف طبقـهبنـدي بیشـترین تناسب را داشته باشند، بدین ترتیب که تغییرات الگو در درون هر کلاس کمینه و در بین کلاسها بیشینه شود. (دویـج و کیتلـر،
(1982
روشهاي آماري سنتی به دو دلیل امروزه کارایی خود را ازدستدادهاند علت اول افزایش تعداد مشاهدات است، و علت دوم که از اهمیت بالاتري برخوردار است افزایش تعداد متغیرهاي مربوط به یک مشاهده است . تعداد متغیرهایی که براي هر مشاهده بایـد اندازهگیري شو د ابعاد نامیده میشود عبارت"متغیر" بیشتر در آمار نورد استفاده قرار میگیرد و درحـالیکـه در علـوم کـامپیوتر و یادگیري ماشین عبارت"ویژگی" و یا "صفت " استفاده میشود.
روشهاي مبتنی بر استخراج ویژگی، یک فضاي چندبعدي را به یک فضاي با ابعاد کمتر نگاشت میکند. این روشها به دسته خطی و غیرخطی تقسیم میشوند. روشهاي خطی سادهتر هستند و فهم آنها راحتتر است و بـه دنبـال یـافتن یـک زیـر فضاي تخت عمومی هستند. اما روشهاي خیر خطی که مشکلتر هستند و تحلیل آنها سختتر هست به دنبال یافتن یک زیـر فضاي تخت محلی هست.
تبدیل فوریه
تبدیل فوریه گسسته4 از اهمیت ویژهاي در حوزه پردازش تصویر و سیگنال برخوردار است و در آنمعمولاً از طیـف دامنـه بـردار ویژگی در فضاي اقلیدسی n بعدي بهعنوان ویژگی استفاده میشود. این تبدیل از توابع پایه نمایی مختلط بهره میگیرد و چـون از خاصیت فشرده انرژي بالایی برخوردار است راندمان کدینگ مطلوبی را ارائه میدهد. تبدیل فوریه گسسته چندین ویژگی دارد که در امر شاخص گذاري یا تطبیق الگوها مفید واقع میگردد. نخست آنکه دامنه ضرایب آن نسبت به انتقـال حسـاس نیسـت و درنتیجه با احتساب طیف دامنه بهتنهایی و صرفنظر از اطلاعات فاز میتوان حساسیت نسبت به تغییر مکان کاراکترها در تصویر را از بین برد. در ثانی همبستگی حوزه زمانی را میتوان بهطور مؤثر با استفاده از ضرایب تبدیل فوریـه گسسـته محاسـبه نمـود.
تبدیلات فوریه به راههاي زیادي در بازشناسی حروف مورداستفاده قرارگرفتهاند.