بخشی از مقاله
چکیده
بطور کلی این مقاله در مورد تشخیص دست نوشته های انسان بوسیله ماشین به کمک روش شبکه های عصبی بازگشتی حافظه کوتاه- مدت طولانی - - LSTM1 می باشد. در واقع سیستمی است که شامل داده های ورودی، واحد پردازش تصویر و واحد خروجی می باشد. اگر بخواهیم بطور کلی بعنوان نمونه در مورد دست نوشته هائی که به زبان فارسی نوشته شده اند بحث کنیم، مسئله مجهول و مبهم دست نوشته های متنوع در طول و عرض حروف دست نوشته می باشد.
این مقاله ، یک روش تشخیص اعداد دست نوشته فارسی را معرفی کرده و مشکلات موجود در تشخیص ارقام دست نوشته را بیان می کند. این روش از یک شبکه ی عصبی برای پیش بینی استفاده میکند. نوآوری کلیدی در این طرح، روش استخراج ویژگی آن است که بر مبنای تکنیک های استخراج ویژگی و نحوه چینش گوشه ها در تصویر دست نوشته می باشد. روش پیشنهادی به یک نرخ تشخیص کلمه قابل قبول و دقت بالا دست یافته است.
مقدمه
شناسایی نوشته های چاپ شده توسط ماشین یکی از علاقمندی های قدیمی در حوزه فناوری اطلاعات است. تشخیص دست نوشته ها هنوز در ابتدای راه قرار دارد و تاکنون سیستم مطمئنی برای تشخیص دست نوشته ها ارایه نشده است. عمده فعالیتهای صورت گرفته در زمینه شناسایی اعداد لاتین متمرکز بوده اند. به طور کلی کیفیت و کارایی روشهای شناسایی اعداد دست نوشته، جدا از زبان و نوع نوشتار به الگوریتم های انتخابی برای استخراج ویژگی و الگوریتم های انتخابی برای دسته بندی وابسته است.
تاکنون الگوریتم های بسیاری برای استخراج ویژگی مورد آزمون قرار گرفته اند. نتیجه این آزمایشات نشان دهنده این است که الگوریتم های مبتنی بر ویژگی جهت شکستگی ها، یکی از مناسبترین روشها است . این ویژگی می تواند در ترکیب با ویژگی میزان انحنا، موجب افزایش دقت گردد. البته اخیرا الگوریتمهایی با استفاده از ویژگی های ساده تر و استفاده از داده های خام و تبدیل آنها به ویژگی های بیتی نیز پاسخ های مناسبی داشته اند.
تشخیص اعداد دست نویس بسیار چالش برانگیز است و از این رو است که توجه زیادی در موضوع تشخیص دست خط مورد توجه قرار گرفته است. تشخیص عدد دست نویس مسئله ایست که در ابتدای آن آسان به نظر می رسد، و آن را کاری بی اهمیت از نظر انجام کامپیوتر می پنداریم. پیچیدگی این کار در این نهفته است که برنامه کامپیوتری باید قادر به تشخیص دست نوشته های افراد و سبک های مختلف باشد که سختی کار را چند برابر می کند. این سیستم با اندازه ها و کجی های مختلفی با اشکال و سبک های مختلفی مواجه است. در سالهای اخیر کارهای متعددی در این زمینه انجام شده است. نتایج بسیاری توسط محققان با استفاده از الگوریتم های مختلفی بدست آمده است، این الگوریتم ها شامل نزدیکترین همسایگی ، شبکه های عصبی و ماشینهای بردار پشتیبان می باشد.
این مقاله در خصوص تشخیص دست نوشته های انسان به ویژه اعداد دست نویس فارسی بوسیله ماشین به کمک روش شبکه های عصبی بازگشتی باز رخداد - LSTM - می باشد که در واقع سیستمی شامل داده های ورودی، واحد پردازش تصویر و واحد خروجی می باشد. اگر بخواهیم بطور کلی بعنوان نمونه در مورد دست نوشته هائی که به زبان فارسی نوشته شده اند بحث کنیم، مسئله مجهول و مبهم دست نوشته های متنوع در طول و عرض حروف دست نوشته می باشد
اگر بخواهیم شمای کلی از سیستم تشخیص دست نوشته بعنوان مثال برای زبان فارسی داشته باشیم، می توان داده های ورودی را بعنوان متغیر یا متغیرهای ورودی در نظر گرفت:
1. دست نوشته هائی که بر روی کاغذ نوشته شده اند و بعد از اسکن شدن وارد سیستم می شوند.
2. دست نوشته های چاپ شده بر روی کاغذ را که اسکن شده اند.
بعد از آن یک واحد پردازش تصویر برای پردازش متون دست نوشته ای که بصورت دستی و یا چاپ شده به درون سیستم اسکن شده و بعنوان یک فایل تصویری و یا همان عکس مورد پردازش قرار می گیرند در نظر گرفت و در نهایت متغیر یا متغیرهای خروجی همان داده های قابل فهم بوسیله سیستم و یا همان متون تایپ شده قابل تشخیص می باشد
یک شبکه LSTM یک شبکه عصبی مصنوعی بازگشتی است که شامل بلاک های LSTM بجای - یا بعلاوه - واحدهای شبکه ای منظم می باشد. یک بلاک LSTM ممکن است بعنوان یک واحد شبکه ای "هوشمند" توصیف شده باشد که می تواند یک مقدار دلخواه از طول زمانی را بخاطر بسپارد. یک بلاک LSTM شامل گیت هائی است که زمانی را تعیین می کنند که ورودی علامت کافی برای بخاطرسپاری است. زمانیکه باید شروع به بخاطرسپاری یا فراموشی مقدار کند، و زمانیکه باید آن خروجی مقداری باشد
شکل :1 نمونه ای از یک گیت LSTM با گیت های ورودی، خروجی و گیت های فراموشی
شبکه عصبی با حافظه طولانی کوتاه مدت - LSTM - ، در واقع یک معماری شبکه عصبی بازگشتی - RNN6 - و یا نوعی شبکه عصبی مصنوعی - ANN - می باشد که در سال 1997 میلادی بوسیله Sepp Hochreiter و Jurgen Schmidhuber معرفی شد - . - Sepp Hochreiter and Jurgen Schmidhuber , 1997 مانند بیشتر شبکه های عصبی بازگشتی، یک شبکه LSTM ، یک روش جامع است که حس کافی را به شبکه می دهد، بطوریکه واحدهای شبکه می توانند هر چیزی را که کامپیوتر می تواند محاسبه کند بعنوان یک وزن ماتریس مناسب، این روش در اختیار دارد، که ممکن است بعنوان برنامه اش نمایش داده شود.
برخلاف شبکه های عصبی عمومی یا کلی، یک شبکه LSTM برای یادگیری از تجربه هائی که برای طبقه بندی، پردازش و پیش بینی سری های زمانی استفاده می شود مناسب تر است و این قضیه بیشتر وقتی نمایان می گردد که وقفه های ناشناخته زمانی بسیار طولانی از لحاظ اندازه بین رویدادهای مهم وجود داشته باشد. این یکی از دلایل اصلی چرائی جایگزینی های بهتر شبکه های عصبی بازگشتی، مدل های مخفی مارکوف و روش های یادگیری ترتیبی در کاربردهای مختلف می باشد.
برای مثال، روش LSTM بهترین نتایج شناخته شده ای را در تشخیص دست نوشته ای که به بخش های مختلف تقسیم نشده است دارد و برنده مسابقه دست نوشته ICDAR در سال 2009 شده است. شبکه های LSTM همچنین برای تشخیص خودکار صدا، و جزء اصلی شبکه ای که در سال 2013 رکورد %17,7 نرخ خطای تشخیص حرف صوتی را در مجموعه داده صدای طبیعی TIMIT بدست آورد مورد استفاده قرار می گیرد
تشخیص دست نوشته با استفاده از شبکه های LSTM
اگر چه مسئله تشخیص دست نوشته 30 سال است که تحت بررسی می باشد، اما هنوز فضای تحقیقاتی عمده ای به خصوص در زمینه تشخیص دست نوشته های بدون قید - بدون ساختار - وجود دارد. تشخیص دست نوشته به صورت مرسوم به دو دسته ی آنلاین - برخط - و آفلاین - غیر برخط - تقسیم می شود. در تشخیص آنلاین یک ترتیب زمانی از مختصات ها که بیانگر حرکات نوک قلم شخص است، دریافت می گردد، در حالیکه در روش های آفلاین تنها تصویر متن قابل دسترس است.
در - Andrew Senior and Tony Robinson , 2007 - ، نویسندگان یک روش مبتنی بر LSTM ، برای تشخیص دست نوشته آنلاین تشخیص یادداشت های روی وایت برد را بررسی کرده اند. این امر یک کار نسبتاً جدید است. چون مردم در طول نوشتن ایستاده اند و در نتیجه حرکت بازوها در طول نوشتن متوقف نمی شود، آنچه روی وایت برد نوشته می شود با آنچه روی میز درج می گردد متفاوت است.
علیرغم برخی از مشکلات جانبی، وابستگی وایت برد در برخی کاربردها مانند مستندات یک سخنرانی یا ملاقات، حائز اهمیت است. اتاق های ملاقات هوشمند معمولا وسایل اکتساب داده گوناگونی دارد مانند میکرفون، دوربین، تبلت های الکتریکی و یک وایت برد. نسخه برداری اتوماتیک از داده های ضبط شده، برای امکان پذیر نمودن شاخص گذاری و ارجاع به آن، مورد نیاز است.