بخشی از مقاله

چکیده

در این مقاله یک روش طبقهبندي جمعی بر اساس یادگیري با همبستگی منفی براي بازشناسی کل نگر کلمات دستنویس با حجم محدود پیشنهاد میشود. در این روش پس از پیش پردازش، بردارهاي ویژگیهاي مبتنی بر ناحیه بندي، گرادیان و کد زنجیرهاي از تصاویر استخراج میشود. هر یک از این بردارها به مجموعهاي از طبقهبندهاي شبکه عصبی پرسپترون چندلایه اعمال میشوند.

طبقه بندهاي پایه بر اساس یادگیري با همبستگی منفی، آموزش داده شده و از این طریق گوناگون میشوند. در نهایت خروجی این طبقهبندها از طریق قواعد میانگین، بیشینه، حاصلضرب، راي گیري و کلیشه تصمیم ترکیب میشوند. در آزمایشهایی که روي تصاویر نام 31 مرکز استان از مجموعه داده "ایرانشهر" انجام شده است، ویژگیهاي مبتنی بر گرادیان و آموزش با همبستگی منفی و ترکیب از طریق رايگیري، بیشترین نرخ بازشناسی را به دست داده است.

-1 مقدمه

بازشناسی دستنوشته به صورت برون خط در کاربردهاي متعددي مانند تعیین آدرس پستی [1]، پردازش چکهاي بانک [2]، نمایش یادداشتهاي دستنویس [3] و تولید کتابخانههاي عددي اسناد تاریخی [4] مطرح است. برخلاف بازشناسی درون خط دستنویس، که اطلاعات زمانی و مکانی هر پاره خط در دسترس است، بازشناسی برون خط تنها با تصویر کلمات نوشته شده انجام میشود. مقالهها و پژوهشها در زمینه بازشناسی دستنویس در زبانهاي لاتین، چینی و ژاپنی بسیار زیاد است. این در حالی است که در مورد زبانهاي عربی و فارسی کارهاي کمتري انجام شده است.

به طور کلی دو رویکرد در زمینه بازشناسی کلمات وجود دارد: رویکرد تجزیه-گرا و کل نگر. در روشهاي تجزیهگرا، یک کلمه بصورت مجموعه اي از واحدهاي کوچکتر مانند حروف یا شبه حروف، درنظر گرفته میشود. پس از قطعه بندي کلمه به واحدهاي تشکیل دهنده آن، کلمه مورد نظر به کمک بازشناسی این واحدها تشخیص داده میشود. در روش کل نگر، کلمات از روي شکل عمومی آنها و بدون انجام عمل جداسازي تشخیص داده می شوند.
 
به عنوان مثال در [5] شناسایی کلمات دست نویس به صورت کلنگر براي یک مجموعه محدود شامل 500 شهر پر جمعیت ایران - ایرانشهر - انجام شده است که در آن از نام هر شهر 20 نمونه جمع آوري شده است. در این پژوهش، از تعمیم الگوریتم DTW به دو بعد جهت مقایسه کلمات استفاده شده است.

در این مقاله یک رویکرد طبقهبندي کلنگر براي بازشناسی کلمات دستنویس فارسی، مبتنی بر روشهاي یادگیري جمعی پیشنهاد شده است. در یادگیري جمعی، هر الگوریتم یادگیري با توجه به مقدار پارامترهایش، به پاسخ متفاوتی براي مسأله می رسد و انتظار می رود با ترکیب پاسخها، دقت طبقهبندي افزایش پیدا کند. به همین علت استفاده از نتایج چند طبقهبند یک رویکرد مؤثر در بازشناسی الگو است که باعث بهبود دقت طبقهبندي و افزایش نرخ بازشناسی می شود.

روشهایی مثل روش فضاي دانش رفتار [6] ، روش شمارش بوردا [7] ، شبکه عصبی [8,9] MLP ،روشهاي مبتنی بر راي گیري [10]، تئوري دمپستر-شفر [11,12] ، کلیشه تصمیم[13] 1 و بهینه سازي گروه ذرات [14] از جمله روشهایی هستند که در بازشناسی دستنوشته از طریق ترکیب طبقهبندها، پیشنهاد شده اند.

براي آنکه ترکیب خروجی طبقهبندها مفید باشد، باید نیازهاي خاصی برآورده شوند. اولین نیاز براي طراحی سیستم طبقه بندي مرکب، بکارگیري یک چارچوب ریاضی مناسب براي قاعده ترکیب است تا به طریقی از نقاط قوت طبقهبندها استفاده و از نقاط ضعف آنها پرهیز شود. دومین نیاز، وجود تعدادي طبقهبند پایه، با کارایی قابل قبول و نسبتاٌ مستقل از یکدیگر است .[15] از این ویژگی به عنوان گوناگونی طبقهبندهاي پایه نام برده میشود.

مهمترین بخش طراحی یک سیستم بازشناسی چندگانه، ایجاد طبقهبندهاي پایه دقیق و گوناگون است. روشهاي ایجاد گوناگونی بر مبناي نحوه ایجاد تفاوت در فرایند یادگیري، به دو دسته ضمنی2 و صریح3 تقسیم میشوند. روشهاي ضمنی، با تغییرات ضمنی در فرآیند یادگیري طبقهبندهاي پایه سعی در گوناگون کردن آنها دارند. در این روشها، طی یادگیري معیاري از گوناگونی بررسی نمی شود و لذا تضمینی براي متفاوت شدن طبقهبندها وجود ندارد بلکه فقط امیدوار هستیم که خطاهاي طبقهبندهاي ایجاد شده با یکدیگرمتفاوت باشند. برخی از مهمترین روشهاي ضمنی براي ایجاد گوناگونی عبارتند از: بازنمایی متفاوت الگوها [16]، استفاده از طبقهبندهاي پایه متفاوت.

روشهاي صریح، با تحت تأثیر قرار دادن مسیر یادگیري، طبقهبندهاي پایه متفاوتی را ایجاد می کنند. این روشها در فرایند یادگیري طبقهبندها، معیاري از گوناگونی اعمال کرده و بر اساس آن مسیر یادگیري طبقهبندها را در فضاي یادگیري، تغییر می دهند تا طبقهبندهایی گوناگون در خطا ایجاد شوند. رویکردي که در [20] به کار رفته است را میتوان از این گروه دستهبندي کرد.

در این مقاله، یک سیستم بازشناسی چندگانه مبتنی بر آموزش با هبستگی منفی [21,22] - NCL - براي بازشناسی کلنگر کلمات دستنویس فارسی پیشنهاد شده است. در این روش هر یک از طبقهبندهاي پایه یک شبکه عصبی MLP با قاعده یادگیري انتشار به عقب است که از طریق اضافه نمودن یک ترم جریمه - شباهت خروجی شبکههاي پایه - به تابع خطاي سیستم، خطاي آنها از یکدیگر متفاوت و گوناگون میگردد. از این طریق هر یک از طبقهبندهاي پایه روي بخشی از فضاي ورودي تمرکز نموده و و این فضا بین آنها تقسیم میگردد. این روش، در گروه رویکردهاي صریح ایجاد گوناگونی بین طبقهبندهاي پایه قرار میگیرد.

-2 بازشناسی برون خط کلمات دستنویس از طریق یادگیري با هبستگی منفی - NCL - 4
در این مقاله از روش آموزش جمعی یادگیري با هبستگی منفی در طبقهبند-هاي پایه، جهت بازشناسی کلمات دستنویس فارسی استفاده شده است. براي این منظور ابتدا مراحل پیش پردازش شامل آستانه گیري، حذف نویز، عملیات هموارسازي و جبران پهناي قلم روي تصاویر کلمات ورودي اعمال میشود. پس از این مرحله لازم است تا ویژگیهاي مناسب از تصاویر کلمات دستنویس استخراج شود. در این پژوهش ویژگیهایی مبتنی بر ناحیه بندي، شیب خطوط تصویر و کد زنجیره اي، از تصاویر کلمات استخراج میشوند. ویژگیهاي به دست آمده، جهت آموزش سیستم طبقهبندي چندگانه به کار گرفته میشوند.

-1-2 معرفی مجموعه داده و پیش پردازش

مجموعه دادهاي که براي انجام آزمایشها انتخاب شدهاند شامل تصاویر نام مراکز استانهاي ایران است که از پایگاه داده "ایرانشهر" انتخاب شدهاند. این پایگاه داده شامل 502 شهر کشور ایران است که از میان آنها تصویر نام 31 مرکز استان انتخاب شده است. لذا مجموعه داده انتخابی داراي 31 کلاس است. براي هر نام شهر 25 نمونه در دسترس است که توسط نویسندگان مختلف نوشته شدهاند. بنابراین مجموعه داده انتخاب شده به طور کلی داراي 775 نمونه است. براي ارزیابی روش پیشنهادي از روش ارزیابی k بخشی استفاده میشود که در آن .k=5 لذا در هر مرحله از 25 تصویر در هر کلاس 15 تصویر براي آموزش، 5 تصویر براي ارزیابی و 5 تصویر براي آزمایش به کار میرود.

همه تصاویر در کیفیت 96 نقطه در اینچ و در فرم سطح خاکستري اسکن شدهاند. این تصاویر ابتدا با یک مقدار آستانه مناسب آستانهگیري شده و حاشیه سفید آنها حذف شدهاند. پس از حذف نویز، لبههاي تصویر هموارسازي شد. نقاب به کار رفته براي هموارسازي به شکل گوسی و با ابعاد 3×3 است. در نهایت از یک روش مناسب براي جبران پهناي قلم استفاده شد. بدین منظور، ابتدا پهناي قلم از طریق روشی که در [23] مطرح شده است، تخمین زده میشود. در این روش ابتدا تصویر کلمه ستون به ستون جاروب میشود. بیشترین تعداد پیکسلهاي سیاه رنگ در ستونها به عنوان پهناي قلم در نظر گرفته میشود. آنگاه ستونهایی از تصویر که داراي پهناي کمتري هستند، تا اندازه پهناي قلم جبرانسازي میشوند.

-2-2 استخراج ویژگی

در این پژوهش، چند نوع ویژگی پرکاربرد مختلف از تصاویر استخراج نموده-ایم. یکی از این روشها، روش ناحیه بندي تصاویر کلمات است .

در این روش یک جدول 6×8 روي تصویر کلمه قرار میگیرد و تصویر را ناحیه بندي مینماید. در هر ناحیه تعداد پیکسلهاي سیاه رنگ به کل پیکسلها محاسبه میشود. بنابراین به ازاي هر تصویر، 48 ویژگی به دست میآید. در استخراج ویژگی مبتنی بر گرادیان [25]، از عملگر سوبل براي محاسبه مولفههاي x و y گرادیان تصویر استفاده میشود.

در این روش، ابتدا مشتق هر پیکسل از تصویر در راستاي x و y محاسبه میشود. آنگاه جهت مشتق به 8 ناحیه مطابق با 8 جهت فريمن5 تجزیه میشود و هر ناحیه با یک صفحه جهتی متناظر میشود. سپس روي هر صفحه جهتی 64 نقاب گوسی با مراکزي که به صورت 8×8 در کل صفحه به طور یکنواخت توزیع شده اند، اعمال میشود. از این طریق، از هر صفحه جهتی 64 و از هر تصویر 512 ویژگی مبتنی بر گرادیان استخراج میشود. در نهایت از تکنیک آنالیز اجزاي اصلی - PCA - براي کاهش بعد از 512 به 50 بعد استفاده میشود. سومین ویژگی بر اساس کد زنجیره اي استخراج شده است

در این روش، ابتدا کل تصویر از طریق یک جدول 4×6 ناحیه بندي شد. سپس در هر ناحیه از طریق پیکسل-هاي کانتور، کد زنجیره اي در 16 جهت به دست آمدند. از طریق شمارش تعداد کدها در هر 16 جهت، براي هر ناحیه 16 ویژگی محاسبه شد. بنابراین از هر تصویر در مجموع 384 ویژگی به دست آمد که از طریق تحلیل مولفههاي اصلی، به 50 ویژگی کاهش یافت. جدول زیر، به طور خلاصه ابعاد ویژگیهاي به کار رفته در این پژوهش را نشان میدهد.

جدول :1 ابعاد ویژگیهاي استخراج شده از کلمات دستنویس در این پژوهش و ابعاد آنها

که در آن،  نرخ    یادگیري،  پارامتر کنترل روش آموزش با همبستگی منفی، به ترتیب وزنهاي ورودي به لایه مخفی و لایه مخفی به لایه خروجی هستند. ترانهاده است که نماینده خروجی لایه مخفی شبکه است. بردار گرادیان با استفاده از رابطه - 1 - به صورت زیر محاسبه می-شود :

پس از آموزش طبقهبندهاي پایه از طریق آموزش با همبستگی منفی - NCL - ، آنها را از طریق یک قاعده مناسب ترکیب مینماییم. در این مقاله قواعد ترکیب شامل میانگین، بیشینه، حاصلضرب، رايگیري و کلیشه تصمیم مورد استفاده قرار می گیرند. بلوك دیاگرام روش پیشنهادي در شکل زیر نشان داده شده است.

شکل :1 روش پیشنهادي براي بخش طبقهبندي، در مرحله اول طبقه-بندهاي پایه از طریق روش NCL آموزش داده میشوند و سپس با یک روش مناسب ترکیب میشوند.

-3 -2 طبقه بندي از طریق یادگیري با همبستگی منفی

ویژگیهاي به دست آمده به یک سیستم طبقهبندي چندگانه اعمال میشوند. هر یک از طبقهبندهاي پایه یک شبکه عصبی MLP با یک لایه مخفی است که از طریق پس انتشار خطا آموزش میبیند. در MLP، خروجی نورون-هاي لایه خروجی و مخفی، تابعی از داده ورودي، وزن اتصالات بین نورونی و نوع تابع فعالیت است. تابع فعالیت در این پژوهش، تابع سیگموئید در نظر گرفته شده است.

در روش آموزش از طریق پس انتشار خطا، در هر مرحله از آموزش، دادههاي آموزشی که همان ویژگیهاي تصاویر کلمات دستنویس اند، به شبکههاي پایه اعمال شده و سپس از طریق محاسبه تابع خطا میزان تغییر پارامترهاي شبکه تعیین میشود. خطاي هر لایه به جز لایه آخر با توجه به بردار خطاي لایه بعد محاسبه میگردد. لذا تابع خطا نقش اصلی را در آموزش طبقهبندهاي پایه دارد. در روش یادگیري با همبستگی منفی - NCL - ، یک ترم جریمه که میزان شباهت خروجی طبقهبندهاي پایه را محاسبه مینماید به تابع خطا افزوده میشود 

لذا روابط اصلاح وزنهاي شبکههاي عصبی از طریق پس انتشار خطا عبارتند از:

-3 نتایج آزمایشها

در این بخش نتایج آزمایشهایی که براي بازشناسی کلمات دستنویس فارسی انجام شدهاند گزارش میشود.

-1-3 طبقه بندي از طریق ترکیب طبقه بندها

براي طبقه بندي از طریق سیستم هاي طبقه بندي چندگانه، 6 طبقه بند پایه که شبکههاي عصبی MLP با یک لایه مخفی و داراي 35 گره هستند، از طریق روش پس انتشار به عقب با نرخ یادگیري 0.1 آموزش داده شد. وزنهاي اولیه در این طبقه بندها به طور تصادفی و مستقل از یکدیگر تخصیص داده شد. این عمل به طور ضمنی طبقه بندهاي پایه را از یکدیگر گوناگون میکند. سپس خروجی طبقه بندها در مرحله آزمایش از طریق روشهاي میانگین، بیشینه، حاصلضرب، رايگیري و کلیشه تصمیم ترکیب شدند.

در ادبیات مرتبط با روشهاي جمعی، رویکردهایی مطرح شدهاند که توانمندي خود را در کاربرد-هاي مختلف نشان دادهاند .از این دسته میتوان به روشهاي آدابوست6، بگینگ 7، زیرفضاي تصادفی 8 و تعمیم پشتهاي9 اشاره نمود. این روشها به صورت ضمنی، طبقهبندهاي پایه را گوناگون نموده و سپس ترکیب می شوند

در روش تعمیم پشتهاي از یک ترکیبکننده آموزشپذیر استفاده میشود که معمولا یک شبکه عصبی MLP است. نرخ بازشناسی از طریق طبقهبندهاي جمعی مطرح شده در جدول زیر نمایش داده شده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید