بخشی از مقاله
خلاصه
در این تحقیق دو روش به منظور بهبود نرخ بازشناسی ارقام فارسی ارائه شده است. در هر دو این روش ها از الگوریتم های مبتنی بر جمعیت استفاده شده است. در روش اول وزندهی به ویژگی های با کارایی بالاتربه کمک الگوریتم جهش قورباغه و در روش دوم خوشه بندی فازی و الگوریتم بهینه سازی سیستم صفحات شیبداربه منظور انتخاب تعداد بهینه خوشه ها به کار رفته است. طبقه بندی کننده فازی ساده و دیتابیس هدی در هر دو روش استفاده شده است.نتایج به دست آمده کارایی و افزایش نرخ بازشناسی را در هر دو روش پیشنهادی تایید می کند.
کلمات کلیدی: بازشناسی ارقام ، وزندهی به ویژگی ها، خوشه بندی فازی، الگوریتم بهینه سازی جهش قورباغه، الگوریتم بهینه سازی سیستم صفحات شیبدار .
.1 مقدمه
در حوزه بازشناسی حروف و ارقام دستنویس فارسی کارهای زیادی انجام شده است. از جمله کارهایی که در حوزه تحقیقات دانشگاهی انجام شده است می توان به 1]؛[8 اشاره کرد. از مهمترین کاربردهای شناسایی ارقام و حروف دستنویس فارسی که می توان به آن اشاره کرد عبارتند از: وارد کردن اطلاعات اسناد اداری از جمله چک ها و فرم های پرشده، شناسایی اتوماتیک شماره پلاک برای سیستم کنترل ترافیک، شناسایی کاراکترهای نوشته شده بر روی صفحات لمسی،کنترل سیستم به وسیله رسم اشکال، شکستن کپچا، طراحی تکنولوژی های یاری دهنده نابینایان و افراد با ضعف بینایی و غیره. ایجاد سیستم بازشناسی با دقت بالا در حوزه ارقام زبان فارسی به دلائل شباهت زیاد ارقام به یکدیگر و همچنین اختلاف زیاد در شیوه نگارش ارقام مشکلاتی را به همراه دارد. در این مقاله دو روش به منظور بهبود دقت بازشناسی ارقام فارسی ارائه شده است. طبقه بندی کننده پایه در هر دو این روش ها یک روش ساده فازی می باشد.
در روش اول به ویژگی های زونینگ استخراج شده از ارقام یک وزن اختصاص می دهیم، به این صورت که به ویژگی های با کارایی بهتر وزن بالاتر و به ویژگی های با کارایی کمتر وزن پایین تری نسبت داده می شود. وزندهی به ویژگی ها به کمک نسخه حقیقی الگوریتم بهینه سازی جهش قورباغه صورت می گیرد. در روش دوم نرخ بازشناسی اولیه طبقه بندی کننده فازی با استفاده از خوشه بندی فازی بهبود می یابد. به این صورت که ابتدا داده های آموزشی مربوط به هر کدام از ارقام به چندین خوشه تقسیم می شود و پس از آن برای داده های هر خوشه یک قاعده فازی استخراج میشود. تعداد قواعد فازی نسبت به روش پایه افزایش قابل ملاحظه می یابد ولی چون نرخ بازشناسی هم به میزان قابل توجهی زیاد می شود، افزایش قواعد فازی منطقی می باشد. تعداد خوشه های بهینه به کمک الگوریتم بهینه سازی صفحات شیبدار باینری تعیین شده است. ارقام هدی به منظور ارزیابی مورد استفاده قرار گرفته است. ساختار مقاله در ادامه به این صورت است: در بخش دوم توضیحاتی در موردکلیات تحقیق داده شده است. در بخش سوم دو روش پیشنهادی همراه با جزییات تشریح شده است. در بخش چهارم نتایج گزارش شده و در بخش پنجم نتیجه گیری آمده است.
.2 کلیات تحقیق
.1,2 روش پایه
روش فازی مرجع [1] به منظور طبقه بندی کننده پایه برای ارقام در نظر گرفته شده است. دو روش پیشنهادی نرخ بازشناسی این طبقه بندی کننده فازی را افزایش داده است. همچنین در این تحقیق ویژگی زونینگ از میان ویژگی های متنوعی که برای ارقام وجود دارد به کار رفته است. ویژگی زونینگ پیچیدگی محاسباتی کمتری دارد. ارقام هدی با تعداد 102352 به منظور ارزیابی روش پیشنهادی استفاده شده است .[9] از این تعداد 60000 تا به عنوان نمونه آموزشی، 20000 تا به عنوان نمونه آزمایشی و 22352 تا به عنوان ارقام باقیمانده در نظر گرفته می شود. ارقام باقیمانده در الگوریتم های مبتنی بر جمعیت مورد استفاده قرار گرفته است.
.2,2 روش خوشه بندی فازی
خوشه بندی یک فرآیند خودکار است که طی آن، داده ها به دسته هایی که اعضای آنها مشابه یکدیگر می باشند تقسیم می شوند و به هر کدام از این دسته ها یک خوشه گفته می شود. ساده ترین و پرکاربردترین روش در خوشه بندی، الگوریتم K-Means است که به عنوان یک روش پایه برای سایر روش های خوشه بندی، ازجمله روش FCM می باشد. K-Means، برای دیتابیس های بزرگ از کارایی خوبی برخوردار است ولی اغلب در دام بهینه های محلی گرفتار می شود. در این مقاله روش FCM برای خوشه بندی به کار رفته است.
خوشه بندی فازی تعمیم یافته الگوریتم خوشه بندی K-Means می باشد که در آن داده ها می توانند با درجه ای از وابستگی بین 0 و 1 به هر کدام از خوشه ها نسبت داده شوند. در شرایط واقعی خوشه بندی فازی از کارایی بیشتری برخوردار است زیرا نمونه های موجود در مرز خوشه های مختلف مجبور به تعلق کامل به یکی از خوشه ها نیستند. به عبارت دیگر برای هر داده، برای همه خوشه ها عضویت در نظر گرفته می شود .[10]
یکی از مهمترین مسائل در خوشه بندی انتخاب تعداد خوشه های بهینه است. تعداد خوشه ها باید به گونه ای انتخاب شود که اولا نمونه های موجود در یک خوشه تا حد امکان مشابه هم باشند و ثانیا نمونه های موجود در خوشه های مختلف تا حد امکان با هم نامتشابه باشند. تعداد مراکز خوشه ها به دو روش کلی انتخاب می شود. در روش اول قبل از انجام خوشه بندی این تعداد تعیین می شود که به این روش ، خوشه بندی دارای ناظر - با ناظر - گفته می شود. و در روش دوم تعداد خوشه ها در حین خوشه بندی تعیین می شود که به این روش، خوشه بندی بدون ناظر گفته می شود. امروزه خوشه بندی به عنوان یک روش یادگیری بدون نظارت در بسیاری مسائل از کارایی خوبی برخوردار است. نتیجه فرآیند خوشه بندی مجموعه توابع تعلق است که به صورت زیر نشان داده می شود. [11] در [12] یک روش پرکاربرد برای خوشه بندی فازی ارائه شده است که مراحل آن به صورت زیر می باشد: -1 انتخاب تصادفی مراکز خوشه ها -2 انتخاب میزان تعلق هر داده به مراکز خوشه ها به گونه ای که شرایط عمومی مساله برآورده شود.