مقاله تشخیص دست خط فارسی برخط با استفاده از کلاسیفایر حداقل فاصله

word قابل ویرایش
12 صفحه
دسته : اطلاعیه ها
10700 تومان

تشخیص دست خط فارسی برخط با استفاده از کلاسیفایر حداقل فاصله
چکیده – امروزه یکی از مقوله های مورد توجه بشر در علم کامپیوتر تشخیص دست خط است . برای این کار در زبانهای مختلف روشهای متعددی مطرح گردیده که در آنها از تکنیک های متنوعی همانند شبکه های عصبی، روشهای آماری، روشهای ساختاری و غیره جهت تشخیص استفاده شده است . در این مقاله با استفاده از کلاسیفایر حداقل فاصله به تشخیص دست خط فارسی میپردازیم . در این راستا ابتدا تعدادی از ویژگیهای حروف فارسی را بیان نموده سپس با تشکیل بردار ویژگی با استفاده از کلاسیفایر فوق حروف دستنویس را تشخیص میدهیم .

کلید واژه : تشخیص دست خط ، زبان فارسی، استخراج ویژگی ١، کلاسیفایر حداقل فاصله ٢

١- مقدمه
امروزه بازشناسی برخط در تجارت و بانکداری الکترونیکی و روابط بین الملل از اهمیت به سزایی برخوردار است ؛ زیرا در بسیاری از مراکز اداری، تجاری و بانک های بین المللی بدلیل عدم وجود یک صفحه کلید کامل روی کامپیوترهای کوچک و یا عدم تسلط افراد بر تایپ متن های مختلف ، افراد ترجیح میدهند درخواست های مورد نظر خود را به صورت دست نویس ارائه نمایند که در آن متن ورودی توسط یکی از ابزارهای دیجیتالی مانند قلم نوری بر روی صفحات مخصوص این قلم ها یا صفحات قابل لمس ٣ نوشته شده و سیستم متن ورودی را درست بعد از نوشته شدن آن تشخیص میدهد. این سیستمها را مدل برخط ۴ گویند ولی بیشتر تحت عنوان تشخیـص دست خط شناخته می شوند[١][۶].
تاکنون روشهای بسیاری جهت تشخیص دست خط برخط برای زبانهای گوناگون از جمله فارسی مطرح گردیده است .
روشهای مختلفی همچون شبکه های عصبی (چند لایه پرسپترون، شبکه های عصبی با تأخیر زمانی و…)[٣] [۵] [۶]، روشهای آماری (مدل مخفی مارکوف، چند جمله ای، ماشین بردار پشتیبان و …)[٨] [٧] [۵] روشهای ساختاری [٧] و غیره از این جمله میباشند. بیشتر این روشها در کنار الگوریتم اصلی خود برای اجرا نیازمند دادههای ابتدایی هستند که معمولاً در مرحله پیش پردازش و با استفاده از تکنیک های مختلفی بدست میآیند. مرسومترین تکنیک مورد استفاده، استخراج ویژگیهای حروف است که در هر یک از دو روش برونخط و برخط کاربرد فراوانی دارد [٨] .
در این مقاله ، ابتدا سعی بر آن داریم تا با بیان یکسری از ویژگیهای حروف فارسی آنها را با تفکیک پذیری بالایی دسته بندی کنیم . سپس با استفاده از کلاسیفایر حداقل فاصله به تشخیص حروف دستنویس میپردازیم . بدین منظور، در بخش دوم ویژگیهای حروف فارسی را مطرح کرده ، به یک دسته بندی اولیه میرسیم . سپس در بخش سوم، بردار ویژگیهای هر حرف را تشکیل داده و با استفاده ازکلاسیفایر حداقل فاصله به تشخیص نهایی حروف می – پردازیم . در پایان، در بخش چهارم و پنجم به بیان نتایج و جمع بندی نهایی خواهیم پرداخت .

٢ ویژگیهای حروف
هدف اصلی در این قسمت ، بیان آن دسته ویژگیهای موجود در حروف فارسی است که معیار خوبی برای دسته – بندی میباشند. این ویژگیها را میتوان به دو دسته تقسیم نمود که در هر قسمت مجموعه ای از ویژگیهای خاص مورد بررسی قرار میگیرند. این دو دسته به شرح زیر میباشند :
١. ویژگیهای قالبی ۵(الگو)
٢. ویژگیهای آماری
٢-١- ویژگیهای قالبی (الگو)
در این بخش ویژگیهایی که مربوط به الگوی نوشتاری هر حرف است مورد بررسی قرار میگیرد. این ویژگیها بدون نیاز به محاسبات پیچیده و از روی نحوه نوشتن و شکل طبیعی حروف بدست میآیند که شامل موارد زیر میباشند:
١. تعداد بخش ها
٢. جایگاه بخش ها
٣. نوع بخش ها (شناسایی بخش ها)
٢-١-١- تعداد بخش ها
بیشتر حروف فارسی دارای بیش از یک بخش هستند که شامل نقطه ، دسته ، سرکج و مد می باشند. این ویژگی کمک شایانی به تفکیک آن دسته از حروفی میکند که دارای بدنه اصلی مشابه و بخش (های) اضافی متفاوت در شکل طبیعی – شان هستند. به عنوان مثال، با استفاده از این ویژگی می – توان بین حرف “س ” و همتای نقطه دار آن یعنی “ش ” تمایز قائل شد. در جدول (١) حروف براساس تعداد بخش ها دسته بندی گردیده اند.

 تکرار حروف در چندین بخش به جهـت تنـوع نوشـتاری بخش های حروف است . به عنـوان مثـال، بخـش اضـافی حرف “پ ” را می توان به سه صورت سه نقطه مجزا، دو نقطه به همراه یک نقطه و سه نقطه سرهم نوشت .

٢-١-٢-جایگاه بخش ها
این ویژگی بیان کننده جایگاه قرارگیری بخش (های) اضافی هر حرف نسبت به بدنه اصلی آن است . به عنوان مثال قرار گرفتن نقطه ها در بالا در مورد حرف “ث ” و در پایین در مورد حرف “پ ” سبب تفکیک این دو حرف از یکدیگر می – گردد. بدیهی است که این ویژگی تنها در مورد حروفی قابل استفاده است که حداقل بیش از یک بخش داشته باشند.
جدول (٢) حروف را براساس جایگاه بخش (های) اضافی آنها دسته بندی میکند.

٢-١-٣- نوع بخش ها (شناسایی بخش ها)
علاوه بر تعداد و جایگاه بخش ها، نوع هر بخش نیز میتواند در دسته بندی حروف مورد استفاده قرار گیرد. حروف مطابق
جدول (٣) در هفت دسته طبقه بندی میشوند :
• نقاط : جداسازی حروف به چهار دسته بدون نقطـه ، تک نقطه ای، دو نقطه ای و سه نقطه ای
• ســرکج : تفکیــک دو حــرف “ک ” و “گ ” از کــل حروف و جداسازی این دو از یکدیگر
• دسته : تفکیک دو حرف “ط ” و “ظ ” از کل حروف
• مد : تفکیک حرف “آ” از سایر حروف
جدول (٣) دسته بندی حروف را براساس نوع بخش (های) آنها نمایش میدهد.
جدول (٣): دسته بندی حروف براساس نوع بخش های اضافی

تا این مرحله ،به تفکیک نسبتاً مناسبی از حروف دست یافتیم که در هر دسته ، تنها ساختار بدنه اصلی حروف متفاوت است . در ادامه ، به بررسی ویژگی هایی میپردازیم که انواع ساختارهای مختلف بدنه اصلی را در دسته های جدا تفکیک میکنند.
٢-٢- ویژگیهای آماری
ویژگیهای آماری به آن دسته از ویژگیها اطلاق میگردد که نیازمند محاسبات پیچیدهتری بوده و براساس اطلاعات آماریی که از یک حرف استخراج میشود، بدست میآیند. به منظور استخراج این ویژگیها، از ٨٠ نفر مختلف نمونه هایی جمع آوری گردید.
٢-١-۴-ناحیه بندی
به منظور ایجاد تمایز در ساختار بدنه اصلی حروف، از ناحیه بندی استفاده میکنیم . بدین ترتیب ، هر حرف در چارچوبی فرضی در نظر گرفته شده و با استفاده از دو خط تقسیم کنندهای که وسط اضلاع چارچوب را به هم متصل میکنند، هر حرف به چهار قسمت مساوی تقسیم میشود.
نسبت اندازه طول به عرض چارچوب فوق، تعداد و ترتیب نواحی پرشده،برای تشخیص مورد استفاده قرار میگیرد:
• نسبت ارتفاع به پهنا
این ویژگی در تفکیک حروفی که از نظر نسبت ارتفاع به پهنا یا بالعکس دارای شکل منحصر به فردی هستند قابل استفاده است . به عنوان مثال، این ویژگی معیار خوبی برای جدا کردن حرف “ا” از حروف دیگر است . براین مبنا، دسته بندی طبق جدول (۵) صورت میگیرد:
جدول (۵): دسته بندی حروف براساس نسبت ارتفاع به پهنا

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
word قابل ویرایش - قیمت 10700 تومان در 12 صفحه
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد