بخشی از پاورپوینت
اسلاید 1 :
- اغلب تحقيقات انجام شده در زمينه تعيين هويت نويسنده بر روي زبان انگليسي متمركز بوده و تاكنون مطالعاتي در زمينه متون دستنويس فارسي گزارش نشده است. بنابراين در اين مقاله روشي براي تعيين هويت نويسنده بر اساس متن دست نويس فارسي پيشنهاد شده كه به صورت برون خط و مستقل از متن انجام مي شود. بر اساس ايده مطرح شده در مطالعات قبلي، در روش پيشنهادي تصوير متن دست نويس به صورت يك بافت در نظر گرفته شده و پس از مرحله نرمال سازي، با كمك فيلترهاي گابور ويژگي هاي متن استخراج مي شود. ويژگي روش پيشنهادي استفاده از بانك فيلتري است كه با ساختار متون دستنويس فارسي و همچنين سيستم بينايي تناسب بيشتري دارد. علاوه بر اين روش جديدي جهت استخراج ويژگيها از خروجي فيلترهاي گابور پيشنهاد شده كه مبتني بر ويژگي انرژي گابور و گشتاورهاي هندسي است.
اسلاید 2 :
- 1- روشهاي برون خط (off line): در اين روشها فقط تصوير متن دستنويس در دسترس است و ويژگيها با توجه به كل تصوير يا ساختار كلمه ها و نويسه ها استخراج مي شوند. در اين روشها بسياري از اطلاعات ديناميكي كه مربوط به طرز نوشتن افراد است، از دست مي رود و اين امر كار را نسبت به روشهاي برخط مشكلتر مي سازد. روشهاي برون خط را مي توان به دو گروه كلي وابسته به متن و مستقل از متن نيز دسته بندي كرد. در روشهاي وابسته به متن، بايد متن ثابتي توسط نويسنده نوشته شود تا بتوان هويت وي را مشخص نمود اما در روشهاي مستقل از متن، با استفاده از هر نوع متني هويت نويسنده آن مشخص مي گردد.
- 2- روشهاي برخط (on line): در اين روشها علاوه بر ويژگيهاي برون خط از اطلاعات ديناميكي مثل فشار قلم، ترتيب نوشتن، سرعت نوشتن، فرم ضربه هاي قلم و غيره نيز استفاده مي شود. بنابراين بدليل داشتن اطلاعات بيشتر، تعيين هويت با دقت بيشتري انجام مي شود اما اين روشها كاربردهاي محدودتري را شامل مي شوند.
اسلاید 3 :
2- روش پيشنهادي
- در اين روش از ايده مطرح شده در [8] استفاده شده و تصوير متن دست نويس بصورت يك بافت در نظر گرفته شده است. براي اين منظور ابتدا مراحل نرمال سازي بر روي تصوير متن انجام شده و سپس ويژگيهاي متن به كمك بانكي از فيلترهاي گابور استخراج مي شوند. با كمك اين ويژگيها و يك طبقه بندي كننده هويت متن دست نويس ورودي تعيين مي گردد. در ادامه به شرح هر يك از اين مراحل خواهيم پرداخت.
2-1- نرمال سازي تصوير
- روشهاي تحليل بافت را نمي توان مستقيماً براي تصوير متن دست نويس به كار گرفت و ابتدا بايد تصوير را نسبت به تأثير عواملي مثل فاصله خطوط، كلمات و غيره نرمال سازي نمود تا بلوكي يكنواخت از متن دست نويس مورد نظر حاصل شود. مراحل نرمال سازي تصوير متن عبارتند از:
اسلاید 4 :
- (الف) به منظور استخراج خطوط و كلمات موجود در متن، معمولاً از منحني نماي نيم رخ تصوير باينري استفاده مي شود [9]. در اين مقاله ما نسخه اي تغيير يافته از اين الگوريتم كه براي تصاوير سطوح خاكستري پيشنهاد شده [10]، را استفاده نموده ايم. ابتدا نماي نيم رخ افقي تصوير محاسبه شده و سپس با يك فيلتر پايين گذر گاسين هموارسازي مي شود. هموارسازي ماكزيمم هاي محلي را حذف نموده و حساسيت به نويز را كاهش مي دهد. در شكل 1 تصوير متن دستنويس، منحني نيم رخ افقي و منحني هموارسازي شده متناظر با آن را مشاهده مي كنيم. در اين منحني قله ها متناظر با فاصله بين خطوط و دره ها متناظر با مركز خطوط متن هستند كه براي يافتن قله ها يا خطوط در متن مي توان نقاط صفر در مشتق منحني را محاسبه نمود. به دليل خطي بودن كانولوشن، هموارسازي و مشتق گيري را مي توان در يك مرحله انجام داد. پس براي يافتن خطوط متن كافي است منحني نماي نيم رخ افقي را با مشتق تابع گاسين فيلتر نماييم.
اسلاید 5 :
- (ب) هر يك از خطوط متن كه در مرحله قبل پيدا شدند، باينري شده و سپس نماي نيم رخ عمودي مربوط به آن محاسبه مي شود. با كمك اين منحني فاصله هاي بين كلمات را پيدا مي كنيم و فاصله هايي كه اندازه آنها از 5 نقطه بيشتر باشد را با مقدار 5 نقطه نرمال مي كنيم. بنابراين فاصله كلمات حداكثر 5 نقطه خواهد بود و فاصله هاي كمتر از 5 نقطه نيز بعنوان فاصله هاي بين حروف در نظر گرفته مي شوند. همچنين در صورتي كه انتهاي خط خالي باشد، با تكرار مجدد آنرا به حدي پر مي كنيم كه طول خط به اندازه مشخصي (در اين مقاله 256 نقطه) برسد. فاصله بين خطوط متن را نيز با مقدار مشخصي تنظيم مي كنيم. مرحله نرمال سازي فاصله بين كلمات، فاصله بين خطوط و پر كردن خطوط در شكل 2-الف ارايه شده است.
- (ج) در صورت خالي بودن بخش انتهايي تصوير، آنرا با تكرار مجدد خطوط ابتدايي تصوير به نحوي پر مي كنيم كه طول تصوير به اندازه مشخصي (در اين مقاله 384 نقطه) برسد. در شكل 2-ب تصوير نرمال سازي شده نهايي ارايه شده است.
اسلاید 6 :
2-2-1- استخراج ويژگي روش پيشنهادي
- تحقيقات علم فيزيولوژي نشان مي دهد كه پردازش اطلاعات تصويري در سيستم بينايي، توسط مجموعه اي از مكانيسم هاي موازي به نام كانالها انجام مي شود به طوريكه هر كانال براي يك باند فركانسي كم پهنا و با جهت مشخص تنظيم مي گردد. به لحاظ رياضي هر يك از اين كانالها با يك جفت فيلتر ميان گذر گابور مدل سازي مي شوند. ما در روش پيشنهادي از فيلترهاي گابور چند كانالي كه در [13] معرفي شده اند، استفاده كرده ايم. ويژگي اين فيلترها در نظرگرفتن يافته هاي تجربي در طراحي آنهاست و با رابطه زير تعريف مي شوند:
اسلاید 7 :
2-2-2- انرژي گابور
- انرژي گابور بعنوان يك ويژگي مفيد در روشهاي مبتني بر فيلترهاي گابور مورد استفاده قرار مي گيرد. همچنين فيلترهاي گابور چند كانالي و ويژگي انرژي گابور در [11]، براي تعيين نوع زبانِ متون چاپي به كار رفته اند. Zhu از انرژي گابور براي شناسايي نوع قلم در زبان انگليسي و چيني استفاده كرد [12]. در اين مقاله مقدار انرژي گابور را براي بانك فيلتر طراحي شده محاسبه نموده و چون شكل هيستوگرام تصاوير پاسخ اغلب شبيه به يك تابع گاسين است [11]، بنابراين ميانگين و انحراف معيار هر 24 تصوير انرژي گابور محاسبه شده و بردار ويژگي نهايي را تشكيل مي دهند. براي هر تصوير بلوك ورودي يك بردار ويژگي 48 تايي بدست خواهد آمد.
اسلاید 8 :
2-2-3- تبديل فوريه انرژي گابور
- Tan [17] مجموعه اي از ويژگي هايي را پيشنهاد نمود كه بر اساس تبديل فوريه انرژي گابور محاسبه شه و نسبت به چرخش نيز حساس نمي باشند. با كمك اين ويژگيها، نوع زبان در متون چاپي تشخيص داده مي شود. در اين روش ابتدا انرژي گابور محاسبه شده و سپس مقدار متوسط براي تصوير انرژي گابور با رابطه زير محاسبه مي گردد:
- تصوير انرژي گابور و مساحت تصوير انرژي گابور است. براي يك فركانس ثابت ، تبديل فوريه يا بسادگي محاسبه شده و ضرايب فوريه به عنوان ويژگي بكار مي روند.
اسلاید 9 :
2-2-6- روش Said
- در اين مقاله ويژگي هايي كه توسط Said [8] براي متون دستنويس انگليسي پيشنهاد شده را نيز مورد بررسي قرار داده ايم. در اين روش فيلترهاي گابوري كه در [18] معرفي شده است، استفاده شده و هر كانال توسط يك جفت فيلتر گابور مدل سازي مي شود. مقدار انرژي گابور به ازاي چهار جهت ْ0,45,90,135 و چهار فركانس f=32,16,8,4 محاسبه مي شود و ميانگين و انحراف معيار آن به عنوان ويژگي مورد استفاده قرار مي گيرند.
2-2-7- ماتريس هم وقوعي
- ماتريس هم وقوعي به عنوان يك روش سنتي در بحث تحليل بافت پياده سازي شده و نتايج آن مورد بررسي قرار گرفته اند. ماتريس هم وقوعي بلوك مورد نظر به ازاي چهار جهت ْ0,45,90,135 و چهار فاصله d=1,2,3,4 محاسبه شده و به دليل باينري بودن تصاوير، يك ماتريس هم وقوعي 2*2 به ازاي هر جهت و فاصله مشخص به دست مي آيد. به دليل تقارن قطري، سه عنصر از چهار عنصر هر ماتريس به عنوان ويژگي در نظر گرفته مي شود كه در نهايت براي هر تصوير بلوك ورودي 48 ويژگي بدست خواهد آمد.
اسلاید 10 :
2-3- تعيين هويت نويسنده
- در مسئله تعيين هويت نويسنده، استفاده از روشهايي چون ماشين بردار پشتيبان يا شبكه هاي عصبي چند لايه چندان مناسب به نظر نمي رسد زيرا بار محاسباتي اين روشها براي داده هاي واقعي توجيه پذير نخواهد بود. بنابراين از فاصله اقليدسي وزن دار و فاصله x2 جهت تعيين هويت استفاده نموده ايم. چون فاصله x2 داراي دقت بهتري بود، در اين مقاله فقط نتايج مربوط به اين طبقه بندي كننده ارائه مي شوند. فاصله x2 براي ويژگي هاي دو متن مورد نظر با رابطه زير تعريف مي شود:
- در اين رابطه fki ويژگي kام متن ورودي iام و mkj ميانگين ويژگي kام نويسنده jام است كه با استفاده از بلوكهاي آموزشي مربوط به وي محاسبه مي شود.