بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
ساختواژه فارسي و كلمات
وندها مانند نشانه جمع، ضمایر ملکی، کسره اضافه و ...
کتابــهــایـــم
ساختواژه افعال
ابهام در ساختواژه
مردی: نکره ، شناسه دوم شخص
تشخيص كران كلمات
«کتابها»، «کتاب ها»، «کتابها»
اسلاید 2 :
اولين كار براي برچسب گذاري زبان فارسي
آسی و حاجی عبدالحسینی 2000
Megerdoomian 2004
Raja et al 2007
ارومچیان 2006 و 2007
(مرادزاده، 1383 )
(بي جن خان و مرادزاده، 1383 )
اسلاید 3 :
چند نمونه پیکره
پیکره موازی زبان فارسی
همشهری
پیکره بی جن خان*
2.6 میلیون تگ دستی
4300 موضوع: حقوقي، سياسي، حسابداري، اقتصادي و ...
76706 واژه
اسلاید 4 :
دو نسخه
حدود 500 تا 600 برچسب
برچسبها در سه دسته
1 برچسب هاي نحوي –ساختواژي
اسم، فعل، صفت، قيد، حرف ربط، حرف اضافه، حرف
2 برچسب هاي خاص
ادات شرط، كيفيت نما، كلمه پرسشي، جمله واره، حرف ندا، منادي،
3 برچسب هاي متفرقه
جداكننده، علامت رياضي.
اسلاید 5 :
وجود انواع تکواژها در زبانهای خاص مثل فارسی
.1تكواژهاي تصريفي
معمولا براي ساخت كلماتي استفاده مي شوند كه حامل مفاهيم دستوري در جمله باشند
.2تكواژهاي اشتقاقي
كلمات جديد را مي سازند كه بار مفهومي خاصي را منتقل مي كنند.
.3تکواژهای ترکیبی
اسلاید 6 :
مشکل
تعداد برچسب هاي متمايز پيكره زیاد و فراوانی کم
تفسيرهاي متفاوت كلمات با بن واژه يكسان
دخترم N,COM,SIM,1
دختر N,COM خوبم ADJ,CMPR,SIM,1
راه حل تکواژهای تصریفی
سيستم برچسب گذاري را به يك تحليل گر ساختواژي مجهز كرد.
اسلاید 7 :
.3حال با توجه به جدول بخش قبل کلمه و برچسب آن هر دو تجزیه می شوند
مثال
کتابها (N,COM,PL)
کتاب + ها (N,COM) + (PL)
.4انجام برچسب گذاری
اسلاید 8 :
.2توزیع احتمالی کلمات ناشناخته
مقادير احتمالي توزيع مي تواند در برچسب گذارهاي آماري به طور مستقيم استفاده شود
روشهای پیدا کردن توزیع:
پیکره دو بخشی
کلمات ناشناخته = کلماتی که در مجموعه آموزش نیستند
نیاز به پیکره بزرگ
کلمات کم تکرار
کلماتی که یک در کل پیکره ظاهر شدند
اسلاید 9 :
(3يكساني تظاهر واجي و نوشتاري تكواژها:
/ja' aani/ . ياء نكره: جواني را ديدم
/ja aa'ni/ . ياء اسم ساز: جواني نعمتي است
/ja' aani / . ياء شناسه: تو هنوز جواني
/ ja aa'ni / .... ياء نسبت: مشكلات جواني
(4رابطه بين وزن كلمات عربي و بعضي پسوندهاي فارسي
منزلت
اسلاید 10 :
راه حل : لیست تصمیم گیری
.1جمع آوري و برچسب گذاري مجموعه آموزشي
.2به دست آوردن توزيع هاي باهم آيي
کلمات قبل و بعد
.3محاسبه نرخ درست نمايي