بخشی از پاورپوینت
اسلاید 1 :
حضرت علی علیه السلام:
هرگاه خداوند بنده ای را پست و ذلیل فرماید علم را برای او ممنوع میسازد
92/5/9
اسلاید 2 :
ساختار ارائه
معرفی برچسب گذار
کاربردها
روشها
شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارسی
ایجاد دیکشنری
ایجاد و ارزیابی قواعد
کلمات ناشناخته
شناسایی فعل
ارزیابی
اسلاید 3 :
نمونه ابزار انگلیسی
ورودی:
خروجی
اسلاید 4 :
نمونه ابزار انگلیسی (ادامه)
اسلاید 5 :
کاربردها
مدل سازی زبانی (در بازشناسی گفتار و .): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند.
مثال: انگلیسی: ضمایر ملکی+ اسم
فارسی: حرف اضافه (اسم یا ضمیر)
سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد.
مثال: تلفظ OBject (noun) و obJECT (verb)
تلفظ”مَرد“ (اسم)، ”مُرد“ (فعل)
بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند.
رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند.
مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی
تجزیه نحوی (parsing): برای parsing پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.
اسلاید 6 :
روشها
روش های کلی POS tagging:
روش های مبتنی بر قاعده (rule based POS tagging)
دیکشنری ----> tags
قواعد +مجاور ----> tag
روش های آماری (probabilistic/stochastic POS tagging)
روش های ترکیبی (transformation-based POS tagging)
اسلاید 7 :
ارزیابی
پيكره متني به دو بخش تقسيم مي شود:
80-90% از پيكره براي آموزش (train)
10-20% از پيكره براي آزمون (test)
با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس POS tagging برروي داده آزمون تست مي شود.
تكنيك اعتبارسنجي متقابل 5 قسمتي:
پيكره متني به K قسمت مساوي تقسيم مي شود.
در هر مرحله از ارزيابي، يك بخش براي آزمون و K-1 بخش ديگر براي آموزش به كار مي رود.
اين روند K بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته مي شود.
دقت POS tagging:
اسلاید 8 :
بخش دوم
پیاده سازی برچسب گذار زبان فارسی
اسلاید 9 :
ایجاد دیکشنری
ترکیب هر سه پیکره (آموزش ، تست و ارزیابی)
نرمالسازی متن
شمارش تگهای هر کلمه
167واردADJ
12واردN
پر تکرار ترین برچسب به عنوان تگ پیشفرض
اسلاید 10 :
قواعد
انواع قوانین
TAG-1 TAG-2 TAG-3
TAG-3 TAG-X when TAG-2 @ (-1) TAG-1 @ (-2)
TAG-1 TAG-X when TAG-2 @ (+1) TAG-3 @ (+2)
TAG-2 TAG-X when TAG-3 @ (+1)
استفاده از قواعد قبلی
ساخت قواعد جدید
اسلاید 11 :
ایجاد قواعد جدید
استخراج سه گانه های داخل متن
محاسبه مجموع دفعات ظهور هر سه گانه
PREPNN
NNN
NNPREP
NPREPN
PREPNPUNC
NPUNCPREP
PUNCPREPN
PREPNN
NNADJ
NADJN
ADJNPREP
.
اسلاید 12 :
ایجاد قواعد جدید (ادامه)
دسته بندی و محاسبه درصد وقوع در هر دسته
DJADVN32.75%
DJADVPREP26.95%
DJADVV15.37%
DJADVDJ10.33%
DJADVPRENUM4.03%
DJADVADV3.27%
DJADVPUNC2.27%
DJADVSUBR2.02%
DJADVPREM1.76%
DJADVPR1.26%
تبدیل سه گانه های کم تکرار به سه گانه های پر تکرار
PR N when ADV @ (-1) DJ @ (-2)
PR PREP when ADV @ (-1) DJ @ (-2)
تست قواعد
اسلاید 13 :
دسته بندی قواعد
کلمه «سراسر»
دوPRENUMNPOSNUMPREM
دومPOSNUMNADJPRENUM
راPOSTPPARTNPREP
سرNPREPIDENADJ
سراسرNADJPREMADV
علامهNIDENADJN
علمیهADJNADJN
اسلاید 14 :
بهبود عملکرد
افعال چند بخشی
شناسایی فعل کمکی و ترکیب با فعل اصلی
شناسایی کلمات ناشناخته= توجه به وندها
وندهای سازنده صفات نظیر: انگیز، گیر ، مند و .
وندهای صرف افعال: اند ، اید ، ایم و .
وندهای اسامی جمع: ان ، گان، ها
.
تگ پیشفرض = اسم مفرد
اسلاید 15 :
ارزیابی
اسلاید 16 :
کارهای آتی
تست قواعد و بهبود آنها
توسعه برچسب گذار در لایه دوم
ایجاد پارسر زبان فارسی
اسلاید 17 :
با سپاس از توجهتان