بخشی از پاورپوینت

اسلاید 1 :

حضرت علی علیه السلام:
هرگاه خداوند بنده ای را پست و ذلیل فرماید علم را برای او ممنوع می‏سازد
92/5/9

اسلاید 2 :

ساختار ارائه
معرفی برچسب گذار
کاربردها
روشها
شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارسی
ایجاد دیکشنری
ایجاد و ارزیابی قواعد
کلمات ناشناخته
شناسایی فعل
ارزیابی

اسلاید 3 :

نمونه ابزار انگلیسی
ورودی:


خروجی

اسلاید 4 :

نمونه ابزار انگلیسی (ادامه)

اسلاید 5 :

کاربردها
مدل سازی زبانی (در بازشناسی گفتار و .): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند.
مثال: انگلیسی: ضمایر ملکی+ اسم
فارسی: حرف اضافه (اسم یا ضمیر)
سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد.
مثال: تلفظ OBject (noun) و obJECT (verb)
تلفظ”مَرد“ (اسم)، ”مُرد“ (فعل)
بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند.
رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند.
مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی
تجزیه نحوی (parsing): برای parsing پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.

اسلاید 6 :

روشها
روش های کلی POS tagging:
روش های مبتنی بر قاعده (rule based POS tagging)
دیکشنری ----> tags
قواعد +مجاور ----> tag

روش های آماری (probabilistic/stochastic POS tagging)



روش های ترکیبی (transformation-based POS tagging)

اسلاید 7 :

ارزیابی
پيكره متني به دو بخش تقسيم مي شود:
80-90% از پيكره براي آموزش (train)
10-20% از پيكره براي آزمون (test)

با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس POS tagging برروي داده آزمون تست مي شود.

تكنيك اعتبارسنجي متقابل 5 قسمتي:
پيكره متني به K قسمت مساوي تقسيم مي شود.
در هر مرحله از ارزيابي، يك بخش براي آزمون و K-1 بخش ديگر براي آموزش به كار مي رود.
اين روند K بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته مي شود.

دقت POS tagging:

اسلاید 8 :

بخش دوم
پیاده سازی برچسب گذار زبان فارسی

اسلاید 9 :

ایجاد دیکشنری
ترکیب هر سه پیکره (آموزش ، تست و ارزیابی)
نرمالسازی متن
شمارش تگهای هر کلمه
167واردADJ
12واردN
پر تکرار ترین برچسب به عنوان تگ پیشفرض

اسلاید 10 :

قواعد
انواع قوانین
TAG-1 TAG-2 TAG-3
TAG-3  TAG-X when TAG-2 @ (-1) TAG-1 @ (-2)
TAG-1  TAG-X when TAG-2 @ (+1) TAG-3 @ (+2)
TAG-2  TAG-X when TAG-3 @ (+1)

استفاده از قواعد قبلی
ساخت قواعد جدید

اسلاید 11 :

ایجاد قواعد جدید
استخراج سه گانه های داخل متن





محاسبه مجموع دفعات ظهور هر سه گانه
PREPNN
NNN
NNPREP
NPREPN
PREPNPUNC
NPUNCPREP
PUNCPREPN
PREPNN
NNADJ
NADJN
ADJNPREP
.

اسلاید 12 :

ایجاد قواعد جدید (ادامه)
دسته بندی و محاسبه درصد وقوع در هر دسته
DJADVN32.75%
DJADVPREP26.95%
DJADVV15.37%
DJADVDJ10.33%
DJADVPRENUM4.03%
DJADVADV3.27%
DJADVPUNC2.27%
DJADVSUBR2.02%
DJADVPREM1.76%
DJADVPR1.26%
تبدیل سه گانه های کم تکرار به سه گانه های پر تکرار
PR  N when ADV @ (-1) DJ @ (-2)
PR  PREP when ADV @ (-1) DJ @ (-2)
تست قواعد

اسلاید 13 :

دسته بندی قواعد
کلمه «سراسر»
دوPRENUMNPOSNUMPREM
دومPOSNUMNADJPRENUM
راPOSTPPARTNPREP
سرNPREPIDENADJ
سراسرNADJPREMADV
علامهNIDENADJN
علمیهADJNADJN

اسلاید 14 :

بهبود عملکرد
افعال چند بخشی
شناسایی فعل کمکی و ترکیب با فعل اصلی
شناسایی کلمات ناشناخته= توجه به وندها
وندهای سازنده صفات نظیر: انگیز، گیر ، مند و .
وندهای صرف افعال: اند ، اید ، ایم و .
وندهای اسامی جمع: ان ، گان، ها
.
تگ پیشفرض = اسم مفرد

اسلاید 15 :

ارزیابی

اسلاید 16 :

کارهای آتی
تست قواعد و بهبود آنها
توسعه برچسب گذار در لایه دوم
ایجاد پارسر زبان فارسی

اسلاید 17 :

با سپاس از توجهتان

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید