بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

art-of-S eech ( OS) taggi g

art-of-S eech ( OS) یا جزء کلام: مقوله نحوی که هر کلمه به آن تعلق دارد.

 

نامهای دیگر: word classes، lexical tags، tags

 

OS taggi g (taggi g): فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی

 

OSهای اصلی در انگلیسی:

ou s

Verbs

Adjectives

Adverbs

re ositio s (o , to, by, from, with, …)

Determi ers (a, a , the)

ro ou s (she, who, my, others, …)

Co ju ctio s (a d, but, if, …)

Auxiliaries (ca , should, are, …)

articles (u , dow , off, i , out, …)

umerals (o e, two, three, first, seco d, …)

اسلاید 2 :

بسته به کاربرد، ممکن است OS های جزئی تری در پیکره های متنی به کار روند:

Si gular ou s

lural ou s

Com arative adjectives

Su erlative adjectives

Modal verbs

erso al ro ou s

ossessive ro ou s

برای علائم نقطه گذاری هم tag های متفاوتی ممکن است به کار رود.

 

tag setهای مختلف در انگلیسی:

e Treeba k tag set: شامل 45 tag

Brow Cor us tag set: شامل 87 tag

C5 tag set: شامل 61 tag

C7 tag set: شامل 146 tag

 

در پیکره متنی زبان فارسی (دکتر بیجن خان) حدود 660 tag به کار رفته است.

اسلاید 3 :

OS-taggi g: کاربردها

دانستن مقوله نحوی یک کلمه می تواند اطلاعات بیشتری در مورد خود کلمه و کلمات مجاور آن به ما بدهد.

 

کاربردها:

مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند.

مثال: در انگلیسی بعد از ضمایر ملکی، اسم و بعد از ضمایر شخصی، فعل می آید.

در فارسی معمولاً بعد از حرف اضافه اسم یا ضمیر می آید.

سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد.

مثال: تلفظ کلمه object در انگلیسی به صورت OBject ( ou ) و obJECT (verb)

تلفظ کلمه ”مرد“ در فارسی به صورت ”مَرد“ (اسم)، ”مُرد“ (فعل)

بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند.

رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند.

مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی

تجزیه نحوی ( arsi g): برای arsi g پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.

اسلاید 4 :

OS taggi g: روش ها

مشکل اصلی در OS taggi g: بعضی از کلمات به چند مقوله نحوی تعلق دارند.

حدود 11.5% از انواع کلمات به کار رفته در پیکره brow دارای بیش از یک tag هستند.

این کلمات حدود 40% پیکره را شامل می شوند.

 

روش های کلی OS taggi g:

روش های مبتنی بر قاعده (rule based OS taggi g)

روش های آماری ( robabilistic/stochastic OS taggi g)

 

روش های ترکیبی (tra sformatio -based OS taggi g)

اسلاید 5 :

Rule based OS taggi g

با استفاده از یک سری rule مقوله نحوی کلمات دارای ابهام را با توجه به کلمات مجاور تعیین می کند.

Ruleها به وسیله زبان شناسان نوشته می شوند.

 

دو مرحله کلی از OS taggi g مبتنی بر قاعده

ابتدا با استفاده از یک دیکشنری تمام tag های ممکن برای کلمات تعیین می شوند.

سپس برای هر کلمه در متن، با استفاده از قواعد و با توجه به کلمات مجاور، یکی از tag ها به عنوان tag اصلی تعیین می شود.

اسلاید 6 :

مثال: I thi k that you are clever

I: RO

thi k: V

that: RO , DET, COM , ADV

you: RO

are: AUX

clever: ADJ

مثالی از یک rule (از  E GTWOL tagger)

Adverbial-that rule:

Give i ut: “that”

If

  (+1 ADJ/ADV/QUA T)

  (+2 SE T-LIM)

  ( OT -1 V-SVO)

the elimi ate o -ADV tags

else elimi ate ADV tag

اسلاید 7 :

با استفاده از یک پیکره tagخورده، دنباله tagهای ممکن برای دنباله کلمات مختلف را یاد می گیرد و با استفاده از آن محتمل ترین tag برای هر کلمه را پیدا می کند.

 

مسئله OS taggi g به صورت آماری:

با فرض داشتن دنباله کلمات W=w1…w ، دنباله tag های T=t1…t را طوری پیدا کنید که (T|W) ماکزیمم شود:

 

 

با استفاده از قانون بيز:

 

اسلاید 8 :

محاسبه احتمال هاي فوق در عمل بسيار مشكل است. بنابراين چند فرض ساده كننده براي محاسبه احتمال ها به كار مي رود:

 

(حاصلضرب احتمالات -gram)

 

 

(حاصلضرب احتمالات lexical-ge eratio )

 

بنابراين بايد دنباله tag ها را طوري پيدا كنيم كه عبارت زير ماكزيمم شود:

اسلاید 9 :

محاسبه احتمالات با استفاده از پیکره برچسب خورده

 

احتمالات bigram

 

احتمالات lexical-ge eratio

 

محاسبه محتمل ترین دنباله از tagها

ساده ترین روش: درنظر گرفتن تمام دنباله های محتمل و محاسبه احتمال هر یک به روش فوق (Brute Force Search)

با فرض داشتن برچسب و T كلمه، حداكثر T دنباله از برچسب ها توليد مي شود.

اسلاید 10 :

زنجيره ماركوف (Markov Chai )

محاسبه احتمال (T) با استفاده از زنجيره ماركوف

 

زنجيره ماركوف: نوع خاصي از Fi ite State Machi e كه در آن به پرش هاي بين state ها يك احتمال نسبت داده مي شود.

فرض ماركوف مرتبه اول: احتمال بودن در هر state فقط به state قبلي وابسته است.

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید