بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
art-of-S eech ( OS) taggi g
art-of-S eech ( OS) یا جزء کلام: مقوله نحوی که هر کلمه به آن تعلق دارد.
نامهای دیگر: word classes، lexical tags، tags
OS taggi g (taggi g): فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی
OSهای اصلی در انگلیسی:
ou s
Verbs
Adjectives
Adverbs
re ositio s (o , to, by, from, with, …)
Determi ers (a, a , the)
ro ou s (she, who, my, others, …)
Co ju ctio s (a d, but, if, …)
Auxiliaries (ca , should, are, …)
articles (u , dow , off, i , out, …)
umerals (o e, two, three, first, seco d, …)
اسلاید 2 :
بسته به کاربرد، ممکن است OS های جزئی تری در پیکره های متنی به کار روند:
Si gular ou s
lural ou s
Com arative adjectives
Su erlative adjectives
Modal verbs
erso al ro ou s
ossessive ro ou s
…
برای علائم نقطه گذاری هم tag های متفاوتی ممکن است به کار رود.
tag setهای مختلف در انگلیسی:
e Treeba k tag set: شامل 45 tag
Brow Cor us tag set: شامل 87 tag
C5 tag set: شامل 61 tag
C7 tag set: شامل 146 tag
در پیکره متنی زبان فارسی (دکتر بیجن خان) حدود 660 tag به کار رفته است.
اسلاید 3 :
OS-taggi g: کاربردها
دانستن مقوله نحوی یک کلمه می تواند اطلاعات بیشتری در مورد خود کلمه و کلمات مجاور آن به ما بدهد.
کاربردها:
مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند.
مثال: در انگلیسی بعد از ضمایر ملکی، اسم و بعد از ضمایر شخصی، فعل می آید.
در فارسی معمولاً بعد از حرف اضافه اسم یا ضمیر می آید.
سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد.
مثال: تلفظ کلمه object در انگلیسی به صورت OBject ( ou ) و obJECT (verb)
تلفظ کلمه ”مرد“ در فارسی به صورت ”مَرد“ (اسم)، ”مُرد“ (فعل)
بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند.
رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند.
مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی
تجزیه نحوی ( arsi g): برای arsi g پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.
اسلاید 4 :
OS taggi g: روش ها
مشکل اصلی در OS taggi g: بعضی از کلمات به چند مقوله نحوی تعلق دارند.
حدود 11.5% از انواع کلمات به کار رفته در پیکره brow دارای بیش از یک tag هستند.
این کلمات حدود 40% پیکره را شامل می شوند.
روش های کلی OS taggi g:
روش های مبتنی بر قاعده (rule based OS taggi g)
روش های آماری ( robabilistic/stochastic OS taggi g)
روش های ترکیبی (tra sformatio -based OS taggi g)
اسلاید 5 :
Rule based OS taggi g
با استفاده از یک سری rule مقوله نحوی کلمات دارای ابهام را با توجه به کلمات مجاور تعیین می کند.
Ruleها به وسیله زبان شناسان نوشته می شوند.
دو مرحله کلی از OS taggi g مبتنی بر قاعده
ابتدا با استفاده از یک دیکشنری تمام tag های ممکن برای کلمات تعیین می شوند.
سپس برای هر کلمه در متن، با استفاده از قواعد و با توجه به کلمات مجاور، یکی از tag ها به عنوان tag اصلی تعیین می شود.
اسلاید 6 :
مثال: I thi k that you are clever
I: RO
thi k: V
that: RO , DET, COM , ADV
you: RO
are: AUX
clever: ADJ
مثالی از یک rule (از E GTWOL tagger)
Adverbial-that rule:
Give i ut: “that”
If
(+1 ADJ/ADV/QUA T)
(+2 SE T-LIM)
( OT -1 V-SVO)
the elimi ate o -ADV tags
else elimi ate ADV tag
اسلاید 7 :
با استفاده از یک پیکره tagخورده، دنباله tagهای ممکن برای دنباله کلمات مختلف را یاد می گیرد و با استفاده از آن محتمل ترین tag برای هر کلمه را پیدا می کند.
مسئله OS taggi g به صورت آماری:
با فرض داشتن دنباله کلمات W=w1…w ، دنباله tag های T=t1…t را طوری پیدا کنید که (T|W) ماکزیمم شود:
با استفاده از قانون بيز:
اسلاید 8 :
محاسبه احتمال هاي فوق در عمل بسيار مشكل است. بنابراين چند فرض ساده كننده براي محاسبه احتمال ها به كار مي رود:
(حاصلضرب احتمالات -gram)
(حاصلضرب احتمالات lexical-ge eratio )
بنابراين بايد دنباله tag ها را طوري پيدا كنيم كه عبارت زير ماكزيمم شود:
اسلاید 9 :
محاسبه احتمالات با استفاده از پیکره برچسب خورده
احتمالات bigram
احتمالات lexical-ge eratio
محاسبه محتمل ترین دنباله از tagها
ساده ترین روش: درنظر گرفتن تمام دنباله های محتمل و محاسبه احتمال هر یک به روش فوق (Brute Force Search)
با فرض داشتن برچسب و T كلمه، حداكثر T دنباله از برچسب ها توليد مي شود.
اسلاید 10 :
زنجيره ماركوف (Markov Chai )
محاسبه احتمال (T) با استفاده از زنجيره ماركوف
زنجيره ماركوف: نوع خاصي از Fi ite State Machi e كه در آن به پرش هاي بين state ها يك احتمال نسبت داده مي شود.
فرض ماركوف مرتبه اول: احتمال بودن در هر state فقط به state قبلي وابسته است.