بخشی از مقاله

ارائه روشي جهت برچسب گذاري اجزاي واژگاني کلام در زبان فارسي
چکيده
يکي از کارهاي اساسي در پردازش زبان طبيعي ، برچسب گذاري اجزاي واژگاني کلام است . کار برچسب گذار، نشانه گذاري هر لغت در متن با مناسب ترين دسته نحوي است . در سيستم هاي برچسب گذار، برچسب گذاري کلمات ناشناخته و رفع ابهام از برچسب ها حائز اهميت است و در روش پيشنهاد شده در اين مقاله اين دو حوزه بهبود داده شده است . داشتن يک برچسب گذار دقيق در بسياري حوزههاي اطلاعات مانند بازيابي اطلاعات، استخراج اطلاعات، سيستم تبديل گفتار به متن ، تجزيه و تحليل زباني و غيره کاربرد دارد. نتايج حاصل از آزمايشات انجام شده، نشاندهنده افزايش درصد درستي در برچسب گذاري لغات ناشناخته در زبان فارسي با استفاده از روش پيشنهادي در مقايسه با ساير روشهاي برچسب گذاري مانند برچسب گذار تريگرام و برچسب گذار تخمين احتمال بيشينه مي باشد.
کلمات کليدي
برچسب گذاري اجزاي واژگاني کلام، زبان فارسي ، لغات ناشناخته



١- مقدمه
برچسب گذاري اجزاي واژگاني کلام ١ عمل انتساب برچسب هاي واژگاني به کلمات و نشانه هاي تشکيل دهنده يک متن است ، به صورتي که اين برچسب ها نشاندهنده نقش کلمـات و نشـانه هـا در جملـه باشـند. در مرجع [١]، بيان شده که روش هاي برچسب گذاري را مـي تـوان بـه دو دسته کلي تقسيم نمود: دسته اول روشهاي آماري و دسته دوم روش- هاي غير آماري قاعده بنياد هستند. در رويکردهاي آمـاري دنبالـه اي از برچسب ها انتخاب مي شوند که حاصل ضرب احتمال تخصيص برچسـب صحيح به لغت بر اساس برچسب هاي پيشين را بيشينه کند و از پيکره هاي برچسب خورده بهره مي جويند. رويکردهاي غير آمـاري و مبتنـي بر قانون، با استفاده از قوانين و واژگـان بـه رفـع ابهـام دسـتوري مـي - پردازند. اين قوانين مي توانند با دست نوشته شده باشند يا يـاد گرفتـه شوند. نمونه هايي از روشهاي برچسب گذاري عبارتنـداز: مـدل پنهـان مارکوف، روش تخمين احتمال بيشينه و سيستم هاي مبتني بر حافظه .
يکي از مسائل مهم در سيستم هاي برچسب گذاري ، برچسب گذاري کلمات ناشناخته است . روشهاي برچسب گذاري کلمات ناشناخته به سه دسته تقسيم مي شوند.
روش اول: برچسب DEFAULT به کلمه ناشناخته داده شود، که در مرجع [٢] ، رجا و همکاران (٢٠٠٧)، ارومچيان و همکاران (٢٠٠٦) نشان داده شده که دقت اين روش کم است (حدود ١٥% در کلمات ناشناخته و ٩٦.٦٠% براي کلمات شناخته شده).
روش دوم : برچسب N_SING به کلمه ناشناخته داده شود که در مرجع [٢-٣]، گزارش شده اين رويکرد دقت کلمات ناشناخته را حدود ٥٤% بهبود مي بخشد.
روش سوم : با توجه به ساختار کلمه ناشناخته (اتصال وندها) به کلمه مورد نظر برچسب داده شود. اين روش در مرجع [٤] ارائه شده است و نتايج ارائه شده در مرجع [٤] حاکي از برتري اين روش نسبت به دو روش قبل است .
از آنجا که در سيستم هاي رچسب گذار پيشين براي برخي از کلمات با وجود اينکه در پيکره موجود هستند برچسب درستي تشخيص داده نمي شود، لذا در اين مقاله ابتدا خود لغت در پيکره جستجو مي شود و در صورت يافت شدن فقط يک برچسب ، همان برچسب به لغت نسبت داده خواهد شد. اما در صورتي که کلمه ناشناخته باشد يا بيش از يک برچسب براي آن يافت شود، الگوريتم پيشنهادي بر آن اعمال خواهد شد.
جهت بهبود در کارايي برچسب گذاري و غلبه بر کلمات ناشناخته ، براي هر پيشوند و پسوند موجود در قواعد تعريف شده در هر گروه، تعداد تکرار لغاتي از پيکره بيژنخان که حاوي آن پيشوند و يا پسوند هستند و برچسب مربوط به آن را بدست آورده و برچسبي که بيشترين تعداد تکرار را در پيکره بيژنخان داشته به عنوان برچسب لغات ناشناخته حاوي آن پيشوند و پسوند در نظر خواهد گرفت . در صورتي که کلمه ناشناخته از هيچ يک از قواعد تعريف شده براي گروهها پيروي نکند، آن را در گروه اسم قرار داده و پرتکرارترين برچسب موجود در آن گروه را به کلمه ناشناخته تخصيص خواهد داد که با اين روش به دقت بالاتري جهت برچسب گذاري لغات خواهد رسيد.

٢- روش پيشنهادي
٢-١- معرفي مجموعه هاي دادهاي
از آنجا که در کارهاي مرتبط در زبان فارسي از پيکره ي برچسب خورده بيژن خان و پيکره همشهري استفاده شده است ، موارد مطرح شده در الگوريتم پيشنهادي بر اين دو پيکره اعمال خواهد شد.

٢-١-١- پيکره بيژنخان
در سيستم هاي برچسب زني از پيکرههاي برچسب گذاري شده استفاده مي شود. پيکره بيژنخان يک پيکره برچسب گذاري شده است که مناسب براي تحقيقات مربوط به پردازش زبان طبيعي روي زبان فارسي مي باشد. اين مجموعه از برخي اخبار روزنامه ها و متون معمولي جمع آوري شده است و حاوي حدود ١.١ ميليون لغت برچسب خورده به صورت دستي مي باشد. اين پيکره با مجموعه غني از برچسب ها، شامل ٨٨٢ برچسب مختلف ، برچسب گذاري شده است . اين مجموعه برچسب براي برچسب گذاري دقيق و جزئي کلمات به کار گرفته شده است اما از آنجايي که در برچسب گذاري خودکار هدف مشخص کردن کلمات از نظر نوع کلي آن ها است ، جزئيات در نظر گرفته نشده است .
زيرا جهت برچسب گذاري از روش گروهبندي نيمه نظارتي مبتني بر تعريف قواعد براي هر گروه، استفاده شده است ، لذا در نظر گرفتن مجموعه بزرگي از برچسب ها کار را با مشکل مواجه ساخته و پيچيدگي هاي عمليات برچسب گذاري را افزايش خواهد داد. بنابراين در اولين مرحله هدف کاهش تعداد برچسب ها است . در اين مقاله از ٣٩ برچسب کاهش يافته از ٨٨٢ برچسب بيژنخان استفاده شده است .
جهت کاهش اندازه مجموعه برچسب ، برخي تحليل آماري روي پيکره انجام شد و طي مراحلي که در ادامه بيان شده اين مجموعه کاهش يافت .
در مرحله اول آن دسته از برچسب هايي را که در ساختار سلسله مراتبي داراي سه يا بيشتر سطح هستند به برچسب هايي با دو سطح کاهش داده شده است . به عنوان مثال هر دو برچسب «N_PL_LOC» که نشاندهنده برچسب اسم از نوع جمع ، در مورد مکان است و «N_PL_DAY» که نشاندهنده برچسب اسم از نوع جمع ، در مورد زمان است ، هر دو به برچسبي با نام «N_PL» تبديل شده اند. برچسب جديد مشخص کننده اسم جمع است ، بدون آن که چيزي در مورد مکان يا تاريخ بيان کند. بعد از اين مرحله تعداد برچسب هاي موجود به ٧٦ عدد کاهش يافت .
در مرحله دوم، برخي از برچسب هاي دو سطحي غير ضروري به يک سطح کاهش يافتند. مانند برچسب هاي مختلف براي انواع قيد، انواع حرف ربط ، انواع حرف اضافه ، انواع گروه حرف اضافه و برخي برچسب ها مانند «ادات شرط، پي چسب »، «علامت رياضي ، کسره اضافه »، «سور، کسره اضافه ». پس از اين مرحله تعداد برچسب ها به ٤٤ عدد کاهش يافت .
در اين مرحله عمليات کاهش مربوط به پنج برچسبي بود که در پيکره به کار برده نشده بودند. يعني برچسب هاي «N»،MORP« »، «NP_INYA»،V« » و «V_SNFL» که تعداد تکرارشان در پيکره صفر بوده است . پس از اين مرحله تعداد برچسب ها به ٣٩ عدد رسيد.
٢-١-٢- پيکره همشهري
جهت آزمايش و بررسي الگوريتم پيشنهادي نياز به مجموعه اي از متون فارسي است که اين متون از نسخه ١ پيکره همشهري که شامل مجموعه اي از مقالات روزنامه همشهري در بازه زماني سالهاي ١٣٧٥ تا ١٣٨١ مي باشد استخراج شده است . هر سند همشهري حاوي تگ - هايي است که براي عنوان در نظر گرفته شده اند و از آنجا که در سيستم پيشنهادي ما وجود عناوين ضرورتي ندارد اين عناوين حذف شده اند.
٢-٢- پيش پردازش
براي تست الگوريتم پيشنهادي متون ورودي بايد از متون رايج زبان فارسي انتخاب شوند و زبان آنها بايد مطابق زبان نوشتاري دستور زبان فارسي باشند، علاوه بر اين بايد متون از نظر نوشتاري نيز رسم - الخط زبان فارسي را رعايت کنند.
جهت بهبود نتايج ، در مرحله پيش پردازش واژههايي که به صورت جمع هستند با معادل واژه مفردشان به همراه علامت جمع «ها» جايگزين شدهاند. سپس بررسي به صورت دستي روي لغات انجام شد تا لغاتي که به «ان» ختم شدند مانند «تهران»، «اصفهان»، «فراوان» اصلاح شوند.
با توجه به اينکه چندگونگي شکل واژهها براي کامپيوتر قابل درک نيست ، کليه وندهاي لغات بدون فاصله و يا به صورت نيم فاصله در نظر گرفته شده است .

٢-٣- تشخيص کران جملات

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید