بخشی از مقاله
چکیده
از دیرباز استفاده از اختصارات براي تسریع و تسهیل در ارتباط گفتاري و نوشتاري در زبانهاي مختلف مرسوم بوده است؛ در زبان فارسی نیز همگام با سایر زبانهاي دنیا استفاده از اختصارات و آغازهها به عنوان ابزاري جهت تقویت زبان مرسوم است. شناخت چنین واژههایی گاه براي انسان دشوار است. چراکه فهم صحیح منظور گوینده/ نویسنده از اختصارات بستگی به آگاهی مخاطب از معادل کلمات اختصاري دارد. با توجه به اینکه وجود چنین کلماتی در متن چالشهایی براي پژوهشگران حوزه پردازش زبان طبیعی ایجاد کرده است در این مقاله سعی شده با بهرهگیري از یک پیکره محقق ساخته، اختصارات موجود در متن شناسایی شوند تا در مراحل مختلف پردازش با سایر کلمات یکسان در نظر گرفته نشود.
-1 مقدمه
اختصار شکل کوتاه شده یک کلمه یا عبارت مکتوب است که به جاي تمام کلمه یا عبارت به کار میرود. آغازهها و اختصارات موجود در هر زبان بخشی از اطلاعات و دانش یک جامعه و تمدن را تشکیل میدهند و اکثر متون و اسناد آن جامعه حاوي لغات اختصاري است. عدم آگاهی از مفاهیم این قبیل واژهها میتواند ابهامهایی را هم براي انسان و هم براي رایانه - پردازش رایانه اي زبان - ایجاد کند.
در برخی از زبانهاي دنیا چنین کلماتی با نگارش خاصی در متن درج میشوند - براي مثال در انگلیسی اختصارات با حروف بزرگ نگارش میشوند - لذا تشخیص آنها نیز آسان خواهد، اما از آنجا که در زبان فارسی این قبیل کلمات - ناجا، اتکا، هما و غیره - همانند سایر کلمات در متن اصلی درج میشوند؛ لذا تشخیص آنها بسیار مشکل بوده و ابهامهایی را در مرحله پردازش ایجاد خواهد کرد.
براي رفع ابهام متن اصلی ضرورت دارد تا حد ممکن اختصارات موجود در آن شناسایی شده و در مرحله پردازش مد نظر قرار گیرد. براي تشخیص خودکار اختصارات در متن نیازمند یک سري پیش زمینههاي مرتبط با پردازش زبان هاي طبیعی هستیم. به همین منظور در این بخش از مقاله با مروري بر پردازش زبان طبیعی به زیر شاخه هاي استفاده شده از دانش موصوف در این مقاله میپردازیم.
-2 پردازش زبان طبیعی
پردازش زبان طبیعی - NLP - 1 یک رویکرد ماشینی تحلیل متن است که با استفاده از مجموعهاي از روشها و فناوريها به اهداف خود دست پیدا میکند. تعریف جامع و یکسانی از این مفهوم در دست نمی باشد، اما آنچه که بطور معمول میان تعاریف موجود مشترك میباشد بدین قرار است »پردازش زبان طبیعی عبارت است از یک مجموعهاز تکنیکهاي محاسباتی براي تحلیل و نمایش متون طبیعی و نیز تجزیه و تحلیل آنها در یک یا چند سطح، به منظور دستیابی به پردازش زبان بشرگونه، در پی رسیدن به اهداف مختلف و انجام امور مربوط به زبان.« البته بایستی دقت کرد که متون مورد پردازش نباید متونی باشند که با هدف پردازش طراحی شده باشند، و بایستی از متون معمولی و طبیعی براي این منظور استفاده کرد.
پردازش زبان طبیعی در همه زبان هاي دنیا همواره با چالشهایی مواجه است. زبان فارسی نیز با توجه به ماهیت آن چالشهایی در مراحل پردازش و بازیابی اطلاعات براي پژوهشگران در پی دارد. اغلب این مشکلات ناشی از نگارش متن و در مرحله بازیابی اطلاعات به وجود میآید. جدول شماره - 1 - برخی از این مشکلات را فهرست کرده است - فیضی درخشی و رمضانی، :1390 . - 25
همانگونه که همگان بر آن واقف هستیم هر شاخهاي از دانش نیازمند یک سري پیشزمینهها و ابزار میباشد. پردازش زبان طبیعی نیز از این قاعده مستثنی نیست. براي همین پژوهشگران در هر شاخهاي از پردازش زبان طبیعی ناگزیر به استفاده از ابزارهاي موجود در این حوزه از علم هستند. برخی از ابزارهاي پردازش زبان طبیعی عبارت است از: نرمالساز متن ورودي، تشخیص دهنده مرز جملات و کلمات، ریشهیابی کلمات، برچسبزن نحوي کلمات و غیره که پژوهشگران به فراخور نیازهاي خود از آنها بهره میگیرند. با توجه به ماهیت کار صورت گرفته در این مقاله پژوهشگران از نرمالساز متن و تشخیص دهنده مرز کلمات و جملات استفاده کردهاند که در ادامه تشریح شده است.