بخشی از مقاله
تبدیل متن محاورهای فارسی به رسمی به کمک N_gramها
چکیده
با افزایش متون محاوره، تبدیل متن محاورهای به رسمی یکی از چالش های موجود در پردازش زبان است. در این مقاله به ارائه و آزمون، راهکاری برای تبدیل متون محاورهای به متون رسمی با استفاده از ترکیب روشهای مبتنی بر قاعده و مدلسازی آماری میپردازیم. همچنین چگونگی ساخت پیکره، نحوه توکن بندی و نحوه یافتن ریشه کلمات، قوانین تبدیل کلمات محاورهای به رسمی، الگوریتم پیشنهادی و نحوه بکارگیری N_gram بیان می شود.
۱- مقدمه
منظور از متن محاورهای، نوشتن متن به شکلی است که معمولاً فارسی زبانان به آن شیوه، تکلم می کنند و با فارسی رسمی معیار، متفاوت است. تبدیل متن محاورهای به رسمی یکی از مسائل پیش رو برای پردازش زبان طبیعی است که کاربردهای فراوانی در تحلیل و پردازش بازدیدکنندگان سایتها، بررسی وبلاگها، پیام ها میتواند داشته باشد. لازم به ذکر است که زبان محاوره با زبان عامیانه متفاوت است.
برخی از واژهها، نه محاوره اند و نه رسمی بلکه صرفا عامیانه اند. کلمات عامیانه از نظر معنایی مبهم و از نظر لحن جالببند و بسته به آوای نها استفاده می کنند. بسیاری از واژههای عامیانه صرفا کلام مردم از سوی برخی از افراد جامعه به کار میروند و تعداد قابل توجهی از مردم از آن بی اطلاع هستند. در واقع به تعداد گروههای اجتماعی جداگانه انواع واژههای عامیانه وجود دارد. به طور مثال واژههای عامیانه دانشجویان با دانش آموزان دبیرستان متفاوت است. در این مقاله تمرکز بیشتر بر شناسایی و تبدیل متون محاورهای است. PopOWich و همکاران در سال ۱۹۹۷ |"2]، روی ترجمه زبان انگلیسی محاوره بررسی نظری و عملی انجام دادند. آنها با روشی لغوی، یک سیستم تمام خودکار برای ترجمه زبان محاوره انگلیسی به اسپانیایی ارائه کردند
Megerdoomian در سال ۲۰۰۶ || 7]، سیستمی برای تجزیه و تحلیل ریخت شناسی در زبان فارسی معرفی کرد. با توجه به این که در این کار روشی برای گسترش این سیستم روی متون وبلاگ های فارسی ارائه شده، برخی از قواعد ساختواژی برای متون محاوره ای معرفی و اعمال شده است.
اسدی در سال ۲۰۰۷||3]، تحقیقی بر روی آواهای حذف شده در محاورات فارسی ارائه کرد. پیکره استفاده شده در این تحقیق بیست دقیقه مکالمه سه فارسی زبان است. این تحقیق نشان میدهد حذف آواها در یک کلمه به نوع آن کلمه (کلمات دستوری که کاربرد بیشتری در کلام دارند، تغییر بیشتری نسبت به کلمات دیگر کردهاند) و محل قرارگیری آن آوا در کنار حروف دیگر وابسته است.
بررسی منابع متون محاوره ای فارسی صورت گرفته ولی سابقه ای از تحقیق در باره تبدیل متون محاوره ای به رسمی جهت اعمال سایر پردازش های متداول دیده نمی شود. از انجا که بیشتر پردازشهای زبانی که صورت گرفته است متمرکز بر متون رسمی بوده است، برای استفاده از این پردازشها روی متون محاوره باید متن محاورهای را به رسمی تبدیل کرد. در این مقاله به ار و ازمون راهکاری برای تبدیل متون
محاورهای به متون رسمی با استفاده از ترکیب روشهای مبتنی بر قاعده و مدل سازی آماری و پیکره بنیان می پردازیم. این مقاله بصورت ذیل سازماندهی شده است: در بخش ۲ به چگونگی ساخت پیکره میپردازیم. در بخش ۳ الگوریتم پیشنهادی و نحوه توکن بندی و نحوه یافتن ریشه کلمات بیان می شود. بخش ۴ مربوط به قوانین تبدیل کلمات محاورهای به رسمی است. در بخش ۵ توضیحی در مورد N_gram و نحوه استفاده از آن در این مقاله بیان شده است و در اخر هم در بخش ۶ به ب ۲- ساخت پیکره
ابتدا برای ساخت پیکره و متون تست، از کتابهای با متون محاوره و زیرنویسی فارسی چندین فیلم استفاده شد. همچنین از دهها وبلاگ مختلف با حجم بالای ۱۰۰۰ کلمه (همانطور که میدانید زبان فارسی چهارمین زبان از لحاظ حجم وبلاگ در اینترنت محسوب میشود) متون استخراج شدند. به این ترتیب پیکرهای با بیش از ۴۴۰۰۰ کلمه گردآوری شد. سپس به بررسی کلمات محاوره در پیکره موجود و یافتن قواعد احتمالی پرداخته شد. طی بررسیهای انجام شده بیش از بیست یل آنها قانون استخراج شد و برای کلماتی که قانون خاصی برای یافت نشد، پایگاه دادهای از کلمات محاوره و معادل رسمی ا از ۵۰ کلمه با تگ POS ساخته شد.
۳- الگوریتم پیشنهادی
هدف در این الگوریتم یافتن لیست مرتبی از کلمات رسمی است که میتواند جایگزین یک کلمه محاوره ای در متن شود (مثال: خونه تبدیل می شود به خانه، خون است، خواند). انتظار میرود این لیست به اولویت دهی به کلمات لیست استفاده میشود. الگوریتم پیشنهادی به صورت زیر است: ۱. توکن بندی متن محاورهای ۲. جستجوی کلمه در واژگان زبان رسمی ۳. یافتن ریشه کلمه به کمک ریشه یاب" و جستجوی ریشه در واژگان رسمی و واژگان محاوره ۴. استفاده از قو تبدیل محاوره به رسمی برای رسمی کردن ریشه کلمه و جستجوی ریشه در واژگان رسمی ۵. جستجو در پایگاه دادهای محاوره_ رسمی افزودن وندهای رسمی شده به ریشه ۷. رتبهبندی کلمات در لیست پیشنهادی با استفاده از c- -L-15N gram در ادامه برای هریک از مراحل فوق توضیحاتی ارائه خواهد شد.
۱-۳- توکن بندی متون محاوره
به علت آنکه در متون محاورهای ساختار کلمات دارای تفاوتهایی با شکل رسمی است، استفاده از قطعه بندهای متون رسمی به صورت به ساخت قطعه بند جدید برای مستقیم امکانپذیر نمیباشد و ز متون محاورهای یا تغییر قطعه بندهای موجود داریم، مثلا (در متن رسمی ما پسوند "مان" را داریم در حالی که در متن محاورهای پسوند "مون " جایگزین آن میشود (که در این صورت در متون رسمی "کوچه مان" را به عنوان یک کلمه در نظر می گیریم اما در متون محاوره "کوچه مون" به عنوان یک کلمه توکن بندی می شود){4]. در شکل سادهای از قطعه بند که تنها به به جداسازی کلمات "ه"، ":" و امثال این پروژ توسط جداکنندههایی مانند: " فاصله "، "!"، ":"، " آنها بسنده شد.
۳- ۲- یافتن ریشه کلمه به کمک ریشه یاب
به علت تفاوت در ساختار کلمات، ریشهیاب رسمی در این پروژه قابل استفاده نبود. برای ساخت ریشهیاب ابتدا سعی شد با تغییر دادن ریشه - یاب رسمی ا-STeP || 5] برای کلمات محاوره ریشهیاب جدید ساخته شود. اما استفاده از ریشهیاب رسمی به علت ۵ بودن، ریشهیابی کلمات در سطوح پایین و در نظر گرفتن ج یاد برای این پروژه کار تر و زمان اجرا リ بیشتر میکرد. خصوصا اینکه برخی از اعمال برای یافتن ریشه عملا در این پروژه بدون کاربرد بودند. بنابراین با توجه به اینکه ریشهیاب محاوره هم از لحاظ پایگاه یشه ها و وندها و هم به جهت قوانین ساختواژی مورد استفاده با ت است
دیدیم ریشهیاب تصریفی جدیدی خاص متون محاورهای تهیه نماییم. این ریشهیاب با توجه به هدف این پژوهشی که تبدیل متون محاورهای به رسمی است ساده شده است. لذا این ریشهیاب، در سطح ساختواژ تصریفی عمل می کند و تنها ادات جمع و "ی" نکره را در اسامی و شناسهها، ضمایر مفعولی " " "," " متصل) و پیشوندهای فعلی مانند " ز رسمی نمی","می" ,"ب" و"ن"ر در افعال شناسایی و جدا می کند [0] و ریشهیابی را تا جایی ادامه میدهد که ریشه یا خودش یا معادل رسمی آن در واژگان یافت شود. برای یافتن معادل رسمی از قوانین معرفی شده استفاده میشود. و برای برخی که قانون خاصی پیدا نشده معادل رسمی آن از واژگان ساخته شده استخراج میشود.
۴- استغاده از قوانین برای ایجاد معادل رسمی کلمه یافتن قوانین برای تبدیل کلمات محاورهای به رسمی کار مشکلی است.
در زبان محاوره برخی از کلمات تنها به جهت آوایی متفاوت شدهاند (مانند: دلت (Delat) که در محاوره به دلت (Delet) تبدیل می شود) و برخی از کلمات هم به لحاظ آوایی و هم به لحاظ نوشتاری دگرگون گشتهاند (مانند: خیابان (khiaban) که در محاوره به خیابون (khialbum) تبدیل می شود). برخی از کلمات و اصطلاحات تنها در زبان محاوره کاربرد دارند و در گفتار و نوشتار رسمی به کار نمی روند ( مانند "واسه " بجای "برای "") و بلعکس برخی از کلمات و اصطلاحات تنها در سبک رسمی کاربرد دارند (مانند "به همین منظور"). تغ در زبان محاوره بیشتر به علت راحتی تلفظ و بیان رخ میدهد. برای تبدیل زبان محاوره به رسمی قانون و قاعده خاصی وجود ندارد. و چنانچه قاعدهای هم بیابیم، تنها برای برخی از کلمات صدق میکند. افعال تغ افعال مضارع که در زبان محاوره بیشتر به کار می روند. برای یافتن معادل رسمی یک ریشه از تمام قوانین موجود استفاده میشود و لیستی از تبدیلات ممکن برای هر کلمه بدست می آید. برای انتخاب درست بین حالات محتمل نیاز به بررسی کلمه در متن هست که بوسیله مدل های زبانی مانند N-gram این کار صورت میگیرد. برخی از قوانین به کار رفته در این برنامه در ذیل امده است.
بیشتری نسبت به کلمات دیگر دارند