مقاله تبدیل متن محاورهای فارسی به رسمی به کمک N

مقاله تبدیل متن محاورهای فارسی به رسمی به کمک N_gramها

ورد قابل ویرایش

7 صفحه

قیمت مقاله 000 199 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

تبدیل متن محاورهای فارسی به رسمی به کمک N_gramها
چکیده
با افزایش متون محاوره، تبدیل متن محاورهای به رسمی یکی از چالش های موجود در پردازش زبان است. در این مقاله به ارائه و آزمون، راهکاری برای تبدیل متون محاورهای به متون رسمی با استفاده از ترکیب روشهای مبتنی بر قاعده و مدلسازی آماری میپردازیم. همچنین چگونگی ساخت پیکره، نحوه توکن بندی و نحوه یافتن ریشه کلمات، قوانین تبدیل کلمات محاورهای به رسمی، الگوریتم پیشنهادی و نحوه بکارگیری N_gram بیان می شود.

۱- مقدمه
منظور از متن محاورهای، نوشتن متن به شکلی است که معمولاً فارسی زبانان به آن شیوه، تکلم می کنند و با فارسی رسمی معیار، متفاوت است. تبدیل متن محاورهای به رسمی یکی از مسائل پیش رو برای پردازش زبان طبیعی است که کاربردهای فراوانی در تحلیل و پردازش بازدیدکنندگان سایتها، بررسی وبلاگها، پیام ها میتواند داشته باشد. لازم به ذکر است که زبان محاوره با زبان عامیانه متفاوت است.
برخی از واژهها، نه محاوره اند و نه رسمی بلکه صرفا عامیانه اند. کلمات عامیانه از نظر معنایی مبهم و از نظر لحن جالببند و بسته به آوای نها استفاده می کنند. بسیاری از واژههای عامیانه صرفا کلام مردم از سوی برخی از افراد جامعه به کار میروند و تعداد قابل توجهی از مردم از آن بی اطلاع هستند. در واقع به تعداد گروههای اجتماعی جداگانه انواع واژههای عامیانه وجود دارد. به طور مثال واژههای عامیانه دانشجویان با دانش آموزان دبیرستان متفاوت است. در این مقاله تمرکز بیشتر بر شناسایی و تبدیل متون محاورهای است. PopOWich و همکاران در سال ۱۹۹۷ |"2]، روی ترجمه زبان انگلیسی محاوره بررسی نظری و عملی انجام دادند. آنها با روشی لغوی، یک سیستم تمام خودکار برای ترجمه زبان محاوره انگلیسی به اسپانیایی ارائه کردند
Megerdoomian در سال ۲۰۰۶ || 7]، سیستمی برای تجزیه و تحلیل ریخت شناسی در زبان فارسی معرفی کرد. با توجه به این که در این کار روشی برای گسترش این سیستم روی متون وبلاگ های فارسی ارائه شده، برخی از قواعد ساختواژی برای متون محاوره ای معرفی و اعمال شده است.
اسدی در سال ۲۰۰۷||3]، تحقیقی بر روی آواهای حذف شده در محاورات فارسی ارائه کرد. پیکره استفاده شده در این تحقیق بیست دقیقه مکالمه سه فارسی زبان است. این تحقیق نشان میدهد حذف آواها در یک کلمه به نوع آن کلمه (کلمات دستوری که کاربرد بیشتری در کلام دارند، تغییر بیشتری نسبت به کلمات دیگر کردهاند) و محل قرارگیری آن آوا در کنار حروف دیگر وابسته است.
بررسی منابع متون محاوره ای فارسی صورت گرفته ولی سابقه ای از تحقیق در باره تبدیل متون محاوره ای به رسمی جهت اعمال سایر پردازش های متداول دیده نمی شود. از انجا که بیشتر پردازشهای زبانی که صورت گرفته است متمرکز بر متون رسمی بوده است، برای استفاده از این پردازشها روی متون محاوره باید متن محاورهای را به رسمی تبدیل کرد. در این مقاله به ار و ازمون راهکاری برای تبدیل متون
محاورهای به متون رسمی با استفاده از ترکیب روشهای مبتنی بر قاعده و مدل سازی آماری و پیکره بنیان می پردازیم. این مقاله بصورت ذیل سازماندهی شده است: در بخش ۲ به چگونگی ساخت پیکره میپردازیم. در بخش ۳ الگوریتم پیشنهادی و نحوه توکن بندی و نحوه یافتن ریشه کلمات بیان می شود. بخش ۴ مربوط به قوانین تبدیل کلمات محاورهای به رسمی است. در بخش ۵ توضیحی در مورد N_gram و نحوه استفاده از آن در این مقاله بیان شده است و در اخر هم در بخش ۶ به ب ۲- ساخت پیکره
ابتدا برای ساخت پیکره و متون تست، از کتابهای با متون محاوره و زیرنویسی فارسی چندین فیلم استفاده شد. همچنین از دهها وبلاگ مختلف با حجم بالای ۱۰۰۰ کلمه (همانطور که میدانید زبان فارسی چهارمین زبان از لحاظ حجم وبلاگ در اینترنت محسوب میشود) متون استخراج شدند. به این ترتیب پیکرهای با بیش از ۴۴۰۰۰ کلمه گردآوری شد. سپس به بررسی کلمات محاوره در پیکره موجود و یافتن قواعد احتمالی پرداخته شد. طی بررسیهای انجام شده بیش از بیست یل آنها قانون استخراج شد و برای کلماتی که قانون خاصی برای یافت نشد، پایگاه دادهای از کلمات محاوره و معادل رسمی ا از ۵۰ کلمه با تگ POS ساخته شد.

۳- الگوریتم پیشنهادی
هدف در این الگوریتم یافتن لیست مرتبی از کلمات رسمی است که میتواند جایگزین یک کلمه محاوره ای در متن شود (مثال: خونه تبدیل می شود به خانه، خون است، خواند). انتظار میرود این لیست به اولویت دهی به کلمات لیست استفاده میشود. الگوریتم پیشنهادی به صورت زیر است: ۱. توکن بندی متن محاورهای ۲. جستجوی کلمه در واژگان زبان رسمی ۳. یافتن ریشه کلمه به کمک ریشه یاب" و جستجوی ریشه در واژگان رسمی و واژگان محاوره ۴. استفاده از قو تبدیل محاوره به رسمی برای رسمی کردن ریشه کلمه و جستجوی ریشه در واژگان رسمی ۵. جستجو در پایگاه دادهای محاوره_ رسمی افزودن وندهای رسمی شده به ریشه ۷. رتبهبندی کلمات در لیست پیشنهادی با استفاده از c- -L-15N gram در ادامه برای هریک از مراحل فوق توضیحاتی ارائه خواهد شد.

۱-۳- توکن بندی متون محاوره
به علت آنکه در متون محاورهای ساختار کلمات دارای تفاوتهایی با شکل رسمی است، استفاده از قطعه بندهای متون رسمی به صورت به ساخت قطعه بند جدید برای مستقیم امکانپذیر نمیباشد و ز متون محاورهای یا تغییر قطعه بندهای موجود داریم، مثلا (در متن رسمی ما پسوند "مان" را داریم در حالی که در متن محاورهای پسوند "مون " جایگزین آن میشود (که در این صورت در متون رسمی "کوچه مان" را به عنوان یک کلمه در نظر می گیریم اما در متون محاوره "کوچه مون" به عنوان یک کلمه توکن بندی می شود){4]. در شکل سادهای از قطعه بند که تنها به به جداسازی کلمات "ه"، ":" و امثال این پروژ توسط جداکنندههایی مانند: " فاصله "، "!"، ":"، " آنها بسنده شد.

۳- ۲- یافتن ریشه کلمه به کمک ریشه یاب
به علت تفاوت در ساختار کلمات، ریشهیاب رسمی در این پروژه قابل استفاده نبود. برای ساخت ریشهیاب ابتدا سعی شد با تغییر دادن ریشه - یاب رسمی ا-STeP || 5] برای کلمات محاوره ریشهیاب جدید ساخته شود. اما استفاده از ریشهیاب رسمی به علت ۵ بودن، ریشهیابی کلمات در سطوح پایین و در نظر گرفتن ج یاد برای این پروژه کار تر و زمان اجرا リ بیشتر میکرد. خصوصا اینکه برخی از اعمال برای یافتن ریشه عملا در این پروژه بدون کاربرد بودند. بنابراین با توجه به اینکه ریشهیاب محاوره هم از لحاظ پایگاه یشه ها و وندها و هم به جهت قوانین ساختواژی مورد استفاده با ت است
دیدیم ریشهیاب تصریفی جدیدی خاص متون محاورهای تهیه نماییم. این ریشهیاب با توجه به هدف این پژوهشی که تبدیل متون محاورهای به رسمی است ساده شده است. لذا این ریشهیاب، در سطح ساختواژ تصریفی عمل می کند و تنها ادات جمع و "ی" نکره را در اسامی و شناسهها، ضمایر مفعولی " " "," " متصل) و پیشوندهای فعلی مانند " ز رسمی نمی","می" ,"ب" و"ن"ر در افعال شناسایی و جدا می کند [0] و ریشهیابی را تا جایی ادامه میدهد که ریشه یا خودش یا معادل رسمی آن در واژگان یافت شود. برای یافتن معادل رسمی از قوانین معرفی شده استفاده میشود. و برای برخی که قانون خاصی پیدا نشده معادل رسمی آن از واژگان ساخته شده استخراج میشود.
۴- استغاده از قوانین برای ایجاد معادل رسمی کلمه یافتن قوانین برای تبدیل کلمات محاورهای به رسمی کار مشکلی است.
در زبان محاوره برخی از کلمات تنها به جهت آوایی متفاوت شدهاند (مانند: دلت (Delat) که در محاوره به دلت (Delet) تبدیل می شود) و برخی از کلمات هم به لحاظ آوایی و هم به لحاظ نوشتاری دگرگون گشتهاند (مانند: خیابان (khiaban) که در محاوره به خیابون (khialbum) تبدیل می شود). برخی از کلمات و اصطلاحات تنها در زبان محاوره کاربرد دارند و در گفتار و نوشتار رسمی به کار نمی روند ( مانند "واسه " بجای "برای "") و بلعکس برخی از کلمات و اصطلاحات تنها در سبک رسمی کاربرد دارند (مانند "به همین منظور"). تغ در زبان محاوره بیشتر به علت راحتی تلفظ و بیان رخ میدهد. برای تبدیل زبان محاوره به رسمی قانون و قاعده خاصی وجود ندارد. و چنانچه قاعدهای هم بیابیم، تنها برای برخی از کلمات صدق میکند. افعال تغ افعال مضارع که در زبان محاوره بیشتر به کار می روند. برای یافتن معادل رسمی یک ریشه از تمام قوانین موجود استفاده میشود و لیستی از تبدیلات ممکن برای هر کلمه بدست می آید. برای انتخاب درست بین حالات محتمل نیاز به بررسی کلمه در متن هست که بوسیله مدل های زبانی مانند N-gram این کار صورت میگیرد. برخی از قوانین به کار رفته در این برنامه در ذیل امده است.
بیشتری نسبت به کلمات دیگر دارند

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/46109

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله تبدیل متن محاورهای فارسی به رسمی به کمک N_gramها

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله مذهب رسمی و زبان فارسی

مقاله در مورد ترجمه متن درختان میوه همراه با متن لاتین

دانلود مقاله تبدیل ناشران سنتی به ناشران الکترونیک تبدیل مدلهای کسب و کار قدیمی به مدلهای جدید

ارائه روشی پیشرفته برای تبدیل اصطلاحات متن

مقاله ارائه یک روش جهت تبدیل رسمی پایگاه داده شی گرای فازی به زبانه نشان گذاری توسعه یافته فازی

مقاله فشرده سازی متن فارسی با استفاده از الگوریتم های حسابی و هافمن و مقایسه آن با فشرده سازی متن انگلیسی

مقاله تأثیر اسیدفولیک وکلات‌کلسیم بر اجزای عملکرد درخت بِه رقم حاج آقا کیشی

مقاله تأثیر اسیدفولیک و کلات‌کلسیم بر سطح برگ و رنگیزه‌های فتوسنتزی درخت بِه رقم حاج آقا کیشی

مقاله تبدیل متن به گفتار پارسی با استفاده از روش سنتز پیوندی

مقاله تبدیل ساختار سبک معماری تخته سیاه به مدل رسمی

مقاله تحلیل محتوای فارسی پایه سوم دبستان سال تحصیلی 94 - 95از نظر حیطه های رفتاری و تصاویر و متن نوشتاری

مقاله تشخیص سرطان سینه در تصاویر ماموگرافی با استفاده از تبدیل فوریه و تبدیل موجک

مقاله تحلیل محتوای کتاب ( فارسی به فارسی : زبان فارسی 1 ) براساس اصول آموزشی تاملینسون

مقاله تضعیف امواج سطحی با استفاده همزمان از تبدیل S و تبدیل TT

مقاله تحولات واجی رخ داده در متن پازند مینوی خرد در مقایسه با متن پهلوی

مقاله توجه به امور خیریه در تدوین برنامه درسی ( رسمی ، غیر رسمی ) ؛ عاملی اثر بخش در نیل به جامعه‌ی خیر

مقاله روشی جدید جهت فشرده¬سازی تصاویر سطح خاکستری مبتنی بر تبدیل موجک و تبدیل باروز - ویلر

مقاله رمزگان نمادین بر پایه ی تضاد دوبُنی در متن فارسی میانه ی بُندَهِش

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله تبدیل متن محاورهای فارسی به رسمی به کمک N_gramها

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله مذهب رسمی و زبان فارسی

مقاله در مورد ترجمه متن درختان میوه همراه با متن لاتین

دانلود مقاله تبدیل ناشران سنتی به ناشران الکترونیک تبدیل مدلهای کسب و کار قدیمی به مدلهای جدید

ارائه روشی پیشرفته برای تبدیل اصطلاحات متن

مقاله ارائه یک روش جهت تبدیل رسمی پایگاه داده شی گرای فازی به زبانه نشان گذاری توسعه یافته فازی

مقاله فشرده سازی متن فارسی با استفاده از الگوریتم های حسابی و هافمن و مقایسه آن با فشرده سازی متن انگلیسی

مقاله تأثیر اسیدفولیک وکلات‌کلسیم بر اجزای عملکرد درخت بِه رقم حاج آقا کیشی

مقاله تأثیر اسیدفولیک و کلات‌کلسیم بر سطح برگ و رنگیزه‌های فتوسنتزی درخت بِه رقم حاج آقا کیشی

مقاله تبدیل متن به گفتار پارسی با استفاده از روش سنتز پیوندی

مقاله تبدیل ساختار سبک معماری تخته سیاه به مدل رسمی

مقاله تحلیل محتوای فارسی پایه سوم دبستان سال تحصیلی 94 - 95از نظر حیطه های رفتاری و تصاویر و متن نوشتاری

مقاله تشخیص سرطان سینه در تصاویر ماموگرافی با استفاده از تبدیل فوریه و تبدیل موجک

مقاله تحلیل محتوای کتاب ( فارسی به فارسی : زبان فارسی 1 ) براساس اصول آموزشی تاملینسون

مقاله تضعیف امواج سطحی با استفاده همزمان از تبدیل S و تبدیل TT

مقاله تحولات واجی رخ داده در متن پازند مینوی خرد در مقایسه با متن پهلوی

مقاله توجه به امور خیریه در تدوین برنامه درسی ( رسمی ، غیر رسمی ) ؛ عاملی اثر بخش در نیل به جامعه‌ی خیر

مقاله روشی جدید جهت فشرده¬سازی تصاویر سطح خاکستری مبتنی بر تبدیل موجک و تبدیل باروز - ویلر

مقاله رمزگان نمادین بر پایه ی تضاد دوبُنی در متن فارسی میانه ی بُندَهِش

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران