بخشی از مقاله

چکیده

روزانه هزاران مستند متنی متنوع در حوزه های مختلف علمی بر روی وب جهانگستر قرار میگیرد . این مستندات میتواند شامل پایاننامهها، مقالهها، گزارش های علمی و مواردی از این قبیل باشد. نگارش متن این مستندات علمی جهت حفظ یکنواختی باید بر اساس اصول ثابت انجام گیرد، اما همواره به طور غیر عمدی دستخوش سلیقههای مختلفی در طول تاریخ میشود. اگرچه این تغییرات ناشی از پویا بودن زبان و خلاقیت ذهن بشری است، اما این پویایی و خلاقیت پردازش ماشینی متن را با چالشهای متعددی روبهرو میکند و دقت پردازش دادهها را به میزان چشمگیری پایین میآورد.

علاوه بر تنوع نگارشی، غلط های سهوی املایی نیز وجود دارد که فحوای گفتمانی متن را منحرف کرده و درک آن را با مشکل مواجه میکند. بنابراین، کلیه نویسه های متن باید به حالت استاندارد تبدیل شوند و عاری از هر گونه خطاهای املایی گردند. پژوهشگران مقاله حاضر سامانهای برای استانداردسازی و خطایابی متون علمی فارسی طراحیکردهاند که این سامانه متون نوشتاری علمی و تخصصی فارسی را به لحاظ صحت نگارشی و املایی بررسی میکند و متن را به شکل استاندارد در میآورد. در این مقاله، به معرفی کاربردهای سامانه میپردازیم.

مقدمه 1-

خط فارسی بر اساس صادقی - - 1392 از خط عربی گرفته شده و خط عربی خود از خط فنیقی اقتباس شده و فنیقی مانند عربی متعلق به خانواده زبان های سامی است. وی معتقد است که در زبانهای سامی، صامتها اسکلت و پایه معنایی کلمه را تشکیل میدهند و مصوت ها تنها برای گرفتن مشتقات مختلف از ریشه به کار میروند. چنانکه میدانیم فرهنگهای عربی تقریبا همه بر اساس ریشه کلمات تدوین شدهاند. مثلا در عربی سهصامت» « به معنی »کردن« است. با افزودن دو فتحه یا دو مصوت a به این کلمه به وجود میآید که شکل ماضی این ریشه است. با افزودن یک فتحه دیگر به پایان آن « حاصل میشود که سوم شخص مفرد مذکر غایب این ماضی است.

صادقی معتقد است که زبان فارسی از دسته زبانهای خانواده هند و اروپایی محسوب می شود و ساختمان آن با ساخت عربی تفاوت هایی دارد. در زبان فارسی، صامتها و مصوتها پابهپای هم در ساختن صیغه های مختلف یک ریشه مشارکت دارند. مثلا از ریشه »دان« ما صیغههای »دانست، دانسته، داننده، دانا، نادان، میداند« و غیره را داریم که در ساختمان آنها از مصوتها و صامتهای مختلف استفاده شده است.

معنی کلمه مرکب در زبان عربی و فارسی یکی نیست و شیوه نگارش این نوع کلمات نیز در زبان عربی دارای مشکلات نگارشی زبان فارسی نیست. از طرف دیگر وجود دندانه و نقطه در خط عربی - فارسی خوانش کلمات را دچار مشکل میکند. مثلا خوانش نوشتن »زیست شناسی« به شکل »زیستشناسی« بسیار دشوار است. به صورت کلی، مهمترین مشکلات فعلی خط فارسی از دیدگاه ذوالفقاری - - 1392 موارد زیر است:

-    یکی نبودن موارد سرهمنویسی و جدانویسی و رواج شکل های گوناگون نوشتاری؛

-    ابهام بسیار زیاد در خط فارسی به دلیل عدم تناظر میان حرفهای الفبا و آواهای زبان؛

-    آمیختن رسمالخط عربی با شیوه خط فارسی و نگارش بیقاعده واژهها و عبارتهای برگرفته از عربی؛ ذوالفقاری همچنین بر این باور است که این مشکلات، منجر به پیدایش ناهماهنگی در نگارش موارد متعددی شده است که مهمترین آنها عبارتاند از:

-    ترکیبات شامل »این« و »آن«؛

-    پیشوند »ب« و حرف اضافه »به«؛

-    پسوندهای »تر« و »ترین«؛

-    پیشوندهای »بی«، »هم« و »هیچ«؛

-    پیشوندهای فعلی »ب«، »ن«، »م«، »می« و »همی«؛

-    علامتهای جمع »ها« و »ان«؛

-    فعل های ربطی یا استنادی: ام، ای، است، ایم، اید، اند؛

-    ضمیرهای ملکی ومفعولی: م، ت، ش، مان، تان، شان؛

-    کسره اضافه در حالتهای مختلف؛

-    برخی واژههای عربیتبار و عبارتهای عربی رایج در فارسی؛
 
- اختلاف در نگارش همزه در حالتهای مختلف...

چالش های پردازشی زبان فارسی را عبدی و بهشتی - - 1395 در 10 دسته بر حسب همآوایی، تأثیر حروف عربی بر متون زبان فارسی، ابهام یونیکد، چند املایی بودن، فاصلهگذاری، شیوه نویسهگردانی، دیدگاه صرفی و نحوی، پیوستگی حروفی و کاربرد اعراب طبقهبندی کردهاند. جدول 1 مثالهایی را برای هرکدام ارائه میدهد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید