بخشی از مقاله
چکیده
یکی از مهارتهای فارسی زبانان در خواندن متون فارسی این است که بتوانند تشخیص دهند که انتهای کدام کلمات باید یک واکه /ت/ یا کسره نوشتاری ختم شود تا خوانش متن درست باشد.پس اگر بتوان با الگوریتمی بر متن ورودی حوزه اضافه را مشخص کرد، مسئله بازشناسی کسره اضافه در متون فارسی حل خواهدشد.
دراین مقاله بر آنیم تا با استفاده شبکه های عصبی سیستمی جهت تشخیص محل وقوع کسره اضافه بسازیم. برای این منظور سه نوع شبکه عصبی BP ، RBF و SVM را معرفی می کنیم.روند کار با شبکه های عصبی شامل دو مرحله آموزش و تست می باشد. در مرحله آموزش به شبکه عصبی نحوه تشخیص محل کسره اضافه را آموزش می دهیم و در مرحله تست نیز نتیجه کار را با استفاده از مجموعه ای از جملات که در پروسه آموزش شرکت نداشته اند محک می زنیم.
-1 مقدمه
عدم نمایش واکه های کوتاه در متون زبان فارسی یکی از بحث انگیزترین مباحث در پردازش رایانه ای متن است . به عنوان مثال ، در زبان عربی عدم نمایش واکههای کوتاه ، زیر و زبر و پیش، همچنین پیچسب های حالت ، یعنی تنوین رفع ، نصب و جر ، که به ترتیب نشانگر حالت ، فاعلی ، مفعولی و اضافه هستند ، کار پردازش متن را مشکل می کند. عدم نمایش واکههای کوتاه در متون فارسی نیز باعث به وجود آمدن هم نگارههای - homographs - واژگانی و دستوری با ساختهای متعدد شده است که چالش بزرگی برای پژوهشگران زبان شناسی رایانهای به بار آورده است
یکی از عوامل به وجود آمدن هم نگاره در خط فارسی ، عدم نمایش کسره اضافه می باشد.کسره اضافه را می توان یک واکه بدون تکیه ای دانست که وظیفه اتصال بین هسته و عناصر توصیف گر بعد از ان را بر عهده دار. این کسره اضافه باعث تغییر معنایی نمی شود، بلکه هسته گروه های نحوی را مشخص می کند. مقوله نحوی کلماتی که کسره اضافه میپذیرند عبارتند از : اسم ، صفت ، حرف اضافه و سور.
-2 حوزه اضافه
حوزه اضافه شامل کلماتی است که با استفاده از کسره اضافه به هم پیوند میخورند. ، بنابراین تعریف دقیق حوزه اضافه بسیار مفید و ضروری است.کسره اضافه در تمام گروههای واژگانی بجز فعلی میان هسته و عناصر توصیف گر بعد از ان قرار می گیرد.در گروه اسمی نیز کسره اضافه میان یک اسم و توصیف گر آن - صفت،گروههای اسمی، گروههای حرف اضافه ای - ظاهر می شود.باتوجه به موارد ذکر شده ، می توان دریافت که برای شناسایی کسره اضافه ایتدا باید گروههای واژگانی شناسایی شوند که انجام این کار نیز دشواریی هایی به همراه دارد.جمله " یک مرد دانشمند را دید."را در نظر بگیرید.
جمله بالا فارغ از متن میتواند یکی از دو خوانش زیر را برحسب وقوع یا عدم وقوع کسره اضافه برای کلمه "مرد" داشته باشد:
-1 یک مرد،دانشمند را دید.
-2 یک مرد دانشمند ، را دید.
این که کدامیک از دو خوانش درست است، بستگی به بافت زبانی، یعنی جملاتی دارد که قبل یا بعد از این جمله میتواند وجود داشته باشد. در واقع چون شناسه سوم شخص مفرد تهی است و در نتیجه از صورت نوشتاری فعل "دید" نمیتوان فاعل جمله را تشخیص داد، بنابراین فاعل جمله میتواند هم " یک مرد" باشد و هم تهی باشد، که اگر تهی باشد، بافت زبانی میتواند مرجع فاعل تهی را مشخص کند
-3 حوزه اضافه و زبانشناسی نظری
در زبانشناسی نظری ، حوزه اضافه مستقل از جمله ومتن مطالعه می شود . به طور کلی ، دو رویکرد برای مطالعه ساختاری حوزه اضافه مطرح است : رویکرد معنی _ محور و رویکرد ساخت _ محور . در رویکرد معنی محور ، تجزیه و تحلیل حوزه اضافه مبتنی بر رابطه معنایی کلماتی است که به حوزه اضافه تعلق دارند . به عبارت دیگر ، کسره اضافه دو کلمه را پیوند میدهد ، اگر بین دو کلمه یک نوع رابطه معنایی برقرار باشد . بر این اساس ، انواع ساختهای اضافه ، که هرکدام یک رابطه معنایی را نشان میدهند ، قابل تعریف است و در این صورت اتفاق نظر بین محققان در تعداد انواع ساختهای اضافی وجود ندارد . اما در رویکرد ساخت _ محور ، تجزیه و تحلیل حوزه اضافه مبتنی بر محدودیتهای ساختاری است که بین کلمات حوزه اضافه میتواند وجود داشته باشد
به عبارت دیگر ، در این رویکرد محقق با انتزاع روابط معنایی بین کلمات حوزه اضافه ، محدودیتهای ساختاری کلمات را برحسب توزیع مقولههای نحوی صورتبندی میکند به طوری که بتوان هر نوع ساخت اضافه مجاز را ، صرف نظر از رابطه معنایی بین کلمات حوزه اضافه ، تولید کرد .در ادامه به بررسی اجمالی آراء بعضی از طرفداران هر رویکرد میپردازیم . آراء پالمر[3] ولازار [3]را در چارچوب رویکرد اول و آراء سمیعیان [4]، قمیشی[5] و کهنمویی پور [6,7]را درچارچوب رویکرد دوم به اختصار توضیح میدهیم .
پالمر [3]در پایان نامه دکتری خود تحت عنوان "ساخت اضافه در زبان فارسی معیار امروز" با توجه به روابط معنایی کلمات ، 18 نوع ساخت اضافه معرفی میکند. پالمر در چارچوب دستور حالت دو نوع ساخت اضافه مطرح در دستور سنتی زبان فارسی را ، یعنی ساخت مضاف و مضافالیه و ساخت صفت و موصوف ، با استفاده از بند موصولی زیر ساختی فعل "داشتن" و "بودن" تفسیر میکند.
قمیشی[5] چند نوع ساخت اضافه از بین 18 نوع ساختی که پالمر معرفی کرده، آورده است که در اینجا به اختصار تعریف میشوند:
-1اضافه بیانی - توصیفی - : عضو دوم ساخت اضافه صفت است که عضو اول را توصیف میکند.
-2اضافه کنشی: عضو اول ساخت اضافه کنشگر یک عمل است و عضو دوم شیئ است که عمل بر روی آن انجام شده است.
-3 اضافه ملکی: عضو اول ساخت اضافه شیئ تحت مالکیت و عضو دوم مالک شیئ است.
-4 اضافه تخصیصی: عضو اول ساخت اضافه شیئای است که به آن چیزی اختصاص داده میشود و عضو دوم موضوع تخصیص است.
-5 اضافه جنسی: عضو دوم ساخت اضافه نوع جنسیت است و عضو اول شیئای است که جنس آن توسط عضو دوم مشخص شده است.
لازار[3] در کتاب خود با عنوان "دستور زبان فارسی معاصر"، در بخش صرف به طرح موضوع "اضافه " - Ezâfe - پرداخته است. وی اضافه را صرفاً برای ساخت گروه اسمی قابل طرح میداند. وی معتقد است کسره اضافه یک نقش زبانی بیشتر ندارد و آن تعیین حدود گروه اسمی است، یعنی هسته اسمی را به وابستههایش متصل میکند و هیچ پیامی برای رابطه معنایی کلمات موجود در گروه اسمی ندارد. رابطه معنایی کلمات در گروه اسمی از معنی واژگانی خود کلمات و بافت زبانی به دست میآید.
سمیعیان[4] معتقد است کسره اضافه بین اسم و گروه صفتی یا گروه حرف اضافهای یا گروه ملکی، همچنین بین صفت و متمم گروه اسمی و بین بیشتر حروف اضافه و متمم گروه اسمی قرار میگیرد. وی معتقد است کسره اضافه زمانی به صورت پیچسب به یک کلمه ملحق میشود که آن کلمه بخواهد به کمک متمم خود گسترش یابد.
کهنمویی پور[6,7] انگاره قمیشی را درباره ساخت حوزه اضافه می پذیرد، اما وی در چارچوب برنامه کمینهگرای چامسکی معتقد است جایگاه عناصر حوزه اضافه در زیر ساخت قبل از هسته اسمی است و با هم یک گروه توسعه دهنده میسازند. سپس با حرکت به جایگاههای روساختی خود منتقل میشوند و با کسره اضافه به یکدیگر پیوند میخورند.
-4 ارزیابی یافتههای زبان شناختی
یافتههای زبان شناسی نظری را درباره حوزه اضافه در دو رویکرد میتوان خلاصه کرد:
-1 رویکرد معنایی: در این رویکرد کسره اضافه عامل پیوند کلماتی است که بین آنها یک نوع رابطه معنایی وجود داشته باشد و بنابراین حوزه اضافه بر حسب نوع رابطه معنایی به انواع ساختها طبقهبندی میشود.
-2 رویکرد نحوی: در این رویکرد کسره اضافه عامل پیوند کلماتی است که با یکدیگر یک سازه نحوی بزرگتر از کلمه میسازند و بنابراین حوزه اضافه برحسب محدودیتهای ساختاری یا جایگشتی بین کلمات توصیف میشود.
میخواهیم ببینیم از این دو رویکرد زبانشناسی نظری تا چه حد میتوان در حل مسأله بازشناسی کسره اضافه در متون فارسی استفاده کرد. نتایج زیر حائز اهمیت فراوان هستند:
نتجه اول بازشناسی کسره اضافهصرفاً تابع بافت زبانیِ خارج از جمله است.
روابط معنایی و محدودیتهای ساختاری هیچ کدام نمیتوانند با صراحت حوزه اضافه را مشخص کند، بلکه بافت زبانی خارج از جمله است که میتواند ابهام زدایی کند و صحت یکی از دو خوانش فوق را تعیین کند.
نتیجه دوم بازشناسی کسره اضافه تابع محدودیتهای ساختاری است.
نتیجه سوم بازشناسی کسره اضافه صرفاً تابع روابط معنایی کلمات است.
نتیجه چهارم - بازشناسی کسره اضافه تابع بافت زبانی، محدودیت های ساتاری و روابط معنایی کلمات است.
نتیجه پنجم بازشناسی کسره اضافه صرفاً تابع تناظر حرف و واج است.
هر الگوریتم بازشناسی کسره اضافه در متون زبان فارسی به ناچار باید از نتایج پنجگانه فوق به طرز مناسبی استفاده کند.
-5 شبکه عصبی
شبکههای عصبی را میتوان با اغماض زیاد، مدلهای الکترونیکی از ساختار عصبی مغز انسان نامیدمکانیسم. فراگیری و آموزش مغز اساساً بر تجربه استوار است. مدلهای الکترونیکی شبکههای عصبی طبیعی نیز بر اساس همین الگو بنا شدهاند و روش برخورد چنین مدلهایی با مسائل، با روشهای محاسباتی که بهطور معمول توسط سیستمهای کامپیوتری در پیش گرفته شدهاند، تفاوت دارد.
یک شبکه عصبی مصنوعی - - Artificial Neural Network - ANN - ایده ای است برای پردازش اطلاعات که از سیستم عصبی زیستی الهام گرفته شده و مانند مغز به پردازش اطلاعات می پردازد . عنصر کلیدی این ایده ، ساختار جدید سیستم پردازش اطلاعات است. این سیستم از شمار زیادی عناصر پردازشی فوق العاده بهم پیوسته تشکیل شده - - neuronsکه برای حل یک مسأله با هم هماهنگ عمل می کند.ANN ها ،نظیر انسانها ، با مثال یاد می گیرند . یک ANN برای انجام وظیفه ای مشخص ، مانند شناسایی الگو ها و دسته بندی اطلاعات ، در طول یک پروسه یاد گیری ، تنظیم می شود . در سیستم های زیستی یاد گیری با تنظیماتی در اتصالات سیناپسی که بین اعصاب قرار دارد همراه است . این روش ANN ها هم می باشد.
شبکه های عصبی ، با قابلیت قابل توجه در استنتاج معانی از داده های پیچیده یا مبهم ، برای استخراج الگوها و شناسایی روشهایی که آگاهی از آنها برای انسان و دیگر تکنیک های کامپیوتری بسیار پیچیده و دشوار است به کار گرفته می شوند. در این مقاله با استفاده شبکه های عصبی سیستمی جهت تشخیص محل وقوع کسره اضافه معرفی می کنیم. برای این امر از سه نوع شبکه عصبی BP، RBF و SVM استفاده می کنیم.
روند کار با شبکه های عصبی شامل دو مرحله آموزش و تست میباشد. در مرحله آموزش به شبکه عصبی نحوه تشخیص محل کسره اضافه را آموزش می دهیم و در مرحله تست نیز نتیجه کار را با استفاده از مجموعه ای از جملات که در پروسه آموزش شرکت نداشته اند محک می زنیم.