بخشی از مقاله
چکیده
در هر زبان کلماتی مبهم وجود دارند که دارای معانی متفاوتی هستند. مساله یافتن معنای صحیح کلمه ی دارای معانی متعدد، از مسایل جاری در حوزه پردازش زبانهای طبیعی محسوب میشود. در این مقاله، مدلی برای رفع ابهام معنایی کلمات با استفاده از روش یادگیری مبتنی بر نمونه که بر اساس رویکرد نظارتی است ارائه میدهیم. برای ایجاد این مدل از دو دسته ویژگی مبتنی بر کلمات موضوعی استفاده شده است. دسته اول وجود و عدم وجود کلمات موضوعی در هر جمله را نشان میدهد، و دسته دوم وجود و عدم وجود کلمات موضوعی را وابسته به وزن هر کلمه موضوعی تعیین میکند. بعد از انجام عملیات پیش پردازش روی نمونه های ذخیره شده برای هر کلمه دو ماتریس ویژگی استخراج میشود. میانگین صحت عملکرد روش پیشنهادی %88,31 میباشد.
کلمات کلیدی: رفع ابهام معنایی، روش مبتنی بر نمونه، طبقه بندی، کلمات موضوعی
.1 مقدمه
رفع ابهام معنایی - WSD - اصطلاحی است که به استخراج معنی صحیح و مناسب از واژه هایی که چند معنایی هستند اطلاق می شود و این کار غیر ممکن نیست چرا که اگر چه کلمه ها ممکن است معانی زیادی داشته باشند طبیعتا تنها یکی از آن ها مناسب بافتی است که کلمه مورد نظر در آن ظاهر می شود. ابهام معنایی در بیشتر برنامه های کاربردی پردازش زبان طبیعی همچون بازیابی اطلاعات، متن کاوی و همچنین در زمینه های تحقیقاتی جدید مانند وب معنایی بیش از پیش مورد توجه قرار گرفته است.اهمیت این نوع ابهام زدایی در ترجمه ماشین بیش از برنامه های کاربردی دیگر است و در واقع ابهام زدایی معنایی واژگان یکی از مراحل اصلی در ترجمه ماشین به شمار می آید.
به عنوان مثال کلمه انگلیسی paper دارای معانی مختلفی در زبان فارسی - کاغذ، روزنامه، مقاله - است و انتخاب درست یکی از معانی در واقع عمل ابهام زدایی در ترجمه ماشین است . چهار رویکرد مختلف برای رفع ابهام معنایی کلمات وجود دارد. این رویکردها شامل رویکردهای نظارت شده، مبتنی بر دانش، نیمه نظارت و رویکرد غیر نظارتی است .[1]Lesk یکی از اولین محققان بود که برای رفع ابهام از تعاریف لغت نامه های قابل خواندن ماشین - - MRD با استفاده از الگوریتم ها تلاش کرد، الگوریتم او به خوبی در میان محققان WSD شناخته شده است و الگوریتم Lesk اساس آن بر پایه دانش میباشد .[2]
از جمله روشهای نظارت شده روش لیست تصمیم است که در [3] الگوریتمی با سرپرستی بر پایه لیستهای تصمیمگیری پیشنهاد شده است. با استفاده از این روش مجموعه کاملی از ویژگیهای همسایگی، ریختشناسی و نحوی استفاده شده و دقت سیستم %78,1 گزارش شده است.در کار [4] از ترکیب رویکرد شبکه عصبی و مفهوم اطلاعات هم رخدادی برای رفع ابهام کلمات استفاده کرده و نشان داده که رفع ابهام معنایی میتواند با ترکیب چندین نشانه بهبود داده شود. در [5] روش مبتنی بر حافظه رفع ابهام معنایی پیشنهاد شد که دقت این سیستم % 75,1 گزارش شده است.از فعالیتهایی که در زمینه رفع ابهام کلمات فارسی صورت گرفته می توان به [6 ] اشاره کرد.
در این مقاله روش مبتنی بر پیکره و یک فرهنگ لغت برای امتیاز دهی هر معنی کلمه مبهم پیشنهاد شده است. دقت میانگین این روش برای 15 کلمه مبهم %91,46 گزارش شده است. در کار [7] یک روش بیزی برای رفع ابهام معنایی از کلمات فارسی ارائه شده است که به منظور استفاده برای ترجمه ماشین از زبان فارسی به انگلیسی بوده است. در کار [8] روش رفع ابهام معنایی به منظور استفاده در ترجمه ماشین - انگلیسی به فارسی - ارائه شده است. در کار [9] از مدل غیر نظارتی تخصیص پنهان دریکله استفاده شده است.به طور کلی اکثر تحقیقات انجام گرفته روی رفع ابهام کلمات انگلیسی بوده و برای رفع ابهام کلمات فارسی متاسفانه تحقیقات محدودی انجام شده است. علاوه بر این با توجه به تحقیقات مقایسه ای [10] انجام شده دراین زمینه روش های یادگیری با ناظر از جمله روش های انتخاب کردن مناسب ترین مفهوم می باشد که با توجه به نتایج بسیار خوبی که دارد ولی استقبال چندانی در رفع ابهام کلمات فارسی از این روش ها نشده است و آن هم به علت مشکل آموزش دادن این روش ها و کمبود داده آموزشی مناسب برای زبان فارسی است .
از این رو ما در این تحقیق برای رفع ابهام معنایی کلمات فارسی به سراغ روش های یادگیری با ناظر رفته و برای آموزش، از بانک منحصر به فردی که نزدیک به یک میلیون صفحه با جملات تقطیع شده درزمینه موضوعات مختلف را دارد به عنوان داده آموزشی استفاده می کنیم .در این مقاله برای انجام رفع ابهام با استفاده از رویکرد مبتنی بر نمونه به طور کلی مراحل زیر انجام میپذیرد.
-1برای هر کلمه مبهم به تعداد معانی آن کلاس وجود دارد
-2استخراج ویژگی از متون نمونه و تبدیل هر متن نمونه به بردار ویژگی متناظر با آن متن
-3انتخاب معیار شباهت برای اندازه گیری شباهت بین نمونه تست و نمونه های آموزشی
-4استفاده از الگوریتم knn جهت طبقه بندی داده تست جدید در یکی از کلاسهای داده شده و در نهایت دستیابی به معنای صحیح کلمه مبهم.
-5ارزیابی کارایی این روش و بیان نتایج حاصل از تحقیق.
ادامه مقاله به این صورت بخش بندی شده است: بخش دوم پیاده سازی روش پیشنهادی را با توصیف روش مبتنی بر نمونه، الگوریتم های اندازه گیری شباهت و پارامترها و متغیرها مورد نیازو مدل پیشنهادی بیان میکند.بخش سوم آزمایشات و نتایج به دست آمده را نشان میدهد.
2روش پیشنهادی
1-2 الگوریتم یادگیری مبتنی بر نمونه
در روش یادگیری مبتنی بر نمونه - IBL - مثال ها را ذخیره می کنیم و هر گونه تعمیم تا مشاهده مثال جدید به تعویق می افتد. به همین دلیل این روش گاهی روش تنبل یا LAZY نامیده می شود. یادگیرنده های مبتنی بر نمونه یک نمونه را با مقایسه آن با پایگاه داده نمونه های از پیش طبقه بندی شده طبقه بندی می کند. فرض اساسی آن این است که نمونه های مشابه طبقه بندی مشابه خواهند داشت . [11]الگوریتم های IBL از دسته بندی کننده الگوی Neighbor Nearest - NN - گرفته شده اند، که در عین حال به ذخیره و استفاده از نمونه های منتخب برای پیش بینی دسته بندی می پردازد.روش یادگیری مبتنی بر نمونه دارای سه مشخصه اصلی است:
1-1-2 انتخاب نمونه ها برای ذخیره
در این الگوریتم سعی میشود نمونه هائی ذخیره شوند که عمومی تر باشند. تشخیص اینکه آیا یک نمونه عمومیت دارد یا خیر، میتواند کار مشکلی باشد.
2-1-2 تابع شباهت/ فاصله
مشخص می کند که دو نمونه چقدر نزدیک به هم هستند. انتخاب این تابع میتواند بسیار مشکل باشد معیار شباهت یا فاصله میان دو نقطه داده، یک چالش و موضوع مهم در روش های داده کاوی و کشف دانشی که نیازمند محاسبه شباهت هستند، می باشد. میزان نزدیکی بر حسب یک معیار فاصله یا شباهت تعریف می گردد. موفقیت اغلب سیستم های یادگیری به یک تابع شباهت یا فاصله خوب بستگی دارد که آن ها استفاده می کنند.در این مقاله ما از توابع فاصله اقلیدوسی، منهتن، کانبرا، چبیشف استفاده خواهیم کرد.
3-1-2 تابع دسته بندی کننده
تابعی است که با مشاهده یک مثال دسته بندی آن را تعیین می کند. برای این کار فاصله تا دیگر نمونه های آموزشی محاسبه می شود. K تا از نزدیک ترین همسایگان شناسایی می شود. از برچسب های کلاس نزدیک ترین همسایگان برای تعیین برچسب کلاس نمونه ناشناخته استفاده میکند - به عنوان مثال با گرفتن رای اکثریت - . الگوریتمهای دسته بندی کننده ای که دراین مقاله استفاده خواهیم کرد الگوریتمهای دسته بندی کنندی مبتنی بر نمونه است که