بخشی از مقاله

چکیده

تاکنون روشهای مختلفی برای تشخیص شباهت دو متن ارائه شده که کارایی آنها به محتوای متن و منابع مورد استفاده برای مقایسه بین واژههای آنها محدود بوده و هیچگونه تطبیقی با داده مورد بررسی نداشتهاند به طوری که نیاز به آموزش سنجه با توجه به متن مورد بررسی به خصوص در متون تخصصی فارسی احساس میگردد. در این مقاله روشی ارائه شده است که با توجه به کیفی و ناکامل بودن عوامل اثرگذار بر سنجش شباهت لغوی بین دو متن تخصصی و همچنین نیازمندی به آموزش سنجه، از استنتاج نروفازی که قابلیت یادگیری از داده آموزشی را دارد، استفاده می کند.

این روش، جملههای موجود را به دو بخش عمومی و تخصصی تقسیم کرده و سپس با استفاده از سیستم استنتاج نروفازی و پس از یادگیری از طریق داده آموزش، میزان شباهت بین جملهها را در دو بخش محاسبه و سپس با هم ترکیب کرده و در نهایت شباهت بین دو جمله ارزیابی میشود. روش مذکور بر روی بخش آزمون پیکره مقالههای حوزه یادگیری الکترونیکی - پیکره همیافت - مورد ارزیابی قرار گرفته که با دقت بیش از %82 امکان شناسایی زوججملهها مشابه را داراست.

-1 مقدمه

در حال حاضر اطلاعات فراوانی بر روی اینترنت در دسترس است و افراد به راحتی میتوانند با استفاده از این اطلاعات سند جدیدی به نام خود تدوین کنند. یکی از مسائل اصلی در این زمینه، یافتن اسناد مشابه و تکراری در وبگاههای تخصصی تا محققان مدت زمان کمتری را صرف یافتن اطلاع اصیل کنند که علاقهمندیهای فراوانی را به خود جلب کرده است. یافتن متون مشابه در حوزههای مختلف علمی همانند ترجمه ماشینی، خوشهبندی اطلاعات، پیشبینی روند حرکتی اطلاعات و تحلیل داده کاربرد دارد.

از آنجا که پردازش زبان طبیعی1 فرایندی سخت و مبهم است در نتیجه یافتن شباهت بین واژهها نیز عملی دشوار است. تاکنون مطالعات فراوانی در این زمینه انجام شده است؛ در دو مقاله الظهرانی و عثمان [4,5] مرور کاملی بر روشهای پیشنهادی برای شباهتسنجی بین متون ارائه شده است. در این مقاله هدف اصلی تشخیص میزان شباهت لغوی بین دو متن تخصصی است که بتواند به وبگاههای که در حوزهای تخصصی فعالیت دارند کمک کند تا اسناد اطلاعاتی مشابه را شناسایی کنند و به کاربران نتایج بهتری را نمایش دهد.

-2 پژوهشهای مرتبط

تشخیص شباهت عبارت است از قضاوت در مورد اینکه »آیا دو عبارت متنی دارای معنای یکسانی هستند یا خیر؟.[5]« روشهای متفاوتی در سطوح مختلف متن همانند لغوی6، معنایی7، نحوی8 و یا ترکیبی از آنها برای تشخیص شباهت در زبان انگلیسی ارائه شده است. در زبان فارسی نیز تحقیقاتی در زمینه بازیابی اطلاعات انجام شده و تحقیقات کمی برای تشخیص شباهت بین دو متن انجام گرفته است. در این بخش مروری بر تحقیقات انجام شده در زمینه تشخیص شباهت لغوی در زبانهای مختلف ارائه خواهد شد.

استفاده از سنجههای فضای برداری همانند سنجه کسینوسی و -nگرم از عمدهترین روشهایی است که در زمینه شباهتسنجی لغوی متون کاربرد دارد. در این راستا میتوان از تحقیق بارونسدانو و همکاران نام برد که برای مقایسه سندهای اصل با مشکوک از روش -nگرم استفاده کردند و با nهای مختلف آزمایشهای خود را بر پیکره METER انجام دادند و در نهایت به این نتیجه رسیدند که بهترین n برای -nگرم سطح واژه، عدد 2 و3 است که به ترتیب معیار F برای آنها در پیادهسازی %68و %66 بوده است.[9] کومار و تریپثی نیز از مفهوم -3گرم پیوسته برای تشخیص دستبرد ادبی به کمک پیکره استفاده کردند.

-3 گذاری اجمالی بر روش نروفازی

روشهای نروفازی ترکیبی از سیستم استنتاج فازی و شبکههای عصبی مصنوعی است که روشهای مکمل یکدیگر در طراحی سیستمهای هوشمند تطبیقی هستند. شبکههای عصبی زمانیکه: الف - هیچ گونه دانش پیشین درباره مسأله وجود نداشته باشد. ب - نمونههای کافی برای آموزش در اختیار باشد. ج - هیچگونه روش مستقیمی برای استخراج قوانین از ساختار شبکه وجود نداشته باشد؛ قابل بهکارگیری بوده و نتایج خوبی تولید خواهند کرد. در مقابل، سیستم فازی به جای نمونههای یادگیری برای تولید دانش پیشین، نیاز به مجموعهای از قواعد زبانی دارد. متغیرهای ورودی و خروجی نیز باید به صورت زبانی توصیف شوند.

اگر دانش کامل نباشد و یا در تناقض باشد سیستم فازی باید تنظیم شود و از آنجا که هیچ رویکرد فرموله ای برای این امر وجود ندارد، تنظیم با روشهای ابتکاری انجام میشود که خود میتواند منبع خطا باشد. بنابراین در یک سیستم فازی داشتن رویکردی تطبیقی خودکار مطلوب خواهد بود که این نیاز را میتوان با شبکه عصبی پاسخ داد.[17] شبکههای عصبی فازی - نروفازی - را میتوان به سه نوع مشارکتی10، همزمان11 و یکپارچه12 تقسیم کرد.[18] که در این تحقیق شبکه عصبی فازی یکپارچه بهکار گرفته میشود.

در مدل شبکه عصبی فازی یکپارچه، الگوریتمهای یادگیری شبکه برای تشخیص پارامترهای سیستمهای استنتاج فازی به کار گرفته میشوند. سیستمهای نروفازی یکپارچه از استنتاج فازی تاکاگی- سوگنو13 استفاده میکند که در آن از ترکیب پس انتشار برای یادگیری توابع عضویت و تخمین کمترین خطا مربع برای تشخیص ضرایب قواعد در تجمیع آنها استفاده میکند.

در این سیستمها فرایند یادگیری دو بخش دارد: در بخش اول در حالیکه پارامترهای مقدم - توابع عضویت - برای چرخه آموزش ثابت در نظر گرفته میشود پارامترهای ورودی منتشر شده و تخمین بهینهای به کمک فرایند کمترین خطا انجام میگیرد.  در بخش دوم در حالیکه پارامترهای خروجی ثابت باقی ماندهاند دوباره الگوهای آموزش منتشرشده و در این چرخه، پارامترهای مقدم به کمک خروجی پسانتشار ویرایش میشوند. این فرایند تا به دست آوردن نتیجه دلخواه تکرار میگردد. جزییات عملکرد هر لایه در این معماری - شکل - - 1 - به صورت زیر است :[17]

الف- لایه ورودی: هیچ محاسبهای در این لایه انجام نمیشود. هر گره در این لایه مرتبط با یک متغیر ورودی است و تنها مقادیر ورودی را به لایه بعدی انتقال میدهد. وزن هر ارتباط در لایه اول برابر یک است.

ب- لایه فازیگر: هر گره در این لایه مرتبط با یک برچسب زبانی - همانند کم، متوسط و زیاد - برای هر یک از متغیرهای لایه ورودی است. به زبان دیگر ارتباط خروجی در این لایه نشاندهنده مقدار عضویت است که میزان تعلق هر ورودی به مجموعه فازی را مشخص میکند. تصمیم درباره مقدار اولیه و نوع توابع عضویت هر متغیر ورودی با استفاده از الگوریتم خوشهبندی انجام میشود. همچنین شکل نهایی توابع عضویت در طول یادگیری شبکه تنظیم خواهد شد.

ج- لایه مقدم قواعد: هر گره در این لایه نشاندهنده مقدم قواعد است. معمولاً عملگرنُرم t در این گره استفاده میشود. خروجی گره در این لایه نشاندهنده قوت آتش - شدت فعال شدن قاعده - برای قاعده فازی مرتبط است.

د- لایه هنجارسازی قوت قواعد: هر گره در این لایه نسبت قوت آتش -i مُین قاعده به مجموع قوت آتش تمام قواعد را محاسبه میکند.

-1-3 شبکه تطبیقی مبتنی بر استنتاج فازی - 14انفیس -

انفیس ساختار شبیه استنتاج تاکاگی سوگنو دارد. نسخه ویرایش شدهای از آن در شکل - 1 - نشان داده شده است که توانایی پیادهسازی سیستم استنتاج فازی سوکاموتو15 را دارد. در استنتاج سوکاموتو، خروجی نهایی میانگین وزنی خروجی قطعی هر قاعده است که از طریق قوت آتش قاعده - آستانه فعال شدن قاعده - استنتاج و خروجی توابع عضویت میشود. در انفیس، فرایند تطبیق - یادگیری - تنها در سطح پارامترها با ساختار ثابت انجام میشود. در این شبکه ترکیبی از پس انتشار و فرایند حداقل مربعات خطا برای آموزش سیستم استفاده میشود.[17]

-4 چارچوب پیشنهادی سنجه یادگیر

در این بخش، سنجه یادگیر پیشنهادی نروفازی - انفیس - برای ارزیابی شباهت لغوی بین دو متن تخصصی فارسی ارائه میشود. تشخیص شباهت لغوی در متون تخصصی دارای مشکلاتی از قبیل وجود ابهام در معنای دقیق واژه و همچنین عدماطمینان در غنای منابع برای سنجش است - که آیا ارتباط بین تمام واژهها را پوشش میدهند - که منجر خواهد شد که با داده و اطلاعات ناقص روبرو باشیم.

از طرفی برای تشخیص دقیق شباهت در متون تخصصی نیازمند استفاده از سنجههای مختلف رویکردهای شباهتسنجی »لغوی« و همچنین آموزش برخط سیستم برای تطبیق قواعد با داده مورد بررسی هستیم. روش پیشنهادی در این مقاله از استنتاج نروفازی برای حل این مشکلات استفاده کرده است. شکل - 2 - ساختار سنجه پیشنهادی برای حل مسئله سنجش شباهت در متون تخصصی را نشان میدهد. جزییات هر بخش در ادامه آورده خواهد شد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید