بخشی از مقاله

چکیده

تشخیص هممعنانویسی از حوزههاي مورد علاقه دنیاي علم است که در بسیاري از مسائل علمی همانند دستبرد ادبی کاربرد دارد. در این مقاله روشی براي شناسایی متون تخصصی هممعنانویسی شده به کمک نظریه مجموعه فازي ارائه شده است. در روش پیشنهادي، به علت وجود ابهام در نحوة سنجش شباهت و اینکه روشها و سنجههاي شباهتسنجی از منابعی استفاده میکنند که در آنها گنگی و ابهام وجود داشته، شباهت بین دو واژه یا دو متن به صورت متغیري فازي مدل شده است.

بدین منظور در مرحله ابتدایی هر متن به دو بخش »عمومی« و »تخصصی« بخشبندي شده و براي هر بخش ویژگیهاي مرتبط استخراج میگردد و در نهایت سیستم استنتاج فازي بر اساس خبرگان طراحی و قواعدي براي شناسایی درست هممعنانویسی استخراج میشود. روش پیشنهادي بر روي مجموعه دادههاي »مقالات یادگیري الکترونیکی« مورد ارزیابی قرار گرفته که با دقت بیش از %79 امکان شناسایی اسناد هممعنانویسی شده و مشابه را داراست و به همین دلیل میتوان از آن براي استفاده در سامانههاي واقعی تشخیص دستبرد محتوایی در متون فارسی بهره جست.

١-  مقدمه

با گسترش استفاده از اینترنت و شبکههاي رایانهاي حجم وسیعی از اطلاعات در دسترس کاربران و محققان قرار گرفته است. این حجم زیاد، مسائل تحقیقی جدیدي را در دنیاي علم به وجود آورده است. یکی از پرکاربردترین این مسائل تشخیص هممعنانویسی1 در متون است. تشخیص درست هممعنانویسی، باعث شناسایی استفاده نادرست از مطالب و نوشته دیگران در تحقیق دانشگاهی به نام خود شده که در عصر حاضر اصالت و گسترش درست دانش در مجامع علمی را به خطر انداخته است.

تشخیص هممعنانویسی به علت ماهیت پیچیدة آن و اینکه این عمل در سطوح مختلفی همانند »واژه« ، »جمله« و یا »پارگراف« در متون اتفاق میافتد بسیار دشوار است. به عنوان مثال دو جمله » توسعه هستاننگار از حوزههاي علمی فناوري اطلاعات است« و » در فناوري وب، تحقیقات وبمعنایی رو به گسترش است« را در نظر بگیرید. اگرچه از واژهها مختلفی در این دو جمله استفاده شده است ولی معنايتقریباً یکسانی را منتقل میکند.

تحقیقات زیادي براي تشخیص هممعنانویسی انجام شده که به عنوان نمونه میتوان به تحقیقات راجکومار و چیترا[5] که از ترکیب ویژگیهاي مختلف و با استفاده از شبکه عصبی، براکت ودولان[6] که از ترکیب ویژگیهاي لغوي2، معنایی3 و نحوي4 و ویژگیهاي مرکّب براي تشخیص هممعنانویسی با کمک ماشین بردار پشتیبان5 و راس و همکارانش[7] نیز از ویژگیهاي لغوي، معنایی و نحوي براي تشخیص دستبرد ادبی و هممعنانویسی متن استفاده کردهاند، اشاره نمود. هم معنانویسی کاربردهاي فراوانی دیگر در مسائلی همانند ترجمه ماشینی، خلاصهسازي، تشخیص دستبرد ادبی و خوشهبندي متون6 دارد. به عنوان مثال، شباهتسنجی دقیق متن باعث عملکرد بهتر در تشخیص هممعنانویسی شده و میتوان با کارایی بهتري متون را خوشهبندي کرد و از نگهداشت اطلاعات اضافه جلوگیري به عمل آورد.

هسته اصلی و کلیدي فرایند تشخیص هممعنانویسی، شباهتسنجی متون است که شباهت و نزدیکی بین مجموعهاي از اسناد، جملهها یا واژهها را از منظر معنایی، لغوي و یا ساختاري مشخص میکند. این سنجهها با کیفیتهاي مختلفی شباهت بین دو متن را سنجیده و معمولاً امتیازهاي متفاوتی را براي دو متن یکسان ارائه میدهند که به نوعی تاییدکنندة عدمقطعیت در نحوه سنجش بین دو متن است. از طرفی در تحقیقات و روشهایی که تاکنون براي تشخیص هممعنانویسی انجام شده نوع محتوا و معناي غیرقطعی واژهها چندان مورد توجه قرار نگرفته و اکثر این روشها در تشخیص هممعنانویسی، امتیاز و معناي قطعی یکسانی را براي مقایسه زوجواژههاي متون به کار میبرند.

در نتیجه زمانی که دو متن براي مقایسه در حوزهاي خاص در اختیار باشد با محدودیت ابهام و عدمقطعیت در سنجش شباهت زوجواژه روبرو خواهیم بود که کارایی سنجههاي شباهتیابی را کاهش میدهد. به همین دلیل در این مقاله روشی ارائه شده است که در آن نقص اطلاعات دربارة نحوه سنجش معنایی شباهت در متون تخصصی با استفاده از نظر خبرگان و بیان فازي پوشش داده میشود و میتوان با دقت و اطمینان بیشتري شباهت را محاسبه و در نهایت هممعنانویسی در متون را شناسایی کرد.

ادامه متن بدین صورت تنظیم شده است: در بخش 2 مسئله تشخیص هممعنانویسی تعریف شده و در بخش 3 کلیات نظریه مجموعه فازي بیان و در بخش 4 روش پیشنهادي براي شباهتسنجی به تفصیل آورده شده است. در بخش 5 نتایج پیادهسازي روش طراحی شده بیان میشود و در نهایت بخش 6 به نتیجهگیري میپردازد.

٢- بیان مسئله

معمولاً کاربران از واژههاي هممعنا، تغییر ترتیب واژهها و یا جابهجاکردن بخشهاي مختلف متن، براي هممعنانویسی به خصوص در متون تخصصی استفاده میکنند[9]، تشخیص این نوع هممعنانویسی دشوار است و لازم است براي رسیدن به کارایی بهتر بیان دقیقتري از مسئله ارائه و عوامل تاثیرگذار بر سنجش شباهت بین دو متن شناسایی شود. از سوي دیگر براي شباهتسنجی بین دو متن بایستی از مقایسه بین دو واژه شروع کرد.

در حال حاضر روشهاي مختلفی براي محاسبه شباهت دو واژه مبتنی بر رویکردهاي هندسی و یا پایگاه دانش محور وجود داردکه از رویکردهاي متفاوت و منابع مختلف براي محاسبه میزان شباهت بین دو واژه استفاده میکنند. اشاره به این نکته ضروري است که »شباهت« مفهومی ذهنی، مبهم1 و گنگ 2 است.

ابهام در شباهت ناشی از عدم تشخیص درست معنی اصلی با توجه به محتوا و گنگی نیز ناشی از وجود چندین معنی است. علاوه بر عدمقطعیت که ناشی از سنجش بین واژه بر مسئله وارد میشود؛ در مسئله سنجش شباهت با نوعی دیگر از ناکامل - ناقص - بودن اطلاعات ناشی از وجود پایگاه اطلاعاتی براي سنجش شباهت اطلاعات روبرو هستیم. در نتیجه میتوان مسئله هممعنانویسی بین دو متن در یک زبان مشخص را به صورت زیر تعریف کرد:

» مجموعه زوجمتن - xi,yi - و میزان شباهت آنها - si - مفروض است. تشخیص هممعنانویسی عبارت است از: ارائه روشی جامع و قابل اعتماد براي محاسبه سنجش شباهت بین زوجمتن در محیطی با اطلاعات و منابع ناکامل - مبهم، نامعلوم و نامطمئن - که به میزان زیادي به si نزدیک باشد.«

با توجه با تعریف فوق، ما با محیطی نامطمئن در بررسی شباهت بین دو متن روبرو بوده و براي حل اینگونه مسائل لازم است تا از دیدگاههاي متفاوت و منابع مختلف براي به دست آوردن شباهت بین دو متن استفاده کنیم. تاکنون تلاشهاي اندکی در حوزه هممعنانویسی و شباهتسنجی بر روي بیان شفاف نحوه سنجش، عدمدقت و عدماطمینان منابع مورد استفاده براي آن انجام شده است. از جمله این تلاشها میتوان به کارهاي الظهرانی و سلیمی[12] که سنجه شباهتسنجی بین دو واژه را به صورت تابع عضویت فازي مدل کرده و گوپتا و همکاران[13] که بازتعریفی از تابع عضویت فازي کار الظهرانی و سلیمی در بازههاي جزییتر، ارائه دادهاند؛ اشاره کرد.

در مرور جامع الظهرانی و همکاران[14] نیز توصیه شده است که، با توجه به پیچیدگیهاي که هر روزه به نوع هممعنانویسی وارد میشود روشهاي شباهتسنجی مبتنی بر معنا مورد استفاده قرار گیرد که در روشهاي مبتنی بر معنا هر متن به صورت مجموعهاي از واژههایی که به طریق خاصی منظم شدهاند، دیده میشوند. دو متن میتواند از نظر معنایی کاملاً مشابه ولی در ساختار متفاوت باشند.

روشهاي معنایی به علت اینکه بازنمایی واژهها در ساختار معناها مشکل بوده و همچنین الگوریتمها آن داراي پیچیدگی است کمتر مورد توجه محققان قرار گرفته است. از طرفی در روشهاي فازي، شباهتسنجی بین دو متن همانند جمله، به صورت تقریبی و مبهم بوده و طیفی از مقادیر شباهت از - 0کاملاً متفاوت - تا - 1کاملاً مشابه - براي ساخت سنجه شباهت به کار برده شده است.

در تشخیص هممعنانویسی، هر واژه را میتوان با مجموعهاي فازي که شامل واژههاي هممعنا، با درجه عضویتهاي متفاوت مدل کرد[15] که مهمترین بحث در این رویکرد ساخت توابع عضویت مجموعه فازي بین واژه میباشد. در کار یارا و همکاران ماتریس همبستگی واژه به واژه براي به دست آوردن شباهت بین واژهاي ساخته شده که درایهها ماتریس مقدار شباهت بین دو واژه را نمایش میدهند. سپس درجه شباهت بین جملهها با محاسبه فاکتورهاي همبستگی بین هر زوج واژه از بین دو جمله در سند محاسبه میشود. به همین دلیل در این مقاله روشی ارائه میشود که از رویکرد شباهتسنجی مبتنی بر معناي فازي و همچنین ویژگیهاي آن استفاده کرده و ارزیابی جامعی از هممعنانویسی به دست آورد. در ادامه کلیات نظریه مجموعه فازي و روش پیشنهادي براي محاسبه شباهت بین دو متن را تشریح خواهد شد.

٣- نظریه مجموعه فازي

نظریه مجموعه فازي چارچوب مناسبی را براي حل مسائلی با دادهها و اطلاعات غیرقطعی و مبهم ارائه میکند و توانایی این نظریه، امکان استفاده از آن را در محیطهاي همراه با عدماطمینان را نیز فراهم میکند. انسانها معمولاً در بیان نظرات و تصمیمگیري، علاقمند به استفاده از واژههاي کیفی در مقابلکمی هستند. در این چارچوب، سیستم استنتاجی از طریق مجموعهاي از قواعد »اگر–آنگاه« ساخته شده که هر یک از این قواعد به کمک مجموعههاي فازي تعریف میشوند. سیستمهاي استنتاج فازي داراي دو مشخصه اصلی هستند که به کارگیري آنها را گسترش بخشیده است:

- الف - براي استدلال تقریبی1، به ویژه براي سیستمهایی که استخراج یک مدل ریاضی از آنها کار دشواري است، مناسب بوده و

- ب - داراي ویژگی استفاده از اطلاعات ناکامل و غیرقطعی با کمک متغیرهاي زبانی در تصمیمگیري است ، که به راحتی توسط انسانها قابل درك هستند 

موتورهاي استنتاج فازي میتوانند راهحلهاي عملی و مناسبی را در شرایط مختلف براي سیستمهاي پیچیده مهندسی ارائه دهند. قلب هر سیستم فازي »پایگاه دانش«2 آن است از که ترکیب دانش خبرگان حوزة مورد بحث و به شکل قواعدي از متغیرهاي زبانی3 تشکیل میشود. موتور استنتاج نیز بخش تصمیمگیرنده و مغز سیستم استنتاج فازي است که توانایی استنتاج خروجیها را با استفاده از قواعد و عملگرهاي فازي به شکلی که متناسب با نظر کیفی خبرگان است داراست

٤- روش پیشنهادي

شکل 1 معماري کلی روش پیشنهادي را نمایش میدهد. روش ارائهشده داراي سه بخش پیشپردازش و قطعهبندي، استخراج ویژگی و سنجه شباهتیابی و در نهایت سیستم استنتاج فازي است که در بخش پیشپردازش و قطعهبندي، ابتدا پیشپردازشهاي مورد نیاز بر روي هر یک از متون ورودي همانند ریشهیابی و حذف ایستواژه انجام گرفته و سپس هر متن را به دو قسمت تخصصی و عمومی قطعهبندي میشود. با توجه به تعاریف موجود هر متن شامل یک یا چند واژه است که مفهوم خاصی را در محتواي که در آن قرار میگیرد بیان می دارد. این مفهوم معمولاً در محتواي تخصصی بیشتر از طریق واژههاي تخصصی به کار گرفته شده در آن متن به دست میآید. بنابراین براي سنجش دقیقتر و با اطمینانتر در حوزههاي تخصصی، نیاز است که بخشهاي مختلف هر متن را با منابع ویژهاي که براي آن بخش طراحیشده، سنجید.

شکل :1 معماري روش پیشنهادي

در بخش عمومی واژههاي عمومی همانند واژه » انسان « که در اکثر محتواها استفاده شده و در بخش تخصصی واژههاي تخصصی یک حوزه خاص همانند واژه »وبمعنایی« قرار میگیرد. در این مقاله، هستاننگار4 حوزه یادگیري الکترونیکی براي تقسیمبندي واژههاي عمومی از تخصصی و همچنین محاسبه شباهتسنجی بین واژههاي تخصصی که بخشی از آن در شکل 2 آورده شده، مورد استفاده قرار میگیرد.

شکل:2 بخشی از هستاننگار حوزه یادگیري الکترونیکی

براي نمونه دو جمله » توسعه هستاننگار از حوزههاي علمی فناوري اطلاعات است« و » در فناوري وب، تحقیقات وبمعنایی رو به گسترش است« را در نظر بگیرید. این جملهها با استفاده از هستاننگار تخصصی حوزه یادگیري الکترونیکی مطابق با شکل 3 به دو بخش عمومی و تخصصی تقسیم میشوند.

شکل :3 نحوه مقایسه زوجواژهها در زوج جمله ها

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید