بخشی از مقاله
چکیده
با گسترش روز افزون اینترنت، دسترسی به ایدهها، مقالات، مستندات و دستنوشتههای دیگران آسانتر گردیده است. این امر موجب تبادل سریع اطلاعات و در مقابل، سبب آسانتر شدن سرقت ادبی یا Plagiarism شده است. در این مقاله، روشی برای تشخیص عبارات سرقت شده در متون طبقهبندی شده، ارائه میشود. در روش پیشنهادی هر متن با متون هم طبقه خود، جهت کشف سرقت مقایسه خواهد شد.
در مرحلهی اول، به دلیل اینکه احتمالاً تعداد متون اصلی مربوط به طبقه متن مشکوک، زیاد باشد، تعدادی از آنها، که به متن مشکوک شبیهتر هستند؛ یافت میشود. در مرحلهی دوم، با استفاده از جملات مشابه و یا کلمات کلیدی مشابه در هر جفت جملهی مربوط به متن مشکوک و اصلی، فرمولی برای یافتن درصد شباهت دو جمله، ارائه میشود. در مرحلهی سوم، با استفاده از یک حد آستانه و توالی جملات مشابه در دو متن، مکان عبارت تقلب شده، یافت میشود. در مرحلهی آخر، به دلیل وجود برخی از خطاهای احتمالی و هچنین گسسته یافت شدن برخی از عبارتها، یک الگوریتم پسپردازش سه مرحلهای بر روی عبارات کشف شده، اعمال میشود.
روش پیشنهادی در مقاله مناسب متونی است که نوع تقلب آنها کلمه به کلمه و یا با ابهام کم باشد. ارزیابی انجام شده و مقایسهی این روش با کارهای انجام شده توسط 4 نفر برتر مسابقهی بین المللی کشف سرقت ادبی PAN10، نشان میدهد که در تقلبهای کلمه به کلمه، این الگوریتم کارایی خوبی داشته و بعد از روش نفر اول نتایج بهتری را نسبت به روش دیگر نفرات نشان میدهد. در تقلب با ابهام کم، درصد فراخوانی الگوریتم از هر چهار روش بهتر بوده، اما نیاز به کار بیشتر برای یکسره تشخیص دادن عبارات و بهبود دقت دارد.
-1 مقدمه
یکی از مسائلیکه اخیراً در حوزه ی متنکاوی مورد توجه قرار گرفته است، تشخیص سرقت ادبی به منظور رعایت حقوق نویسندگان، می باشد. سرقت ادبی، تلقی ایده، نظرات و افکار دیگران به نام خود و یا استفاده از آنها بدون ارجاع به منبع اصلی است. افراد با جابهجایی کلمات، جملات و یا عبارات و جایگزینی معانی آنها و همچنین دوباره نویسی متن، سعی در پنهان نمودن موارد سرقتی، در کار خود دارند. تشخیص سرقت ادبی، فرآیند مکان یابی این نمونه های سرقتی درون یک کار یا سند است. در مواردی که شخص عین یک عبارت را از متن اصلی کپی میکند، کار تقریباً در مسئلهی دیگر، که اخیراً مطرح شده است، مکانیابی دقیق عبارات سرقت شده، در هر دو سند مشکوک و اصلی، علاوه بر تشخیص منبع سند مشکوک است.
در این مقاله، تشخیص سرقت ادبی خارجی در متون تک زبانه4 مورد بررسی قرار میگیرد. در بسیاری از کارهای انجام شده، کلمات کلیدی و محتوایی هر متن، به عنوان معیاری برای شباهت دو متن استفاده می شود. این روش نیز بر مبنای جملات و کلمات کلیدی متون استوار است. در روش پیشنهادی، پس از تعیین طبقه یا خوشهی متن مشکوک و انجام یک پیش پردازش، برای حذف نشانهها و کلمات غیر مفید ، با استفاده از ترتیب ظهور کلمات کلیدی مشترک در دو متن مشکوک و اصلی، متون شبیه تر به متن مشکوک از درون طبقه یا خوشهی مرتبط با آن، انتخاب می شود.
در مرحله ی بعد با شکستن دو متن مورد مقایسه، به جمله های تشکیل دهنده ی آن ها و مقایسه جملات، با استفاده از تعداد کلمات کلیدی مشترک هر دو جمله اصلی و مشکوک، درجه شباهت جملات مشخص شده و سپس با در نظر گرفتن یک حد آستانه، محدوده ی عبارات سرقت شده در هر دو متن تشخیص داده میشود. در آخرین مرحله، به منظور کاهش خطاهای احتمالی و نیز یکپارچه سازی برخی عبارات ، یک مرحله پس پردازش انجام میگیرد.
در این مقاله در بخش دوم، مروری بر کارهای مرتبط انجام خواهد شد، در بخش سوم و چهارم روش پیشنهادی و ارزیابی آن تشریح خواهد شد و در آخر نتایج و پیشنهاداتِ ادامهی پژوهش بیان خواهد شد.
-2 کارهای مرتبط
تکنیک های تشخیص سرقت ادبی، بر اساس واحد محاسبهی شباهت بین دو متن ، مانند جمله، کلمه ، کاراکتر و یا ساختار متن، تقسیمبندی میشوند حد یک جستجو میباشد، اما اگر شخص، ایده و نظر فرد دیگر را، در کار خود آورده و آن را به نام خود تلقی کرده باشد، تشخیص بسیار مشکل شده و نیاز به کاوش دقیق متن دارد. اهمیت تشخیص سرقت ادبی، به دلیل گسترش استفاده از کامپیوتر ها و ظهور اینترنت میباشد، که سرقت کار دیگران را آسانتر کرده است. اغلب موارد سرقت از آثار ادبی، در دانشگاه ها اتفاق میافتد،که اسناد معمولاً به صورت مقاله و گزارش یافت میشوند. با این حال سرقت از آثار دیگران، میتواند تقریباً در هر زمینهای شامل مقالات علمی، طراحیهای هنری و سورس کد، صورت گیرد.
تشخیص سرقت میتواند به صورت دستی و یا با کمک کامپیوتر انجام شود. تشخیص دستی نیاز به تلاش زیاد و حافظه ی عالی دارد و در مواردی که اسناد زیادی باید مقایسه شود و یا اسناد اصلی در دسترس نیست، غیر عملی است. در مقابل با استفاده از کامپیوتر میتوان اسناد بیشتری را با درصد موفقیت بیشتر، مقایسه نمود
اولین مسئله در تشخیص سرقت ادبی، تعداد زیاد اسناد موجود به عنوان منبع اصلی است، که موجب کاهش سرعت تشخیص میشود. درنتیجه علاوه بر الگوریتم مناسب، باید مجموعهی مناسبی از اسناد اصلی نیز در دسترس باشد. از آن جا که افراداصولاً، در پایان نامهها و مقالات دانشگاهی از منابعی استفاده میکنند که به موضوع کار آن ها مربوط است، خوشه بندی1 و یا طبقهبندی2 متون بر اساس موضوع و مقایسه سند مشکوک با اسناد منبع مربوط به موضوع آن، میتواند علاوه بر حفظ دقت، زمان مقایسه را کاهش دهد. اما این امر همیشگی نبوده و برخی از متون، علاوه بر متون هم موضوع خود، از منابع دیگر نیز استفاده می کنند و اگر چه می توان روش قبلی را پیش گرفت اما این مسئله سبب کاهش فراخوانی3 میشود.
در - Osman, Salim et al. 2012 - این تکنیکها، به هفت گروه طبقه بندی شده است. به طور کلی روش های کشف سرقت ادبی بر پایهی جملات - - 1995, Daniel and Mike 2004 و یا واحدهای کوچک-تر و یا یک اندازه، مانند دنباله ای از حروف یا کلمات، که اثر انگشت1 نامیده میشود؛ عمل میکنند - Zou, Long et . - al. 2011 مشکل استفاده از جمله در - Sergey, James et - al. 1995 تشخیص ندادن زیر کپیها است؛ که البته در - - Shivakumar and Garcia-Molina 1995، روشی برای حل این مشکل، با استفاده از تکرار کلمات، ارائه شده است. اما مشکل موجود در این روش این است که برخی از اصطلاحات می تواند مقایسه ی اشتراک اسناد را به اشتباه بیندازد.
در - - Schleimer, Wilkerson et al. 2003، به منظور ضمانت تشخیص تطبیق ها،به جای استفاده از روش معمولِ انتخاب اثر انگشت، یک الگوریتم محلی برای انتخاب پیشنهاد میگردد. در - - Zou, Long et al. 2011، یک روش سه مرحله ای برای تشخیص سرقت ادبی بیان میشود که مبنای آن روش به کار رفته در - - al. 2003 است و مکان یابی آن بر اساس خوشهبندی عبارات انجام شده است. در - - Grozea, Gehl et al. 2009 یک تکنیک تطبیق توالی دو به دو با زمان خطی به کار رفته که در آن چالشهای محاسباتیِ ناشی از مقایسهی میلیونها جفت سند، با استفاده از یک کتابخانه توسعه یافته مورد استفاده در ابزارهای امنیت شبکه، حل شده است.
در - - Kasprzak and Brandejs 2010 روشی بر اساس قطعات مشترک بین دو سند ارائه می دهد. این قطعات متشکل از 4 تا 6 کلمه به صورت MD5 Hash نگهداری می شود. این روش به منظور محاسبه ی عبارت های مشابه پشت سر هم، فاصله هایی با تراکم کافی در سند مشکوک که در فاصله هایی با تراکم کافی در سند منبع نگاشت2 میشود را، در نظر میگیرد.
در - - Muhr, Kern et al. 2010 ، از یک سیستم بازیابی اطلاعات استفاده می شود. اسناد اصلی به بﻻک های 40 نشانه ای متداخل و اسناد مشکوک، به مجموعه ای از بﻻک ها و پرسوجو های بولی پی در پی که با هم تداخل دارند تقسیم میشوند. سپس بلاکهای سند مشکوک با بلاک های متداخل سند اصلی تطبیق داده می-شود . بر خلاف کارهای پیشین که بیشتر از کلمات محتوایی برای نمایش اسناد استفاده میکنند، - Stamatatos 2011 - بر اساس یک سری اطﻻعات ساختاری است که شامل لیست کوچکی از کلمات پرتکرار می باشد.
این روش نتایج قابل ملاحظه ای را در کشف سرقت های پیچیده که عبارت های سرقت شده، به وسیله مترادف های کلمات یا عبارات برای پنهان نمودن شباهت جایگزین شده اند، را نشان می دهد. در کنار کارهای انجام شده که تنها متون اصلی مورد تقلب را گزارش میدهند - Pera and Ng 2011 - ، در سالهای اخیر، تشخیص در سطح عبارات، مورد اهمیت قرار گرفته است
-3 روش پیشنهادی
شکل ،1نمای کلیِ روش پیشنهادی در مقاله را ارائه می دهد. این روش بر مبنای مقایسه ی جملات استوار بوده و شامل چندین مرحله می باشد که در بخش های بعد به آن ها اشاره خواهد شد.
شکل.1 نمای کلی از روش پیشنهادی
پیش از توضیح مراحل، متغیرهای زیر معرفی میشوند:
:Dx مجموعهی متون مشکوک :Ds مجموعهی متون اصلی
:dx Dx متن مشکوک مورد بررسی