بخشی از مقاله

چکیده

در این مقاله روشی نوین برای تشخیص سرقت علمی در اسناد فارسی ارائه شده است. این روش از ساختار گراف و یکی از روشهای تشابه گراف - روش تکرار در مشابهت گرهها - برای یافتن تشابه در دو سند متنی به زبان فارسی استفاده میکند. در این روش ابتدا دوتاییهای سند مشکوک به سرقت علمی را بدست میآوریم و با دوتاییهای اسناد ذخیره شده در پایگاه داده مقایسه میکنیم، اگر تعداد دوتاییهای مشترک در دو سند از حد آستانه مشخص بیشتر باشد این دو سند برای تشخیص وجود یا عدم وجود سرقت علمی به عنوان ورودی تابع تشخیص سرقت علمی انتخاب میشوند.

در این تابع ابتدا سندها به گرافهایی دارای ساختار منظم تبدیل میشوند، سپس به کمک روش تشابه وجود همسایگان مشترک در دو گراف، وجود سرقت علمی یا عدم وجود سرقت علمی، به عنوان خروجی این تابع حاصل میشود. پس از اجرای روش پیشنهادی روی دو مجموعه داده، معیار F، این روش نسبت به روش مبتنی بر -nگرام نرمافزار مشابه یاب سمیم نور، 20 درصد روی مجموعه داده اول - سرقت علمی از نوع معنایی - و 13 درصد روی مجموعه داده اول - شامل انواع سرقت علمی - ، بهبود یافته است. همچنین توانایی این روش برای مقابله با داده نویز بیشتر میباشد.

-1 مقدمه

امروزه حجم زیادی از اطلاعات را گونههای مختلف دادههای متنی مانند کتاب، مقاله و سایر اسناد تشکیل میدهند و حجم این دادهها روزانه در حال افزایش ا ست. بهدلیل افزایش ر شد دادههای متنی، نیاز به رویکردهای جدیدی برای تجزیه و تحلیل، کاوش و استخراج دانش از این نوع دادهها وجود دارد. دستیابی به ابزارهای پیشرفته خودکار برای استخراج اطلاعات از دادههای متنی ، یکی از مهمترین اهداف متنکاوی1 میباشد. در تحقیقات اخیر، گراف به عنوان رویکردی جدید برای متنکاوی معرفی شده است

ساختارهای مبتنی بر گراف میتوانند اطلاعات مهم مانند ساختار چیدمان کلمات ، جفت کلمات پر تکرار و سایر ویژگیهای متن را استخراج کند. متنکاوی کاربردهای زیادی دارد و یکی از کاربردهای مهم آن شناسایی اسناد مشابه میباشد

در بسیاری از موارد نیاز داریم که در میان تعداد زیادی از اسناد، سندهای تکراری و یا نزدیک به کپی را تشخیص دهیم. یکی از شاخههای مهم شنا سایی ا سناد م شابه، ت شخیص سرقت علمی در اسناد میباشد. سرقت علمی، به معنی استفاده از نوشتهها و اطلاعات نویسنده دیگر است، بدون اینکه قدردانی مناسبی از آن نویسنده شده باشد و یا به آن منبع ارجاع شده باشد

امروزه شناسایی سرقت علمی به کمک نرم افزارها آسانتر شده است. اما انواع مختلفی از سرقت همچنان موضوع پردردسری میباشد. زمانی که در سرقت علمی ساختار سند مرجع با جابجایی کلمات تغییر کرده با شد یا از کلمات مترادف استفاده شده باشد، روشهای ارائه شده برای تشخیص سرقت علمی کارایی قابل قبول را ندارند. بنابراین نیاز به بهبود روشهای تشخیص سرقت علمی میباشد. انواع سرقت علمی به دو دسته اصلی سرقت علمی تک زبانه2 و بین زبانی3 تقسیم میشود. در این مقاله هدف پیدا کردن سرقت علمی تک زبانه میباشد که خود شامل 4 سطح سرقت علمی میشود.

1.    نزدیک به کپی: در این کلاس در سند مشابه قسمتهایی از متن بدون تغییر از متن اصلی آورده شده است.

2.    نسخهبرداری سبک: در این کلاس سند مشابه از متن اصلی با وارد کردن تغییرات جزیی - استفاده از کلمات مترادف و تغییرات دستوری - استفاده کرده است.

.3 نسخهبرداری سنگین: در این کلاس سند از نسخه اصلی بازنویسی کاملی را با تغییر ساختار انجام داده است.

.4 بدون سرقت علمی: در این کلاس سند از نسخه اصلی در تعداد کوتاهی کلمه مانند گزاره 200 تا 300 کلمهای استفاده کرده است .

مجموعه داده جمع آوری شده توسط پژوهشکده فناوری و اطلاعات4منتشر شده در PAN2015 ، در بخش بازیابی منبع تشخیص سرقت علمی، شامل 4 سطح بالا میشود.

روش پیشنهادی، با ایده گرفتن از رویکرد گراف، هر سند را به تعدادی بخش با طول مشخص و هر بخش را در صورت لزوم برای بررسی دقیق سرقت علمی با روش رخداد همزمان کلمات در پنجره با اندازه ثابت به گراف تبدیل میکند، پس از این مرحله به کمک روش مشابهت گرهها میزان تشابه دو گراف را بدست میآوریم، اگر میزان تشابه از حد آستانه مشخص بیشتر باشد، آن بخش به عنوان سرقت علمی برچسب میخورد.

روش پیشنهادی، نسبت به روش استفاده شده در نرم افزار مشابهیاب سمیمنور، در بخش ت شخیص سرقت علمی با ن سخه برداری سنگین 20 درصد بهبود داشته است، که در بخش تحلیل نتایج بررسی شده است. اما به طور خلاصه اینگونه میتوان بیان نمود که، روشهای موجود در برابر روشهای جدید سرقت علمی - استفاده از کلمات مترادف، جابجایی کلمات، تغییر ساختار و سایر موارد مشابه - کارایی قابل قبول را ندارند. بنابراین نیاز به ابزار پی شرفتهتری میبا شد که بتواند در برابر روشهای جدید نیز کارآمد باشد. در این مقاله رویکرد نوینی برای تشخیص سرقت علمی ارائه میشود که از نظر دقت، و مقابله با داده نویز کارایی قابل قبولی دارد.

-2 پیشینه موضوع

برای تشخیص سرقت علمی تک زبانه، تاکنون روشهای گوناگونی ارائه شده است، در این بخش، هر کدام از این روشها، به اختصار توضیح داده شدهاند.

روشهای مبتنی بر کاراکتر: که معروفترین آنها، روش اثر انگشت6 میباشد. الگوریتمهای اثر انگشت متن را به عنوان مجموعهای از کاراکترها در نظر گرفته، سپس کاراکترها را در دستههای n کاراکتری تقسیم مینمایند، معروفترین آنها -16گرام، -8گرام و -5 گرام میباشند. در این روش درجه شباهت ب ستگی به تعداد کاراکترهای م شابه در ر شته ها دارد.

این روش نتایج خوبی را در تشخیص سرقت علمی بدست می آورد اما زمانی که سرقت علمی با بازنوی سی یا تغییر برخی کلمات صورت میگیرد، در ت شخیص سرقت علمی کارا نمیبا شد .[4] [5] د سته دوم این روشها، مانند الگوریتمهای اثر انگشت میباشند، با این تفاوت که به جای کاراکترها، س ند را مجمو عه ای از کل مات در نظر میگیر ند و این کل مات در پنجرههایی با اندازه ثابت قرار میدهند. میزان تشابه این پنجرهها، درجه تشابه اسناد را مشخص مینماید 

روشهای مبتنی بر ساختار :7 در دو روش قبل به ویژگی کلمات موجود در اسناد توجه شده است، ولی در روشهای مبتنی بر ساختار، به عنوانها، پارگرافها، بخشها و منابع توجه شده است. یکی از معروفترین روشهای مبتنی بر ساختار، روش ساختار درخت8 میباشد، که اخیرا به آن توجه بسیاری شده است. در روش ساختار درخت، مدل دولایهای تعریف میشود، که لایه بالا برای بازیابی اسناد و لایه پایین برای تشخیص سرقت علمی بین اسناد بازیابی شده به روشهای تشخیص شباهت مانند شباهت کسینوسی9، در نظر گرفته شده است

روش مبتنی بر خوشهبندی: 10 در این روش اسناد براساس کلمات خاص - یا کلمات کلیدی - خوشهبندی می شوند. در این روش، هدف بازیابی اسناد مشابه و سرعت بخشیدن به فرآیند تشخیص سرقت علمی است

روش مبتنی بر د ستور:11 در این روش براساس قواعد دستوری، پیش پردازش اولیه برای تشخیص شباهت اسناد صورت میگیرد. یکی از مهمترین قواعد دستوری برچسبزنی پاره گفتار12 میباشد. در پژوهش انجام شده براساس این روش، پس از برچسبزنی پاره گفتار، از تکنیک طولانیترین زیردنباله م شترک13 در دو سند، برای ت شخیص سرقت علمی استفاده میکنند

روش مبتنی بر شباهت معنایی:14 روش ت شخیص سرقت علمی ا سناد ، مبتنی بر شباهت معنایی میبا شد که از شبکه واژگان برای یافتن شباهت معنایی ا ستفاده میکند. معروفترین شبکه واژگان در زبان انگلی سی، شبکه وردنت15 میبا شد. به کمک شبکه وردنت، میتوان به اطلاعات بی شتری در مورد یک کلمه دست یافت. این روش، زمانی که سرقت علمی، به کمک استفاده از کلمات مترادف، صورت گرفته باشد، کارا میباشد. شبکه واژگان فارسنت16 نیز برای زبان فارسی، جمعآوری شده است

روش مبتنی بر گراف:17 در این روش، هر متن به یک گراف ت بد یل میشود، که در این گراف گرهها میتوانند کلمات، عبارتهای اسمی یا جملات موجود در متن باشند و یالها که نشاندهنده ارتباط بین گرهها میباشند میتوانند ارتباط معنایی بین کلمات یا رخداد همزمان کلمات در یک جمله را نشان دهند. در بخش روش پیشنهادی این روش بیشتر توضیح داده شده است. با ت بد یل هر متن به یک گراف میتوان از مز یت الگوریتمهای تشابه گراف، برای تشخیص سرقت علمی استفاده نمود

روش پیشنهاد شده در این مقاله، ترکیبی از روش مبتنی بر کاراکتر و روش مبتنی بر گراف میباشد. توجه به ساختار متن در این روش باعث می شود حتی در صورتی که سرقت علمی انجام شده از نوع تغییر ساختار هم باشد، سرقت علمی در سند مورد نظر شناسایی شود.

مشکلات روشهای پیشین در متنکاوی، انگیزهای برای ارائه روشهای جدید برای نمایش متن بوده ا ست. روشهای پی شین، مبتنی بر روش پایه، یعنی مدل مجموعه کلمات میباشند، در نتیجه به ترتیب کلمات بیتوجه هستند . با این فرض که ترتیب رخداد کلمه در جمله یا متن تاثیری در معنای آن ندارد، این روش ها در کاربرد بازیابی اطلاعات، با فرض اینکه ترتیب رخداد کلمات تاثیری در جمله یا متن و معنای آن نداشته باشند، نتیجه ی ضمنی و خوبی را استخراج می کنند. مشکل این روشها در پیدا کردن شباهت قسمتهای مختلف متن میباشد، اگر موضوعی با کلمات دیگر نو شته شود و از لحاظ معنی با متنهای قبلی م شابهت دا شته با شد، دیگر این روشها برای تشخیص شباهت مناسب نیستند. این روشها همچنین معنی و ساختار متن را بیان نمیکنند

-3 روش پیشنهادی برای تشخیص سرقت علمی

هر متن را میتوان با یک گراف متناظر کرد. استفاده از گراف برای نمایش متن به این دلیل اهمیت دارد که میتوان یک متن بدون ساختار را به کمک گراف ساختارمند کرد و از مزایای رویکرد گراف آن برای خلاصهسازی متن، ت شخیص شباهت ا سناد و سایر کاربردهای متنکاوی بهرهمند شد. همچنین برای پردازش زبان طبیعی توسط الگوریتمها، نیاز به وجود گراف متن میباشد. در گراف متناظر متن، گرهها شامل کلمات و جملات هستند و یالهای گراف نمایانگر ارتباط بین کلمات میباشند ، که این ارتباط از روشهای متفاوتی که بستگی به کاربرد گراف دارد ، استنباط میگردد. شکل 1 نمونهای از گراف متناظر با یک متن کوتاه را نمایش میدهد.

در این روش، بین هر دو کلمه که فاصله بین آنها کمتر از اندازه پنجره باشد، یال ایجاد میشود. روش پیشنهاد شده، برای تشخیص سرقت علمی 5 مرحله را شامل میشود، که در ادامه این مراحل به تفکیک شرح داده میشوند.

مرحله -1 پیش پردازش: ابتدا متن مشکوک به سرقت علمی را نرمال مینماییم.

مرحله -2 انتخاب سندهای کاندید: این متن نرمال با تمام اسناد نرمال شده مرجع در مجموعه داده مقایسه میشود. در این مقایسه از بین تمامی ا سناد موجود در مرجع، تعدادی از آنها به عنوان سند کاندید، برای برر سی بیشتر انتخاب میشوند. در واقع برای بالا بردن سرعت، اسناد موجود در پایگاه داده را فیلتر میکنیم . برای فیلترکردن اسناد و انتخاب اسناد کاندید، از بسته هضم [17]، ا ستفاده نمودیم.

این بسته برای پردازش زبان فارسی ارائه شده است، که یکی از قابلیتهای آن برچسب زنی سند فارسی میباشد. به کمک این بسته، کلمات موجود در اسناد را برچسب نحوی میزنیم، کلماتی که برچسب آنها اهمیت کمی دارد مانند حروف اضافه، قیدها و کلمات ربط را حذف مینماییم. پسازاین مرحله تعداد دوتاییها18 موجود برای کلمات باقیمانده در سند را محاسبه میکنیم. در انتها تمامی دوتاییها موجود در همه اسناد مرجع را در فایل متنی بههمراه نام فایل آنها ذخیره میکنیم. همین روند را برای سند مشکوک به سرقت علمی انجام میدهیم. اگر تعداد دوتاییها مشترک در سند مرجع - S2 - و سند مشکوک به سرقت - - S1 از حد آستانه مشخص شده - - بیشتر باشد، سند مرجع به عنوان یکی از کاندیدها برای بررسی بیشتر انتخاب میشود.

مرحله - 3 تبدیل متن به بخشهایی با طول مساوی: سند مشکوک به سرقت و یکی از ا سناد کاندید به بخشهایی با تعداد کلمات م شخص 50 - کلمه در هر بخش - تقسیم میشوند.

هر بخش با تمامی بخشهای سند مرجع مقای سه می شود. در این مرحله نیز فیلترگذاری روی بخشها صورت میگیرد، تا زمان اجرا کاهش یابد. در این مرحله اگر دو بخش حداقل 5 کلمه اصلی و یکتا مشترک داشته باشند به مرحله تشکیل گراف میروند، درغیراینصورت به بخش بعدی سند مرجع میرویم.

مرحله -4 ساخت گراف متناظر: در مرحله تشکیل گراف هر بخش به گرافی تبدیل میشود که گرههای آن کلمات اصلی و یکتا میباشند و در این گراف هر کلمه با 3 کلمه بعد از خود هم سایه می شود؛ در واقع بین آن کلمه و سه کلمه بعد از آن بهترتیب یال برقرار میکنیم.

مرحله -5 تشخیص سرقت علمی: پس از تشکیل گراف بهدنبال گرههایی در سند مرجع هستیم که با گره ای از گراف سند مرجع مشترک باشد، سپس با استفاده از شباهت جاکارد مشابهت آن را به کمک رابطه - 1 - محاسبه میکنیم.

در این مقاله ما درابتدا به مروری بر فعالیتهای گردشگری الکترونیکی در ایران پرداختهایم و سپس مقایسهای بین برنامههای گردشگری الکترونیکی ایران با کشور سوئیس ارائه شده است، و در انتها پس از معرفی علم جدید نظریه شبکهها، کاربرد آن را در گردشگری الکترونیکی مطرح میکنیم.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید