بخشی از مقاله
چکیده:
در این مقاله به بررسی روش مدلسازی زبانی ساده برای حل مساله تخصیص نویسنده در حالت مجموعه بسته و بررسی تاثیر ویژگی هایی مثل متعادل بودن و اندازه داده آموزشی و آزمایشی در سه پایگاه داده با ویژگیهای متفاوت پرداخته شده است. برای سنجش میزان دقت مدل از سه پایگاه داده متفاوت در زبان، سبک نگارش و اندازه داده آموزشی استفاده شده است.
دو پایگاه داده در زبان فارسی و به صورت نظم و یک پایگاه داده در زبان انگلیسی و به صورت نثر تهیه شده است. برای سنجش میزان دقت از سه معیار اندازهگیری Precision, Recall وF-measure استفاده شده است. میانگین دقت حاصل در پایگاه داده های فارسی به ترتیب %60 و %87 و دقت در پایگاه داده انگلیسی %96 گزارش شده است. با توجه به تشابه دو پایگاه داده اول در زبان و سبک نوشتاری و وجود اختلاف در نتایج و همچنین بهبود نتیجه در پایگاه داده سوم میتوان نتیجه گرفت که متعادل بودن پایگاه داده و اندازه داده آموزشی و ازمایشی در بهبود نتایج تاثیر گذار است.
-1 مقدمه
آموزشی استفاده میشود، هدف تخصیص یکی از نویسندگان مجموعه به متن در یک تعریف کلی از شناسایی نویسنده، شناسایی نوسنده عمل انتساب مورد سوال که نویسنده آن مشخص نیست میباشد. مجموعه باز:6 نویسنده ناشناس متن مورد سوال میتواند یکی ازنویسندگان محتملترین نویسنده از میان مجموعه نویسندگان شناخته شده1، به متنای است که نویسنده آن نامشخص2 است. مساله تشخیص نویسنده از زمانهای مجموعه باشد یا هیچکدام از آنها نباشد.
-2 مروری بر کارهای گذشته:
تشخیص نویسنده با استفاده از روشهای آماری تاریخچه بسیار طولانی دارد و کارهای بسیار زیادی در این زمینه انجام شده است. از اولین کارهایی که با استفاده از تکنیکهای آماری به حل مساله تشخیص نویسنده پرداخته است کار [4] بوده است. هدف آنها با استفاده از روشهای آماری، تخصیص نویسنده برای یک سری اسناد فدرالی که نویسنده انها نامشخص بوده است، عنوان شده است.
همچنانکه در مقاله [5] آورده شده است روند یافتن راهحل مساله انتساب نویسنده با به کارگیری دامنه وسیعی از ویژگیهای سبکی اعم از لغوی، نحوی و معنایی و به کاربردن متدهای متفاوت در دو دسته کلی generative وdiscriminative از الگوریتمهای یادگیری ماشین تا شبکههای عصبی و متدهای متفاوت دسته بندی، ادامه پیدا کرده است.
در این قسمت مروری کوتاه بر کارهای انجام شده در مساله تشخیص نویسنده که به نوعی در ارتباط با مدل سازی زبانی بوده است پرداخته شده ا ست. در مقاله [6] برای تخ صیص نوی سنده از مدل سازی زبانی در سطح کاراکتر استفاده شده است و میزان دقت مدل با استفاده پایگاهدادهای روی سه زبان انگلی سی، گریک و چینی سنجیده شده ا ست. بهترین نتیجه بر روی پایگاه داده گریک با استفاده از کارکتر سه گرام بدست آمده است.
در [7]، پنگ و همکارانش در مدلی با عنوان Chain Augmented Naive Bayes - CAN - از مدلسازی زبانی در سطح کلمات دو تایی استفاده کردها ند. پیلا در م قا له [8] از یک مدل دو مرح لهای ترکیبی دو روش یادگیری با ناظر و بدون ناظر برای تشخیص نویسنده روی پستهای یک فروم وب استفاده کرده است. در این مدل از مقدار پرپلکسیتی8 مدل زبانی در سطح سه کلمه به عنوان یک ویژگی در بردار ویژگی استفاده شده است.
به عنوان آخرین کار از میان کارهای زیادی که در این زمینه انجام شده است به کار [9] اشاره میشود؛چالش این مقاله تشخیص نویسنده در متنهای کوتاه با در نظر گرفتن تغییرات سبک نوشتاری هر نویسنده در گذر زمان ا ست. در این مدل تمام دوره زمانی یک نوی سنده به دورههاای با طول ثابت تق سیم شده ا ست و سپس با ا ستفاده از مدل ساری زبانی در سطح کاراکتر همراه با یک ضریب - ضریب تابعی از تغییرات سبک نوشتاری در طول دوره زمانی نویسنده است - نویسنده با بالاترین احتمال به عنوان نویسنده متن مورد سوال انتخاب میگردد.
-3 تشخیص نویسنده
فرض شده است A = {a1, a2 ,…am} مجموعه نویسندگان کاندید - شناخته شده - است. و برای هر کدام از نویسندگان ai یک مجموعه متن وجود دارد که مجموعه آموزشی را تشکیل داده است. در طرف دیگر متن U قرار گرفته ا ست که نوی سنده آن نام شخص ا ست - متن مورد سوال - . هدف تخصیص یکی از نویسندهگان مجموعه A به متن U است برای این منظور از از مدل سازی زبانی استفاده شده است.
-3-1 مدلسازی زبانی ساده
از انجا که در این مقاله، تشخیص نویسنده بر اساس مدل سازی زبانی ساده در سطح کلمه صورت گرفته است در این قسمت توضیح کوتاهی بر عملکرد مدلسازی زبانی داده شده است. از انجا که روش مدل سازی زبانی یک روش پایه تشکیل پروفایل9 است، در مرحله اول برای تشکیل پروفایل هر نویسنده تمامی متنهای آموزشی مربوط به هر نویسنده ai از مجموعه A را در یک متن الحاق کرده و متن حاصل را di مینامیم.
-4 نتایج
-4-1 پایگاه داده
به منظور ارزیابی روش مدلسازی زبانی برای حل مساله تخصیص نویسنده از سه پایگاه داده استفاده شده است. تمامی این پایگاه دادهها تک نویسنده بوده و از تمامی نویسندگان از یک جنسیت هستند. پایگاه داده A و B از مجموعه شعر فارسی تهیه شده است. پایگاه داده A از مجموعه رباعیات شش شاعر نامدار، ابوسعید ابوالخیر، عطار نیشابوری، انوری، خاقانی، مولوی، و ثنائی ایجاد شده است و پایگاهداده B از مجموعه غزلیات هفت شاعر نامدار فارسیزبان، سعدی، ثنائی، عطار نیشابوری، اوحدی، ساوجی، مولوی و کرمانی تشکیل شده است.
پایگاه داده C به زبان انگلیسی است و از قسمتی از پایگاه داده RCV1 [10] تهیه شده است. اطلاعات بیشتر مربوط به پایگاه دادهها در جدول 1 آورده شده است. نتایج حا صل از اجرای مدل سازی زبانی ساده روی سه پایگاه داد در جدولهای 3،2و4 نمایش داده شده است. میزان دقت مدل با سه معیار Precision, recall و F-measure اندازهگیری شده است.
اعداد هر سلول از جدولهای 2و3و4 در سه ستون مجزا مقادیر اندازهگیری شده معیارهای اندازهگیری را برای هر نویسنده نمایش میدهد. در ردیف آخر هر جدول مقدار overall accuracy نمایانگر میانگین دقت مدل روی هر پایگاهداده است. تفاوت پایگاهدادهها در زبان و نوع نظم و نثر و اندازه دادههای آموزشی آزمایشی شرایط را برای بررسی مدل در حالات مختلف فراهم کرده است.
-4-2 بررسی نتایج
دو پایگاه داده A و B هر دو به صورت نظم هستند. اما با این تفاوت که در پایگاه داده A از مجموعه رباعیات استفاده شده است و به عنوان داده تست هر یک رباعی به عنوان داده تست استفاده شده است. از طرفی طول هر رباعی به صورت تقریبی بین 20 تا 30 کلمه است. با توجه به این طول داده آزمایشی، میتوان این پایگاه داده را در دسته، دادههای کوتاه13 قرار داد. از طرف دیگر اندازه دادههای آموزشی برای نویسندههای مجموعه تویسندگان در این پایگاه داده متفاوت است که این ویژگی باعث میشود این پایگاهداده در دسته پایگاه داده با ویژگی غیر متعادل 14 قرار بگیرد.
در شکل 1 الف توزیع تعداد کلمات روی دادههای آموزشی این پایگاه داده نمایش داده شده است. در پایگاهداده B از مجموعه غزلیات استفاده شده است و هر داده تست یک غزل میباشد که دارای طول کلمه بیشتری و متن بلندتری نسبت به متنهای رباعی در پایگاه داده A است و علاوه بر آن اندازه دادههای آموزشی در این پایگاهداده نسبت به پایگاه داده A بیشتر است اما همچنان مانند پایگاه داده A، پایگاه دادهای با دادههای آموزشی با اندازههای متفاوت و از نوع غیر متعادل محسوب میگردد. در شکل 1 ب توزیع تعداد کلمات روی دادههای آموزشی این پایگاه داده نمایش داده شده است.
نتایج در دو پایگاه داده A و B به ترتیب میزان دقت متوسط %60 و %87 را نشان میدهد . با توجه به این مساله که هر دو پایگاه داده به صورت نظم است و در یک زبان مشترک - زبان فارسی - نگارش شده است انتظار نزدیکی بیشتری در میزان دقت بدست آمده میرفت. از آنجا که ویژگی نا متعادل یودن داده آموزشی در هر دو پایگاه داده وجود دارد - شکل 1 الف ، ب - شاید این اختلاف بالا در دقت مدل روی دو پایگاه داده A و B را این طور بتوان توضیح داد که می تواند ناشی از اولا اندازه داده آموزشی باشد و دوما کوتاه بودن طول دادههای آزمایشی در پایگاهداده A باشد.
انچنان که در شکل 2 نمایش داده شده است میانگین داده آموزشی در پایگاه B نسبت به پایگاه داده A در جایگاه بالاتری قرار گرفته است. در نتیجه دادههای آموزشی در پایگاه داده A برای فراهم کردن اطلاعات سبکی و و زبانی لازم در این طول کوتاه داده آزمایشی کافی نبوده است اما این مساله در پایگاه داده B با افزایش انداره دادههای آموزشی و بززگتر شدن متنهای ازمایشی اصلاح شده است.
در پایگاه داده C علاوه بر سبک نگارشی و نوع زبان متفاوت برخلاف دو پایگاه داده A و B دارای طول دادهای ازمایشی بلندتر است. و همچنین در همچنان که در شکل 1 ج. توزیع تعداد کلمات روی دادههای آموزشی در این پایگاه داده نمایش داده شده است ویژگی مثبت متعادل بودن دادههای آموزشی نیز در پایگاه داده C وجود دارد.
میانگین داده آموزشی برای هر نویسنده در پایگاه داده C در شکل 2 نمایش داده شده است. به نظر میرسد با وجود پایینتر بودن میانگین داده اموزشی در این پایگاه داده نسبت به پایگاه داده B و تقریبا برابر بودن میانگین دادههای آموزشی در مقایسه با پایگاه داده A، اثر مثبت متعادل بودن پایگاه داده و طول مناسب داده آزمایشی در رسیدن میزان دقت به دقت بالاتر - - %96 در این پایگاه داده موثر بوده باشد.