بخشی از مقاله
چکیده
خلاصه سازی متن یک پروسه استخراج اطلاعات برجسته از متن منبع و تولید خلاصه مطلوب برای ارائه به کاربر میباشد. تولید خلاصه دستی خصوصا دراسناد حجیم، کاری دشوار و زمان بر است. با این وجود خلاصههای اتوماتیک با تحلیل عمقیتر از متن روند کار را بهبود بخشیدهاند. از آنجا که هدف ما بکارگیری یک شیوه مبتنی بر برچسبگذاری نقش معنایی برای تولید جملات جدید و استفاده از آنها در خلاصه است، شیوهای را پیشنهاد میدهیم که در آن جملات متن به درون مجموعه گرافهای انتزاعی تجزیه میشوند، تا پس از حذف اطلاعات زائد طبق معیار برداشت، به یک گراف خلاصه منتقل شوند. نتایج تجربی حاکی از بهبود عملکرد روش پیشنهادی در مقایسه با روشهای پایه میباشد.
-1 مقدمه
در عصر حاضر با توجه به افزایش تقاضا برای خلاصه سازی حجم وسیعی از اطلاعات، روشهای متفاوتی از قبیل استخراجی و انتزاعی عرضه شدهاند. اما در این میان خلاصههایی قابل قبول هستند که در حین اخباری بودن اطلاعات ارزشمندی را برای کاربر فراهم میسازند .
خلاصه سازی استخراجی شامل استخراج جملات از منبع و اضافه کردن آنها به خلاصه است. پیاده سازی این شیوه ساده بوده و مبتنی بر ویژگیهای آماری است نه ارتباطات معنایی. این پروسه به مرحله پیش پردازش و پردازش تقسیم میشود. فاز پیش پردازش که در [2] آمده به این شکل پیش میرود که ابتدا مرز جملات با تشخیص خاتمه دهندهها آغاز میشود. سپس کلمات توقف و اطلاعات غیرضروری حذف میشوند. و در نهایت برای هر کلمه یک دنباله معنادار ساخته میشود. در فاز پردازش یک برآوردی از جملات مرتبط انجام میشود و وزنها را با شیوه یادگیری وزنی1 - آزمون و خطا - به جملات اختصاص میدهد. در نهایت جملات با امتیاز بالا به متن خلاصه اضافه میشوند. مشکلات این نوع خلاصه سازی که در مقالات جیمی لین و جکی سی کی [3,4] آورده شده است شامل موارد زیر است:
جملات خلاصه شده طولانی بوده و نیازمند فضای ذخیره سازی بالایی است.
جملات بدست آمده از لحاظ معنایی به هم مرتبط نیستند. اطلاعات آن چنان دقیقی در خلاصه ارائه نمیشود.
در مقابل خلاصه سازی انتزاعی نیازمند فهمی از متن اصلی و تولید خلاصه با توجه به ارتباطات معنایی است در این وضعیت نتایج کوتاهتری حاصل میشوند که تنها با مشکل نمایش نهایی مواجه هستند.
-2 کارهای مرتبط
توجه و علاقه به خلاصهسازی خودکار متن، اولین بار حدود دهه پنجاه به وجود آمد. اولین فعالیتها در این زمان توسط فردی به نام لوهن شروع شد .[5] در ابتدا اساس کار او، یافتن کلمات با بیشترین تکرار بود. از نظر وی کلمات با فرکانس تکرار بیشتر در یک متن مهم تر از سایر کلمات بوده و جملاتی که تعداد بیش تری از این کلمات را دارند مهمترین بخشهای متن بوده و باید در متن خلاصه شده قرار بگیرند. البته روش اولیه ارائه شده توسط وی خطای زیادی داشت که بعد ها توسط خود او اصلاحاتی بر روی آن انجام شد.
به عنوان مثال برخی افعال و حروف اضافه دارای فرکانس بالایی در تمامی متون بوده اما حاوی اطلاعات مهمی نبوده که در ایده قبل او دارای اهمیت محسوب میشدند. در اصلاحات بعدی حروف اضافه و برخی از کلمات پرتکرار حذف شده و در الگوریتم استخراجی شرکت داده نمیشدند. گرچه که روش پیشنهادی وی دارای دقت خوبی نبود اما به عنوان پایهگذار اصلی خلاصه سازی بسیار مورد توجه قرار گرفت. از آن به بعد خلاصه سازی متن یکی از حوزههای مهم تحقیقاتی در پردازش زبان طبیعی در نظر گرفته شده و تحقیقات زیادی بر روی آن انجام گرفته است.روشهای زیادی به همراه ابزارهایی قدرتمند به کار گرفته شده اند تا بتوانند پردازش متن را مانند آنچه که در مغز انسان انجام میشود، شبیهسازی کنند. ادمنسن [6] از جمله کسانی بود که بعد از وی از سایر ویژگیهای موجود در متن برای ایجاد خلاصههای بهینه استفاده کرد.وی برای مشخص کردن ارزش هر جمله از ترکیب خطی این ویژگیها استفاده کرد.روشهای ارائه شده برای تعیین وزن جملات به صورت زیر بود : روش نشانه: این روش مبتنی بر ارتباط جملات و کلمات بود، به این صورت که وجود یا عدم وجود برخی از کلمات در جمله با استفاده از یک فرهنگ لغات محاسبه میشد.
روش عنوان: در این روش وزن جمله براساس تمام کلماتی که در عنوان و زیر عنوانهای متن وجود داشت محاسبه می شد.
روش مکان: در این روش مکان هر جمله با یک بخش از متن بررسی میشد و احتمال ارتباط بین آنها مورد نظر قرار می گرفت.
نتایج نشان داد که استفاده از سه روش فوق باعث شد که خلاصهسازی خودکار متن شباهت زیادی به خلاصهسازی انسان داشته باشد. از سال 1995 به بعد معیارهای دیگری نیز برای تعیین قسمتهای مهم یک متن معرفی شدند.
در مدل مبتنی بر گراف توسط پیج رنک [7,8] ورودی به صورت گرافی با اتصالات قوی ارائه میشود. رئوس نشان دهنده جملات و یالها دربردارنده وزن مشابه برای جملات مشابه است.در این شیوه شباهت کسینوسی از طریق وزنهای TF*IDF برای کلمات،محاسبه میشود. این شیوههای مبتنی بر گراف نشان دادهاند که به خوبی برای خلاصه سازی اسناد تک سندی یا چند سندی کار میکنند. استفاده از رویههای وزنی مختلف [9] برای ارتباط بین جملات درون یک سند با سند دیگر میتواند به جداسازی فهم موضوعی درون یک سند و موضوعات تکراری در سایر سندها، کمک شایانی کند. این وجه تمایز یا شاخص میتواند به آسانی درون مدلهای مبتنی بر گراف گنجانده شود.
گانسان و همکاران [10] شیوهای را توصیف میکنند که در آن از گرافهای جهت دار و ترتیب کلمات جمله اصلی برای تولید خلاصههای انتزاعی میشود. از طریق این تکنیک، یک قالب گرافیکی از متن ورودی به منظور کاهش افزونگی، در دسترس قرار میگیرد. اگر الگوریتم دو جمله با قابلیت کوچک شدن پیدا کند،میتواند از یکی از ارتباط دهندهها به عنوان کانکتور برای جمله نهایی استفاده کند. این تکنیک در حین کارآمدی یک اشکال دارد،آن هم زمانی است که ممکن است دو جمله با قابلیت ترکیب شدن وجود داشته باشند اما به خاطر فقدان ارتباط دهنده، قابل ترکیب شدن نباشند.
-3 روش پیشنهادی
در این شیوه جملات متن ورودی به نودهایی تقسیمبندی میشوند که هرکدام از نودها از سه قسمت موقعیت کلمه، نقش کلمه و خود کلمه تشکیل شدهاند. جملات کاندید شده از طریق قوانین pos2 انتخاب و وارد فاز پردازش معنایی3 میشوند. برای این منظور از برچسب زنی نقش معنایی - SRL - 4 استفاده میشود، سپس طبق معیار افزونگی داده امتیازبندی و خلاصه میگردند.
-1-3 ساختن گراف کلمات و تخمین صحت جملات
روش خلاصهسازی متن بر پایه گراف اولین بار توسط کوماران و همکاران [12] برای نمایش رابطه باینربی بین کلمهای مطرح شد و سپس توسط لیو اف و همکاران [13] به منظورگنجاندن اطلاعات معنایی درون گراف به کار گرفته شد.
ساختار گراف بهبود یافته به این صورت عمل میکند که دنبالهای از کلمات در یک جمله را به عنوان یک آرگومان کاندید در نظر میگیرد و سپس هرکلمه را به صورت یک نود با مجموعه ای از اطلاعات، نشان میدهد. یالها هم نشان دهنده نزدیکی یا مجاورت کلمات در آن جمله هستند. درواقع هر سند به صورت یک گراف جهت دار نمایش داده میشود که در آن - مجموعه رئوس - نشان دهنده کلمات متن بوده و هر نود اطلاعاتی در مورد تگ SRL - شناسایی - از کلمه، موقعیتش و خود کلمه در آن سند را، ذخیره میکند.
تگ SRL حاوی برچسب هایی از قبیل عامل5، پذیرش6 و موقعیت7 برای موجودیت8های سهیم شده در یک رخداد9 میباشد، علاوه برآن از برچسبهای تمپورال10 و منر11 برای مشخص کردن ارتباطات مشترک استفاده میشود. این نوع برچسب گذاری بر اساس نقش گرامری، یک چیدمان معنایی از جملات متن در سطوح مختلف است که خصایص رخداد اصلی و ارتباط بین موجودیت های به هم پیوسته در جمله را نشان میدهد. بدین ترتیب مجموعه ای از آرگومانهای در بردارنده گزاره مطابق با نقش معنایی برچسب گذاری میشوند.
این گراف به طور طبیعی افزونگی در سند و تغییرات را در هر بار تکرار کلمه در جمله، ضبط میکند. علاوه بر این ساخت گراف نیازمند هیچ حوزه دانشی نخواهد بود. صحت جمله توسط یک دنباله از محدودیتهای نقشهای معنایی تضمین میشود.
شروع جمله باید شامل کلمهای با موقعیت متوسط در بین تمام جملات و پایینتر از آستانهای تحت عنوان نود شروع باشد. این آستانه تضمین میکند که جملات با کلماتی که در وسط جمله ظاهر شدهاند شروع نمیشود.
این جمله نباید با یک حرف ربط مانند اما، هنوز و... خاتمه پیدا کند.
-2-3 بدست آوردن خلاصههای انتزاعی
یک جمله در سطح پردازش نحوی میتواند دربردارنده یک اسم همراه با فعل و صفت، صفت همراه با اسم و فعل و فعل همراه با صفت، اسم و یک قید همراه با صفت و در نهایت یک اسم یا قید همراه با اسم باشد. در این مقاله علاوه بر این سطح از پردازش، با بکارگیری [14] SRL از تحلیل معنایی عمیقتری جهت استخراج نقشهای معنایی نظیر کنش12، کنشگر13، کنشپذیر14، موضوع15، مکان و زمان برای بازنمایی جمله و سپس ساخت گراف انتزاعی استفاده شد.
پس از ایجاد ساخت گراف انتزاعی، هرس کردن مجموعه آرگومانهای معنایی در طول هر مسیر به منظور یافتن گزاره داده شده درجملات انجام میشود، سپس جملات روی هم افتاده امتیازبندی میشوند. این افزونگی میتواند با استفاده از فصل مشترک موقعیت کلمه در جمله و نقش معنایی آن ارزیابی شود به طوریکه اختلاف بین جایگاهها بزرگتر از آستانه نباشد. این افزونگی به ما در تصمیمگیری بر روی تعداد جملات مورد بحث، در هر نقطه از مسیر کمک میکند. از طرفی هر چه مسیر طولانیتر باشد، درصد افزونگی بالاتر خواهد بود. از اینرو برای ما میدان دید بهتری فراهم میشود.
زمانی که همه مسیرها در گراف انتزاعی به خوبی جملات ادغام شده امتیازبندی شدند، به ترتیب نزولی مطابق امتیازشان رتبهبندی میشود. سپس جملات تکراری را از روی خلاصه به کمک شاخص جاکارد16 طبق مقیاس همسانی حذف میکنیم و در نهایت قسمت بالای باقی مانده که شامل بیشترین تعداد جملات مشخص شده توسط کاربر میباشد را برای خلاصه اصلی انتخاب میکنیم.
.4 نتایج و ارزیابی
مجموعه داده استفاده شده شامل 50 سند از مطالب ارائه شده در کنفرانس [15] 17DUC در سال 2002 است که به صورت تصادفی انتخاب شده که هر سند بطور متوسط شامل500 کلمه است. سعی بر این است که پس از تولید خلاصه آن را به 100 کلمه کاهش دهیم.
استاندارد متریک 18 ROUGEیک بسته نرم افزاری است که توسط لین ات [16] تولید شده که برای ارزیابی خلاصهسازی اتوماتیک استفاده میشود. علاوه بر آن به عنوان نرم افزاری برای ترجمه ماشین در پردازش زبان طبیعی - NLP - استفاده میشود. متریکها یک خلاصه تولید شده خودکار را با منبع اصلی و یا ترجمهاش مقایسه میکنند. پارامتر ROUGE همپوشانی بین خلاصههای کاندید و مرجع را ارزیابی میکند. ROUGE-N یک واحد فراخوانی است که تعداد انطبقات بین خلاصههای کاندید و خلاصههای مرجع را مشخص میکند. در رابطه 1 امتیازات ROUGE محاسبه میشود:
پارامتر match، ماکزیمم تعداد N-gramهای واقع شده در خلاصه های مرجع و کاندید است.
پارامتر Count دربردارنده تعداد N-gram ها در خلاصههای مرجع میباشد.
همچنین برای ارزیابی روش پیشنهادی در مقایسه با روشهای پایه از معیار دقت19 و بازخوانی20 استفاده میشود، که بترتیب که از روابط - 2 - و - 3 - بدست میآید.
که در آن پارامتر Match_Candidate نشان دهنده تعداد جملات حاضر در خلاصه کاندید است. پارامتر MatchBest_Candidate هم جمع کلی جملات در بهترین جملات خلاصه میباشد.
برای مقایسه عملکرد روش پیشنهادی با روشهای پایه از نتایج بدست آمده آزمایشات بر روی مجموعه داده های ذکرشده توسط الگوریتم مبتنی بر گراف [11] - ATSSI - و خلاصههای دستی - Human - استفاده شده است.
نتایج مربوط به دقت، بازخوانی و معیار F برای روش پیشنهادی در مقایسه با روشهای پایه بترتیب در شکلهای 1، 2 و 3 نشان داده شده است.
شکل -1 دقت روش پیشنهادی برروی مجموعه داده [10] در مقایسه با خلاصه دستی و [11] ATSSI