بخشی از مقاله

چکیده

با توجه به افزایش حجم اسناد متنی برای پاسخگویی به نیازهای اطلاعاتی کاربران، تکنیکهای بازیابی اطلاعات موجود به تنهایی از کارایی مناسب برخوردار نیستند. مطالعه حجم زیاد متنها برای کاربران بسیار سخت و زمان گیر است و در اختیار داشتن خلاصهای از مطالب مهم میتواند بسیار مفید باشد. باتوجه به اینکه تعداد اسناد خبری مرتبط با رویدادهای جهانواقعی و اطلاعات رویدادگرا، بهسرعت درحال رشد است بازیابی کارآمد و ارائه اطلاعات مختصر مرتبط با رویداد از اهمیت بسیاری در جلب نظر مخاطبان برخوردار است. در این مقاله راهکاری جدید مبتنی بر گراف رویداد بهمنظور بازیابی اطلاعات و خلاصه سازی چند سندی معرفی میگردد.

در ابتدا از روش فضای بردار وزنی برای تشخیص عبارات تکراری استفاده شده و سپس میزان شباهت نمونههای خبری در قالب اسنیپتهای خبری از پیکره متن اصلی و پرس جو با استفاده از ضریب تشابه دوبردار محاسبه میگردد. سپس با استفاده از گراف رویداد، یک مدل نمایش سند مبتنی بر رویداد برای معناشناسی رویدادهای سطح جمله محاسبه می گردد که بر اساس آن اطلاعات مرتبط با رویدادهای توصیفشده در متن فیلتر شده و بازسازی میشود. در این روش با استفاده از هسته گراف ضرب تنسور و کونرمال، شباهت بین پرسوجوها و سندها اندازهگیری میشود.

با توجه به کامل نبودن مدلهای موجود، راهکار معرفی شده در این مقاله با تکیه بر گراف رویداد شباهت بین پرسوجوها و سندها با تفکیک همرخدادی رئوس غیرمتناظر با استفاده از روش استخراج روابط معنایی موجود درمتن و تکنیکهای برچسب زنی معنایی لغات، اندازهگیری میشود و همچنین روابط زمانی بین آنها نیز تعیین میگردد. در گام بعد اسناد بر اساس نمرات شباهت بدست آمده رتبه بندی شده. نتایج ارزیابی چهار روش فوق دلالت بر افزایش چشمگیر صحت و دقت مدل پیشنهادی این مقاله در مقایسه با مدلهای فضای بردار وزنی، گراف ضرب کونرمال و گراف ضرب تنسور بر روی مجموعههای آزمایشی رویدادگرای خبری دارد.

مقدمه

امروزه با رشد چشمگیر حجم اسناد منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی و بازیابی آنها توجه به پردازش زبان طبیعی و بهره گیری از ابزارهایی نظیر خلاصه سازی، بیش از پیش خودنمایی میکند. خلاصه سازی خودکار سند یعنی تولید یک نسخه مختصر از سند اصلی که علاوه بر پوشش مناسب مطالب باید از پیوستگی و خوانایی بالا وساختار گرامری مناسبی برخوردار باشد.[2] بررسیها نشان میدهد که محتوی خلاصه بستگی زیادی به ورودی متن، هدف و نوع خروجی دارد که در ادامه شرح داده میشود:[3] منبع ورودی به دو دسته تک سندی و چند سندی تقسیم میشوند.

خلاصه سازی تک سندی تنها با یک سند سروکار دارد که در مورد یک موضوع و به صورت پیوسته صحبت میکند و فاقد موضوعات ضد و نقیض خواهد بود به همین دلیل پیچیدگی کمتری دارد. خلاصه سازی چند سندی، ارتباط تنگاتنگی با مباحث سیستمهای پاسخگو و خلاصه سازی مبتنی بر پرس جو دارد. خلاصه سازی چند سندی برروی اسنادی انجام میشود که در ارتباط با یک موضوع هستند ولی جهت دید آنها متفاوت از یکدیگر است.

هدف خلاصه میتواند عمومی یا مبتنی بر پرس و جو باشد. هدف خلاصه عمومی، ارائه خلاصهای برای یک جامعه گسترده از خوانندگان است. در صورتیکه در خلاصه مبتنی بر پرس و جو جملات متناسب با خواسته مدنظر کاربر انتخاب میشوند و تمامی اطلاعات لازم برای نمایش و اطلاع رسانی مناسب سند اصلی را دربرمیگیرد. از جمله این روشها میتوان به روشهای مبتنی بر گراف اشاره کرد.[4]

نوع خلاصه بطور کلی به دو دسته خلاصه سازی چکیده ای و خلاصه سازی استخراجی تقسیم میشوند. در روش چکیده ای1 علاوه بر انتخاب جملات مناسب ساختار جمله هم میتواند عوض شود. میتوان جملاتی را حذف نمود یا اینکه تغییر داد و یا حتی جملات جدیدی تولید نمود. روش استخراجی2 قسمتهایی از متن را به عنوان خلاصه انتخاب شده سپس جملات متن را جدا کرده و آنها را امتیاردهی کرده و جملههایی با بالاتربن امتیاز به عنوان خلاصه انتخاب می-شوند. مدل پیشنهادی مقاله برروی خلاصهسازی چندسندی استخراجی رویدادگرا مبتنی بر پرس و جو متمرکز است .

تلاش های زیادی در رابطه با خلاصه سازی اطلاعات رویداد گرا صورت پذیرفته است که هدف تشخیص سندهای مورد بحث رویدادهای جدید از جهان واقعی و پیگیری و توسعه آنها در زمان است. که برای شناسایی اخبار جدید، رویکردهای تشخیص موضوع و پیگیری متکی به مدلهای فضای بردار سنتی بودند.[5] با این حال این مدلهای قادر به معناشناسی رویدادها به ویژه ساختار زمانی آنها نیستند.

در همین حال، پیشرفتهای قابل توجهی برای خلاصه سازی بااستفاده از گراف انجام گرفته است، از آنجاییکه مرتبطترین اطلاعات در متنهای رویدادگرا به صورت مختصر هستند، و تمام اطلاعات دیگر یا غیرمرتبط با رویداد بوده و یا ممکن است کممرتبطتر درنظر گرفته شوند. براین اساس، رویدادهای مختصر فیلتر شده و ساختار آنها برای شناسایی روابط زمانی شان بازسازی میگردد. .>5@>4@ اکثر این روشهای خلاصه سازی، به علت زمانبر بودن و سرعت پایین قادر به تولید اطلاعات مفید نیستند.

در این مقاله ما مدل جدیدی برای استخراج رویداد سطح جمله براساس گراف رویداد، برای بازیابی اطلاعات رویدادمحور ارائه میکنیم. در مدل جدید، ابتدا براساس محاسبه فراوانی تکرار آرگومانهای پرس جو در اسناد، مرتبط-ترین اسناد به پرس جو شناخته شده. و برای اندازه گیری تطابق معنایی جملات بین گرافهای پرس جوها و سندها از هستههای گراف ضرب و تفکیک همرخدادی رئوس غیرمتناظر استفاده میگردد.

نتایج نشانگر بهبود قابل توجه روش پیشنهادی در زمان و سرعت و تولید اطلاعات مفیدتر نسبت به روشهای پیشین می باشد. ساختار مقاله به شرح زیر هست. در بخش دوم مروری بر ادبیات تحقیق و در بخش سوم به شرح روش فضای بردار وزنی و مدل گراف ضرب تنسور و کونرمال و معرفی روش پیشنهادی پرداخته شده است. در بخش چهارم نتایج ارزیابی روش پیشنهادی با روشهای پیشین ارائه میگردد. و در انتها جمع بندی و کارهای پیش رو توضیح داده شده است.

  ادبیات تحقیق

در سالهای اخیر تلاشهای زیادی در جهت تحقق خلاصه سازی اسناد رویدادگرا انجام گرفته است. در این بخش بطور مختصر به روشهای مبتنی بر رویداد در حوزه بازیابی اطلاعات و خلاصه سازی پرداخته شده است. خلاصه سازی چندسندی مبتنی بر رویداد برای اولین بار توسط دنیل و همکاران - 2003 - ، ارائه شد که از تعریف، تشخیص موضوع و پیگیری یک رویداد پیروی میکردند. در این روش جملات براساس ارتباط یک یا چند زیررویداد از یک موضوع انتخاب میشدند و به هر جمله یک نمره رابطه برای هر زیر رویداد، اختصاص داده میشد.

جملههایی با بالاترین مجموع نمرات در تمام زیررویدادهای تولیدشده را بعنوان خلاصه انتخاب میکند این روش تنها رویدادهای سطح سند را درنظر میگیرد و از اطلاعات نشأت گرفته از رویدادهای سطح جمله غفلت میکند.[6] فیلاتوا و هزیواسیلاگلو - 2004 - ، رویدادهای سطح جمله را توسط ارزیابی جملات با آمارههای همرخداد بین موجویتهای فعلی، مطابقت دادند. آنها تعریفی از یک رویداد اشاره بهعنوان هر موجودیت با یک فعل یا یک اسم مصدر، انتخاب کردند.[7]

میهالشا - 2005 - راهکار روش انبوهترین مسیررا برای ساخت خلاصه از روی گراف پیشنهاد داد. در این روش، انتخاب جملات مهم از گرهای شروع میشود که بیشترین ارتباط یا لینک را با سایر گرهها دارد. سپس گره دومی که ارتباط بیشتری با سایر گرهها دارد به عنوان جمله دوم به خلاصه اضافه میشود. این عملیات آنقدر ادامه پیدا میکند که میزان خلاصه مورد نظر تولید شود. در حقیقت ایده اصلی این روش این است که واحدهای مهم و برجسته، بخشهایی از متن هستند که باسایر قسمتها ارتباطات زیادی دارند.[8]

لی و همکاران 2006 - - ، پژوهش فیلاتوا و هزیواسیلاگلو را با ساخت گراف بین موجودیتهای بنام و شرایط رویداد، توسعه دادند. آنها نمرات ارتباط اولیه را به هر یک از موجودیتها و شرایط رویداد اختصاص دادند و سپس الگوریتم PageRank را برای تعیین ارتباط وابسته به متن، موجودیتهای بنام و شرایط رویداد اجرا کردند. درنهایت، ارتباط یک جمله با مجموع ارتباطات موجودیتها و شرایط رویدادی موجود در آن جمله را محاسبه کردند. کار آنها فاقد یک استخراج خودکار رویداداشاره و روابط بین رویدادهای دیگر نسبت به هم رخدادها است.[9] آتکینسون و مونوز 2013 - - ، شروع به اختصاص نقشهایی بلاغی به جمله-ها کردند و سپس نقشهای باجملات معین را به جملات با نقشهای دیگر، ترجیح دادند. به این ترتیب که ابتد جملات به طور معنایی تفسیر میشدند و سپس براساس این تفاسیر، نمرات مرتبط جملهها به روش سنتی محاسبه میگشت .

[10] کونوننکو و کانهاسای - 2014 - یک روش خلاصه سازی چندسندی مبتنی بر گراف و پرس جوها را پیشنهاد دادند، که علاوه بر ارتباط دلالت و شباهت بین جملات، آنها ارتباط بین جملات و پرس و جو را به طور معنایی تفسیر کردند و سپس به جملات براساس مفاهیم شامل شده، توسط هر جمله نمره-ای اختصاص دادند .[11] تمامی این روشها بهطور معنایی جملات را تفسیر میکنند و سپس براساس این تفاسیر، نمرات مرتبط را به جملات اختصاص میدهند ولی قادر به معناشناسی رویدادهای سطح جمله و روابط زمانی نیستند و دارای سرعت پایین و افزونگی بالا میباشند . در این مقاله با محوریت قراردادن رویدادسطح جمله به عنوان عنصر کلیدی برای تطابق معنایی، خلاصه را در سه فاز تولید میکنیم.

آزمایشات و راهکار پیشنهادی

در این مقاله، یک معماری جدید برای خلاصهسازی چند سندی استخراجی در حوزه بازیابی اطلاعات با استفاده محاسبه شباهت معنایی بین پرس جو و سندها معرفی میشود که این معماری شامل سه فاز است. مراحل کلی سیستم پیشنهادی در شکل1 نشان داده شده است و در ادامه به شرح آزمایشات در قالب مراحل مختلف پرداخته می شود. تشخیص رویدادهای جدیدجهان واقعی و پیگیری توسعه آنها در زمان، هدف این بخش است.

در این مرحله جملات اولیه از سایت خبری EMM استخراج شده است. بنابراین نیاز به یک مرحله پیش پردازش برروی داده وجود دارد که شامل قسمتهای زیر می باشد: استخراج جملات وابسته به رویداد: در این گام ابتدا جملات مربوط به هر خبر از اسناد ورودی پس از حذف کلمات پرتکرار و بی اهمیت مانندحرف اضافه، حرف تعریف استخراج میشوند.  سپس اسناد طورکامل خواندهشده و یک پرس وجو متشکل از حداقل دو رویداد اشاره به طوری که اسناد انتخاب شده مرتبط با این پرس و جو باشد گردآوری میکنیم. انتخاب قطعات خبری: ازآنجا که تفسیر مرتبط هر سند برای هر پرس و جو غیرممکن است ما نیاز به مجموعهای از قطعات خبری از بین گروه اسناد برای انجام آزمون داریم

فاز استخراج رویدادها و روابط زمانی

دراین مرحله برای تشکیل گراف، مراحل استخراج رویدادهای اشاره و روابط زمانی آنها انجام میگیرد که شامل مراحل زیر است

-1-2-3 استخراج مجریان رویداد

اولین گام برای تشکیل گراف، شناسایی افعال نشان دهنده رویداد است که ابتدا با استفاده از ابزار Word Tokenization تمامی کلمات بدنه اصلی نشانهگذاری میشود. سپس با استفاده از ابزار Parsing، مجموع عبارات نحوی هر جمله شامل فرآیند شناسایی عبارت اسمی، عبارت قیدی، عبارات فعلی ... مشخص میشود. که عبارات فعلی مشخص شده بعنوان افعال رویدادگرا شناسایی میشوند. در واقع میتوان از ابزار برچسبگذاری اجزای واژگانی کلام POS Tagger به عنوان هم ارز با ابزار Parsing استفاده نمود. برچسبگذاری اجزای واژانی کلام، نشان دهنده نوع کلمات و نشانهها فارغ از نقش آنها در جمله میباشد به این ترتیب که برای هر کلمه اسم و فعل و صفت و... مشخص میشود.

-2-2-3 آنالیز معنایی جملات

در این بخش پس از استخراج رویداد اشاره نیاز به آنالیز معنایی جملات برای تشخیص آرگومانها داریم. برای این کار ابتدا با استفاده از ابزار برچسب زنی معنایی لغات1 نقش معنایی هر کلمات در جمله نظیر فاعل، مفعول... مشخص میشود. این ایده از پژوهش استخراج رویداد توسط ژئو که آرگومانهای رویداد را بر اساس نقش معنایی کلمات شناسایی میکرد الهام گرفته.[12] در گام بعد از ابزارCore NLP برای رسم درخت الگوی وابستگی استفاده شده است. درخت وابستگی نقش هر کلمه در جمله را مورد ارزیابی قرار داده بطوریکه که فعل ریشه، رویداد مربوطه را پیش بینی میکندو توزیع آرگومان-هایش در مسیر وابستگی دارای نظم می باشد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید