بخشی از مقاله
چکیده
خلاصه سازی متن، عبارت است از حذف دادههای تکراری به صورتی که اطلاعات مهم استخراج شده، به بهترین شکل ممکن نمایش داده شوند. همزمان با رشد سریع و مواجهه با حجم وسیعی از اطلاعات در فضای وب نظیر وبسایتها و شبکههای اجتماعی، این شیوه کمک شایانی به تحلیل متن در بحث جستجوی اطلاعات میکند و از آن به عنوان یک امتیاز در برنامه های کاربردی استفاده میشود.از سالها پیش شیوه خلاصه سازی خودکار در مباحث پردازش زبان طبیعی و خلاصه متون خصوصا وقتی همراه با خلاصه سازی نظرات نویسنده همراه شد، به نقطه اوج خود رسید. دیدگاهها نقش کلیدی در تصمیمات گرفته شده توسط جوامع دارند از اینرو برای افراد تصمیم گیرنده بسیار حائز اهمیت هستند. در این مقاله خلاصهسازی متون با استفاده از شبکه عصبی بازگشتی ارائه خواهد شد، که از یک معماری کدگذاری دقیق و کدگشای بازگشتی بهره گرفته است. نتایج تجربی، نشان از برتری روش پیشنهادی نسبت به برخی از روشهای پایه دارد.
واژگان کلیدی: خلاصهسازی متن، افزونگی داده، معماری کدگذاری-کدگشای، شبکه عصبی بازگشتی.
-1 مقدمه
بسیاری اوقات مشاهده حجم زیادی از اطلاعات در سطح وب میتواند یانگر نقطهنظرات یکسانی باشند. خلاصه سازی از روی محتوای غیرضروری یک ضرورت محسوب میشود . - Steinberger, 2007 - همچنان، تقاضا برای خلاصههای با کیفیت، رو به افزایش است خواه راجع به خلاصه سازی از محتوای متنی باشد - مثل کتاب و ... - یا محتوای چند رسانهای از قبیل کپیهای ویدئویی . - Ding, 2012 - بعضا به جز مواردی که اسناد با محتوای زائد بسیار - از قبیل باز بینی محصول، بلاگها، مقالات روزنامهها - داشته باشیم، ممکن است نیازی به کارامدی خلاصه سازی چکیده - Carenini, 2008 - نسبت به خلاصههای استخراجی نداشته باشیم. چرا که تولید یک خلاصه چکیده به مراتب سختتر از خلاصه استخراجی است.
تکنیکهای خلاصه سازی چکیده متن شامل شیوه مبتنی بر قواعد - Genest, 2012 - و متراکم سازی جمله - Clarke, 2006; Knight, 2002; - Zajic, 2007 و همچنین ادغام جمله بر پایه ارتباطات معنای - Liu, 2015; Wang, 2008 - میباشد. الگوریتمهای مبتنی بر گراف به طور خاص ثابت کردهاند که به خوبی روی خلاصه سازی متون با حجم زیادی از دادههای زائد کار میکنند . - Ganesan, 2010; Lloret, 2011 - اهرم ویکی پدیا با قدرت نفوذ بالا در کنار دیگر الگوریتمها به تولید خلاصه سازی استخراجی میپردازد . - Wang, 2008 - نحوه انجام کار بدین صورت است که ابتدا تمام جملات را به موضوع ویکی پدیا نظیر به نظیر نگاشت میکند. حاصل انجام کار یک گراف دو قسمتی است که در آن یکی از رئوس موضوعات ویکی پدیا را نشان می-دهد و دیگر رئوس جملات را در آن سند مشخص میکند .
در مرحله بعد، یک الگوریتم رتبه بندی تکرار شونده استفاده می-شود تا بهترین جملات کاندید را در سند پیدا کند. به این صورت، خلاصههای افزایشی از نوع استخراجی در لحظه ایجاد می-شوند که دقت انجام کار در آن در مقایسه با نتایج حاصله از تکنیکهای چکیده کمتر خواهد بود.لیو اف - Liu, 2015 - از پیشرفتهای صورت گرفته در ارائه معنایی متن در قالب گراف برای شکل گیری خلاصه ها استفاده میکند. چارچوب خلاصه سازی شامل تجزیه جملات ورودی برای شکلگیری گرافهای منحصر به فرد AMR میباشد که همزمان با ترکیب این گراف-ها، یک گراف خلاصه AMR شکل میگیرد و سپس تولید متن از روی این گراف خلاصه انجام میگیرد. تک گرافها با استفاده از یک مدل پیش بینی با الگوریتم پرسپترون به گراف خلاصه تبدیل میشوند. بدین شکل زیرگرافی که میبایست برای تولید خلاصه انتخاب گردد، پیش بینی میشود.
گانسان کی - Ganesan, 2010 - شیوه ای را توصیف میکند که در آن از گرافهای جهتدار و ترتیب کلمات جمله اصلی برای تولید خلاصههای انتزاعی میشود. از طریق این تکنیک، یک قالب گرافیکی از متن ورودی به منظور کاهش افزونگی، در دسترس قرار میگیرد. اگر الگوریتم، دو جمله با قابلیت کوچک شدن پیدا کند، میتواند از یکی از کانکتورها به عنوان کانکتور برای جمله نهایی استفاده کند. این تکنیک در حین کارآمدی، یک اشکال دارد، آن هم زمانی است که ممکن است دو جمله با قابلیت ترکیب شدن وجود داشته باشند اما به خاطر فقدان کانکتور، قابل ترکیب شدن نباشند. لیورت ای - Lloret, 2011 - تکنیکی را توصیف میکند که در آن یک گراف کلمه وزندار - جهتدار - ساخته شده که هر کلمه متن نشان دهنده یک نود است و لبه در بردارنده یک ارتباط مجاور بین کلمهای است.
برای تعیین جملات مهم، اولین نود شامل اولین ده کلمه با بالاترین امتیاز TF-IDF است. صحت جمله با استفاده از قواعد پایهای گرامر، نظیر اینکه طول جمله نباید بزرگتر از سه کلمه باشد، یک جمله بایستی شامل یک فعل بوده و نباید با یک حرف تعریف یا حرف رابط خاتمه یابد، تضمین میشود. یک نقص بزرگ در این روش این است که اطلاعات مهم زیادی به خاطر تحمیلهایی از سوی گرامر روی جملات و مجوز انتخاب ده کلمه با بالاترین مقدار TF-IDF از دست میروند . علاوه بر آن، یک تعداد زیادی جمله زائد هستند که در خلاصه نمایش داده خواهند شد. زیرا مقادیر TF-IDF بیشترین اهمیت را به آنها خواهد داد. متدلوژی ما با ناکارآمدی مواجه نمیشود زیرا افزونگیها در ساختار گراف ایجاد شده ماهیتا گنجانده شدهاندW{1,2,3} و
-2 معماری بازگشتی مبتنی بر دقت
فرض کنید x بیانگر جمله ورودی باشد که شامل ترتیبی از M کلمه باشد، x= [x1, .., xM]، به طوری که هر کلمه xi بخشی از مجموعه واژگان V باشد که اندازه |V| = V است. کاری که ما باید انجام دهیم این است که ترتیب y = [y1, ..., yN] با N کلمه را که N < M باشد تولید کنیم، به طوری که از مفهوم x محافظت شود، y = armaxy P - y|x - که y یک متغیر تصادفی است و بیانگر ترتیبی از N کلمه میباشد.معمولا احتمال شرطی توسط تابع پارامتری با پارامترهای θ مدل میشود، - .P - y|x - = P - y|x; فاز آموزش شامل یافتن است که احتمال شرطی دوتاییهای جمله خلاصه را در یادگیری بیشینه میکند. اگر مدل برای تولید کلمه بعدی خلاصه جمله با توجه به کلمه قبلی آموزش دیده باشد، آنگاه شرط فوق را میتوان به صورت ضرب احتمالات شرطی در رابطه - 1 - نوشت.ما در این مقاله این احتمال شرطی را با استفاده از معماری کدگذاری- کدگشای شبکه عصبی بازگشتی - RNN - 1 مدلسازی کردهایم که الهام گرفته از روش چو و همکارانش - Cho, 2014 - میباشد که بعدها توسط باهدانا و همکارانش - Bahdanau, - 2014 گسترش داده شد. این مدل خلاصه ساز دقیق بازگشتی - RAS - 2 نامیده میشود.
1؛-2 کدگشای بازگشتی
احتمال شرطی فوق با استفاده از یک RNN به صورت - 2 - مدل میشود.
که ht حالت مخفی RNN به صروت نشان داده شده در - 3 - است.
در اینجا ct خروجی ماژول کدگذار است که میتواند مانند یک بردار محتوا رویت شود که به صورت تابعی از حالت بازگشتی ht-1 و ترتیب ورودی x محاسبه میشود. در این صورت RNN به صورت - 4 - است . - Elman, 1990 -
که در آن یک تابع سینوسی و p سافتمکس است و به صورت مربوط به پارامترهای قابل یادگیر با اندازههای
کدگذار 3LSTMبه صورت زیر تعریف میشود : - Hochreiter, 1997 -