بخشی از مقاله
چکیده
گسترش استفاده از فناوریهای نوین و در دسترس قرار گرفتن دادههای زیاد و متنوع، لزوم وجود ابزارهای تسهیلکننده را برای سرعت بخشیدن به کسب اطلاعات مفید و مختصر بیشتر نمایان ساختهاست. سامانههای خودکار خلاصهساز متن یکی از کاربردیترین ابزارهای پردازش زبان طبیعی است. در پژوهش پیش رو، یک سامانه خلاصهساز استخراجی تکسندی معرفی شدهاست که با استفاده از روشهای تعبیه متن، متن ورودی را به برداری از اعداد حقیقی تبدیل میکند و سپس جملات برتر را برای ایجاد خلاصه انتخاب میکند. این روند بهصورت بدون ناظر و بدون استفاده از ویژگیهای متن انجام میشود. جهت ارزیابی این سامانه از پیکره استاندارد پاسخ استفاده شدهاست و سیستم پیشنهادی روی این پیکره با سامانههای ایجاز و فارسیسام بهعنوان دو سامانه موفق مقایسه شدهاند که نتایج نشاندهنده افزایش فراخوانی حداقل دو درصدی سامانه پیشنهادی بر اساس معیار ROUGE است.
.1 مقدمه
تولید و گسترش اطلاعات در عصر کنونی سرعت بسیار بالایی دارد. حجم قابلتوجهی از این اطلاعات در قالب متن هستند. ازاینرو نیاز به ابزارهایی برای افزایش سرعت دریافت اطلاعات بیشتر حس میشود. خلاصهسازها ازجمله ابزارهای پرکاربرد در این راستا هستند و خلاصهسازی خودکار در سالهای اخیر از حوزههای موردتوجه در پردازش متن بودهاست. سامانههای خلاصهسازی به دو دسته خلاصهساز تکسندی1 و چندسندی2 تقسیم میگردند. در خلاصهسازی تکسندی فرایند خلاصهسازی بر روی یک سند انجام میشود، درحالیکه در خلاصهسازی چندسندی بیش از یک سند برای تهیه خلاصه نهایی استفاده میگردد. در این پژوهش تمرکز بر روی خلاصهسازی تکسندی است.
همچنین با توجه به نحوه ایجاد خلاصه، سامانههای خلاصهساز به دو دسته استخراجی3 و چکیدهای4 تقسیم میشوند که دسته نخست، با امتیازدهی به جملات، جملات برتر را انتخاب میکند، درحالیکه دسته دوم با کمک فرایندهای تولید زبان5، سعی در ایجاد خلاصه با عبارات و جملات جدید دارد - گوپتا6 و لحال7، . - 2010 تعبیه متن8 کاربردهای فراوانی در حوزه پردازش زبان طبیعی دارد و از آن در بسیاری از تحقیقات مانند ترجمه ماشینی - زو9 و همکاران، - 2013، تحلیل احساسات - یو1 و همکاران، - 2017 و تشخیص موجودیتهای نامدار - سئوک2 و همکاران، - 2016 استفاده شدهاست. نمایش توزیعشده یا تعبیهشده یک کلمه، یک نگاشت به فضای اقلیدسی چندبعدی است با حفظ معنا و ارتباط نحوی کلمات است.
مطلوب است که کلماتی که دارای معانی مشابه یا ارتباط نحوی قوی هستند، بردارهای نزدیک به هم داشته باشند - کوبایاشی و همکاران، . - 2015 یکی از بهترین روشهای تعبیه کلمات که در سالهای اخیر بسیار موردتوجه قرار گرفتهاست، روشی به نام Word2Vec است که توسط میکولوف و همکارانش - میکولوف3 و همکاران، - 2013 ارائه شدهاست. در این روش به کمک شبکه عصبی برای هر کلمه یک بردار با اندازه ثابت تولید میشود. این بردار نمایانگر معنای آن کلمه در فضای برداری است و قابلیت مقایسه با دیگر کلمات را داراست.
در این پژوهش، یک سامانه خودکار خلاصهساز استخراجی تکسندی برای متون فارسی معرفی شدهاست که با استفاده از تعبیه کلمات و متعاقباً تعبیه جملات در یک راهکار بدونناظر برجستهترین جملاتی که حاوی اطلاعات بیشتری از متن اصلی است را بهعنوان نماینده به خلاصه تولیدشده اضافه میکند. یکی از چالشهای اصلی این کار تعبیه جملات با طولهای متفاوت است. راهحلهای مختلفی برای تعبیه جملات معرفی شدهاست، درحالیکه هر یک برای کاربرد خاصی مناسب هستند. در اینجا با استفاده از تعبیه کلمات تشکیلدهنده یک جمله، بردار تعبیهشده جمله ایجاد میگردد.