بخشی از مقاله

چکیده

با رشد سریع تکنولوژیهای تبادل اطلاعات، حجم زیادی داده در دنیای وب تولید و جمعآوری شده ودائماً حجم این دادههای الکترونیکی نیز درحال افزایش است. در این شرایط خلاصهسازی نیاز اساسی کاربرانی است که برای پیبردن به موضوعی در حجم بالای داده موجود در وب جستجو میکنند. یکی از این منابع داده، متون حاوی نظرات کاربران راجع به اخبار، محصول یا موضوعی خاص است. در این پژوهش یک روش خلاصهسازی چکیدهای بر اساس ساختار داده گراف برای فشردهسازی نظرات ارائه میگردد. ویژگی متون حاوی نظرات این است که دارای میزان زیادی افزونگی هستند. از این ویژگی و نیز ساختار داده گراف برای پیبردن به اهم نظرات و حذف اطلاعات اضافی استفاده شدهاست.

در این گراف هر نود نماینده یک کلمه و حاوی اطلاعات موقعیتی آن است و یالهای جهتدار آن نشاندهنده ساختار جملات هستند. به هنگام تشکیل گراف نیز از یک بانک اطلاعاتی کلمات مترادف استفاده شدهاست. در نهایت نیز جملات خلاصه، با استفاده از ویژگیهای بدستآمده از گراف و اندازه خروجی، استخراج میشوند. این روش، بدون نظارت است و کمتر از اطلاعات وابسته به زبان استفاده میکند. دلایل استفاده از روش فوق، از یک سو استفاده گسترده از وسایل الکترونیکی کوچک و از سوی دیگر اهمیت صرفهجویی در زمان جهت تسریع دستیابی به اطلاعات است. هدف نهایی، تولید خلاصهای کوتاه و خوشساخت بر اساس ویژگیهای گراف است به نحوی که مطالب اصلی را پوشش داده و در عین حال فاقد افزونگی و جملات تکراری یا شبیه به هم باشد.

کلیدواژهها: خلاصهسازی نظرات، چکیدهای، افزونگی، گراف

مقدمه

با رشد سریع تکنولوژیهای تبادل اطلاعات، حجم زیادی از دادههای الکترونیکی در دنیای وب و کتابخانههای دیجیتال تولید و جمعآوری شده است و سالانه 30 درصد نیز به حجم این دادههای الکترونیکی افزوده میشود. این انفجار دادههای الکترونیکی، استخراج اطلاعات را برای کاربران بسی مشکل ساخته است. در این شرایط حجم انبوه منابع اطلاعات از یک سو و محدودیت زمان از سوی دیگر خلاصهسازی را نیاز اساسی کاربرانی ساخته که برای پی بردن به موضوعی در حجم بالای داده موجود در وب جستجو میکنند.تحقیق بر روی خلاصهسازی خودکار متن از اواسط دهه 1950 شروع شده و یکی از چالشهای قدیمی در متنکاوی است که نیازمند توجه محققین در زمینههای هوش محاسباتی، فرایندهای یادگیری ماشین و زبان طبیعی بوده و روشهای مختلفی نظیر شبکههای عصبی، درخت تصمیمگیری، نمودار معنایی، مدلهای رگرسیون، منطق فازی، هوش جمعی و ... را درگیر میکند - مهدیپور و همکاران، . - 1392

خلاصهسازی خودکار متن به عنوان هسته مرکزی طیف گستردهای از ابزارهای پردازشگر متن مانند خلاصهسازهای ماشینی، سیستمهای تصمیمیار، سیستمهای پاسخگو، موتورهای جستجو و غیره از سالها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است - پورمعصومی، . - 1390یکی از دلایل خلاصهسازی نظرات، از یک سو استفاده گسترده از وسایل الکترونیکی کوچک همچون گوشی تلفن همراه است که میطلبد جملات فشرده شوند تا در چنین نمایشگرهایی نمایش یابند. از سوی دیگر اهمیت صرفه جویی در زمان، نیاز به راهکارهای تسریع کننده دستیابی به اطلاعات را بارزتر نموده است. امروزه با افزایش فعالیتهای آنلاین از جمله خرید و گردشگری، یافتن محصول یا محلی مناسب مثلاً برای صرف غذا، و در دسترس بودن وسایل الکترونیکی کوچک، نیاز به چنین خلاصههایی برای تصمیمگیری صحیح را به یک ضرورت تبدیل کردهاست. به عنوان مثال به هنگام خرید محصول خاصی میتوان با گردآوری اطلاعات خلاصه از مشخصات و ویژگیهای آن توسط تولیدکنندههای مختلف، مناسبترین گزینه را انتخاب کرد.

مروری بر کارهای گذشته:

آغاز فعالیت سیستمهای خلاصهسازی متن مربوط به سال 1950 میشود. به دلیل کمبود کامپیوترهای قدرتمند و مشکلات موجود برای پردازش زبانهای طبیعی، کارهای اولیه بر روی مطالعه ظواهر متن مانند موقعیت جمله و عبارات اشاره متمرکز شده بود. سالهای 1970 تا 1980 هوش مصنوعی به کار آمد که ایده آن استخراج نمایشهای دانش مانند فریمها یا الگوها برای شناسایی موجودیتهای مفهومی از متن و استخراج روابط بین موجودیتها با مکانیزمهای استنتاج بود. از اوایل 1990 تا به حال نیز روشهای بازیابی اطلاعات به کار گرفته شده است - پورمعصومی، . - 1390 به طور ویژه از اوایل قرن بیستم به توسعه سیستمهای خلاصهسازی خودکار توجه شد که رقابتهای سالانه DUC1 و TAC2 نمونهای از این توجه و علاقه میباشند - پورغلامعلی، . - 1390

بررسیها نشان داد که در زبان فارسی تا کنون سامانهای برای خلاصهسازی نظرات طراحی و پیادهسازی نشده است؛ ولیکن در اینجا تعدادی از پژوهشهای داخلی که از ساختار داده گراف و یا روش چکیدهای جهت خلاصهسازی متون استفاده کردهاند معرفی میگردند. در سال 1381 از روشی چکیدهای برای خلاصهسازی متون چندسندی استفاده گردید - به نقل از ریاحی و همکاران، . - 1391 سپس در سال 1385 - کریمی و شمسفرد - یک روش خلاصهسازی تک سندی پیشنهاد شد که بر مبنای گزینش جملهها کار میکند. ایده بکار رفته در گزینش جملهها در این خلاصهساز، ترکیبی از دو روش زنجیره لغوی و نظریه گراف است. بهرهپور و همکاران در سال 1387 از یک روش ترکیبی مبتنی بر گراف، TF-IDF و الگوریتم ژنتیک استفاده کردند که در این روش پس از امتیازدهی، جملات خلاصه با استفاده

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید