بخشی از مقاله
.1 مقدمه
در دوران دیجیتالی امروز، با رشد نمایی فنـاوری هـایی از جملـه اینترنت، دنیا شاهد افزایش روزافزون اطلاعات متنی و منابع اینترنتی می باشد. فراوانی تولید اطلاعات آن قدر تأثیرگذار بوده که باعـث ورود اصطلاحات و لغات جدید به زبان شده است. سیل و طوفان اطلاعـات، بیماری شناختهشدهای است که جهانیان از آن رنج میبرند .[1]
این حجم زیاد اطلاعات موجب شده تـا دسترسـی بـه اطلاعـات مورد نیاز، کاری زمان گیر قلمداد شود. این مسئله برای عموم مردم و به ویژه فرماندهان و رهبران، بسـیار مشـکل سـاز مـیباشـد. در اصـل، فضای سایبری و این حجم عظیم اطلاعات، نوعی صحنه نبرد می باشد که باید به نوعی مدیریت شود. استخراج اطلاعات مفید و خلاصه برای درک شرایط موجود و یافتن راهحـل مناسـب، بهتـرین راهکـار بـرای مدیریت این صحنه نبرد به شمار می رود. استفاده از روش های کارا در بازیابی اطلاعات راه حلی برای مشکل افزونگی اطلاعات می باشند کـه در این میان، خلاصه سازی متون نقش مهمـی در اسـتخراج مفـاهیم اصلی و مهم یک متن به شیوه فشرده بازی می کند. به بیان دیگر، بـا در اختیار قرار دادن خلاصه متون مرتبط با کلیدواژه های مـورد نظـر کاربری که میتواند در هر سطحی از سلسله مراتب قرار داشته باشـد،
رایانامه نویسنده مسئول: sadidpur@aut.ac.ir
وی می تواند به مـرور سـریع اطلاعـات مـورد نیـاز خـود پرداختـه و تصمیمهای لازم را اتخاذ نماید.
خلاصه سازی خودکار متن عبارت است از فرآیند تولیـد خودکـار گونه ای فشرده از متن ورودی که اطلاعـات مفیـد را بـه کـاربر ارائـه می کند. در واقع، مهم ترین مزیت خلاصه نسبت به متن اصلی، کاهش زمان خواندن آن است؛ به شـرطی کـه از خوانـایی و پیوسـتگی بـین جملهای نیز برخوردار باشد.
ساده ترین نوع خلاصه خودکار موجود، خلاصه اسـتخراجی اسـت که در آن با استفاده از تکنیک ها و الگوریتم های متعدد، جملات مهم متن انتخاب و به تعدادی که نسبت فشردگی اجازه دهد، در خلاصـه حاضر میشوند .[2]
یکی از انواع خلاصـه هـای اسـتخراجی، خلاصـه هـای مبتنـی بـر پرس وجوی1 ارائهشده توسط کاربر یا به اختصار خلاصه مبتنی بر کاربر است که در نقطه مقابل خلاصه های عمومی قرار دارد. خلاصـه سـازی عمومی، سعی در بیان نظر نویسـنده داشـته و در آن، عنـاوین اصـلی به منظور تولید خلاصه استفاده خواهندشد؛ در حالی که ممکن اسـت خروجی سیستم خلاصه سازی به عنوان ورودی سـایر سیسـتم هـا بـه خصوص سیستم های بلادرنگ به کار رود؛ بنـابراین در خلاصـه سـازی
1. Query
52
مبتنی بر کاربر، به جنبه یا موضوع خاصی توجه و نقطه نظر مورد نظر در ایجاد خلاصه اعمال شده و تنها عناوینی که با عبـارت پـرسوجـو مرتبط باشند، برای تولید خلاصه استفاده خواهند شد. در واقع گاهی متن اصلی همزمان به چند موضوع مرتبط می پردازد ولی کـاربر و یـا سیستم تنها نیاز به خلاصه در یک راستا دارد در نتیجه مطلـوب ایـن است که اطلاعات اضافه با توجه به عبارت پرسوجو از خلاصه حـذف شود. بنابراین، می توان گفت که در این سیستم هـا، تشـخیص میـزان ارتباط و شباهت بین عبارت پرس وجو و اجزای متن اصلی، مهم ترین فاز میباشد.
این مقاله به بررسی روش های موجود در این نوع خلاصـه سـازی پرداخته و روشی جهت تولید خلاصه مبتنی بر کاربر در زبان فارسـی ارائــه مــیدهــد. در ادامــه، در بخــش 2، تاریخچــه مختصــری از خلاصه سازی و روش های موجود درخلاصه سازی مبتنی بر کاربر ارائـه می شود. سپس، بخش 3 به روش پیشـنهادی مقالـه مـیپـردازد و در بخش 4 ارزیابی از روش پیشنهادی صورت مـی گیـرد. در نهایـت، در بخش 5، نتیجهگیری و پیشنهاداتی برای کارهای آینده بیـان خواهـد شد.
.2 کارهای انجام شده
اولین گام ها در زمینه خلاصه سـازی خودکـار مـتن در دهـه 50 برداشته شد و Luhn، روشی مبتنی بر فراوانی واژه ها پیشنهاد کرد که در آن، جملات براساس میزان فراوانـی کلماتشـان رتبـه گـذاری و در خلاصه حاضر شدند .[3] سپس، در سال 1969 ، Baxendale، ویژگی موقعیت جمله را به فراوانی واژه اضافه کـرد. در ادامـه، Edmondson سیستم خلاصه سازی را معرفی کرد کـه چهـار ویژگـی فراوانـی واژه، موقعیت جمله، عنوان مـتن و حضـور کلمـات نشـانه را مـدنظر قـرار مــیداد Kupiec .[4] نیــز در دهــه ی 90 ، از تکنیــکهــای یــادگیری ماشین برای تولید خلاصه استفاده کرد و تکنیک تحلیلی ای را به کـار برد که فرآیند یادگیری را با استفاده از آمارهای بیـزی انجـام مـیداد Chauang .[5] در ادامــه کــار Kupiec، روشهــای دیگــری هماننــد درخت تصمیم و شبکه ی عصـبی را معرفـی کـرد .[6] در سـالهـای اخیر، برخی روش های محاسبات نرم همانند منطق فازی و الگـوریتم ژنتیک برای مسئله ی استخراج جملات مهم و تولید خلاصـه بـه کـار گرفته شدند.
از سال 2000، ایده خلاصهسازی براساس پرس وجوی ارائـهشـده توسط کاربر مطرح شد تا به وسیله ی آن، کاربران از منابع اطلاعاتی از قبیــل کتــابهــای الکترونیکــی و ســایتهــای اینترنتــی، اســتفادهی بهینهتری داشته باشند و خلاصهها متناسب با نیاز آنها تولید شوند.
رویکردهای متفاوتی در زمینه خلاصه سازی مبتنی بر کاربر وجود دارد که میتوانند در 3 دسته مبتنـیبـر گـراف، مبتنـیبـر یـادگیری ماشین و مبتنیبر زبـانشناسـی تقسـیمبنـدی شـوند. ایـن روشهـا، مستقل از زبان بوده و در صورت وجود ابزارها و امکانات مورد نیاز هر روش، در زبان موردنظر قابل پیادهسازی میباشند.
.1 .2 رویکردهای مبتنیبر گراف
در رویکرد مبتنی بر گراف، بعد از توکن بندی و تجزیه جملات بـه گروه های اسمی، روابطی براساس قـوانین اکتشـافی تولیـد مـی شـود. سپس، با در نظر گرفتن همه منابع، یک گراف مرکزی ایجاد می شـود که به انتخاب جملات خلاصه کمک مـی کنـد .[7] در بهتـرین روش این رویکرد گرافی از متن و گرافی از عبارت پرسوجو ساخته شـده و شباهت بین هر جمله و عبارت پرس وجو محاسبه مـی شـود. سـپس، بهترین جملات برای حضور در خلاصه انتخاب میشوند.
.2 .2 رویکردهای مبتنیبر یادگیری ماشین
در رویکرد مبتنیبر یادگیری ماشین، عموماً برای تولید خلاصـه استخراجی، تکنیک های بازیابی اطلاعات و خلاصه سازی با هم ترکیب می شوند .[8] درواقع، برداشتی جدیـد از اهمیـت جملـه، مسـتقل از عبارت پرس وجو، در امتیازدهی نهایی دخیل می شود. در این رویکرد، جملات، به وسیله مجموعه ای از ویژگی ها امتیازدهی و کل امتیاز هـر جمله که در این بخش بـه دسـت آمـده، بـا ترکیـب خطـی و وزن دار ویژگیها حاصل میشود.
.3 .2 رویکردهای مبتنیبر زبانشناسی
در رویکرد مبتنی بر زبان شناسی، از الگوریتم ها و ابزارهای موجود در زبان شناسی مانند مدل مفخی مارکوف( HMM) 1، ابـزار تشـخیص موجودیت های نامدار( NER) 2، پارسر و غیره استفاده می شود. نتـایج نشان می دهد که این رویکرد به دلیل شبیهسازی تقریبی معنا، نسبت بـه دو رویکــرد دیگـر بــه نتـایج انســانی شـباهت بیشــتری داشــته و موفقیتهای بزرگتری کسب نمودهاست.
یکی از راهکارهای مهم و مؤثر در رویکرد مبتنی بر زبان شناسـی، تعیین میـزان شـباهت معنـایی عبـارت پـرس وجـو و جمـلات مـتن می باشد. براساس این راهکار، جملاتی که شباهت معنایی بـیش تـری به عبارت پرس وجو داشته باشند، شـانس بیشـتری بـرای حضـور در خلاصه مبتنی بر کاربر خواهند داشت .[4 ,2] بـرای ایـن منظـور، بـه محاسبه میزان شباهت اجـزای تشـکیل دهنـده عبـارت پـرسوجـو و جملات متن یعنی کلمه نیاز می باشد. در سال های گذشته، روشهای متعدد و متنوعی در این زمینه گسترش یافته که هر کدام در کـاربرد خاصی مؤثر واقع شدهاست.
به طور کل می توان روش های موجود در زمینه محاسـبه شـباهت کلمات را در دو دسته مبتنی بر پایگاه دادههای لغوی و مبتنی بـر وب تقسیمبندی نمود.
رویکرد مبتنی بر پایگاه داده های لغـوی، از پایگـاه داده هـایی کـه به صورت دستی و توسط انسان ایجاد شدهاست، بهره میبـرد. در ایـن راستا، پایگاه داده های متنوعی در زبان های مختلف دنیا توسـعه یافتـه است که از بین آنها مـیتـوان بـه Hownet و [9] Wordnet در زبـان
1. Hidden Markov Model 2. Named Entity Identifier
روش مبتنی بر شباهت معنایی در خلاصهسازی متون فارسی بر اساس عبارت پرسوجوی کاربر: زهرا سپهریان و همکاران 53
انگلیسی اشاره کرد که به دلیل جامعیت، کامل بودن نسبی و سـاختار سلسله مراتبی، دارای محبوبیت بـالایی در ایـن عرصـه در ایـن زبـان می باشند. به طور معمول در این مجموعه ها، شباهت بـین کلمـات بـا محاسبه تعداد یال های موجود در مسیر سلسلهمراتبی آنهـا بـهدسـت می آید. در کارهای جدید مانند [10] به یالهای مسـیر بـا توجـه بـه عمق آنها وزنی اختصاص می یابد که این امر به دقیق تر بـودن میـزان شباهت محاسـبه شـده کمـک قابـل تـوجهی مـی کنـد. مجموعـه ی فارس نـت در زبـان فارسـی نیـز تلاشـی جهـت پیـاده سـازی چنـین پایگاه داده ای می یاشد. رویکـرد دیگـر در ایـن حـوزه از پیکـره وب و اطلاعات مختص آن مانند بازدیدها[11] 1، قطعـات وب[13-12] 2 و تعداد صفحه [15-14] جهت محاسبه میزان شباهت کلمات استفاده میکند.
پس از محاسبه میزان شباهت کلمات ، از روشهای موجود جهت محاسبه میـزان شـباهت جمـلات اسـتفاده و شـباهت میـان عبـارت پرس وجو و جملات متن اصلی تعیین می شود. کارهای انجام شده در این راستا در سـه دسـته محاسـبات مبتنـیبـر هـم پوشـانی کلمـات، مبتنیبر اطلاعات آماری و مبتنیبر زبانشناسی قرار دارند .[16]
از کارهای تأثیرگذار در این بخش مـی تـوان بـه تحلیـل معنـایی پنهان [17] 3( LSA)، [18] 4TF -IDF، رویکردی براسـاس اطلاعـات معنایی و چیدمان کلمات [19] و رویکردی مبتنی بر استخراج رویداد جمله [20] اشاره کرد.
در LSA یک مجموعه از کلمات، نماینده تعداد زیادی از مفـاهیم بوده و به ازای هر جمله، یک بردار در فضای کاهشیافتـه پـر شـده و سپس، شباهت بین دو جمله، با اندازه گیری شباهت بین این دو بردار به دست می آید .[17] به دلیل محدودیت ابزارهای به کارگرفته شده در این روش، ابعاد کاهش زیادی می یابند و ممکن است بعضی از کلمات مهم جمله ورودی با طول نامعلوم در فضای ابعاد LSA قـرار نگیرنـد. به علاوه، بهعلت ثابت بودن نمایندههـای کلمـات، واحـدهای کوتـاهی مانند جمله، با بازنمایی تنکی مواجه میشوند.
TF-IDF به دو پارامتر تعداد تکرار عبارت در دو جملـه و عکـس تعداد تکرار عبارت در مجموعـه متـون توجـه دارد؛ بـه طـوریکـه بـا افزایش تعداد تکرار عبارت موردنظر در مجموعه متون، وزن اختصاص داده شده به آن کاهش مییابـد .[18] ایـراد ایـن روش آن اسـت کـه جملاتی با معنی مشابه، لزوما کلمات مشترک زیادی ندارند.
به این ترتیب جهت محاسبه شباهت معنایی جملات، رویکـردی براساس اطلاعات معنایی و چیدمان کلمـات پیشـنهاد شـد .[19] در این رویکرد، ابتدا شباهت معنایی ازطریق پایگاه دانـش لغـوی و یـک پیکره به دست می آید. سپس، شباهت چیدمان کلمات، براساس تعداد کلمات متفـاوت و تعـداد جفـت کلمـات در یـک چیـدمان متفـاوت محاسبه می شود. در نهایت، شباهت بین دو جمله، با ترکیـب ایـن دو
1. Web Hits 2. Snippets 3. Latent Semantic Analysis
4. Term Frequency-Inverse Document Frequency
مقدار شباهت بهدستآمده تعریف میشود .[19]
در سال های اخیر ابزارهای کارا در زمینه پردازش زبـان طبیعـی، سهم زیادی را در محاسبات شباهت معنایی به خود اختصاص دادهاند. به عنوان مثال رویکردی، برای ترکیب شباهت نحوی و معنایی از ابزار توسعه یافته در زبان انگلیسی یعنی پارسر بهـره بـرده و بـه اسـتخراج رویداد جمله پرداخته است. در واقع جهت محاسبه شـباهت معنـایی، شباهت بین عناصر رویداد اندازهگیری شـده اسـت .[20] در رویکـرد دیگری، جملات براساس چند قاعده گرامری و با استفاده از پارسر به چند قطعه (بدنه و سایر قطعات) تقسیم شده اند و در محاسبه شباهت معنایی دو جمله، شباهت معنایی هـر کـدام از قطعـات بـا توجـه بـه اهمیت شان و با وزن های مختلـف در نظـر گرفتـه شـده اسـت .[21] پژوهش دیگری از ابهام زدای معنایی کلمات بهره برده و از هم پوشانی senseها برای محاسبه این شباهت استفاده نموده است. همانطور کـه در ادامه و در بخش 0 به آن پرداختـه مـی شـود کلمـات یکسـان در کاربردهای متفاوت با معانی متفاوت ظاهر می شوند که به این معـانی متفاوت اصطلاحا senseهای آن کلمه گفته می شود. در ایـن رویکـرد جهت محاسبه میزان شباهت دو جمله، پس از انتساب بهترین sense به هر کلمه و در واقع ابهام زدایی معنایی کلمات (با توجه به جملـه ای که در آن قرار گرفته است)، از میزان هم پوشانی ایـن senseهـا در دو جمله استفاده شده است .[22]
در زبان فارسی که در عرصه پردازش زبان طبیعی نوپـا محسـوب می شود کارهای مختلفی درعرصه خلاصهسازی متون انجام شده است که از جملـه بـارزترین آنهـا مـیتـوان بـه [23] FarsiSum، سیسـتم خلاصه سازی خودکار متون فارسی [24] و سیستم خلاصه سـازی بـا استفاده از رویکرد انسان شناختی [25] اشاره کرد.
در زمینه خلاصـه سـازی مبتنـی بـر کـاربر متـون فارسـی اکثـر تلاش های انجام شده به روش های مبتنی بر گراف متمرکز بوده است. به عنوان مثال سیسـتم خلاصـه سـازی خودکـار متـون فارسـی [24] قابلیت تولید هر دو شکل خلاصه (عمومی و مبتنی بر کاربر) را دارد و در آن متن به شکل گرافی غیر جهت دار که گره های تشکیل دهنـده ی آن جمله ها هستند ارائه و شباهت بین دو جمله با لبه اتصال بین آنها نمایش داده می شـود. معیـار محاسـبه ایـن شـباهت وجـود کلمـات مشترک یا رابطه بین کلمات آن با معیار کسینوسی است. زیرگراف ها نشان دهنده موضوعات موجود در سـند هسـتند و در تولیـد خلاصـه مبتنی بر کاربر، جملات خلاصه از زیرگراف خاصی مـرتبط بـا عبـارت پــرسوجــو انتخــاب مــیشــوند. [26] نیــز رویــهای مشــابه سیســتم خلاصه سازی خودکار متون فارسی در پیش می گیرد با این تفاوت که با جایگزینی مفاهیم متناظر کلمات، از رابطه های ترادف (synonym)، شمول (hypernymy) و زیرشمول (hyponymy) که بین این مفـاهیم وجود دارد، جهت محاسبه شباهت با عبارت پرس وجو بهره می گیـرد. [27] نیز مبتنی برگراف بـوده و در راسـتای محاسـبه شـباهت میـان جملات از ویژگی های تعداد کلمات مشترک، تعـداد کلمـات کلیـدی مشترک، تعداد کلمات انگلیسی مشترک و تعداد کلمات مشترک کـه توضیح آنها در پـانویس آمـده اسـت بـا وزن هـای متفـاوت اسـتفاده
54 اف لکت نیک یب ی
مجله علمی- پژوهشی » پد ند ا رو ی و سا ر «؛ سال دوم، شماره 3، پاییز 1393
می کند. این مقاله به معرفی روشی جهت محاسـبه شـباهت معنـایی جملات که کمتر در کارهای بالا مورد توجه قرار گرفته است و کاربرد آن در ایجاد خلاصه مبتنیبر کاربر میپردازد.
.3 روش پیشنهادی
در این بخش به شرح روش پیشـنهادی جهـت تولیـد خلاصـهی مبتنیبر کاربر پرداخته می شـود. در ایـن روش، بعـد از طـی مراحـل پیش پردازش موردنیاز و جداسازی جملات و کلمات مربوط بـه آنهـا، ابهام زدایی معنایی کلمات انجام می گیرد و سپس به محاسبه شباهت بین عبارت پرس و جو و جملات موجود در متن پرداخته می شـود. در این راستا پس از تبدیل عبارت پرس وجو به جمله، ابتدا شباهت میان کلمات محاسبه شده و سپس براساس [19] بردار شباهت چیدمان و شباهت معنایی تشکیل و میزان شـباهت بـین عبـارت پـرس و جـو و جملات مـتن محاسـبه مـی شـود. در نهایـت براسـاس ایـن مقـادیر، خلاصهسازی صورت میگیرد. در طی مراحل فوق، سیستم پیشنهادی از مجموعه ها و منابع موجود در زبان فارسی بهره برده است که پیش از بررسی فازهای سیسـتم پیشـنهادی بـه معرفـی ایـن مجموعـه هـا پرداخته میشود.
.1 . 3 منابع مورد استفاده
این مقاله جهت محاسبه شباهت میـان کلمـات، تبـدیل عبـارت پرس وجو به جمله و محاسبه شباهت بین عبارت پرس و جو و جملات متن به ترتیب از 3 مجموعه "فارس نـت"، "فرهنـگ ظرفیـت افعـال فارسی" و " بیجنخان" استفاده کردهاست. در ادامه و بهطور جداگانه هریک از این مجموعهها مورد بررسی قرار میگیرد.
.1 .1 .3 فارسنت
در زبان فارسی، در زمینه شناسایی روابط بین کلمات تلاش هایی صورت گرفته است که از کارهای مهم انجامشده میتوان به مجموعـه فارس نت اشاره کرد. فارس نت، تلاشی جهت پیاده سازی مجموعه های مهمی همانند Wordnet در زبان فارسی است که در دانشـگاه شـهید بهشتی تدوین شده است .[28]
فارس نت شامل مجموعه ای از کلمات فارسی به همراه روابط بین آنها است. هر کلمه در این مجموعه دارای مشخصات زیر میباشد.
Sense .1 .1 .1 .3
در مجموعه شبکه واژگانی، کلمـات واحـدی کـه در کاربردهـای مختلف و با معانی مختلف ظاهر می شود، اصطلاحا دارای senseهـای مختلف می باشند. به هر کدام از این sesnseها، شناسـه ای اختصـاص داده شدهاست که مسـتقل از زبـان بـوده و در تمـام زبـانهـای دنیـا یکسان میباشد. روابط زیادی بین sense کلمات مختلف تعریف شـده است؛ به طوری که این امکـان وجـود دارد کـه هـر sense متعلـق بـه کلمه ای با چندین sense، روابط متمایز و جداگانه ای با مجموعه ای از
sesnseهای متعلق به سایر کلمات داشته باشد. تعـداد روابـط تعریـف شده در فارس نت بیش از Wordnet می باشد و این مزیتی بـرای ایـن مجموعه به حساب میآید.