بخشی از مقاله
چکیده:
فرایند کوتاه کردن یک منبع به صورتی که حاصل حاوی اطلاعات مهم آن باشد را خلاصه سازی می گویند. .برای بشر خلاصه سازی مدارک واطلاعات به صورت دستی کار مشکلی است.خلاصه سازی متون منجر به استفاده از منابع بیشتر با سرعت بالاتر و در نتیجه حاصل شدن اطلاعات غنی تر میشود .روش های خلاصه سازی متن به دو گروه استخراجی وچکیده ای تقسیم می شوند.روش خلاصه سازی استخراجی، شامل مهم ترین جملات وپاراگراف های مدارک ومطالب می باشد و اهمیت یک جمله بر اساس روش های آماری و ویژگی زبان شناسی آن مشخص می شود.روش خلاصه سازی چکیده ای شامل مفهوم متن اصلی است و بازگویی کلمات در آن کمتر می باشد که از روش های زبانشناسی برای آزمودن و تفسیرمتن سپس برای پیدا کردن مفاهیم جدید استفاده می شود و همچنین به پیدا کردن مفاهیم جدید و پیدایش یک متن کوتاه تر کمک می کند واغلب مطالب مهم متن اصلی را در بر دارد.اکثر سیستم های خلاصه سازی کنونی از نوع استخراجی می باشند.در این مقاله به بررسی روش های خلاصه سازی متن می پردازیم.
کلمات کلیدی : خلاصه سازی خودکار متن ، چکیده سازی ، خلاصه سازی استخراجی جملات ،روش های خلاصه سازی متن
-1مقدمه
خلاصه سازی خودکار متن [ Jezek,Steinberger,2008]دارای اهمیت ویژه ای است و یک ابزار زمانی برای دست یابی وتفسیر اطلاعات یک متن است که در دهه های اخیر پیشرفت زیادی داشته است . برای بشر خلاصه کردن اسناد واطلاعات زیاد به صورت دستی کاربسیار مشکلی است. مقدار زیادی از مواد متنی در اینترنت قابل دسترس است. اگر چه معمولا اینترنت اطلاعاتی بیشتر از آن چیزی که می خواهید به شما می دهد بنابراین شما با مشکل بیشتری مواجه می شوید .جستجو برای اسناد مربوطه در میان تعداد زیادی از مطالب قابل دسترس و مربوط به موضوعی که ما می خواهیم کار دشواری است هدف خلاصه سازی خودکار متن، فشرده کردن منابع متنی به نسخه های کوتاهتر که شامل اطلاعات مهم متن و یک مفهوم کلی نیز می باشد.یک خلاصه سازی متون منجر به استفاده از منابع بیشتر با سرعت بالاتر و در نتیجه حاصل شدن اطلاعات غنی تر میشود ]کریمی ، شمس فرد، [1385 یک خلاصه [Fan,Wallace,2005] را می توان به عنوان یک راه اشاره ای به برخی از قسمت های اسناد و اطلاعات اصلی استفاده کرد.یا یک راه خبری برای پوشش تمام اطلاعات مربوط به متن خبری می باشد.مزیت اصلی خلاصه سازی ،کاهش زمان مطالعه است. یک سیستم مناسب خلاصه کردن باید عنوانهای مختلف یک متن را منعکس کند و مقدار حشو ناچیزی را داشته باشد. همچنین خلاصه سازی ابزاری برای تحقیق درباره ی موضوعات مختلف است و نشانه هایی در موضوعات فرعی به منظور مشخص کردن نکات کلیدی اطلاعات و اسناد می باشد. نرم افزار خودکار خلاصه سازی کلمات مایکروسافت یک نمونه ساده ای از خلاصه سازی متن می باشد. روش خلاصه سازی متن به دو گروه خلاصه سازی استخراجی و خلاصه سازی چکیده ای تقسیم می شود.روش خلاصه سازی استخراجی [Han,romacker,2001] [Erkan,radev,2004] شامل انتخاب جملات و پاراگراف های مهم از اسناد و متون اصلی می باشد. و آنها را کوچکتر می کند. اهمیت جملات بر اساس آمار و ویژگی زبانشناسی آنها مشخص می شود.در یک خلاصه سازی چکیده ای [Kyoomarsi,khosravi,2008] تلاش می شود درک مفهوم اصلی اسناد و اطلاعات حفظ شود و همچنین این مفاهیم به زبان ساده بیان شوند.که در آن از روش های زبانشناسی برای آزمودن و تفسیرمتن سپس برای پیدا کردن مفاهیم جدید استفاده می شود . و برای بیان بهترین توصیف ارائه یک متن کوتاهتر که اغلب مطالب مهم متن اصلی را دربر داشته باشد ضروری است. در فرایند خلاصه سازی چکیده ای به استخراج ساده جملات اکتفا نکرده و در واقع مفهومی از متن اصلی را خواهیم داشت که بسیار نزدیک به مدل ذهنی انسان می باشد. در تولید چکیده پاره -ای از جمله ها یا همه ی آن ها بازنویسی میشوند به عنوان مثال ، اگر در یک خلاصه ،جمله ی (او سیب و انگور و گیلاس ها را خورد) به صورت(او میوه ها را خورد) نوشته شود آن خلاصه یک چکیده است. فرایند خلاصه سازی چکیده ای فرایندی بسیار پیچیده و دشوار است چرا که نیازمند نمایشی مفهومی از متن می باشد و رسیدن به این نمایش بسیار مشکل خواهد بود. علاوه بر این ساخت جمله ای جدید نیاز به اطلاعات زبان شناسی بسیار قوی می باشد] مشکی،آنالویی،[1388 .در خلاصه سازی
×اولین همایش ملی پیشرفت های تکنولوژی در مهندسی برق، الکترونیک و کامپیوتر
First National Conference of Technology Developments on Electronical, Electronics and Computer Engineering×
. . . W W W . T D E C O N F . I R . . .
استخراجی ، از متون اولیه چندین بخش از متن را انتخاب کرده و بر اساس یک معیار اولویت آن ها را مرتب می نمایند. در این نوع خلاصه سازی هر جمله از متن یا متون اولیه رونوشت می شود و جملات متن تغییرات نحوی و معنایی ندارند .
خلاصه سازی استخراجی بدین گونه شکل می گیرد ]کیومرثی ،[1387 :بخش های کلیدی استخراج شده از متن (جمله ها و صفحات..) بر اساس تحلیل آماری از ویژگی های سطحی تکی یا ترکیبی مانند تکرار عبارت ها و کلمات, موقعیت کلمات کلیدی ،طول جملات ، اسامی خاص و استخراج شده اند .این گونه رویکرد ها نتیجه اجتناب از درک عمق متن می باشد.که اینها مفاهیم ساده ای می باشند و به راحتی قابل اجرا هستند.روند خلاصه سازی متن [Gupa,Lehal,2009] را می توان به دو مرحله تقسیم کرد: -1مرحله پیش پردازشی -2مرحله پردازش . پیش پردازش شامل:
الف-شناسایی مرز جملات و واژه ها:در زبان انگلیسی معمولا مرز جمله با قرار گرفتن نقطه در پایان جمله مشخص می شود.در زبان فارسی به دلیل مشکلات خاص زبان،مانند تشخیص افعال مرکب و کسره ی اضافه این کار به آسانی زبان انگلیسی صورت نمی گیرد.
ب-حذف کلمات غیر مهم: کلماتی که معمولا معنای خاصی ندارندو اگر حذف شوند در معنای اصلی خللی ایجاد نمی کند مانند حرف ربط ، حرف اضافه ،افعال ربطی واکثر افعال ساده و قیود. از متن حذف می شوند تا برای امتیازدهی به جمله به حساب نیایند.
ج- ریشه یابی: هدف ریشه یابی مشخص کردن ریشه و پایه هر کلمه می باشد که بر معنای آن تاکید دارد.در مرحله پردازش ویژگی تاثیر گذار بر ارتباط جملات انتخاب و حساب می شود و سپس بار آموزشی آنها را در نظر خواهیم گرفت . در نهایت از ویژگی بار جملات برای امتیاز دهی به آنها استفاده می شود.وجملاتی که در رتبه بالاتری قرار بگیرند برای خلاصه نهایی انتخاب می شوند.مشکلاتی که در رابطه با خلاصه سازی استخراجی وجود دارد به شرح زیر می باشد.[Lin, 2009][Cheung,2008]
-1جملات استخراجی معمولا بلندتر از حد معمول اند، قسمتی از این بخش ها برای خلاصه ضروری نیستند , همچنین وقفه های زیادی را بوجود می آورند . -2اطلاعات مربوطه و مهم معمولادر بین جملات پخش می شوند وخلاصه سازی استخراجی نمی تواند آنها را جمع کند( اگرچه خلاصه به اندازه کافی طولانی است که بتواند این جملات را در خود جای دهد.) -3ناسازگاری اطلاعات مانع از ارائه درست می شود.
-4یک خلاصه سازی استخراجی خالص اغلب به مشکلاتی در رابطه با ارتباط کلی خلاصه منجر می شود-مسئله مهمی که وجود دارد ،تکرار یک یا چند عبارت متوالی» افزونگی« می باشد. جملات اغلب شامل ضمایر هستند زمانی که از متن استخراج می شوند مرجع خود را از دست می دهند. بدتر از آن, پیوند دادن مفاهیم نامربوط به یکدیگر ممکن است به تفسیر نادرست منجر می شود.( نتیجه ارائه نادرست از منبع اطلاعات ) مسئله مشابهی نیز در مورد بیانات موقتی وجود دارد.این مسئله ها در مواردی که چند نمونه از اسناد وجود دارند بیشتر است.بنابراین استخراج از منابع مختلفی گرفته می شود.رویکرد کلی که به این مسائل می پردازد استخراج پس- پردازش می باشد. برای مثال جایگزینی ضمیر با مرجع ضمیر و جایگزینی کلمات زمانی مرتبط با بیان زمان اصلی و غیره.
مسائل و مشکلاتی که در ارتباط با خلاصه سازی چکیده ای وجود دارد به شرح زیر می باشد:[Lin,2009]
بزرگترین چالش درمورد خلاصه سازی چکیده ای مشکل ارائه آن می باشد.سیستم هایی وجود دارند که می توانند آن هارا مجبور کنندکه ارائه قویتری داشته باشندو همچنین در کلی سازی این ساختارها توانایی دارند.(وقتی ارائه ای درست نباشد سیستم ها قادر به خلاصه سازی نیستند .)در مقیاس کمتر,این امکان برای برخی دستگاهای ساختاری مناسب نیز وجود دارد. اما هدف کلی و راه حل ،به تحلیل معنایی در مقیاس وسیعی بستگی دارد .سیستمی که بتواند به درستی زبان طبیعی را بفهمد، از توانایی تکنولوژی امروزی خارج است .ارزیابی خلاصه ,[Nenkova,Passonneau,2004][Lin,2004][Hovy,Lin,2006]یک جنبه مهم از خلاصه سازی متن می باشد. به طور کلی خلاصه با دو مقیاس اصلی و فرعی ارزیابی می شود .روش های اصلی با مقایس های خلاصه ای کیفی با استفاده از ارزش یابی بشری به کار گرفته می شود. وروش های فرعی مقیاس مشابه ای دارند که برپایه فعالیت و عملکرد اندازه گیری می شود. Newsblaster یک مثال مناسب برای خلاصه سازی متن می باشد که به کاربران کمک می کند اخباری که علاقه دارند را پیدا کنند .این سیستم به طور خودکار اخبار را جمع آوری و سازمان دهی می کند .اخبار را روزانه از سایت های مختلف (CNN,FOX NEWS,ECT) اینترنت گرفته وخلاصه سازی می کند و به کاربران فرصت یک استفاده دوستانه و مناسب را می دهد .
-2تاریخچه اولین خلاصه سازی متون
علاقه مندی به خلاصه سازی خودکار از اوایل قرن پنجاه میلادی بوده است. یکی از مهمترین صفحاتی که در آن روزها خلاصه شده است :در سال 1958میلادی پیشنهاد شده بود که وزن جملات یک سند را بر اساس تکرار کلمات آن در نظر بگیریم.[Luhn,1958 ]در سیستم خلاصه سازی خودکار متن [Edmondson,1969] علاوه بر روش استاندارد کلمات کلیدی , از سه روش دیگر نیز استفاده می شد.