بخشی از پاورپوینت

اسلاید 2 :

تاریخچه
شروع خلاصه سازي متن به سال 1950 برمی گردد.
به دلیل کمبود کامپیوترهاي قدرتمند و مشکلات موجود براي پردازش زبانهاي طبیعی کارهاي اولیه بروي مطالعه ظواهر متن مانند (موقعیت جمله و ، عبارات اشاره) ، متمرکز شده بود.
سال 1970 تا 1980 هوش مصنوعی بکار آمد .
Kupiec اولین الگوریتم مبتنی بر یادگیري را پیشنهاد داد. او عمل خلاصه سازي را به صورت یک مسئله دسته بندي ، درنظر گرفت و دسته بندي کننده هاي بیزین را براي تعیین جملاتی که باید در خلاصه وارد شود ، بکار برد.
Chuang و Yang چندین الگوریتم مانند درخت تصمیم و دسته بندي کننده رابراي استخراج قطعات جمله پیشنهاد دادند . این روش خلاصه سازي اسناد در یک حوزه خاص عملکرد خوبی دارد.
Elhadad و Barzilay خلاصه هایی با پیدا کردن زنجیره هاي لغوي ایجاد کردند که به توزیع کلمه و اتصالات لغوي بین آنها ، براي تقریب زدن محتوا و ارائه یک نمایش از ساختار لغوي بهم پیوسته متن اتکا می کرد

اسلاید 3 :

کاربردها
نمايش خلاصهاي از اطلاعات يافت شده توسط موتورهاي جستجو
خلاصه کردن و مقايسه معالجات پيشنهاد شده براي يک بيمار
توليد توصيه نامه مختصري بر يک کتاب و تبدیل کتابخانه ها به خلاصه ها
و .
خلاصه سازي
به ايجاد يک نمايش مختصرتر از يک دسته اطلاعات توسط يک برنامه کامپيوتري ، خلاصه سازي خودکارگفته ميشود.

اسلاید 4 :

انواع مدل هاي خلاصه سازي متن

1- استخراج جملات مهم از متن اصلي

2- ارائه مضمون اصلي متن را در قالب جملات جديد

خلاصه سازی تک سنده و خلاصه سازی چند سنده :
در تک سنده ، فقط با یک متن سروکار داریم.
در چند سنده ، روی چند تا متن پردازش انجام می دهیم.

اسلاید 5 :

منبع (ورودي)
منبع : تک سنده ، چند سنده
زبان : تک زبانه ، چند زبانه
دسته : اخبار ، گزارش فني ، مقاله علمي و . .
اختصاصي : زمينه خاص ، عمومي.
طول : کوتاه ( 1 تا 2 صفحه) ، بلند (بيش از 50 صفحه) .
رسانه : متن ، رسم ، سمعي ، تصويري ، چند رسانهاي و . .
هدف
کاربرد : عمومي ، پرسش گرا (به اطلاعات خاص مورد نياز توجه دارد)
هدف : متن خلاصه براي چه منظوري استفاده ميشود؟ (هشدار، پيش نما، آگاهي، خلاصه تهيه اطلاعاتي از زندگي نامه)
کاربر : بدون هدف ، هدفمند (کاربر خاصي موردنظر است)

ترکيب (خروجي)
اشتقاق : استخراج ، چکيده ·
فرمت : متن ، جدول ، نمايشهاي جغرافيايي ، خطوط زمان ، نمودار، تصوير ·
ویژگی های خلاصه سازی

اسلاید 6 :

انواع روشهاي به کار رفته در خلاصه سازي متن:
روشهايي که از اطلاعات آماري متن براي تعيين اهميت جملات استفاده ميکنند.

روش هايي که روابط بين بخشهاي مختلف متن ، مفاهيم و معاني عبارات را نيز مورد توجه قرار ميدهند

روشهاي دسته دوم خلاصه هايي با کيفيت بهتر توليد ميکنند ولي پياده سازي آنها پيچيده تر است.

اسلاید 7 :

رويکردهاي خلاصه سازي خودکار متن
الگوريتم ها را درسه سطح surface و entity و discourse بررسي ميکنيم.

سطح Surface : از ويژگي ها ي سطحي براي پردازش استفاده ميکنند
فرکانس کلمه : جملات مهم آنهايي هستند که دربردارنده کلمات با تعداد رخداد بالا مي باشند. سيستمهاي خلاصه سازي اوليه مستقيما از توزيع کلمه در منبع استفاده ميکردند.

موقعيت : فرض را بر اين ميگيرد که جملات مهم بسته به نوع متن ، معمولا در موقعيت هاي مشخصي قرار دارند. چند قاعده کلي مثل روش تقدم و روش مبتني بر عنوان هم وجود دارند. روش تقدم تنها جملات اول را انتخاب ميکند. در روش مبتني بر عنوان ، کلمات تشکيل دهنده عنوان و سرصفحه در تهيه خلاصه نقش دارند. از موارد تعميم اين روشها ميتوان به OPP اشاره کرد که در سيستم SUMMARIST استفاده شده است . آنها در اين سيستم از روشهاي يادگيري ماشين براي شناسايي موقعيت اطلاعات مرتبط در انواع متني مختلف استفاده کردند.

باياس : ارتباط واحدهاي معني دار، يا حضور کلماتي از عنوان يا سرفصل ، بخش آغازين متن يا تعداد کلمات پرسش گونه را به عنوان ويژگي درنظر ميگيرد.

اسلاید 8 :

کلمات اشاره: نشاني از ارتباط يا بي ارتباطي هستند . آنها معمولا نشانه هاي غيرنمادين زبانشناختي هستند. (اشاراتي مانند : "بطورخلاصه" ، "درنتيجه" ، " در اين مقاله قصد داريم " و يا تاکيد کننده هايي مانند : "بطورقابل توجهي" ، "مهم" ، "بخصوص" ، "به ندرت" ، "غيرممکن") و همچنين عبارات تشويقي و کلمات مطرح در حوزه خاص نيز مي تواند در نظرگرفته شود.

گرچه ليست اين عبارات به صورت دستي ساخته ميشود، اما مي توان به صورت خودکار هم آنها را تشخيص داد.
سطح Surface

اسلاید 9 :

رويکردهاي سطح موجوديت با مدل کردن موجوديتهاي متن (کلمات ساده ، مرکب و اسمي خاص، جملات و.) ، يک نمايش داخلي از متن و روابط آنها (موجوديتها) مي سازد. روابط بين موجوديتها شامل موارد زير است :
مشابهت : کلمات مشابه آنهايي هستند که شکل مشابهي دارند. مثل کلماتي که ريشه يکسان دارند (مثل شبيه و شباهت) . مي توان از دو معيار مشابهت براي تعيين تعلق يک جمله به يک بافت بزرگتر استفاده کرد : 1- مشابهت بين يک جمله و مابقي سند 2- مشابهت بين جمله و عنوان سند .
مجاورت : فاصله بين دادههاي متني که موجوديتها را شامل ميشوند ، يک فاکتور تعيين کننده براي برقراري روابط بين موجوديتها است.
پيوستگي : اتصالات طبق این حقیقت عمل می کنند که واحدهاي متنی مهم معمولا شامل موجودیتهایی هستند که بعضا ساختارهاي معنایی اتصال قوي دارند :
هم_رخدادي : کلماتی که در بافتهاي مشترك ظاهر می شوند ، می توانند بهم مرتبط
هم_ ارجاعی : عبارات ارجاع دهنده(مرجع ) می توانند بهم لینک شوند.
و .
روابط معنايي مبتني بر نمايش : روابط معنایی در بين موجوديتها برقرار ميکند
سطح entity

اسلاید 10 :

فرمت خروجی
فرمت خلاصه ملاك دیگري براي دسته بندي روشهاي خلاصه سازي متن است
در چکیده متن ، که امر چالش انگیزتري است ، متن اصلی به روش زبان شناختی عمیقی تجزیه می شود ، سپس متن در قالب یک نمایش قراردادي ، به صورت معنایی تفسیر می شود . مفاهیم مختصر بیشتري براي توصیف متن و در پی آن تولید یک متن کوتاه جدید ، یعنی یک چکیده ، از اطلاعات پایه یکسان کشف می شوند.

در مقابل ، استخراج به معنی تشخیص عبارت مرتبط در یک یا چند سند است، که اغلب با تکنیکهاي استاندارد بازیابی اطلاعات مبتنی بر آمار که با پردازش کم و بیش سطحی زبانهاي طبیعی و دسته یا اکتشاف هاي خاص زبانی تکمیل شده است ، استفاده می شود. سپس این عبارات (اغلب جملات و اصطلاحات ) استخراج شده ، و بهم متصل می شوند ، تا یک خلاصه بدون افزونگی را شکل دهند که کوتا ه تر از سنداصلی و با حداقل تلفات ممکن در اطلاعات است. گاهی این قطعات استخراج شده ، مورد پس _ویرایش قرار می گیرند. اکثر کارهایی که در زمینه خلاصه سازي انجام شده است براساس استخراج است

اسلاید 11 :

مراحل خلاصه سازي طبق نظر Hovey و Lin
شناسایی موضوع :
در بعضی از انواع متون ، بخشهاي مشخصی از آن در برگیرنده موضوعات مهم هستند
بعضی کلمات یا عبارات به محل اصل پیام در متن اشاره می کنند مانند : "بطور خلاصه”.
بعضی کلمات برحسب محتوي یک متن ، بیشتر در متن ظاهر می شوند
بعضی موضوعات با شمارش مفاهیم بجاي کلمات مشخص می شوند (شمارش مفاهیم)
تفسیر:
در چکیده تفسیر انجام می شودکه شامل ادغام موضوعات مشابه در یک عبارت و حذف افزونگی ها و . است.
مثال : او وارد هواپیما شد ، روي صندلی نشست ، هواپیما برخواست و به زمین نشست. این عبارت را می توان به این صورت بیان کرد : او پرواز کرد. پیاده سازي این روش بسیار مشکل تر است اما نتایج بسیار خوبی می دهد. این روش همچنین تراکم بی پایان لغوي نیز گفته شده است.
تولید:
آخرین مرحله خلاصه سازي خودکار متن ، تولید متن خروجی نهایی است که شامل ادغام عبارات ، کلمات و یا چاپ عبارت و تولید جملات می شود.

اسلاید 12 :

روشها و الگوریتم ها
پیش پردازش :

قطعه بندي : می تواند یک پاراگراف ، جمله ، عبارت و یا حتی جزئی از جمله باشد ، گرچه عموما استخراج در سطح جمله انجام می گیرد.

ریشه یابی : در یک متن پیوسته معمولا یک کلمه ممکن است در چندین شکل گوناگون ظاهر شود . این حالتهاي صرف توسط متن کنترل می شوند، یعنی اگر به صورت جمع یا مفرد ، زمان حال یا گذشته ، . آمده باشد .

فیلتر کلمات غیر ضروري : کلماتی مثل is ، the ، and و . نقش خیلی کمی درتوصیف موضوع دارند.

اسلاید 13 :

نحوه نمایش متن (امضاهاي سند)
مدل فضاي بردار(در سطح لغوي) :
در این مدل امضاهاي سند به صورت بردارهاي ویژگی نمایش داده می شوند، که شامل کلماتی است که در داخل اسناد آمده اند و وزنهاي هر کلمه ، که اهمیت آن را براي هر سند مشخص می کند.

شباهت را با محاسبه زاویه کسینوسی بین آنها به صورت زیر بدست می آید :

وزن دهی :

تئوري هاي زیادي براي چگونگی مدل کردن کلمات مهم وجود دارد که معروف ترین آنها مدل tf_idf است.
در مورد کلمات مترادف که تعدادي کلمه با معانی یکسان ، ظاهر لغوي بسیار متفاوتی دارند، بروي معیار بازخوانی تاثیري منفی دارد. یک مثال فرضی سند D است D={kitten,dog,pussy,cat,mouser,doggie,feline} که در مورد گربه هاست و مدل سنتی tf_idf قادر به تشخیص آن نمی باشد.

اسلاید 14 :

چند قاعده براي ارزیابی جملات
در بین شیوه هاي متعددي که در مقالات توصیف شده است ، نقطه مشترکی که در همه آنها وجود داشت ، انتساب وزن به هر یک از امتیازات با در نظر گرفتن ضرایب مختلف براي آنها می باشد، که در نهایت مجموع این حاصل ضرب ها محاسبه می شود. اشاره به این نکته مهم است که آن ضرایب بستگی به زبان متن دارد.

خطوط اصلی : جملات با توجه به موقعیتشان در متن امتیازدهی می شوند. تئوري وجود دارد مبتنی بر اینکه انواع مشخصی از اسناد ، معناي کلیدي شان را دربخشهاي مرکزي متن ارائه می دهند. براي متون روزنامه ، اولین جملات متن بالاترین رتبه را می گیرند درحالیکه در متون تکنیکی بخش نتیجه گیري مهم تر از هم است.

اولین جمله : مشابه شرایط قبل ، اولین جمله در هر پاراگراف متن ، بسیار مهم تلقی می شود.
عنوان : جملاتی که شامل کلمات عنوان هستند امتیاز بالایی می گیرند
تکرار کلمات : کلماتی که در متن تکرار شده اند ، مهم تر از کلمات با تکرار کم هستند
عبارات نشانه : جملاتی که شامل عباراتی مانند "این سند" هستند.

اسلاید 15 :

چند قاعده براي ارزیابی جملات
داده هاي عددي : جملاتی که شامل هر نوع عدد باشند در مقایسه با بقیه ، امتیاز بیشتري می گیرند.
نام مناسب : انواع مشخصی از اسامی ، مانند نام افراد ، شهرها ، محل ها و .. در متون اخبار مهم هستند و جملاتی که این اسامی را شامل شوند امتیاز بیشتري می گیرند.

ضمیر : جملاتی که شامل ضمیر هستند (بازتابی از اتصالات هم ارجاعی) ، امتیاز بیشتري می گیرند.
روزهاي هفته و ماه ها : جملاتی که شامل نام روزهاي هفته و ما ه ها هستند ،، امتیاز بیشتري می گیرند.
نقل قول : جملاتی که شامل نقل قول هستند ، ممکن است براي سوالات ورودي توسط کاربر ، اهمیت داشته باشد.
اثر پرسش : هنگامیکه یک کاربر نیازمند یک متن خلاصه است، معمولا موضوع مشخصی را در ذهن دارد. پرسش کاربر خلاصه را از ان جهت مورد تاثیر قرار می دهد که متن استخراج شده ملزم به داشتن آن لغات است. امتیاز داده شده به جملات بر حسب تعداد کلماتی که در پرسش آمده ، نرمال می شود.
طول جمله : امتیازي که به جمله داده می شود بازتابی از تعداد کلمات در آن جمله است که با تقسیم بر طول طولانی ترین جمله در متن نرمال شده است.

اسلاید 16 :

لین در سال 1999 یک روش جدید براي تشخیص موضوع مرکزي در یک متن ، براساس الگوي شمارش مفهوم مبتنی بر دانش معرفی کرد. طبق نظریه او روشهاي تکرار کلمات که در بخشهاي قبل توضیح داده شد ، تنها شکل لغوي کلمات را درنظر می گیرد و از عمومی سازي هاي مفهومی صرف نظر می کند . به عنوان نمونه در جمله ي "او در حال مشاهده ستاره ها ، کهکشانها و سیاره ها و . ي زیبا بود ." ، موضوع اصلی کائنات است که این مسئله را به هیچ عنوان نمی توان از شمارش کلمات و سایر روشها نتیجه گرفت.

مفاهیم با استفاده از رده بندي عمومی سازي مفهوم WordNet)) قابل تعمیم هستند.
اگر در متن کلماتBWM, Toyota,Fiat آمده باشد ، می توانیم نتیجه بگیریم که متن در ارتباط با صنعت اتومبیل است
شمارش مفاهیم مبتنی بر دانش

اسلاید 18 :

در این مقاله موجودیت ها ، پاراگراف ها هستند نه جملات.
بصورت دستی ، برای دامنه کوچکی از مقالات خبری ، آنتولوژی را ایجاد می کند سپس از بر چسب درخت برای امتیاز دهی به پاراگراف ها استفاده می کند.
برای هر category یک فیلد امتیاز در نظر گرفته می شود. سپس تک تک پاراگراف ها با این درخت مقایسه شده و امتیاز هر دسته متناسب با پاراگراف ها ی مرتبط زیاد می شود.
category ایی که بیشترین امتیاز را کسب کند به عنوان topic اصلی انتخاب می شود.
سپس هر پاراگراف متناسب با این topic ، امتیاز دهی می شود.
پاراگراف های با بیشترین امتیاز انتخاب می شوند تا خلاصه به میزان کافی تولید شود.

اسلاید 19 :

واحد در این روش جمله می باشد
در این روش با استفاده از یک classifier جملات را به نودهای درخت آنتولوژی نگاشت می کنیم و با توجه به ویژگی های آنتولوژی، قادر هستیم تا نمایش مفهومی جملات را ارتقا دهیم و از آن بعنوان معیار مقایسه شباهت استفاده می شود.
classifier توسط یک search engine ، train می شود و محدود به دامنه خاصی نیست.
classifier به ما این امکان را می دهد که نودها را وزن دهی کنیم و topic را استخراج کنیم.
در این روش از آنتولوژی های از پیش تعریف شده مثل taxonomy ها استفاده می شود.
هر نود درخت آنتولوژی ، شامل کیفی از کلمات (bag-of-words) می باشد که توسط جستجو گر وب ساخته می شود و هر کدام دارای وزن می باشند.

اسلاید 20 :

در این مقاله ابتدا با استفاده از درخت دسته بندی open directory project (http://www.dmoz.org) یک taxonomy ایجاد می کنیم.
به دلیل حجم بالای محاسبات taxonomy را محدود به سه سطح اول درخت دسته بندی DMOZ می کنیم. این taxonomy حاوی 1036 عدد نود می باشد.

نودهای این taxonomy را با کیفی از کلمات وزن دار (tf-idf) پر می کنیم.
برچسب هر نود به همراه برچسب نود پدرش ، به عنوان search query به موتور جستجو گر yahoo داده می شود و نتایج اولین 20 وب سایتی که برگردانده شود، مورد پردازش قرار می گیرد.

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید