بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***


استخراج شباهت معنایی بوسیله سیستم استنتاج فازی در خلاصه سازی متن

چکیده:

یک رویکرد انسانشناختی در خلاصهسازی متن بوسیله استخراج شباهتهای معنایی جملهها با استفاده از سیستم استنتاج فازی ارائه شده است. برای ایجاد یک خلاصه تعدادی ویژگی از متن استخراج میشود که این ویژگیها در نهایت بیانگر جملههای مهم متن و میزان همبستگی و پیوستگی آنها خواهد بود . برای استخراج شباهت معنایی بین دو جمله از یک هستانشناسی به نام وردنت استفاده شده است. شباهت معنایی دوجمله بر اساس همپوشانی و ارتباط دوبدوی کلمهها در جملههای متن محاسبه شده است. برای یافتن میزان همبستگی و پیوستگی جملهها از چهار پارامتر دیگر نیز استفاده شده است که بیشتر بر اساس اطلاعات آماری متن محاسبه شدهاند. معمولا جملههای برجسته که شامل مفاهیم اصلی متن میباشند، در متن پخش شدهاند و این جملهها با قرار گرفتن در کنار یکدیگر زنجیرهای از جملهها را ایجاد میکنند که قویترین همبستگی را با هم دارند. پس از اینکه کارهای مقدماتی بر روی متن انجام شد و کلمههای غیرضروری و حروف اضافه حذف گردید، دستههایی از جملهها تشکیل شده و بر اساس ویژگیهای استخراج شده از متن، ارتباطهایی بین جملههای هر دسته شکل میگیرد. که منجر به ایجاد دنبالهای از جملههای برجسته به عنوان خلاصه میگردد. ایجاد ارتباط بین جملهها توسط یک سیستم استنتاج فازی صورت میپذیرد که ورودی آن ویژگیها و خروجی آن میزان ارتباط جملهها خواهد بود. نکته مهم این است که برای ترکیب این ویژگیها از خود زبان طبیعی استفاده شده است.

واژههای کلیدی: استخراج اطلاعات از متن، خلاصهسازی متن، سیستم استنتاج فازی، وردنت.

.1 مقدمه

1107


با گسترش روزافزون حجم اطلاعات موجود در وب و افزایش چشم گیر مقالات منتشر شده در زمینههای مختلف علمی، دسترسـی درست و مطالعه اطلاعات مورد نیاز، همواره یکی از مشکلات محققان و پژوهشگران قرن 21 میباشد. اینکه چه طور از یـک طـرف با این حجم انبوه از دادهها و از طرفی دیگر با زمان محدودی که در اختیار داریم، بتوانیم مطالب مورد نیاز خود را مطالعـه کنـیم و یا اینکه چه طور میتوان در روز چندین کتاب را مطالعه نمود و یا اینکه آیا میتوان سیستمی طراحی نمود که بتواند بـا دادههـای موجود به تمامی سوالات ما پاسخ دهد، اینها سوالاتی است که پاسخ آنها را می توان در یک سیستم خلاصـه سـاز مـتن جسـتجو کرد. بنابراین باید به دنبال روشی باشیم که انسان را در بهره برداری و استفاده بهتـر از اینگونـه اطلاعـات کمـک کنـد. بـه منظـور استفاده موثر و کامل از این اطلاعات، استخراج اجزای اصلی یا معنای کلی این اسناد در حجمی کمتر نسـبت بـه اطلاعـات اصـلی امری ضروری میباشد. خلاصه سازی خودکار سند، یعنی تولید یک نسخه مختصرتر از سند اصلی توسط یک برنامه کامپیوتری بـه نحوی که ویژگیها و نکات اصلی سند اولیه حفظ شود.

با توجه به مطالب فوق وجود سیستمی خودکار که توانایی خلاصه سازی متن را داشته باشد و انسـان را در تجزیـه و تحلیـل ایـن اسناد یاری کند بسیار مفید می باشد. سیستمهای خلاصه ساز در دنیای امروز کاربردهای فراوانی دارند. تولیـد خلاصـههـای کتـب مختلف و مقالات علمی، تولید خلاصه اخبار و انتقال آن از طریق سیستمهای نظیر تلفن همراه، نمایش خلاصـه سـند یافتـه شـده توسط موتور جستجو ، تولید سیستمهای پاسخ گویی به سوال و غیره همگی از کاربردهای این سیستم میباشند.

خلاصهسازی متن فرایندی امکان پذیر است زیرا به طور معمول در یک متن افزونگی رخ میدهد یعنی توضـیحاتی اضـافه وجـود دارد که میتوان آنها را خلاصه یا حذف کرد. همچنین اطلاعات مهم که در برگیرنده معنی و مفهوم اصلی متن میباشند نیز بهطور یکنواخت در سطح متن پخش نشدهاند. تعریف یکسانی برای مهم و برجسته بودن و همچنین افزونگی در مـتن وجـود نـدارد زیـرا انسانها دارای اطلاعات و علایق مختلفی میباشند، و ممکن است موضوعی برای شخصی بدیهی باشد در عین حال همـان مطلـب برای فرد دیگری از اهمیت خاصی برخوردار باشد. بنابراین یک قضاوت ثابت و پایدار در مورد کیفیـت یـک خلاصـه بسـیار سـخت است و این واقعیت ارزیابی خلاصهسازی را با مشکل مواجه ساخته است .[9]

در این مقاله یک روش خلاصه سازی متن با استفاده از [6]WordNet ارائه شده است. در این روش ابتدا پارگرافها و جملـههـای تشکیل دهنده متن مشخص شده و کلمه های غیرضروری و حروف اضافه حذف می شوند. سپس دستههایی از جملهها تشکیل شده و بر اساس یکسری از ویژگیهای معنایی و سطحی استخراج شـده از اجـزای مـتن و بـا اسـتفاده از یـک سیسـتم اسـتنتاج فـازی ارتباط هایی بین جمله های داخلی و خارجی تمام دسته ها شکل میگیرد که منجر به ایجاد دنبالهای از جملههای برجسته به عنوان خلاصه میگردد. پیوستگی بالا بین جمله ها یکی از مزایای اصلی این روش میباشد.

.2 مروری بر کارهای گذشته

در بسیاری از روشهای روشهای کلاسیک از مشخصهای همچون فرکانس تکرار برای کلمههای متن استفاده شده و براساس آن ها به جمله امتیاز داده می شود. به عنوان مثال مدل فضای برداری یکی از روش های معمول بـرای نشـان دادن یـک مـتن در فضـای برداری می باشد. در این مدل متن به صورت یک بردار از میزان تکرار اجزا یـا معکـوس تکـرار اجـزا نشـان داده مـی شـود. سـپس جمله هایی که اجزایشان بیشترین تعداد تکرار را دارند انتخاب شده و در خلاصه نهایی آورده میشـوند. در [10] مـدل تکـرار اجـزا برای خلاصه سازی متن در نظر گرفته شده است. روش هایی پیشنهاد شده در [18] و [17] بر این اساس است که اگر وزن هر کدام

1108


از اجزا و کلمه ها بدون در نظر گرفتن میزان برجستگی و اهمیت جملههای در برگیرنده آنها محاسبه شـود بـه خلاصـه مناسـبی منجر نخواهد شد. بنابراین بهتر است وزن هر کدام از اجزا را با در نظر گرفتن میزان مهم بودن جملههای آنها محاسبه شود.

در [5] روشی برای تشخیص جملههای مرکزی در یک متن بر اساس الگوی محاسبه مفاهیم بر اساس دانش ارائـه کـرد. بـرعکس روشهای فرکانس تکرار کلمهها که فقط شکل لغوی کلمهها را در نظر می گیرند و ارتباط با مفهوم متن را از دست میدهنـد، در این روش مفاهیم با استفاده یک پایگاه دانش مانند WordNet بصورت سلسله مراتبی مشخص میشوند.

بعضی از روشهای خلاصهسازی براساس گزینش، بر روی کلمات کلیدی تکیه دارند که اصطلاحاً به آن »جان کلام« گفته میشود. »جان کلام« در حقیقت به موضوع اصلی مورد نظر نویسنده و یا مفهوم اصلی که خواننده از متن درک میکنـد، گفتـه مـیشـود و ممکن است برای یافتن آن در متن از یک پایگاه داده خارجی نیز استفاده شود .[14] اگر از روشهای آماری ساده اسـتفاده کنـیم »جان کلام « مهمترین قسمت از یک متن را تشکیل می دهد که به وسیله یک جمله بیان می شود. در حقیقت میتوان گفت » جان کلام« یک راهنما برای یافتن سایر جمله های مناسب برای خلاصه می باشد. سایر جملهها به خلاصه اضافه می شوند در صورتی کـه میزان همبستگی لازم با »جان کلام« را داشته باشند .[15]

در [2] و [4] یک روش خلاصه سازی متن با استفاده از یک سیستم استنتاج فازی مطرح شـده اسـت کـه در ایـن روش از منطـق فازی برای اندازهگیری درجه برجستگی و همچنین مشخص کردن جملههای مهم برای ایجاد خلاصه، استفاده شده است. در [3] و [19] روشی بهینه برای خلاصه سازی متن با استفاده از سیستم استنتاج فازی پیشنهاد شده است که توابع عضویتی که در سیستم فازی ان که برای انتخاب جمله های متن به کار رفته است، توسط الگوریتم ژنتیک بهینه شده و جوابهای قابل قبولتری نسبت به [4] در بر داشته است.

در بسیاری از روش های خلاصهسازی سعی بر این است که ارتباط معنایی بین کلمهها در متن کشف شـده و بـا اسـتفاده از روابـط بین کلمهها ، جملههای مناسب انتخاب شده و در خلاصه نهایی قرار بگیرند .[5] یکی از راههای مشخص کردن ارتباط بـین لغـات استفاده از پایگاه داده لغوی مانند WordNet میباشد. WordNet یک پایگاه داده لغوی بزرگ از است لغات انگلیسی. ایـن بانـک اطلاعاتی اسم ها، فعل ها، صفت ها و قیدها را به مجموعه ای از لغات مترادف دسته بندی مینماید که هر دسته یـک مفهـوم مجـزا را بیان می کند. شبکه بدست آمده که شبکه ای است از لغات و مفاهیم مرتبط از لحاظ معنایی، می تواند توسـط مرورگرهـا پیمـایش شود. به علاوه وردنت به صورت رایگان و برای عموم در دسترس و قابل بارگذاری است. ساختار وردنت از آن یک ابزار مفید جهـت زبان شناسی محاسباتی و پردازش زبان طبیعی بوجود آورده است.

ارتباطهای بین کلمهها را میتوان به دو دسته تقسیم کرد. دسته ی اول به Syntagmatic یا نحوی لغوی معروف اسـت. ایـن نـوع ارتباط به ساختار نحوی جمله ها بستگی دارد و بیان می کند که مثلا کدام کلمه باید قبل یا بعد از کلمه ی دیگر قرار گیرد. این نوع ارتباط با استفاده از ساختار های پیچیده ی گرامری در زبان طبیعی انجام می پذیرد. دسـته ی دوم بـه Paradigmatic یـا معنـایی لغوی معروف است و بر مبنای مفاهیم معنایی که به نوبهی خود به ارتبـاط هـایی ماننـد Synonym، Hypernym و غیـره منجـر می شوند. که Synonym عبارت است از کلمه های که هم معنی کلمه هایی هستند که در یک حوزه ی خاص، معنای یکسانی دارند. در واقع آن ها پایه و اساس واحد معنایی WordNet یعنی synset ها را تشکیل مـی دهنـد و Hypernym بصـورت ارتبـاط بـین Synset ها تعریف میشود. بطور خاص، اگر s1 و s2 دو Synset باشند، میگوییم s1 یک Hypernym از s2 است، اگر معنـای

1109


s1، معنای s2 را رده بندی کند، به عبارت دیگر، s1 ابرکلاس s2 باشد. با استفاده از این مفاهیم می توان ارتباط های مابین کلمه هـا و در نهایت جملهها را پیدا کرد و جملههای مهمتر را از بین آنها انتخاب کرد.

.3 روش پیشنهادی

خلاصهسازی متن یکی از کارهایی است که انسانها به بهترین شکل ممکن قادر به انجام ان هستند پس بهتر است سعی کنـیم تـا حدودی راه و روش انسان را شبیه سازی کنیم. انسان ها برای مشخص کردن میزان مهمی جملههـا بـه جـای اسـتفاده از اعـداد از کلمهها استفاده میکنند و کلمههای نظیر خوب یا ضعیف را برای دادن ارزش به جمله ها به کار میبرند. بای ایـن منظـور از یـک سیستم استنتاج فازی بهره گرفته ایم. همچنین انسان ها برای خلاصهسازی متن از حافظه خود و از روابط معنایی که در ذهـن انهـا شکل گرفته استفاده می کنند بنابراین اگر بخواهیم به شکلی روش انسان را در خلاصهسـازی دنبـال کنـیم نیـاز بـه کشـف روابـط معنایی بین کلمه ها داریم. و یکی از فاکتورهای که باید در نظر گرفته شود میزان ارتباط معنایی بین کلمه های متن می باشـد کـه برای شبیه سازی این قضیه از وردنت استفاده کردهایم. نکته ای دیگـر کـه بایـد مـورد توجـه قـرار داد ایـن اسـت کـه معمـولا در روشهای خلاصهسازی مبتنی بر گزینش خلاصه بر اساس یافتن مهمترین اجزای متن و گـرداوری انهـا در کنـار یکـدیگر شـکل میگیرد. اما به دلیل انکه معمولا سندهایی که به عنوان متن ورودی سیستمهای خلاصهساز مطرح مـیباشـند، بـه نحـوی توسـط انسان تولید شدهاند، میتوان گفت که یک زنجیره از جملهها در متن وجـود دارد کـه مفهـوم و مقصـود اصـلی نویسـنده را در بـر میگیرند و سایر جملهها در سایه این زنجیره قرار میگیرند. بنابراین برای ایجاد خلاصه فقط یافتن مهمترین اجـزای مـتن کـافی نمی باشد و باید به پیوستگی جملهها بیشتر توجه داشت.

بنابراین در این مقاله با تقلید از شیوه انسان در خلاصه سازی متن روشی فازی پیشنهاد شده است که برای ایجاد خلاصه به جـای پیدا کردن مهمترین جملهها، دنبالهای از جملهها در کل متن انتخاب شوند که دارای ارتباطی قوی با هـم و همچنـین بـین انهـا همبستگی بیشتری داشته باشند. حال ممکن است هر یک از این جملههای زنجیره به تنهایی در کل متن مهم نباشند ولی با قـرار گرفتن در زنجیرهای از جملهها بتوانند باعث ایجاد خلاصه ای از متن شوند که منظور اصلی نویسنده دا در خود جای داده باشد. در حقیقت در این روش مجموعه ای جملهها انتخاب می شوند که با هم و در کنار هم خلاصه را تولید و مفهوم متن را در مـیگیرنـد. در نتیجه مبنای روش پیشنهادی ما یافتن زنجیرهای از جملهها می باشد که قویترین همبستگی را با هم داشته باشند. برای یافتن این همبستگی از چهار پارامتر سطحی و یک پارامتر معنایی استفاده کرده ایم. پارامترهای سطحی با استفاده از تکنیک های آمـاری در متن و پارامتر معنایی با استفاده از پایگاه داده لغوی WordNet محاسبه شده اسـت. در روش ارائـه شـده مـتن را بـه دو دیـد بیرونی و دید داخلی تقسیم بندی کردهایم. در دید بیرونی متن به پاراگرافها تقسیم بندی میشود و در دید داخلی هـر پـاراگراف به مجموعهای از جملهها تقسیم میشود و اعضای داخلی هر پاراگراف را تشکیل میدهند. در ادامه روش بدست آوردن پارامتر ها و در نهایت ایجاد خلاصه آمده است.

.3.1 انتحاب پارامترها

یکی از مهمترین فاکتورها در ایجاد یک خلاصه مناسب انتخاب پارامترهای مناسب و محاسبه آنها می باشد. به همین دلیل در ایـن مقاله از شباهت معنایی جمله ها، میزان نزدیکی جملهها به اول یا اخر پاراگراف، تعداد کلمههـای مشـترک بـین اجـزای جملـههـا،


1110


میزان فاصله پاراگرافها از یکدیگر و تعداد کلمههای کلیدی مشترک بین اجزای جملهها اسـتفاده شـده اسـت. ایـن پـنج پـارامتر بصورت زیر محاسبه می شوند:

· محاسبه شباهت دو جمله بر اساس میزان شباهت دوبدوی کلمه ها (Sentences Similarity)

شباهت معنایی بین دو جمله معیاری برای مشخص کردن میزان تشابه دو جمله از لحاظ معنا میباشد. هر چه اندازه و مقـدار ایـن معیار برای دو جمله بیشـتر باشـد، آن دو جملـه شـباهت معنـایی بـالاتری دارنـد. بـرای محاسـبهی شـباهت دو کلمـه از مفهـوم Hypernym در WordNet استفاده کردهایم. برای اندازهگیری میزان شـباهت دو کلمـه از گـراف غیـر جهـتدار ( Undirected (Graph استفاده می کنیم که این گراف در حقیقت یک طبقه بندی است که از طریق WordNet ایجاد می شود. روش کار به ایـن شکل است که برای هر کلمه به طور سلسله مراتبی با توجه به فعل یا اسم بودن کلمه ی مورد نظر، Hypernymهای کلمهها را در نودهای دو گراف قرار میدهیم. پس از ایجاد گراف ها، برای دو کلمه از دو جملـه تعـداد نودهـایی را کـه تـا رسـیدن بـه یـک نـود مشترک درگراف هایشان وجود دارد را شمارش می کنیم. فاصله نودهای گراف (که همان Synsetهـا در WordNet هسـتند) مـی تواند معیاری برای شباهت معنایی دو کلمه باشد. هر چه این فاصله کمتر باشد آن دو کلمه شباهت بیشتری خواهند داشت .

پس از یافتن اندازه شباهت ها بین اجزای جمله ها باید شباهتهای معنایی دوبدوی جملههـا را محاسـبه کنـیم. بـرای ایـن کـار دو جمله را به صورت یک گراف دوقسمتی (Bipartite Graph) در نظر میگیریم که نودهای هر قسمت همان کلمـههـای جملـههـا هستند و یال های آن ها میزان شباهت کلمه ها می باشد. شکل (1) مثالی است از یک گراف دوقسمتی برای جملـهی X کـه شـامل پنج کلمه و جملهی Y که شامل چهار کلمه میباشد.


شکل(:(1 گراف دوقسمتی برای دوجمله X و Y

پس از ایجاد گراف دوقسمتی حداکثر مجموع وزن مابین نودهای گراف دوقسمتی را محاسبه کرده و به عنـوان میـزان شـباهت دو جمله از لحاظ معنایی در نظر میگیریم.

· میزان نزدیکی جملهها به اول یا اخر پاراگراف

1111


معمولا جملههای اول و اخر هر پاراگراف شامل نکات مهمتری نسبت به سایر جملهها میباشند. بنابراین اگـر اجـزای پـاراگرافهـا جزء جملههای اول و اخر هر پاراگراف باشند داری ارتباط قویتری نسبت به سایر جملهها میباشند. ارتباط جملههای هر پاراگراف با سایر پاراگرافها به صورت زیر محاسبه میشود:

A(Pij Pmn ) (1)
m XPij XPmn i
که در ان محل نسبی قرار گرفتن جملههای j و n در پاراگراف های i و m می باشند و این مقدار برای جمله
XPij و XPmn
j از پاراگراف i بصورت زیر محاسبه میشود:
(2)
(3)
که iCP در رابطه (2) مرکز پاراگراف i می باشد و بصورت زیر تعریف میشود:

(4)

و XPij در رابطه (2) و (3) مکان قرار گرفتن جمله j در پاراگراف i و ni برابر با تعداد جملههای پاراگراف i میباشد.

· تعداد کلمههای مشترک بین اجزای جملهها

اجزایی از پاراگرافها که کلمههای مشترک بیشتری داشته باشـند دارای همبسـتگی و ارتبـاط قـویتـری نسـبت بـه سـایر اجـزا میباشند. برای بدست آوردن میزان این ارتباط جملههای هر پاراگراف به کلمهها تقسیم میشوند و پس از انجام اعمال مقـدماتی و حذف کلمههای اضافه، بصورت دوبدو تعداد کلمه های مشترک بین جملـههـای هـر پـاراگراف را بدسـت مـی آوریـم. بـرای اینکـه جملههای بلند شانس بیشتری نسبت به جملههای کوچک نداشته باشند تعداد کلمههای مشـترک دو جملـه را بـر میـانگین کـل تعداد کلمههای آن جمله ها تقسیم میکنیم. این پارامتر بصورت زیر تعریف میشود:

(5)
که در آن F (Pij , Pmn ) میزان ارتباط بین جملههای j و n از لحاظ کلمههای مشترک و N jn (w) تعداد کلمههـای مشـترک
جملههای j و n از پاراگرافهای i و m و همچنین ni و nm برابر با تعداد جملههای این پاراگرافها میباشند.

· تعداد کلمههای کلیدی مشترک بین جملهها


1112


جملههای از پاراگرافها که تعداد کلمههای کلیدی مشترک بیشتری دارند و یا اینکه شامل کلمههای به کار رفته در عنـوان مـتن میباشند دارای اهمیت و همبستگی بیشتری نسبت به سایر جملهها میباشند. پس از مشخص کـردن کلمـههـای کلیـدی مـتن و کلمههای موجود در عنوان، میزان تشابه دو به دو بین جملهها را بدست میاوریم. کلمههای کلیدی کلمـههـایی هسـتند کـه وزن تکرار انها در متن از سایرین بیشتر باشد. برای بدست اوردن میزان تشابه دو جمله از لحاظ کلمههای کلیدی به صـورت زیـر عمـل میشود:

i m ( N jn (
w (Pij , Pmn ) (6)
F
nm ni

که در ان (Pij , Pmn ) میزان ارتباط بین جملههای و n از لحاظ کلمههای کلیدی و ( N jn ( تعداد کلمـههـای مشـترک
F j
w
کلیدی یا عنوان در جملههای j و n و همچنین ni و nm برابر با تعداد جملههای پاراگرافهای i و m میباشند. ضـریبی
است که برای این پارامتر بدلیل میزان مهمی ان در نظر گرفتهایم و مقدار ان در سیستم 1/5 منظور شده است.

· میزان فاصله پاراگرافها از یکدیگر

در یک متن پاراگرافهای نزدیک به یکدیگر دارای ارتباط قویتری نسبت به سایر پارگرافها می باشند و به همین ترتیـب اجـزای تشکیل دهنده این پارگراف نیز دارای ارتباط قویتری نسبت به یکدیگر میباشند. که این ارتباط به صورت زیر محاسبه میشود:

i m 1 D(Pi , Pm ) (7)
i m

که در آن ( D(Pi , Pm میزان ارتباط اجزای پاراگرافهای i و m از لحاظ میزان فاصله نسبت به یکدیگر میباشد.

.3.2 سیستم استنتاج فازی

پارامترهایی که در بخش قبل محاسبه شدند را باید برای یافتن میزان همبستگی بین دو جمله با هـم ترکیـب کنـیم و عـددی بـه عنوان مقدار نهایی همبستگی تولید شود. اما مسئله مهم این است که ترکیب این پارامترها به چه شکلی صورت بپذیرد.

روشی که ما در این پژوهش برای ترکیب پارامترهای ورودی و رسیدن به پارامتر خروجی به کار بردهایم، اسـتفاده از یـک سیسـتم استنتاج فازی و استفاده از دانش افراد خبره میباشد. قوانین حاکم بر یک سیستم استنتاج فازی به این ترتیب است که متغیرهـای دنیای واقعی را به عنوان ورودی دریافت و با استفاده از قوانین و عملگرهای فازی به متغیرهای زبانی و معنـایی تبـدیل مـیکنـد و سرانجام خروجی سیستم فازی نیز بر اساس زبان دنیای واقعی تفسیر و ترجمه میشود.

یکی از مزیتهای سیستم استنتاج فازی این است که می توان از دانش افراد خبره که بـه زبـان طبیعـی بیـان مـی شـود در ایجـاد سیستم استفاده کرد. پارامترهایی را که در مراحل قبل از متن استخراج شدهاند را با استفاده از قوانینی که توسـط افـراد خبـره در این زمینه ایجاد شده اند با یکدیگر ترکیب شده و خروجی مورد نظر ما که همان میزان همبستگی بین دو جمله میباشد را تولیـد میکند.


1113


نکته مهم این است که برای ترکیب این پارامترها که متنهایی به زبان طبیعی هستند از خود زبان طبیعی استفاده شده اسـت. در صورتیکه شاید به راحتی و با استفادهی تنها از روابط و فرمولهای ریاضی مانند میانگینگیری و میانگین وزنـی نمـیتوانسـتیم بـه طور موثر و انگونه که باید، پارامترها را ترکیب و به نتیجهی مناسبی دست یابیم. دلیل این مسـئله همـان عـدم قطعیـت و فـازی بودنی است که در زبان طبیعی وجود دارد و بهترین راه برخورد با ان خود زبان طبیعی و قوانین و قواعدی است که از ان سرچشمه گرفته باشند، میباشد. برای ایجاد سیستم استنتاج فازی به قواعدی نیاز داریم که نحوه نگاشت ورودی به خروجی را مشحص کنند و این قواعد قلب سیستم فازی را تشکیل میدهند.

در این سیستم پنچ پارامتر ورودی وجود دارد که برای توابع عضویت مربوط به پارامترهای ورودی از توابع عضویت مثلثی اسـتفاده شده است. مجموعههای فازی در نظر گرفته شده برای پارامترهای ورودی شبیه به یگدیگر میباشند. به عنوان مثال بـرای پـارامتر مربوط به کلمههای کلیدی، مجموعههای فازی خوب، متوسط و بد ایجاد شده است. جدول((1 پارامترهای ورودی و مجموعـههـای فازی مربوط به آنها را نشان میدهد.


جدول :(1) مجموعههای فازی برای پارامترهای ورودی

پارامتر ورودی

تعداد کلمههای کلیدی مشترک بین جملهها تعداد کلمههای مشترک بین اجزای جملهها میزان نزدیکی جملهها به اول یا اخر پاراگراف میزان فاصله پاراگرافها از یکدیگر

شباهت معنایی

مجموعه فازی

صقشعف-فطپشسسهف-فطثف ف صقشعف-فطپشسسهف-فطثف ف صقشعفوفطپشسسهف-فطثف ف صقشعف-فطپشسسهف-فطثف ف صقشعف-فطپشسسهف-فطثف ف

شکل((2 تابع عضویت مربوط به پارامتر ورودی "تعداد کلمههای کلیدی مشترک بین جملهها " را نمایش میدهد.

شکل(:(2 تابع عضویت مربوط به کلمههای کلیدی

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید