بخشی از مقاله

چکیده

دادهکاوی، شناسایی و پردازش اطلاعات مفید از اسناد میباشد که اساس آن بر مدل نمایش مفهومی اسناد، محاسبهی شباهت بین اسناد و استفاده از آنها در خوشهبندی و دستهبندی اسناد، بازیابی و استخراج اطلاعات استوار است. در این مقاله روش نوینی برای نمایش آنتولوژیکال اسناد به صورت سلسله مراتبی ارائه شده است. با توجه به آنتولوژی دامنهی مورد نظر، گراف مفهومی از سند ایجاد میشود که نودهای آن بیانگر مفاهیم و اوزان آنها بیانگر اهمیت مفهوم در سند مربوطه میباشند.

جهت یالهای گراف نشان-گر ساختار سلسله مراتبی سند و اوزان یالها بیانگر میزان این رابطه در سند است. با فراهم بودن آنتولوژی و پایگاه دادهی مناسب از لغات هر زبان میتوان گفت این روش مستقل از زبان میباشد. نتایج حاصل از این روش به گرافهای مفهومی ترسیم شده توسط کارشناسان دامنه مورد نظر نزدیک میباشد و از دقت بالایی برخوردار هستند. استفاده از این روش در بهبود محاسبهی شباهت بین اسناد و نتایج نهایی دادهکاوی تاثیر بسزایی دارد.

-1 مقدمه

حل مشکل بازیابی بیش از حد اطلاعات، نیازمند بهبود و توسعهی روشهای موثر کاووش اطلاعات موجود در اسناد است. دارا بودن یک مدل نمایش مفهومی مناسب برای اسناد، اولین گام در روال کاووش است. اکثر سیستمهای کاووش اسناد موجود، محدودیتهایی در ارائهی خروجیهای بامعنی نشان دادهاند. جمعآوری، مدیریت و سازمان دهی در این سیستمها بر نمایش اطلاعات ضعیف در عوض سطوح دانش بالاتر استوار است. در این نوع سیستمها تمرکز بر فهم محتوای اسناد کم بوده و از مجموعهای از لغات و کلمات کلیدی برای کاووش متون استفاده میگردد. برای بهبود سیستمهای موجود مضمون هر سند باید به درستی درک شود و بر اساس این شمای دریافتی کاووش صورت پذیرد.

سیستمهای کاووش اسناد مبتنی بر مفهوم بر آنالیز محتوای اسناد استوار میباشند. در نتیجه نمایش مبتنی بر معنی متون و استفاده از آنها در اندازهگیری شباهت یا فاصلهی بین اسناد از نکات اساسی و اصلی است. در این سیستمها مفهوم اسناد با توجه به ساختار آنها، دامنه و استدلال عبارات- کلمات، حاصل میشود. روالهای کاووش همانند خوشهبندی و دستهبندی اسناد و بازیابی اطلاعات با استفاده از اینگونه نمایشهای مبتنی بر مفهوم، روالهای کاووش مبتنی بر معنا نامیده میشود. خروجی اینگونه سیستمها نتایج بامعنیتری از سیستم-های قبلی میباشد .[1] سیستمهای کاووش اسناد مبتنی بر مفهوم با توجه به میزان درک مفهوم هر سند و تلاش برای یافتن فاصلهی واقعی بین اسناد دارای کاراییهای متفاوتی میباشند.

چارچوب این مقاله روشی جدید در تولید یک گراف مفهومی از اسناد بر اساس آنتولوژی دامنه مورد نظر است. بر اساس این نمایش میتوان یک معیار اندازهگیری شباهت جدید تعریف نمود تا سطوح مشترک و اختلاف اسناد به طور دقیقتری شناسایی شوند و در نهایت دقت پروسههای کاووش اسناد مبتنی بر مفهوم و آنتولوژی را بهبود داد. در ادامهی مقاله در بخش 2 و 3 به ترتیب به مروری بر مدلهای نمایش اسناد و    روش پیشنهادی پرداخته شده است. ارزیابی روش پیشنهادی و کارهای آتی و    نتیجه گیری در بخشهای 4 و 5 بیان گردیدهاند.

-2 مروری بر مدلهای نمایش اسناد

مدلهای مرسوم نمایش اسناد بر اینکه آیا یک سند شامل یک کلمهی خاص خواهد بود یا خیر و فرکانس وقوع کلمه استوار میباشند. برای مثال در مدل فضای بردار [2,3,4,5] اسناد با بردارهایی که شامل فرکانس وقوع همه-ی کلمات ممکن در مجموعه اسناد است، نمایش داده میشوند. ویژگیهایی که برای نمایش اسناد مطابق با اهمیتشان انتخاب میگردند با معیارهایی نظیر فرکانس سند- معکوس فرکانس سند، بهرهوری اطلاعات، اطلاعات متقابل و طول عبارات بیان میشوند .[2,6] قبل از انتخاب ویژگیها، پیش پردازشهایی نظیر حذف کلمات نویزی و ریشهیابی کلمات [7,8] نیز اعمال میگردد.

با توجه به استفادهی گسترده از رویکردهای مبتنی بر کلمه برای نمایش اسناد، سیستمهای کاووش اسناد مربوطه فاقد کارایی مناسب میباشند. این رویکردها اسناد را به صورت کیسهای از کلمات بدون در نظر گرفتن معنی و مفهوم آنها نمایش میدهند. در نتیجه در مرحلهی محاسبهی شباهت بین اسناد، سیستم تنها به بررسی وقوع کلمات در اسناد و نه معانی آنها خواهد پرداخت که باعث میشود شباهت دو سند با زمینههای یکسان به دلیل نداشتن کلمات مشترک، بسیار کم و شباهت اسنادی با زمینههای مختلف، با داشتن کلمات مشترک متعدد، زیاد تقریب زده شود.

[1] تلاشهایی برای بهبود نمایش متون صورت گرفته است. روشهایی با استفاده از کلمات کلیدی همانند استفاده از [9] N-grams، مجموعهای از [10] bigrams که از پنجرههای لغزان برای حرکت روی متون و استخراج عبارات ترکیبی استفاده مینمایند. روش دیگر [11-13] LSI میباشد که روابط معنایی بین کلمات را از طریق روابط آمار و احتمال و تجزیهی SVD ماتریس سند-کلمه استخراج مینماید. در [14-16] الگوریتمهای یادگیری برای نگاشت جملات به نمایش مفهومی ارائه شده است.

روشهای نوینتر از دانش پسزمینه - دامنه - استفاده مینمایند. آنتولوژی مفاهیم، روابط، محدودیتها و قیود مشخص در یک دامنه را شامل میشود و به عبارتی بیانگر دانش موجود در دامنه است. آنتولوژیها میتوانند برای افزایش توانایی استدلال راجع به متون زبان طبیعی استفاده گردند .[17] اخیرا توجه زیادی به پردازش زبانهای طبیعی مبتنی بر آنتولوژی شده است. که از تلاش برای تعریف نمایش مفهومی مبتنی بر آنتولوژی [18] آغاز گردیده تا در نهایت بتوان از منابع آنتولوژیکال در رویکردهای پردازش زبان [19] استفاده نمود.

در نمایشهای مفهومی با استفاده آنتولوژی، هر کلمه به مفهوم سطح بالاترش در آنتولوژی نگاشت میشود و دنبالهای از مفاهیم مجددا بررسی خواهند شد .[1] بنابراین نکتهی کلیدی در نمایش آنتولوژیکال نگاشت کلمات به مفاهیم متناسب با دامنه در آنتولوژی است. در [20] یک نمایش مفهومی مبتنی بر آنتولوژی ارائه شده است که معنی هر متن را به یک گراف بدون حلقهی مستقیم نگاشت میکند. در [21] پس از ساختن آنتولوژی دامنه مورد نظر، سیستم با مجموعهای از اسناد آموزش داده میشود و جملات برچسب گذاری میشوند. پس از آن کارشناسان دامنه، کلمات را به مفاهیم آنتولوژی نگاشت میکنند. به کمک این مجموعهی آموزشی میتوان نمایش مفهومی مجموعهی اسناد تست را نیز ساخت.

-3 روش پیشنهادی

روش ارائه شده در این مقاله به تولید یک گراف وزندار آنتولوژیکال می-پردازد. با توجه به مضمون و مفهوم اسناد، مفاهیم اصلی شناسایی میشوند و با توجه به اهمیتشان در سند اوزانی دریافت میکنند. سپس ساختار مفهومی سند شناسایی میگردد و مفاهیم شناسایی شده در مرحلهی قبل با توجه به این ساختار با یالهای جهتدار و وزنداری به یکدیگر متصل میگردند. در ادامه روش پیشنهادی با جزئیات بیشتری مطرح میگردد.

-1-3 پیش پردازش اولیه

یک پاراگراف مجموعهای از چند جمله است که راجع به یک مفهوم خاص بحث مینماید. اساس روش پیشنهادی با توجه به این نکته میباشد. در مرحلهی پیش پردازش، پاراگرافها واحدهای پردازشی میباشند. ابتدا متن به پاراگرافهایش تجزیه میگردد. سپس برای هر پاراگراف عملیات پیش-پردازشی نظیر نشانهگذاریی، حذف کلمات نویزی و ریشه یابی صورت می-گیرد. در نهایت برای هر پاراگراف دو مجموعه از نشانهها نگهداری میگردد: مجموعهی نشانههای اصلی و مجموعهی ریشهیابی شدهی نشانههای اصلی.

-2-3 نگاشت کلمات به مفاهیم آنتولوژی

به منظور استخراج اطلاعات از آنتولوژی، آنتولوژی از فایل OWL استخراج میشود و در یک پایگاه داده رابطهای ذخیره میگردد. جدول ایجاد شده به چندین جدول کوچکتر شامل کلاسها، نمونهها، ماتریس کلاس- کلاس و ماتریس کلاس- نمونه تبدیل میگردد. ماتریس کلاس- کلاس شامل تعداد روابط بین هر دو جفت از کلاسها میباشد. ماتریس کلاس- نمونه مشخص مینماید که یک نمونه به چه کلاسهایی متعلق میباشد. با استفاده از دیکشنری معکوس [22] ONELOOKE جدول دیگری از مفاهیم - کلمات ساخته شده است. به ازای مفاهیم موجود در آنتولوژی، یکصد کلمهی مرتبط با هر کدام از این مفاهیم از دیکشنری معکوس یافت میشود. کلمات استخراج شده از دیکشنری مجددا توسط کارشناسان دامنه بررسی میشوند و مرتبطترین کلمات انتخاب میگردند.

برای نگاشت کلمات به مفاهیم، با توجه به مفاهیم موجود در آنتولوژی، تا چندین سطح از نشانهها بررسی میگردد. در ابتدا مفاهیم مستقیم بررسی میشود. منظور از مفاهیم مستقیم مفاهیمی میباشند که عبارت - نشانه - موجود در سند، مفهومی در آنتولوژی است. برای مفاهیم مستقیم تا دو سطح از فرزندان و پدران مفهوم یافت شده نیز در نظر گرفته میشوند. به این مفاهیم، مفاهیم غیر مستقیم نوع 1 گفته میشود. اگر عبارت جزء مفاهیم مستقیم نبود به عنوان یک نمونه بررسی میگردد که در این صورت تا دو سطح از پدران این نمونه نیز به مجموعهی مفاهیم غیر مستقیم-1 - مفاهیم غیر مستقیم نوع - 1 اضافه میگردند.

در صورتی که عبارت مورد نظر مفهوم مستقیم یا نمونه نبود مفاهیم غیر مستقیم نوع 2 - مفاهیم غیر مستقیم- - 2 بررسی میشوند. این نوع مفاهیم غیر مستقیم از جستجو در جدول مفاهیم-کلمات حاصل میشوند. در نهایت برای هر پاراگراف مجموعهای از مفاهیم مستقیم و غیر مستقیم نوع 1و2 با تعداد دفعات ارجاع به آنها در پاراگراف مربوطه و فاصله عبارت تا آن مفهوم وجود خواهد داشت. همچنین برای هر مفهوم تعداد دفعاتی که به عنوان والد یا فرزند انتخاب شده است نیز در نظر گرفته میشود.

-3-3 رفع ابهام از مفاهیم

در بخش قبل به مفاهیم غیر مستقیم نوع 1و2 اشاره شد. مشکلی که ممکن است در رابطه با این مفاهیم پیش آید ابهام است. یک مفهوم مستقیم ممکن است چندین والد یا فرزند به عنوان مفهوم غیر مستقیم نوع 1 داشته باشد. همچنین یک کلمه ممکن است متناظر با چندین مفهوم باشد. در کلیهی این حالات مشکل ابهام پیش میآید. روشی که برای رفع ابهام در این مقاله پیشنهاد شده است بدین ترتیب است که با توجه به سایر مفاهیم مستقیم و غیر مستقیم غیر مبهم هر پاراگراف، مفاهیم مبهم پاراگراف رفع ابهام میشوند و مناسبترین مفاهیم انتخاب میگردند. روش رفع ابهام بدین ترتیب است که ابتدا اهمیت مفهوم مبهم مشخص گردد. فرمول - 1 - اهمیت مفهوم مبهم را مشخص میکند که oc.counter تعداد دفعات ارجاع به این مفهوم، oc.tag تعداد دفعاتی که این مفهوم به صورت مبهم شناسایی شده و oc.distance فاصلهی این مفهوم غیر مستقیم مبهم تا مفاهیم مستقیم اصلی است.

نتایج حاصل از فرمول - 2 - و - 3 - با یکدیگر جمع می شوند، اگر مقدار به دست آمده از یک آستانه بیشتر بود از این مفهوم رفع ابهام میشود در غیر این صورت مفهوم مورد نظر حذف میگردد. اگر نسبت مفاهیم رفع ابهام شده به کل مفاهیم مبهم پاراگراف از یک آستانه مشخص کمتر باشد مفاهیم غیر مبهم یک پاراگراف قبل و یک پاراگراف بعد نیز بررسی میشوند و راجع به مفاهیم مبهم پاراگراف فعلی تصمیم گرفته میشود. این امر سبب میشود اگر پاراگراف فعلی از لحاظ مفاهیم غیر مبهم ضعیف باشد مفاهیم بیسبب حذف نشوند و با دقت بیشتری بررسی گردند.

-4-3 استخراج ساختار سلسله مراتبی سند

پس از انجام مراحل فوق در نهایت برای هر پاراگراف مجموعهای از مفاهیم مستقیم و غیر مستقیم و اطلاعاتی راجع به آنها در دسترس است. مرحلهی آخر وزندهی به مفاهیم و ترسیم شمای گراف سند است. برای وزن دهی به مفاهیم سند، برای هر پاراگراف، تعداد ارجاعات هر مفهوم به تعداد کل ارجاعات نوع مفهوم مورد نظر در پاراگراف تقسیم میشود. به دلیل اهمیت کلیهی مفاهیم مستقیم در مضمون سند این مفاهیم با ضریب 0.9 و برای سایر مفاهیم موجود در پاراگرافها ضریب 0.7 در نظر گرفته میشود. پس از محاسبهی اوزان مفاهیم برای هر پاراگراف، اوزان مفاهیم برای کل سند محاسبه می-گردد که از میانگین اوزان مفاهیم در پاراگرافها حاصل میشود.

پس از آن مفاهیم مستقیم و نمونههایی که در سند بودهاند انتخاب میگردند و به کمک ماتریسهای کلاس- کلاس و کلاس- نمونه، روابط بین آنها استخراج میگردد. بنابراین نودهای گراف و اوزان مربوط به آنها ایجاد شده است. پس از آن مفاهیم مستقیم و نمونههایی که در سند بودهاند انتخاب میگردند و به کمک ماتریسهای کلاس- کلاس و کلاس-نمونه، روابط بین آنها استخراج میگردد. بنابراین نودهای گراف و اوزان مربوط به آنها ایجاد شده است.

به منظور ترسیم یالهای گراف و محاسبهی اوزان آنها، کلیهی مفاهیم غیر مستقیم-2 به صورت مفهوم مستقیم در نظر گرفته میشوند و مفاهیم غیر مستقیم-1 که همنام با مفاهیم مستقیم میباشند، بررسی میگردند. اگر این مفاهیم غیر مستقیم همنام به عنوان فرزند انتخاب شده باشند بنابراین جهت یالها باید از مفاهیم مستقیم پدر این مفهوم به مفهوم مستقیم مورد نظر باشد. اگر مفاهیم غیر مستقیم به عنوان پدر انتخاب شدهاند، جهت یالها باید از فرزندان مستقیم این مفهوم به مفهوم مربوطه باشد. برای محاسبهی اوزان نظیر یالهای ترسیم شده در گراف، از ماتریس روابط ایجاد شده استفاده میشود. 

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید