بخشی از پاورپوینت
اسلاید 1 :
بِسْمِ اللهِ الرَّحْمنِ الرَّحيمِ
اسلاید 2 :
موضوع تحقيق : آنتولوژی(Ontology) - مجوزهای نرم افزاری (Licence)
اسلاید 3 :
فهرست مطالب بخش اول :
چکیده
مقدمه
تعاریف
اهمیت و ضرورت
سخن صاحب نظران
روش تحقیق
روش انجام کار
یک مثال تجاری از آنتولوژِی
نتایج تحقیق
اسلاید 4 :
1- چکیده :
اطلاعات و منابع موجود در وب بصورت فزآیندهایی رو به رشد هستند و استفاده کنندگان وب نیازمند یک درک مشترک از آنها دارند.
همچنین بیشتر سازمانها به دنبال روشهایی به منظور حداکثر کردن توان دارایی اطلاعات ذخیره شده در میان صدها پایگاه داده و برنامه های کاربردی بوسیله آوردن آنها در محیط تعاملی هستند.
آنتولوژی نقش اصلی را در مبادله اطلاعات و توسعه وب لغوی به سمت وب معنایی دارد.
آنتولوژی یک مدل مفهومی است که موجودیتهای واقعی در یک دامنه خاص و روابط بین آنها را به صورت صریح و رسمی مدلسازی می کند.
اسلاید 5 :
2- مقدمه :
تحقیق در زمینه آنتولوژی از اوایل دهه 1990،در میان محققان هوش مصنوعی شایع شد و بعدها به حوزه
های دیگر از جمله بازیابی اطلاعات،استانداردهای وب،وپایگاه های اطلاعاتی پیوسته نیز راه یافت.
اصطلاح آنتولوژی اغلب به درک معنایی ویا چارچوب مفهومی دانشی که میان اعضای یک حوزه معین
مشترک است،اطلاق شده است.
در معنی عام کلمه، آنتولوژی به شاخهای از علم فلسفه اتلاق میگردد که به دنبال پاسخ به سؤالاتی از
قبیل «هستی چیست؟» و «چه ویژگیهای مشترکی در بین تمام موجودات وجود دارد؟» میباشد.
آنتولوژی به دنبال ایجاد طبقهبندیهایی قطعی و انحصاری از موجودیتها در تمام حوزههای هستی است.
اسلاید 6 :
3- تعاريف :
آنتولوژی توصیف رسمی یک دامنه است .
این توصیف دو بخش اصلی دارد : کلمات و روابط میان آنها
برای درک عملکرد آنتولوژی ها در وب معنایی،تعریف ”جان سوا “ مناسب به نظر می رسد.سوا می گوید
آنتولوژی دسته بندی از موضوعات یا عناصر موجود در یک حوزه خاص را بررسی می کند وبر اساس آن
بررسی، فهرستی از موضوعات را ارائه می دهد.این فهرست که به تفضیل،انواع موضوعات وروابط میان آنها
را در حوزه مورد بررسی بیان می کند، آنتولوژی نامیده می شود.
اسلاید 7 :
4- اهمیت و ضرورت :
با افزایش پیچیدگی سیستم ها و نیازمندیهای اطلاعاتی ما
نیاز به بالا بردن سطح تعامل انسان با سیستم و
حداکثر کردن مقدار معناها وجود دارد .
اسلاید 8 :
5- سخن صاحب نظران :
5-1-یک آنتولوژی یک فهم مشترک از برخی زمینههای مورد نظر است. ((Uschold,Gruninger,93))
5-2-یک آنتولوژی یک تئوری درباره موجودیتهایی است که میتواند در ذهن یک عامل باهوش وجود داشته
باشد. ((Wielinga and Schreiber 1993))
5-3-یک آنتولوژی برای بدنه دانشی که مربوط به یک وظیفه یا دامنۀ خاص است یک طبقه بندی از مفاهیم
برای آن وظیفه یا دامنه را توصیف می کند که تفسیر معنایی آن دانش را تعریف می کند. ((Alberts))
5-4- آنتولوژی ها توافق هایی در مورد تصورات مشترک هستند. ((Chandrasekaran))
اسلاید 9 :
6- روش تحقیق :
6-1-در این تحقیق با استفاد ه از یک روش نمونه برداری صفحات اولیه در مقیاس بزر گ و استفاده از
الگوریتمهای پردازش زبان طبیعی، تحلیلهای آماری و تکنیک های بازیابی اطلاعات، یک روش اتوماتیک
برای تولید شبه آنتولوژی برای دامنه پژوهش در علوم کامپیوتر پیشنهاد شده است.
6-2-دراین تحقیق دونوع برنامه خاص نوشته شده است: خزشگر و سازنده آنتولوژی.
6-2-1-وظیفه “خزشگر ” جمع آوری صفحات وب می باشد و شامل دو قسمت است: خرشگر معمولی که
با شروع از یک آدرس URL به جمع آوری صفحات می پردازد و “خزشگر تاکیدی ” که با استفاده از
یک آنتولوژی به جمع آوری صفحات مربوط به یک حوزه خاص میپردازد.
اسلاید 10 :
6-3- برنامه “سازنده آنتولوژی ” با استفاده از صفحات جمع آوری شده توسط خزشگر معمولی به استخراج واژگانی که با فرکانس بالا تکرار میشوند میپردازد. در اینجا از ماجول آماده Porter Stemmer استفاده شده است که با دریافت هر کلمه، ریشه آنرا به عنوان خروجی برمی گرداند.
از نرم افزار ۳٫۱٫۱ Protégé میتوان بعنوان محیط ویرایش و توسعه آنتولوژی استفاده نمودیم.
محیط Protégé با تعیین کلاسها، سلسله مراتب آنها و نمونه های عضو هر یک، آنتولوژی را بهتر توصیف میکند .
این محیط امکان توسعه آنتولوژی یک حوزه را از طریق ابزارهای متعدد مدلسازی بسهولت فراهم میکند و میتوان به شیوه کاملا بصری و بدون نیاز به درگیری با جزئیات قالبهای فوق الذکر، به ساخت، دستکاری اجزاء و پشتیبانی آنتولوژی پرداخت.
اسلاید 11 :
6-4- از OWL میتوان بعنوان زبان نمایش و توصیف رسمی مفاهیم در آنتولوژی استفاده نمود. در این
زبان جستجو و کشف روابط بین مفاهیم، یافتن ناسازگاریها در آنتولوژی، پردازش اطلاعات داخل مستندات
بسادگی انجام می شوند. از این زبان می توان برای نمایش صریح معنی واژه ها در لغت نامه و ارتباط بین
آنها استفاده نمو د.
اسلاید 12 :
7-روش انجام کار :
7-1-تهیه لیست کلمات
7-1-1-ابتدا یک لیست اولیه از واژگان مربوط به دامنه مورد نظر توسط مهندس دانش تهیه میگردد.
سپس با کمک موتورهای جستجوگر، نمونه هایی از صفحات اولیه از دامنه را جمع آوری می نماییم .
7-1-2-سپس با استفاده از خزشگر تاکیدی یک انباره از صفحات آموزشی را استخر اج می کنیم .
7-1-3-یک سری واژه استخراج می نماییم . این مجموعه کلمات تشکیل یک شبه آنتولوژی می دهند. در
توسعه های آتی میتوان این شبه آنتولوژی را اصلاح نموده و با درج روابط بین مفاهیم و تعیین ویژگیها،
آنرا را به یک آنتولوژی کامل تبدیل کرد.
اسلاید 13 :
7-2-تهیه صفحات نمونه
7-2-1-نکته مهمی که در مساله نمونه برداری باید ملاحظه شود تنوع نمونه ها است. در واقع نمونه هایی
که از لحا ظ ساختار و معنا شبا هت زیادی به هم دارند، از لحاظ اطلاعاتی چندان حائز اهمیت نیستند.
7-2-2-مجموعه این صفحات دو کاربرد متفاوت دارند :
آشنایی با ادبیات دامنه (مجمو عه واژگان)
اولویت دهی و کشف الگوهایی برای آدرس های صفحات مرتبط
اسلاید 14 :
7-3-تولید اتوماتیک شبه آنتولوژی
7-3-1-با استفاده از صفحات نمونه مرحله قبل ، یک مجمو عه از عبارتهایی که در حوزه مورد نظر اهمیت دارند
استخرا ج میکنیم.(ادبیا ت حوزه -شبه آنتولوژ ی )
7-3-2-ما این شبه آنتولوژی را به صورت یک بردار از اصطلاحات در نظر میگیریم. ابتدا تمام کلمات استفاده شده
درمجموعه صفحات را همراه با تعداد تکرار هرکدام استخراج می کنیم و پس از مرتب کردن آنها بر حسب میز ان
تکرار، آنهایی که خاصیت تمیز دهندگی ندارند راحذف میکنیم. کلماتی که حذف میشوند را میتوان به سه دسته
تقسیم کرد:
کلمات ایست معمولی : تعداد آنها تقریبا ۲۰۰ عدد است در بازیابی اطلاعات بسیار شناخته شده اند:am, is, a, as
عبارتهایی که تکرار خیلی پایینی دارند .
کلماتی که تکرار بالایی دارند اما خاص این حوزه نیستند.
اسلاید 15 :
7-4-عملیا ت ریشه یابی
7-4-1- در این عملیات، برای هر کلمه ریشه لغوی آن را پیدا نموده و موارد تکراری را حذف نمودیم. به
عنوان مثال ریشه همه کلمات Computing و Computer, Computation کلمه Compute است.
الگوریتمهای متنوعی برای انجام عملیات ریشه یابی در زبان انگلیسی وجود دارند که مهمترین آنها الگوریتم کد
باز Porter میباشد.
7-4-2- خروجی این قسمت یک بردار توصیف حوزه علوم کامپیوتر (شبه آنتولوژی) است که دارای حدود
۸۰۰ کلمه ویژه می باشد .
اسلاید 16 :
7-5- ارزیابی آنتولوژی
7-5-1- هدف ما تعیین میزان کارایی آنتولوژی در کاربرد بازیابی صفحات متنی از وب و میزان صحت
آنها میباشد .به همین دلیل ما از معیار کاربرد آنتولوژی و روش مبتنی بر پردازش زبان طبیعی استفاده کرده ایم.
7-5-2-ما از یک خزشگر تاکیدی استفاده کردیم که وظیفه آن یافتن و جمع آوری صفحات وب بر اساس شبه
آنتولوژی بدست آمده است.
7-5-3- خزشگر تاکیدی با استفاده از یک فیلتر بعضی از مسیرها را هرس میکند.
اسلاید 17 :
7-5-4- در واقع نسبت ترم های (اصطلاحات)مدل بولی مشترک بین شبه آنتولوژی و صفحات جدید به
کل ترم های موجود در شبه آنتولوژی را به عنوان معیار رد یا قبول صفحات به کار گرفته ایم.
اما این معیار به تنهایی منجر به بروز یک مشکل مهم میشود. هنگامیکه به یک صفحه بسیار بزرگ (مثلا
یک وبلاگ) برخورد می کنیم ، اگر بخش کوچکی از آن به علوم کامپیوتر اختصاص داده شده باشد، با
توجه به این نکته که میزان اشتراک کلمات صفحه و آنتولوژی به کل کلمات آنتولوژی مقدار قابل توجهی
است، این صفحه به عنوان یک صفحه مرتبط شناخته خواهد شد در حالی که چنین نیست . برای رفع
این معضل ، راه حل پیشنهادی ما در نظرگرفتن دو حد آستانه است :
اسلاید 18 :
حد آستانه دقت : نسبت اشتراک کلمات شبه آنتولوژی و صفحه. لذا فقط صفحاتی از این فیلتر رد خو اهند
شد که حداقلی از ترم های حوزه علوم کامپیوتر (اینجا ۲۰ کلمه) را در خود داشته باشند.
حد آستانه یاد آوری : که عبارتست از نسبت اند ازه مجموعه اشتراک صفحه و شبه آنتولوژی به
اندازه صفحه . این معیار باعث حذف صفحاتی می شود که فقط درصد کمی از حجم خود را به حوزه مورد
نظر اختصاص داده اند.
اسلاید 19 :
8-یک مثال تجاری از آنتولوژی
Washer
Catalog No.
Shape
Size
Price
Buyer
Ontology
اسلاید 20 :
9- نتايج تحقیق :
9-1-مبنای اصلی تولید آنتولوژی کامل دامنه، تهیه یک لیست کامل و مرتبط از واژگان می باشد که در روشهای دستی توسط مهندس دامنه تعیین میگردند و معمولآ سخت ، وقت گیر و ناکامل است.
9-2-مزیت های عمده روش ما ، استقلال از دانش ذهنی متخصص دامنه و اتوماتیک سازی فرآیند تهیه مجموعه واژگان اولیه از مجموعه بزرگی از صفحات متن در وب بود.
9-3-اندک نمودن فعالیتهای دستی، سادگی فرآیند، اتوماتیک سازی فرآیند تست شبه آنتولوژی، و قابلیت استفاده مجدد این روش در سایر دامنه ها از مزیتهای جانبی این روش می باشد.
9-4-نهایتآ اینکه شبه آنتولوژی تولید شده می تواند با دقت مناسبی برای شناسایی و استخراج صفحات متن آزاد و شبه ساخت یافته در وب مورد استفاده قرار گیرد.