بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
- کاوشگر وب
- وب معنایی
- چالش های کاوشگر های سنتی برای وب معنایی
- کاوشگر های وب معنایی
- کاوشگر های متمرکز برای وب معنایی
- نتیجه گیری
اسلاید 2 :
- برنامه ای است که به صورت خودکار، وب را از طریق دانلود کردن صفحات و دنبال کردن پیوند ها، از صفحه ای به صفحه ای دیگر، پیمایش می کند.
- جمع آوری داده
- اولین مولفه مورد نیاز برای ایجاد شاخص گذاری و بازیابی اسناد وب
- crawler، spider، robot، ...
اسلاید 3 :
- چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه)
–محبوبیت محور
–علاقه محور
- چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی)
–بررسی به روز بودن صفحه
–اولویت به روز رسانی
- چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست politeness)
–مجوز کاوش سایت: فایل robot.txt
–رعایت یک میزان تاخیر، بین ارسال درخواست های متوالی به یک سایت
- چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی)
–یک صفحه یکسان چندین بار توسط کاوشگرهای مختلف کاوش نشود.
–
–
اسلاید 4 :
- rdfs:seeAlso ، rdfs:isDefinedBy ، owl:sameAs ، owl:import
- پیوند های موجود در اسناد html که اشاره به یک سند با پسوند .rdf می کنند.
- دنبال کردن پیوند های A-Box و T-Box
– استدلال بر روی سه گانه ها (subject, predicate, object)
–T-Box: کلاس ها و خصیصه ها (شمای یک سند)
- URI هر predicate
- URI مربوط به هر obejct، در صورتی که در سه گانه مورد نظر، predicate آن از نوع type باشد..
–A-Box: نمونههای تعریف شده
- URI مربوط به هر Subject و یا Object
–
اسلاید 5 :
- حجم کمتر وب معنایی نسبت به وب سنتی : عدم نیاز به کاوش جامع و کامل وب
- عدم اتصال کافی بین منابع
- تفاوت فرمت داده ها: عدم توجه به محتوای معنایی اسناد
- شیوه متفاوت پیوند بین منابع
- به روز رسانی اسناد
اسلاید 6 :
- جمع آوری URI های اولیه
–وارد کردن URI توسط کاربر
–استفاده از خروجی موتور های جستجو و بعضی از سایت ها
- فیلتر های معنایی
–جلوگیری از واکشی و ذخیره داده های غیر معنایی
–انواع فیلتر ها: پروتکل - پسوند فایل - عبارات منظم – دامنه - پیشوند URI - نوع رسانه/محتوا
- پارسرهای معنایی
–Jena - Any23 – NxParser
–استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها
–چهارگانه = (subject, predicate, object, context)
–
اسلاید 7 :
- روش اول-سطح
–کاوش زودتر صفحات مرتبط
–تنوع بیشتر در دیتاست های کاوش شده
- روش اول-عمق
–مسیرهای عمیق تر در داخل یک سایت
- روش کاوش کران دار [Din2005]
–در اطراف یک سند معنایی ممکن است اسناد معنایی دیگری نیز وجود داشته باشد.
–کاوش تمام صفحات متعلق به یک سایت
–یافتن منابع منزوی
–کشف اسناد معنایی بیشتر
اسلاید 8 :
- BioCrawler : یک کاوشگر هوشمند
- مجموعه ای از کاوشگر ها با ویژگی های زیر:
–قابلیت حرکت - بردار دید - قابلیت ارتباط - مدل دانش - انرژی
- هدف
– افزایش انرژی = کاوش بیشتر سایت های معنایی (OWL یا RDF)
- الگوریتم پایه: کاوش اول-عمق
- مدل دانش: مجموعه قوانین
–IF < vision_vector > THEN < select_domain >
- امکان تبادل قوانین میان کاوشگر ها
اسلاید 9 :
- رعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه (PLD - سایت)
- تعیین حداکثر تعداد URI های کاوش شده به ازای هر دامنه
- در روش مبتنی بر یادگیری: کاهش قدرت قانون به ازای هر بار استفاده
- مشکل قحطی PLD ها
–عدم داشتن PLD فعال به تعداد کافی [Hog2011]
–دلایل
- واکشی سایت ها با فاکتور انشعاب داخلی بالا
- عدم اتصال خوب اسناد در وب معنایی
–راه حل
- بازگشت از دور
اسلاید 10 :
- بازه به روز رسانی
–بر حسب تقاضا
–خودکار
- بررسی به روز بودن
–بررسی فیلد (last-modified-since) در هدر HTTP صفحه
–هش محتوای صفحه
– استفاده از سرویس "Pingthesemanticweb.com"
–استفاده از نقشه سایت
- اولویت به روز رسانی
–میزان غنی بودن دامنه از نظر معنایی
–اولویت بالا برای کاربر
–