بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

  • کاوشگر وب
  • وب معنایی
  • چالش های کاوشگر های سنتی برای وب معنایی
  • کاوشگر های وب معنایی
  • کاوشگر های متمرکز برای وب معنایی
  • نتیجه گیری

اسلاید 2 :

  • برنامه ای است که به صورت خودکار، وب را از طریق دانلود کردن صفحات و دنبال کردن پیوند ها، از صفحه ای به صفحه ای دیگر، پیمایش می کند.
  • جمع آوری داده
  • اولین مولفه مورد نیاز برای ایجاد شاخص گذاری و بازیابی اسناد وب
  • crawler، spider، robot، ...

اسلاید 3 :

  • چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه)

–محبوبیت محور

–علاقه محور

  • چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی)

–بررسی به روز بودن صفحه

–اولویت به روز رسانی

  • چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست politeness)

–مجوز کاوش سایت: فایل robot.txt

–رعایت یک میزان تاخیر، بین ارسال درخواست های متوالی به یک سایت

  • چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی)

–یک صفحه یکسان چندین بار توسط کاوشگر‌های مختلف کاوش نشود.

اسلاید 4 :

  • rdfs:seeAlso ، rdfs:isDefinedBy ، owl:sameAs ، owl:import
  • پیوند های موجود در اسناد html که اشاره به یک سند با پسوند .rdf می کنند.
  • دنبال کردن پیوند ‌های A-Box و T-Box

– استدلال بر روی سه گانه ها (subject, predicate, object)

–T-Box: کلاس‌ ها و خصیصه‌ ها (شمای یک سند)

  • URI هر predicate
  • URI مربوط به هر obejct، در صورتی که در سه گانه مورد نظر، predicate آن از نوع type باشد..

–A-Box: نمونه‌های تعریف شده

  • URI مربوط به هر Subject و یا Object

اسلاید 5 :

  • حجم کمتر وب معنایی نسبت به وب سنتی : عدم نیاز به کاوش جامع و کامل وب
  • عدم اتصال کافی بین منابع
  • تفاوت فرمت داده ها: عدم توجه به محتوای معنایی اسناد
  • شیوه متفاوت پیوند بین منابع
  • به روز رسانی اسناد

اسلاید 6 :

  • جمع آوری URI های اولیه

–وارد کردن URI توسط کاربر

–استفاده از خروجی موتور های جستجو و بعضی از سایت ها

  • فیلتر های معنایی

–جلوگیری از واکشی و ذخیره داده های غیر معنایی

–انواع فیلتر ها: پروتکل - پسوند فایل - عبارات منظم – دامنه - پیشوند URI - نوع رسانه/محتوا

  • پارسرهای معنایی

–Jena - Any23 – NxParser

–استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها

–چهارگانه = (subject, predicate, object, context)

اسلاید 7 :

  • روش اول-سطح

–کاوش زودتر صفحات مرتبط

–تنوع بیشتر در دیتاست های کاوش شده

  • روش اول-عمق

–مسیر‌های عمیق تر در داخل یک سایت

  • روش کاوش کران دار [Din2005]

–در اطراف یک سند معنایی ممکن است اسناد معنایی دیگری نیز وجود داشته باشد.

–کاوش تمام صفحات متعلق به یک سایت

–یافتن منابع منزوی

–کشف اسناد معنایی بیشتر

اسلاید 8 :

  • BioCrawler : یک کاوشگر هوشمند
  • مجموعه ای از کاوشگر ها با ویژگی های زیر:

–قابلیت حرکت - بردار دید - قابلیت ارتباط - مدل دانش - انرژی

  • هدف

– افزایش انرژی  = کاوش بیشتر سایت های معنایی (OWL یا RDF)

  • الگوریتم پایه: کاوش اول-عمق
  • مدل دانش: مجموعه قوانین

–IF < vision_vector > THEN < select_domain >

  • امکان تبادل قوانین میان کاوشگر ها

اسلاید 9 :

  • رعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه (PLD - سایت)
  • تعیین حداکثر تعداد URI های کاوش شده به ازای هر دامنه
  • در روش مبتنی بر یادگیری: کاهش قدرت قانون به ازای هر بار استفاده
  • مشکل قحطی PLD ها

–عدم داشتن PLD فعال به تعداد کافی [Hog2011]

–دلایل

  • واکشی سایت ها با فاکتور انشعاب داخلی بالا
  • عدم اتصال خوب اسناد در وب معنایی

–راه حل

  • بازگشت از دور

اسلاید 10 :

  • بازه به روز رسانی

–بر حسب تقاضا

–خودکار

  • بررسی به روز بودن

–بررسی فیلد (last-modified-since) در هدر HTTP صفحه

–هش محتوای صفحه

– استفاده از سرویس "Pingthesemanticweb.com"

–استفاده از نقشه سایت

  • اولویت به روز رسانی

–میزان غنی بودن دامنه از نظر معنایی

–اولویت بالا برای کاربر

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید