بخشی از پاورپوینت
اسلاید 1 :
کاوشگر های وب معنایی
اسلاید 2 :
کاوشگر وب
وب معنایی
چالش های کاوشگر های سنتی برای وب معنایی
کاوشگر های وب معنایی
کاوشگر های متمرکز برای وب معنایی
نتیجه گیری
فهرست مطالب
اسلاید 3 :
برنامه ای است که به صورت خودکار، وب را از طریق دانلود کردن صفحات و دنبال کردن پیوند ها، از صفحه ای به صفحه ای دیگر، پیمایش می کند.
جمع آوری داده
اولین مولفه مورد نیاز برای ایجاد شاخص گذاری و بازیابی اسناد وب
crawler، spider، robot، .
چرخه کاوش [Mae2006]
کاوشگر وب
اسلاید 4 :
چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه)
محبوبیت محور
علاقه محور
چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی)
بررسی به روز بودن صفحه
اولویت به روز رسانی
چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست politeness)
مجوز کاوش سایت: فایل robot.txt
رعایت یک میزان تاخیر، بین ارسال درخواست های متوالی به یک سایت
چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی)
یک صفحه یکسان چندین بار توسط کاوشگرهای مختلف کاوش نشود.
رفتار کاوشگر
اسلاید 5 :
وب معنایی
اسلاید 6 :
rdfs:seeAlso ، rdfs:isDefinedBy ، owl:sameAs ، owl:import
پیوند های موجود در اسناد html که اشاره به یک سند با پسوند .rdf می کنند.
دنبال کردن پیوند های A-Box و T-Box
استدلال بر روی سه گانه ها (subject, predicate, object)
T-Box: کلاس ها و خصیصه ها (شمای یک سند)
URI هر predicate
URI مربوط به هر obejct، در صورتی که در سه گانه مورد نظر، predicate آن از نوع type باشد..
A-Box: نمونههای تعریف شده
URI مربوط به هر Subject و یا Object
روشهای پیوند اسناد در وب معنایی
اسلاید 7 :
حجم کمتر وب معنایی نسبت به وب سنتی : عدم نیاز به کاوش جامع و کامل وب
عدم اتصال کافی بین منابع
تفاوت فرمت داده ها: عدم توجه به محتوای معنایی اسناد
شیوه متفاوت پیوند بین منابع
به روز رسانی اسناد
چالش های کاوشگر های سنتی برای وب معنایی
اسلاید 8 :
کاوشگر های وب معنایی
اسلاید 9 :
کاوش وب معنایی
اسلاید 10 :
جمع آوری URI های اولیه
وارد کردن URI توسط کاربر
استفاده از خروجی موتور های جستجو و بعضی از سایت ها
فیلتر های معنایی
جلوگیری از واکشی و ذخیره داده های غیر معنایی
انواع فیلتر ها: پروتکل - پسوند فایل - عبارات منظم – دامنه - پیشوند URI - نوع رسانه/محتوا
پارسرهای معنایی
Jena - Any23 – NxParser
استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها
چهارگانه = (subject, predicate, object, context)
کاوش وب معنایی
اسلاید 11 :
روش کاوش کران دار [Din2005]
در اطراف یک سند معنایی ممکن است اسناد معنایی دیگری نیز وجود داشته باشد.
کاوش تمام صفحات متعلق به یک سایت
یافتن منابع منزوی
کشف اسناد معنایی بیشتر
روش های کاوش
روش اول-سطح
کاوش زودتر صفحات مرتبط
تنوع بیشتر در دیتاست های کاوش شده
روش اول-عمق
مسیرهای عمیق تر در داخل یک سایت
اسلاید 12 :
صف های کاوش
Top-Level Domain (TLD)
.com , .net , .uk
cc-TLD : co.uk , edu.au
Pay level domain (PLD)
amazon.com , det.wa.edu.au
مزایای صف های مبتنی بر دامنه [Lee2008]
کنترل کردن سایت ها با حجم بالا
رعایت عدالت میان دامنه ها
جلوگیری از تاثیر سایت های اسپم
اسلاید 13 :
صف های کاوش
اسلاید 14 :
نسبت مفید اعتبار [Hog2011]
اسلاید 15 :
BioCrawler : یک کاوشگر هوشمند
مجموعه ای از کاوشگر ها با ویژگی های زیر:
قابلیت حرکت - بردار دید - قابلیت ارتباط - مدل دانش - انرژی
هدف
افزایش انرژی = کاوش بیشتر سایت های معنایی (OWL یا RDF)
الگوریتم پایه: کاوش اول-عمق
مدل دانش: مجموعه قوانین
IF < vision_vector > THEN < select_domain >
امکان تبادل قوانین میان کاوشگر ها
روش مبتنی بر یادگیری [Bat 2012]
اسلاید 16 :
رعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه (PLD - سایت)
تعیین حداکثر تعداد URI های کاوش شده به ازای هر دامنه
در روش مبتنی بر یادگیری: کاهش قدرت قانون به ازای هر بار استفاده
مشکل قحطی PLD ها
عدم داشتن PLD فعال به تعداد کافی [Hog2011]
دلایل
واکشی سایت ها با فاکتور انشعاب داخلی بالا
عدم اتصال خوب اسناد در وب معنایی
راه حل
بازگشت از دور
سیاست های Politeness
اسلاید 17 :
بازه به روز رسانی
بر حسب تقاضا
خودکار
بررسی به روز بودن
بررسی فیلد (last-modified-since) در هدر HTTP صفحه
هش محتوای صفحه
استفاده از سرویس "Pingthesemanticweb.com"
استفاده از نقشه سایت
اولویت به روز رسانی
میزان غنی بودن دامنه از نظر معنایی
اولویت بالا برای کاربر
به روز رسانی داده ها
اسلاید 18 :
مدل های طراحی
اسلاید 19 :
چارچوب توزیع شده
افزایش مقیاس پذیری
مدل Master-Slave [Hog2011]
پراکنده کردن URI های seed توسط Master بین Slave ها
اجرای یک دور از فرآیند کاوش توسط Slave ها
پراکنده کردن URI ها توسط Slave ها بین یکدیگر در پایان هر دور
مدل خط لوله [Har2006]
جدا کردن مولفه واکشی از مولفه پردازش
اجرای هر یک از مولفه های کاوش به صورت چند نخی
افزایش مقیاس پذیری و توان عملیاتی
مدل های طراحی
اسلاید 20 :
جدا کردن مولفه واکشی (کنترل کننده-کارگر) از مولفه پردازش (تولید کننده-مصرف کننده)
معماري کاوشگر SLUG
مدل ترکیبی کنترل کننده-کارگر
و تولید کننده-مصرف کننده [Dod2006]