بخشی از پاورپوینت
اسلاید 1 :
مقدمه:
در حال حاضر وب،یکی از مهمترین پایگاههای اطلاعاتی است که تعداد صفحاتموجود در آن از مرز 4 میلیارد هم گذشته است.
استخراج داده مفید و مناسب از وب، برای کاربران یک چالش واقعی است، بنابراین نیاز به تکنیک ها و روشهایی برای دستیابی کارا به داده مورد نیاز می باشد.
اسلاید 2 :
مشکلات کاربران در استفاده از وب
کاربران معمولا از موتورهاي جستجو که مهمترين و رايج ترين ابزار براي يافتن اطلاعات در وب مي باشند، استفاده ميکنند.
موتورهاي جستجو داراي دو مشکل اصلي هستند:
- حجم اطلاعاتی که موتورهای جستجو به کاربر تحویل میدهند، بسیار بیشتر از آن است که قابل پردازش توسط کاربر باشد.
- براساس مطابقت دقیق با کلید واژه ساخته شده اند.
üتکنيک هاي وب کاوي قادر به حل اين مشکلات مي باشند.
اسلاید 3 :
اصطلاح وب کاوی
اصطلاح وب کاوی اولین بار در سال 1996 توسط اتزیونی در مقاله ای با عنوان ( شبکه جهان گستر، باتلاق یا معدن طلا )مطرح شد.
اسلاید 4 :
تعریف وب کاوی
کاربرد فنون داده کاوی، برای کشف و استخراج خودکار اطلاعات، از منابع و خدمات وب
اسلاید 5 :
مراحل وب کاوی
- 1. پيدا کردن منبع: اين مرحله شامل بازيابي اسناد وب مورد نظر مي باشد.
- انتخاب اطلاعات و پيش پردازش: در اين مرحله به صورت خودکار اطلاعات خاصي از اسناد بازيابي شده، انتخاب و پيش پردازش مي شوند.
- تعميم: در اين مرحله به صورت خودکار الگوهاي عام در يک يا چندين سايت وب کشف مي شود.
- تحليل: در اين مرحله الگوهاي به دست آمده در مرحله قبل اعتبار سنجي و تفسير مي شوند.
اسلاید 6 :
وب کاوی و داده کاوی
- داده کاوي فرآيند ارائه پرس وجوها، استخراج الگوها،اطلاعات مفيد و ناشناخته از داده هايي است که معمولا در پايگاه داده ها ذخيره شده اند.
üدر واقع بسياري از تکنيک هاي داده کاوي قابل استفاده در وب کاوي هستند.
اسلاید 7 :
تفاوت وب کاوی و داده کاوی
در وب دو نوع داده اصلي براي کاوش مورد استفاده قرار مي گيرندکه در داده کاوی این نوع داده ها وجود ندارند:
- نوع اول: اطلاعات ساختاري وب است که منظور از آن پيوندهاي بين صفحات وب مي باشد.
- نوع دوم : اطلاعات مربوط به نحوه استفاده کاربران از وب است.
اسلاید 8 :
ادامه تفاوت وب کاوی و داده کاوی
- تکنيک هاي داده کاوي معمولا در يک محيط بسته به کار مي روند.
اما
- تکنيک هاي وب کاوي در محيط باز وب انجام مي شوند.
اسلاید 9 :
انواع وب کاوي
روشهاي وب کاوي بر اساس این که چه نوع داده اي را مورد کاوش قرار مي دهند، به سه دسته تقسيم مي شوند:
1)کاوش محتوای وب ( Web Content Mining )
2)کاوش ساختار وب ( Web Structure Mining )
3)کاوش کاربردی وب ( Web Usage Mining )
اسلاید 10 :
کاوش محتواي وب
کاوش محتواي وب فرآيند استخراج اطلاعات مفيد از محتواي مستندات وب است.
اين محتوا مي تواند شامل متن،تصوير،ويدئو،صدا و يا رکوردهاي ساخت يافته مانند ليست ها و جداول باشد.
üدر اين ميان کاوش متن بيش از ساير زمينه ها مورد تحقيق قرار گرفته است.