بخشی از پاورپوینت
اسلاید 1 :
بسم الله الرحمن الرحیم
اسلاید 2 :
Web Mining وب کاوی
اسلاید 4 :
فهرست مطالب
درخت تصميم
شبکه عصبي
روش های کاوش محتوای وب
استفاده از متن کاوی و وب کاوی در سیستم های توصیه گر
متن کاوی
HITS
Page Rank
کاربردهاي وب کاوی
Googleو وب و کاوی
Ebay و وب و کاوی
نتيجه گيري
فهرست منابع
مقدمه
مشکلات کاربران در استفاده ازوب
تاریخچه وب کاوی
Web Mining
مراحل وب کاوي
وب کاوي و زمينه هاي تحقيقاتي مرتبط
وب کاوي و داده کاوي
تفاوت وب کاوي و داده کاوي
وب کاوي و يادگيري ماشين
انواع وب کاوي
چالش هاي وب کاوي
انواع الگوریتم های وب کاوی
اسلاید 5 :
مقدمه
. وب، محيطي وسيع، متنوع و پويا است که کاربران متعدد اسناد خود را در آن منتشر مي کنند. در حال حاضر بيش از دو بيليون صفحه در وب موجود است و اين تعداد با نرخ 7.3 ميليون صفحه در روز افزايش مي يابد.
با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريبا غير ممکن است و ابزارها و روش هايي نو براي مديريت آن مورد نياز است.
با توسعه سيستم هاي اطلاعاتي، داده به يکي از منابع پراهميت سازمان ها مبدل گشته است. بنابراين روش ها و تکنيک هايي براي دستيابي کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از اين اطلاعات، مورد نياز مي باشد.
اسلاید 6 :
مشکلات کاربران در استفاده ازوب
يافتن اطلاعات مورد نياز در وب دشوار مي باشد و کاربران معمولا از موتورهاي جستجو که مهمترين و رايج ترين ابزار براي يافتن اطلاعات در وب مي باشند، استفاده ميکنند.
اما موتورهاي جستجو داراي دو مشکل اصلي هستند.
دقت موتورهاي جستجو پايين است، چراکه اين موتورها در پاسخ به يک پرس و جوي کاربر صدها يا هزاران سند را بازيابي مي کنند .
ميزان فراخوان اين موتورها کم مي باشد، به آن معني که قادر به بازيابي کليه اسناد مرتبط با نياز اطلاعاتي کاربر نيستند. چرا که حجم اسناد در وب بسيار زياد است و موتورهاي جستجو قادر به نگهداري اطلاعات کليه اسناد وب، در پايگاه داده هاي خود نمي باشند .
اسلاید 7 :
مشکلات کاربران در استفاده ازوب (ادامه)
ايجاد دانش جديد با استفاده از اطلاعات موجود در وب
بتوان داده هاي فراوان موجود در وب را به دانشي قابل استفاده تبديل کرد، به طوري که يافتن اطلاعات مورد نياز در آن به سادگي صورت بگيرد .
خصوصي سازي اطلاعات
براي اين منظور با توجه به خواسته ها و تمايلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها بايد سفارشي گردد.
تکنيک هاي وب کاوي قادر به حل اين مشکلات مي باشند
اسلاید 8 :
Web Mining
وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد.
وب کاوي به کارگيري تکنيک هاي داده
کاويبراي کشف و استخراج خودکار
اطلاعات از اسناد و سرويس هاي
وب مي باشد.
اسلاید 9 :
وب کاوی اشاره به کلیه فعالیتهای داده کاوی و فنون وابسته دارد که برای کشف خودکار و استخراج دانش از اسناد و خدمات وب به کار میروند. در پس منابع عظیم اطلاعاتی وبگاه ها اطلاعات ساختاری و داده های موجود در وب و سرورهای آن دانشی نهفته است که دسترسی به آن در حالت عادی کاری دشوار است ضمن آنکه دانش برای کاربران و مدیران و اداره کنندگان وب بسیار مفید است. وب کاوی و فنون وابسته به آن امکان کشف و شناسایی این دانش پنهان را میسر ساخته اند. برحسب انواع کارکردها وب کاوی شامل سه روش است
کاوش محتوای وب
کاوش ساختار وب
کاوش کاربرد وب
اسلاید 10 :
وب کاوی به حجم بالایی از اطلاعات به صورت ابراتصال میپردازد و با کاربر به صورت تعاملی در ارتباط است. برخی ملزومات وب کاوی عبارتند از
نیاز به کارهای مبتنی بر متن و درخواست های غیر دقیق
نیاز به خلاصه سازی و قیاس
نیاز به شخصی سازی و یادگیری
اسلاید 12 :
تاریخچه وب کاوی
اصطلاح وب کاوی اولین بار در سال 1996 توسط اتزیونی در مقاله ای به نام شبکه جهان گسترباتلاق یا معدن طلا مطرح شد. در این مقاله وب کاوی به عنوان یک شیوه وظیفه مدار توصیف شده است. در سال 1997 کولی و مباشر و سیروستا از دیدگاه داده محور به تعریف کامل وب کاوی در مقاله ای به نام وب کاوی کشف اطلاعات و الگوها در شبکه جهان گستر در نهمین کنفرانس بین المللی موسسه بین المللی مهندسان برق و الکترونیک در زمینه ابزارههای هوش مصنوعی پرداختند.
در سال 2006 آگراوال سیستم توصیه گری را پیشتهاد کرد که بر اساس روش های مختلف آماری انجام میشد و در آن ویژگیهای مورد نظر وزن دهی می شد و بر این اساس یک انتخاب به کاربر معرفی می شد.
اسلاید 13 :
تاریخچه وب کاوی
در سال 2007 سیستم توصیه گری برای امنیت وب طراحی شد. در این سیستم از عامل ها استفاده می شد و این عامل ها اطلاعاتی را جمع آوری و سپس با استفاده از روش های فازی یک نمونه را برای توصیه انتخاب می کردند.
سیستم دیگری در سال 2007 معرفی شد که بر اساس رابطه بین کاربر و نمونه های موجود در پروفایل کاربر بود. این سیستم از زبان owl برای مدل سازی کاربر و گزینه هایش استفاده می کرد. در این روش شباهت های بین کاربر و آیتم ها با استفاده از زبان owl پیدا شده و با استفاده از تشکیل ماتریس بر مبنای این اطلاعات گزینه ای را به کاربر معرفی می کرد.
اسلاید 14 :
روش های کاوش محتوای وب
هم اکنون کاوش محتوای وب به دو صورت انجام می گیرد
عامل های وب
پایگاه داده
اسلاید 15 :
عامل های وب ابزاری هوشمند برای بازیابی اطلاعات است که غالبا با فنون مورد استفاده در وب کاوی توسعه یافته اند و بدین ترتیب داده های موجود در وب را به لحاظ ساختاری مدیریت میکنند. تفاوت عمده بین عامل های وب همیشه توسط یک دانش خاص پشتیبانی میشوند و لذا در مورد موضوعات خاص میتوانند جست و جوهای دقیق تر و موثرتری داشته باشند همچنین نتایج حاصل شده را به خوبی دسته بندی می کنند.
در حالت پایگاه داده ای داده های بدون ساختار و ناهمگون وب به داده های ساختاریافته تغییر شکل میدهند تا بتوان آنها را به راحتی در پایگاه داده ذخیره کرد و برای آنها دستورات پرس و جو نوشت به طوری که می توان بسیاری از مکانیزم های استاندارد دستکاری داده ها و فنون داده کاوی را روی پایگاه داده مذکور به کار برد. حتی می توان پایگاههای داده چند لایه هم داشت که در آن هر داده در سطح بالا از دانش استخراج شده در لایه های پایین تر حاصل شده باشد.
امروزه کاوش محتوای وب بیشتر به شکل متن کاوی در وب صورت می گیرد ولی پیشرفت های اخیر چند رسانه ای کاوی یا دسترسی وسیع به تصاویر و صوت ها و ویدیو ها و غیره را نیز میسر کرده است.
اسلاید 16 :
مراحل وب کاوي
پيدا کردن منبع
اين مرحله شامل بازيابي اسناد وب مورد نظر مي باشد
در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه هاي الکترونيکي، گروه هاي خبري، اسناد HTML، پايگاه داده هاي متني و . بازيابي مي شوند.
انتخاب اطلاعات و پيش پردازش
در اين مرحله به صورت خودکار اطلاعات خاصي از اسناد بازيابي شده، انتخاب و پيش پردازش مي شوند.
اين پيش پردازش مي تواند کاهش کلمات به ريشه آنها، حذف کلمات زائد، پيدا کردن عبارات موجود در متن و تبديل بازنمايي داده ها به قالب رابطه اي يا منطق مرتبه اول باشد.
اسلاید 17 :
مراحل وب کاوي (ادامه)
تعميم
در اين مرحله به صورت خودکار الگوهاي عام در يک يا چندين سايت وب کشف مي شوددر این مرحله از تکنيک هاي داده کاوي و يادگيري ماشين براي تعميم استفاده مي شود.
تحليل
در اين مرحله الگوهاي به دست آمده در مرحله قبل اعتبار سنجي و تفسير مي شوند
کاربران نقش مهمي در فرآيند تحليل ايفا مي کنند.
اسلاید 18 :
وب کاوي و زمينه هاي تحقيقاتي مرتبط
وب کاوي با زمينه هاي مختلف تحقيقاتي علوم کامپيوتر همچون
داده کاوي،
پايگاه داده،
بازيابي اطلاعات،
هوش مصنوعي،
يادگيري ماشين،
پردازش زبان طبيعي،
استخراج اطلاعات،
انبار داده ها،
طراحي واسط کاربر و . در ارتباط تنگاتنگ است.
اسلاید 19 :
وب کاوي و داده کاوي
وب کاوي و داده کاوي ارتباط بسيار نزديکي با يکديگر دارند.
داده کاوي فرآيند ارائه پرسوجوها و استخراج الگوها و اطلاعات مفيد و ناشناخته از داده هايي است که معمولا در پايگاه داده ها ذخيره شده اند.
بسياري از تکنيک هاي داده کاوي قابل استفاده در وب کاوي هستند.
حوزه وب کاوي وسيع تر از داده کاوي است .
اسلاید 20 :
تفاوت وب کاوي و داده کاوي
در وب دو نوع داده اصلي براي کاوش مورد استفاده قرار مي گيرند.
نوع اول، اطلاعات ساختاري وب است که منظور از آن پيوندهاي بين صفحات وب مي باشد.
نوع دوم نيز، اطلاعات مربوط به نحوه استفاده کاربران از وب است. در واقع تحليل رفتار کاربر در استفاده از وب، ترجيحات و علايق وي درباره نوع و قالب اطلاعات، . بخش مهمي از وب کاوي است.
در داده کاوي اين دو نوع از داده وجود ندارند .