بخشی از مقاله
*** اين فايل شامل تعدادي فرمول مي باشد و در سايت قابل نمايش نيست ***
پایان نامه خوشه بندی و بر چسب زنی کاربران وب سایت با استفاده از روشهای داده کاوی
چکیده
یکی از زمینه هایی که امروزه مورد توجه بنگاهها قرار گرفته است، خوشه بندی مشتریان بر اساس داده های برگرفته از چگونگی تعامل آنها با بنگاه می باشد؛ به وسیله خوشه بندی مشتریان می توان الگوهای رفتاری مشتریان را کشف کرد و اطلاعات بارزشی از مشتریان به دست آورد؛ با تحلیل این الگوهای به دست آمده می توان استراتژی های بنگاه را برای هر یک از خوشه های مشتریان تدوین کرد و جهت پیشرفت در بهبود بازاریابی های آتی گام برداشت؛ از آنجایی که مراجعان به بنگاه بیشترین تراکنش اطلاعاتی را با وب سایت بنگاه دارند، رفتار مشتریان در وب سایت بنگاه می تواند ملاک مناسبی برای خوشه بندی مشتریان باشد. این پایان نامه به تجزیه و تحلیل اطلاعات پایگاه داده سایت ها به منظور خوشه بندی مراجعه کنندگان بر اساس رفتارشان به گروههای همگن با استفاده از روشهای داده کاوی می پردازد؛ به بیانی دیگر سعی میشود خوشه های بازدید کنندگان شناسایی شوند و در انتها یک تقسیم بندی از کاربران بر اساس رفتارشان در وب سایت به دست آید. همچنین به دست آوردن گرایشات کلی کاربران در هر خوشه با توجه به گستره بسیار بزرگ بازدید کنندگان و خوشه های متنوعی که وجود دارد بسیار مهم و حیاتی است؛ از این رو در این پایان نامه سعی می شود به کمک محتوای صفحات بازدید شده توسط کاربران این خوشه ها به صورت خودکار برچسب زده و تفسیر شوند. این پایان نامه روشی نو برای تفسیر خوشه ها با استفاده از روش برچسب زنی ارائه می دهد.
کلمات کلیدی:وب کاوی، کاربرد کاوی وب، محتوی کاوی وب، خوشه بندی کاربران، برچسب گذاری
فهرست
کلیات تحقیق
مقدمه
تعریف مساله و بیان موضوع اصلی تحقیق
سابقه تحقیقات موجود
فرضیات و سوالهای تحقیق
هدفهای انجام این تحقیق
کاربردهایی که از انجام این تحقیق متصور است
استفاده کنندگان از نتیجه پایان نامه
جنبه های جدید بودن و نو آوری طرح
روش انجام تحقیق
روش گرد آوری اطلاعات
جامعه آماری
روش تجزیه تحلیل اطلاعات
فصل دوم مرور ادبیات وب کاوی
مقدمه
تقسیم بندی وب کاوی
محتواکاوی وب (Web Content Mining)
ادبیات موضوعی محتوی کاوی وب
پیشینه پژوهش
متن کاوی صفحات وب
خوشه بندی مجموعه بزرگ اسناد به کمک WEBSOM
سيستم اندازه گیری شباهت
کاربرد کاوی وب
ادبیات موضوعی کاربرد کاوی وب
اهمیت و ضرورت کاربرد کاوی وب
پیشینه پژوهش
خوشه بندی بازدید کنندگان یا تشخیص ارتباط بین بازدید کنندگان سایت
خلاصه فصل
فصل سوم معرفی ساختار پایگاه داده ها و پیش پردازش داده ها
مقدمه
تحلیلهای آماری کلی و عمومی
معرفی پایگاه داده ها
متغیرهای دخیل در استفاده از وب سایت
چگونگی تعامل کاربر با صفحه وب
پیش پردازش داده ها
جمع آوری داده ها
خواندن فایل در Excel
حذف تراکنش های خطا
تفکیک IP ها
تخصيص تراکنشها به صفحات
اتمام فاز پیش پردازش
ایجاد ماتریس بازدید
خلاصه فصل
فصل چهارم خوشه بندی کاربران بر مبنای بازدید از هر صفحه
مقدمه
ملاحظات مقدماتی تحلیل
فاز خوشه بندی کاربران به کمک روشهای سلسله مراتبی و Kمیانگین
ساخت مدل
خوشه بندی به وسیله الگوریتم K-میانگین
خوشه بندی به وسیله روش سلسله مراتبی HAC
خوشه بندی دوباره به وسیله الگوریتم K- میانگین
تفسير خوشه ها
خلاصه فصل
فصل پنجم محتواکاوی صفحات بازدید شده و برچسب زدن خوشه ها
مقدمه
سیستم اندازه گیری شباهت متنی
پیش پردازش متون صفحات بازدید شده توسط کاربران
استخراج كلمات
وزن دهی به کلمات
تشکیل جدول صفحه -وزن کلمه
ضرب ماتریس وزن کلمات در میانگین خوشه های کاربردی
چینش مجدد کلمات به منظور برچسب زدن به هر یک از خوشه های کاربران
خلاصه فصل
فصل ششم خوشه بندی کاربران بر مبنای گروه صفحات بازدید شده
مقدمه
دسته بندی صفحات به صورت تفسیری
ایجاد ماتریس بازدید گروه صفحات
ملاحظات مقدماتی تحلیل بازدید کاربران از گروه صفحات
خوشه بندی کاربران به وسیله روشهای K - MAEN , HAC , SOM
-ساخت مدلand Giudici , 2001 Heckerman
خوشه بندی به وسیله الگوریتم K- میانگین
خوشه بندی به وسیله روش غیر سلسه مراتبی HAC
خوشه بندی کاربران به وسیله نقشه های خود سازمان کوهنن SOM
تفسیر خوشه ها
تشکیل جدول وزن کلمات در هر گروه صفحه
تشکیل جدول متوسط وزنی بازدید از هر گروه صفحه
تشکیل جدول وزن کلمه در هر گروه صفحه
نرمالیزاسیون اوزان کلمات به دست آمده در هر یک از گروه صفحات
ترتیب اهمیت نسبی هر کلمه در هر خوشه
خلاصه فصل
فصل هفتم سر انجام و نتیجه گیری
مقدمه
مروری بر فصلهای گذشته
دستاوردهای تحقیق
نوآوریهای تحقیق
ملاحظات تحقيق
مباحث مطالعاتی پیشنهادی
سر انجام
مراجع
پیوست
ارزیابی خوشه های به دست آمده
فهرست اصطلاحات انگلیسی به فارسی
فهرست اصطلاحات فارسی به انگلیسی
فصل اول
کلیات تحقیق
- ۱ -مقدمه
یکی از زمینه هایی که امروزه بسیار مورد توجه سازمانها قرار گرفته است، دسته بندی مراجعان بر اساس داده های ورودی آنها می باشد که معمولا برای این دسته بندی معیارهای متفاوتی می تواند وجود داشته باشد، مثلا مشتریهای خوب و بد سازمان و یا مشتریانی از سازمان که به محصول یا خدمت جدیدی پاسخ مثبت می دهند یا پاسخ منفی.
برای انجام دسته بندی داده های جدید، الگوریتمهای متفاوتی وجود دارد که از جمله این الگوریتمها عبارتند از : شبکه های عصبی، درخت تصمیم گیری، نزدیکترین همسایگی، رگرسیون لجستیک و... .با توجه به گسترش روز افزون صنعت IT رویکرد بسیاری از شرکتها به استفاده از سایتهای اینترنتی معطوف شده است از این رو قسمت بزرگی از مشتریان شرکتها کاربرانی هستند که به وسیله اینترنت با بنگاه تعامل برقرار می کنند. به علت اینکه مراجعان به سازمان بیشترین تراکنش اطلاعاتی را با وب سایت سازمان دارند رفتار مشتریان در این سایتها می تواند ملاک مناسبی برای گروه بندی آنها باشد.
هدف این مطالعه موردی . تحليل داده های دسترسی وب برای طبقه بندی بازدیدکنندگان به گروههای همگن طبق رفتار آنها است. این کار منجر به تشخیص نمای (نیم رخ) نوعی بازدید می شود. به عبارت دیگر سعی می شود که هر بازدید کننده بر اساس و عادت استفاده و پویش او با یک خوشه تطبیق داده شود. در نتیجه تقسیم بندی رفتاری کاربران بدست می آید که قابل استفاده در تصمیم گیری بازاریابی آتی می باشد. به دنبال این فرایند به منظور تحلیل خوشه های به دست آمده سعی می شود بر خوشه های کاربران برچسب زده شود.
همچنین با مشاهده تحول توزیع رفتاری کاربران قسمتهای مختلف در طول زمان، می توان تکامل و رفتار نوع مشتریان مراجعه کننده را بررسی کرد. به طور مثال می توان مشاهده کرد که تصمیمات کسب و کار چه اثری روی قسمتهای مختلف می گذارند، آیا این تصمیمات بازدید کنندگان یک تقسیم خاص از سایت را افزایش می دهند یا موجب کاهش آنها می شوند.
۲ - ۱- تعریف مساله و بیان موضوع اصلی تحقیق
این پایان نامه به تجزیه و تحلیل اطلاعات پایگاه داده های سایت ها به منظور طبقه بندی مراجعه کنندگان بر اساس رفتارشان به گروههای همگن می پردازد. به بیانی دیگر، سعی بر آن داریم انواع گروههای بازدید کننده را شناسایی نموده تا در انتها یک تقسیم بندی از مشتریان بر اساس رفتارشان داشته باشیم. این گونه تقسیم بندی ها به ما کمک می کند ارسال تبلیغات را هدفمند نموده و همچنین در سازماندهی مجدد یک سایت ( مثل نزدیک قرار دادن لینکها یا صفحات مربوط به یک خوشه به همدیگر) موفق عمل نماییم؛ همچنین این مطالعه ما را قادر می سازد اثرات تصميمات مختلف را به کمک تجزیه و تحلیل رفتار مشتریان در گروههای گوناگون بسنجیم مثلا می توانیم معلوم نماییم که تغییر در قسمتی از سایت چه تاثیری بر بازدیدکنندگان سایت می گذارد.
در حال حاضر از دو الگوریتم کوهنن و تحلیل خوشه ای به این منظور استفاده می کنند ولی جستجوها نشان میدهد تاکنون از تکنیک WEBSOM به این منظور استفاده نشده است. با توجه به خصوصیات WEBSOM پیش بینی می شود پیشرفتی نسبت به SOM عادی انجام شود و آن برچسب گذاری به طور خودکار بر روی خوشه ها می باشد.
. توجه به این که WEBSOM در اصل برای متن کاوی طراحی شده است نیاز به تغییراتی برای سازگاری با تحلیل بازدید کنندگان سایت دارد، از جمله آنکه الگوی برچسب زنی برای آن بایستی تغییر کند. در این پایان نامه با استفاده از خصوصیات تکنیک WEBSOM سعی می شود بر روی خوشه های کاربران برچسب زده شود.
۳ - ۱ - سابقه تحقیقات موجود
تاکنون دسته بندی های مختلف و متنوعی از کاربران سایتها انجام شده است و سایت های مختلف . کاربران را بر حسب معیار های متفاوت دسته بندی کرده اند . این دسته بندیها بیشتر بر مبنای پاسخ گویی بازدیدکنندگان به خدمتی خاص و قسمتهای جدیدی از سایت بوده است.
دسته بندی بازدید کنندگان بر پایه رفتارشان در سایت، به معنی شناخت خوشه های هم رفتار در سایت، به منظور شناخت هر چه بیشتر بازدیدکنندگان در تحقیقات اخیر مورد توجه قرار گرفته است. گروههای همرفتار گروههایی از بازدیدکنندگان سایت هستند که در سایت رفتار مشابهی را انجام می دهند، ملاک تشابه این رفتار در یا .شباهت در محتوای صفحاتی است که مورد بازدید قرار داده اند و یا شباهت در مسیری که در سایت دنبال کرده اند می باشد، در این پایان نامه بر حسب ملاک اول، خوشه بندی صورت می گیرد به عبارت دیگر در این پایان نامه خوشه بندی کاربران بر مبنای علاقه مشترک به صفحات مشابه صورت می گیرد.
یکی از مهمترین نارسایی هایی که در تحقیقات قبلی وجود دارد عدم وجود برچسب مناسب برای خوشه های ایجاد شده است در این پایان نامه سعی شده است که به کمک تکنیک های متن کاوی این نارسایی بر طرف شود.
۴ - ۱- فرضیات و سوالهای تحقیق
در این تحقیق ملاک شباهت، گروههای همرفتار شباهت آنها در صفحاتی است که مورد بازدید قرار داده اند ، بنابر این به طور مفروض این ملاک شباهت تنها ملاک شباهت است و سایر ملاک های شباهت از قبیل مسیر طی شده توسط بازدیدکننده و زمان طی شده در هر بازدید مورد ارزیابی و تحلیل قرار نمی گیرد.
در این تحقیق همچنین فرض بر این است که داده هایی در باره صفحاتی که در یک بازه زمانی خاص، توسط گروهی از بازدید کنندگان بازدید شده اند در اختیار داریم. این صفحات با شماره ای که با آدرس و تیتر آنها بستگی دارد مشخص شده اند. برای هر بازدید کننده آرایه ای تشکیل می دهیم که هر صفحه به وسیله او چند مرتبه بازدید شده است. همچنین هیچ نوع اطلاعات شخصی از بازدید کنندگان به سایت ها نداریم. برای مطالعه موردی این پروژه در نظر است که اطلاعات مربوط به وب سایت دانشگاه را مورد مطالعه قرار داده شود
سوالات مهمی که در این تحقیق به آن پاسخ داده می شود :
1. چه بازدید کنندگانی هم خوشه با هم رفتار هستند؟
۲. چگونه خوشه ها برچسب دار می شوند؟
۵ - ۱- هدفهای انجام این تحقیق
گرد آوری، بررسی و ارزیابی روشهای مختلف موجود وب کاوی.
پیشنهاد یک روش جدید دسته بندی بازدید کنندگان
برچسب گذاری با معنی بر خوشه های بازدید کنندگان
نام گذاری به طور خودکار بر روی خوشهها.
مشخص نمودن افق مطالعات آتی و پیشنهاد برای ادامه روند مطالعات.
تدوین و تهیه شرح کاملی از مهمترین منابع ، مراجع ، کتب و رسالات علمی موجود در دسته بندی با رویکرد داده کاوی
۶ - ۱ - کاربردهایی که از انجام این تحقیق متصور است
طبقه بندی مشتریان در سازمانهایی که یک پایگاه داده های بسیار بزرگ از مشتریان خود دارند، به منظور
کسب دانش و تحلیل داده های موجود در مورد بازدیدکنندگان فعلی.
تحلیل چگونگی رفتار بازدیدکنندگان جديد.
نام گذاری به طور خودکار بر روی خوشهها.
تشخیص گروه هدف برای خدمات مختلف بوسیله تحلیل رفتار مشتریان فعلی.
تعیین گروههای هدف که برای خدمت جدیدی دعوت می شوند.
. ۷ - ۱ - استفاده کنندگان از نتیجه پایان نامه
سازمانهایی که دارای مشتریان بالفعل و بالقوه زیادی هستند مانند بانکها، شرکتهای پستی، شرکتهای مخابراتی، فروشگاههای زنجیره ای می توانند با تهیه یک پایگاه داده های مناسب از ویژگیهای مهم و اساسی مشتریان خود از نتایج این پایان نامه استفاده کنند. همچنین موسسات پژوهشی و موسسات آموزشی مانند دانشگاهها و دانشجویان علاقمند به کار و تحقیق در زمینه داده کاوی و تحلیل داده ای مشتریان می توانند از این پایان نامه استفاده نمایند.
۸ - ۱- جنبه های جدید بودن و نو آوری طرح
جنبه های جدید بودن طرح در ارائه یک روش جدید برای دسته بندی بازدیدکنندگان می باشد. در حال حاضر از الگوریتمهای متعددی همچون کوهنن و تحلیل خوشه ای و... به این منظور استفاده می کنند ولی جستجوها نشان می دهد تاکنون از تکنیک WEBSOM به این منظور استفاده نشده است. با توجه به خصوصیات WEBSOM پیش بینی می شود پیشرفتی نسبت به SOM عادی انجام شود و آن نام گذاری به طور خودکار بر روی خوشه ها می باشد.
در این پایان نامه با استفاده از خصوصیات تکنیک WEBSOM سعی می شود بر روی خوشه های کاربران برچسب زده شود. با توجه به این که WEBSOM در اصل برای متن کاوی طراحی شده است
نیاز به تغییراتی برای سازگاری با تحلیل بازدید کنندگان سایت دارد، از جمله آنکه الگوی برچسب زنی برای آن بایستی تغییر کند.
۹ - ۱- روش انجام تحقیق
روش انجام تحقیق به این صورت بوده که ابتدا از طریق کتابها و مقالات موجودشناختی کلی از داده کاوی و الگوریتمهای آن صورت گرفته و سپس با وارد شدن به جزئیات و آشنایی کامل با روشهای دسته بندی مشتریان بوسیله مطالعه مقالات و رسالات موجود در کتابخانه ها و اینترنت سعی در ارائه مسائل و موضوعات جدید شده است.
تحلیلی که بر روی این پایگاه داده ها انجام داده می شود در پنج فاز است:
. ۱- پردازش داده ها شامل:
جمع آوری داده ها
حذف تراکنش های خطا
تفکیک IP ها
تخصيص تراکنشها به صفحات
۲-خوشه بندی کاربران بر مبنای بازدید از هر صفحه شامل:
ایجاد ماتریس بازدید
ساخت مدل
تفسیر خوشه ها
۳-محتواکاوی صفحات بازدید شده توسط کاربران شامل:
پیش پردازش متون صفحات بازدید شده توسط کاربران
ایجاد خلاصه ای به ازای هر صفحه با رعایت قواعد نشان گذاری.
استخراج كلمات
وزن دهی به کلمات.
تشکیل جدول صفحه - وزن کلمه.
۴ضرب ماتریس وزن کلمات در میانگین خوشه های کاربردی.
۵چینش مجدد کلمات به منظور برچسب زدن به هر یک از خوشه های کاربران
۱۰ - ۱ - روش گرد آوری اطلاعات
روش گردآوری اطلاعات شامل استفاده از کتابها، اینترنت، مقالات و مجله های علمی و پایان نامه های موجود در کتابخانه ها همچنین مشورت با استاد راهنما و استاد مشاور می باشد.
۱۱ - ۱ -جامعه آماری به علت اینکه داده کاوی نیاز به یک پایگاه داده های بزرگ دارد، جامعه آماری پایگاه داده های سایت آموزش دانشگاه تربیت مدرس می باشد فایلهای روزانه دریافت شده از سایت مرکزی کامپیوتر دانشگاه تربیت مدرس از تاریخ ۲۰۰۵ / ۹ / ۱۵ تا تاریخ ۲۰۰۵ / ۱۰ / ۲ ، مورد استفاده در این تحقیق قرار گرفتند.
در فصل سوم به تفضیل در مورد این پایگاه داده ها توضیح داده خواهد شد.
۱۲ - ۱-روش تجزیه تحلیل اطلاعات
تجزیه تحلیل داده ها با توجه به نوع داده های در دسترس صورت گرفته است و سعی شده است با توجه به ماهیت پایگاههای داده ها از الگوریتمهایی برای تجزیه تحلیل استفاده شود که برای پایگاه داده ها مناسب باشد. همچنین در مقایسه روش پیشنهادی با روش موجود از معیار شباهت بر چسب دستی با برچسبی که به طور اتوماتیک زده شده استفاده شده است.
فصل دوم
مرور ادبیات وب کاوی
۱ - ۲ -مقدمه
از اواسط دهه ۱۹۹۰ حوزه پژوهشی جدیدی به نام «وب کاوی» بر پایه روشهای داده کاوی جدید به وجود آمد. که کار آن، پژوهش درباره ماهیت و خصوصیات وب است. این گفتار سعی دارد حوزه های منتخبی از پژوهش وب کاوی را معرفی کند.
طی دهه اخیر یک حوزه پژوهشی چند رشته ای به نام «کشف دانش در پایگاه های اطلاعاتی» ظاهر شده است. این حوزه به گسترش روشها برای بهره برداری کردن از مخزن در حال رشد به صورت تصاعدی محتواهای ثبت شده در پایگاه های اطلاعاتي تجارتی، اداری، علمی و سایر انواع داده ها مربوط می شود.
کشف دانش در پایگاه های اطلاعاتی را به عنوان «استخراج قابل ملاحظه اطلاعات ضمنی» که قبلا ناشناخته و بالقوه مفید از داده ها در سال ۱۹۹۱ توسط فراولی تعریف شده است (1991 ,Frawley ). به Web Mining Knowledge منظور شناسایی و استخراج الگوها و روابط جدید که بتواند دانش جدیدی را به ثمر رساند، کشف دانش در پایگاه های اطلاعاتی روش های متنوع و گسترده ای را به کار می برد، مانند ترکیب قدرت رایانه و تخصص و مهارت انسان. فنون کشف دانش در پایگاه های اطلاعاتی برای مثال، شامل بازیابی اطلاعات، آمار، یادگیری ماشینی، شناسایی الگو، مقیاس بندی چندبعدی و تجسم است.
مفهوم «داده کاوی» گاهی اوقات در ارتباط با کشف دانش در پایگاههای اطلاعاتی به طور مترادف به کار برده شده است. کشف دانش در پایگاه های اطلاعاتی دلالت دارد بر فرایند کلی کشف دانش مفید از داده ها (1991 ,Frawley ).حوزه هایی که از کشف دانش در پایگاههای اطلاعاتی استفاده می کنند، شامل: رفتار مشتری، بررسیهای مربوط به ستاره شناسی، تشخیص سرطان، شناسایی ساختار شیمیایی، تحلیل جمعیت، کنترل کیفیت و مدل سازی از تغییر اقلیمی جهان است (1991 ,Frawley ). . ماهیت توزیعی، پویا و متنوع وب به همراه کمترین استفاده از آبردادها ترکیب شده است آن را محیطی مشکل و دشوار برای کشف دانش یا «وب کاوی» می سازد و همان طور که در بالا اشاره شد، اطلاعات وب ممکن است نادرست و غیرواقعی باشد. از سوی دیگر، ناهمگنی وب می تواند منبع مساعدی برای کشفیات ایجاد کند. همچنین کشفیات اغلب از ساختن ترکیبهای پیش بینی نشده منابع ناهمگن ناشی می شوند، که به طور ضمنی دلالت دارند بر این که ممکن نیست از قبل بتوان گفت که چه منابعی مورد نیاز است.
هدف تحقيق در وب کاوی توسعه فنون جدید برای استخراج و کاوش دانش یا اطلاعات مفید از این صفحات وب می باشد (2004 ,Liu and Chang). با توجه به ناهمگن بودن ساختار داده های وب، کشف خودکار دانش یا اطلاعات مورد نظر یا غیرمنتظره، کار چالش برانگیزی می باشد. زیروظایف وب کاوی عبارتند از: یافتن منبع: وظیفه بازیابی اسناد و بی مورد نظر را انجام میدهد. انتخاب اطلاعات و پیش پردازش: به طور خودکار اطلاعات مشخص از منابع وبی بازیابی شده را انتخاب و پیش پردازش می کند.
تعميم: به طور خودکار الگوهای عمومی را در تک تک سایتها و در چندین سایت کشف می کند. .
تحليل: الگوهای کاوش شده را اعتبارسنجی و یا تفسیر می کند.
۲ - ۲ -تقسیم بندی وب کاوی
خدمات اطلاعاتی که از طریق یک وب سایت یا هر نظام اطلاعاتی دیگر ارائه می شوند باید مورد ارزیابی مداوم قرار گیرند تا از یک خدمات اطلاعاتی نظام محور به یک خدمات اطلاعاتی کاربر محور تبدیل شوند. و اصل کلی هدف استراتژیک وب سایت، با استفاده از بازخوردهایی که از طرف کاربران (بصورت مستقیم و غیر مستقیم) اخذ می شود مورد بازشناسی قرار گیرد.
وب کاوی به تکنیک های خودکار بازیابی، استخراج و ارزیابی اطلاعات از پرونده ها و سرویس های تحت وب به منظور کشف دانش اشاره دارد. وب کاوی از سه دیدگاه وب را مورد کاوش قرار می دهد:
۱- محتوا: کشف دانش از محتوای فایل ها و پرونده های موجود در وب که شامل صوت، تصویر، متن و دیگر انواع چندرسانه ای می شود
۲- ساختار: برای پی بردن به ارتباط بین لینک ها و پرونده های درونی در یک وب سایت. معمولا یک گراف دو یا سه بعدی برای نمایش این ساختار به کار می رود. در نتیجه می توان میزان دسترسی به صفحات و لینک های مختلف یک سایت را به دست آورد و از این نتایج برای مدیریت بهتر سایت بهره برد.
۳- استفاده و کاربرد: داده هایی که توسط تعامل کاربران با وب تولید شده است، مورد بررسی قرار می گیرد. این داده ها شامل شناسه کاربر، درخواست های کاربری ورودها و خروج های یک سرور از سایت و... است. از نتایج این کاوش می توان برای بهبود ارتباط با کاربران، تجارت الکترونیکی و شناسایی مشتریان استفاده کرد. اینکه هر کسی معمولا چه کلماتی را جست وجو می کند و به چه اطلاعاتی بیشتر علاقه مند است، می تواند در نمایش نتایج جست وجوهای او موثر باشد. وب کاوی به عنوان شاخه ای از کشف دانش دیده می شود که روی مورد داده های وبی اعمال می گردد.
شکل ۲-۱- انواع وب کاوی بر حسب محتوای دادهها (2000 ,Kosala and Blockeel)
در چند سال گذشته گسترش سریعی در فعاليتهای زمینه وب کاوی رخ داده است که شامل استفاده کاوی وب (Web usage mining)، ساختار کاوی وب (Web structure mining) و محتواکاوی وب (Web content mining) می شود (شکل ۲-۲)
استفاده کاوی وب به کشف الگوهای دسترسی کاربر از ثبت وقایع (Log) استفاده وب مربوط می شود.
ساختار کاوی وب سعی در کشف دانش مفید از ساختار ابرپیوندها دارد. تحلیل اطلاعات ساختاری در ابرپیوندها، ابر متن کاوی را از بازیابی اطلاعات کلاسیک متمایز می کند (2000 ,Chakrabarti). هدف محتواکاوی وب استخراج اکاوش دانش یا اطلاعات مفید از محتویات صفحه وب است. جدول ۲-۱ انواع وب کاوی را به تفضیل نشان میدهد (2000 ,Kosala and Blockeel)
جدول ۲-۱- انواع وب کاوی (2000 ,Kosala and Blockeel)
۳ - ۲- محتواکاوی وب ( Web Content Mining
محتواکاوی وب به عنوان زیر شاخه ای از وب کاوی در فصول زیر بررسی می شود
۱ - ۳ - ۲ -ادبیات موضوعی محتوی کاوی وب
محتواکاوی وب (Web Content Mining)، یکی از سه شاخه وب کاوی است که در واقع، کشف اطلاعات مفید از مستندات و داده های ساخت یافته و نیمه ساخت یافته و غیرساخت یافته وب می باشد. در زمینه محتواکاوی وب نرم افزارهای خزنده(Crawler)، به گشت و گذار در اقیانوس وب پرداخته، اقدام به نمایه سازی واژگان در پایگاه داده خود می نمایند که مورد استفاده موتورهای کاوش، در زمان جستجوهای کاربر قرار می گیرد. نمونه بارز این روش، موتور کاوشگر Google است.
در همین راستا ابزارهایی همچون، Finite - State Automation Text Understanding System : FASTUS در خلال این ماموریت به تجزیه و تحلیل متون، با هدف کشف گروه های مختلف واژگان مانند اسامی، افعال، ترکیبات وصف و اضافی، ... می پردازند که به کشف دانش از محتویات وب کمک می کند. این روش هم اکنون برای زبان های انگلیسی و ژاپنی پیاده سازی شده است و بصورت بالقوه برای دیگر زبان ها قابل استفاده است (1999 , Valdes - Perez ) داده های محتوای وب حاوی داده های ساخت نیافته مانند متون آزاد، داده های نیمه ساخت یافته مانند اسناد HTML و داده های ساخت یافته تر مانند جداول و یا صفحات HTML تولید شده از پایگاه داده می شوند.
اخيرة كاوش در داده های چندرسانه ای مانند عکس، صدا و فیلم نیز مورد توجه بیشتری قرار گرفته اند.
دیدگاه مورد استفاده این رساله، دیدگاه بازیابی اطلاعات می باشد.
۲ - ۳ - ۲ - پیشینه پژوهش مقالات متعددی در زمینه محتوا کاوی وب به وسیله مجله SIGKDD جمع آوری شده است که زمینه های وسیعی را در بر می گیرند .همه این مقالات تکنیک های خلاقانه ای را برای حل مشکلات محتوا کاوی وب ارائه می دهند. تحقیقات مهمی که در این مجله ذکر شده اند به ترتیب فهرست شده اند.
.
تحقیقی به وسیله ژانگ (2001 , Zhang , Z . , He , B . , Chang ) انجام شده است که در مورد مشکل استخراج داده ها از مجموعه صفحات وب مطالعه ای انجام داده است. مهمترین موردی که در این مقاله به آن پرداخته شده است ارائه یک روش خلاقانه برای تخمین پوشش جاری نتایج سیستم جستجو است. در این روش هنچنین نرخ EROR را در اطلاعات استخراجی مشخص می شود، برای ارزیابی روش و ایده پیشنهاد شده در این مقاله تعداد زیاد آزمایش انجام شده است تا اثر بخشی این تکنیک ها را اثبات کنند.
هالوی و دانگ (2001 ,Doan and Halevy) تکنیک هایی برای جستجوی و سازگارسازی خدمات وب به وسیله تجزیه آماری در مجموعه های بزرگی مثل WSDLFiles ارائه می دهند. سیمانو و استاب (2002 ,. Cimiano , P 2002 ). ,
یک روش ساخت یافته استخراج - اطلاعات از وب به مظور اطلاعات گیری ارائه می دهند. مخصوصا در این مقاله سیستمی را ارائه شده است که PANKOW خوانده می شود و محتوا را به یک گراف بدون جهت داده شده دسته بندی می کند . در این روش ابتدا مجموعه ای از الگوهای زبانی به کمک محتواهای پرسشی ایجاد می شود و سپس از یک موتور جستجو مثلا گوگل به منظور جمع آوری اطلاعات آماری در باره الگوهای هر مجموعه در وب استفاده می شود.
مقاله دیگری که به وسیله ژانگ نوشته شده است، مشکلات خلاصه سازی را به کمک مقایسه مغایرتهای نتایح خلاصه سازی یک جفت از مقالات خبری بر خط" را نشان می دهد، همچنین به کمک الگوریتمی که در این مقاله ارائه می شود سرفصلهای دو خبر بر خط و خلاصه سازی شده و ارتباط آنها به وسیله استخراج معنایی نشان داده می شود.
گروچی (2002 ,Groouche ) مطالعه ای از گسترش و پویایی اطلاعات را در یک فضای بلوکی را ارائه می دهد، همچنین در این مطالعه نشان داده می شود که چگونه به وسیله استفاده از ماکرو ها اختصاصی و کلی، رفتارها و ساختارهای متنوع را می توان فهمید. این خصوصیات اکتشافی از اطلاعات پخش شده باعث می شود. که کاربردهای عملی به منظور استفاده از محیط های وب بهتر انجام شود. ویدز وارن (2002 ,Varnee) مشکلات مربوط به پیدا کردن راههایی که به صفحات هدف در یک وب سایت بزرگ آدرس دهی می کنند بررسی شده اند. برای حل این مشکلات روش برچسب گذاری ترتیبی با زمینه های احتمالی موضوعی ارائه شده است. بنابراین بر خلاف روند گذشته که در جستجوی خزنده تمرکز داشتن این مقاله بر پایه استقلال و یا ارتباط بین صفحات طبقه بندی شده و رتبه بندی شده را تمرکز دارد. زانگ و چانگ (2003 , Zhang , Z , He , B . , Chang ) کل کاری را به عنوان یک ساختار کاری مفهومی به منظور یکپارچه سازی کارهای ابتدای جستجو ارائه می دهند. واین سه نتیجه را به عنوان نمونه ای برای کل کاوی می آورند
استخراج ساختار خارجی
سازگاری الگویی
ترجمه جستاری
سونگ (2003 , Song , R . , Liu , H . , Wen ) روش جدیدی برای بخش بندی صفحات وب به بلوکهای مختلف مهم با استفاده از روشهای یادگیری ماشینی" پیشنهاد می کند.
۳ - ۳ - ۲ -متن کاوی صفحات وب
متن کاوی، کشف اطلاعات جدید توسط کامپیوتر است که قبلا ناشناخته بوده است. این کشف از طریق استخراج خودکار اطلاعات از منابع مکتوب مختلف انجام می شود. یک عنصر کلیدی، متصل کردن اطلاعات استخراج شده به یکدیگر برای تشکیل حقایق یا فرضیه های جدید است تا پس از آن به کمک روشهای متعارف آزمایش، بررسی بیشتری شوند. هدف متن کاوی، کشف اطلاعات از قبل ناشناخته میباشد که هنوز کسی نمی داند و بنابراین مستند نشده است. در مورد ارتباط وب کاوی با متن کاوی نظرات مختلفی وجود دارد. در نظر بیان می شود:
متن کاوی با جستجوی وب متفاوت است. در جستجو، کاربر نوعا در حال یافتن چیزی است که قبلا شناخته شده و توسط شخص دیگری نوشته شده است. مسئله آن کنار گذاشتن همه مواردی است که در حال حاضر به نیازهای کاربر مربوط نمی باشد تا اطلاعات مربوط پیدا شود (2003 ,Hearst)
تحقیق در مورد اعمال روشهای داده کاوی به متن ساخت نیافته به عنوان کشف دانش در متون یا متن کاوی شناخته می شود. با این تعریف می توان متن کاوی را مصداقی از محتواکاوی وب در نظر گرفت .(Kosala and Blockeel, 2000)
متن کاوی شاخه ای از داده کاوی است، فرق داده کاوی معمولی با متن کاوی این است که در متن کاوی , الگوها از متن زبان طبیعی استخراج می شوند تا از پایگاه های داده ساخت یافته حقایق. پایگاه های داده برای پردازش خودکار توسط برنامه ها طراحی شدهاند در حالی که متن برای خوانده شدن توسط مردم نوشته شده است. ما هنوز برنامه هایی نداریم که بتوانند به معنای واقعی متن را بخوانند و در آینده نزدیک هم نخواهیم داشت (2003 ,Hearst). بسیاری از محققین اعتقاد دارند نوشتن برنامه هایی که به روش مردم متن را بخوانند، مستلزم شبیه سازی کامل طرز کار ذهن می باشد.
متن کاوی کاربردهای متعددی از جمله بررسی روندهای علمی در علم بیولوژی و هوش تجاری دارد. از آنجا که ۹۰٪ از داده های شرکتها با روشهای معمولی داده کاوی قابل کشف دانش نیستند، انگیزه زیادی برای استفاده از متن کاوی در صنعت وجود دارد. انواع داده های متنی شرکتها در شکل ۲- نشان داده شده اند (1999 ,.Dorre et al).
شکل ۲-۲- انواع داده های متنی در یک شرکت (1999 Dorre et al)
روشهای متن کاوی اغلب همان روشهای داده کاوی هستند که با تغییراتی برای متون استفاده میشوند. برخی از روشهای متداول متن کاوی مانند طبقه بندی بیز و خوشه بندی نگاشت خود-سازمان در ادامه مطرح می شوند.
متون به طور طبیعی ساخت نیافته (Unstructured) هستند. ساخت نیافتگی به معنای نداشتن شمای پایگاه داده ها می باشد. برای داده کاوی، لازم است متون دارای نوعی ساخت یافتگی شوند. یک روش ساخت یافته کردن متون، استخراج اطلاعات (Information Extraction) میباشد که متن را پردازش کرده و عبارات مختلف را در آن برچسب گذاری می کند. مثلا نام نویسندگان متن را تعیین می کند. بیان کردن متون بر حسب بردار فراوانی کلمات نیز ایجاد نوعی ساخت یافتگی می باشد.
پیش پردازش متون
یکی از مهمترین تفاوتهای متن کاوی با داده کاوی معمولی نحوه پیش پردازش متون میباشد.
پیش پردازش متون از مراحل زیر تشکیل می شود:
نشانگذاری: هر نشان، توالی غیرخالی از کاراکترها با کنار گذاشتن فاصله و نقطهگذاریها (کلمات و اعداد) میباشد. لازم است tagهای بتن که برای تعیین فرمت کلمات استفاده میشوند حذف شوند. هر نشان را با یک متغیر کد عددی صحیح ۴ بایتی (tid) میتوان بیان نمود. نتیجه، تبدیل سند به توالی اعداد صحیح ( tid , pos ) میباشد. امکان کاهش حجم با ذخیره فرکانس کلمات هر متن به جای توالی (did) وجود دارد. نمایه در واقع ترانهاده ماتریس سند-عبارت است.
کلمات توقف: افعال عمومی، حروف اضافه و ربط همگی کلمات توقف هستند. این کلمات در تعداد زیادی سند ظاهر میشوند و مفید فایده جستجو نیستند. بنابراین در نمایه ذخیره نمیشوند تا حجم کاهش و سرعت افزایش یابد. این کلمات میتوانند با یک مکان نما جایگزین شوند تا در جستجو یادآوری گردند. برخی از کلمات توقف معنی غیر توقفی هم دارند مانند بود و نبود. . ریشه یابی: کلمات چند شکلی برای جور شدن با پرس و جو ساده می شوند. ریشه یابی می تواند به روش تحلیل شکل کلمه انجام شود. ریشه یابی موجب افزایش یادآورس ولی کاهش دقت میشود. مثالی از ریشه یابی تبدیل "کلمه نیم فاصله ایشان به "کلمه" میباشد. ذخیره معکوس نشانها بدون مکان: در این مرحله با استفاده از ماتریس سند-کلمه، اسناد مربوط به هر کلمه معلوم شده و بردار آن تشکیل میگردد.
کاهش . بعد از روش LSI و یا نگاشت تصادفی (Random mapping) استفاده میشود (2003 ,Lin and Gunopulos). نگاشت تصادفی بسیار سریعتر از LSI بوده و در عین حال دقت آن قابل مقایسه با LSI میباشد (2003 ,Fradkin and Madigan). نگاشت تصادفی با ضرب کردن بردارهای اسناد در یک ماتریس تصادفی انجام میشود که در آن بعد خروجی از ورودی کوچکتر است. این فن بین کلمات کمی خطای شباهت تصادفی ایجاد میکند. به طور نظری و عملی نشان داده شده که اگر بعد خروجی به اندازه کافی بزرگ باشد، اثرات تصادفی اثر کمی روی محاسبه شباهت بین اسناد دارند.
۴ - ۳ - ۲ -خوشه بندی مجموعه بزرگ اسناد به کمک WEBSOM
خوشه بندی WEBSOM یک روش شبکه عصبی مبتنی بر نقشه خود سازمان می باشد (2000 ,Lagus). این روش پیش از جستجو یا پویش، مجموعهای از اقلام متنی مثل اسناد را با توجه به محتوای آنها مرتب کرده و آنها را به یک آرایه معمولی دو بعدی از نقاط نقشه نگاشت می کند (2004 ,Lagus et . al ). اسنادی که از نظر محتوا مشابه هستند به نقاط یکسان یا مجاور نگاشت شده و از هر نقطه واحد. پیوندهایی به پایگاه داده اسناد وجود دارد. بنابراین در حالی که می توان جستجو را با مکان یابی اسنادی که بهترین تطابق را با عبارت جستجو دارند شروع کرد، نتایج فراتر مرتبط میتوانند بر اساس اشاره گرهای ذخیره شده در همان واحد نقشه یا نقاط مجاور یافته شوند، حتی اگر این نقاط دقیقا با معیار جستجو تطابق نداشته باشند. خوشه بندی درخت دنباله برای اسناد وب این الگوریتم در موتور جستجوی metacrawler (که خود یک موتور جستجو روی دیگر موتورهای جستجو است) استفاده می شود. مدل خوشه بندی درخت دنباله (Suffix Tree Clustering : STC ) الگوریتمی با تابع پیچیدگی (زمان) خطی است که بر اساس تشخیص عبارات مشترک بین گروه های متون عمل میکند (1998 ,Zamir and Etzini). این الگوریتم به جنبه ای مهم از اطلاعات متنی یعنی توالی کلمات در عبارات مختلف توجه و از آن حداکثر بهره برداری را می نماید. عبارت، ترتیب مشخصی از یک یا چند کلمه است. خوشه پایه، مجموعه ای از متون بوده که دارای عبارت مشترک هستند. الگوریتم STC، افزایشی و مستقل از ترتیب است یعنی با رسیدن هر متن از وب، آن متن را پاکسازی و به درخت اضافه می کند.
۵ - ۳ - ۲ -سیستم اندازه گیری شباهت بازیابی اطلاعات، بازیابی خودکار همه اسناد مرتبط و در عین حال بازیابی کمترین تعداد مقدور از اسناد نامرتبط بر اساس پرس وجوی داده شده است. روشهای کلاسیک بازیابی اطلاعات از اوایل دهه ۱۹۸۰ برای نشان دادن نتایج جستجو و دسته بندی اسناد متنی، به کار می رفته اند. به دلیل ابعاد زیاد اطلاعات متنی (به تعداد کلمات متن) و لزوم تشخیض ابعاد باارزش، روشهای بازیابی متن (بازیابی اطلاعات) با روشهای کلاسیک تفاوتهایی دارند. این تفاوتها در تعریف معیارهای شباهت به جای فاصله و نیز رده بندی نتایج بارز باشند در اشياء متنی به جای فاصله، معمولا شباهت (Similarity) بین اشیاء در نظر گرفته می شود. انواع سیستم های شباهت در فایلهای وب از این قرار هستند ساختار ابرپیوند: اطلاعات پیوندها مستقیما از گراف پیوند به دست می آید. اگر صفحات بسیاری به دو متن اشاره کنند، آن دو متن احتمالا موضوعات مشابهی دارند. ماتریس نقل قول از هم Co-citation به راحتی از گراف پیوند به دست می آید. سایت اسناد علمی citseer مثال خوبی از نقل قول از هم است.
اطلاعات متنی: بر خلاف اطلاعات چاپی، متون وب ارجاعات تصادفی بیشتری به یکدیگر دارند.
: محتويات متن به طور کامل پویش شده و کلمات آن با شمارش تکرارشان استخراج می شوند.
مدل فضای برداری
در این مدل متون به شکل بردارهایی در فضای چند بعدی اقلیدسی نمایش داده میشود (1975 ,Salton et . al ). هر محور این فضا متناظر با یک کلمه یا نشانه (Token) است. مکان هر متن ، در جهت متناظر با با مقدار فراوانی کلمات نشان داده می شود. مثلا فراوانی بر دار کلمات جدول ۲-۲ را در نظر بگیرید. هر بردار دارای ۳ بعد کلمه است و نسبت به بیشترین فراوانی نرمال شده اندة - شکل در فضای سه بعدی شبیه شکل ۲- است:
جدول ۲-۲- فرکانس کلمات در بردار دو متن
شکل ۲-۳ - فضای برداری متون و عبارت پرسوجو
فراوانی کلمه (Term Frequency : TF ): دفعات رخ دادن کلمه t در متن d یعنی است. این فرکانس می تواند به شکلهای مختلف نرمال شود. دو شکل نرمال می تواند چنین باشد:
شکلهای دیگری هم وجود دارد. مثلا سیستم SMART گرنل (Cornell) فرم زیر را استفاده می کند:
فراوانی معکوس متن (Inverse document frequency : IDF ): همه محورها در فضای برداری به اندازه هم مهم نیستند. مختصات كلمات تابعی مثل a , an و the بزرگ و نمای مغشوشی از محتویات متن هستند. IDF به دنبال پایین آوردن مقیاس مختصات کلماتی است که زیاد در متون دیگر رخ می دهند. اگر D مجموعه کل متون و Dt مجموعه متون دارای کلمه t باشد، آنگاه یک شکل متداول وزن دهی) IDF استفاده شده توسط (SMARTچنین است:
اگر آنگاه کلمه t دارای ضریب مقیاس IDF بزرگی خواهد بود و بالعکس. شکلهای دیگری مانند نیز استفاده می شود. اکثر این شکلها توابع خفيف شدهای (Dampend) از هستند. TF و IDF با هم. به طوری طبیعی ترکیب می شوند تا مدل فضای برداری را تشکیل دهند که در آن مختصات متن d در مجور ، با این فرمول داده میشود
بردار d را برای نشان دادن متن d در فضای TFIDF به کار می بریم. پرس و جوی و نیز به عنوان یک متن تعبیر شده و به و در همان فضای تعریف شده توسط D تبدیل میشود (نقيضها و عبارات به روشهای دیگری نشان داده می شوند). مطلب باقی مانده، نحوه اندازه گیری نزدیکی بین q و d برای همه q < d است. یک راه، استفاده از اندازه تفاوت دو بردار یا نرم است. برای استفاده از این معیار، بردارهای متن باید ابتدا در یک سیستم اندازه گیری یا L2 به طول یک نرمال شوند. در غیر این صورت اگر متن d2 پنج دفعه تکرار متن d1 باشد، فاصله| d1 - d20 | قابل ملاحظه می شود که به طور معنایی درست نیست. از آن جا که پرس وجوها کوتاهند، فاصله آنها با متون طولانی، زیاد است و به اشتباه جریمه (Penalized) می شوند. راه دیگر اندازه گیری تشابه بين d و و از طریق کسینوس زاویه بین q و d است. اثر انحرافی این کار معکوس حالت قبل است یعنی متون کوتاهتر به طور طبیعی همپوشانی کمتری با کلمات پرس وجو دارند و بنابراین امتیاز پایین تری به دست می آورند. با این وجود در سیستمهای بازیابی متن (IR) معمولا کسینوس قابل قبول تر از فاصله است.
به طور خلاصه، یک سیستم IR مبتنی بر TFIDF ابتدا ماتریس معکوسی با اطلاعات TF و IDF می سازد و با دادن یک پرسوجو (بردار) به آن، تعدادی از بردارهای متن را که شبیه تر به پرسوجو هستند، فهرست می کند.
معیارهای مشابه و فاصله در مدل TFIDF
معیارهای تشابه، درجه شباهت دو شیء را تعیین می کنند. خصوصیات آنها (2002 ,Dunham) عبارتند از :
که در آنها ti و tj یک زوج متن یا خوشه هستند. tih نمایانگر کلمه hth در متن iام است. معیارهای تشابه متداول عبارتند از:
برخی از معیارهای فاصله که ناهمسانی و عدم تشابه را اندازه می گیرند عبارتند از:
۴ - ۲ -کاربرد کاوی وب
کاربرد کاوی وب به عنوان زیر شاخه ای از وب کاوی در فصول زیر بررسی می شود:
۱ - ۴ - ۲ -ادبیات موضوعی کاربرد کاوی وب
کاربرد کاوی از تکنیکهای داده کاوی به منظور استخراج الگوهای کاربردی ار اطلاعات وب سایتها استفاده می کند. ایده اصلی کاربرد کاوی این است که رفتار بازدید کننده در سایت ملا کی مناسب برای تشخیص نوع نیازهای او می باشد، نتیجه این گزاره این است که می توان با داشتن تاریخچه ای از بازدید های کاربر با قرار دادن او در یک خوشه هر چه سریعتر و بهتر او را به سوی نیازهایش راهنمایی کنیم.
کاربرد کاوی در وب روی فنون پیشبینی رفتار کاربر در هنگام تعامل با وب تأکید می کند. داده های کاوش شده، داده های دست دوم ناشی از تعاملات می باشند. این داده ها در مشتریهای (Client) وب خدمات دهنده های نماینده (Proxy servers و خدمات دهنده ها قرار دارند. در برخورد عمده در فرایند کاربرد کاوی وب وجود دارد. برخورد اول قبل از داده کاوی، ابتدا داده ها به جداول رابطهای نگاشت می شوند. در برخورد دوم، با استفاده از روشهای خاص پیش پردازشن، داده ها به طور مستقیم استفاده
می شوند.
دو عملیات مهمی در کاربرد کاوی وب انجام می شود شامل:
.1دسته بندی بازدیدکنندگان سایت
2. خوشه بندی بازدیدکنندگان با تشخیص ارتباط بین بازدید کنندگان سایت بر اساس رفتارشان است.
در کاربرد کاری از داده های ثانویه که حاصل تعامل کاربران و صفحه وب است استفاده می شود در حالیکه در محتوا کاری و ساختار کاری از داده های واقعی یا ابتدایی که بر روی وب موجود است , استفاده می شود.
داده های کاربرد کاوی شامل داده هایی است که در جداول اکسس سرور ،جداول پراکسی سرور ، جداول جستجو، نمودار کاربر، فایلهای کاربر، کلیکهای موس و غلتک و سایر اطلاعاتی که بوسیله تعامل کاربر و صفحه ایجاد می شود است. که این جداول اکسس وب در اکثر سرور ها قابل حصول هستند .
در خصوص روش های کاربرد کاوی وب، ناوبری کاربر در وب توسط مدل های ریاضی مارکو(Markov) ، براساس میزان تجربه کاربر و دارا بودن یا عدم داشتن راهنمای سایت، تجزیه و تحلیل می گردد (2001 ,Cooper).
۲ - ۴ - ۲ -اهمیت و ضرورت کاربرد کاوی وب
روشها مختلفی برای ارزیابی یک وب سایت وجود دارد ولی با وجود محدودیت های خاص خود استفاده از وب نگاشتها برای ارزیابی وب سایت و رفتار کاربران و روند استفاده و سایر موارد که می توان با کامل بودن نرم افزار ارائه کننده این گزارش ها، افزایش یابد، جای خاصی برای خود در پژوهش های وب سنجی باز کرده است. چنان که جانا و چترجی (2004 , Jana , and Chatterjee) میزان بازدید از سایت را با میزان استنادها در متون کتابسنجی مقایسه می کنند. وب نگاشتها که نوع توسعه یافته گزارشات غیر پیوسته سیستم های بازیابی اطلاعاتی می باشند و در محیط اینترنت و رابطهای کاربری گرافیکی با استفاده از کوکی ها یا جفت )نام ارزش ( تولید می شوند.
. وب نگاشتها که در پرونده هایی به نام پرونده گزارش یا لاگفایل جمع آوری می شوند با گسترش امکانات و تحولات در این باب امکان ارزیابی وب سایت و خدماتی که از آن طریق به کاربران ارائه می شدند، به مدیران نظام های اطلاعاتی و مدیران میسر شد. امروزه استفاده از این ابزار برای ارزیابی خدمات اطلاعاتی وب بنیاد، جای ثابتی برای خود یافته است چنان که می توان آن را در کتابهای روش تحقیق مشاهده نمود.
یکی از متداول ترین کاربردهای این روش در ارزیابی وب سایت ها است که عمدتا با هدف بهبود محتوا و ناوبری وب سایت، ارزیابی تأثیر فعالیتهای بازاریابی بر مخاطبان مورد نظر و سنجش عملکرد نظام و . ملزومات فنی آن انجام میشود(ابرامسون و دیگران (1998 ,Abramson). واکنش های مختلف و متفاوتی نسبت به این ابزار تحلیل نظام بوجود آمده است.
این روش تحقیق نیز همانند سایر روشهای تحقیق دارای مزایا و اشکالاتی است که ستوده (ستوده هاجر، ۱۳۸۲) و (جمالی مهمویی ،۱۳۸۳)، جنا و چترجی های و مگاریتی، و گلدنبرگ، در این باره به صورت مفصل و تفصیلی بحث کرده اند. همانطور که درباره پرونده های گزارش و وب نگاشتها عنوان شد با استفاده از این گزارش ها می توان به تحلیل رفتار کاربر، میزان استفاده، نحوه استفاده و پرداخت و اطلاعات حاصل از چنین تحقیقی می تواند برای مدیران که می توانند چگونگی استفاده از نظام خود را ببینند، پژوهشگران و طراحانی که از این اطلاعات استفاده می کنند و رابطها را بهبود می بخشند و پرسنل پشتیبانی نظام که نه تنها می توانند پاسخهای خود را به سؤالات کاربران بهبود بخشند، بلکه می توانند روش های کمک خودکار سیند پردازی را بهبود بخشند. : وب سایت دانشگاه تربیت مدرس ایران می تواند با استفاده از نتایج این تحقیق در راستای شناسایی بیش از پیش کاربران و دانش الگوهای استفاده کاربران خود گام بردارد.