بخشی از مقاله

بازاریابی هوشمند اینترنتی با استفاده از وب کاوي((Web Mining

چکیده مقاله:

امروزه با گسترش روز افزون استفاده از اینترنت ، بازاریابی سنتی به واسطه ظرفیتهاي فنی جدید و کانالهاي فروش دیجیتالی دچار تحول شده است. بازاریابی اینترنتی انطباق و توسعه استراتژي هاي بازاریابی در محیط وب است و شامل همه عوامل موثر بربهره وري وب سایتها مانند ایده ، محتوا ، ساختار ، روابط ، اجرا ، نگهداري ، ارتقاء و تبلیغات می باشد. به واسطه ماهیت فضاي سایبري اینترنت و عدم مراجعه فیزیکی مشتریان، تامین نیازها و بالا بردن کیفیت خدمات ارائه شده مستلزم داشتن دانش دقیق از اولویت هاي مورد نظر مشتریانی است کهعموماً در بسیاري از موارد علاقه اي به پرس و جوهاي طولانی و پرکردن فرمها ندارند. بنابراین مالکان سایت هاي فروش الکترونیکی مجبور هستند تا تمایلات و ترجیحات مشتریان را از فعل و انفعالات و اطلاعات ناشی از فرآیند فروش، جمع آوري نمایند و لذا اهمیت زیادي دارد که بدانند مشتریانشان به چه صورت از وب سایتهایشان استفاده می کنند. بنابراین آنها نیازمند دریافت بازخورد از آنها هستند زیراکه تداوم کسب و کار خود را در گرو تامین نیازهاي مشتریان می بینند. بدیهی است استنتاج نتایج مفید، مستلزم تجزیه و تحلیل عمیق داده ها است. استفاده از

تکنیک هاي وب کاوي می تواند مزیت موثري جهت طراحی بهینه ساختار وب سایت هاي فروش و در نتیجه افرایش جذب مشتریان بالقوه و نگهداري مشتریان بالفعل باشد. در این مقاله در حوزه web usage mining با استفاده از تکنیک هاي خوشه بندي و درخت هاي تصمیم در داده کاوي، سیستمی ارائه شده است که از اطلاعات ورودي کاربران ( data entry (user ، اطلاعات وقایع سرور((server and cookie logs و اطلاعات فروش((marketing and selling data، به

عنوان داده هاي ورودي جهت استخراج دانش استفاده کرده و به کمک نتایج حاصل از این آنالیز، الگویی منطقی براي طراحی بهینه ساختار وب سایت هاي فروش اینترنتی (site organization) ارائه می نماید. این الگو می تواند براي طراحان وب که

در نظر دارند ساختار سایت و صفحات آن، مبتنی بر اصول صحیح بازاریابی باشد مورد استفاده قرار گیرد.

واژه هاي کلیدي: تجارت الکترونیک((E-Commerce، وب کاوي (Web Mining)، خوشه بندي (Clustering)

-1 مقدمه:

وب منبع عظیمی از اطلاعات است که روز به روز بر حجم آن افزوده می شود. در حال حاضر میلیاردها صفحه که اطلاعات فراوانی از موضوعات مختلف را در بردارند، برروي سرویس دهنده هاي مختلف جا خوش کرده اند. این در حالیست که تولد سایتهاي جدید و گسترش سایتهاي موجود نیز به طور فزاینده اي به این حجم اطلاعات می افزاید. نرخ رشد اطلاعات تا بدان جاست که امروزه مشکل دسترسی به اطلاعات جدي تر از نبود اطلاعات بوده است. امروزه چالش عمده اکثر کاربران دستیابی به اطلاعات مورد نیاز خود است. هر چه بر محبوبیت وب افزوده می گردد، نیاز به بایگانی هوشمند اطلاعات آن نیز بیشتر احساس می شود. در این وادي دغدغه اصلی مدیران فروشگاه هاي اینترنتی فراهم کردن بستري براي ایجاد سهولت دسترسی کاربران به صفحات وب سایت جهت نیل به هدف جذب رضایت مشتري می باشد.

با افزایش تکنولوژي فناوري اطلاعات ،ردیابی، تجزیه و تحلیل ویژگی هاي کاربران وب سایت ها کمک می کند تا طراحان وب سایت ها بستر را به گونه اي آماده نمایند تا کاربران اطلاعات مورد نیاز خود را به سهولت بیابند . وب کاوي از تکنولوژي داده کاوي استفاده می کند و الگوهاي بالقوه مفید و اطلاعات پنهان را از میان اسناد و فعالیت هاي کاربران در وب بدست می آورد.وب کاوي محتواي صفحات وب، اطلاعات کاربران و لینک هاي مابین صفحات و منابع وب را شامل می شود.ویژگی هاي ذاتی مابین داده ها از طریق machine learning، inductive learning و روش هاي تجزیه و تحلیل آماري و امثال این گونه روشها بدست می آید و سپس با استفاده از تکنولوژي داده کاوي الگوهاي مفید بالقوه و جالب و اطلاعات ضمنی بدست می آید و قوانین و دانش هایی با سطح بالا براي کاربران استخراج می گردد.[1]

امروزه فضاي تجارت الکترونیک به صورت فزاینده اي تبدیل به یک فضاي رقابتی شده است بنابراین وظبفه اصلی و اولیه بازاریابی الکترونیکی راضی نگهداشتن مشتري، حفظ مشتریان قدیمی و جذب مشتریان بیشتراست . این مهم نیازمند آن است که وب سایت هاي تجارت الکترونیک به سرعت و با دقت اطلاعات مورد نیاز مشتریان را بیایند، خدمات متفاوت براي مشتریان مختلف ارائه دهند و این قابلیت را براي مشتریان ایجاد کنند تا آنها صفحات را براساس نیازشان سفارشی نمایند. در بازاریابی الکترونیکی وب کاوي داده هاي مصرفی تعداد زیادي از مشتریان را تجزیه و تحلیل می کند و می تواند در کشف ارتباط ذاتی مابین داده ها به منظور پاسخ به موقع با نیازهاي مشتریان و پیش بینی براي آینده به بازاریابان کمک کند.[1]

عمق کاوي امیال مشتریان، توزیع گروه هاي مشتریان، تجزیه و تحلیل توزیع مناسب و خصوصیات بخش هاي بازار تجت این شرایط می تواند توسعه موثري براي برنامه هاي بازاریابی باشد و شرایط بازار را تجزیه و تحلیل کند، استراتژي هاي بازاریابی را تخمین بزند حتی می تواند بی ثباتی قیمت رقبا را بررسی کند و در نهایت یک موقعیت قابل توسعه را براي شزکت فراهم کند.[1]

زمانی که یک وب سایت طراحی می شود داشتن درك روشن و واضحی از پروفایل کاربران و اهداف سایت کافی به نظر نمیرسد. لازم است که طراحان سایت دانش اثبات شده اي از روشهایی که کاربران براي بازدید از صفحات انتخاب می کنند نیز داشته باشند. تجزیه و تحلیل رفتار بازدید کنندگان سایت ابزار قدرتمندي است که می توان از آن براي جمع آوري نکات ارزشمند در مورد اندازه گیري موفقیت یک وب سایت در رسیدن به اهداف مورد انتظار استفاده نمود .اینگونه تجزیه و تحلیل ها شامل بررسی و تفسیر اطلاعات ذخیره شده در Web server log به منظور یافتن الگوهاي پنهان، نهان و ناشناخته از طریق استفاده از تکنیک ها و ابزارهاي داده کاوي و کشف دانش می باشد.[2]

درك رفتار مشتري در شبکه جهانی وب کاملا ضروري براي موفقیت کسب و کار است. با استفاده از این روش بازاریابان قادر خواهند بود به نیازهاي مصرف کنندگان سر وقت پاسخ دهند[3]

-2 وب کاوي

وب کاوي به معناي کاوش و استخراج اطلاعات در شبکه جهانی وب ، جمع آوري هوش با استفاده از تکنیک هاي داده کاوي در صفحات موجود در دسترسی در وب یا access logs هاي سرور. به عبارت دیگروب کاوي کاربردي از تکنیکهاي داده کاوي است که به صورت خودکار اطلاعات را از مستندات وب کشف و استخراج می کند.[3] اهداف انجام وب کاوي به قرار زیر می باشد:

• کاهش میانگین عددي صفحه هاي ملاقات شده بوسیله مشتري قبل از تراکنش خرید

• افزایش میانگین عددي صفحه هاي دیده شده بوسیله کاربران درهرنشست

• افزایش بازده وب سرور ها

• شخصی سازي به صفحه وب ها براي مشتریان

• تشخیص محصولاتی که ماهم مورد بازبینی یا خرید قرار می گیرند

• کاهش تعداد موارد بازگشتی

• افزایش نرخ نگهداري بازدید کننده در صفحات

-3 دسته بندي وب کاوي

وب کاوي با توجه به حوزه عملکرد می توان به سه دسته تقسیم کرد:

• محتوا کاوي وب (Web content mining)

• ساختار کاوي وب (Web structure mining)

• کاربرد کاوي وب ( 1](Web usage mining،2،[4

-1-3 ساختار کاوي وب:

یک شاخه دیگر این مقوله ، ساختارکاوي وب((Mining Web Structure است که به کشف مدل پشت زمینه حاکم بر ساختار فرا پیوند هاي وب می پردازد و هدف آن ، ایجاد اطلاعاتی همچون تشابه یا ارتباط بین سایت هاي مختلف وب است. در ساختار کاوي تلاش براین است که دانش از ساختار و سازمان دهی یک وب سایت،توپولوژي صفحات و لینک مابین آنها بدست آید[2]

-2-3 محتوا کاوي وب:

محتواکاوي وب، یکی از سه شاخه وب کاوي است که در واقع ، کشف اطلاعات مفید از مستندات و داده هاي ساختیافته و نیمه ساختیافته و غیر ساختیافته وب می باشد.محتواکاوي فعالیتی است که مستقیما مربوط به کاربران نهایی وب می شود که در تلاش براي پیدا کردن اطلاعات مربوطه را از محتویات ذخیره شده در اسناد وب می باشند.[2]

در زمینه محتواکاوي وب نرم افزارهاي خزنده((Crawler ، به گشت و گذار در اقیانوس وب پرداخته ، اقدام به نمایه سازي واژگان در پایگاه داده خود می نمایند که مورد استفاده موتورهاي کاوش ، در زمان جستجوهاي کاربر قرار می گیرد. نمونه بارز این روش ، موتور کاوشگر Google است5]،.[6 در همین راستا ابزارهایی همچون Finite-State Automaton Text:FASTUS Understanding System ، در خلال این ماموریت به تجزیه و تحلیل متون ، با هدف کشف گروه هاي مختلف واژگان مانند

 

اسامی ، افعال ، ترکیبات وصفی و اضافی ،… می پردازند که به کشف دانش از محتویات وب کمک می کند. این روش هم اکنون براي زبان هاي انگلیسی و ژاپنی پیاده سازي شده است وبصورت بالقوه براي دیگر زبان ها قابل استفاده است7]،.[6

-3-3 کاربرد کاوي وب:

کاوش استفاده از وب به استخراج الگوهایی بامعنی از داده هاي تولید شده در تعامل بین کلاینت و سرورهاي وب می پردازد.

این نوع کاوش بر تکنیکهایی تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پیشبینی میکند. دادهاي که در این نوع کاوش مورد استفاده قرار میگیرد، دادههایی است که در نتیجه تعامل کاربران با وب ایجاد و نگهداري شدهاند.[1] هدف اصلی کاوش استفاده از وب، جمع آوري اطلاعات راجع به الگوهاي پیمایش کاربران می باشد. از این اطلاعات بصورت سابقه اي در مراجعات بعدي کاربر استفاده خواهد شد.[2] همچنین این اطلاعات می توانند براي بهبود سایت هاي وب از دید کاربران به کار روند

.کاربردهاي این نوع کاوش، معمولا شامل خصوصیسازي وب، ایجاد سایتهاي وب تطبیقی، مدلسازي کاربر، ... میباشد.

قابلیت استفاده4 یکی از مسائل مهم در طراحی و پیاده سازي سایت هاي وب است. نتایج به دست آمده از کاوش استفاده از وب می توانند به طراحی مناسب سایت هاي وب کمک کنند. سایت هاي وب تطبیقی یک کاربرد از این نوع کاوش می باشند. در این سایت ها محتوا و ساختار سایت وب به صورت پویا بر اساس داده هاي استخراج شده از رفتار کاربر سازماندهی مجدد می شوند.[8] بطور دقیقتر یکی از انواع کاربرد کاوي وب به کشف الگوهاي دسترسی کاربر با استفاده از فایلهاي log موجود در سرور اشاره می کند3]،.[9این اطلاعات به توسعه دهندگان و طراحان وب سایت ها کمک خواهد کرد تا از اطلاعات مرتبط و مفید که به صورت پنهان در فایلهاي log وب سرور جهت تشخیش الگوهاي ناوبري مشتریان استفاده نمایند.[2]

کاربرد کاوي وب دو جنبه مختلف و مکمل دارد : از یک طرف براي تجزیه و تحلیل سیستماتیک تمایلات کاربران استفاده می شود و از سوي دیگر یک یک ابزار قدرتمند در زمینه طراحی و اصلاح ساختار وب سایت ها می باشد. جنبه هاي مختلفی براي بدست آوردن دانش و درك مورد نظر هنگام تجزیه و تحلیل سایت رفتار بازدید کنندگان یک سایت وجود دارد:

• علاقمندي هاي کاربران و اطلاعاتی که به آن دسترسی پیدا کرده اند.

• راه و روشی که این اطلاعات مورد دسترسی قرار گرفته اند.2]،[10

اکثر فعالیتهاي استفاده کاوي وب روي جنبه دوم متمرکز شده است. این فعالیتها دو دیدگاه مختلف را مورد بررسی قرار داده اند:

• چگونه طراحان انتظار دارند که سایت مورد استفاده قرار گیرد.

• روشی که بازدید کنندگان به طور موثر از سایت استفاده می کنند2]،[11

یک نمونه از سایت هاي تجاري که از تکنیک هاي وب کاوي همچون استخراج ارتباط بین صفحات مشاهده شده توسط کاربر، تحلیل مسیر کلیک شده، ... استفاده می کند، سایت Amazon است که موفقیت هاي چشمگیري براي آن به دنبال داشته است.

-4 جمع آوري اطلاعات:

کاربردهاي کاربرد کاوي وب بر اساس جمع آوري داده ها از سه منبع اصلی پایه ریزي شده است: [12]

-1-4 وب سرورها:

سرورهاي وب غنیترین و رایجترین منبع داده هاي استفاده از وب هستند. آنها داده ها را در فایل هاي ثبت5 خود و فایل هاي ثبت پایگاه داده هایی که استفاده می کنند، ذخیره می نمایند. این داده ها، معمولا شامل آدرس هاي IP، زمان و تاریخ دستیابی ها و ... می باشند و معمولا در قالب هاي استاندارد مانند Common Log Format، Extended Log Format، LogML، ...

بازنمایی می شوند. یک چالش اصلی در استفاده از سرورهاي وب، تشخیص نشست6 هاي کاربر (دسته بندي تقاضاهاي کاربر به گونه اي که مسیر پیمایش وي در سایت مشخص شود) می باشد. نحوه انجام این کار به نوع داده هایی که در فایل هاي ثبت ذخیره می شود، بستگی دارد. رایج ترین روش براي تشخیص نشست هاي کاربر، استفاده از cookie ها می باشد. به غیر از فایل هاي ثبت، می توان از شنود7 بسته هاي TCP/IP براي ردیابی رفتار کاربران استفاده کرد. همچنین برخی از سرورهاي برنامه هاي کاربردي، تعاملات کاربران با سرور را ردیابی کرده و آنها را در فایل هاي ثبت سرور نگهداري می کنند. به طور کلی در صورت ذخیره داده ها در سمت سرور، یک تصویر کلی از چگونگی استفاده شدن یک سرویس توسط تمام کاربران وجود دارد3]،13،8،.[14

-2-4 پراکسی سرورها:

بسیاري از خدمات دهندگان سرویسهاي اینترنت (ISP8) خدمات پراکسی سرور را به مشتریانشان جهت بهبود سرعت ناوبري از طریق caching ، ارائه می دهند. از بسیاري جهات ، جمع آوري داده ها در سطح پروکسی اساسا همانند جمع آوري داده ها در سطح سرور است. تفاوت اصلی در اینجا آن است که سرورهاي پراکسی داده هاي گروه هایی از کاربران را که به تعداد زیادي از سرورهاي وب مراجعه می کنند، جمع آوري می کنند. در این حالت نیز تشخیص نشست هاي کاربران مشکل است و نمی توان کلیه مسیرهاي پیمایش کاربران را تشخیص داد3]،[14

-3-4 کلاینتهاي وب:

اطلاعات در سمت کلاینت با استفاده از جاوا اسکریپت،applet هاي جاوا و یا حتی مرورگرها می توانند ردیابی شوند. این تکنیک ها مشکلات شناسایی session هاي کاربران و مشکلات مربوط به caching مانند استفاده از کلید بازگشت(( back را ندارد
همچنین با این روش اطلاعات تفصیلی راجع به رفتار کاربر قابل دستیابی است. همچنین این امکان وجود دارد که رویدادهاي متنوعی در برنامه کاربردي تعریف گردد و در صورت رخداد آنها، در فایل هاي ثبت، ذخیره شوند. به این ترتیب تاریخچه اي از رویدادهاي مختلف تعریف شده در برنامه تولید می شود. به طور کلی در صورت ذخیره داده ها در سمت کاربر، یک تصویر کامل از چگونگی استفاده شدن کلیه سرویس ها توسط یک کاربر خاص ایجاد می شود .اما این روش ها وابسته به همکاري کاربران است و ممکن است منجر به نقض قوانین مربوط به حفظ حریم خصوصی کاربران گردد..3]،[14

کاربرد کاوي وب شامل log هاي وب، اطلاعات ثبت نام و پرس وجوي کاربران، محتواي فعالیتهاي تجاري و پایگاه داده هاي مبتنی بر خدمات می باشد و از میان آنها کاوش فایلهاي log وب مهمترین است. این فایلها در وب سرورها به صورت هاي زیر ذخیره می شوند:

logهاي خطا ، اطلاعات درخواستهاي شکست خورده همانند لینک هاي گم شده، احراز هویت هایی که با شکست مواجه شده و یا مشکلات مربوط به timeout را در خود نگهداري می کنند. به غیر از تشخیص لینک هاي اشتباه یا مشکلات ظرفیتی سرور، ثابت شده است که بیشترین استفاده از این فایل ها در عملی کردن بازاریابی هوشمند است.[15]

:cookie logs -2-3-4

کوکی ها فایل هاي متنی کوچکی هستند که توسط وب سرور در سمت کلاینت (مشتري) در مدتی که کاربر با مرورگر در حال بازدید از وب سایت است تولید می شود15]،.[13 کوکی ها موجب می شوند تا یک شماره شناسایی یا کد خاصی به هر کاربر

اختصاص داده شود. هر بار که کاربر در حال بازدید از وب سایت است به وسیله این کد، شناسایی می شود.[13] کوکی ها توسط وب سرور تولید می شوند و در کلاینت ها نگهداري می شوند. اطلاعات ذخیره شده در cookie log ها به بهتر
شدن تراکنش هاي وب سرور کمک می کند.و باعث می شود تا سرور قابلیت ردیابی دسترسی کلاینت ها به صفحات وب را داشته باشد.[15]

:server logs -3-3-4

مرور گر هاي وب و سرور هاي ارتباطی از پروتکل هاي http9 استفاده می کنند. هدر یک پیغام در خواست http شامل متغیرهاي ارزشی است که وب سرور می تواند آنها را در فایل هاي گزارشlog خود ثبت و نگهداري کنند.بنابراین فایلهايlog وب شامل فیلد هایی است که درخواستهایی که مرورگرها از وب سرور می کنند را در خود نگهداري می کنند. با ترکیب اطلاعاتی که از این اطلاعات استنتاج می شوند و با در نظر گرفتن اینکه این اطلاعات چگونه مشتق می شوند ، می توان به دقت عملکرد مشتري را تجزیه و تحلیل کرد.16]،17،18،[19

فایلهاي log دو نوع فرمت مختلف دارند:

• CLF (Common Log Format)

• 16] ECLF (Extended Common Log Format)،18،[19

این فرمت ها در درجه اول شامل اطلاعاتی مانند شماره نسخه10 تولید کننده فایل (log generator)log و تاریخ و ساعت تولید فایل log می باشد.[15] به صورت سنتی وب سرورها اطلاعات فعالیتهاي سرور، error ها و صفحات قبلی بازدید شده رابه صورت جداگانه براي هر رویداد11ذخیره می کردند اما اکنون فایلهاي CLF به گونه اي هستند که log هاي سرور و error ها را در قالب یک فایل واحد نگهداري می کنند. فرمت ECLF علاوه بر اطلاعات CLF، کوکی ها و ارجاعات از صفحات دیگر را نیز ذخیره می نماید18]،.[19

در فرمت CLF اطلاعات زیر قابل دسترسی است:

• :Date تاریخ دسترسی به صفحه مورد نظر

• :Time زمان دسترسی به صفحه مورد نظر

• :s-sitename نام سرویس

• :s-ip آدرس IP سرور

• :cs-method روشی که مورد استفاده قرار گرفته است GET و یا POST

• :cs-uri-stem نام و مسیر صفحه درخواست شده

• :cs-uri-query پرس و جو (query) ارسال شده

• :s-port شماره پورت سرور

• :cs-username نام کاربري مشتري است که مربوط به صفحاتی است که براي دسترسی کاربر محدود شده

باشند و نیاز به نام کاربري دارند.

• :c-ip آدرس IP کلاینت

• :cs(User-Agent) فراهم کننده خدمات

• :sc-status کد وضعیت یا حالت HTTP که به کلاینت برگردانده می شود

• :sc-substatus پروتکل subststus

• :sc-win32-status وضعیت win32

در فرمت ECLF که فرمت کامل تري است علاوه بر اطلاعات ذکر شده در فرمت CLF، فیلدهاي زیر نیز قابل دسترسی است:

• :service name نام سرویس درخواستی

• :time taken زمانی که صرف می شود تا یک تراکنش اتمام یابد

• :protocol version نسخه پروتکل استفاده شده براي انتقال

• :user agent فراهم کننده خدمات

• :cookie شناسه کوکی

• :Referrer صفحه قبلی

گسترش روز افزون تجارت الکترونیک و افزایش تعداد بازدید کنندگان سایت هاي فروش اینترنتی موجب افزایش حجم فایلهاي log موجود در وب سرورها شده و این مسئله چالشی را از نظر حجم فضاي اشغال شده توسط این فایلها در وب سرورها به وجود آورده است. بنابر این عموما این فایلهاي حجیم براي محدوده زمانی خاصی در وب سرور نگهداري می شوند.

-5 تجزیه و تحلیل فایلهاي :log

Web log mining از طریق آنالیز فایلهاي log وب سرورها که حاوي اطلاعات بازدید از سایت است داده هاي آماري را باجزئیات براي انجام داده کاوي روي آنها بدست می آورد و بدین ترتیب مدیران وب سایت ها دانش مفیدي را بدست می آورند. به عنوان مثال رفتار مشتریان در حین جستجو در وب سایت هاي تجاري بر اساس الگوهاي دسترسی آنان قابل شناسایی است و این مهم در ارائه خدمات شخصی سازي و در نتیجه بهبود کیفیت خدمات ارائه شده براي مشتریان نقش بسزایی خواهد داشت.[1]

شکل -1 مدل عمومی کاربرد کاوي وب

فرآیند Web log mining می تواند به چند مرحله تفکیک شود:

• جمع آوري اطلاعات اصلی: تشخیص دادن و فیلتر کردن داده ها و اطلاعات مناسب که از طریق پیش پردازش (preprocessing) انجام می پذیرد.
• پردازش داده ها: الگوهاي مناسب و مورد نظر با استفاده از نتایج پیش پردازش مرحله قبل کشف و استخراج می گردند که این مرحله به pattern discovery معروف است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید