چکیده
– شبکه وب، مجموعه بزرگ و عظیمی از دادهها میباشد که به طور چشمگیری این دادهها رو به افزایش میباشند.نیاز به روشها و تکنیکهایی که بتوانند امکان دستیابی کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود. وبکاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های دادهکاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب میپردازد. در واقع وبکاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب میباشد.یافتن اطلاعات مفید از میان این انبوه اطلاعات بسیار چالش برانگیز میباشد. از وبکاوی به گونهای که بتوان جزئیات لازم را بازیابی و بهرهبرداری نمود، استفاده میشود که میتوان آن را به سه دسته اصلی تقسیمبندی نمود. وبکاوی محتوا یکی از بخشهای وبکاوی میباشد که در این مقاله مورد توجه قرار گرفته است و به بیان الگوریتمها، ابزارها و تکنیکهای آن پرداختهایم.

کلید واژه- ابزارها،الگوریتمهای طبقهبندی،تکنیکها، وبکاوی، وبکاوی محتوا.

-۱ مقدمه

شبکه جهانی وب،یک منبـع غنـی از اطلاعـات اسـت کـه از لحاظ اندازه و پیچیدگی در حال گسترش میباشـد . بازیابیصـفحه وب مورد نیازدر وب بهصورت کارآمد و مؤثر به یک چالش تبدیل شده است. هرگاه کاربر بخواهد به جستجوی صفحات مـورد نظـر بپردازد، با انبوهی از اطلاعاتمواجه میشود که کاوش آنهـا بسـیار دشوار و زمانبر میباشد و یافتن کلید واژههای مناسـب و مـرتبط برای کاربران بسیار دشوار میباشد. این مسئله ضرورتوجود برخی از تکنیکها رابرای حل این چالش ها افزایش میدهد.

وبکاوی، به کمک دیگر حوزهها ماننـد پایگـاه داده، بازیـابی اطلاعات، پردازش زبان طبیعی، ماشین یادگیری و غیره میتوانـد موجب تسهیل جسـتجو در میـان صـفحات وب گـردد . برخـی از چالشهای موجود در وبکاوی عبارتند از :[۱]

(۱ بزرگی وب.
(۲ صفحات وب نیمه ساختیافته.

(۳ اطلاعات وب مخفف با معانی مختلف. (۴ درجه کیفیت اطلاعات استخراجشده. (۵ استنتاج دانش از اطلاعات استخراجشده.

وبکاوی را میتوان به سه دسته، بهصورت نشـانداده شـده در شکل ۱، دستهبندی نمود.

شکل :۱ طبقهبندی وبکاوی

استخراج محتوای وب: فرآینـد اسـتخراج اطلاعـات مفیـد از محتویات اسناد وب است که مربوط بـه دادهکـاوی و مـتنکـاوی است. زیرا بسیاری از مطالب وب مبتنی بر مـتن هسـتند. مـتن-کاوی بر روی متون غیرساختیافته تمرکـز دارد . تکنولـوژیهـای مورد استفاده در استخراج محتوای وب NLP1 و IR2 میباشند.

استخراج سـاختار وب: تـلاش بـرای کشـف دانـش مفیـد از ساختار و فراپیوندها میباشد. هدف استخراج سـاختار وب، تولیـد خلاصه ساختیافته درباره وبسایتها و صـفحات وب اسـت و از

۱Natural Language Processing (NLP)× ۲Information Retrieval (IR)×

زذتل خغ۱سکطغکطکسغپه

تذغ شAلع ,لاهلاکغهعطکل y,هق ذصستص

یک سـاختار درخـت ماننـد بـرای آنـالیز و توصـیف HTML3 یـا XML4 استفاده میکند.

استخراج کاربرد وب: فرآیندی است که بهوسیله آن میتـوان با آنالیز رفتار پیمایشی کاربر بـه شناسـایی الگوهـای مـروری (در حال بازدید) پرداخت. این روش تمرکز بر تکنیکـی بـرای پـیش – بینی رفتار کاربر به هنگام تعامل با وب را دارد و از داده ثانویه در وب استفاده میکند. این فعالیت شـامل کشـف خودکـار کـاربر از الگوهای یک یا چند سـرور وب اسـت و شـامل سـه فـاز بـه نـام: پــردازش، کشــف الگــو و آنــالیز الگــو مــیباشــد. ســرورهای وب، پروکسیها و کاربردهای مشتری به راحتی مـیتواننـد اطلاعـاتی درباره کاربرد وب بدست آورند .[۲]

تمرکز این مقاله، بر روی مطالعه خصوصیات و تکنیـکهـای موجود در وبکاوی مبتنی بر استخراج محتوای وب یـا وبکـاوی محتوا میباشد. در ادامه، در بخش ۲ به بیان روشهای موجـود، و در بخش ۳ به بیان الگوریتمهای موجود مـیپـردازیم . سـپس در بخــش ۴، ابزارهــای وبکــاوی محتــوا را ذکــر نمــوده و برخــی از تکنیکهای وبکاوی محتوا برای سایتهـای خریـد آنلایـن را در بخش ۵، مطرح خواهیم نمود. در آخر، به نتیجـهگیـری و جمـع – بندی مطالب در بخش ۶ خواهیم پرداخت.

-۲ روش وبکاوی محتوا

بهطورکلی میتوان رویکردهای وبکاوی محتـوا را بـه چهـار دسته تقسیمبندی نمود که در ادامه به بیان آنها خواهیم پرداخت .[۳]

(۱) متن داده کاوی غیرساختیافته:

بیشتر داده محتوای وب از نوع مـتن داده غیرسـاخت-یافتـه میباشد که در آنها استخراج محتوا، نیازمنـد بکـارگیری تکنیـک هــای اســتخراج داده و اســتخراج مــتن اســت . پــژوهش حــول بکارگیری تکنیکهـای اسـتخراج داده بـرای مـتن غیـر سـاخت یافته،کشف دانش در متون یا اسـتخراج مـتن داده یـا اسـتخراج متن نامیده میشود. بعضی از تکنیکهای مورد اسـتفاده در مـتن کاوی عبارتند از: استخراج محتوا، ردیابی موضوع، تلخیص، دسته

۳Hyper Text Markup Language (HTML) 4Extensible Markup Language (XML)

بندی، خوشهبندی و مصورسازی اطلاعات. (۲) داده کاوی ساختیافته:

داده ساختیافته بر روی وب نشاندهندهصفحاتمیزبان آنهـا است. داده ساختیافته در قیاس با متون غیر ساختیافته، آسانتر استخراج میشود. تکنیکهـای مـورد اسـتفاده بـرای داده کـاوی ساختیافته عبارتند از: خزنده وب، نسلدهندهواستخراجمحتوای وب.