بخشی از مقاله
چکیده
خزندهی وب ، عاملی است که با کاوش در فضای وب، اسناد را بررسی و دستهبندی مینمایند. یک خزنده سایتهای زیادی را برای جمعآوری اطلاعات بازدید میکند. این اطلاعات در یک مکان مرکزی ذخیرهشده و برای پاسخ به نیازهای کاربران مورداستفاده قرار میگیرد. با توجه به گستردگی موضوعات منتشرشده در فضای وب و حجم زیاد تغییرات، برای کاهش زمان بهروزرسانی و افزایش دقت نتایج ، نوعی از خزندههای وب موردنیاز است که تنها صفحات مرتبط با موضوع خاصی را دنبال کند. این نوع از خزندههای وب، خزندههای متمرکز نامیده میشوند.اصلیترین چالشی که خزندههای متمرکز با آن روبهرو هستند تشخیص ارتباط موضوعی یک پیوند بازدید نشده، با موضوع مشخصشده برای خزنده است و سپس در صورت وجود ارتباط، اختصاص اولویت مناسب به آن پیوند، برای دنبال کردن آن در آینده است. روشهای مختلفی برای پیادهسازی خزندههای متمرکز و مقابله با این چالش مورداستفاده قرارگرفته است. این مقاله به بررسی این روشها و نحوه برخورد آنها با این چالش میپردازد.
کلمات کلیدی: خزندههای وب ، خزندههای متمرکز ، خزندههای موضوعی ، شاخصگذاری وب ، کراولر
-1 مقدمه
با گسترش سیستمهای ارتباطی و مخابراتی شاهد رشد روزافزون کاربردهای اینترنت ازجمله وب هستیم. حجم اطلاعات منتشرشده در فضای وب بهسرعت در حال افزایش است ، این اطلاعات دامنه گستردهای از موضوعات ازجمله اخبار ، مطالب علمی ، سرگرمیها ، دادههای مربوط به اقتصاد و بورس و ... را در برمیگیرد . تمامی این پیشرفتها زمانی مفید و کاربردی است که اطلاعات منتشرشده به شکل مناسب قابلدستیابی باشد و امکان استفاده گسترده از آن فراهم آید. عاملهایی که با کاوش در فضای وب ، اسناد را بررسی و دستهبندی مینمایند. به خزندههای وب معروف هستند.
یک خزنده، سایتهای زیادی را برای جمعآوری اطلاعات بازدید میکند. این اطلاعات جهت آنالیز و کاوش در یک مکان مرکزی بهصورت برخط - هنگامیکه دانلود میشود - و یا بهصورت غیر برخط - بعد از ذخیرهسازی - میتواند مورداستفاده قرار گیرد. [1]کاربردهای زیادی برای خزندهها وجود دارد. ازجمله کاربرد در هوش تجاری برای جمعآوری اطلاعات در مورد رقبا و همکاران ، ساخت برنامههای مخرب برای جمعآوری اطلاعات شخصی و آدرس ایمیل افراد و پشتیبانی از موتورهای جستوجو که البته مهمترین کاربرد آن است. [1] اما با تمام پیشرفتهای صورت گرفته دو محدودیت عمده در عملکرد خزندهها
وجود دارد که عبارتاند از:
.1 خزندههای معمولی قادر نیستند در هنگام فعالیت، تنها برای شاخص گذاری صفحات مرتبط با یک موضوع یا عنوان خاص تنظیم شوند. .2 وجود تأخیر در شاخص گذاری و بروز رسانی شاخصهای همه وبسایتهای موجود در فضای وب به علت توزیع گسترده موضوعات و حجم زیاد اطلاعات برای غلبه بر این کاستیها ، خزندههای متمرکز برای شناسایی صفحات و اسنادی که ازنظر موضوعی به هم مرتبط است ، به وجود آمدند. این خزندهها کارایی را در قالب صحت ، هزینه و سرعت افزایش میدهند. [2] اینگونه از خزندهها در هنگام بررسی محتوای صفحات، در مواجه با هر پیوند موجود در صفحه ابتدا ارتباط موضوع آن پیوند و صفحه مربوط به آن را با موضوع مشخصشده خود بررسی میکنند و درصورتیکه این ارتباط موجود باشد، با توجه به میزان ارتباط آن را رتبهبندی کرده و برای کاوشهای آینده در لیست خود قرار میدهند. مزیت قابلتوجه در استفاده از خزندههای متمرکز امکان متمرکز نبودن و ذخیرهسازی شاخصها در منابع مختلف است که این مورد ازنظر فنی مزایای قابلتوجهی را در کاهش هزینه و افزایش کارایی خواهد داشت. دو چالش و هدف عمده در توسعه خزندههای متمرکز وجود دارد:
.1 پیشبینی موضوع یا عنوان یک صفحه بازدید نشدهمعمولاً، قبل از آنکهواقعاً برای دانلود محتوای صفحهاش تلاش گردد.
.2 نحوه اولویتبندی پیوندهای بازدید نشده و مرتبط با موضوع برای دانلودهای بعدی است. [3]
در برخورد با چالش اول هر یک از پژوهشهای انجامشده الگوریتمی جهت پیشبینی میزان ارتباط پیوندها با بالاترین صحت ممکن استفاده میکنند. یکی از تفاوتهای عمده این روشها در نوع ویژگیهایی است که برای پیشبینی موضوع صفحات استفاده میکنندمثلاً برخی خزندههای متمرکز تمام محتوای متنی صفحه مربوط به پیوند را دانلود کرده ، آن را تحلیل میکنند و در ادامه تصمیم میگیرند که آیا این صفحه به موضوع موردنظر آنها مرتبط هست یا خیر . اما برخی دیگر از خزندههای متمرکز نیز وجود دارد که از طریق بررسی متن قابلمشاهده یک پیوند در صفحه والد و مقایسه آن با موضوع موردنظر خود سعی در پیشبینی میزان ارتباط دارد.
برای رسیدن به هدف دوم برخی پژوهشگران ازجمله علی سیفی و احمد پاتل }ارجا به { 3 معتقدند اولویت مناسب باید به تمام URL های استخراجی از یک صفحه اختصاص یابد و این آدرسها برای دانلودهای بعدی در صف دانلود قرار خواهند گرفت. این پژوهش بیان میکند که در عمل اولویتبندی، مهم است که کار بهگونهای انجام شود که برخی صفحات نامرتبط برای رسیدن به نواحی پرجمعیت دیگر از صفحات وب - نواحی که مطالب و پیوندهای مرتبط در آن زیاد است - بازدید شوند و از آن گذر شود.[2] البته میتوان گفت که در برخی موارد این روش دچار بار اضافه برای سیستم است چراکه مشخص است تمام آدرسها در یک صفحه درنهایت به نواحی پرجمعیت ختم نمیشود مثلاً، در بسیاری از صفحات پیوندهای تبلیغاتی زیادی در صفحه وجود دارد.
بر این اساس ما پژوهشهای صورت گرفته در حوزه خزندههای متمرکز و موضوعی را بر اساس معیار نحوه پیشبینی ارتباط موضوع صفحات مربوط به پیوند بازدید نشده با موضوع خزنده متمرکز و نحوه اولویتدهی پیوندههای بازدید نشده بررسی کردهایم.در قسمت دوم کارهای انجامشده را بر اساس معیار بیانشده مطالعه کردیم. در قسمت سوم به مقایسه کارهای شاخص انجامشده میپردازیم و مزیتها و معایب هرکدام را بررسی میکنیم. در قسمت چهارم نتیجهگیری آورده شده است. -2 کارهای انجامشده از منظر نحوه پیشبینی ارتباط موضوعی پیوند بازدید نشده با موضوع خزنده و اولویتبندی آن هر یک از کارهای پژوهشی انجامشده از روشی جهت پیشبینی میزان ارتباط پیوندها برای رسیدن بالاترین صحت یا دقت ممکن استفاده میکنند. اصلیترین تفاوت این روشها در انتخاب نوع و نحوه ترکیب ویژگیهایی است که برای پیشبینی موضوع صفحات استفادهشده است.
1؛-2 روشهای مبتنی بر معناشناسی
در این پژوهشهاعمدتاً از آنتولوژی و لغتنامه برای یافتن ارتباط معنایی بین موضوع یک پیوند بازدید نشده و موضوع دادهشده به خزنده متمرکز استفاده میکنند. این کار باعث میشود که حتی در صورت نبود عبارات مشترک در بین موضوع مشخصشده برای خزنده و موضوع متنهای یک پیوند بازدید نشده، در صورت وجود ارتباط معنایی بین آن دو، میزان ارتباط قابلتشخیص بوده و اولویت مناسب به آن پیوند برای بازدیدهای بعدی اختصاص یابد. ازجمله این پژوهشها میتوان به 8] [4]؛[5 اشاره کرد.
در خزندههای مبتنی بر [6 ,5] 1 SSRM شباهت معنایی بین عبارتها نخست بر اساس آنتولوژی محاسبه میشود. علاوه بر آن مقادیر TF*IDF برای عبارتهای موجود در متن - هرکدام از متنهای مرتبط با پیوند بازدید نشده - و موضوع مشخص برای خزنده محاسبه میشود. مقادیر TF*IDF وزن مربوط به شباهت عبارت موجود در متن پیوند و عبارت موضوع خزنده است. که TF بیانگر فرکانس عبارت 2و IDF بیانگر معکوس فرکانس سند مربوط به یک عبارت است. درنهایت شباهت موضوعی بین هر متن مربوط به پیوند و موضوع مشخصشده برای خزنده، با نرمالسازی جمع مقادیر حاصل از ضرب میزان شباهتهای بین هر دو عبارت، در مقدار وزن TF*IDF مربوط به همان عبارت به دست میآید.
[7] LSCrawler از آنتولوژی های متناظر با عنوان مورد تمرکز خزنده برای افزایش کارایی استفاده میکند همچنین جهت ارزیابی معنایی متن هر پیوند و متن اطراف هر URL بازدید نشده از این ابزار بهره میگیرد. این روش مقدار Recall برابر 0,6 دارد که در بسیاری از مقالات اخیر بهعنوان اساس و پایه برای تکنولوژیهای مبتنی بر معناشناسی مورداستفاده قرارگرفته است. [8] OntoCrawler از یک تکنیک فازی برای وزن دهی به محتوای صفحات بهره گرفته و با توجه به اینکه برای کلاسبندی دانش، وابسته به آنتولوژی است بهعنوان یک خزنده معنایی 1در نظر گرفته میشود. در آزمونهای انجامشده OntoCrawler نرخ دقت %90 را روی موضوع فوتبال نشان داده است
در [4] یک خزنده بر مبنای مدل فضای برداری شباهت معنایی SSVSM2 مطرحشده است. در این تحقیق دو مشکل برای روشهای مبتنی بر VSM و SSRM بیانشده: .1 در VSM نیاز به وجود عبارت مشترک بین سند مربوط به پیوند و موضوع مشخصشده برای خزنده هست. .2 در SSRM ، تفاوت فرکانس عبارتها در سند مربوط به پیوند و موضوع مشخصشده برای خزنده محاسبه میزان ارتباط را با خطا مواجه میکند. درنتیجه این روش برای حل این دو مشکل از ترکیب روشهای فوق بهره گرفته است. در این پژوهش شباهت کسینوسی و شباهت معنایی در میان عبارتهای مربوط به پیوند بازدید نشده و موضوع مشخصشده برای خزنده محاسبهشده و باهم ترکیب میشود.
در این روش برای محاسبه شباهت از متن مربوط به پیوند 3و متن کامل سند والد 4 - سندی که پیوند بازدید نشده در آن قرار دارد - استفادهشده است.همچنین برای محاسبه شباهت معنایی بین عبارات از آنتولوژی و روابط موجود در آنتولوژی بهره گرفته است. برای این پژوهش از آنتولوژی WordNet استفادهشده که محبوبترین آنتولوژی زبان طبیعی است. مشخص است که به با توجه به اینکه هر لغتنامه مربوط به روابط معنایی یکزبان خاص است اغلب این روشها برای یکزبان خاص طراحیشده و نتایج آزمایشهای انجامشده در این روشها منحصر به زبان به مشخصشده در آن پژوهش است.
2؛-2 روشهای غیر معناشناسی
در این دسته پژوهشها با مقایسه عبارتهای مربوط به پیوند بازدید نشده و موضوع مشخصشده برای خزنده متمرکز بر اساس روش یا روشهای مشخصشده در پژوهش ، مرتبط بودن یا نبودن یک پیوند مشخص میشود. نکته مشترک بین این روشها، عدم استفاده از آنتولوژی و روابط معناشناسی مربوط به آن است . هرچند در برخی روشهای بهکاررفته ازجمله استفاده از ساختار گراف، تا حدودی روابط معنایی در آن لحاظ میشود. ازجمله روشهای بهکاررفته در این دسته میتوان به استفاده از مدل فضای بردار [10] [9]5 و روشهای مبتنی بر گراف [3] [2] [11] اشاره کرد. [11] Meta Search Crawler وابسته به نتایج بهدستآمده از دیگر موتورهای جستوجو است به صورتی که چند پرسوجو با عنوان خاص به چند موتور جستوجو ارسال میکند و نتایج حاصل از آنها ادغام میشود. این روش صحت مناسب در باقی ماندن روی عنوان اصلی خود دارد درحالیکه میزان دقت %50,23 است. البته این میزان دقت بستگی بهدقت موتورهای جستوجوی مورداستفاده نیز دارد.
.در این تحقیق علاوه بر متن پیوند بازدید نشده از چند عنصر ساختار HTML مربوط به صفحه والد نیز استفاده میشود که به بهبود صحت تشخیص مرتبط بودن پیوند با موضوع مشخصشده برای خزنده کمک کرده است. برای تخمین موضوع صفحه ، یک روش اختصاصی طراحی گشته است. برای دستهبندی موضوع صفحات به دستهبندیهای دانش بشری از یک روش بانام DDC به6عنوان مرجع کلاسبندی دانش بشری استفادهشده است. در این روش عناصر خاص HTML از والد استخراج میشود ، پیشپردازش شده و موارد اضافه از آن حذف میشود . این عناصر با دیتاست فراهمشده از موضوعات و کد متناظر DDC آن مقایسه میشود و طی چندین فاز قسمتی از کد DDC موضوع یک صفحه فراهم میشود درنهایت این کد با لیست کدهای موردنظر خزنده مقایسه میشود ، اگر قسمتی از آن بود بهعنوان صفحه مرتبط با موضوع شناخته میشود.
برای اولویتبندی علاوه بر روش فوق از T-Graph استفادهشده است. هر گره در این گراف دارای چند والد احتمالی در چندین سطح بالاتر است و همچنین هر گره چند فرزند در سطوح پایین دارد. سند هدف - صفحهکاملاً مرتبط - در پایینترین سطح درخت قرار دارد. عناصر خاص HTML صفحه والد به همراه متن پیوند بازدید نشده با تمام گرههای T-Graph مقایسه میشود و گره با بیشترین شباهت پیدا میشود. شماره سطح این گره در درخت برای محاسبه اولویت آن پیوند بهصورت "نسبت عکس شماره سطح"مورداستفاده قرار میگیرد. درنهایت URL صفحه بازدید نشده به همراه این امتیاز اولویت برای دانلود و کاوشهای بعدی بهصف دانلود افزوده میشود.
مراحل اصلی کار خزنده به این صورت است: در ابتدا صف واکشی با مجموعهای از URL های اولیه با اولویت بالاپر میشود. خزنده این URL ها را واکشی کرده و صفحه متناظر با آن را دانلود میکند. دادههای HTML بهدستآمده یا پاسخ HTTTP در صف پاسخ ذخیره میشود. این اسناد در صف قرارگرفته در اختیار محاسبه کننده ارتباط - با استفاده از - DDC قرار میگیرد تا موضوع صفحه مشخصشده و میزان ارتباط با موضوع اختصاصی خزنده محاسبه گردد. اگر بهعنوان یک صفحه مرتبط با موضوع شناخته شود برخی عناصر HTML آن به قسمت T-Graph فرستاده میشود تا با مقایسه با T-Graph اولویت پیوندهای بازدید نشده این صفحه مشخص شود. بعد از اختصاص اولویت متناسب به این پیوندها، URL به همراه اولویت مشخصشده برای آن ، بهصف واکشی افزوده میشود.در [9] از یک روش به نام CMCFC استفادهشده . این روش بر مبنای محاسبات غشایی عمل میکند . با توجه به اینکه در بسیاری از کارهای پژوهشی اولویت موضوعی پیوندهای بازدید نشده بر اساس ادغام شباهت موضوعی متنهای مختلف - ازجمله متن پیوند یا متن صفحه والد پیوند - و فاکتور وزن دادهشدهی مربوط به آن به دست میآید و این فاکتورهای وزنی بر