بخشی از مقاله
چکیده
هرچه حجم اطلاعات افزایش مییابد کنترل و مدیریت آن مشکل میشود. میدانیم که تولید و وجود اطلاعات بهتنهایی کافی نیست بلکه باید ابزارهایی برای استفاده از این اطلاعات فراهم شوند. درواقع کاربران باید بدانند که چگونه باید به نیازهای اطلاعاتی خود در این حجم عظیم اطلاعاتی پاسخ دهند. موتورهای جستجو یکی از رایج ترین راه حلها برای دسترسی به این اقیانوس بیکران اطلاعات و رباتهایی پیمایش صفحات وب در اینترنت هستند که صفحات جدید را پیدا میکنند. درواقع موتور جستجو برای کشف اطلاعات ارزشمند از وبسایتها از کاوشگر وب3 بهره میگیرد و در واقع یکی از مهمترین بخشهای موتورهای جستجو کاوشگرهای وب هستند که یک برنامه یا اسکریپت خودکار هستند که وب را بصورت منظم و خودکار پیمایش می کند و دلایل استفاده از آنها: دست آوردن اطلاعات مورد نظر کاربر، آزمایش صفحات وب و لینک ها برای ساختار و گرامر درست، نظارت بر سایت ها برای زمانی که ساختار و محتوای آنها تغییر می کند و کشف سایت های آینه ای می باشد. امروزه سیستمهای جستجوی وب برای جمعآوری و تجزیهوتحلیل ساختار اطلاعات موجود در وب حیاتی هستند. یک کاوشگر وب یک جزء نرمافزار است که بهصورت تکراری، اطلاعات را از وب جمعآوری مینماید، صفحات را دانلود و لینکهای را دنبال مینماید. در این مقاله کاوشگر وب و انواع آن را به عنوان بخشی از یک موتور جستجوگر تحلیل کرده و انواع استراتژیهای خزیدن حرکت کاوشگر وب را ارائه می کنیم.
واژگان کلیدی : وب ،کاوشگر وب، استراتژی خزیدن، موتور جستجو، بازیابی
-1 مقدمه
با توسعه سیستم های اطلاعاتی، داده به یکی از منابع پر اهمیت سازمان ها مبدل گشته است. بنابراین روش ها و تکنیک هایی برای دستیابی کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از این اطلاعات، مورد نیاز می باشد. با ایجاد و گسترش وب و افزایش چشمگیر حجم اطلاعات، نیاز به این روش ها و تکنیک ها بیش از پیش احساس می شود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می کنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ 7,3 میلیون صفحه در روز افزایش می یابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریبا غیر ممکن است و ابزارها و روش هایی نو برای مدیریت آن مورد نیاز است.
[1]. و همچنین امروزه شبکه جهانی وب1 بهعنوان بهترین محیط جهت تولید، انتشار و دسترسی به دانش، مورداستفاده قرار میگیرد. همچنین وب بهصورت پویا و بدون ساختار در حال تغییر است و ما را در پیدا کردن اطلاعات مربوطه و باارزش دچار مشکل میسازد.[2] هرچه حجم اطلاعات افزایش مییابد کنترل و مدیریت آن مشکل میشود. لذا تولید و وجود اطلاعات بهتنهایی کافی نیست بلکه باید ابزارهایی برای استفاده از این اطلاعات فراهم شوند. درواقع کاربران باید بدانند که چگونه باید به نیازهای اطلاعاتی خود در این حجم عظیم اطلاعاتی پاسخ دهند. درنتیجه روشهای بازیابی اطلاعات در قالب پاسخدهی به نیاز اطلاعاتی کاربران اهمیت ویژهای پیدا میکند. [4] مهمترین ابزار برای دسترسی به این اقیانوس بیکران اطلاعات، موتورهای جستجو2 میباشند که یکی از مهمترین بخش های آن کاوشگر وب است، درواقع موتور جستجو برای کشف اطلاعات ارزشمند از وبسایتها از کاوشگر وب3 بهره میگیرد. کاوشگر وب برنامهای است که بهطور خودکار از صفحات وب عبور کرده و اسناد را دانلود و لینکها را صفحه به صفحه دنبال میکند. [3]
1-1 موتورهای جستجو
موتورهای جستجو رباتهایی هستند که صفحات وب را میپیمایند و صفحات جدید را پیدا میکنند. این روباتها صفحات وب را خوانده و تمام یا قسمتی از متن را در یک بانک اطلاعاتی یا فهرستی که شما امکان دستیابی به آن را داشته باشید قرار میدهند، هیچکدام از آنها تمام شبکه را پوشش نمیدهند ولی بعضی از آنها واقعا بزرگ هستند. وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه میشود کاربران در واقع نتیجه کار بخشهای متفاوت موتور جستجوگر را میبینند. [5] موتور جستجوگر قبلا پایگاه داده اش را آماده کرده است و این گونه نیست که درست در همان لحظه جستجو، تمام وب را بگردد. بسیاری از خود میپرسند که چگونه ممکن است گوگل در کمتر از یک ثانیه تمام سایتهای وب را بگردد و میلیونها صفحه را درنتایج جستجوی خود ارایه کند؟ گوگل و هیچ موتور جستجوگر دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخگویی به جستجوهای کاربران، تنها در پایگاه دادهای که در اختیار دارند به جستجو میپردازند و نه در وب .موتور جستجوگر به کمک بخشهای متفاوت خود، اطلاعات مورد نیاز را قبلا جمع آوری، تجزیه و تحلیل میکند. آنرا در پایگاه داده اش ذخیره مینماید و بهنگام جستجوی کاربر تنها در همین پایگاه داده میگردد. بخشهای مجزای یک موتور جستجوگر عبارتند از: [5]
· عنکبوت1
· کاوشگر2
· بایگانی کننده3
· پایگاه داده4
· سیستم رتبهبندی5
2-1 کاوشگر
کاوشگر نرمافزاری است که به عنوان یک فرمانده برای عنکبوت عمل میکند. آن مشخص میکند که عنکبوت کدام صفحات را مورد بازدید قرار دهد در واقع کاوشگر تصمیم میگیرد که کدام یک از لینکهای صفحهای که عنکبوت در حال حاضر در آن قرار دارد دنبال شود. ممکن است همه آنها را دنبال کند بعضیها را دنبال کند و یا هیچکدام را دنبال نکند. کاوشگر ممکن است قبلا برنامه ریزی شده باشد که آدرسهای خاصی را طبق برنامه در اختیار عنکبوت قرار دهد تا از آنها دیدن کند. دنبال کردن لینکهای یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را میتواند - می خواهد - در پایگاه داده اش ذخیره کند. همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد. شما به عنوان دارنده سایت همانطور که دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند، میتوانید آنها را از بعضی صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا دسترسی به محتوای سایت را در فایلی خاص بررسی میکند و از حقوق دسترسی خود اطلاع مییابد. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام میشود. به عمل کاوشگر، خزش1 میگویند. 6]،[5
2 مشکلات پیش روی کاربران و
1-2 یافتن اطلاعات مرتبط
یافتن اطلاعات مورد نیاز در وب دشوار می باشد. روش های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده ها به کار می روند، قابل استفاده در وب نمی باشند و کاربران معمولا از موتورهای جستجو که مهمترین و رایج ترین ابزار برای یافتن اطلاعات در وب می باشند، استفاده می کنند. این موتورها، یک پرس و جوی1 مبتنی بر کلمات کلیدی از کاربر دریافت کرده و در پاسخ لیستی از اسناد مرتبط با پرس و جوی وی را که بر اساس میزان ارتباط با این پرس و جو مرتب شده اند، به وی ارائه می کنند. اما موتورهای جستجو دارای دو مشکل اصلی هستند. اولا دقت2 موتورهای جستجو پایین است، چراکه این موتورها در پاسخ به یک پرس و جوی کاربر صدها یا هزاران سند را بازیابی می کنند، در حالی که بسیاری از اسناد بازیابی شده توسط آنها با نیاز اطلاعاتی کاربر مرتبط نمی باشند. دوما میزان فراخوان3 این موتورها کم می باشد، به آن معنی که قادر به بازیابی کلیه اسناد مرتبط با نیاز اطلاعاتی کاربر نیستند. چرا که حجم اسناد در وب بسیار زیاد است و موتورهای جستجو قادر به نگهداری اطلاعات کلیه اسناد وب، در پایگاه داده های خود نمی باشند. [3]
2-2 ایجاد دانش جدید با استفاده از اطلاعات موجود در وب