شیوه های نمایه سازی ابزارهای کاوش در اینترنت

شیوه های نمایه سازی ابزارهای کاوش در اینترنت

موتورهای کاوش

موتورهای کاوش، پایگاه های اطلاعاتی قابل جستجویی هستند که از طریق برنامه های رایانه ای به شناسایی و نمایه سازی خودکار صفحات وب میپردازند. موتورهای کاوش بر خلاف راهنماهای موضوعی، برنامه های خودکاری هستند که گونه وابستگی به نیروی انسانی ندارند. به تعبیر دیگر، فرایند شناسایی، انتخاب و نمایه سازی اطلاعات وب، توسط برنامه های رایانه ای انجام می شود. هر موتور کاوش دارای سه جزء اصلی است:

۱. روبات ها

با رشد روزافزون وب، این موضوع روشن شد که از طریق نظامهای نمایه سازی دستی و مبتنی بر نیروی انسانی نمی توان با حجم فزایندهای از اطلاعات در این محیط روبرو شد. به همین دلیل، برنامه های خود کاری برای شناسایی، گردآوری و نمایهسازی صفحات وب تحت عنوان روبات ها توسعه یافتند. در برخی متون به جای ربات ها از اصطلاحاتی مثل عنکبوتها، خزنده ها" یا کرمها استفاده شده است. روبات ها، برنامههای خودکاری هستند که به طور پیوسته در فواصل زمانی معین فضای اینترنت را مبتنی بر ساختار فراپیوندی وب مورد جستجو قرار میدهند و به شناسایی و نمایه سازی صفحات وب جدید یا اصلاح اطلاعات موجود در پایگاه اطلاعاتی موتورهای کاوش می پردازند. روباتها از طریق پیوندهای فرامتنی موجود در یک صفحه وب، به صفحات دیگر می روند و اطلاعات آنها را نمایه سازی میکنند، مانند کلیدواژه در عنوان، کلیدواژه در متن، نشانی دسترسی و....

در واقع، یکی از عملکردهای اصلی روبات ها، نمایه سازی خودکار اطلاعات مندرج در صفحات وب است. روبات ها برای شناسایی و نمایه سازی صفحات وب از ساختار فراپیوندی وب استفاده می کنند. بنابراین، صفحاتی که پیوند فرامتنی به دیگر سایتها ندارند، ممکن است هرگز توسط روباتها شناسایی نشوند.

سیاست نمایه سازی روبات های موتورهای کاوش، اغلب با یکدیگر متفاوت است. به طوری که روبات ها ممکن است اطلاعات مندرج در عنوان سایت، سطر اول یا صد کلمه ابتدای متن یا حتی متن کامل یک صفحه وب را در پایگاه خود نمایه کنند. به تعبیر دیگر، فرایند نمایه سازی ممکن است به صورت تمام متن دنبال شود یا فقط بخشی از اطلاعات صفحات وب را دربر گیرد. برای نمونه موتور کاوش نورثرن لایت صفحات وب را به صورت تمام متن نمایهسازی می کند، حال آنکه روبات موتور کاوش گوگل بخشی از صفحات را به صورت تمام متن و بخشی دیگر را به صورت جزئی نمایه سازی میکند (کوشا، ۱۳۸۱ الف: ۳۲-۳۱).

موتور کاوش آلتاویستا هر صفحه را از یک سایت را به منزله یک مدرک در نظر میگیرد و واژه های نمایه سازی را از هر صفحه ای بر می گزیند. بر این اساس واژه های بسیاری نمایه سازی می شوند و برای امتیازدهی از الگوریتمی استفاده میکند: محل ظاهر شدن کلمات در مدرک، میزان نزدیکی کلمات کاوش برای یکدیگر، بسامد رخداد کلمات / عبارت کاوشی در منبع (لنکستر، ۱۳۸۲: ۴۵۳)، یا موتور کاوش لایکاس عنوان، سرعنوان ها و عناوین فرعی، بیست سطر نخست و مهم ترین ۱۰۰ واژه وب سایت ها را نماینده سازی می کند (داورپناه، ۱۳۸۱: ۸۶). برخی از موتورهای کاوش ادعا می کنند که از قابلیت های پیشرفته ای برخوردارند. مثلا موتور کاوش سینتکتیکا ادعا دارد که برای نمایه سازی خودکار متون، از سطح نسبتاً پیچیدهای از فرایندهای زبانشناسی بهره می گیرد مانند با استفاده از قواعد نحوی و وزن های معناشناختی برای تعیین مفاهیم مهم متن با استفاده شده است. موتور کاوش اکسایت ادعا می کند که براساس همبستگی مفاهیم کلیدواژههای اصلی، از استخراج هوشمند مفاهیم برای یافتن و امتیازدهی به مدارک استفاده می کند. این موتور کاوش برای وزن دهی به اصطلاحات از الگوی برداری و دسته بندی اصطلاحات که اولین بار سالتون با مطرح کرد، بهره میگیرد. موتور کاوش هات بات ادعا میکند که بیش از ۵۰ میلیون منبع را زیر پوشش دارد و نتایج را براساس معیارهای چندگانه رتبه بندی می کند: بسامد واژه در متن، محل آن در متن (کلمات عنوان به نسبت کلمات متن، وزن بیشتری دریافت می کنند؛ امتیاز کلیدواژه هایی که در فیلد کلیدواژه با ظاهر شدهاند نیز بیشتر است)، و طول مدرک (کلمات کاوشی که در متنهای این کوتاه ظاهر شده اند به نسبت متنهای طولانی تر وزن بیشتری میگیرند)(لنکستر، ۱۳۸۲: ۴۵۱-۴۵۲). در نهایت باید گفت که موتورهای کاوش مختلف از روبات های متفاوتی با عملکردهای مختلف استفاده می کنند و همین امر باعث شده است تا جستجوی کلیدواژه های یکسان در موتورهای کاوش | مختلف اغلب منجر به بازیابی نتایج مشابهی نشود.

۲. پایگاه اطلاعاتی :

با هرگونه اطلاعاتی که روباتها از صفحات وب جمع آوری میکنند، به بخش دوم موتورهای کاوش یعنی پایگاه اطلاعاتی افزوده می شود. در با برخی از متون، اصطلاح فهرست یا نمایه به جای پایگاه اطلاعاتی موتور به کاوش به کار رفته است. پایگاه اطلاعاتی موتور کاوش، شامل فهرست نظام به مندی از صفحات وب است که اطلاعات مربوط به صفحات وب در آنجا را ذخیره می شود. بازیابی اطلاعات در موتور کاوش، مبتنی بر اطلاعات موجود در پایگاه اطلاعاتی آنها است، نه اطلاعات موجود در شبکه جهانی وب. پایگاههای اطلاعاتی موتورهای کاوش تنها بخش محدودی از اطلاعات قابل دسترس در وب را پوشش میدهند. از این هیچ یک موتورهای کاوش از جامعیت مطلق برخوردار نیستند.

۳. نرم افزار بازیابی اطلاعات

نرم افزار بازیابی اطلاعات، در واقع واسط جستجو و برنامه ای است که از طریق وارد کردن کلیدواژه ها در فیلدهای مختلف، میتواند در میلیون ها صفحه وب نمایه شده در پایگاه اطلاعاتی موتورهای کاوش به جستجوی اطلاعات مورد نظر بپردازند.

به طور کلی، همه موتورهای کاوش، فرایند جستجو و بازیابی اطلاعات را از طریق برقراری ارتباط میان سه جزء اصلی تشکیل دهنده خود یعنی روباتها، پایگاه اطلاعاتی و نرم افزار بازیابی اطلاعات انجام می دهند. مهم ترین مراحل این فرایند عبارت است از:

۱. شناسایی و نمایه سازی اطلاعات صفحات یا سایت های وب توسط روبات ها

۲. شناسایی و نمایه سازی اطلاعات صفحات یا سایت های وب توسط روبات ها

۳. انتقال و درج اطلاعات گردآوری شده در پایگاه اطلاعاتی موتور کاوش

۴. جستجوی اطلاعات در پایگاه اطلاعاتی از طریق نرم افزار بازیابی اطلاعات

۵. بازیابی، رتبه بندی و نمایش اطلاعات مبتنی بر اطلاعات موجود در پایگاه اطلاعاتی (کوشا، الف ۱۳۸۱: ۳۱-۳۴).