بخشی از مقاله
تاريخچه موتورهاي جستجو
موتورهاي جست و جو وب، تاريخچه مختصري دارند، به طوري كه عمر آن ها كمتر از يك دهه است. تاريخچه موتورهاي جست و جو در اين بخش بررسي مي كنيم.
قبل از اين كه موتورهاي جست و جو به وجود آيند ، آشفتگي حاصي در وب وجود داشت. براي يافتن چيزي در اينترنت مي بايست آدرس دقيق آن مشخص بود. با ايجاد گوفر آشفتگي تا حدي بر طرف شد و محتويات اينترنت سازمان يافته شد. گوفر در دانشگاه ماينسو تا ايجاد شد. گوفر بر اسسا HTML طراحي نشده بود و استفاده از عناوين فايل با توصيف هاي جزئي در آن موسوم بود. اما اگر طريقه استفاده از گوفر را بدانيد به راحتي مي توانيد فايل ها را از اينترنت برداريد. گوفر در دهه 1980 در دانشگاه ماينسوتا به وجود آمده تا مشكلات كامپيوتري آن را حل كند. در اين دانشگاه دپارتمامن هاي زيادي با فايل هاي متعددي وجود داشت كه افراد زيادي مي خواستند به آنها دسترسي داشته باشند. لازم بود اين اطلاعات به راحتي در هر دپارتمان قابل دسترسي باشند. دانشگاه ماينوستا گوفر را به عنوان نرم افزاري تعريف كرد كه از قرار داد TCP/IP در شبكه بندي استفاده كرده است. سايت گوفر حاوي منويي است كه از طريق آن مي توان به اطلاعات مورد نظر دست يافت.
توسعه سريع وب جهاني گوفر را از دور خارج كرد. در وب جهاني مي توان ابر پيوندها را دنبال كرد. متن ها را جست و جو نمود، از مرورگرهاي گرافيكي استفاده كرد، و بسياري از تكنيك هاي محاوريه اي را به كاربرد و موتورهاي جست و جوي وب را ايجاد نمود.
اولين موتور جستجو موفق، WebCrawler بود كه در دانشگاه واشيتگتون طراحي و ساخته شد و در سال 1994 به كار گرفته شد. در مدت يك سال، سه رقيب براي آن پيدا شدند: Lycos, infoseek و open text در اواخر 1995 موتورهاي جستجوي Alta vista, excite بوجود آمدند. جالب است كه بدانيد اغلب فناوري هاي جست و جو كه امروزه توسط جست و جو كنندگان مورد استفاده قرار مي گيرند با درجات مختلفي در اين موتورهاي جستجوي موجوددر خدمات online مثل Dialog و lexisnexis را ندارند. علاوه بر اين نه موتورهاي جستجو و نه امكاناتي مثل داير كتوري هاي وب از نظريه دسته بندي موضوعي جامعه و شيوه هاي كاري نوين استفاده نمي كنند. اين نكات از نظر عملي مطرح اند، به طوري كه جست و جوگر جدي بايد تشخيص دهد كه اغلب موتورهاي جست و جو براي جست و جو گرهاي مبتندي طراحي شدند، نه براي كسني كه مايل هستند از روشها و تكنيك هاي پيشرفته تري استفاده كنند.
موتور جست و جوي hot Bot در سال 1996 و موتور جستو جوي Northern light در سال 1997 به وجودآمد. Hot bot داراي واسط پيشرفته با كاربردي ساده بود كه به بانك اطلاعاتي بزرگي وصل بود ( در اواخر سال 1997 ، بزرگترين بانك اطلاعاتي بود).
Notrhern light جستجوي وب را با جست و جوي اطلاعاتي خصوصي تركيب كرده است . Google در سال 1998 به وجود آمد و دو ويژگي مهم آن يعني واسط بسيار ساده وچيدن ركوردها بر اساس محبوبيت باعث شده است كه به سرعت بين جست و جو گرهاي مبتدي و حرفه اي ( يا موردي و دائمي) محبوبيت پيدا كند. به هر حال مسابقه براي توليد بزرگترين موتور جستجو تا حدي فروكش كرد تا اين كه در سال 1999 موتور جستجو fast search به وجود آمد و بانك اطلاعاتي آن 200 ميليون ركورد داشت. اين عامل به همراه ساير عوامل رقابتي منجر به مسابقه و انگيزه ديگري شده است و به اين ترتيب در ژوئن 200 چهار موتور جستجو از بانك اطلاعاتي 200 ميليون ركوردي استفاده كردند.
از بين موتورهاي جست و جوي اوليه open text اولين موتوري بود كه از بين رفت. از اوايل 1998 تا كنون دگير موجود نيست. به نظر مي رسد در دو يا سه سال آينده موتورهاي جستجوي بيشتري از بين بروند و موتور جستجو جيديد به وجود آيند. موتور جستجوي موجود نيز تغيير مي كنند، گرچه بسياري از اين ها به صورت كم يا زياد به عنوان بخشي از ماهيت دروازه اي خدمات هستند نه بخش اصلي جنبه جست و جو. اميدواريم توليد كنندگان اين ابزارها دائما به فكر پيشرفت امكانات جستجو باشند و به نظر مي رسد كه جنبه هاي رقابتي اين قضيه ادامه دارد.
شركت هاي توليد كنننده
موتور جستجو همانند ساير بخشهاي تجارت مستعد رشد هستند و سال هاي 1996 و 1997 موتور داراي نسخه پيشرفته اي بود.، صرف نظر از اين كه آيا نسخه پيشرفته واقعا پيشرفته بود يا همانند ساير چيزهايي بود كه نمي توانست در صفحه اول گنجانده شود.
در سال 1998 دروازه و شخصي سازي در وب شدت يافت. دروازه وب به صورت ايستگاه هاي هواشناسي، گروه هاي خبري، رديابي اوراق بهادار، تقويم هاي شخصي و غيره در صفحه اول ظاهر شدند. به اين ترتيب، همه چيز در صفحه اصلي وب در دسترس است.
در سال هاي 1999 و 2000 مفهوم دروازه قوت بيشتري پيدا كرد. ابزارهايي كه به دروازه هاي اوليه اضافه شدند (مثل دايركتوري ها و غيره)، در صفحه اول قرار گرفتند تا افراد از آن ها استفاده كنند. در سال 1999 به اين صورت عمل شد كه محتويات اين ابزارها به طور خود كار در صفحات نتيجه (صفحاتي كه در اثر جست و جو پيدا شدند)، ظاهر شدند. يعني همزمان بانك اطلاعاتي موتور جست و جو مورد جستجو به طور منظم به نمايش در مي آيند. اين نوع تركيب منابع، كيفيت نتايج جست و جو را بهبود داد، به طوري كه خروجي ها به طور پيوسته به جست و جوگر نشان داده مي شود و نياز به اجراي جست و جوي جداگانه در ابزارهاي مختلف نيست. توجه كنيد كه جست و جو فقط يك شاخص وب نيست بلكه جست وجوي داركتوري يك شركت، جست و جو دايركتوري و غيره است.
مرحله بعدي به كاربران موتور جست و جو مربوط مي شود ابزارهايي كه مورد توجه كاربر قرار مي گيرند نگهكداري شده بهبود مي يابند كپي كپي مي شوند و از نظر آن ها ارزشمند هستند. مسئله اين است كه كسي كه اين كتاب را مطالعه مي كند و كسي كه به ويژگي ها ابزارهاي معرفي شده در اين كتاب مياز دارد يك كاربر عادي موتور جست و جو نيست. كاربر عادي به ويژگي ها يپيشرفته و مربوط به پژوهش توجهي ندارد. اگر به جست و جو هاي عادي توجه كنيد درجه درستي اين مطلب مشخص مي شود.lycos ليستي از جست جو هاي محبوب را آماده مي كند. در يك هفته آزمايشي، 50 جستجوي بهتر، حاوي 46 جستجو در مورد سرگرمي، ورزش ها يا بازي ها بوده است. معنايش اين است كه اغلب جستجوهايي كه در وب انجام ميگيرند اهداف پژوهشي ندارند. اما خوشبختانه تعداد كل افرادي كه از اينترنت استفاده مي كنند در حا لاف است و افرادي كه از موتور جستجو براي اهداف حرفه اي مثل سرمايه گذاري و كسب اطلاعاتي راجع به علوم، بشريت تجارت و پزشكي استفاده مي كنند به سرعت در حال افزايش است به همين دليل موتورهاي جست و جو بايد توجه بيشتري به اين موضوعات داشته باشند.
ساختار موتورهاي جستجو
پرداختن به جزئيات موتور جستجو تا حدي ضروري است هر چند كه بدون پرد اختن به جزئيات نيز مي توان از آنها استفاده كرد. به عنوان مثال راننده اتومبيل بدون اطلاعات از عملكرد موتور اتومبيل مي تواند از آن استفاده كند، اما بهتر است همين راننده چگونگي تست سطح روغن وسوخت را بداند. به همين دليل پژوهشگران بايد مطالب بيشتري در مورد موتور جست و جو داشته باشند تا كارايي جست وجوي خود را بهبود بخشند. براي اين كار بايد با ساختار موتور جستجو تا حدي آشنا باشد.
215
ابزارهاي مافوق جست و جو
با توجه به اين كه هشت موتور جستجوي عمده وجود دارد، جالب است وسيله وجود داشته باشد كه تعدادي از آنها را به طور همزمان جست و جو كند. اين ايده بسيار خوب است. خوشبختانه اين كار امكان پذير است و مي توان چندين موتور جستجو را به طور همزمان جست و جو نود.
براي جست و جو چندين موتور جستجو به طور همزمان دو روش وجود دارد. يكي از آنها سايت هاي ماوفوق جست و جو است كه به طور رايگان در وب وجوددارند. روش ديگر استفاده از برنامه مافوق جست و جو مشتري است اين بنرامه در كامپيوترتان قرار مي گيرد و به جستجو رايگان بوده استفاده از آن ها آسان است، اما ضعف آن ها در كامل كردن كار است.برنامه هاي سمت مشتري كار را به خوبي انجام مي دهند، ولي برنامه بايد اينترنت از اينترنت برداشته شود و براي دريافت نتيجه نياز به چندين مرحله است. نمونه هايي از هر روش را بررسي خواهيم كرد.
سايت هاي مافوق جست و جو
امتياز اين وب سايت هاي رايگان، سهولت استفاده از آن ها است و نياز به برداشتن برنامه اي از اينترنت نيست، ولي معايب مهمي دارند.
عيب آن ها را بامثالي شرح مي دهيم. در جدول 1-11 واژه Hilgreave در چند موتور جست و جو، و سپس در چند موتور مافوق جست و جو شده است.اگر اين جدول را بررسي كنيد، مي توانيد به دو يا سه نتيجه مهم برسيد كه هنگام جست و جو در آن موتورها بايد در نظر داشته باشيد.
جدول 1-11
اگر بيش از نيمي از سايت هاي مرتبط بايد درموتورهاي جست و جو پيدا شوند موتورهاي مافوق جست و جو اغلب آن ها را پيدا نمي كنند. اين كار به عوامل زيادي بستگي دارد،مثل: محدوديت هايي كه خدمات جست و جو به تعداد ركودهاي بازيابي شده از هر موتور جست و جو اعمال مي كند، مهلت زماني كه خدمات جست و جو براي جست و جو در يك موتور در نظر مي گيرد، شكست در ترجمه تقاضا به نحو خاصي كه مورد نياز موتور جست و جو است و عوامل ديگر. خوشبختانه، بعضي از موتورهاي مافوق جست و جو تمام ركورد هايي را بر مي گردانند كه واقعا و جود دارند.
سه ضعف عمده موتورهاي مافوق جست و جو عبارت اند از:
1- معمولا تعداد ركوردهايي را كه بايد از يك موتور جست و جو بازيابي شوند محدود مي كند (گاهي كمتر از 10 ركورد).
2- معمولا تقاضا هاي پيچيده تر را به موتورهاي جست و جو منتقل نمي كنند.
3- در بسياري از موارد، بيش از 2 تا 3 موتور جست و جو را جست و جو نمي كنند.
ايجاد يكي از اين سايت ها دشوار نيست. طبقه هاي Yahoo! براي اين موتورها، بيش از 100 عدد را نشان مي دهد. بعضي از آنها مجموعه از كادر هاي جست و جو هستند كه از موتورهاي جست و جوي ديگر كپي شده اند. بعضي از آنها نيز طوري هستند كه يك يا دو ضعف فوق را بر طرف مي سازند.
موتورهاي مافوق جست و جو در موارد زير با يكديگر فرق مي كنند:
o موتورهاي جست و جوي ويژه اي كه تحت پوشش قرار مي دهند.
o تعداد موتورهاي جست و جويي كه در هر زمان مي توانند جست و جو كنند.
o توانايي آنها در انتقال تقاضاهاي پيجيده تر به موتور جست و جو، مثل آنهايي كه شامل عبارات، دستورات بولي و غيره هستند.
o محدوديت آنها در تعداد ركوردهايي كه بايد از هر موتور جست و جو بازيابي شود (مي تواند كمتر از 10 ركورد باشد)
o مدت زماني كه براي جست و جو در هر موتور جست و جو تخصيص مي يابد.
o چگونگي نمايش خروجي و اين كه آيا ركوردهاي تكراري ناشي از موتورهاي مختلف را حذف مي كنند يا خير.
موتورهاي مافوق جست و جو معمولا وقتي مفيد و مؤثر هستند كه دنبال اطلاعات قديمي مي گرديد و فكر مي كنيد كه تعداد آنها خيلي كم است.ركوردهاي زيادي وجود دارند كه در بعضي از موتورهاي جست و جوي كوچكتر پيدا مي شوند ولي از طريق سه يا چهار موتور جست و جوي بزرگتر پيدا نمي شوند و در نتيجه، جست و جوي آن ها وقت را به هدر مي دهد. موتورهاي مافوق جست و جو به شما اجازه مي دهند سريعا چندين موتور جست و جو را بررسي كنيد و واژه ها يا عباراتي را بيابيد.
نمي توان تمام موتورهيا مافوق جست و جو را در اين جا بررسي كرد، بلكه پنج موتور مافوق جست و جو معروف را بررسي خواهيم كرد. اين پنج موتور مافوق جست و جو، قابليت هاي فراواني دارند و عبارات اند از:
Dogpile:www.dogpile.com
Ixquick:ixquick.com
Metacrawler:www.metacrawler.com
Profusion:www.profusion.com
Search.com:search
براي مشاهده ليست گسترده اي از سايت هاي مافوق جست و جو، مسير زير را در yahoo! ببينيد:
Computers and Internet>Internet>Worldwideweb>searching the web>search Engines and Directories>ALI-in-one search pages
در ادامه چند موتور مافوق جست و جو را شرح مي دهيم تاهنگام استفاده از آنها، از ويژگي هاي مفيديبهره ببريد.منظور از"More engines covered"اين است كه چه تعدادي از 9 موتور جست و جو با بيش از200 ميليون ركود، توسط موتور مافوق جست و جو، جست وجو مي شود.total engines/directories searched تعداد كل موتور جستجو يا دايركتوري هاي وب را مشخص مي كند كه جست و جو شده اند. Boolean option مشخص مي كند آيا كاربرد مي تواند از هر موتور جستجو چند ركورد بازيابي شود.
قبل از اينكه د رمورد ساختار موتورهاي جست و جو بحث نيم، بهتر است به زمينه فعاليت آنها بپردازيم: آنها به عنوان دروازه عمل ميكنند. ايده وراي دروازه اين است كه، ممكن است يك صفحه (سايت) اوليه در وب باشد كه كاربر به طور خودكار ابتدا به آن صفحه ميرود و آن صفحه به عنوان دروازهاي براي نيازهاي كاربر عمل ميكند. اين دروازه، مجموعهاي از اطلاعات و ابزارهاي مورد نياز را در اختيار كاربر قرار ميدهد و لازم نيست كاربر براي يافتن آنها به چند محل مراجعه كند.
به عنوان مثال، با استفاده از صفحه شخصي Excite به عنوان صفحه شروع مرورگر، ميتوان گروههاي انتخابي رئوس اخبار، پيشبيني وضع هواي محلي، اوراق بهادار، و تاريخ تعهدات آينده را ديد.
از همه مهمتر اين كه در اين كتاب، كادر تقاضاي موتور جست و جو نشان داده ميشود. در اين كادر ميتوان تقاضايي را در يك بانك اطلاعاتي با بيش از 200 ميليون سايت مطرح كرد. ابتدا به اين بخش از سايتها، يعني خودموتور جست و جو ميپردازيم. ولي ساير ويژگيهاي دروازه را نيز ناديده نخواهيم گرفت.
به خصوص، به چگونگي دريافت نتايج بهتر خواهيم پرداخت.
متأسفانه در كاربردهاي متداول منظور از موتور جست و جو، هم كل خدمات سايت و هم بخشي از سايت كه تقاضاها را ميپذيرد و هم جست و جوي با نك اطلاعاتي بزرگ است. در اغلب موارد، اصطلاح موتور جست و جو به جست و جوي بانك اطلاعاتي اطلاق ميشود و خدمات يا دروازه به كل سايت اطلاق ميگردد. منظور از ويژگيهاي دروازه، ساير ابزارها و اطلاعاتي است كه تدارك ديده ميشود. (دايركتوريها، هواشناسي و غيره) اما به اين نكته نيز توجه كنيد كه خدمات Alta Vista دروازهاي را آماده ميكند كه حاوي موتور جست و جو و ساير ويژگيهاي دروازه مثل اخبار، دايركتوري وب و ابزارهاي ديگر است.
خود موتور جست و جو داراي پنج بخش عملياتي است:
1 ـ خزنده موتور كه صفحات و سايتهاي وب را مي يابد.
2 ـ بانك اطلاعاتي كه حاوي اطلاعاتي راجع به صفحات پيدا شده توسط خزنده و ساير صفحاتي است كه از منابع ديگري جمع آوري شدهاند.
3 ـ برنامه شاخص بندي كه محتويات بانك اطلاعاتي را مرتب مي كند.
4 ـ موتوربازياب يكه شامل الگوريتم و برنامهنويسيهاي مربوط به آن، دستگاهها و غيره است كه اطلاعات تقاضاشده را از بانك اطلاعاتي / شاخص بازيابي ميكند.
5 ـ واسط گرافيكي (HTML) كه داده هاي تقاضا را از كاربر جمعآوري ميكند و به موتور بازيابي تحويل ميدهد.
خزندهها
خزندهها يا عنكبوتها برنامههايي هستند كه براي موارد زير در وب حركت ميكنند:
1 ـ شناسايي سايتهاي جديدي كه بايد به موتور جست و جو اضافه شوند.
2ـ شناسايي سايتهايي كه قبلا پيدا شدند و اكنون تغيير كردهاند.
خزنده ها اطلاعات مربوط به صفحات را از سايتها پيدا ميكنند و آنها را در بانك اطلاعاتي موتور جست و جوگر قرار ميدهند. مطالب زيادي در اين مورد مي توان بيان كرد ولي فقط بخشي از مطالب به جست و جوگر مربوط مي شود و جست و جوگر به اين مسئله پي مي برد كه چرا بعضي از صفحات در بعضي از موتورها پيدا ميشوند ولي در موتورهاي ديگر پيدا نميشوند. براي بسياري از موتورها. سايتهاي معروفتر (مثل انهايي كه اغلب توسط كاربران كليك ميشوند تا آنهايي كه پيوند به آنها لغو شده است)، نسبت به سايتهاي ديگر بيشتر در دسترس هستند. خزندهها ميتوانند به صورت عمقي يا عرضي يا هر دو برنامهنويسي شوند.آنهايي كه به صورت عرضي برنامه نويسي ميشوند نه تنها سايتهاي اصلي را مي يابند بلكه صفحات فرعي آن صفحات و صفحات فرعي اين صفحات فرعي را مي يابند و اين روند ادامه مييابد.
خزنده هايي كه به صورت عرضي برنامهنويسي شدهاند، صفحات اصلي تر را مييابند و الزاماً تمام صفحات فرعي آنها را پيدا نميكنند. هر چه موتورهاي حست و جو رشد كردند و بازار رقابت را به وجود آوردند، جست و جوي همزمان عرضي و عمقي مورد توجه قرار گرفتند.
بانك اطلاعاتي موتور جست و جو
كل اطلاعاتي كه راجع به تمام صفحات وب به دست ميآيد، بانك اطلاعاتي موتور جست و جو را تشكيل ميدهد. اين اطلاعات شامل صفحاتي است كه توسط خزنده شناخته شدند، اما صفحات پيدا شده توسط منابع يا تكنيكهاي ديگر را نيز دربر ميگيرد. تعداد زيادي از سايتهايي كه در بانك اطلاعاتي موتور جست و جو ذخيره ميشود، توسط ناشرين صفحات وب به آن تحويل داده ميشوند. اگر صفحه اول هر موتور جستجويي را نگاه كنيد، احتمالا پيوندي را ميبينيد كه به شما اجازه مي دهد تا صفحهاي را به اين موتورهاي جست و جو تحويل دهيد. اگر اين صفحات سپام نباشند در بانك اطلاعاتي ذخيره ميشوند. سپام ها مزاحمتهاي پستياند كه توجه موتورهاي جست و جو را به خود جلب ميكنند. تمام يا اغلب توليدكنندگان موتورهاي جست و جو، صفحات تحويل شده را كنترل ميكنند تا سپام نباشند.
منابع ديگر نيز ممكن است در بانك اطلاعاتي موتور جست و جو قرار گيرند. به عنوان مثال بانك اطلاعاتي ممكن است حاوي عناوين صفحه و يا موضوعي از يك دايركتوري مثل Open Directory يا Yahoo! باشد.
وقتي از موتور جست و جو استفاده ميكنيم، مستقيما با جست و جوي وب سروكار نداريم، بلكه با بانك اطلاعاتي سروكار داريم كه ركوردهاي آن، بخشي از صفحات موجود در وب را توصيف ميكنند. با توجه به اين حقيقت، نبايد انتظارات غيرمنتظرهاي از موتورهاي جست و جو داشته باشيم.
برنامه شاخص بندي و شاخص
باتوجه به صفحاتي كه در اثر يك تقاضا بازيابي ميشوند، شاخصبندي ميتواند حياتي تر از فرانيد خزنده باشد. برنامه شاخص بندي، اطلاعات موجود در بانك اطلاعاتي را بررسي كرده وروديهاي مناسبي را درشاخص قرار ميدهد. وقتي تقاضايي انجام ميشود، اين شاخص براي شناسايي ركوردهاي موردنظر به كار گرفته ميشود.
اغلب موتورهاي جست و جو ادعا ميكنند كه تمام واژههاي هر صفحه را شاخص بندي مي كنند. مسئله اين است كه موتورهاي جستوجو چه چيزي را به عنوان واژه ميشناسند. بعضي از انها داراي واژههاي توقف هستند(واژ9هاي كوچك و متداولي كه اهميت چنداني ندارند) و شاخص بندي نميشوند. بعضي از آنها از حروف تعريف و ربط صرف نظر ميكنند. بعضي ديگر از واژههاي پراستفاده ولي بالقوه ارزشمند، مثل وب و اينترنت صرف نظر مينمايند. گاهي از اعداد صرف نظر ميشود، زيرا جستوجوي واژهاي مثل Troop 13 دشوار است. اما در طول چند سال گذشته، موتورهاي جستوجو واژههاي كمتري را به عنوان واژههاي توقف در نظر گرفتند و جستوجوي Troop13 در بسياري از موتورهاي جستوجو صورت ميگيرد.
تمام موتورهاي اصلي، فيلدهاي ارزشمندي مثل عناوين و URL را شاخص بندي ميكنند. اغلب شبه دستورات HTML نيز شاخصبندي ميشوند. شبه دستورات شامل واژهها، عبارات يا جملاتي كه در بخش خاصي ا زكد زبان HTML قرار مي گيرند تا محتويات صفحه را توصيف كنند. شبه دستورات هنگام مشاهده صفحه ديده نمي شوند، گرچه مي توانيد به مرورگر بگوييد كه مد منبع را نمايش دهد. كد منبع، كد سازنده صفحه است. براي كساني كه با HTML آشنايي ندارند، مشاهده كد منبع ارزش چنداني ندارد.
محتويات شبه دستورات براي بازيابي اطلاعات مناسباند. اما بعضي از موتورها بعضي از شبه دستورات را شاخص بندي نمي كنند، زيرا شبه دستورات بخشي از صفحهاند كه تحت تأثير سپامها قرار ميگيرند. از اين رو حجم زيادي از اطلاعات شاخصبندي ارزشمند، ناديده گرفته ميشود.
آنهايي كه با HTML اشنايي دارند، ميدانند كه فريمةا در ميليونها سايت استفاده ميشوند.
فريمها دستگاههايي از HTML هستند كه بخشهاي مختلف صفحه را به عنوان پنجرههايي درنظر ميگيرند. بعضي از مووتورهاي جست و جو فريمةار ا شاخص بندي نميكنند و در نتيجه بسياري از سايتها از دست ميروند. اين ضعف به اين صورت برطرف ميشود كه توسعه دهندگان هوشمند صفحات وب، نسخههايي از وب سايت بدون فريم را ايجاد ميكنند كه معادل سايت با فريم است. علاوه بر اين با تكامل ساخت صفحات وب از فريمها به ندرت استفاده ميشود.
بعضي از موتورهاي جست و جو، واژههاي موجود در پيوندهاي آبرمتن (مثل Click Here) اسامي اپلت هاي جاوا، پيوندهاي موجود در نقشههاي تصوير يو غيره را با شاخصبندي نميكنند. باتوچه به اين مطالب مشخص ميشود كه چرا بعضي از صفحات در تعدادي از جستو جوها بازيابي نميشوند.
موتور بازيابي
موتور بازيابي برنامهاي است كه تقاضاي شما را دريافت ميكند و سپس شاخص را جست و جو ميكند تا ركوردهاي مطابق با تقاضاي شما را شناسايي كند و تحويل دهد. در واقع، در اين فرآيند دو مسئله اتفاق ميآفتد:
1 ـ موتور بازيابي با استفاده از الگوريتم بازيابي ركوردهاي مطابق با تقاضاي شما را شناسايي ميكند.
2 ـ سپس اين موتور ركوردهاي بازيابي شده را به ترتيب خاصي تنظيم ميكند و به كاربر تحويل ميإهد. اين دو عمليات ممكن است به طور همزمان يا به طور مجزا انجام شوند.
الگوريتمهاي بازيابي را در ادامه شرح ميإهيم. فعلا به اين نكته اكتفا مي:نيم كه اين برنامهها با استفاده از معيارهاي تطبيق تعيين ميكنند كه چه ركوردهايي حاوي واژهها عبارات يا تركيبي از آنها است.
ممكن است ساير معيارهاي تعريف شده توسط كاربر را نيز تطبيق كنند، مثل آيا صفحه خاصي حاوي فايلهاي صوتي و تصويري هست يا خير.
بخشي از موتور جست و جو كه ارتباط ركوردها را مشخص ميكند، ممكن است با الگوريتم بازيابي تركيب شده باشد يا فرآيند جداگانهاي باشد. حتي اگر به صورت فرآيند جداگانهاي باشد. اين تفكيك ممكن است از نظر كاربو مشخص نباشد و معمولا لازم نيست مشخص باشد. در بعضي موارد ممكن است تفكيك اين دو فرآيند روشن باشد. به عنوان مثال، در جست و جوي پيشرفته در Alta Vista كاربر بايد در كادر جداگانهاي به نام Sort by مشخص كند مرتب سازي چگونه بايد صورت گيرد.
واسط HTML
آنچه كه كاربران هنگام اتصال با موتور جست و جو ميبينند، واسط HTML است. اين واسط، داده هاي تقاضا را از كاربر ميگيرد و آن داده ها را به موتور جست و جو ميفرستد تا بازيابي را انجام دهد. بديهي ترين عمل آن، تهيه ابزاري براي كاربر است تا كاربر بتواند تقاضايش را مشخص كند. اما اين واسط اعمال ديگري را نيز انجام ميدهد، مثل فضايي براي تبليغات كه درآمدي براي شركت موتور جست و جو محسوب ميشود، امكان دستيابي به ويژگيهاي مختلف دروازه، و فراهم كردن پيوندهايي به صفحات كمكي و اطلاعات ديگري راجع به خدمات.
بانك اطلاعاتي در وراي بانك اطلاعاتي
دقت كنيد كه تمام موتورهاي جستوجو، بانكهاي اطلاعاتي مخصوص به خود را ايجاد نميكنند. بعضي از موتورهاي جستو جو از بانك اطلاعاتي كه توسط ديگران ايجاد شد استفاده ميكنند و سپس محتويات، ويژگيها و الگورتيمهاي مرتبسازي خاص خودشان را اضافه ميكنند. بعضي از موتورهاي جستو جو مثل HotBot و MSN از بانك اطلاعاتي Inktomi استفاده ميكنند. Inktomi (با 500 ميليون ركورد) با عمل خزنده اطلاعات را جمع آوري كرد و آن را شاخص بندي نمودو سپس اين بانك اطلاعاتي را به HotBot و سايرين فروخت. از اين پس، اين موتورهاي جست و جو ميتوانند بانك اطلاعاتي را دستكاري كنند. نقاط دستيابي مختلفي را ايجاد كنند(جست و جوي فيلدها) و در صورت لزوم نتايج حاصل از جست و جوي بانك اطلاعاتي Inktomi را با نتايج حاصل از ساير منابع تركيب نمايند. در نتيجه جست و جوي دو موتور جست و جو كه هر دو از Inktomi استفاده ميكنند. ممكن است نتايج مختلفي را توليد نمايد.
موتور جست و جوي Fast Search بانك اطلاعاتي خودش را در اختيار ديگران قرار مي دهد و از طريق سايت خودش نيز مستقيما ميتوان به بانك اطلاعاتي آن دست يافت (برخلاف Inktomi) Lycos اولين موتور جست و جويي بود كه از بانك اطلاعاتي Fast Search استفاده كرد.
ويژگيهاي دروازه
منظور از ويژگي دروازه، ابزارها و اقلام اطلاعاتياند كه در واسط خدمات ظاهر ميشوند و الزاما بخشي از عمليات جست و جوي وب نيستند. دايركتوريهاي وب، اخبار، دايركتوريهاي شركت، اطلاعات سهام، نقشهها، هواشناسي و غيره. براي اهدافي كه فعلا داريم، عمل جست و جو را به عنوان فرآيندي تعريف ميكنيم كه كاربر معيار خاصي را وارد ميكند و بانك اطلاعاتي جست و جو ميشود تا صفحاتي از وب شناسايي شوند كه با آن معيار جور درآيند.
وقتي مفهوم دروازه ابتدا توسط خدمات جست و جو توسعه يافتند، اغلب ويژگيهاي غيرجستوجو به عنوان امكاناتي اضافي بودند. اينها با عمليات جست و جو تركيب نشدند و فوايد ناشي از آنها را ميتوان به شكل بهتري از جاي ديگر به دست آورد.
احتمال اولين مثال از جامعيت (تركيب) جست و چوي بانك اطلاعاتي وب با يكي از اين ابزارها، سايت ياهو است. در ياهو، عمل جست و جو و عمليات دايركتوري با هم تركيب شدند. ياهو معمولا به صورت يك دايركتوري نگريسته ميشود(يك مجموعه قابل مرور، دسته بندي شده و انتخابي) نه يك موتور جست و جوي عمومي وب. اما چون اين دو عمليات باهم تركيب شدهاند، در هر دو رده ميگنجد.
ياهو عمل مرور كردن را به خوبي جامعيت ميبخشد، زيرا هنگام جست و جو در ياهو عناوين دستهبندي ياهو جست و جو ميشوند و هنگام مرور در هرسطحي در الگوي دسته بندي جست و جوگر ميتواند دسته يا گروه موردنظر خودش را انتخاب نمايد. ياهو نه تنها در بانك اطلاعاتي خودش، بلكه در بانك اطلاعاتي ساير موتورهاي جست و جو نيز جست و جو ميكند(اوايل از بانك اطلاعاتي AltaVista استفاده ميكرد و فعلا از بانك اطلاعاتي Google استفاده مينمايد). باتوجه به اين كه خدمات جست و جوي وب به صورت دروازه درآمدند، اغلب خدمات به اين نوع جامعيت ابزار روي آوردند. همان طور كه خواهيم ديد اين جامعيت نه تنها به جامعيت جست و جو و منابع دايركتوري وب مربوط ميشود به جامعيت ابزارهاي ديگر نيز مربوط خواهد شد.
نكته مهم در بررسي فوايد دروازه اين است كه كاربرد توانايي دارد تا صفحه اول سايت را شخصيسازي نمايد. اغلب خدمات جستوجوي وب كه ويژگيهاي دروازهاي را تدارك ميبنند، به جست و جوي وب نيز صادق است. سايتهاي جديدي مثل MSNBC و CNN اطلاعاتي بيش از اخبار خودشان را ارائه ميكنند. و اجازه مي دهند كه سايتهاي آنها شخصي سازي شوند.
اگر تاكنون صفحه اول هيچ سايتي را سفارشي نكرده باشيد، حتما اين كار را انجام دهيد. با انجام اين كار وقتي به آن سايت ميرويد تمام عناوين موردنظرتان را خواهيد ديد.
از اينكه با جنبه دروازهآي اين خدمات به عنوان مكمل عمليات جست ؤ جو نگريسته ميشود به معناي اين نيست كه جنبه دروازهاي اهميت كمتري دارد به اين علت با دروازه به اين صورت رفتار ميشود كه هدف اين كتاب بررسي جست و جو در وب است و آنچه كه در مورد دروازه گفته ميشود، به جست و جو مربوط ميگردد و برعكس، درواقع، هر جست و جوگربايد با مفهوم دروازه و امكان آن آشنا باشد. فقط به خاطر جست و جو به وب نميرويم. براي بسياري از افراد، انتخاب، سفارشي كردن، و استفاده از دروازه در وب، بيشتر از استفاده از تلفن اتفاق ميافتد.
اجزاي صفحه اول موتور جست و جو
بسته به اين كه خدمات جست و جوي وب، مبتني بر دروازه يا مبتني بر جست و جو ميباشد، نماي صفحه اول آنها بسيار متفاوت است. خوب است كه جست و جوگران يك تصوير ذهني از خدمات مختلف داشته باشند اما تا زماني كه افراد با چند موتور جست و جو آشنا نشوند، عدم سازگاري بين آنها منجر به تضادهايي ميشود. به همين دليل خوب است كه نگاهي به صفحه اول خدمات موتور جست و جو داشته باشيم تا محتويات و ويژگيهايي را كه اين خدمات دارند، شناسايي كنيم. وقتي شباهتها پيدا شدندبه راحتي مي توان تشخيص داد كه چه كارهايي با آن موتور جست و جو ميتوان انجام داد. عناصر موجود در صفحه اول Alta Vista بسيار زياد است و در شكل 1-1 آمده است.
گزينههاي بانك اطلاعاتي
بعضي از موتورهاي جست و جو مشخص ميكنند كه چه مجموعهاي از منابع بايد جست و جو شود. اين گزينه ها ممكن است شامل جست و جوي بانك اطلاعاتي اصلي موتور جستوجو يا جستو جوي مجموعههاي ديگري از بانك اطلاعاتي مثل تصاوير، صوت و فيلم، مقالات خصوصي و گروههاي بحث باشد.
مهمترين گزينه و گزينه پيش فرض، واژه the web است كه تمام صفحاتي از وب را دربرميگيرد كه در بانك اطلاعاتي آن خدمات جست و جو وجود دارد. معمولا براي گزينههاي جست و جو از كادر متني يا دكمههاي راديويي استفاده ميشود.
اغلب، در جاهايي از صفحه، پيوندهايي براي جست و جو در ساير بانكهاي اطلاعاتي وجود دارد (مثل بانكهاي اطلاعاتي مربوط به اطلاعات سهام)، اما موتور جست و جويي كه براي اين پيوندها به كار ميرود متفاوت است و معمولا شركت ديگري آن را تهيه كرده است. به عنوان مثال Excite چنين پيوندري را براي مظنه سهام و هواشناسي تدارك ميبيند كه هر كدام از آنها صفحات واسط پيچيدهاي دارند.
كادر تقاضا
اين كادرها قلب موتور جست و جو هستند زيرا تقاضاها در اين وارد ميشوند. آنچه كه ميتوان در اين كادر وارد كرد (عبارت منطق بولي و غيره) بسته به نوع موتور جستوجو دارد.
گزينههاي اصلاح كننده تقاضا
تقريبا نيمي از موتورهاي جستو جو گزينههايي را در صفحه اول فراهم ميكنند تا بتوان تقاضا را اصلاح كرد. اين گزينهها اغلب به صورت پنجره بازشونده، دكمههاي راديويي، يا كادرهاي كنترلي نمايش داده ميشوند. اينها گزينههايي را فراهم ميكنند تا بتوان جستو جو را برحسب زبان، تاريخ، محتويات خاص، به كارگيري عملگرهاي منطقي و غيره به نحو بهتري انجام داد.
پيوند به نسخههاي پيشرفتهتر
براي تمام موتورهايي كه گزينه نسخه پيشرفته را تدارك ميبينند، پيوندهايي در صفحه اول وجود دارد كه به نسخه پيشرفتهتري هدايت ميشوند. اغلب، خود پيوند بسيار كوچك است، به طوري كه گويي نميتوانيد آن را ببينيد. به ياد داشته باشيد كه اگر نسخه پيشرفته را ترجيح ميدهيد ميتوانيد آن را به جاي صفحه اول موتور جست وجو علامت گذاري كنيد.
آگهي تبليغاتي
اگهي تبليغاتي در موتورهاي جست و جو تقريبا اجتنابناپذير است. براي اغلب شركتهايي كه موتورهاي جستوجو را تهيه ميكنند، آگهي تبليغاتي و فروش نرمافزار، عمدهترين موضوعات سودآور هستند. دقت داشته باشيد كه آگهي ها معمولا در رابطه با جستوجويي كه انجام مي دهيد بخش ميشوند. به عنوان مثال، اگر جستوجويي را انجام دهيد كه حاوي واژه furniture باشد، آگهي تبليغاتي مربوط به اثاثيه (معناي واژهfurniture) ظاهر ميشود. كسي كه اين آگهي را داده است، اين طور خواسته است كه در مواقع مناسبي پخش گردد. اگر اين موضوع را از ديدگاه مثبت نگاه كنيد، اين آگهي ميتواند براي مشتري و آگهي دهنده سود داشته باشد.
دايركتوري (موضوعات كانالها و دستهبندي)
براي موتورهاي بزرگ، معمولا ليستهاي وسيعي از منابع اطلاعات وب به يكي از فرمتهاي زير ظاهر ميشود:
دايركتوري يا ليست دسته بندي شدهاي از سايتها. به ياد داشته باشيد كه در هر موتور، اين سايتهاي انتخاب شده فقط بخش كوچكي از سايتهاي موجود در بانك اطلاعاتي موتور جستوجو را تشكيل مي دهند، بعضي از موتورهاي جستو جو، دايركتوري هايي را ايجاد و نگهداري ميكنند، در حالي كه بعضي ديگر از موتورها از يك دايركتوري استفاده مي كنند كه در اختيار چندين موتور جستو جو قرار دارند. فعلا Open Directory (كه شكل عادي آن در سايت www.domz.org قرار دارد) و (LookSmart.com) LookSmart دايركتوريهايي هستند كه چندين موتور جستو جو از آنها استفاده ميكنند.
چون Open Directory بيشتر به امور پژوهشي مربوط است، خوب است كه در اينجا توضيحي راجع به آن مطرح شود. Open Directory بزرگترين دايركتوريهاي وب است كه بيش از 2 ميليون ركورد دارد. برخلاف ياهو، كه صدها ويراستار دساتخدام دارد و به آنها مبالغي را پرداخت ميكند، Open Directory در حدود 300000 ويراستار داوطلب دارد. از يك طرف، اين موضوع ميتواند به معناي كيفيت متغيري در انتخاب سايتها باشد، ولي از طرف ديگر به معناي اين است كه بسياري از ويراستارها در زمينه تخصصي خود نسبت به ويراستارهاي ياهو باتحربهتراند. به طوري كلي به نظر ميرسد كيفيت محتويات خوب است و يك صفحه خوب با احتمال و سرعت بيشتري وارد Open Directory ميشود تا ياهو. Open Directory داراي 15 دسته سطح بالا است و اغلب طبقه يا طبقههاي فرعي داراي چهار يا پنج سطح پايين تر هستند. حاوي ارجاعات متقابل و توصيفهايي براي دستهها است و جست و جو در هر سطح همانند سطح بالا انجام ميگيرد.
هر موتور جستوجو، Open Directory را تقريبا متفاوت از ديگري پيادهسازي ميكند.
ـ كانالها يا صفحات اختصاصي در مورد موضوعاتي مثل تجارت، سرگرمي يا ورزش، هر يك از اين صفحات، ممكن است حاوي ليست دايركتوري در مورد ان موضوع سايتهاي قابل جستوجو و غيره باشد. به عنوان مثال در Excite در زير طبقه Bussiness پيوندي به بخش Bussiness دايركتوري مربوط به Excite حستوجوي مظنه سهام، دايركتوري هاي شركت، مجموعهاي از ابزارهاي تجارت Online و بسياري از پيوندهاي تجاري مرتبط دارد.
ارتقاي سايت
جايي است كه توليدكننده موتور جستوجو ويژگيهاي بارز خود را نشان ميدهد. معمولا ويژگيها يا محتويات بارز در ان برجسته ميشوند. موتورهاي جستو جو معمولا خدماتي را در اين جا مطرح ميكنند كه ممكن است در سايتهاي ديگر نباشد.
ساير ويژگيهاي دروازه
اين طبقه شامل ويژگيهاي مختلف و متعددي است كه در جدول 1-1 آمدهاند.
پيوندهاي Help
اين پيوند شما را به صفحات بيشتري هدايت ميكند كه چگونگي عملكرد موتور جست و جو را براي شما تشريح ميكند. گرچه اغلب چيزهايي كه در صفحه كمكي ميخوانيد درست هستند، ولي بعضي از موتورهاي جستوجو چيزهايي را مطرح ميكنند كه به انها عمل نميكنند. در بعضي از موارد اين خدمات ويژگيهايي را ارائه ميكنند كه در صفحات كمكي آنها گنجانده نشده است. بعضي از خدمات ممكن است در طول عمر خود تغيير كنند ولي اين تغييرات به صفحات كمكي آنها اعمال نشود. به طور كلي، صفحات كمكي خوب هستند و كيفيت آنها رو به افزايش است.
چه انتظاري از اين خدمات داريد
براي كساني كه جستوجوهاي زيادي را با خدمات Online مثل DIALOG و LEXIS – NEXIS انجام دادند، انتظارات مربوط به موتورهاي جستوجوي وب بايد تعديل شود. تنوع ويژگيها، پيچيدگيها و قابليت اعتماد ويژگيها و در بعضي از موارد قابليت اعتماد نتايج حاصل از موتورهاي جستوجو، برابر با آن خدمات تجاري نيست. ماهيت عمومي بودن موتورهاي جستو جو، به خصوص تمايل به جذب ميليونها كاربر موجب شده است تا سطح پشتيباني آنها از مشتريان، كمتر از خدمات قديميتر باشد.
اما چون خدمات جستو جوي وب رايگان هستند، ميتوان اين عيبها و نقصها را نيز تحمل كرد. به طوري كه حق اشتراك گرفته نميشود و بابت جستوجو نيز پولي دريافت نميگردد.
فاصله بين انتظارات بازيابي قديمي و انتظارات جستو جوي وب وقتي كمتر ميشود كه عوامل ديگر نيز درنظر گرفته شوند. تشخيص اين عوامل براي جستوجوگرهايي مناسب است كه بخواهند از هر دو نوع خدمات استفاده كنند.
عامل اول اين است كه موتورهاي جستو جو با دادههاي بدون ساختار سروكار دارند، يا با دادههايي سروكار دارند كه ساختار آنها سازگاري ندارد. در واقع، ساختاري معين براي HTML وجود دارد. بدنه صفحات ساختار، سازگاري چنداني ندارد كه خدمات جستوجوي وب بتواند براي جستوجوي ساخت يافته استفاده كند. وقتي سازندگان صفحات وب از گزينه هايي مثل XML استفاده كنند، اين وضعيت تغيير ميكند. XML انواع مختلف دادههاي موجوددر صفحه را به خوبي شناسايي ميكند. بعضي از موتورهاي جستو جو سعي ميكنند كه از اين امتياز استفاده كنند و فعلا منتظر سايتها هستند تا اين نوع ساختارها در انها به وجود آيد.
عامل دوم اين است كه باتوجه به حجم دادههاي موجود در وب، به اضافه دادههايي كه روزانه اضافه ميشوند، كاري كه موتورهاي جستو جو در يك دوره زماني كوتاه انجام ميدهند، جالب است، توجه به اين حقيقت كه حداقل يك سطح دستيابي اوليه به صدها ميليون صفحه وجود دارد، جاي اميدواري است و ميتوان عيبها راناديده گرفت.
در جولاي 1999، در مقاله قابليت دستيابي اطلاعات در وب استيولورنس و سي. ال.گيلز مطالعاتي در مورد حوزه دستيابي موتورهاي جست و جو انجام دادند. در اين مقاله، پژوهشگران براورد كردند كه وب در آن زمان حاوي 800 ميليون صفحه از اطلاعات بود و هر موتور جستوجوي قوي كمتر از يك چهارن اين محتويات را تحت پوشش قرار داد. آنها برآورد كردند كه از بين 800 ميليون صفحه موتور جست و جوي Northern فقط 16 درصد، SNAP و AltaVista فقط 5/5 درصد و HotBot فقط 11 درصد و بقيه كمترا ز 10 درصد را شامل ميشوند.
يادآوري ميشود كه ارقام مطرح شده توسط تمام بينندگان وب قابل قبول نيست. بعضي از توليدكنندگان موتور جست و جو احساس ميكنند كه اين ارقام تحت تأثير اين حقيقت قرار گرفتند كه بسياري از صفحاتي كه در اين مطالعه شناسايي شدهاند، تكراري اند ولي URL يكساني دارند. يعني چندين URL به يك صفحه اشاره ميكردند، مثل www.onstract.comو onstrat.com. با اين كه صفحات مشابهي در كارگزاران مختلف بودند. علاوه بر اين بسياري از آنها نيز سپام(مزاحمتهاي پستاند) اگر اين مشاهدات درس باشد موتورهاي جستوجو صفحاتي بيش از آنچه را كه در مطالعات لورنس وگيلز مطرح شد، دربر ميگيرند.
هر كدام از نظرات درست باشد براي افزودن ديدگاهي به اين اعداد، دقت داشته باش
يد كه حتي اگر يك چهارم صفحات نيز تحت پوشش قرار گيرند، مناسب است. توجه كنيد كه بسياري از خدمات جستو جوي قديمي تمايل ندارند تمام صفحات منتشر شده را نگهداري كنند. خدمات مشهوري مثل Psychological Abstract, Chemical Abstract و يا ساير خدمات حتي سعي نميكنند تمام چيزهايي را كه به ترتيب در مورد شيمي يا روانشناختي منتشر شدهاند، دربرگيرند. به اين نكته توجه داشته باشيد كه اگر ميخواهيد به تمام اطلاعات مربوط به يك موضوع دسترسي داشته باشيد، بايد چندين موتور جستوجو را بررسي كنيد.
حتي اگر چندين موتور جستو جو نيز جستو جو شوند، بازهم بخشي از وب را مشاهده نخواهيد كرد. اين بخش را اصطلاحا وب غيرقابل مشاهده مينامند. اين صفحات در سايتهايي قرار دارند كه ورود به آنها مستلزم داشتن كلمه عبور است يا صفحاتياند كه بخشي از بانكهاي اطلاعاتي هستند كه براي جستجو نياز به وروديهايي از طرف كاربر دارند. براي دستيابي به اين بانكهاي اطلاعاتي، بايد ثبت نام كرده كلمه عبوري را وارد كنيد و يا بايد تقاضايي را در صفحهاي از ان سايت وارد كنيد. براي دستيابي به صفحات موجود در اين سايتها بايد مستقيما به آن سايت برويد، نه اين كه سعي كنيد انها را با استفاده از موتور جستوجوي وب جستوجو كنيد. براي مشاهده مجموعهاي از اين نوع سايتها به آدرس زير مراجعه كنيد:
gwis2.circ.gwv.edul~gpriceldirect.htm
براي مجموعهاي از انتظارات منطقي در مورد قابليت جستوجو، بايد يك جنبه اضافي را درنظر داشت. به طور كلي، اغلب موتورهاي جستوجو براي جستوجوگرهاي جدي طراحي نشدند. بسياري از آنها براي كاربران موردي طراحي شدند، نه براي كساني كه در محيطهاي تجاري و پژوهشي كار ميكنند. با مراجعه به مستندات جستوجو و مشاهده مثالهايي كه در آن ارائه ميشود، ميتوانيم به استفاده كنندگان آن پي ببريم. باتوجه به اين حقيقت، اگر از آنچه كه توسط موتور جستوجو ارائه ميشود استفاده صحيحي به عمل آيد، نتايج معقولي به دست خواهند آمد. اگر كاربران جدي از ويژگيهاي پيشرفتهتر استفاده كنند، ممكن است روشهاي پيشرفتهتري ارائه شوند. گرچه ممكن است بسياري از سايتها بتوانند به كاربران موردي پاسخ دهند، ولي معمولا همه سعي ميكنند از موتورهاي جستوجوي قويتر استفاده كنند. اين موضوع در مورد Northern light رخ داده است. به همين ترتيب، اغلب موتورهاي جستوجو سعي ميكنند تمام امكانات جستوجو را فراهم كنند.
موارد ديگري كه نبايد انتظار داشت:
ـ سازگاري از يك موتور جستوجو به موتور جستوجوي ديگر. اين موضوع را ميتوان يك نكته مثبت تلقي كرد، نه منفي، زيرا هنوز بهترين روش جستوجو در وب مشخص نشده است و بايد در اين راه تلاش كرد.
ـ ابزارهاي قديمي كه با فروشندگان Online مورد استفاده قرار ميگيرند (مثل واژهنامه كنترل شده، دامنه كاملي از اتصال دهندههاي بولي و الحاقي، فرمتهاي خروجي و غيره).
ـ جستوجوي كتابشناسي جامع ـ تا مشخص شود چه ژورنالها، كتابها، گزارشهاي تكنيكي، پايان نامه ها و غيره چاپ شدهاند كه موتورهاي جستوجو هنوز نتايج قطعي را اعلان نميكنند به خصوص براي جستو جوهاي بعدي. براي بسياري از موضوعات، بهترين شرط براي جستوجوي كتابشناسي اين است كه از يكي از خدمات اقتصادي استفاده شود يا يك بانك اطلاعاتي مثل ERIC پيدا شود كه خواستهةاي موردنظرتان را داشته باشد.
ـ بدانيد كه در اثناي جستوجو چه اتفاقاتي رخ ميدهد. پژوهشگران مجرب Online اغلب دوست دارند تمام چيزهايي را كه در پشت صحنه رخ ميدهد، بدانند. لذا ميتوانند تشخيص دهند كه آيا واقعا به اهداف خود دست مييابند يا خير.
آنچه كه واقعا در پشت صحنه جستوجو رخ ميدهد به دلايل رقابتي مخفي است و فقط در اختيار توليدكننده خدمات جست و جو است. اين موضوع به همراه ناسازگاريهاي موجود و بديهي، به معناي اين است كه نميتوان به دانش كافي در مورد پشت صحنه جستوجو دست يافت. در واقع، پشت صحنه، مخفي است.