دانلود مقاله موتور های جستجوگر

بخشی از مقاله

موتورهاي كاوش بسياري موجود هستند و براحتي در دسترس قرار مي‌گيرند Netsearch متعلق به نت اسكيپ و www by subject or keyword مربوط به كتابخانه كنگره، هر دو با هم موتورهاي كاوش اصلي را گرد آورده‌اند. همچنين ابرموتورهايي وجود دارد كه به جستجوگران اجازه مي‌دهد كه سريعاً به چندين موتور كاوش دسترسي پيدا كنند،

اما فقط Savy search قادر به جستجوي بيش از 5 پايگاه در يك زمان است. “All-in-one” گروهي ديگر از ابزارهائي را كه ارائه دهنده نمونه‌هاي جستجو بسياري از موتورهاي كاوش در يك پايگاه وب براي آسان‌سازي عمل جستجو هستند را نشان مي‌دهد.
كار عنكبوتها، روباتها و ديگر برنامه‌هاي خودكار بوسيله پروسيس خلاصه شده است. (1995) و محدوديتهاي اين ابزارها بوسيلهء كاستر تجزيه و تحليل شده‌اند. (1995) چندين مقاله ادعا كرده‌اند كه ابزارهاي جستجوي اينترنت را ارزيابي كرده‌اند، اما اغلب آنها توصيفهايي از شبكه جهاني وب يا موتورهاي كاوش ارائه داده‌اند. برينكلي و بيورك (1995) هايتلنت، آرچي، گوفر، و ايزو شبكه جهاني وب را شرح داده‌اند.

كورتوليس، بيرواستارك (1995) پرسشهايي بكار برده‌اند براي اينكه موتورهاي كاوش و نمايه‌هاي وب را آزمايش كنند. اما گزارش آنها بيشتر توصيفي است. كايمل (1996) تاريخچه‌اي از پايگاههاي توليد شده بوسيله رباتها را ارائه داده و به جستجوگران مبتدي راهنمائي‌هاي خوبي در مورد موتورهاي كاوش پيشنهاد كرده است. ونديتو(1996) هفت موتور كاوش را آزمايش كرده و ويژگيهاي جستجوي آنها را شرح داده است. گزارشهاي مشابه در مورد اينترنت فراوان است و بسياري از آنها را مي‌توان در ليت كمپبل پيدا كرد. نمونه‌هاي خوب بسيار كم هستند. مثل گزارشهاي لين (1995)، وين شيپ (1995) وبستر و پانول (1995).

مطالعات ارزشيابي نسبتاً كمي وجود داشته كه شامل تحقيق ميداني در مورد موتورهاي جستجو باشد. دساي (1995) قدرت بازيابي سيزده ابزار جستجو را با يك سؤال آزمايش كرده است. او قادر بود با جستجوي نامش تعيين كند كه چگونه بسياري از اسناد وبي او بازيابي شده است. اينفوسيك و لايكاس با بازيابي هفت سند از 24 سند بهتر عمل كردند. در حاليكه ديگر موتورها و نمايه‌ها نظير وب كرولر و ياهو ضعيف عمل كردند. ليتون (1995) عملكرد اينفوسيك، لايكاس، وب كرولر و ورلد وايد وب وارم را با استفاده از 8 سؤال مقايسه كرده است.

او اين آزمايش را با 4 معيار انجام داد-نسبت تكراري بودن، دقت، دقت كامل و حداكثر 10 دقت- و نتيجه گرفت كه لايكاس و اينفوسيك بهتر از بقيه عمل كردند. پكروتومايولو 2 سؤال مرجع را در آلتاويستا، ماژلان، اينفوسيك، لايكاس و يونيت جستجو كردند. امتياز دقت آنها مبتني بود بر 10 نتيجه اول، آنها فهميدند كه آلتاويستا بهترين عملكرد را داشت بعد از آن اينفوسيك، لايكاس، ماژلان و پوينت. مقابقاب (1995) 5 سؤال را براي امتحان كردن 5 موتور كاوش با اجراي جستجوهاي اصلي و اصلاح شده در هر موتور بكار برد. او دقت نتيجه اول را تغيير داد. با استفاده از 25 نتيجه بعنوان پايه و مبنا. او ياهو را بعنوان بهترين عمل كننده شناخت.

يافته‌هاي اين مطالعات بطور قطعي بهترين موتورهاي كاوش را مشخص نكرد بعلت سؤالات مختلف، تعداد متفاوت سؤالات و مقياسهاي مختلف بكار رفته براي ارزشيابي. با اين وجود، اين مطالعات شيوه‌هاي مختلف ارزيابي موتورهاي كاوش را ثابت كرد و معيارهاي جديد و منطقي براي اجراي جستجو پيشنهاد كرد.

روش‌شناسي
اين مطالعه هشت موتور كاوش را كه مشهور هستند و براي عموم رايگانند ارزيابي مي‌كند. اين موتورها عبارتند از: آلتاويستا، اكسايت، اينفوسيك، گايد، لايكاس، ماژلان، اين تكست، وب كرولر و ورد وايد وب وارم.

عوامل بسياري ممكن است براي موفقيت يك جستجو مشاركت كنند. درك صحيح از تقاضاي جستجو، استراتژي جستجو، پايگاه اطلاعاتي، موتور كاوش، و قضاوت ميزان ارتباط بوسيلهء جستجوگران. در اين تحقيق تعدادي از اين معيارها كنترل شده بودند بنحوي كه تفاوت موتورهاي كاوش قابل مشاهده بود. موتورهاي كاوش از نظر اندازه، محتواي پايگاه اطلاعاتي‌شان، خط‌مشي‌هاي نمايه‌سازيشان، كنترل كيفيت، شيوه‌هاي بازيابي و ارائه نتايج جستجو متفاوتند.

فرض بر اين شد كه سؤالات آزمايشي با پيچيدگي و وضع متفاوت در تعيين بهترين موتور جستجو با ارزش‌تر خواهد بود. با اين وجود، مطالعات پيشين مشخص كردند كه امكان اينكه يك موتور جستجو در جوابگويي همه نوع سؤالات بهتر از همه باشد، وجود ندارد. ما تقاضاهاي جستجو را با استفاده از 20 سؤال مطرح شده در ميز مرجع استاندارد كرديم. و 5 سؤال موضوعي كه در حوزه‌هايي كه منابع اينترنتي بسياري داشت،

بوجود آمده بود-سرگرمي، تجارت، سياست اقتصاد و بهداشت. سؤالات مرجع گردآوري شده شامل سؤالات تخصصي و پرسشهاي موضوعي وسيع بود و از نظر اينكه توانايي موتورهاي كاوش را در جوابگويي به سؤالات مرجع واقعي مورد آزمايش قرار داد با ارزش بودند. 5 سؤال موضوعي ساختگي بودند، اما اين طراحي ما را قادر مي‌ساخت كه تجزيه و تحليل معني‌دار بيشتري انجام دهيم. با اين همه، هيچ ارزشيابي خيلي خردمندانه نبود اگر ما از سؤالاتي كه براي آن هيچ چيز قابل بازيابي نبود، استفاده مي‌كرديم.

مجموعه داده‌ها2 به هشت موتور كاوش چهار جستجو اختصاص يافته بود براي اطمينان از اينكه هر سؤال دو بار در يك موتور جستجو شده است. به جستجوگران آموزش داده شد كه از مرورگر نت اسكيپ براي دسترسي به اينترنت استفاده كنند و سؤالات داده شده را در موتورهاي كاوش تعيين شده جستجو كنند و نسخه‌هاي چاپي از نتايج جستجو ارائه دهند. جستجوگران كار را در آوريل شروع كردند و در ژوئن 1996 نتيجه‌گيري انجام شد. جمله‌بندي سؤالات مرجع براي جستجوهاي اينترنتي كمي تغيير داده شد. براي اطمينان يافتن از تكنيكهاي مشابه بكار رفته، كليدواژه‌ها تعيين شده بودند و پارامترهاي اساسي در مورد اينكه در هر موتور كاوش جستجو به چه صورت انجام شود ارائه شدند. به جستجوگران گفته شد كه بهترين قضاوتشان را در ارزيابي ارتباط منابع بازيابي شده بكار گيرند.

يكي از سؤالات مرجع دو بخش داشت، بنابراين سئوالات مرجع به 21 تبديل شد. هر كداميك از سؤالات 21 گانه مرجع و 5 سؤال موضوعي دو بار در هر موتور، جستجو شده بود. اما در اكسايت 4 بار جستجو شد، زيرا در اين موتور، جستجوگر قادر به جستجوي كليدواژه‌اي و نيز جستجوي مفهومي مي‌باشد. در ميانه راه با ماژلان جستجوگران گزينه‌اي از جستجو را در بخش خاصي از پايگاههاي اطلاعاتي يا كل پايگاهها به منظور هماهنگي و يكدستي همه جستجوگران در كل پايگاهها انجام دادند. در كل 468 جستجو انجام شده بود.
متغيرهاي وابسته. چهار متغير براي اين تحقيق اندازه‌گيري شدند. «دقت»3 كه بطور سنتي تعريف شده بود: تعداد منابع مرتبط بازيابي شده تقسيم بر تعداد منابع بازيابي شده و يك معيار استانداردي براي سيستمهاي بازيابي اطلاعات بوده است. از آنجائي كه ارزيابي ارتباط تعداد زياد صفحات بازيابي شده بوسيلهء موتورهاي كاوش غيرممكن بود .

اين متغير در اين تحقيق بطور عملياتي چنين تعريف شده:
دقت: تعداد منابع مرتبط در 10 گزينه اول
شيوه استفاده از ده گزينه اول قابل توصيه است، زيرا اين گزينه‌ها بيشتر امكان دارد كه به وسيله جستجوگران ديده شود. اين معيار را ليتون، پيكروتومايولو بكار برده است. اما برخلاف تحقيق ليتون، اين تحقيق پايگاههاي ارجاعي و تكراري را در معيار دقت درنظر مي‌گيرد. زيرا آنها بالقوه مفيد بودند (در صورتي كه گزينه‌هاي تكراري مرتبط باشد) و حذف آنها باعث مي‌شد كه پايهء مقايسه (كه ده تا بود) كوچكتر شود.

«تكراري بودن»4: در همان اوايل جستجو در موتورهاي كاوش گزارشهاي حكايت گونه‌اي از تكراريها بوجود آمد. در نتيجه اين معيار در ارزيابي‌هاي ما وارد شد. تكراري بودن بطور عملياتي «تعداد گزينه‌هايي كه تكرار شدند و قبل از آن نيز ارائه شده بودند» تعريف شده بود. پايگاههاي ارجاعي هم جزء تكراريها به حساب آمدند. در اين مطالعه ما تعداد گزينه‌هاي تكراري را بر اساس ده نتيجه اول در نظر گرفتيم.

«امتياز مرتبط‌ترين گزينه»5: همه موتورهاي كاوش انتخابي، نتايج بازيابي را با استفاده از الگوريتم متفاوت مرتب مي‌كنند و بهترين تطبيقها را اول ارائه مي‌دهند. اما تنظيم هميشه مفيد نبوده است. اين متغير براي امتحان كردن توانايي درجه‌بندي موتورهاي كاوش طراحي شده بود. كه بر اين فرضيه مبتني است كه شيوه درجه‌بندي مؤثر، مرتبط‌ترين گزينه‌ها را در بالاترين ليست نتايج جستجو قرار مي‌دهد.

جستجوگران، بطور عملياتي مرتبط‌ترين گزينه از بين ده گزينه تعريف كردند و به آن بخاطر جايگاهش يك امتياز دادند. اگر اين گزينه در اولين، دومين يا سومين گزينه بود اين موتور امتيازي بين 1 يا 2 يا سه مي‌گرفت. اگر اين گزينه جاي ديگر ظاهر مي‌شد به آن امتياز 6 داده مي‌شد. عدد 6 به اين علت انتخاب شده بود كه نشان مي‌داد اين گزينه در خارج از اولين نيمه ليست ده تايي قرار گرفته است. امتياز پائين در مورد مرتبط‌ترين گزينه نشان دهنده اين بود كه آن موتور بهترين درجه‌بندي گزينه‌هاي مرتبط را داشته است.

«امتياز درجه‌بندي ميزان ارتباط»6: اين متغير نيز درجه‌بندي ميزان ارتباط در موتورهاي كاوش را ارزيابي كرد اما به شيوه‌اي متفاوت. اين متغير به عنوان درصد گزينه‌هاي مرتبط كه در اولين نيمه ليست ده گزينه‌اي ظاهر شدند تعريف شد. اين تعريف مبتني بود بر اين فرضيه كه ميزان ارتباط گزينه‌ها كاهش خواهد يافت هر چقدر كه به گزينه‌هاي پائين‌تر مي‌رسيم. جستجوگران تعداد گزينه‌هاي مرتبط را در هر نيمه از ليست ده گزينه‌اي ثبت كردند و مأموران تحقيق اين تعداد را با توجه به فرمول زير براي رسيدن به امتياز درجه‌بندي براساس ميزان ارتباط تبديل كردند:
تعداد گزينه‌هاي مرتبط در اولين ليست
كل تعداد گزينه‌هاي مرتبط در ليست ده‌تايي

«بازيابي»7: يكي ديگر از معيارهاي استاندارد براي بازيابي اطلاعات است و چنين تعريف شده: تعداد گزينه‌هاي مرتبط بازيابي شده تقسيم بر كل تعداد گزينه‌هاي مرتبط در يك فايل اطلاعاتي. اين معيار براي استفاده دشوار بود زيرا جستجوگران مي‌بايست همه گزينه‌هاي مرتبط را در كل يك پايگاه يا فهرست شناسائي كنند. اين مشكل در شبكه جهاني وب خيلي شديدتر است. با هزاران هزار صفحه وب نمايه شده به وسيله موتورهاي جستجو انتخابي غيرممكن بود كه همه صفحات وب مرتبط با موضوع جستجو شناسايي شود. به اين ترتيب بازيابي در اين مطالعه استفاده نشد.
«تجزيه و تحليل داده‌ها»8: از 468 جستجوي انجام شده 4 معيار براي هر جستجو در موتور كاوش ثبت شد. بسامد و ميانگين اين معيارها براي هر موتور جستجو با نوع سؤالات حساب شده بودند.

يافته‌ها
دقت
سؤالات مرجع عمومي متنوع بود بطوري كه شايد يك كتابدار مرجع براي يافتن پاسخ آنها از اينترنت استفاده نمي‌كرد. با اين وجود همه سؤالات در موتورهاي كاوش جستجو شده بودند كه توانائي‌شان را در پاسخگويي به سؤالات مرجع ارزيابي كنند. موتورهاي كاوش اين كار را بخوبي انجام ندادند. ميانگين امتياز دقت خيلي پائين بود. بين 31/0 و 93/2.

اين تكست بالاترين تعداد گزينه‌هاي مرتبط را بازيابي كرد. بعد از آن آلتاويستا و اينفوسيك و سپس لايكاس با اختلاف كم چهارم شد. براي نشان دادن جنبه ديگري از اين جستجوها، اطلاعاتي در مورد نقاط كور هر موتور در جدول 1 قرار گرفتند كه نشان داد اكسايت پائين‌ترين تعداد نقاط كور را داشت و بعد از آن اين تكست و لايكاس. بر رويهم رفته، اين دو مجموعه از داده‌ها اين تكست را بعنوان بهترين موتور در برخورد با سؤالات مرجع معرفي كرد. اين موتور صفحات وب را براي اين سؤالات بازيابي كرد و نتايج جستجويش بالاترين امتياز ميزان دقت را داشت.

در اين پژوهش موتورهاي جستجو با سؤالات موضوعي ساختگي بهتر عمل كردند. سؤالات موضوعي پائين‌ترين ميانگين امتياز دقت (2/3) نسبت به بالاترين امتياز ميزان دقت (93/2) در سؤالات مرجع واقعي بالات بود. اينفوسيك بهتر عمل كرد بعد از آن ماژلان و اين تكست و باز هم لايكاس با اختلاف كم چهارم شد. از آنجائي كه سؤالات مرجع براي حوزه‌هايي طراحي شده بودند كه در مورد آن اطلاعات بيشتري در وب موجود باشد، مشكل نقاط كور در اين سؤالات خيلي جدي نبود. در سؤالات مرجع كيفيت گزينه‌هاي بازيابي شده، «دقت خاص» تعداد جستجوهايي كه بيش از 5 گزينه مرتبط را بازيابي كردند در نظر گرفته شد كه در جدول 2 آمده است.

اينفوسيك باز هم برنده ظاهر شد، بعد از آن ماژلان و اين تكست و لايكاس و وب كرولر هر سه بطور مساوي در جايگاه سوم قرار گرفتند. اين اطلاعات نشان داد كه اينفوسيك در برخورد با سؤالات بهترين بود. اين موتور بيش از 5 گزينه مرتبط را براي اغلب پرسشهاي موضوعي بازيابي كرد ونتايج جستجويش بالاترين امتياز ميزان دقت را داشت.

تكراري بودن
تكراريها در بازيابي زمان جستجوگران را تلف مي‌كنند و باعث سردرگمي مي‌شوند. علاوه بر قصه شكايت در مورد تكراريها، به هر حال، اين مسأله به نظر مي‌رسد كه در بيشتر موتورهاي كاوش مطرح بوده است. ميانگين تعداد موارد تكراري براي هر دو سؤالات مرجع و سؤالات موضوعي در هر موتور كاوش ناچيز است (كمتر از يك). اما سؤالات موضوعي شانسشان براي داشتن موارد تكراري بيشتر بود. اين اطلاعات نشان مي‌دهد كه نمايش داده‌هاي تكراري حتي زماني كه گزينه‌هاي مرتبط زيادي بازيابي شده بود اهميت چنداني نداشتند.

امتياز مرتبط ترين گزينه
اين امتياز توانايي هر موتور كاوش را براي نشان دادن اولين گزينهء مرتبط اندازه‌گيري كرد. بخاطر اينكه امتيازي به محل گزينه‌ها اختصاص يافته بود، پائين‌ترين امتيازها عملكردهاي بهتر را نشان مي‌داد. براي سؤالات مرجع امتياز موتورهاي جستجو بين 3/3 و 3/5 قرار داشت، اول اپن تكست بعنوان برنده بعد از آن اكسايت و آلتاويستا قرار گرفتند. موتورهاي كاوش با سؤالات موضوعي خوب عمل نكردند. امتيازات آنها بين 5/2 تا 2/4 قرار داشت. اپن تكست و بعد از آن اينفوسيك و وب كرولر بهترين عملكرد را داشتند. اپن تكست در ارائه مرتبط‌ترين گزينه هميشه بهترين بود.

امتياز تنظيم براساس ارتباط
اين امتياز قدرت موتورهاي كاوش را اندازه‌گيري كرد براي ارائه گزينه‌هاي مرتبط در اولين نيمه نتايج جستجو. براي سؤالات مرجع، امتيازات موتورهاي كاوش بين 5/15% تا 1/45% و با پيشتازي اپن تكست و بعد از آن اينفوسيك و اكسايت قرار داشت. براي سؤالات موضوعي امتيازاتشان بين 23% تا 8/52% قرار گرفت. اينفوسيك بعنوان بهترين عمل كننده لايكاس در جايگاه دوم و اكسايت به عنوان سومين جايگاه.
عملكرد جامع
چهار معيار جنبه‌هاي قدرت بازيابي موتورهاي كاوش را اندازه‌گيري كردند. نمودار 2 دقت، تكراري بودن و امتياز مرتبط‌ترين گزينه‌ها را براي سؤالات مرجع خلاصه كرده است.

امتياز رتبه‌بندي براساس ميزان ارتباط در آن وارد نشد، زيرا دامنه آنها خيلي بالاتر بود و نمي‌توانست بطور كامل در اين نمودار وارد شود. بهترين موتور جستجو بالاترين دقت، پائين‌ترين موارد تكراري، پائين‌ترين امتياز مرتبط ترين گزينه و بهترين امتياز تنظيم براساس دقت را دارد. اين نتايج در نمودار 2 روشن است، به هر حال موتورهاي كاوش چنين عمل كردند: اپن تكست بالاترين مانعيت و پائين‌ترين امتياز مرتبط‌ترين گزينه را داشت. اما اكسايت و اينفوسيك پايين‌ترين تعداد موارد تكراري را داشتند. از اين 4 معيار، اپن تكست بهترين امتياز را از بين آنها داشت و توانست بهترين عمل كننده براي اين نوع سؤالات باشد. رتبه دوم مشخص نبود چون اين موتورها فقط در يك يا دو معيار ممتاز بودند. با اين وجود اين امكان وجود داشت كه آنها را به دو گروه تقسيم كنيم: آلتاويستا، اكسايت، اينفوسيك و لايكاس نسبتاً بهتر از ماژلان، وب كرولر و ورلدوايد وب وارم عمل كردند.

نمودار 3 شباهت دشواري را در تعيين برنده براي سؤالات موضوعي نشان مي‌دهد. اطلاعات موجود بر روي نمودار 3 اينفوسيك را بهترين عملگر مي‌داند و امتياز تنظيم براساس ارتباط آنرا تقويت مي‌كند. بقيه موارد براي اعلام كردن خيلي مشكل بود.

جستجو در اينترنت
در سال 2000 حدود يكصدميليون پايگاه وب بر روي شبكه جهاني اينترنت وجوددارد و پيش بيني مي شود كه تنها پس از گذشت 2 سال ، در سال 2002 به 250 ميليون پايگاه برسد. با رشد تصاعدي حجم اطلاعات ، يافتن اطلاعات موردنظر در اين درياي پهناور كار مشكلي است و بكارگيري ابزارهاي جستجوي مناسب يكي از ضروريات كار باشبكه مي باشد.

موتورهاي جستجو از سال 1994 مورداستفاده قرار گرفتند. در ابتدا فعاليت آنها فقطجستجو در وب بود ولي با گذشت زمان ، خدمات ديگري از جمله فروش كالا، اجاره فضاي وب و پست الكترونيك ، تحليل سايتها و... به فعاليت آنها اضافه شد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

دانلود مقاله موتور های جستجوگر

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله کاپیتان کوک : جستجوگر دریانورد و پیشگام دریایی