whatsapp call admin

تحقیق در مورد موتور های جستجو

word قابل ویرایش
29 صفحه
8700 تومان
87,000 ریال – خرید و دانلود

مقدمه
رشد اینترنت شگفت‌آور شده است. با توجه به تحقیق میدانی در سال ۱۹۹۶ این رشد تصاعدی همچنان ادامه دارد. و تخمین زده شده که شبکه از نظر اندازه و حجم هر ۱۲ تا ۱۵ ماه دوبرابر می‌شود. بطور تقریبی ۰۰۰/۱۰۰ وب‌گاه در اگوست ۱۹۹۵ وجود داشته و این تعداد در اگوست ۱۹۹۶ به ۰۴۱/۵۳۶ رسیده است. از آنجائی که هر پایگاه می‌تواند بسیاری از

صفحات وب را در خود داشته باشد این باعث می‌شود که تعداد بیشتری از صفحات وب بوجود آید. در حالیکه کیفیت بسیاری از صفحات ممکن است مورد سؤال باشد و نگهداری بسیاری از صفحات پراکنده است. اما صفحات معتبری هم وجود دارد که اطلاعات با ارزشی در مورد بسیاری از موضوعات ارائه می‌دهد. آنچه استفاده‌کنندگان به آن نیاز دارند یک سیستم جداکننده است که مو از ماست بکشد.

تلاشهای زیادی صورت گرفته که این وظیفه را آسان کند: کتابداران و متخصصان موضوعی راهنماهای موضوعی را گردآوری کرده‌اند.«اخبار کتابخانه‌های تحقیقاتی و دانشکده‌ای»۱ بطور دوره‌ای راهنماهای منابع اینترنتی را در موضوعات انتخابی منتشر می‌کند. علاوه بر آن فهرستنویسان Intercat را (که یک فهرست آزمایشی برای اینترنت است) بوجود آورده‌اند. OCLC نیز پایگاه Netfirst را برای نمایه‌سازی منابع اینترنت با سرعنوانهای موضوعی کتابخانه کنگره و اعداد طرح دهدهی دیویی ایجاد کرده است. کتابداران مرجع یک پایگاه وب را به نام

Infofilter بوجود آورده‌اند که مرور منابع اینترنتی را به اشتراک بگذارند و کتابداران رده‌بندی موضوعی را برای سازماندهی منابع اینترنت مورد آزمایش قرار داده‌اند. اما چیزی که بیشترین توجه استفاده‌کنندگان اینترنت را به خود معطوف داشته است، احتمالاً عنکبوتها و روباتهایی هستند که خدمات جستجو را انتخاب می‌کنند. برای بسیاری از جستجوگران اینترنت، این

موتورها با راه دادن آنها به فضای اطلاعاتی عظیم کمک موقتی ارائه می‌دهند. کاربران اینترنت بزودی فهمیدند که این موتورها کامل و مناسب نیستند زیرا آنها منطقه جغرافیایی خاصی را پوشش می‌دهند، بصورت متفاوت نمایه‌سازی می‌شوند و منابع را با کلیدواژه‌ها بازیابی می‌کنند. استفاده‌کنندگان هرگز نمی‌توانند اعتماد کنند که یک جستجو جامع یا قطعی باشد. با وجود اینکه نتایج بازیابی ظاهراً بوسیله میزان ارتباط مرتب شده است و استفاده‌کنندگان مبارزه با ریزش کاذب مواد تکراری و نامربوط را ادامه می‌دهند. در کل پیشرفت خوبی در کمک به استفاده‌کنندگان برای جهت‌یابی در اینترنت بوجود آمده، اما این ابزارها آنقدر زیاد هستند که انتخاب صحیح یکی از آنها کار سختی است.

علاوه بر آن انتخاب موتورهای جستجوی مناسب ممکن است برای استفاده‌کنندگان عمومی و نیز کتابداران، به علت رویه‌های پیچیده، مهمتر باشد. بعنوان مثال، اینفوسیک سرویس رایگان دارد، اما سرویسهای هزینه بر، یعنی متخصصان اینفوسیک، نمایهء بزرگتر و قابلیتهای جستجوی قویتر ارائه می‌دهند.

وب کروکر یک درخواست حق عضویت دارد که زمانی آن را تحمیل می‌کند. اگر این عمل در مقابل هزینه برای خدمات یک رویه شود، لازم خواهد بود برای استفاده کنندگان و بخصوص کتابداران که بدانند کدامیک از موتورهای جستجو را باید به خدمت بگیرند.

این تحقیق تلاش کرده که کارآیی موتورهای کاوش را در آدرس دهی نیازهای اطلاعاتی ارزیابی کند. آیا آنها می‌توانند جوابهایی برای سؤالات مرجع واقعی بازیابی کنند؟ آیا آنها منابع خوبی برای سؤالات موضوعی ارائه می‌دهند؟ آنها تا چه حد نتایج جستجو را براساس میزان ارتباط مرتب می‌کنند؟ کدامیک از موتورهای جستجو بهتر عمل می‌کنند؟ جواب این سؤالات به ما کمک خواهد کرد که نقاط ضعف و قوت موتورهای کاوش را بهتر بفهمیم و ما را قادر می‌سازد که برای برطرف کردن نیازهای اطلاعاتی موتور کاوش مناسب را انتخاب کنیم.
پیشینه پژوهش

موتورهای کاوش بسیاری موجود هستند و براحتی در دسترس قرار می‌گیرند Netsearch متعلق به نت اسکیپ و www by subject or keyword مربوط به کتابخانه کنگره، هر دو با هم موتورهای کاوش اصلی را گرد آورده‌اند. همچنین ابرموتورهایی وجود دارد که به جستجوگران اجازه می‌دهد که سریعاً به چندین موتور کاوش دسترسی پیدا کنند، اما فقط Savy search قادر به جستجوی بیش از ۵ پایگاه در یک زمان است. “All-in-one” گروهی دیگر از ابزارهائی را که ارائه دهنده نمونه‌های جستجو بسیاری از موتورهای کاوش در یک پایگاه وب برای آسان‌سازی عمل جستجو هستند را نشان می‌دهد.

کار عنکبوتها، روباتها و دیگر برنامه‌های خودکار بوسیله پروسیس خلاصه شده است. (۱۹۹۵) و محدودیتهای این ابزارها بوسیلهء کاستر تجزیه و تحلیل شده‌اند. (۱۹۹۵) چندین مقاله ادعا کرده‌اند که ابزارهای جستجوی اینترنت را ارزیابی کرده‌اند، اما اغلب آنها توصیفهایی از شبکه جهانی وب یا موتورهای کاوش ارائه داده‌اند. برینکلی و بیورک (۱۹۹۵) هایتلنت، آرچی، گوفر، و ایزو شبکه جهانی وب را شرح داده‌اند. کورتولیس، بیرواستارک (۱۹۹۵) پرسشهایی بکار برده‌اند برای اینکه موتورهای کاوش و نمایه‌های وب را آزمایش کنند. اما گزارش آنها

بیشتر توصیفی است. کایمل (۱۹۹۶) تاریخچه‌ای از پایگاههای تولید شده بوسیله رباتها را ارائه داده و به جستجوگران مبتدی راهنمائی‌های خوبی در مورد موتورهای کاوش پیشنهاد کرده است. وندیتو(۱۹۹۶) هفت موتور کاوش را آزمایش کرده و ویژگیهای جستجوی آنها را شرح داده است. گزارشهای مشابه در مورد اینترنت فراوان است و بسیاری از آنها را می‌توان در لیت کمپبل پیدا کرد. نمونه‌های خوب بسیار کم هستند. مثل گزارشهای لین (۱۹۹۵)، وین شیپ (۱۹۹۵) وبستر و پانول (۱۹۹۵).

مطالعات ارزشیابی نسبتاً کمی وجود داشته که شامل تحقیق میدانی در مورد موتورهای جستجو باشد. دسای (۱۹۹۵) قدرت بازیابی سیزده ابزار جستجو را با یک سؤال آزمایش کرده است. او قادر بود با جستجوی نامش تعیین کند که چگونه بسیاری از اسناد وبی او بازیابی شده است. اینفوسیک و لایکاس با بازیابی هفت سند از ۲۴ سند بهتر عمل کردند. در حالیکه دیگر موتورها و نمایه‌ها نظیر وب کرولر و یاهو ضعیف عمل کردند. لیتون (۱۹۹۵) عملکرد اینفوسیک، لایکاس، وب کرولر و ورلد واید وب وارم را با استفاده از ۸ سؤال مقایسه کرده است.

او این آزمایش را با ۴ معیار انجام داد-نسبت تکراری بودن، دقت، دقت کامل و حداکثر ۱۰ دقت- و نتیجه گرفت که لایکاس و اینفوسیک بهتر از بقیه عمل کردند. پکروتومایولو ۲ سؤال مرجع را در آلتاویستا، ماژلان، اینفوسیک، لایکاس و یونیت جستجو کردند. امتیاز دقت آنها مبتنی بود بر ۱۰ نتیجه اول، آنها فهمیدند که آلتاویستا بهترین عملکرد را داشت بعد از آن اینفوسیک،

لایکاس، ماژلان و پوینت. مقابقاب (۱۹۹۵) ۵ سؤال را برای امتحان کردن ۵ موتور کاوش با اجرای جستجوهای اصلی و اصلاح شده در هر موتور بکار برد. او دقت نتیجه اول را تغییر داد. با استفاده از ۲۵ نتیجه بعنوان پایه و مبنا. او یاهو را بعنوان بهترین عمل کننده شناخت. یافته‌های این مطالعات بطور قطعی بهترین موتورهای کاوش را مشخص نکرد بعلت سؤالات مختلف، تعداد متفاوت سؤالات و مقیاسهای مختلف بکار رفته برای ارزشیابی. با این وجود، این مطالعات شیوه‌های مختلف ارزیابی موتورهای کاوش را ثابت کرد و معیارهای جدید و منطقی برای اجرای جستجو پیشنهاد کرد.

روش‌شناسی
این مطالعه هشت موتور کاوش را که مشهور هستند و برای عموم رایگانند ارزیابی می‌کند. این موتورها عبارتند از: آلتاویستا، اکسایت، اینفوسیک، گاید، لایکاس، ماژلان، این تکست، وب کرولر و ورد واید وب وارم.

عوامل بسیاری ممکن است برای موفقیت یک جستجو مشارکت کنند. درک صحیح از تقاضای جستجو، استراتژی جستجو، پایگاه اطلاعاتی، موتور کاوش، و قضاوت میزان ارتباط بوسیلهء جستجوگران. در این تحقیق تعدادی از این معیارها کنترل شده بودند بنحوی که تفاوت موتورهای کاوش قابل مشاهده بود. موتورهای کاوش از نظر اندازه، محتوای پایگاه اطلاعاتی‌شان، خط‌مشی‌های نمایه‌سازیشان، کنترل کیفیت، شیوه‌های بازیابی و ارائه نتایج جستجو متفاوتند. فرض بر این شد که سؤالات آزمایشی با پیچیدگی و وضع متفاوت در تعیین بهترین موتور جستجو با ارزش‌تر خواهد بود. با این وجود، مطالعات پیشین مشخص کردند که امکان اینکه یک موتور جستجو در جوابگویی همه نوع سؤالات بهتر از همه باشد، وجود ندارد. ما تقاضاهای جستجو را با استفاده از ۲۰ سؤال مطرح شده در میز مرجع استاندارد کردیم. و ۵ سؤال موضوعی که در حوزه‌هایی که منابع اینترنتی بسیاری داشت، بوجود آمده بود-سرگرمی، تجارت، سیاست اقتصاد و بهداشت. سؤالات مرجع گردآوری شده شامل سؤالات تخصصی و پرسشهای موضوعی وسیع بود و از نظر اینکه توانایی موتورهای کاوش را در جوابگویی به سؤالات مرجع واقعی مورد آزمایش قرار داد با ارزش بودند. ۵ سؤال موضوعی ساختگی بودند، اما این طراحی ما را قادر می‌ساخت که تجزیه و تحلیل معنی‌دار بیشتری انجام دهیم. با این همه، هیچ ارزشیابی خیلی خردمندانه نبود اگر ما از سؤالاتی که برای آن هیچ چیز قابل بازیابی نبود، استفاده می‌کردیم.

مجموعه داده‌ها۲ به هشت موتور کاوش چهار جستجو اختصاص یافته بود برای اطمینان از اینکه هر سؤال دو بار در یک موتور جستجو شده است. به جستجوگران آموزش داده شد که از مرورگر نت اسکیپ برای دسترسی به اینترنت استفاده کنند و سؤالات داده شده را در موتورهای کاوش تعیین شده جستجو کنند و نسخه‌های چاپی از نتایج جستجو ارائه دهند. جستجوگران کار را در آوریل شروع کردند و در ژوئن ۱۹۹۶ نتیجه‌گیری انجام شد. جمله‌بندی سؤالات مرجع برای جستجوهای اینترنتی کمی تغییر داده شد. برای اطمینان یافتن از

تکنیکهای مشابه بکار رفته، کلیدواژه‌ها تعیین شده بودند و پارامترهای اساسی در مورد اینکه در هر موتور کاوش جستجو به چه صورت انجام شود ارائه شدند. به جستجوگران گفته شد که بهترین قضاوتشان را در ارزیابی ارتباط منابع بازیابی شده بکار گیرند.

یکی از سؤالات مرجع دو بخش داشت، بنابراین سئوالات مرجع به ۲۱ تبدیل شد. هر کدامیک از سؤالات ۲۱ گانه مرجع و ۵ سؤال موضوعی دو بار در هر موتور، جستجو شده بود. اما در اکسایت ۴ بار جستجو شد، زیرا در این موتور، جستجوگر قادر به جستجوی کلیدواژه‌ای و نیز جستجوی مفهومی می‌باشد. در میانه راه با ماژلان جستجوگران گزینه‌ای از جستجو را در بخش خاصی از پایگاههای اطلاعاتی یا کل پایگاهها به منظور هماهنگی و یکدستی همه جستجوگران در کل پایگاهها انجام دادند. در کل ۴۶۸ جستجو انجام شده بود.

متغیرهای وابسته. چهار متغیر برای این تحقیق اندازه‌گیری شدند. «دقت»۳ که بطور سنتی تعریف شده بود: تعداد منابع مرتبط بازیابی شده تقسیم بر تعداد منابع بازیابی شده و یک معیار استانداردی برای سیستمهای بازیابی اطلاعات بوده است. از آنجائی که ارزیابی ارتباط تعداد زیاد صفحات بازیابی شده بوسیلهء موتورهای کاوش غیرممکن بود .
این متغیر در این تحقیق بطور عملیاتی چنین تعریف شده:

دقت: تعداد منابع مرتبط در ۱۰ گزینه اول
شیوه استفاده از ده گزینه اول قابل توصیه است، زیرا این گزینه‌ها بیشتر امکان دارد که به وسیله جستجوگران دیده شود. این معیار را لیتون، پیکروتومایولو بکار برده است. اما برخلاف تحقیق لیتون، این تحقیق پایگاههای ارجاعی و تکراری را در معیار دقت درنظر می‌گیرد. زیرا آنها بالقوه مفید بودند (در صورتی که گزینه‌های تکراری مرتبط باشد) و حذف آنها باعث می‌شد که پایهء مقایسه (که ده تا بود) کوچکتر شود.

«تکراری بودن»۴: در همان اوایل جستجو در موتورهای کاوش گزارشهای حکایت گونه‌ای از تکراریها بوجود آمد. در نتیجه این معیار در ارزیابی‌های ما وارد شد. تکراری بودن بطور عملیاتی «تعداد گزینه‌هایی که تکرار شدند و قبل از آن نیز ارائه شده بودند» تعریف شده بود. پایگاههای ارجاعی هم جزء تکراریها به حساب آمدند. در این مطالعه ما تعداد گزینه‌های تکراری را بر اساس ده نتیجه اول در نظر گرفتیم.

«امتیاز مرتبط‌ترین گزینه»۵: همه موتورهای کاوش انتخابی، نتایج بازیابی را با استفاده از الگوریتم متفاوت مرتب می‌کنند و بهترین تطبیقها را اول ارائه می‌دهند. اما تنظیم همیشه مفید نبوده است. این متغیر برای امتحان کردن توانایی درجه‌بندی موتورهای کاوش طراحی شده بود. که بر این فرضیه مبتنی است که شیوه درجه‌بندی مؤثر، مرتبط‌ترین گزینه‌ها را در بالاترین لیست نتایج جستجو قرار می‌دهد. جستجوگران، بطور عملیاتی مرتبط‌ترین گزینه از بین ده گزینه تعریف کردند و به آن بخاطر جایگاهش یک امتیاز دادند. اگر این گزینه در اولین، دومین یا

سومین گزینه بود این موتور امتیازی بین ۱ یا ۲ یا سه می‌گرفت. اگر این گزینه جای دیگر ظاهر می‌شد به آن امتیاز ۶ داده می‌شد. عدد ۶ به این علت انتخاب شده بود که نشان می‌داد این گزینه در خارج از اولین نیمه لیست ده تایی قرار گرفته است. امتیاز پائین در مورد مرتبط‌ترین گزینه نشان دهنده این بود که آن موتور بهترین درجه‌بندی گزینه‌های مرتبط را داشته است.
«امتیاز درجه‌بندی میزان ارتباط»۶: این متغیر نیز درجه‌بندی میزان ارتباط در موتورهای کاوش را ارزیابی کرد اما به شیوه‌ای متفاوت. این متغیر به عنوان درصد گزینه‌های مرتبط که در اولین نیمه لیست ده گزینه‌ای ظاهر شدند تعریف شد. این تعریف مبتنی بود بر این فرضیه که میزان ارتباط گزینه‌ها کاهش خواهد یافت هر چقدر که به گزینه‌های پائین‌تر می‌رسیم.

جستجوگران تعداد گزینه‌های مرتبط را در هر نیمه از لیست ده گزینه‌ای ثبت کردند و مأموران تحقیق این تعداد را با توجه به فرمول زیر برای رسیدن به امتیاز درجه‌بندی براساس میزان ارتباط تبدیل کردند:
تعداد گزینه‌های مرتبط در اولین لیست
کل تعداد گزینه‌های مرتبط در لیست ده‌تایی
«بازیابی»۷: یکی دیگر از معیارهای استاندارد برای بازیابی اطلاعات است و چنین تعریف شده: تعداد گزینه‌های مرتبط بازیابی شده تقسیم بر کل تعداد گزینه‌های مرتبط در یک فایل اطلاعاتی. این معیار برای استفاده دشوار بود زیرا جستجوگران می‌بایست همه گزینه‌های مرتبط را در کل یک پایگاه یا فهرست شناسائی کنند. این مشکل در شبکه جهانی وب خیلی شدیدتر است. با هزاران هزار صفحه وب نمایه شده به وسیله موتورهای جستجو انتخابی غیرممکن بود که همه صفحات وب مرتبط با موضوع جستجو شناسایی شود. به این ترتیب بازیابی در این مطالعه استفاده نشد.
«تجزیه و تحلیل داده‌ها»۸: از ۴۶۸ جستجوی انجام شده ۴ معیار برای هر جستجو در موتور کاوش ثبت شد. بسامد و میانگین این معیارها برای هر موتور جستجو با نوع سؤالات حساب شده بودند.

یافته‌ها
دقت
سؤالات مرجع عمومی متنوع بود بطوری که شاید یک کتابدار مرجع برای یافتن پاسخ آنها از اینترنت استفاده نمی‌کرد. با این وجود همه سؤالات در موتورهای کاوش جستجو شده بودند که توانائی‌شان را در پاسخگویی به سؤالات مرجع ارزیابی کنند. موتورهای کاوش این کار را بخوبی انجام ندادند. میانگین امتیاز دقت خیلی پائین بود. بین ۳۱/۰ و ۹۳/۲٫ این تکست بالاترین تعداد گزینه‌های مرتبط را بازیابی کرد. بعد از آن آلتاویستا و اینفوسیک و سپس لایکاس با اختلاف کم چهارم شد. برای نشان دادن جنبه دیگری از این جستجوها، اطلاعاتی در

مورد نقاط کور هر موتور در جدول ۱ قرار گرفتند که نشان داد اکسایت پائین‌ترین تعداد نقاط کور را داشت و بعد از آن این تکست و لایکاس. بر رویهم رفته، این دو مجموعه از داده‌ها این تکست را بعنوان بهترین موتور در برخورد با سؤالات مرجع معرفی کرد. این موتور صفحات وب را برای این سؤالات بازیابی کرد و نتایج جستجویش بالاترین امتیاز میزان دقت را داشت.

در این پژوهش موتورهای جستجو با سؤالات موضوعی ساختگی بهتر عمل کردند. سؤالات موضوعی پائین‌ترین میانگین امتیاز دقت (۲/۳) نسبت به بالاترین امتیاز میزان دقت (۹۳/۲) در سؤالات مرجع واقعی بالات بود. اینفوسیک بهتر عمل کرد بعد از آن ماژلان و این تکست و باز هم لایکاس با اختلاف کم چهارم شد. از آنجائی که سؤالات مرجع برای حوزه‌هایی طراحی شده بودند که در مورد آن اطلاعات بیشتری در وب موجود باشد، مشکل نقاط کور در این سؤالات خیلی جدی نبود. در سؤالات مرجع کیفیت گزینه‌های بازیابی شده، «دقت خاص» تعداد جستجوهایی که بیش از ۵ گزینه مرتبط را بازیابی کردند در نظر گرفته شد که در جدول ۲ آمده است.

اینفوسیک باز هم برنده ظاهر شد، بعد از آن ماژلان و این تکست و لایکاس و وب کرولر هر سه بطور مساوی در جایگاه سوم قرار گرفتند. این اطلاعات نشان داد که اینفوسیک در برخورد با سؤالات بهترین بود. این موتور بیش از ۵ گزینه مرتبط را برای اغلب پرسشهای موضوعی بازیابی کرد ونتایج جستجویش بالاترین امتیاز میزان دقت را داشت.
تکراری بودن

تکراریها در بازیابی زمان جستجوگران را تلف می‌کنند و باعث سردرگمی می‌شوند. علاوه بر قصه شکایت در مورد تکراریها، به هر حال، این مسأله به نظر می‌رسد که در بیشتر موتورهای کاوش مطرح بوده است. میانگین تعداد موارد تکراری برای هر دو سؤالات مرجع و سؤالات موضوعی در هر موتور کاوش ناچیز است (کمتر از یک). اما سؤالات موضوعی شانسشان برای داشتن موارد تکراری بیشتر بود. این اطلاعات نشان می‌دهد که نمایش داده‌های تکراری حتی زمانی که گزینه‌های مرتبط زیادی بازیابی شده بود اهمیت چندانی نداشتند.
امتیاز مرتبط ترین گزینه

این امتیاز توانایی هر موتور کاوش را برای نشان دادن اولین گزینهء مرتبط اندازه‌گیری کرد. بخاطر اینکه امتیازی به محل گزینه‌ها اختصاص یافته بود، پائین‌ترین امتیازها عملکردهای بهتر را نشان می‌داد. برای سؤالات مرجع امتیاز موتورهای جستجو بین ۳/۳ و ۳/۵ قرار داشت، اول اپن تکست بعنوان برنده بعد از آن اکسایت و آلتاویستا قرار گرفتند. موتورهای کاوش با سؤالات موضوعی خوب عمل نکردند. امتیازات آنها بین ۵/۲ تا ۲/۴ قرار داشت. اپن تکست و بعد از آن اینفوسیک و وب کرولر بهترین عملکرد را داشتند. اپن تکست در ارائه مرتبط‌ترین گزینه همیشه بهترین بود.

امتیاز تنظیم براساس ارتباط
این امتیاز قدرت موتورهای کاوش را اندازه‌گیری کرد برای ارائه گزینه‌های مرتبط در اولین نیمه نتایج جستجو. برای سؤالات مرجع، امتیازات موتورهای کاوش بین ۵/۱۵% تا ۱/۴۵% و با پیشتازی اپن تکست و بعد از آن اینفوسیک و اکسایت قرار داشت. برای سؤالات موضوعی امتیازاتشان بین ۲۳% تا ۸/۵۲% قرار گرفت. اینفوسیک بعنوان بهترین عمل کننده لایکاس در جایگاه دوم و اکسایت به عنوان سومین جایگاه.

عملکرد جامع
چهار معیار جنبه‌های قدرت بازیابی موتورهای کاوش را اندازه‌گیری کردند. نمودار ۲ دقت، تکراری بودن و امتیاز مرتبط‌ترین گزینه‌ها را برای سؤالات مرجع خلاصه کرده است.
امتیاز رتبه‌بندی براساس میزان ارتباط در آن وارد نشد، زیرا دامنه آنها خیلی بالاتر بود و نمی‌توانست بطور کامل در این نمودار وارد شود. بهترین موتور جستجو بالاترین دقت، پائین‌ترین موارد تکراری، پائین‌ترین امتیاز مرتبط ترین گزینه و بهترین امتیاز تنظیم براساس دقت را دارد. این نتایج در نمودار ۲ روشن است، به هر حال موتورهای کاوش چنین عمل کردند: اپن تکست بالاترین مانعیت و پائین‌ترین امتیاز مرتبط‌ترین گزینه را داشت. اما اکسایت و اینفوسیک پایین‌ترین تعداد موارد تکراری را داشتند. از این ۴ معیار، اپن تکست بهترین امتیاز را از بین آنها داشت و توانست بهترین عمل کننده برای این نوع سؤالات باشد. رتبه دوم مشخص نبود چون این موتورها فقط در یک یا دو معیار ممتاز بودند. با این وجود این امکان وجود داشت که آنها را به دو گروه تقسیم کنیم: آلتاویستا، اکسایت، اینفوسیک و لایکاس نسبتاً بهتر از ماژلان، وب کرولر و ورلدواید وب وارم عمل کردند.

نمودار ۳ شباهت دشواری را در تعیین برنده برای سؤالات موضوعی نشان می‌دهد. اطلاعات موجود بر روی نمودار ۳ اینفوسیک را بهترین عملگر می‌داند و امتیاز تنظیم براساس ارتباط آنرا تقویت می‌کند. بقیه موارد برای اعلام کردن خیلی مشکل بود.
جستجو در اینترنت
در سال ۲۰۰۰ حدود یکصدمیلیون پایگاه وب بر روی شبکه جهانی اینترنت وجوددارد و پیش بینی می شود که تنها پس از گذشت ۲ سال ، در سال ۲۰۰۲ به ۲۵۰ میلیون پایگاه برسد. با رشد تصاعدی حجم اطلاعات ، یافتن اطلاعات موردنظر در این دریای پهناور کار مشکلی است و بکارگیری ابزارهای جستجوی مناسب یکی از ضروریات کار باشبکه می باشد.
موتورهای جستجو از سال ۱۹۹۴ مورداستفاده قرار گرفتند. در ابتدا فعالیت آنها فقطجستجو در وب بود ولی با گذشت زمان ، خدمات دیگری از جمله فروش کالا، اجاره فضای وب و پست الکترونیک ، تحلیل سایتها و… به فعالیت آنها اضافه شد.

انواع موتور جستجو
موتورهای عمومی که در کلیه پایگاهها فارغ از نوع آن جستجو می کنند. موتورهای عمومی معروف عبارتند از:
altavista.com, google.com, go.com, hotbot.com .
موتورهای تخصصی در یک رشته خاص مانند اخبار “news.com”، تجارت “deja.com”، شرکتها “yellow pages.com”،افراد ۲- “whowhere.com”، مقالات و انتشارات “infojump.com
بهترین پایگاه magellan .comو deja.com موتورهای تخصصی در خدمات اینترنت مانند گروههای خبری و مباحثه –۳
– ۴- موتورهای کلان ; این موتورها عبارت مورد جستجو را همزمان به چند موتورجستجو داده و پاسخها را اولویت بندی کرده و با ذکر نام
– mamma.com,savvysearch.com موتور جستجو نمایش می دهند.مانند:

۵-نقطه شروع ; اینگونه سایتها موتورهای جستجو را برحسب موضوعات مختلف معرفی می کنند. درصورتی که موتورهای تخصصی و عمومی رانمی شناسید از این پایگاهها شروع کنید. مانند:
۶-موتور اختصاصی پایگاهها; بعضی از پایگاههای بزرگ مانند مایکروسافت ، جنرال الکتریک ،… از داخل پایگاه خود موتور جستجو دارند. جدیدا می توان از موتورهای جستجو عمومی مانند hotbot,altavista,… در یک پایگاه جهت جستجو در آن استفاده کرد.
تقسیم بندی دیگری که از موتور جستجو می توان کرد، موتورهای جستجوگر، و دوم موتورهایی است که پایگاهها را دسته بندی موضوعی -۷ کرده اند و به آنها web directoryگفته می شود. معروفترین آنها webcrawear,yahooاست . درحال حاضر اکثر موتورهای جستجو دسته بندی موضوعی نیز دارند و در هر دسته و یا زیرشاخه های بعدی می توان جستجو کرد.
نحوه کار موتورهای جستجو

در این مقاله فقط نحوه کار موتورهای عمومی بررسی می شود. موتورهای عمومی ازبرنامه هایی معروف به crawler,robot و یا spiderبرای یافتن و مرور صفحات وب استفاده می کنند. نحوه کار این برنامه ها بدین صورت است که با یافتن یک صفحه کلمات مورداستفاده در آن را شناسایی کرده و به جداول فهرست بانک اطلاعاتی خود اضافه می کنند درواقع موتورها صفحات وب را در بانک اطلاعاتی نگهداری نمی کنند بلکه دربانک اطلاعاتی فهرستی از کلمات وآدرس صفحات مشمول این کلمات می باشد.
کار دیگر این برنامه ها این است که به صفحات فهرست شده قبلی مراجعه کرده ودرصورت به روز شدن صفحات ، مجددا آنها را فهرست بندی می کنند. ممکن است پایگاه موردنظرموجودنبوده ویاآدرس آن عوض شده باشد.

عوامل مهم در فهرست کردن یک صفحه وب ، تعداد وقوع کلمه در صفحه ، محل قرارگیری آن ، نوع فایلهای مورداستفاده در صفحه ، درجه اهمیت کلمه در صفحه با توجه به کلید واژه های تعیین شده توسط مالک صفحه و توضیحات آمده در بخش دستورات meta در شناسنامه صفحه می باشد.موتورهای جستجو باتوجه به حجم بانک اطلاعاتی و برنامه هایشان به پایگاههای جدید مراجعه می کنند ولی مطمئن

تمام پایگاههای وب را شامل نمی شوند. بزرگترین موتور جستجوی عمومی حدود ۵۰۰ میلیون صفحه وب را شامل می شود. درصورتی که می خواهید پایگاه وب شما به بانک اطلاعاتی یک موتور جستجو اضافه شود پایگاه وب خود را به آن موتور جستجو معرفی کنید در صفحات وب ، در بخش دستورات شناسنامه ای صفحه ، کلید واژه های موردنظر خود را معرفی کنید. موتورهای جستجوعمومی به دو روش کلمات را فهرست بندی می کنند.

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
word قابل ویرایش - قیمت 8700 تومان در 29 صفحه
87,000 ریال – خرید و دانلود
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد