دانلود مقاله موتورهای جستجوگر اینترنت

بخشی از مقاله

• موتورهاي جستجوگر اينترنت

• موتورهاي جستجوگر اينترنت

• چكيده¨
مقاله حاضر كنكاش درباره موتورهاي جستجو گر اينترنت.موتورهاي جستجو طبقه بندي و دسترسي به اطلاعات را ساده مي‌سازند.
اينترنت خصوصا وب منبع عظيمي‌از اطلاعات است كه روز به روز بر حجم آن افزوده شود. در حال حاضر ميليونها صفحه كه اطلاعات فراواني از موضوعات مختلف را در بر دارند بر روي سرويس دهنده هاي مختلف جا خوش كرده اند و اين در حالي است كه هر روز نيز بر حجم اين اطلاعات افزوده مي‌شود.
جنبه مثبت وب اين است كه اطلاعات فراواني را در موضوعاتي بسيار گسترده, ارايه مي‌دهد اما جنبه منفي آن اين است كه اگر كاربري دنبال موضوعي خاص باشد, كدام صفحه را بخواند؟ از ميان ميليونها صفحه موجود, كدام صفحه و يا صفحات نياز او را برآورده مي‌كند؟

در چنين مواقعي كاربران سراغ موتورهاي جستجوگر مي‌روند. آمارهاي رسمي‌نشان مي‌دهد كه افراد بسياري سفر در دنياي وب را با موتورهاي جستجو گر آغاز مي‌كنند.
موتور جستجو گر سايتي است كه با گرفتن عبارتي مختصر, كاربر را با ليستي از سايتها روبه رو مي‌كند كه به موضوع مورد علاقه او مرتبط است. موتور جستجو گر سايتي است كه براي كمك به كاربران در يافتن اطلاعات موجود در ساير سايتها طراحي شده است. بسياري از آنها ابتدا تنها پروژه هاي دانشگاهي بوده اند نظير:

Google, Inktomi, Yahoo
وقتي يك كاربر عبارتي را جستجو مي‌كند, موتور جستجو گر ليستي از سايتها را نشان مي‌دهد كه تعداد آنها از چند مورد تا ميليونها صفحه متغير است. سايتهايي كه موتور جستجو گر به عنوان نتايج جستجويش نشان مي‌دهد بر حسب ميزان ارتباط با موضوع جستجو شده به ترتيب نزولي ليست مي‌شوند.
به عبارت ديگر سايتي كه به عنوان اولين نتيجه جستجو معرفي مي‌شود, مرتبط ترين سايت به عبارت جستجو شده از ديد آن موتور جستجوگر بوده است.
هر چه بر محبوبيت وب افزوده مي‌گردد نياز به بايگاني كردن اطلاعات آن نيز بيشتر مي‌شود. موتور نياز به سرعت در اختيار كاربران قرار مي‌دهد.

بدون موتور جستجو گر, وب تنها به بخش كوچكي از موفقيت امروزي خود دست مي‌يافت, زيرا موتور جستجو گر وب را به رسانه اي قابل استفاده براي همه كس كرده است چرا كه از هيچ كس توقع نمي‌رود كه آدرسهاي بسياري از سايتهاي مختلف را به ياد آورده آنچه كه تمام موتورهاي جستجو گر انجام مي‌دهند. (با درجات متفاوتي از موفقيت), فراهم آوردن يك وسيله جستجوي ساده است.

• مقدمه:
افرادي كه دستي در تجارت الكترونيك دارند اذعان مي‌كنند كه آوردن بيننده به سايت ضروري ترين شرط موفقيات براي سايتهاي تجارت الكترونيك است. فرقي نمي‌كند كه سايت چه كالا و خدماتي را ارايه مي‌كند, هر سايت اگر خواهان كسب در آمد و محبوبيت است, بايد بيننده داشته باشد.
تعداد بينندگان هر سايت, برگيرنده آن در دنياي وب است. سايتي كه بيننده ندارد بدون شك مرگي آن لاين را تجربه مي‌كند مرگي كه متاسفانه نمي‌توان كسي را ختم به مراسم ختمش دعوت نمود!

آمارهاي رسمي‌به خوبي نشان مي‌دهند كه موتورهاي جستجوگر ابزار مناسبي هستند كه كاربران آنها كالالإ خدمات و اطلاعات مورد نياز خود را مي‌يابند.
البته تنها رتبه هاي بالاي نتايج جستجو است كه مورد توجه كاربران قرار دارد و آنها به سايتهاي ليست شده در اين رتبه ها مراجعه مي‌كنند. كابران هنوز هم علاقه دارند كه ده سايت اول در نتايج جستجو را مرور كرده از بقيه سايتها صرفنظر كنند. اين رفتار كاربران پيام بسيار واضحي دارد:
سايتهايي كه در رتبه هاي بالا قرار نمي‌گيرند, بينندگان چنداني هم نخواهند داشت.

با دقت در اين رفتار كاربران اهميت كسب رتبه هاي بالا در موتورهاي جستجوگر روشن تر مي‌شود. نكته ديگر آنكه بينندگاني كه بدين ترتيب از طريق موتورهاي جستجوگر روانه سايتها مي‌شوند. عموما علاقه مندان به آن سايت هستند و اين در حالي است كه هزينه چنداني صرف آوردن آنها به سايت نشده است.
امورزه تجارت الكترونيك خود را با مسئله رتبه بندي در موتورهاي جستجوگر هماهنگ كرده است زيرا رتبه هاي بالاتر مستقيما به فروش بيشتر تعبير مي‌شوند.
طبق آمارهاي ارايه شده در ابتداي سال جديد ميلادي 2003 نزديك به 93 درصد بينندگان سايتهاي فعال در زمينه ارايه هداياي كريسمس را موتورهاي جستجو گر فراهم كرده اند كه در اين بين گوگل با 27 درصد در صدر ايستاده است رتبه هاي بالا آر روز هر دارند سايتي است كه آگاهانه پاي در دنياي مجازي وب مي‌نهد. هر روزه سايت هاي بسياري در وب منتشر مي‌شوند كه دارندگان آنها به اميد كسب در آمد و موفقيت به اين تجارت نوين وارده شده اند اما تنها عدد معدودي از آنها با استفاده از تكنيك هاي موثر كسب در آمد و با تكيه بر تخصص خود در اين بين به موفقيت دست مي‌يابند.

امروز, بازاريابي در اينترنت روشهاي بسياري را براي كسب در آمد هر چه بيشتر در اختيار سايت هاي قرار داده است اما انتخاب اول تمامي‌سايت ها رتبه هاي بالا درموتورهاي جستجوگر است.
به طور خلاصه موتور جستجوگر سايتي است كه كاربران اينترنت به كمك آنها سايت ها و اطلاعات مورد علاقه خود را مي‌يابند. نتايج جستجوي تمام موتورهاي جستجوگر دقيق نيست.

بسياري از كاربران دريافته اند كه در اغلب موارد 10 رتبه اول نتايج جستجوي موتورهاي جستجوگر مي‌تواند خواسته آنها را برآورده كند.
تجارت الكترونيك به شدت خود را با مسائل رتبه بندي در موتورهاي جستجوگر هماهنگ كرده است و همه سايت ها براي كسب رتبه هاي بالا تلاش مي‌كنند.
موتورهاي جستجوگر در واقع يك كار انجام مي‌دهند:

فراهم آوردن يك وسيله جستجوي ساده براي كمك به كاربران در رسيده به اطلاعات موردنيزا
براي نيل به اين مم موتورهاي جستجوگر از اطلاعات موجود در پايگاه داده شان كمك مي‌گيرند. اطلاعات اين پايگاه داده نيز به روش هاي گوناگوني تامين مي‌شود. كار جمع آوري داده را اسپايدرها بر عهده دارند. اما آيا همه موتورهاي جستجوگر اسپايدر دارند؟ آيا همه اسپايدرها مثل هم كار مي‌كنند؟
با توجه به نوع جمع آوري اطلاعات شيوه ارايه نتايج و مواري ديگر موتورهاي جستجوگر به انواع گوناگوني تقسيم مي‌شوند كه عبارتند از:

- search engine
- directory
- meta search engine
- pay per click search engine
- specialty search engine

• الف- search engine يا موتور جستجوگر
در اين نوع از موتورهاي جستجوگر كار جمع آوري اطلاعات بر عهده اسپايدها است. درحالت كلي زماني كه صحبت از موتور جستجو مي‌شود مقصود اين نوع آن است.
پايگاه داده اين نوع از موتورهاي جستجوگر بزرگتر از ساير انواع است و اطلاعاتي را كه آنها ارايه مي‌دهند معمولا به روزتر مي‌باشد. عمليات به روز رساني و گسترش پايگاه داده موتور جستجوگر از يك هفت تا چند ماه به طول مي‌انجامد.

اسپايدرها, هيچ گاه از كار نمي‌ايستند و به طور مداوم به جمع آوري اطلاعات مشغول هستند. ممكن است اطلاعات جمع آوري شده توسط اسپايدرها از صفحات جديدي باشد و يا اطلاعات به روز شده از صفحاتي باشد كه قبلا هم به آنها مراجعه كرده اند.
وقتي كه صحبت از تكنيك هاي بهينه سازي رتبه سايت هاي مي‌شود در واقع تكنيك هايي مطرح اند كه براي كار با اين نوع از موتورهاي جستجوگر موثرند. بعضي از اين موتورهاي جستجوگر عبارتند از:
google , MSN, Altavista, Northemlight, wisenut, teoma,…

• ب- Directory يا فهرست
دايركتوري ها اطلاعات را در گروه هاي مختلف دسته بندي مي‌كنند. تفاوت اصلي دايركتوري با يك موتور جستجوگر در اين است كه دايركتوري اسپايدر ندارد.
دارندگان سايت ها به دايركتوري مراجعه مي‌كنند, گروه مناسب براي سايت خود را در آن بر مي‌گزينند و سايت خود را به آن گروه معرفي مي‌كنند.
پس از آنكه اطلاعات سايت ها به گروه هاي مختلف ارسال شد ويراستاران دايركتوري آن اطلاعات را بررسي مي‌كنند. در صورتي كه گروه درخواست شده با زمينه فعاليت سايتمعرفي شده يكي باشد و همچنين ساير قوانين دايركتوري نيز رعايت شده باشد سايت معرفي شده را در گروه ياد شده مي‌پذيرند و در غير اينصورت از قبول آن امتناع مي‌كنند. در صورتي كه كاربران استفاده درستي از گروه هاي داير كتوري بنمايند مي‌توانند اطلاعات مفيدي را به كمك آنها كسب كنند.
دايركتوري از وجود يك سايت مطلع نمي‌گردد مگر زماني كه آن سايت به دايركتوري معرفي شود تا در يكي از گروه هاي آن قرار گيرد.

يكي از ايراداتي كه دايركتوري ها وارد مي‌شود اين است كه سايت هاي مرده زيادي در خود دارند. به عبارت ديگر يا سايت بعد از آنكه به آن معرفي شده است ديگر به فعاليت خود ادامه نداده است اما با اين حال هنوز هم دايركتوري آنرا به عنوان يك سايت فعال به كاربران معرفي مي‌كند.
البته دايركتوري هاي حرفه اي با استخدام ويراستاران زيادي تلاش بسياري براي رفع اين نقص مي‌نمايند.امكان دارد دايركتوري ها براي بررسي اين مورد از اسپايدارها هم كمك بگيرند. در اين مورد خاص كار اسپايدار اين است كه بررسي كند كه آيا سايت هايي كه قبلا در گروه هاي قرار گرفته اند هنوز هم فعال مي‌باشند.

قرار گرفتن در پايگاه داده دايركتوري هاي عمده نقش مهمي‌در كسب رتبه هاي بالا در موتورهاي جستجوگر دارد. دايركتوري هاي عمده عبارتند از yahoo, looksmart, dmoz

• ج- Meta search engine يا ابر جستجوگر
ابرجستجوگر از نتايج ساير موتورهاي جستجوگر استفاده مي‌كند. كار آن بدين صورت است كه سوالات كاربران را هم زمان به موتورهاي جستجوگر مختلفي ارسال ونتايج جستجوي آنها را بررسي مي‌كند و در نهايت رتبه هاي بالاي آنها را به عنوان نتايج جستجوي خود نشان مي‌دهد. اين نوع موتور جستجوگر اسپايدار ندارد.
مهم ترين آنها عبارتند از:
meta crawler, dogoile, IXQuick, mamma

• د- pay per click gearch engine يا موتورهاي جستجوگر رتبه به ازاي پول
كار آنها بسيار شبيه يك مزايده است:
با توجه به واژه كليدي انتخابي براي بالاترين رتبه بايد قيمت نسبت به ساير متقاضيان پرداخت شود.
در واقع نحوه ارائه نتايج جستجو در ppc به اين ترتيب است كه اگر سايتي خواهان بالاترين رتبه در نتايج جستجوي آن مي‌باشد, بايد بالاترين رقم به ازاي هر كليك را نسبت به تمام رقبا بپردازد.

به عنوان مثال اگر سايتي مكان اول را براي عبارت persian carpet به قيمت 28 ريال از سوي سايت خريدار رتبه به موتور جستجوگر بايد پرداخته شود. اگر هزار نفر اين كار را انجام دهند آنگاه 1000*28 ريال بايد پرداخته شود.
البته اينگونه نيست كه اينگونه از موتورهاي جستجوگر فقط سايتهايي را نمايش دهند كه با آنها قرارداد تجاري دارند. بلكه ابتدا تمام سايتهايي را كه با آنها قرار داد تجاري دارند نمايش مي‌دهد و سپس سايتهاي ديگري را براي تكميل كردن نتايج جستجوي خود به سايتهاي ياد شده مي‌افزايند.

• روش ارايه نتايج در يك موتور جستجوگر رتبه بازاي پول
سايتهاي رده 110 و 111 براي عبارت free stuff هزينه مي‌پردازند كه بالاتر از سايت رده 112 استاده اند. به عبارتهاي sponsored listing و additional listing توجه كنيد. فكرش را بكنيد كه 111 سايت حاضر به پرداخت پول براي اين عبارت بوده اند در حاليكه همه آنها مي‌دانسته اند در چه رتبه اي نشان داده خواهند شد. اگر فرض كنيد كه سايت رده 111 براي هر كليك تنها يك سنت بپردازد و اختلاف هر رتبه با رتبه هاي ديگر تنها يك سنت باشد آنگاه سايت رتبه اول حاضر به پرداخت 111 سنت براي هر كليك برده است. سايتهايي را مشاهده كرده ام كه حاضر به پرداخت 14 دلار به ازاري هر كليك نيز بوده اند.

اين رقابت شديد در اين نوع از موتورهاي جستجوگر مي‌تواند ناشي از بازده بسيار بالاي اين نوع موتورهاي جستجوگر و همينطور اطمينان دارندگان سايتها از فروش خود باشد. البته مي‌توانيد سايتهايي را كه ناشيانه حاضر به پرداخت رقم بالايي شده اند را هم به دلايل بالا بيافزاييد.

• فوايد آنها
- دارنده سايت تنها زماني پول مي‌پدازند كه واقعا بيننده اي به سايت او بيايد.
- سايت تقريبا در عرض چند ساعت و يا حداكثر يك هفته در نتايج جستجو قرار مي‌گيرد و ديگر نيازي به چندين ماه ماندن نيست تا در نتايج جستجوي ساير موتورهاي جستجوگر قرار گيرد كه آن هم معلوم نيست در چه رتبه اي قرار خواهد گرفت.
- سايتي اگر بالاترين رتبه را مي‌خواهد, كافي است كه بالاترين قيمت را بپردازد وديگر نيازي به كاربرد تكنيكي هاي رايج براي كسب رتبه هاي بالا نيست.
- يك سايت با استفاده از سيستم اين موتورهاي جستجوگر در نتايج جستجو شركاي تجاري آنها هم قرار مي‌گيرد.

• ه- Specialty search engine يا موتورهاي جستجوگر خاص.
اين نوع از موتورهاي جستجوگر بر موضوعي خاص تمركز دارند و تنها سايت هاي مرتبط با آن موضوع را در پايگاه داده خود قرار مي‌دهند. به عنوان مثال يكي از آنها ممكن است تنها سايت هاي ايراني را بپذيرد و موضوع فعاليتش سايت هاي ايراني باشد.
اين موتورهاي جستجوگر معمولا اطلاعات تخصصي تري را ارائه مي‌دهند زيرا معمولا توسط افرادتخصص در آن زمينه اداره مي‌شوند. موتورهاي جستجوگر منطقه اي و موضوعي نيز به اين دسته تعلق دارند. در اين مورد مي‌توان به مواردي نظير chemical search, industry search اشاره كرد

.
وقتي جستجويي در يك موتور جستجوگر انجام ونتايج جستجو را ارايه مي‌شود كاربران در واقع نتيجه كار بخش هاي متفاوت آن موتور جستجو گر را مي‌بينند. موتور جستجوگر قبلا پايگاه داده اش database را آماده كرده است و اين گونه نيست كه در همان لحظه جستجو تمام وب را بگردد. بسياري از خود مي‌پرسند كه چگونه امكان دارد گوگل Google در كمتر از يك ثانيه تمام سايتهاي وب را بگردد و ميليون ها صفحه را در نتايج جستجوي خود ارايه كند؟
نه گوگل و نه هيچ موتور جستجوگر ديگري توانايي انجام اين كار ندارند. همه آنها در زمان پاسخ گويي به كاربران تنها در پايگاه داده اي كه در اختيار دارند به جستجو مي‌پردازند و نه در وب! موتور جستجوگر به كمك بخش هايمتفاوتي خود اطلاعات مورد نياز را قبلا جمع آوري تجزيه وتحليل مي‌كند و آنرا در پايگاه داده اش ذخيره مي‌نمايد.

بخشهايمجزاي يك موتور جستجوگر عبارتند از:
- spider عنكبوت
- crawler يا خزنده
- indexer يا بايگاني كننده
- database يا پايگاه داده
- Ranker يا سيستم رتبه بندي

• الف- spider عنكبوت
اسپايدار يا روبوت نرم افزاري است كه كار جمع آوري اطلاعات مورد نياز يك موتور جستجوگر را بر عهده دارد. اسپايدر به صفحات مختلف سر مي‌زند, محتواي آنها را مي‌خواند و اطلاعات مورد نياز موتور جستجوگر را جمع آوري مي‌كند و آنرا در اختيار ساير بخش هاي موتور جستجوگر قرار مي‌دهد. كار يك اسپايدر بسيار شبيه كار كاربران وب است. همانطور كه كاربران صفحات مختلف را بازديد مي‌كنند اسپايدر هم اين كار را انجام مي‌دهد با اين تفاوت كه اسپايدر كدهاي HTML صفحات را مي‌بيند. اما كاربران نتيجه حاصل از كنار هم قرار گرفتن اين كدها را.

• اما يك اسپايدر آنرا چگونه مي‌بيند؟
براي اين كه شما هم بتوانيد دنياي وب را از ديدگاه يك اسپايدر ببينيد, كافي است كه كدهاي HTML صفحات رامشاهده كنيد. در مرور گرهاي نت اسكيپ براي مشاهده كدهاي HTML بايد مسير زير را دنبال كنيد:
view> page source

• آيا اين دنياي متني براي شما جذاب است؟
اسپايدار, به هنگام مشاهده صفحات از خود بر روي سرورهاي رد پا بر جاي مي‌گذارد. شما اگر اجازه دسترسي به آمار ديد و بازديدهاي صورت گرفته از يك سايت و اتفاقات انجام شده در آنرا داشته باشيد, مي‌توانيد مشخص كنيد كه اسپايدر كدام موتورهاي جستجوگر صفحات سايت را مورد بازديد قرار داده اند. اسپايدرها كاربردهاي ديگري نيز دارند به عنوان مثال عده اي از آنها به سايت هاي مختلف مراجعه مي‌كنند و فقط به بررسي فعال بودن لينكهاي آنها مي‌پردازند و يا به دنبال آدرس پست الكترونيكي افراد مي‌گردند.

• ب- Crawier ( خزنده)
كراولر, نرم افزاري است كه به عنوان يك فرمانده براي اسپايدر عمل مي‌كند. كراولر مشخص مي‌كند كه اسپايدر كدام صفحات را مورد بازديد قرار دهد. در واقع كراولر تصميم مي‌گيرد تكه كدام يك از لينك هاي صفحه اي كه اسپايدر در حال حاضر در آن قرار دارد دبلا شود. مممكن است همه آنها را دنبال كند بعضي ها را دنبال كند و يا هيچ كدام را دنبال نكند. كراولر ممكن است قبلا توسط دارندگان موتورهاي جستجوگر برنامه ريزي شده باشد كه آدرس هاي خاصي را طبق برنامه در اختيار اسپايدر قرار دهد تا از آنها ديدن كند.

دنبال كردن لينك هاي يك صفحه به اين بستگي دارد همچنين موتور جستجوگر چه حجمي‌از اطلاعات يك سايت را مي‌تواند در پايگاه داده اش ذخيره كند و همچنين ممكن است اجازه دسترسي به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد. شما به عنوان دارنده سايت همان طور كه دوست داريد موتورهاي جستجوگر اطلاعات سايت شما را با خود ببرند مي‌توانيد آنها را از بعضي از صفحات سايت تان دور كنيد واجازه دسترسي به محتواي آن صفحات را به موتورهاي جستجوگر ندهيد.

تنظيم ميزان دسترسي موتورهاي جستجوگر به محتواي يك سايت توسط پروتكل robots انجام مي‌شود. به عمل كراولر خزش crawling مي‌گويند.
تممام اطلا عات جمع آوري شده توسط اسپايدر دراختيار ايندكسر قرار مي‌گيرد. در اين بخش اطلاعات ارسالي مورد تجزيه و تحليل قرار مي‌گيرند و به بخشهاي متفاوتي تقسيم مي‌شوند. تجزيه و تخليل بدين معناست كه مشخص مي‌شود اطاعات ار كدام صفحه ارسال شده است. چه حجمي‌دارد,كلمات موجود در آن كدام است, كلمات چند بار تكرار شده, كلمات در كجاي صفحه قرار دارند و …

در حقيقت ايندكسر صفحه را به پارامترهاي آن خرد مي‌كند و و تمام اين پارامترها را به يك مقياس عددي تبديل مي‌كند تا سيستم رتبه بندي بتواند پارامترهاي صفخات مختلف را با هم مقايسه كند.
در زمان تجزيه و تحليل اطلاعات, ايندكسر براي كاهش حجم داده ها از بعضي كلمات كه بسيار رايج هستند صرف نظرمي‌كنند . كلماتي نظير is, www, the, an, a از اينگونه كلمات هستند.
• د- DataBase (پايگاه داده )

تمام داده هاي تجزيه و تحليل شده در اپندكسر، به پايگاه داده ارسال مي گردد. در اين بخشف داده ها گروه بندي، كد گذاري، و ذخيره مي شود. همچنين داده ها قبل از آنكه ذخيره شوند، فشرده مي شوند تاحجم كمي را اشغال كنند.
• و-Ranker (سيستم رتبه بندي)

بعد از آنكه تمام مراحل قبل انجام شد، موتور جستجو گر آماده پاسخ گويي به سوالات كاربران است. كاربران چند كلمه را در جعبه جستجوي (Search Box) آن وارد مي كنند و سپس با فشردن Enter منتظر پاسخ مي مانند. در اين مرحله، سيستم رتبه بندي وارد عمل مي شود و ابتدا تمام صفحات موجود در پايگاه داده، كه به موضوع جستجو شده، مرتبط هستند را مشخص مي كند. سپس آنها را به ترتيب از بيشترين ارتباط تا كمترين ارتباط مرتب مي كند و در نتايج جستجو كاربر ارايه مي كند. حتي اگر موتور جستجو گر بهترين و كاملترين پايگاه داده را داشته باشد اما نتواند پاسخ هاي مرتبطي را ارايه كند، يك موتور جستجو گر ضعيف خواهد بود.

سيستم رتبه بندي قلب تپنده يك موتور جستجو گر است و تفاوت اصلي موتورهاي جستجو گر در اين بخش قرار دارد سيستم رتبه بندي براي پاسخ گويي به سوالات كاربران، پارامترهاي بسياري را در نظر مي گيرد تا بتواند بهترين پاسخها را در اختيار آنها قرار دارد. حرفه اي هاي دنياي SEO (Search Engine Optimization به طور خلاصه از آن Algo (الگوريتم) ياد مي كنند. الگوريتم، مجموعه اي از دستور العمل ها است كه موتور جستجو گر با اعمال آنها بر پارامترهاي صفحات موجود در پايگاه داده اش، تصميم مي گيرد كه صفحات مرتبط را چگونه در نتايج جستجو، مرتب كند در حال حاضر قدرتمندترين سيستم رتبه بندي را گوگل در اخيتار دارد. البته مي توان با ادغام كردن وظيفه هاي اسپايدر با كراولر وهمچنين ايندكسر با پايگاه داده، موتور جستجو گر را شامل سه بخش زير دانست كه اين گونه تقسيم بندي هم درست مي باشد.

• كواولر
• بايگاني
• سيستم رتبه بندي
تذكر- براي سهولت در بيان مطالب بعدي هر گاه صحبت از بايگاني كردن (شدن) به ميان مي آيد، مقصود اين است كه صفحه تجزيه و تحليل و به پايگاه داده موتور جستجوگر وارد مي شود. براي آنكه تصور درستي از نحو كار يك موتور جستجو گر داشته باشيد مثال غير متعارف زير را باهم بررسي مي كنيم.
يك شكارچي تصميم به شكار مي گيرد:

كار كراوالر:
او قصد دارد براي شكار به منطقه حفاظت شده ابيورد، در شهرستان درگز (شمال خراسان ) برود.
پروتكل robts:
ابتدا تمام محدوديت هاي موجود براي شكار در اين منقه را بررسي مي كند.
آيا در اين منطقه مي توان به شكار پرداخت؟
كدام حيوانات را مي توان شكار كرد؟

حداكثر تعداد شكار چي ميزاني است؟ و ...
فرض مي كنيم او مجوز شكار يك اوريال (نوعي آهو) را دريافت مي كند.
كارايندكسر
شكار را تكه تكه كرده گوشت، استخوان، دل و قلوه، كله پاچه و ... آنرا بسته بندي مي كند و بخش هاي زايد شكار را دور مي اندازد.
كار پايگاه داده
بسته هاي حاصل را درون فريزر قرار داده ذخيره مي كند.
كار سيستم رتبه بندي

مهمانان سرغ او مي آيند وهمسر او بسته به ذائقه مهمانان براي آنها غذا طبخ مي كند. ممكن است عده اي كله پاچه، عده اي آبگوشت، عده اي جگر و ... دوست داشته باشند. پخت غذا طبق سليقه مهمانان كار سختي است ممكن است همه آنها آبگوشت بخواهند اما آنها مسلما با مزه ترين آبگوشت را مي خواهند!
آيا هنوز هم ابهامي درباره نحوه كار موتوزهاي جستجو گر داريد؟
پس از اين مقدمه دو موتور جستجو بسيار مهم و پر كاربرد يعني Yahoo , Google مي پردازيم و به اجمال نظري به هر يك از خصوصيات آنها مي افكنيم.
گوگل Google
درباره ي كوگل
ماموريت گوگل ارائه بهترين جستجو در اينترنت به وسيله دسترس و مورد استفاده قرار دادن عموم اطلاعات جهان است گوگل، ايجاد كننده بزرگترين ماشين جستجوي جهان، سريعترين و آسانترين راه پيداكردن اطلاعات روي اينترنت را ارائه مي كند. با دستيابي به بيش از 1.3 ميليارد صفحه گوگل نتايج رادر ظرف كمتر از يك دو مادر برد ثانيه به كاربران در سراسر جهان ارائه مي كند. اكنون، گوگل روزانه به بيش از 100 ميليون تقاضاي جستجو پاسخ مي دهد.
دو دانشجوي دكتراي دانشگاه stanford، يعني لري پيج و سر جي برين، گوگل را در سال 1998 تاسيس كردند اين شركت خصوصي در ماه جون 1999 / تير 1379 رسما باسرمايه تاسيس 25 مليون دلار معرفي شد. اين شركت همراهاني را چون كلاينر پركينز كاوفليد و سيكوال كپتال را پيدا كرد. گوگل سرويس و خدمات عمومي اصلي خود را در وب سايت خود در www. Google . com ارايه مي دهد . اين شركت همچنين سرويس جستجوي پيشرفته را براي فراهم سازي اطلاعات محتوايي نيز ارائه مي دهد.

درباره تكنولوژي گوگل
تكنولوژي متحول جستجوي گوگل و طراحي اينترفيس مطلوب براي كاربران، گوگل را به عنوان بخش از ماشينهاي جستجوي نسل جديد تبديل كرده است. فراتر از استفاده از تكنولوژي كلمات كليدي، گوگل بر اساس تكنولوژي pageRank نيز پايه گذاري شده، كه اين تكنولوژي باعث مي شود تا نتايج مهمتر در يك جستجو اولتر ديده شوند.
بيليون شرايط محاسبه سنجش معقولي را براي اعتبار صفحات وبي كه بر اساس معادله برابري 500 ميلين متغيير و بيش از 2 بيليون شرايط محاسبه شدند را ايفا مي كند page pank از ساختار لينك عظيم وب به عنوان ابزار سازماندهي استفاده مي كند. وجودا، گوگل تفسير مي كند يك لينك را از صفحه A تا صفحه B به عنوان يك vote توسط صفحهA براي صفحه B بوسيله اين، گوگل تشخيص مي دهد توسط vote كه كدام صفحه مهمتر است همچنين گوگل اين صفحات را تجزيه و تحليل مي كند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

دانلود مقاله موتورهای جستجوگر اینترنت

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله کاپیتان کوک : جستجوگر دریانورد و پیشگام دریایی