دانلود مقاله موتور های جستجوگر

بخشی از مقاله

مقدمه:
موتور جستجو چیست؟ موتور جستجوگر و اهمیت آن
دنياي وب منبع عظيمي از اطلاعات است كه روزبه‌روز برحجم آن افزوده مي‌شود. در حال حاضر ميلياردها صفحه كه اطلاعات فراواني از موضوعات مختلف را در بر دارند، بر روي سرورهای مختلف جا خوش كرده اند. اين در حاليست که تولد سايتهای جديد و گسترش سايتهای موجود نيز به طور فزاينده ای به اين حجم اطلاعات می افزايد.
نرخ رشد اطلاعات تا بدانجاست که امروزه مشکل دسترسی به اطلاعات جدی تر از نبود اطلاعات است. امروزه چالش عمده اکثر کاربران دستيابی به اطلاعات است. به عبارت ديگر اگر كاربري دنبال موضوعي خاص باشد، كدام صفحه را بايد بخواند؟ از ميان اين تعداد عظيم صفحات موجود، كدام صفحه نياز او را برآورده مي كند؟

اگر سايتی باشد که به کاربران در يافتن اطلاعات کمک کند، قطعا مورد توجه خواهد بود. خوشبختانه چنين سايتی وجود دارد و ما آنرا با نام موتور جستجوگر می شناسيم.
موتور جستجوگر سايتي است كه براي كمك به كاربران در يافتن اطلاعات موجود در سايتهاي ديگر طراحي شده است. موتور جستجوگر سايتي است كه با گرفتن عبارتي مختصر، كاربر را با ليستي از سايت ها روبرو مي‌كند كه به موضوع مورد علاقه او مرتبط مي‌باشند.
آمارها نشان مي دهند كه افراد بسياري سفر در دنياي وب را با موتورهاي جستجوگر آغاز مي‌كنند و مراجعه به موتورهاي جستجوگر چنان عادي شده است که جستجو کردن و کار با موتورهاي جستجوگر، دومين فعاليت عمده کاربران در دنياي وب (بعد از ارسال و دريافت نامه هاي الکترونيکي)، محسوب مي شود.

هر چه بر محبوبيت وب افزوده مي گردد، نياز به بايگاني كردن اطلاعات آن نيز بيشتر مي‌شود؛ موتور جستجوگر نيز در واقع اين اطلاعات را بايگاني كرده، در زمان مورد نياز و به سرعت در اختيار كاربران قرار مي‌دهد.
بدون موتور جستجوگر، وب تنها به بخش كوچكي از موفقيت امروزين خود دست مي‌يافت زيرا موتور جستجوگر، اينترنت را به رسانه‌اي قابل استفاده براي همه كرده است (از هيچ كس توقع نمي‌رود تعداد زيادي از آدرس هاي وب را به ياد داشته باشد).

آن چه كه موتورهاي جستجوگر انجام مي دهند- با درجات متفاوتي از موفقيت- فراهم كردن يك وسيله جستجوي ساده است. وقتي يك كاربر وب عبارتي را جستجو مي‌كند، موتور جستجوگر ليستي از سايت‌ ها را ارائه مي‌كند كه تعداد آنها از چند صد مورد تا چند ميليون متغير مي‌باشد.
سايت هايي كه موتور جستجوگر به عنوان نتايج جستجويش ارايه مي‌كند، بر حسب ميزان ارتباط با عبارت جستجو شده به ترتيب نزولي ليست مي‌شوند. به عبارت ديگر سايتي كه به عنوان اولين سايت در نتايج جستجو معرفي شده است، مرتبط ترين سايت با عبارت جستجو شده از ديد آن موتور جستجوگر بوده است.
دقت در ارايه نتايج جستجو چيزيست که کاربران وب همواره از موتورهاي جستجوگر مي خواهند. هر چه نتايج جستجوي يک موتور جستجوگر دقيق تر و مرتبط تر باشد، محبوب تر خواهد بود و کاربران بيشتري بدان مراجعه خواهند کرد.
اگر عبارت يكساني در تمام موتورهاي جستجوگر، جستجو شود هيچ كدام از آنها نتايج يكساني را ارائه نمي‌دهند و با نتايج كاملا متفاوتي روبرو مي‌شويم. تفاوت در ارائه نتايج جستجو در موتورهاي جستجوگر از تفاوت آنها در الگوريتم (سيستم رتبه بندی) و بايگاني داده‌شان ناشي مي‌شود.

حتي اگر همه آنها از بايگاني داده يكساني نيز استفاده كنند، بازهم نتايج جستجويشان متفاوت خواهد بود. موتور جستجوگر براي رده‌بندي صفحات وب از الگوريتم خاصي استفاده مي‌كند كه فوق‌العاده محرمانه مي‌باشد. الگوريتم نيز مجموعه اي از دستورالعمل ها است كه موتور جستجوگر به كمك آن تصميم مي‌گيرد كه سايت ها را چگونه در خروجي‌اش مرتب كند.
براي اينكه سايت ها با هم مقايسه شوند و بر حسب ميزان ارتباط با موضوع جستجو شده، مرتب شوند، موتور جستجوگر، الگوريتم را بر مجموعه‌اي از پارامترها اعمال مي‌كند. پارامترهاي مورد توجه موتور جستجوگر نيز همانند الگوريتم آن ها ناشناخته مي‌باشد و اين ناشناخته ها جذابيت دنياي موتورهاي جستجوگر را دوچندان مي‌كنند.

به اهميت موتورهاي جستجوگر از ديدگاه کاربران وب و جستجوکنندگان اطلاعات اشاره شد. آيا موتورهاي جستجوگر از ديدگاه تجاري و ديدگاه يک مدير سايت نيز مهم مي باشند؟

اهميت تجاري موتورهاي جستجوگر
فعالان عرصه تجارت الكترونيك، آوردن بيننده به سايت را برای موفقيت در دنياي وب و تجارت آنلاين ضروري مي دانند. فرقي نمي‌كند كه سايت چه مي‌فروشد و چه خدماتي ارايه مي دهد: اگر سايتي به دنبال فروش كالا يا خدمات و كسب درآمد يا محبوبيت است، بايد بيننده داشته باشد.

تعداد بينندگان يک سايت، برگ برنده آن براي كسب موفقيت در دنياي وب مي‌باشد. سايتي كه بيننده ندارد، بدون شك مرگي آنلاين را تجربه مي‌كند و چه بسيارند سايتهايي که هر روزه از چرخه زندگی در وب خارج می شوند!

مديران و طراحان خبره وب به خوبي مي دانند كه فقط طراحي يك وب سايت تضميني براي آمدن بيننده به آن نيست بلکه بايد بينندگان را به طريقی به سايت جذب کرد. بينندگان تنها به دنبال رفع نيازهای اطلاعاتی خود می باشند و وظيفه ندارند به هر قيمتی که شده سايت شما را بيابند.
براي دعوت بينندگان به وب سايتتان چه تدابيري انديشيده ايد؟ چگونه ديگران بدانند كه شما سايت پر محتوا و جذابي داريد؟ خود شما چگونه سايتهاي ديگر را مي يابيد؟

بدون هيچ گونه ترديدي بايد گفت كه ما در اغلب موارد به كمك موتورهاي جستجوگر به آنچه كه مي خواهيم، دست مي يابيم.
اگر ما اينكار را انجام مي دهيم، ديگران نيز دقيقا همين كار را مي كنند: جستجوي چند عبارت در يكي از موتورهاي جستجوگر و مراجعه به يكي از وب سايتها. ببينيم آمارها چه مي گويند:

• 82 درصد كاربران اينترنت، موتورهاي جستجوگر را ابزار اصلي خود براي يافتن وب سايتها عنوان كرده اند.
• 57 درصد از كاربران اينترنت، هر روز جستجو مي‌كنند و 46 درصد اين جستجوها براي كالا يا خدمات است. (منبع: SRI )
• 85 درصد ترافيك هدفمند در اينترنت را موتورهاي جستجوگر باعث مي‌شوند.
(منبع: 7th www user survey-Georgia Institute of Technology)

نمودار زير نشان مي دهد كه كاربران چگونه كالاهاي مورد نياز خود را مي يابند:

همان گونه كه آمارها نشان مي‌دهند موتورهاي جستجوگر ابزار مناسبي هستند كه خريداران به كمك آنها، كالا يا خدمات مورد نياز خود را مي‌يابند. البته تنها رده‌هاي بالاي نتايج جستجو هستند كه مورد توجه كاربران قرار مي گيرند و آنها به سايت‌هاي ليست شده در اين رتبه‌ها مراجعه مي كنند.
بسياري از كاربران دريافته اند كه در اغلب موارد 10 رتبه اول نتايج جستجو مي تواند خواسته آنها را برآورده كند و هنوز هم علاقه دارند كه تنها 10 سايت اول در نتايج جستجو را مرور كنند. اما آمارها چه می گويند:

• 70 درصد از کاربران به هنگام جستجو حتما يكي از سه سايت ابتداي نتايج جستجو را كليك مي كنند.
• تنها 7 درصد از آنها سايتهاي قرار گرفته در رتبه هاي بيستم به بعد را كليك مي كنند.
• 85 درصد از آنها اگر جوابي براي جستجوي خود در بيست نتيجه اول نتايج جستجو نيابند، موتور جستجوگر مورد استفاده خود را عوض مي كنند.
• 33 درصد كاربران وب فكر مي كنند سايتي كه در ابتداي نتايج جستجو قرار دارد، در موضوع جستجو شده سرآمدتر از رقباي خود است و در آن موضوع پيشرو مي باشد.

با دقت در اين آمارها، اهميت كسب رتبه‌هاي بالا در موتورهاي جستجوگر روشن تر مي‌شود. نكته مهم ديگر اين است كه بينندگاني كه موتورهاي جستجوگر روانه سايت‌ها مي‌كنند، به احتمال زياد مخاطبان اصلی سايت مورد نظر مي‌باشند و اين در حالي است كه هزينه چنداني نيز صرف آوردن آنان به سايت نشده است.
آمارهای ارايه شده از رفتار كاربران وب پيام بسيار واضحي دارد: سايتهايي ‌كه در رتبه‌هاي بالا قرار نمي‌گيرند، بخش مهمی از کاربران مخاطب خود را از دست می دهند.
يک سايت ممکن است هزاران بيننده داشته باشد اما تعداد بينندگان گروه مخاطب آن است که موفقيت سايت را رقم می زند. زيرا در اغلب موارد اين بينندگان مخاطب سايت هستند که از سايت چيزی بيشتر از اطلاعات رايگان ارايه شده می خواهند.

امروزه تجارت الکترونيک خود را با مسئله رتبه بندي در موتورهاي جستجوگر هماهنگ کرده است زيرا رتبه هاي بالاتر مستقيما به فروش بيشتر، تعبير مي شوند. طبق آمارهاي ارايه شده در ابتداي سال جديد ميلادي (2003) نزديك به 93 درصد بينندگان سايت هاي فعال در زمينه ارايه هداياي كريسمس را موتورهاي جستجوگر فراهم كرده اند كه در اين بين گوگل با 27 درصد در صدر ايستاده است و پس از آن ياهو با 25 درصد در رده دوم قرار گرفته است.

شم بازاريابي حكم مي كند كه همواره در جايي حضور داشته باشيم كه مشتري ما آنجاست. اگر ما آنجا نباشيم، رقيب ما آنجا خواهد بود. به عبارت ديگر كسيكه قرار است از ما خريد كند، از رقيب ما خريد مي كند:

رقيب ما هر روز چاق تر و چاق تر مي شود و ما نحيف و نحيف تر.

بازاريابي با موتورهاي جستجوگر (Search Engine Marketing) نيز دو هدف عمده زير را دنبال مي كند:

1. حضور در جاهايي كه خريداران ما آنجا هستند.
2. بالاتر بودن از رقبا ( كسب وضعيت بهتر نسبت به رقبا)

اينگونه از بازاريابی شامل فعاليتهای مختلفی می باشد که از مهمترين فعاليتهای آن، بهينه سازی سايت (Search Engine Optimization) می باشد. در حقيقت موتورهاي جستجوگر از مهمترين بينندگان هر سايتي هستند. اگر سايت شما تنها براي مرورگرها، بهينه سازي شده است، كمي تامل كنيد: سايت شما بايد براي موتورهاي جستجوگر هم بهينه سازي گردد. به عنوان مثال مرورگرها می توانند صفحات را با وجود بعضی از خطاها در کدهای آنها، به کاربران نمايش دهند اما موتورهای جستجوگر تا اين حد مهربان نيستند. خوشبختانه توجه به موتورهاي جستجوگر در طراحي سايت، آنرا براي كاربران سايت هم قابل استفاده تر مي كند.

بهينه سازي سايت به معناي به كارگيري ترفندهاي پيچيده نيست بلكه در اغلب موارد به كارگيري و اعمال تغييرات كوچك و ساده در سايت است كه معمولا تاثير فوق العاده اي در بالا بردن ضريب نفوذ سايت شما در موتورهاي جستجوگر دارند.

ضريب نفوذ مناسب به معناي حضور در موتورهاي جستجوگر مهم و عمده، بايگاني شدن هر چه بيشتر صفحات سايت در پايگاه داده آنها و قرار گرفتن در صفحه هاي اول تا پنجم نتايج جستجوي آنهاست.
متخصصين بسياري در تلاش‌اند تا الگوريتم و پارامترهاي مورد توجه موتورهاي جستجوگر را شناسايي كنند تا بتوانند به كمك آنها به رتبه‌هاي بالاتري دست يابند و شانس خود را در كسب درآمد بيشتر، افزايش دهند.
البته به موازات آنها، موتورهاي جستجوگر نيز روز به‌ روز الگوريتم هاي خود را هوشمندتر كرده و بر اقدامات امنيتي براي حفاظت از الگوريتم‌هايشان مي‌افزايند.
چيزي که امروزه اين متخصصان با تاکيد بر آنها قصد بهبودي رتبه هاي سايت هاي خود را دارند، تنها تجربه است و نه يافته هاي علمي ثابت شده از اسرار بسيار موتورهاي جستجوگر.

خلاصه:
• موتور جستجوگر ابزاری است كه كاربران اينترنت به كمك آنها سايت ها را مي يابند.
• نتايج جستجوي تمام موتورهاي جستجوگر دقيق نيست.
• بسياري از كاربران دريافته اند كه در اغلب موارد 10 رتبه اول نتايج جستجوي موتورهاي جستجوگر مي تواند خواسته آنها را برآورده كند.
• راههاي بسياري براي دسترسي به سايتها وجود دارد اما موتورهاي جستجوگر همواره راهكار اساسي بوده اند.
• تجارت الكترونيك به شدت خود را با مسئله رتبه بندي در موتورهاي جستجوگر هماهنگ كرده است و همه سايت ها براي كسب رتبه هاي بالا تلاش مي كنند.
• اجراي يك برنامه موفق بازاريابي با موتورهاي جستجوگر، بدون يك ساختار و زيربناي مستحكم در خود سايت اصولا با شكست همراه مي باشد.
خدمات و ابزار جستجو در وب: انواع موتورهای جستجوگر

موتورهاي جستجوگر، با درجات متفاوتي از موفقيت، در واقع يك كار انجام مي دهند: فراهم آوردن يک وسيله جستجوی ساده برای كمك به كاربران در رسيدن به اطلاعات مورد نياز.
براي نيل به اين مهم، موتورهاي جستجوگر از اطلاعات موجود در پايگاه داده شان كمك مي گيرند. اطلاعات اين پايگاه داده نيز به روش هاي گوناگوني تامين مي شود با توجه به نوع جمع آوري اطلاعات، خدمات جستجويي که در وب ارايه می شود به دو گروه اصلی زير تقسيم بندی می گردد:

• Search Engine موتور جستجوگر
• Directory فهرست

تفاوت اصلی دو گروه اشاره شده در اين است که اطلاعات پايگاه داده گروه اول را نرم افزارها جمع آوری می کنند حال آنکه اين کار برای گروه دوم توسط انسانها انجام می شود.

الف- Search Engine يا موتور جستجوگر
در حالت كلي زماني كه صحبت از موتور جستجوگر مي شود، مقصود، اين نوع آن است. در اين نوع از موتورهاي جستجوگر، كار جمع آوري اطلاعات بر عهده اسپايدرها است. اسپايدر نرم افزاري است كه كار جمع آوري اطلاعات مورد نياز يك موتور جستجوگر را بر عهده دارد. پايگاه داده اين نوع از موتورهاي جستجوگر بزرگتر از ساير انواع است و اطلاعاتي را كه آنها ارايه مي دهند، معمولا" به روزتر مي باشد.

عمليات به روز رساني و گسترش اطلاعات پايگاه داده موتور جستجوگر از يک هفته تا چند ماه به طول مي انجامد. اسپايدرها، هيچ گاه از كار نمي ايستند و به طور مداوم به جمع آوري اطلاعات مشغول هستند. ممكن است اطلاعات جمع آوري شده توسط اسپايدرها از صفحات جديد باشد و يا اطلاعات به روز شده از صفحاتي باشد كه قبلا" هم به آنها مراجعه کرده اند.
زمانيکه صحبت از تكنيك هاي بهينه سازي سايت ها (SEO) به ميان می آيد در واقع تكنيك هايي مطرح اند كه براي كار با اين نوع از موتورهاي جستجوگر مؤثرند. بعضي از اين نوع موتورهاي جستجوگر عبارتند از :

Google, Yahoo, MSN, AllTheWeb, Gigablast, WiseNut, Teoma

ب _ Directory يا فهرست
دايركتوري ها اطلاعات را در گروه هاي مختلف دسته بندي مي كنند. تفاوت اصلي دايركتوري با يك موتور جستجوگر در اين است كه دايركتوري اسپايدر ندارد. دارندگان سايت ها به دايركتوري مراجعه مي كنند، گروه مناسب براي سايت خود را در آن بر مي گزينند و سايت خود را به آن گروه معرفي مي كنند.
پس از آنكه اطلاعات سايت ها به گروه هاي مختلف ارسال شد، ويراستاران دايركتوري آن اطلاعات را بررسي مي كنند و در صورتي كه گروه درخواست شده، با زمينه فعاليت سايت معرفی شده يكي باشد و همچنين ساير قوانين دايركتوري نيز رعايت شده باشد، سايت را در گروه ياد شده مي پذيرند.
در صورتي كه كاربران استفاده درستي از گروه هاي دايركتوري بنمايند مي توانند اطلاعات مفيدي را به كمك آنها كسب كنند.

دايركتوري از وجود يک سايت مطلع نمي گردد مگر زماني كه آن سايت به دايركتوري معرفي شود. يكي از ايراداتي كه به دايركتوري ها وارد مي شود اين است كه سايت هاي مرده زيادي در خود دارند. به عبارت ديگر يك سايت بعد از آنكه در يکی از گروه های آن قرار گرفته، ديگر به فعاليت خود ادامه نداده است اما با اين حال هنوز هم دايركتوري آنرا به عنوان يك سايت فعال به كاربران معرفي مي كند.
البته دايركتوری هاي حرفه اي با استخدام ويراستاران خبره تلاش بسياري براي رفع اين نقص و نواقص مشابه مي نمايند. امكان دارد دايركتوري ها براي بررسي اين مورد از اسپايدرها هم كمك بگيرند. در اين مورد خاص، كار اسپايدر اين است كه بررسي كند كه آيا سايت هايي كه قبلا" در گروه ها قرار گرفته اند، هنوز هم فعال مي باشند؟ در مواردي هم امكان دارد كه اسپايدرها تغيير زمينه فعاليت سايت ها و يا فعال بودن پيوندهای درون صفحات سايت ها را بررسی کنند.

قرار گرفتن در پايگاه داده دايركتورهاي عمده، نقش مهمي در کسب رتبه های بالا در موتورهاي جستجوگر(نوع اول) دارد. دايركتوري هاي عمده عبارتند از : Yahoo, Look Smart , Dmoz

بعضی از ارايه دهندگان خدمات جستجو در واقع تلفيقی از هر دو گروه می باشند به عنوان مثال ياهو هم اسپايدر دارد و هم ويراستار، گوگل نيز از فهرست Dmoz در بخش فهرست خود کمک گرفته است.
اما زيرگروههايي برای دو گروه اصلی خدمات جستجو وجود دارد که هم از ديدگاه کاربران وب و هم از ديدگاه مديران سايتها حايز اهميت می باشند. اين خدمات جستجو عبارتند از:

• Meta Search Engineابر جستجوگر
• Pay Per Click Search Engineرتبه بازای پول

Meta Search Engine يا ابر جستجوگر
ابرجستجوگر از نتايج ساير موتورهاي جستجوگر استفاده مي كند. كار آن بدين صورت است كه سوال كاربر را همزمان به موتورهاي جستجوگر مختلفي ارسال می کند. پس از دريافت نتايج جستجوی آنها به بررسی نتايج دريافت شده می پردازد و در نهايت ترکيبی از رتبه هاي بالاي آنها را طبق الگوريتم خود بعنوان نتايج جستجو به کاربر نشان مي دهد. ابر جستجوگر اسپايدر و پايگاه داده ندارد. برخی از آنها عبارتند از:

Vivisimo, Mamma, IXQuick, WebCrawler, Kartoo, DogPile

Pay-per-Click Search engine يا موتورهای جستجوگر رتبه به ازای پول!
کار آنها بسيار شبيه يك مزايده است: با توجه به واژه كليدي انتخابي، براي بالاترين رتبه، بايد بالاترين قيمت نسبت به ساير متقاضيان پرداخت شود.
در واقع نحوه ارائه نتايج جستجو در PPC به اين ترتيب است كه اگر سايتي خواهان بالاترين رتبه (رده اول)‌ در نتايج جستجوي آن می باشد، بايد بالاترين رقم به ازاي هركليك را نسبت به تمام رقبا بپردازد.

به عنوان مثال اگر سايتي مكان اول را براي عبارت Persian Carpet به قيمت 10 ريال خريده باشد، هر بار كه عبارت ياد شده جستجو گردد و بيننده‌اي با دنبال كردن پيوند ارائه شده در نتايج جستجو به سايت مورد نظر برود، دارندگان آن سايت بايد 10 ريال به موتور جستجوگر بپردازند. اگر 1000 بيننده اين كار را انجام دهند، آن گاه بايد 1000×10 ريال، پرداخته شود.

البته اين گونه نيست كه PPC فقط سايت هايي را ليست مي‌كند كه با آنها قرارداد تجاري بسته است. بلكه ابتدا كليه سايت هاي طرف قرارداد خود را براي عبارات‌ مورد نظر آن سايت ها ليست مي‌كند و سپس سايت هاي ديگر را كه معمولا از پايگاه داده ساير موتورهاي جستجوگر است، ليست مي‌كند. نمونه ای از روش ارايه نتايج جستجوي اين نوع از موتورهاي جستجوگر را در شكل زیر نشان داده شده است
به عبارت های sponsored listing و additional listing توجه نماييد نام "موتورهای جستجوگر پولکی" به اين نوع از موتورهای جستجوگر داده می شود! در اين مورد مي‌توان به Overture و Findwhat اشاره كرد.

فوايد آنها:
1. دارنده سايت تنها زماني پول مي پردازد كه واقعا" بيننده اي به سايت او بيايد.
2. سايت تقريبا" در عرض چند ساعت و يا حداكثر يك هفته در نتايج جستجو قرار مي گيرد و ديگر نيازي به چندين ماه انتظار نيست تا در نتايج جستجوي ساير موتورهای جستجوگر قرار گيرد که آن هم معلوم نيست دارای چه رتبه اي خواهند بود.
3. سايتی اگر بالاترين رتبه را مي خواهد، كافي است که بالاترين قيمت را بپردازد و ديگر نيازي به كاربرد تكنيك هاي رايج براي كسب رتبه های بالا نيست.
4. چون اينگونه سايتها معمولا به صورت شبکه ای از سايتها فعاليت می کنند، يک سايت با استفاده از سيستم آنها در نتايج جستجوی موتورهاي جستجوگر ديگر كه داراي شراكت تجاري با آنها هستند هم قرار می گيرد. به عنوان مثال اورچر، ياهو و آلتاويستا در يک شبکه هستند.

Specialty Search Engine يا موتورهای جستجوگر خاص
اين نوع از موتورهاي جستجوگر بر موضوعي خاص تمركز دارند و تنها سايت هاي مرتبط با آن موضوع را در پايگاه داده خود قرار مي دهند. به عنوان مثال يكي از آنها ممكن است تنها سايت هاي ايراني را بپذيرد و موضوع فعاليتش سايت هاي ايراني باشد.
اين موتور‌هاي جستجوگر اطلاعات تخصصي‌تري را ارائه مي‌دهند زيرا معمولا توسط افراد متخصص در آن زمينه اداره مي شوند. موتورهای جستجوگر منطقه ای و موضوعی به اين دسته تعلق دارند. در اين مورد مي توان به مواردی نظير: ChemicalSearch, IndustrySearch اشاره كرد..

انواع موتورهای جستجو
موتورهای جستجو به دو دسته کلی تقسيم می‌شوند. موتورهای جستجوی پيمايشی و فهرست‌های تکميل‌دستی. هر کدام از آن‌ها برای تکميل فهرست خود از روش‌های متفاوتی استفاده می‌کنند :
موتورهای جستجوی پيمايشی
موتورهای جستجوی پيمايشی (Crawler-Based Search Engines) مانند گوگل فهرست خود را بصورت خودکار تشکيل می‌دهند. آنها وب را پيمايش کرده، اطلاعاتی را ذخیره می‌کنند، سپس کاربران از میان این اطلاعات ذخیره شده، آنچه را که می‌خواهند جستجو می‌کنند. اگر شما در صفحه وب خود تغييراتی را اعمال نماييد، موتورهای جستجوی پيمايشی آنها را به طور خودکار می‌يابند و سپس اين تغييرات در فهرست‌ها اعمال خواهد شد. عنوان، متن و ديگر عناصر صفحه، همگی در این فهرست قرار خواهند گرفت.

فهرست‌های تکميل ‌دستی
فهرست‌های تکميل‌دستی يا (Human-Powered Directories) مانند فهرست بازی (Open Directory) مانند Dmoz وابسته به کاربرانی است که آن را تکميل می‌کنند. شما صفحه مورد نظر را به همراه توضيحی كوتاه در فهرست ثبت می‌کنيد يا اين کار توسط ويراستارهايی که برای آن فهرست در نظر گرفته شده، انجام می‌شود. عمل جستجو در اين حالت تنها بر روی توضيحات ثبت شده صورت می‌گيرد و در صورت تغيير روی صفحه وب، روی فهرست تغييری به وجود نخواهد آورد. چيزهايی که برای بهبود يک فهرست‌بندی در يک موتور جستجو مفيد هستند، تأثيری بر بهبود فهرست‌بندی يک دايرکتوری ندارند. تنها استثناء اين است که يک سايت خوب با پايگاه داده‌ای با محتوای خوب شانس بيشتری به نسبت يک سايت با پايگاه داده ضعيف دارد. البته در مورد جستجوگرهای مشهور از جمله گوگل و یاهو، یک مولفه دیگر هم برای بهبود فهرستبندی وجود دارد که کمک مالی است، یعنی وبگاههایی که مایل به بهبود مکان وبگاه خود در فهرستبندی هستند، می‌توانند با پرداخت پول به این جستجوگرها به هدف خویش برسند.

موتورهای جستجوی ترکيبی با نتايج مختلط
به موتورهايی اطلاق می‌شود که هر دو حالت را در کنار هم نمايش می‌دهند. غالباً، يک موتور جستجوی ترکيبی در صورت نمايش نتيجه جستجو از هر يک از دسته‌های فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار می‌دهد. مثلاً موتور جستجوی ام.اس.ان (MSN) بيشتر نتايج حاصل از فهرست‌های تکميل‌دستی را نشان می‌دهد اما در کنار آن نيم نگاهی هم به نتايج حاصل از جستجوی پيمايشی دارد.

بررسی يک موتور جستجوی پيمايشی
موتورهای جستجوی پيمايشی شامل سه عنصر اصلی هستند. اولی در اصطلاح عنکبوت (Spider) است که پيمايش‌گر (Crawler) هم ناميده می‌شود. پيمايش‌گر همين که به يک صفحه می‌رسد، آن را می‌خواند و سپس پيوند‌های آن به صفحات ديگر را دنبال می‌نمايد. اين چيزی‌ست که برای يک سايت پيمايش‌شده (Crawled) اتفاق افتاده است. پيمايش‌گر با يک روال منظم، مثلاً يک يا دو بار در ماه به سايت مراجعه می‌کند تا تغييرات موجود در آن را بيابد. هر چيزی که پيمايش‌گر بيابد به عنصر دوم يک موتور جستجو يعنی فهرست انتقال پيدا می‌کند. فهرست اغلب به کاتالوگی بزرگ اطلاق می‌شود که شامل ليستی از آنچه است که پيمايش‌گر يافته است. مانند کتاب عظيمی که فهرستی را از آنچه که پيمايش‌گرها از صفحات وب يافته‌اند، شامل شده است. هرگاه سايتی دچار تغيير شود، اين فهرست نيز به روز خواهد شد. از زمانی که تغييری در صفحه‌ای از سايت ايجاد شده تا هنگامی که آن تغيير در فهرست موتور جستجو ثبت شود مدت زمانی طول خواهد کشيد. پس ممکن است که يک سايت پيمايش‌شده باشد اما فهرست‌شده نباشد. تا زمانی که اين فهرست‌بندی برای آن تغيير ثبت نشده باشد، نمی‌توان انتظار داشت که در نتايج جستجو آن تغيير را ببينيم. نرم‌افزار موتور جستجو، سومين عنصر يک موتور جستجو است و به برنامه‌ای اطلاق می‌شود که به صورت هوشمندانه‌ای داده‌های موجود در فهرست را دسته‌بندی کرده و آنها را بر اساس اهميت طبقه‌بندی می‌کند تا نتيجه جستجو با کلمه‌های درخواست شده هر چه بيشتر منطبق و مربوط باشد.

رتبه‌بندی صفحات وب توسط موتورهای جستجو
وقتی شما از موتورهای جستجوی پيمايشی چيزی را برای جستجو درخواست می‌نماييد، تقريباً بلافاصله اين جستجو از ميان ميليون‌ها صفحه صورت گرفته و مرتب می‌شود بطوريکه مربوط‌ترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتری را احراز نمايد. البته بايد در نظر داشته باشيد که موتورهای جستجو همواره نتايج درستی را به شما ارائه نخواهند داد و مسلماً صفحات نامربوطی را هم در نتيجه جستجو دريافت می‌کنيد و گاهی اوقات مجبور هستيد که جستجوی دقيقتری را برای آنچه که می‌خواهيد انجام دهيد اما موتورهای جستجو کار حيرت‌انگيز ديگری نيز انجام می‌دهند. فرض کنيد که شما به يک کتابدار مراجعه می‌کنيد و از وی درباره «سفر» کتابی می‌خواهيد. او برای اين که جواب درستی به شما بدهد و کتاب مفيدی را به شما ارائه نمايد با پرسيدن سؤالاتی از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحويل خواهد داد. موتورهای جستجو همچنين توانايی ندارند اما به نوعی آنها را شبيه‌سازی می‌کنند. پس موتورهای جستجوی پيمايشی چگونه به پاسخ مورد نظرتان از ميان ميليونها صفحه وب می‌رسند؟ آنها يک مجموعه از قوانين را دارند که الگوريتم ناميده می‌شود. الگوريتم‌های مورد نظر برای هر موتور جستجويی خاص و تقريباً سری هستند اما به هر حال از قوانين زير پيروی می‌کنند:
مکان و بسامد

يکی از قوانين اصلی در الگوريتم‌های رتبه‌بندی موقعيت و بسامد (تعداد تکرار) واژه‌هایی است که در صفحه مورد استفاده قرار گرفته‌اند که بطور خلاصه روش مکان-بسامد (Location/Frequency Methode) ناميده می‌شود. کتابدار مذکور را به خاطر می‌آورِد؟ لازم است که او کتاب‌های در رابطه با واژه «سفر» را طبق درخواست شما بيابد. او در وحله اول احساس می‌کند که شما به دنبال کتاب‌هايی هستيد که در نامشان کلمه «سفر» را شامل شوند. موتورهای جستجو هم دقيقاً همان کار را انجام می‌دهند. آنها هم صفحاتی را برايتان فهرست می‌کنند که در برچسب عنوان (Title) موجود در کد زبان نشانه‌گذاری اَبَرمتنی (زنگام) (HTML) حاوی واژه «سفر» باشند. موتورهای جستجو همچنين به دنبال واژه مورد نظر در بالای صفحات و يا در آغاز بندها (پاراگراف‌ها) هستند. آنها فرض می‌کنند که صفحاتی که حاوی آن واژه در بالای خود و يا در آغاز بندها و عناوين باشند به نتيجه مورد نظر شما مربوط‌تر هستند. بسامد عامل بزرگ و مهم ديگری است که موتورهای جستجو از طريق آن صفحات مربوط را شناسايی می‌نمايند. موتورهای جستجو صفحات را تجزيه کرده و با توجه به تکرار واژه‌ای در صفحه متوجه می‌شوند که آن واژه نسبت به ديگر واژه‌ها اهميت بيش‌تری در آن صفحه دارد و آن صفحه را در درجه بالاتری نسبت به صفحات ديگر قرار می‌دهند.

چگونگی کارکرد دقيق موتورهای جستجو درباره روش‌هايی از قبيل مکان-تکرار فاش نمی‌شود و هر موتور جستجويی روش خود را دنبال می‌کند. به همين دليل است که وقتی شما واژه‌های همانندی را در موتورهای متفاوت جستجو می‌کنيد، به نتايج متفاوتی می‌رسيد. برخی موتورهای جستجو نسبت به برخی ديگر صفحات بيشتری را فهرست کرده‌اند. نتيجه اين خواهد شد که هيچ موتور جستجويی نتيجه جستجوی مشترکی با موتور ديگر نخواهد داشت و شما نتايج متفاوتی را از آنها دريافت می‌کنيد. موتورهای جستجو همچنين ممکن است که برخي از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با هرزنامه (Spam) شدن سعی در گول زدن موتورهای جستجو داشته باشند. فرستادن هرزنامه (Spamming) روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهای جستجو در پيش می‌گيرند و آن به اين صورت است که با تکرار بيش از حد واژه‌ها بطور عمدی كوشش در بر هم زدن تعادل و در نتيجه فريب موتورهای جستجو دارند. آنها سعی دارند که با افزايش عامل تکرار، در رتبه بالاتری قرار بگيرند. موتورهای جستجو راه‌های متنوعی برای جلوگيری از فرستادن هرزنامه دارند و در اين راه از گزارش‌های کاربران خود نيز بهره می‌برند.

عوامل خارج از صفحه
موتورهای جستجوی پيمايشی اکنون تجربه فراوانی در رابطه با وب‌دارهايی دارند که صفحات خود را برای کسب رتبه بهتر مرتباً بازنويسی می‌کنند. بعضی از وب‌دارها (وب‌مسترها)ی خبره حتی ممکن است به سمت روش‌هايی مانند مهندسی معکوس برای کشف چگونگی روش‌های مکان-تکرار بروند. به همين دليل، تمامی موتورهای جستجوی معروف از روش‌های امتيازبندی «خارج از صفحه» استفاده می‌کنند. عوامل خارج از صفحه عواملی هستند که از تيررس وب‌دارها خارجند و آنها نمی‌توانند در آن دخالت کنند و مسأله مهم در آن تحليل ارتباطات و پيوندهاست. به وسيله تجزيه صفحات، موتورهای جستجو پيوند‌ها را بررسی کرده و از محبوبيت آنها می‌فهمند که آن صفحات مهم بوده و شايسته ترفيع رتبه هستند. به علاوه تکنيک‌های پيشرفته به گونه‌ای است که از ايجاد پيوند‌های مصنوعی توسط وب‌دارها برای فريب موتورهای جستجو جلوگيری می‌نمايد. علاوه بر آن موتورهای جستجو بررسی می‌کنند که کدام صفحه توسط يک کاربر که واژه‌ای را جستجو کرده انتخاب می‌شود و سپس با توجه به تعداد انتخاب‌ها، رتبه صفحه مورد نظر را تعيين کرده و مقام آن را در نتيجه جستجو جابه‌جا می‌نمايند.

موتور جستجوگر چگونه کار می کند؟
وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه مي شود، كاربران در واقع نتيجه كار بخش هاي متفاوت موتور جستجوگر را مي بينند. موتور جستجوگر قبلا" پايگاه داده اش را آماده كرده است و اين گونه نيست كه درست در همان لحظه جستجو، تمام وب را بگردد. بسياري از خود مي پرسند كه چگونه امكان دارد گوگل در كمتر از يك ثانيه تمام سايت های وب را بگردد و ميليون ها صفحه را در نتايج جستجوی خود ارايه كند؟
نه گوگل و نه هيچ موتور جستجوگر ديگري توانايي انجام اين كار را ندارند. همه آنها در زمان پاسخ گويي به كاربران، تنها در پايگاه داده اي كه در اختيار دارند به جستجو مي پردازند و نه در وب!

موتور جستجوگر به كمك بخش های متفاوت خود، اطلاعات مورد نياز را قبلا" جمع آوري، تجزيه و تحليل مي كند و آنرا در پايگاه داده اش ذخيره مي نمايد و به هنگام جستجوی کاربر تنها در همين پايگاه داده می گردد.
بخش هاي مجزاي يك موتور جستجوگر عبارتند از:

• Spider يا عنکبوت
• Crawler يا خزنده
• Indexer يا بايگانی کننده
• Database يا پايگاه داده
• Ranker يا سيستم رتبه بندی

الف Spider- (عنکبوت)
اسپايدر يا روبوت (Robot)، نرم افزاري است كه كار جمع آوري اطلاعات مورد نياز يك موتور جستجوگر را بر عهده دارد. اسپايدر به صفحات مختلف سر مي زند، محتواي آنها را مي خواند، اطلاعات مورد نياز را جمع آوري مي كند و آنرا در اختيار ساير بخش هاي موتور جستجوگر قرار مي دهد.

كار يك اسپايدر، بسيار شبيه كار كاربران وب است. همانطور كه كاربران، صفحات مختلف را بازديد مي كنند، اسپايدر هم درست اين كار را انجام مي دهد با اين تفاوت كه اسپايدر كدهاي HTML صفحات را مي بيند اما كاربران نتيجه حاصل از كنار هم قرار گرفتن اين كدها را.

Index.html صفحه اي است كه كاربران آنرا به صورت شكل (1) مي بينند:

اما يک اسپايدر آنرا چگونه می بيند؟
براي اين كه شما هم بتوانيد دنياي وب را از ديدگاه يك اسپايدر ببينيد، كافي است كه كدهاي HTML صفحات را مشاهده کنيد. براي اين كار در مرورگر مورد استفاده خود، مسير نشان داده شده در شكل (2) دنبال کنيد.

با انجام اين کار فايل متنی شكل (3) به شما نشان داده می شود:

آيا اين دنياي متني برای شما جذاب است؟

اسپايدر، به هنگام مشاهده صفحات، از خود بر روي سرورها رد پا برجای مي گذارد. شما اگر اجازه دسترسي به آمار ديد و بازديدهاي صورت گرفته از يک سايت و اتفاقات انجام شده در آنرا داشته باشيد، مي توانيد مشخص كنيد كه اسپايدر كدام يک از موتورهاي جستجوگر صفحات سايت را مورد بازديد قرار داده اند.
يکی از فعاليتهاي اصلی که در SEM انجام می شود تحليل آمار همين ديد و بازديدها می باشد.

اسپايدرها كاربردهاي ديگري نيز دارند، به عنوان مثال عده اي از آنها به سايت هاي مختلف مراجعه مي كنند و فقط به بررسي فعال بودن لينك هاي آنها مي پردازند و يا به دنبال آدرس پست الكترونيكي (Email) مي گردند.

ب- Crawler (خزنده
كراولر، نرم افزاري است كه به عنوان يك فرمانده براي اسپايدر عمل مي كند. آن مشخص مي كند که اسپايدر كدام صفحات را مورد بازديد قرار دهد. در واقع کراولر تصميم مي گيرد كه كدام يك از لينك های صفحه ای كه اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند، بعضي ها را دنبال كند و يا هيچ كدام را دنبال نكند.
کراولر، ممكن است قبلا" برنامه ريزي شده باشد که آدرس های خاصی را طبق برنامه، در اختيار اسپايدر قرار دهد تا از آنها ديدن کند. دنبال كردن لينك های يک صفحه به اين بستگي دارد كه موتور جستجوگر چه حجمي از اطلاعات يک سايت را مي تواند در پايگاه داده اش ذخيره كند و همچنين ممكن است اجازه دسترسي به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد.

شما به عنوان دارنده سايت، همان طور كه دوست داريد موتورهاي جستجوگر اطلاعات سايت شما را با خود ببرند، مي توانيد آنها را از بعضي از صفحات سايت تان دور كنيد و اجازه دسترسي به محتواي آن صفحات را به آنها ندهيد. تنظيم ميزان دسترسي موتورهاي جستجوگر به محتوای يک سايت توسط پروتكل Robots انجام مي شود كه در مقالات دیگر سایت به آن پرداخته شده است. به عمل کراولر ، خزش (Crawling) مي گويند.

ج- Indexer (بايگانی كننده
تمام اطلاعات جمع آورش شده توسط اسپايدر در اختيار ايندکسر قرار مي گيرد. در اين بخش اطلاعات ارسالي مورد تجزيه و تحليل قرار مي گيرند و به بخش هاي متفاوتي تقسيم مي شوند. تجزيه و تحليل بدين معني است كه مشخص می شود اطلاعات از كدام صفحه ارسال شده است، چه حجمي دارد، كلمات موجود در آن كدام است، کلمات چندبار تكرار شده است، كلمات در كجاي صفحه قرار دارند و ... .
در حقيقت ايندکسر، صفحه را به پارامترهای آن خرد می کند و تمام اين پارامترها را به يک مقياس عددی تبديل می کند تا سيستم رتبه بندي بتواند پارامترهای صفحات مختلف را با هم مقايسه کند.
در زمان تجزيه و تحليل اطلاعات، ايندکسر براي كاهش حجم داده ها از بعضي كلمات كه بسيار رايج هستند صرفنظر مي کند. كلماتي نظير a ، an ، the ، www ، is و ... . از اين گونه كلمات هستند.

د - DataBase (پايگاه داده)
تمام داده هاي تجزيه و تحليل شده در ايندکسر، به پايگاه داده ارسال مي گردد. در اين بخش داده ها گروه بندي، كدگذاري و ذخيره مي شود. همچنين داده ها قبل از آنكه ذخيره شوند، طبق تکنيکهای خاصی فشرده مي شوند تا حجم كمي ُُاز پايگاه داده را اشغال كنند.
يك موتور جستجوگر بايد پايگاده داده عظيمي داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قديمي را هم به روز رسانی نمايد. بزرگي و به روز بودن پايگاه داده يك موتور جستجوگر براي آن امتياز محسوب مي گردد. يكي از تفاوتهاي اصلي موتورهاي جستجوگر در حجم پايگاه داده آنها و همچنين روش ذخيره سازي داده ها در پايگاه داده است.

در شكل (4) حجم پايگاه داده چند موتور جستجوگر با هم مقايسه شده است.

شكل 4- مقايسه حجم پايگاه داده چند موتور جستجوگر در دسامبر 2001
GG= Google, AV= Altavista, Fast= AllTheWeb
INK= Inktomi, NL= NorthernLight
منبع: www.searchenginewatch.com

و- Ranker (سيستم رتبه بندی بعد از آنكه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گويي به سوالات كاربران است. كاربران چند كلمه را در جعبه جستجوي (Search Box) آن وارد مي كنند و سپس با فشردن Enter منتظر پــاسخ مي مانند.
برای پاسخگويي به درخواست کاربر، ابتدا تمام صفحات موجود در پايگاه داده كه به موضوع جستجو شده، مرتبط هستند، مشخص مي شوند. پس از آن سيستم رتبه بندي وارد عمل شده، آنها را از بيشترين ارتباط تا كمترين ارتباط مرتب مي كند و به عنوان نتايج جستجو به كاربر نمايش می دهد.

حتي اگر موتور جستجوگر بهترين و كامل ترين پايگاه داده را داشته باشد اما نتواند پاسخ هاي مرتبطي را ارايه كند، يك موتور جستجوگر ضعيف خواهد بود. در حقيقت سيستم رتبه بندي قلب تپنده يك موتور جستجوگر است و تفاوت اصلي موتورهاي جستجوگر در اين بخش قرار دارد.

سيستم رتبه بندي براي پاسخ گويي به سوالات كاربران، پارامترهاي بسياري را در نظر مي گيرد تا بتواند بهترين پاسخ ها را در اختيار آنها قرار دارد. حرفه اي هاي دنياي SEM به طور خلاصه از آن به Algo ( الگوريتم) ياد مي كنند.
الگوريتم، مجموعه اي از دستورالعمل ها است كه موتور جستجوگر با اعمال آنها بر پارامترهاي صفحات موجود در پايگاه داده اش، تصميم مي گيرد که صفحات مرتبط را چگونه در نتايج جستجو مرتب كند. در حال حاضر قدرتمندترين سيستم رتبه بندي را گوگل در اختيار دارد.

ُمي توان با ادغام کردن اسپايدر با کراولر و همچنين ايندکسر با پايگاه داده، موتور جستجوگر را شامل سه بخش زير دانست که اين گونه تقسيم بندی هم درست می باشد:

• کراولر
• بايگانی
• سيستم رتبه بندی

تذکر- برای سهولت در بيان مطالب بعدی هر گاه صحبت از بايگانی کردن (شدن) به ميان می آيد، مقصود اين است که صفحه تجزيه و تحليل شده و به پايگاه داده موتور جستجوگر وارد مي شود.

براي آنكه تصور درستي از نحوه كار يك موتور جستجوگر داشته باشيد داستان نامتعارف زير را با هم بررسي مي كنيم.

داستان ما يک شکارچی دارد. او تصميم به شكار می گيرد:

- کار کراولر:
او قصد دارد براي شكار به منطقه حفاظت شده ابيورد، واقع در شهرستان درگز (شمالی ترين شهر خراسان بزرگ) برود.

- پروتكل Robots :
ابتدا تمام محدوديت هاي موجود براي شكار در اين منطقه را بررسي مي كند:

• آيا در اين منطقه می توان به شکار پرداخت؟
• کدام حيوانات را می توان شکار کرد؟
• حداکثر تعداد شکار چه ميزانی است؟
• و ... .

فرض می کنيم او مجوز شكار يک اوريال (نوعي آهو) را از شكارباني منطقه دريافت مي كند.

- کار اسپايدر
او اوريالي رعنا را شكار مي كند و سپس آنرا با خود به منزل می برد.

- کار ايندکسر
شكار را تكه تكه كرده، گوشت، استخوان، دل و قلوه، كله پاچه و ... آنرا بسته بندي مي كند و بخش های زايد شکار را دور می ريزد.

- کار پايگاه داده
بسته هاي حاصل را درون فريزر قرار داده، ذخيره می کند.

- کار سيستم رتبه بندی
مهمانان سراغ او مي آيند و همسر او بسته به ذائقه مهمانان براي آنها غذا طبخ مي كند. ممكن است عده اي كله پاچه، عده اي آبگوشت، عده اي جگر و ... دوست داشته باشند. پخت غذا طبق سليقه مهمانان کار سختی است. ممكن است همه آنها آبگوشت بخواهند اما آنها مسلما" بامزه ترين آبگوشت را مي خواهند!

نکته ها:
• شکارچی می توانست برای شکار کبک يا اوريال و يا هر دو به آن منطقه برود همانطور که موتور جستجوگر می تواند از سرور سايت شما انواع فايل (عکس، فايل متنی، فايل اجرايي و ...) درخواست کند.
• غذای خوشمزه را می توانيد با نتايج جستجوی دقيق و مرتبط مقايسه کنيد. اگر شکارچی بهترين شکار را با خود به منزل ببرد اما غذايي خوشمزه و مطابق سليقه مهمانان طبخ نگردد، تمام زحمات هدر رفته است.
• به عنوان آخرين نکته اين مقاله ياد آوری می کنم که به شکار اوريالی رعنا آن هم در منطقه حفاظت شده ابيورد، اصلا فکر نکنيد. اما توصيه می شود که حتما از طبيعت بکر آن ديدن فرماييد .

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

دانلود مقاله موتور های جستجوگر

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله کاپیتان کوک : جستجوگر دریانورد و پیشگام دریایی