بخشی از مقاله
مقدمه:
موتور جستجو چیست؟ موتور جستجوگر و اهمیت آن
دنياي وب منبع عظيمي از اطلاعات است كه روزبهروز برحجم آن افزوده ميشود. در حال حاضر ميلياردها صفحه كه اطلاعات فراواني از موضوعات مختلف را در بر دارند، بر روي سرورهای مختلف جا خوش كرده اند. اين در حاليست که تولد سايتهای جديد و گسترش سايتهای موجود نيز به طور فزاينده ای به اين حجم اطلاعات می افزايد.
نرخ رشد اطلاعات تا بدانجاست که امروزه مشکل دسترسی به اطلاعات جدی تر از نبود اطلاعات است. امروزه چالش عمده اکثر کاربران دستيابی به اطلاعات است. به عبارت ديگر اگر كاربري دنبال موضوعي خاص باشد، كدام صفحه را بايد بخواند؟ از ميان اين تعداد عظيم صفحات موجود، كدام صفحه نياز او را برآورده مي كند؟
اگر سايتی باشد که به کاربران در يافتن اطلاعات کمک کند، قطعا مورد توجه خواهد بود. خوشبختانه چنين سايتی وجود دارد و ما آنرا با نام موتور جستجوگر می شناسيم.
موتور جستجوگر سايتي است كه براي كمك به كاربران در يافتن اطلاعات موجود در سايتهاي ديگر طراحي شده است. موتور جستجوگر سايتي است كه با گرفتن عبارتي مختصر، كاربر را با ليستي از سايت ها روبرو ميكند كه به موضوع مورد علاقه او مرتبط ميباشند.
آمارها نشان مي دهند كه افراد بسياري سفر در دنياي وب را با موتورهاي جستجوگر آغاز ميكنند و مراجعه به موتورهاي جستجوگر چنان عادي شده است که جستجو کردن و کار با موتورهاي جستجوگر، دومين فعاليت عمده کاربران در دنياي وب (بعد از ارسال و دريافت نامه هاي الکترونيکي)، محسوب مي شود.
هر چه بر محبوبيت وب افزوده مي گردد، نياز به بايگاني كردن اطلاعات آن نيز بيشتر ميشود؛ موتور جستجوگر نيز در واقع اين اطلاعات را بايگاني كرده، در زمان مورد نياز و به سرعت در اختيار كاربران قرار ميدهد.
بدون موتور جستجوگر، وب تنها به بخش كوچكي از موفقيت امروزين خود دست مييافت زيرا موتور جستجوگر، اينترنت را به رسانهاي قابل استفاده براي همه كرده است (از هيچ كس توقع نميرود تعداد زيادي از آدرس هاي وب را به ياد داشته باشد).
آن چه كه موتورهاي جستجوگر انجام مي دهند- با درجات متفاوتي از موفقيت- فراهم كردن يك وسيله جستجوي ساده است. وقتي يك كاربر وب عبارتي را جستجو ميكند، موتور جستجوگر ليستي از سايت ها را ارائه ميكند كه تعداد آنها از چند صد مورد تا چند ميليون متغير ميباشد.
سايت هايي كه موتور جستجوگر به عنوان نتايج جستجويش ارايه ميكند، بر حسب ميزان ارتباط با عبارت جستجو شده به ترتيب نزولي ليست ميشوند. به عبارت ديگر سايتي كه به عنوان اولين سايت در نتايج جستجو معرفي شده است، مرتبط ترين سايت با عبارت جستجو شده از ديد آن موتور جستجوگر بوده است.
دقت در ارايه نتايج جستجو چيزيست که کاربران وب همواره از موتورهاي جستجوگر مي خواهند. هر چه نتايج جستجوي يک موتور جستجوگر دقيق تر و مرتبط تر باشد، محبوب تر خواهد بود و کاربران بيشتري بدان مراجعه خواهند کرد.
اگر عبارت يكساني در تمام موتورهاي جستجوگر، جستجو شود هيچ كدام از آنها نتايج يكساني را ارائه نميدهند و با نتايج كاملا متفاوتي روبرو ميشويم. تفاوت در ارائه نتايج جستجو در موتورهاي جستجوگر از تفاوت آنها در الگوريتم (سيستم رتبه بندی) و بايگاني دادهشان ناشي ميشود.
حتي اگر همه آنها از بايگاني داده يكساني نيز استفاده كنند، بازهم نتايج جستجويشان متفاوت خواهد بود. موتور جستجوگر براي ردهبندي صفحات وب از الگوريتم خاصي استفاده ميكند كه فوقالعاده محرمانه ميباشد. الگوريتم نيز مجموعه اي از دستورالعمل ها است كه موتور جستجوگر به كمك آن تصميم ميگيرد كه سايت ها را چگونه در خروجياش مرتب كند.
براي اينكه سايت ها با هم مقايسه شوند و بر حسب ميزان ارتباط با موضوع جستجو شده، مرتب شوند، موتور جستجوگر، الگوريتم را بر مجموعهاي از پارامترها اعمال ميكند. پارامترهاي مورد توجه موتور جستجوگر نيز همانند الگوريتم آن ها ناشناخته ميباشد و اين ناشناخته ها جذابيت دنياي موتورهاي جستجوگر را دوچندان ميكنند.
به اهميت موتورهاي جستجوگر از ديدگاه کاربران وب و جستجوکنندگان اطلاعات اشاره شد. آيا موتورهاي جستجوگر از ديدگاه تجاري و ديدگاه يک مدير سايت نيز مهم مي باشند؟
اهميت تجاري موتورهاي جستجوگر
فعالان عرصه تجارت الكترونيك، آوردن بيننده به سايت را برای موفقيت در دنياي وب و تجارت آنلاين ضروري مي دانند. فرقي نميكند كه سايت چه ميفروشد و چه خدماتي ارايه مي دهد: اگر سايتي به دنبال فروش كالا يا خدمات و كسب درآمد يا محبوبيت است، بايد بيننده داشته باشد.
تعداد بينندگان يک سايت، برگ برنده آن براي كسب موفقيت در دنياي وب ميباشد. سايتي كه بيننده ندارد، بدون شك مرگي آنلاين را تجربه ميكند و چه بسيارند سايتهايي که هر روزه از چرخه زندگی در وب خارج می شوند!
مديران و طراحان خبره وب به خوبي مي دانند كه فقط طراحي يك وب سايت تضميني براي آمدن بيننده به آن نيست بلکه بايد بينندگان را به طريقی به سايت جذب کرد. بينندگان تنها به دنبال رفع نيازهای اطلاعاتی خود می باشند و وظيفه ندارند به هر قيمتی که شده سايت شما را بيابند.
براي دعوت بينندگان به وب سايتتان چه تدابيري انديشيده ايد؟ چگونه ديگران بدانند كه شما سايت پر محتوا و جذابي داريد؟ خود شما چگونه سايتهاي ديگر را مي يابيد؟
بدون هيچ گونه ترديدي بايد گفت كه ما در اغلب موارد به كمك موتورهاي جستجوگر به آنچه كه مي خواهيم، دست مي يابيم.
اگر ما اينكار را انجام مي دهيم، ديگران نيز دقيقا همين كار را مي كنند: جستجوي چند عبارت در يكي از موتورهاي جستجوگر و مراجعه به يكي از وب سايتها. ببينيم آمارها چه مي گويند:
• 82 درصد كاربران اينترنت، موتورهاي جستجوگر را ابزار اصلي خود براي يافتن وب سايتها عنوان كرده اند.
• 57 درصد از كاربران اينترنت، هر روز جستجو ميكنند و 46 درصد اين جستجوها براي كالا يا خدمات است. (منبع: SRI )
• 85 درصد ترافيك هدفمند در اينترنت را موتورهاي جستجوگر باعث ميشوند.
(منبع: 7th www user survey-Georgia Institute of Technology)
نمودار زير نشان مي دهد كه كاربران چگونه كالاهاي مورد نياز خود را مي يابند:
همان گونه كه آمارها نشان ميدهند موتورهاي جستجوگر ابزار مناسبي هستند كه خريداران به كمك آنها، كالا يا خدمات مورد نياز خود را مييابند. البته تنها ردههاي بالاي نتايج جستجو هستند كه مورد توجه كاربران قرار مي گيرند و آنها به سايتهاي ليست شده در اين رتبهها مراجعه مي كنند.
بسياري از كاربران دريافته اند كه در اغلب موارد 10 رتبه اول نتايج جستجو مي تواند خواسته آنها را برآورده كند و هنوز هم علاقه دارند كه تنها 10 سايت اول در نتايج جستجو را مرور كنند. اما آمارها چه می گويند:
• 70 درصد از کاربران به هنگام جستجو حتما يكي از سه سايت ابتداي نتايج جستجو را كليك مي كنند.
• تنها 7 درصد از آنها سايتهاي قرار گرفته در رتبه هاي بيستم به بعد را كليك مي كنند.
• 85 درصد از آنها اگر جوابي براي جستجوي خود در بيست نتيجه اول نتايج جستجو نيابند، موتور جستجوگر مورد استفاده خود را عوض مي كنند.
• 33 درصد كاربران وب فكر مي كنند سايتي كه در ابتداي نتايج جستجو قرار دارد، در موضوع جستجو شده سرآمدتر از رقباي خود است و در آن موضوع پيشرو مي باشد.
با دقت در اين آمارها، اهميت كسب رتبههاي بالا در موتورهاي جستجوگر روشن تر ميشود. نكته مهم ديگر اين است كه بينندگاني كه موتورهاي جستجوگر روانه سايتها ميكنند، به احتمال زياد مخاطبان اصلی سايت مورد نظر ميباشند و اين در حالي است كه هزينه چنداني نيز صرف آوردن آنان به سايت نشده است.
آمارهای ارايه شده از رفتار كاربران وب پيام بسيار واضحي دارد: سايتهايي كه در رتبههاي بالا قرار نميگيرند، بخش مهمی از کاربران مخاطب خود را از دست می دهند.
يک سايت ممکن است هزاران بيننده داشته باشد اما تعداد بينندگان گروه مخاطب آن است که موفقيت سايت را رقم می زند. زيرا در اغلب موارد اين بينندگان مخاطب سايت هستند که از سايت چيزی بيشتر از اطلاعات رايگان ارايه شده می خواهند.
امروزه تجارت الکترونيک خود را با مسئله رتبه بندي در موتورهاي جستجوگر هماهنگ کرده است زيرا رتبه هاي بالاتر مستقيما به فروش بيشتر، تعبير مي شوند. طبق آمارهاي ارايه شده در ابتداي سال جديد ميلادي (2003) نزديك به 93 درصد بينندگان سايت هاي فعال در زمينه ارايه هداياي كريسمس را موتورهاي جستجوگر فراهم كرده اند كه در اين بين گوگل با 27 درصد در صدر ايستاده است و پس از آن ياهو با 25 درصد در رده دوم قرار گرفته است.
شم بازاريابي حكم مي كند كه همواره در جايي حضور داشته باشيم كه مشتري ما آنجاست. اگر ما آنجا نباشيم، رقيب ما آنجا خواهد بود. به عبارت ديگر كسيكه قرار است از ما خريد كند، از رقيب ما خريد مي كند:
رقيب ما هر روز چاق تر و چاق تر مي شود و ما نحيف و نحيف تر.
بازاريابي با موتورهاي جستجوگر (Search Engine Marketing) نيز دو هدف عمده زير را دنبال مي كند:
1. حضور در جاهايي كه خريداران ما آنجا هستند.
2. بالاتر بودن از رقبا ( كسب وضعيت بهتر نسبت به رقبا)
اينگونه از بازاريابی شامل فعاليتهای مختلفی می باشد که از مهمترين فعاليتهای آن، بهينه سازی سايت (Search Engine Optimization) می باشد. در حقيقت موتورهاي جستجوگر از مهمترين بينندگان هر سايتي هستند. اگر سايت شما تنها براي مرورگرها، بهينه سازي شده است، كمي تامل كنيد: سايت شما بايد براي موتورهاي جستجوگر هم بهينه سازي گردد. به عنوان مثال مرورگرها می توانند صفحات را با وجود بعضی از خطاها در کدهای آنها، به کاربران نمايش دهند اما موتورهای جستجوگر تا اين حد مهربان نيستند. خوشبختانه توجه به موتورهاي جستجوگر در طراحي سايت، آنرا براي كاربران سايت هم قابل استفاده تر مي كند.
بهينه سازي سايت به معناي به كارگيري ترفندهاي پيچيده نيست بلكه در اغلب موارد به كارگيري و اعمال تغييرات كوچك و ساده در سايت است كه معمولا تاثير فوق العاده اي در بالا بردن ضريب نفوذ سايت شما در موتورهاي جستجوگر دارند.
ضريب نفوذ مناسب به معناي حضور در موتورهاي جستجوگر مهم و عمده، بايگاني شدن هر چه بيشتر صفحات سايت در پايگاه داده آنها و قرار گرفتن در صفحه هاي اول تا پنجم نتايج جستجوي آنهاست.
متخصصين بسياري در تلاشاند تا الگوريتم و پارامترهاي مورد توجه موتورهاي جستجوگر را شناسايي كنند تا بتوانند به كمك آنها به رتبههاي بالاتري دست يابند و شانس خود را در كسب درآمد بيشتر، افزايش دهند.
البته به موازات آنها، موتورهاي جستجوگر نيز روز به روز الگوريتم هاي خود را هوشمندتر كرده و بر اقدامات امنيتي براي حفاظت از الگوريتمهايشان ميافزايند.
چيزي که امروزه اين متخصصان با تاکيد بر آنها قصد بهبودي رتبه هاي سايت هاي خود را دارند، تنها تجربه است و نه يافته هاي علمي ثابت شده از اسرار بسيار موتورهاي جستجوگر.
خلاصه:
• موتور جستجوگر ابزاری است كه كاربران اينترنت به كمك آنها سايت ها را مي يابند.
• نتايج جستجوي تمام موتورهاي جستجوگر دقيق نيست.
• بسياري از كاربران دريافته اند كه در اغلب موارد 10 رتبه اول نتايج جستجوي موتورهاي جستجوگر مي تواند خواسته آنها را برآورده كند.
• راههاي بسياري براي دسترسي به سايتها وجود دارد اما موتورهاي جستجوگر همواره راهكار اساسي بوده اند.
• تجارت الكترونيك به شدت خود را با مسئله رتبه بندي در موتورهاي جستجوگر هماهنگ كرده است و همه سايت ها براي كسب رتبه هاي بالا تلاش مي كنند.
• اجراي يك برنامه موفق بازاريابي با موتورهاي جستجوگر، بدون يك ساختار و زيربناي مستحكم در خود سايت اصولا با شكست همراه مي باشد.
خدمات و ابزار جستجو در وب: انواع موتورهای جستجوگر
موتورهاي جستجوگر، با درجات متفاوتي از موفقيت، در واقع يك كار انجام مي دهند: فراهم آوردن يک وسيله جستجوی ساده برای كمك به كاربران در رسيدن به اطلاعات مورد نياز.
براي نيل به اين مهم، موتورهاي جستجوگر از اطلاعات موجود در پايگاه داده شان كمك مي گيرند. اطلاعات اين پايگاه داده نيز به روش هاي گوناگوني تامين مي شود با توجه به نوع جمع آوري اطلاعات، خدمات جستجويي که در وب ارايه می شود به دو گروه اصلی زير تقسيم بندی می گردد:
• Search Engine موتور جستجوگر
• Directory فهرست
تفاوت اصلی دو گروه اشاره شده در اين است که اطلاعات پايگاه داده گروه اول را نرم افزارها جمع آوری می کنند حال آنکه اين کار برای گروه دوم توسط انسانها انجام می شود.
الف- Search Engine يا موتور جستجوگر
در حالت كلي زماني كه صحبت از موتور جستجوگر مي شود، مقصود، اين نوع آن است. در اين نوع از موتورهاي جستجوگر، كار جمع آوري اطلاعات بر عهده اسپايدرها است. اسپايدر نرم افزاري است كه كار جمع آوري اطلاعات مورد نياز يك موتور جستجوگر را بر عهده دارد. پايگاه داده اين نوع از موتورهاي جستجوگر بزرگتر از ساير انواع است و اطلاعاتي را كه آنها ارايه مي دهند، معمولا" به روزتر مي باشد.
عمليات به روز رساني و گسترش اطلاعات پايگاه داده موتور جستجوگر از يک هفته تا چند ماه به طول مي انجامد. اسپايدرها، هيچ گاه از كار نمي ايستند و به طور مداوم به جمع آوري اطلاعات مشغول هستند. ممكن است اطلاعات جمع آوري شده توسط اسپايدرها از صفحات جديد باشد و يا اطلاعات به روز شده از صفحاتي باشد كه قبلا" هم به آنها مراجعه کرده اند.
زمانيکه صحبت از تكنيك هاي بهينه سازي سايت ها (SEO) به ميان می آيد در واقع تكنيك هايي مطرح اند كه براي كار با اين نوع از موتورهاي جستجوگر مؤثرند. بعضي از اين نوع موتورهاي جستجوگر عبارتند از :
Google, Yahoo, MSN, AllTheWeb, Gigablast, WiseNut, Teoma
ب _ Directory يا فهرست
دايركتوري ها اطلاعات را در گروه هاي مختلف دسته بندي مي كنند. تفاوت اصلي دايركتوري با يك موتور جستجوگر در اين است كه دايركتوري اسپايدر ندارد. دارندگان سايت ها به دايركتوري مراجعه مي كنند، گروه مناسب براي سايت خود را در آن بر مي گزينند و سايت خود را به آن گروه معرفي مي كنند.
پس از آنكه اطلاعات سايت ها به گروه هاي مختلف ارسال شد، ويراستاران دايركتوري آن اطلاعات را بررسي مي كنند و در صورتي كه گروه درخواست شده، با زمينه فعاليت سايت معرفی شده يكي باشد و همچنين ساير قوانين دايركتوري نيز رعايت شده باشد، سايت را در گروه ياد شده مي پذيرند.
در صورتي كه كاربران استفاده درستي از گروه هاي دايركتوري بنمايند مي توانند اطلاعات مفيدي را به كمك آنها كسب كنند.
دايركتوري از وجود يک سايت مطلع نمي گردد مگر زماني كه آن سايت به دايركتوري معرفي شود. يكي از ايراداتي كه به دايركتوري ها وارد مي شود اين است كه سايت هاي مرده زيادي در خود دارند. به عبارت ديگر يك سايت بعد از آنكه در يکی از گروه های آن قرار گرفته، ديگر به فعاليت خود ادامه نداده است اما با اين حال هنوز هم دايركتوري آنرا به عنوان يك سايت فعال به كاربران معرفي مي كند.
البته دايركتوری هاي حرفه اي با استخدام ويراستاران خبره تلاش بسياري براي رفع اين نقص و نواقص مشابه مي نمايند. امكان دارد دايركتوري ها براي بررسي اين مورد از اسپايدرها هم كمك بگيرند. در اين مورد خاص، كار اسپايدر اين است كه بررسي كند كه آيا سايت هايي كه قبلا" در گروه ها قرار گرفته اند، هنوز هم فعال مي باشند؟ در مواردي هم امكان دارد كه اسپايدرها تغيير زمينه فعاليت سايت ها و يا فعال بودن پيوندهای درون صفحات سايت ها را بررسی کنند.
قرار گرفتن در پايگاه داده دايركتورهاي عمده، نقش مهمي در کسب رتبه های بالا در موتورهاي جستجوگر(نوع اول) دارد. دايركتوري هاي عمده عبارتند از : Yahoo, Look Smart , Dmoz
بعضی از ارايه دهندگان خدمات جستجو در واقع تلفيقی از هر دو گروه می باشند به عنوان مثال ياهو هم اسپايدر دارد و هم ويراستار، گوگل نيز از فهرست Dmoz در بخش فهرست خود کمک گرفته است.
اما زيرگروههايي برای دو گروه اصلی خدمات جستجو وجود دارد که هم از ديدگاه کاربران وب و هم از ديدگاه مديران سايتها حايز اهميت می باشند. اين خدمات جستجو عبارتند از:
• Meta Search Engineابر جستجوگر
• Pay Per Click Search Engineرتبه بازای پول
Meta Search Engine يا ابر جستجوگر
ابرجستجوگر از نتايج ساير موتورهاي جستجوگر استفاده مي كند. كار آن بدين صورت است كه سوال كاربر را همزمان به موتورهاي جستجوگر مختلفي ارسال می کند. پس از دريافت نتايج جستجوی آنها به بررسی نتايج دريافت شده می پردازد و در نهايت ترکيبی از رتبه هاي بالاي آنها را طبق الگوريتم خود بعنوان نتايج جستجو به کاربر نشان مي دهد. ابر جستجوگر اسپايدر و پايگاه داده ندارد. برخی از آنها عبارتند از:
Vivisimo, Mamma, IXQuick, WebCrawler, Kartoo, DogPile
Pay-per-Click Search engine يا موتورهای جستجوگر رتبه به ازای پول!
کار آنها بسيار شبيه يك مزايده است: با توجه به واژه كليدي انتخابي، براي بالاترين رتبه، بايد بالاترين قيمت نسبت به ساير متقاضيان پرداخت شود.
در واقع نحوه ارائه نتايج جستجو در PPC به اين ترتيب است كه اگر سايتي خواهان بالاترين رتبه (رده اول) در نتايج جستجوي آن می باشد، بايد بالاترين رقم به ازاي هركليك را نسبت به تمام رقبا بپردازد.
به عنوان مثال اگر سايتي مكان اول را براي عبارت Persian Carpet به قيمت 10 ريال خريده باشد، هر بار كه عبارت ياد شده جستجو گردد و بينندهاي با دنبال كردن پيوند ارائه شده در نتايج جستجو به سايت مورد نظر برود، دارندگان آن سايت بايد 10 ريال به موتور جستجوگر بپردازند. اگر 1000 بيننده اين كار را انجام دهند، آن گاه بايد 1000×10 ريال، پرداخته شود.
البته اين گونه نيست كه PPC فقط سايت هايي را ليست ميكند كه با آنها قرارداد تجاري بسته است. بلكه ابتدا كليه سايت هاي طرف قرارداد خود را براي عبارات مورد نظر آن سايت ها ليست ميكند و سپس سايت هاي ديگر را كه معمولا از پايگاه داده ساير موتورهاي جستجوگر است، ليست ميكند. نمونه ای از روش ارايه نتايج جستجوي اين نوع از موتورهاي جستجوگر را در شكل زیر نشان داده شده است
به عبارت های sponsored listing و additional listing توجه نماييد نام "موتورهای جستجوگر پولکی" به اين نوع از موتورهای جستجوگر داده می شود! در اين مورد ميتوان به Overture و Findwhat اشاره كرد.
فوايد آنها:
1. دارنده سايت تنها زماني پول مي پردازد كه واقعا" بيننده اي به سايت او بيايد.
2. سايت تقريبا" در عرض چند ساعت و يا حداكثر يك هفته در نتايج جستجو قرار مي گيرد و ديگر نيازي به چندين ماه انتظار نيست تا در نتايج جستجوي ساير موتورهای جستجوگر قرار گيرد که آن هم معلوم نيست دارای چه رتبه اي خواهند بود.
3. سايتی اگر بالاترين رتبه را مي خواهد، كافي است که بالاترين قيمت را بپردازد و ديگر نيازي به كاربرد تكنيك هاي رايج براي كسب رتبه های بالا نيست.
4. چون اينگونه سايتها معمولا به صورت شبکه ای از سايتها فعاليت می کنند، يک سايت با استفاده از سيستم آنها در نتايج جستجوی موتورهاي جستجوگر ديگر كه داراي شراكت تجاري با آنها هستند هم قرار می گيرد. به عنوان مثال اورچر، ياهو و آلتاويستا در يک شبکه هستند.
Specialty Search Engine يا موتورهای جستجوگر خاص
اين نوع از موتورهاي جستجوگر بر موضوعي خاص تمركز دارند و تنها سايت هاي مرتبط با آن موضوع را در پايگاه داده خود قرار مي دهند. به عنوان مثال يكي از آنها ممكن است تنها سايت هاي ايراني را بپذيرد و موضوع فعاليتش سايت هاي ايراني باشد.
اين موتورهاي جستجوگر اطلاعات تخصصيتري را ارائه ميدهند زيرا معمولا توسط افراد متخصص در آن زمينه اداره مي شوند. موتورهای جستجوگر منطقه ای و موضوعی به اين دسته تعلق دارند. در اين مورد مي توان به مواردی نظير: ChemicalSearch, IndustrySearch اشاره كرد..
انواع موتورهای جستجو
موتورهای جستجو به دو دسته کلی تقسيم میشوند. موتورهای جستجوی پيمايشی و فهرستهای تکميلدستی. هر کدام از آنها برای تکميل فهرست خود از روشهای متفاوتی استفاده میکنند :
موتورهای جستجوی پيمايشی
موتورهای جستجوی پيمايشی (Crawler-Based Search Engines) مانند گوگل فهرست خود را بصورت خودکار تشکيل میدهند. آنها وب را پيمايش کرده، اطلاعاتی را ذخیره میکنند، سپس کاربران از میان این اطلاعات ذخیره شده، آنچه را که میخواهند جستجو میکنند. اگر شما در صفحه وب خود تغييراتی را اعمال نماييد، موتورهای جستجوی پيمايشی آنها را به طور خودکار میيابند و سپس اين تغييرات در فهرستها اعمال خواهد شد. عنوان، متن و ديگر عناصر صفحه، همگی در این فهرست قرار خواهند گرفت.
فهرستهای تکميل دستی
فهرستهای تکميلدستی يا (Human-Powered Directories) مانند فهرست بازی (Open Directory) مانند Dmoz وابسته به کاربرانی است که آن را تکميل میکنند. شما صفحه مورد نظر را به همراه توضيحی كوتاه در فهرست ثبت میکنيد يا اين کار توسط ويراستارهايی که برای آن فهرست در نظر گرفته شده، انجام میشود. عمل جستجو در اين حالت تنها بر روی توضيحات ثبت شده صورت میگيرد و در صورت تغيير روی صفحه وب، روی فهرست تغييری به وجود نخواهد آورد. چيزهايی که برای بهبود يک فهرستبندی در يک موتور جستجو مفيد هستند، تأثيری بر بهبود فهرستبندی يک دايرکتوری ندارند. تنها استثناء اين است که يک سايت خوب با پايگاه دادهای با محتوای خوب شانس بيشتری به نسبت يک سايت با پايگاه داده ضعيف دارد. البته در مورد جستجوگرهای مشهور از جمله گوگل و یاهو، یک مولفه دیگر هم برای بهبود فهرستبندی وجود دارد که کمک مالی است، یعنی وبگاههایی که مایل به بهبود مکان وبگاه خود در فهرستبندی هستند، میتوانند با پرداخت پول به این جستجوگرها به هدف خویش برسند.
موتورهای جستجوی ترکيبی با نتايج مختلط
به موتورهايی اطلاق میشود که هر دو حالت را در کنار هم نمايش میدهند. غالباً، يک موتور جستجوی ترکيبی در صورت نمايش نتيجه جستجو از هر يک از دستههای فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار میدهد. مثلاً موتور جستجوی ام.اس.ان (MSN) بيشتر نتايج حاصل از فهرستهای تکميلدستی را نشان میدهد اما در کنار آن نيم نگاهی هم به نتايج حاصل از جستجوی پيمايشی دارد.
بررسی يک موتور جستجوی پيمايشی
موتورهای جستجوی پيمايشی شامل سه عنصر اصلی هستند. اولی در اصطلاح عنکبوت (Spider) است که پيمايشگر (Crawler) هم ناميده میشود. پيمايشگر همين که به يک صفحه میرسد، آن را میخواند و سپس پيوندهای آن به صفحات ديگر را دنبال مینمايد. اين چيزیست که برای يک سايت پيمايششده (Crawled) اتفاق افتاده است. پيمايشگر با يک روال منظم، مثلاً يک يا دو بار در ماه به سايت مراجعه میکند تا تغييرات موجود در آن را بيابد. هر چيزی که پيمايشگر بيابد به عنصر دوم يک موتور جستجو يعنی فهرست انتقال پيدا میکند. فهرست اغلب به کاتالوگی بزرگ اطلاق میشود که شامل ليستی از آنچه است که پيمايشگر يافته است. مانند کتاب عظيمی که فهرستی را از آنچه که پيمايشگرها از صفحات وب يافتهاند، شامل شده است. هرگاه سايتی دچار تغيير شود، اين فهرست نيز به روز خواهد شد. از زمانی که تغييری در صفحهای از سايت ايجاد شده تا هنگامی که آن تغيير در فهرست موتور جستجو ثبت شود مدت زمانی طول خواهد کشيد. پس ممکن است که يک سايت پيمايششده باشد اما فهرستشده نباشد. تا زمانی که اين فهرستبندی برای آن تغيير ثبت نشده باشد، نمیتوان انتظار داشت که در نتايج جستجو آن تغيير را ببينيم. نرمافزار موتور جستجو، سومين عنصر يک موتور جستجو است و به برنامهای اطلاق میشود که به صورت هوشمندانهای دادههای موجود در فهرست را دستهبندی کرده و آنها را بر اساس اهميت طبقهبندی میکند تا نتيجه جستجو با کلمههای درخواست شده هر چه بيشتر منطبق و مربوط باشد.
رتبهبندی صفحات وب توسط موتورهای جستجو
وقتی شما از موتورهای جستجوی پيمايشی چيزی را برای جستجو درخواست مینماييد، تقريباً بلافاصله اين جستجو از ميان ميليونها صفحه صورت گرفته و مرتب میشود بطوريکه مربوطترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتری را احراز نمايد. البته بايد در نظر داشته باشيد که موتورهای جستجو همواره نتايج درستی را به شما ارائه نخواهند داد و مسلماً صفحات نامربوطی را هم در نتيجه جستجو دريافت میکنيد و گاهی اوقات مجبور هستيد که جستجوی دقيقتری را برای آنچه که میخواهيد انجام دهيد اما موتورهای جستجو کار حيرتانگيز ديگری نيز انجام میدهند. فرض کنيد که شما به يک کتابدار مراجعه میکنيد و از وی درباره «سفر» کتابی میخواهيد. او برای اين که جواب درستی به شما بدهد و کتاب مفيدی را به شما ارائه نمايد با پرسيدن سؤالاتی از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحويل خواهد داد. موتورهای جستجو همچنين توانايی ندارند اما به نوعی آنها را شبيهسازی میکنند. پس موتورهای جستجوی پيمايشی چگونه به پاسخ مورد نظرتان از ميان ميليونها صفحه وب میرسند؟ آنها يک مجموعه از قوانين را دارند که الگوريتم ناميده میشود. الگوريتمهای مورد نظر برای هر موتور جستجويی خاص و تقريباً سری هستند اما به هر حال از قوانين زير پيروی میکنند:
مکان و بسامد
يکی از قوانين اصلی در الگوريتمهای رتبهبندی موقعيت و بسامد (تعداد تکرار) واژههایی است که در صفحه مورد استفاده قرار گرفتهاند که بطور خلاصه روش مکان-بسامد (Location/Frequency Methode) ناميده میشود. کتابدار مذکور را به خاطر میآورِد؟ لازم است که او کتابهای در رابطه با واژه «سفر» را طبق درخواست شما بيابد. او در وحله اول احساس میکند که شما به دنبال کتابهايی هستيد که در نامشان کلمه «سفر» را شامل شوند. موتورهای جستجو هم دقيقاً همان کار را انجام میدهند. آنها هم صفحاتی را برايتان فهرست میکنند که در برچسب عنوان (Title) موجود در کد زبان نشانهگذاری اَبَرمتنی (زنگام) (HTML) حاوی واژه «سفر» باشند. موتورهای جستجو همچنين به دنبال واژه مورد نظر در بالای صفحات و يا در آغاز بندها (پاراگرافها) هستند. آنها فرض میکنند که صفحاتی که حاوی آن واژه در بالای خود و يا در آغاز بندها و عناوين باشند به نتيجه مورد نظر شما مربوطتر هستند. بسامد عامل بزرگ و مهم ديگری است که موتورهای جستجو از طريق آن صفحات مربوط را شناسايی مینمايند. موتورهای جستجو صفحات را تجزيه کرده و با توجه به تکرار واژهای در صفحه متوجه میشوند که آن واژه نسبت به ديگر واژهها اهميت بيشتری در آن صفحه دارد و آن صفحه را در درجه بالاتری نسبت به صفحات ديگر قرار میدهند.
چگونگی کارکرد دقيق موتورهای جستجو درباره روشهايی از قبيل مکان-تکرار فاش نمیشود و هر موتور جستجويی روش خود را دنبال میکند. به همين دليل است که وقتی شما واژههای همانندی را در موتورهای متفاوت جستجو میکنيد، به نتايج متفاوتی میرسيد. برخی موتورهای جستجو نسبت به برخی ديگر صفحات بيشتری را فهرست کردهاند. نتيجه اين خواهد شد که هيچ موتور جستجويی نتيجه جستجوی مشترکی با موتور ديگر نخواهد داشت و شما نتايج متفاوتی را از آنها دريافت میکنيد. موتورهای جستجو همچنين ممکن است که برخي از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با هرزنامه (Spam) شدن سعی در گول زدن موتورهای جستجو داشته باشند. فرستادن هرزنامه (Spamming) روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهای جستجو در پيش میگيرند و آن به اين صورت است که با تکرار بيش از حد واژهها بطور عمدی كوشش در بر هم زدن تعادل و در نتيجه فريب موتورهای جستجو دارند. آنها سعی دارند که با افزايش عامل تکرار، در رتبه بالاتری قرار بگيرند. موتورهای جستجو راههای متنوعی برای جلوگيری از فرستادن هرزنامه دارند و در اين راه از گزارشهای کاربران خود نيز بهره میبرند.
عوامل خارج از صفحه
موتورهای جستجوی پيمايشی اکنون تجربه فراوانی در رابطه با وبدارهايی دارند که صفحات خود را برای کسب رتبه بهتر مرتباً بازنويسی میکنند. بعضی از وبدارها (وبمسترها)ی خبره حتی ممکن است به سمت روشهايی مانند مهندسی معکوس برای کشف چگونگی روشهای مکان-تکرار بروند. به همين دليل، تمامی موتورهای جستجوی معروف از روشهای امتيازبندی «خارج از صفحه» استفاده میکنند. عوامل خارج از صفحه عواملی هستند که از تيررس وبدارها خارجند و آنها نمیتوانند در آن دخالت کنند و مسأله مهم در آن تحليل ارتباطات و پيوندهاست. به وسيله تجزيه صفحات، موتورهای جستجو پيوندها را بررسی کرده و از محبوبيت آنها میفهمند که آن صفحات مهم بوده و شايسته ترفيع رتبه هستند. به علاوه تکنيکهای پيشرفته به گونهای است که از ايجاد پيوندهای مصنوعی توسط وبدارها برای فريب موتورهای جستجو جلوگيری مینمايد. علاوه بر آن موتورهای جستجو بررسی میکنند که کدام صفحه توسط يک کاربر که واژهای را جستجو کرده انتخاب میشود و سپس با توجه به تعداد انتخابها، رتبه صفحه مورد نظر را تعيين کرده و مقام آن را در نتيجه جستجو جابهجا مینمايند.
موتور جستجوگر چگونه کار می کند؟
وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه مي شود، كاربران در واقع نتيجه كار بخش هاي متفاوت موتور جستجوگر را مي بينند. موتور جستجوگر قبلا" پايگاه داده اش را آماده كرده است و اين گونه نيست كه درست در همان لحظه جستجو، تمام وب را بگردد. بسياري از خود مي پرسند كه چگونه امكان دارد گوگل در كمتر از يك ثانيه تمام سايت های وب را بگردد و ميليون ها صفحه را در نتايج جستجوی خود ارايه كند؟
نه گوگل و نه هيچ موتور جستجوگر ديگري توانايي انجام اين كار را ندارند. همه آنها در زمان پاسخ گويي به كاربران، تنها در پايگاه داده اي كه در اختيار دارند به جستجو مي پردازند و نه در وب!
موتور جستجوگر به كمك بخش های متفاوت خود، اطلاعات مورد نياز را قبلا" جمع آوري، تجزيه و تحليل مي كند و آنرا در پايگاه داده اش ذخيره مي نمايد و به هنگام جستجوی کاربر تنها در همين پايگاه داده می گردد.
بخش هاي مجزاي يك موتور جستجوگر عبارتند از:
• Spider يا عنکبوت
• Crawler يا خزنده
• Indexer يا بايگانی کننده
• Database يا پايگاه داده
• Ranker يا سيستم رتبه بندی
الف Spider- (عنکبوت)
اسپايدر يا روبوت (Robot)، نرم افزاري است كه كار جمع آوري اطلاعات مورد نياز يك موتور جستجوگر را بر عهده دارد. اسپايدر به صفحات مختلف سر مي زند، محتواي آنها را مي خواند، اطلاعات مورد نياز را جمع آوري مي كند و آنرا در اختيار ساير بخش هاي موتور جستجوگر قرار مي دهد.
كار يك اسپايدر، بسيار شبيه كار كاربران وب است. همانطور كه كاربران، صفحات مختلف را بازديد مي كنند، اسپايدر هم درست اين كار را انجام مي دهد با اين تفاوت كه اسپايدر كدهاي HTML صفحات را مي بيند اما كاربران نتيجه حاصل از كنار هم قرار گرفتن اين كدها را.
Index.html صفحه اي است كه كاربران آنرا به صورت شكل (1) مي بينند:
اما يک اسپايدر آنرا چگونه می بيند؟
براي اين كه شما هم بتوانيد دنياي وب را از ديدگاه يك اسپايدر ببينيد، كافي است كه كدهاي HTML صفحات را مشاهده کنيد. براي اين كار در مرورگر مورد استفاده خود، مسير نشان داده شده در شكل (2) دنبال کنيد.
با انجام اين کار فايل متنی شكل (3) به شما نشان داده می شود:
آيا اين دنياي متني برای شما جذاب است؟
اسپايدر، به هنگام مشاهده صفحات، از خود بر روي سرورها رد پا برجای مي گذارد. شما اگر اجازه دسترسي به آمار ديد و بازديدهاي صورت گرفته از يک سايت و اتفاقات انجام شده در آنرا داشته باشيد، مي توانيد مشخص كنيد كه اسپايدر كدام يک از موتورهاي جستجوگر صفحات سايت را مورد بازديد قرار داده اند.
يکی از فعاليتهاي اصلی که در SEM انجام می شود تحليل آمار همين ديد و بازديدها می باشد.
اسپايدرها كاربردهاي ديگري نيز دارند، به عنوان مثال عده اي از آنها به سايت هاي مختلف مراجعه مي كنند و فقط به بررسي فعال بودن لينك هاي آنها مي پردازند و يا به دنبال آدرس پست الكترونيكي (Email) مي گردند.
ب- Crawler (خزنده
كراولر، نرم افزاري است كه به عنوان يك فرمانده براي اسپايدر عمل مي كند. آن مشخص مي كند که اسپايدر كدام صفحات را مورد بازديد قرار دهد. در واقع کراولر تصميم مي گيرد كه كدام يك از لينك های صفحه ای كه اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند، بعضي ها را دنبال كند و يا هيچ كدام را دنبال نكند.
کراولر، ممكن است قبلا" برنامه ريزي شده باشد که آدرس های خاصی را طبق برنامه، در اختيار اسپايدر قرار دهد تا از آنها ديدن کند. دنبال كردن لينك های يک صفحه به اين بستگي دارد كه موتور جستجوگر چه حجمي از اطلاعات يک سايت را مي تواند در پايگاه داده اش ذخيره كند و همچنين ممكن است اجازه دسترسي به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد.
شما به عنوان دارنده سايت، همان طور كه دوست داريد موتورهاي جستجوگر اطلاعات سايت شما را با خود ببرند، مي توانيد آنها را از بعضي از صفحات سايت تان دور كنيد و اجازه دسترسي به محتواي آن صفحات را به آنها ندهيد. تنظيم ميزان دسترسي موتورهاي جستجوگر به محتوای يک سايت توسط پروتكل Robots انجام مي شود كه در مقالات دیگر سایت به آن پرداخته شده است. به عمل کراولر ، خزش (Crawling) مي گويند.
ج- Indexer (بايگانی كننده
تمام اطلاعات جمع آورش شده توسط اسپايدر در اختيار ايندکسر قرار مي گيرد. در اين بخش اطلاعات ارسالي مورد تجزيه و تحليل قرار مي گيرند و به بخش هاي متفاوتي تقسيم مي شوند. تجزيه و تحليل بدين معني است كه مشخص می شود اطلاعات از كدام صفحه ارسال شده است، چه حجمي دارد، كلمات موجود در آن كدام است، کلمات چندبار تكرار شده است، كلمات در كجاي صفحه قرار دارند و ... .
در حقيقت ايندکسر، صفحه را به پارامترهای آن خرد می کند و تمام اين پارامترها را به يک مقياس عددی تبديل می کند تا سيستم رتبه بندي بتواند پارامترهای صفحات مختلف را با هم مقايسه کند.
در زمان تجزيه و تحليل اطلاعات، ايندکسر براي كاهش حجم داده ها از بعضي كلمات كه بسيار رايج هستند صرفنظر مي کند. كلماتي نظير a ، an ، the ، www ، is و ... . از اين گونه كلمات هستند.
د - DataBase (پايگاه داده)
تمام داده هاي تجزيه و تحليل شده در ايندکسر، به پايگاه داده ارسال مي گردد. در اين بخش داده ها گروه بندي، كدگذاري و ذخيره مي شود. همچنين داده ها قبل از آنكه ذخيره شوند، طبق تکنيکهای خاصی فشرده مي شوند تا حجم كمي ُُاز پايگاه داده را اشغال كنند.
يك موتور جستجوگر بايد پايگاده داده عظيمي داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قديمي را هم به روز رسانی نمايد. بزرگي و به روز بودن پايگاه داده يك موتور جستجوگر براي آن امتياز محسوب مي گردد. يكي از تفاوتهاي اصلي موتورهاي جستجوگر در حجم پايگاه داده آنها و همچنين روش ذخيره سازي داده ها در پايگاه داده است.
در شكل (4) حجم پايگاه داده چند موتور جستجوگر با هم مقايسه شده است.
شكل 4- مقايسه حجم پايگاه داده چند موتور جستجوگر در دسامبر 2001
GG= Google, AV= Altavista, Fast= AllTheWeb
INK= Inktomi, NL= NorthernLight
منبع: www.searchenginewatch.com
و- Ranker (سيستم رتبه بندی بعد از آنكه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گويي به سوالات كاربران است. كاربران چند كلمه را در جعبه جستجوي (Search Box) آن وارد مي كنند و سپس با فشردن Enter منتظر پــاسخ مي مانند.
برای پاسخگويي به درخواست کاربر، ابتدا تمام صفحات موجود در پايگاه داده كه به موضوع جستجو شده، مرتبط هستند، مشخص مي شوند. پس از آن سيستم رتبه بندي وارد عمل شده، آنها را از بيشترين ارتباط تا كمترين ارتباط مرتب مي كند و به عنوان نتايج جستجو به كاربر نمايش می دهد.
حتي اگر موتور جستجوگر بهترين و كامل ترين پايگاه داده را داشته باشد اما نتواند پاسخ هاي مرتبطي را ارايه كند، يك موتور جستجوگر ضعيف خواهد بود. در حقيقت سيستم رتبه بندي قلب تپنده يك موتور جستجوگر است و تفاوت اصلي موتورهاي جستجوگر در اين بخش قرار دارد.
سيستم رتبه بندي براي پاسخ گويي به سوالات كاربران، پارامترهاي بسياري را در نظر مي گيرد تا بتواند بهترين پاسخ ها را در اختيار آنها قرار دارد. حرفه اي هاي دنياي SEM به طور خلاصه از آن به Algo ( الگوريتم) ياد مي كنند.
الگوريتم، مجموعه اي از دستورالعمل ها است كه موتور جستجوگر با اعمال آنها بر پارامترهاي صفحات موجود در پايگاه داده اش، تصميم مي گيرد که صفحات مرتبط را چگونه در نتايج جستجو مرتب كند. در حال حاضر قدرتمندترين سيستم رتبه بندي را گوگل در اختيار دارد.
ُمي توان با ادغام کردن اسپايدر با کراولر و همچنين ايندکسر با پايگاه داده، موتور جستجوگر را شامل سه بخش زير دانست که اين گونه تقسيم بندی هم درست می باشد:
• کراولر
• بايگانی
• سيستم رتبه بندی
تذکر- برای سهولت در بيان مطالب بعدی هر گاه صحبت از بايگانی کردن (شدن) به ميان می آيد، مقصود اين است که صفحه تجزيه و تحليل شده و به پايگاه داده موتور جستجوگر وارد مي شود.
براي آنكه تصور درستي از نحوه كار يك موتور جستجوگر داشته باشيد داستان نامتعارف زير را با هم بررسي مي كنيم.
داستان ما يک شکارچی دارد. او تصميم به شكار می گيرد:
- کار کراولر:
او قصد دارد براي شكار به منطقه حفاظت شده ابيورد، واقع در شهرستان درگز (شمالی ترين شهر خراسان بزرگ) برود.
- پروتكل Robots :
ابتدا تمام محدوديت هاي موجود براي شكار در اين منطقه را بررسي مي كند:
• آيا در اين منطقه می توان به شکار پرداخت؟
• کدام حيوانات را می توان شکار کرد؟
• حداکثر تعداد شکار چه ميزانی است؟
• و ... .
فرض می کنيم او مجوز شكار يک اوريال (نوعي آهو) را از شكارباني منطقه دريافت مي كند.
- کار اسپايدر
او اوريالي رعنا را شكار مي كند و سپس آنرا با خود به منزل می برد.
- کار ايندکسر
شكار را تكه تكه كرده، گوشت، استخوان، دل و قلوه، كله پاچه و ... آنرا بسته بندي مي كند و بخش های زايد شکار را دور می ريزد.
- کار پايگاه داده
بسته هاي حاصل را درون فريزر قرار داده، ذخيره می کند.
- کار سيستم رتبه بندی
مهمانان سراغ او مي آيند و همسر او بسته به ذائقه مهمانان براي آنها غذا طبخ مي كند. ممكن است عده اي كله پاچه، عده اي آبگوشت، عده اي جگر و ... دوست داشته باشند. پخت غذا طبق سليقه مهمانان کار سختی است. ممكن است همه آنها آبگوشت بخواهند اما آنها مسلما" بامزه ترين آبگوشت را مي خواهند!
نکته ها:
• شکارچی می توانست برای شکار کبک يا اوريال و يا هر دو به آن منطقه برود همانطور که موتور جستجوگر می تواند از سرور سايت شما انواع فايل (عکس، فايل متنی، فايل اجرايي و ...) درخواست کند.
• غذای خوشمزه را می توانيد با نتايج جستجوی دقيق و مرتبط مقايسه کنيد. اگر شکارچی بهترين شکار را با خود به منزل ببرد اما غذايي خوشمزه و مطابق سليقه مهمانان طبخ نگردد، تمام زحمات هدر رفته است.
• به عنوان آخرين نکته اين مقاله ياد آوری می کنم که به شکار اوريالی رعنا آن هم در منطقه حفاظت شده ابيورد، اصلا فکر نکنيد. اما توصيه می شود که حتما از طبيعت بکر آن ديدن فرماييد .