بخشی از پاورپوینت

اسلاید 1 :

تعريف الگوريتم موتور جستجو

الگوريتم نيز مجموعه اي از دستورالعمل ها است كه موتور جستجوگر به كمك آن تصميم ميگيرد كه سايت ها را چگونه در خروجي هايش مرتب كند.
 موتور جستجوگر براي رده بندي صفحات وب از الگوريتم خاصي استفاده ميكند كه فوق العاده سري ميباشد
براي اينكه سايت ها با هم مقايسه شوند و بر حسب ميزان ارتباط با موضوع جستجو شده، مرتب شوند، موتور جستجوگر، الگوريتم را بر مجموعهاي از پارامترها اعمال ميكند. پارامترهاي مورد توجه موتور جستجوگر نيز همانند الگوريتم آنها ناشناخته ميباشد و اين ناشناخته ها جذابيت دنياي موتورهاي جستجوگر را دوچندان ميكنند.
اگر عبارت يكساني در تمام موتورهاي جستجوگر، جستجو شود هيچ كدام از آنها نتايج يكساني را ارائه نميدهند و با نتايج كاملا متفاوتي روبرو ميشويم. تفاوت در ارائه نتايج جستجو در موتورهاي جستجوگر از تفاوت آنها در الگوريتمها و پايگاه دادهشان ناشي ميشود. حتي اگر همه آنها از پايگاه داده يكساني نيز استفاده كنند، بازهم نتايج جستجويشان متفاوت خواهد بود.

اسلاید 2 :

تعريف موتور جستجو

  • موتور جستجو یا جویشگر یا جستجوگر به طور عمومی به برنامه‌ای گفته می‌شود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو می‌کند. در اینترنت به برنامه‌ای گفته می‌شود که کلمات کلیدی موجود در فایلها و سندهای وب جهانی، گروههای خبری،و آرشیوهای FTP را جستجو می‌کند.
  • برخی از موتورهای جستجو برای تنها یک وب‌گاه(پایگاه وب) اینترنت به کار برده می‌شوند و در اصل موتور جستجویی اختصاصی آن وب‌گاه هستند و تنها محتویات همان وب‌گاه را جستجو می‌کنند.
  • برخی دیگر نیز محتویات وب‌گاههای زیادی را پیمایش کرده و چکیده‌ای از آن را در یک پایگاه اطلاعاتی به شکل شاخص‌گذاری‌شده نگهداری می‌کنند. کاربران سپس می‌توانند با جستجو کردن در این پایگاه داده به پایگاه وبی که اطلاعات موردنظر آنها را در خود دارد پی ببرند.

اسلاید 3 :

انواع موتور هاي جستجو

  • موتورهای جستجو به دو دسته کلی تقسیم می‌شوند.

     1- موتور هاي جستجوي پيمايشي ( خودكار )

اين نوع موتور ها وب را پیمایش کرده، اطلاعاتی را ذخیره می‌کنند، سپس کاربران از میان این اطلاعات ذخیره شده، آنچه را که می‌خواهند جستجو می‌کنند.

     2- موتور هاي جستجوي تكميل دستي ( غير خودكار ) يا دايركتوريها

  • وابسته به كاربراني است كه آنرا تكميل مي كنند.
  • دارندگان سايت ها به دايركتوري مراجعه مي كنند، گروه مناسب براي سايت خود را در آن بر مي گزينند و سايت خود را به آن گروه معرفي مي كنند.
  • پس از آنكه اطلاعات سايت ها به گروه هاي مختلف ارسال شد، ويراستاران دايركتوري آن اطلاعات را بررسي مي كنند. در صورتي كه گروه درخواست شده، با زمينه فعاليت سايت معرفی شده يكي باشد و همچنين ساير قوانين دايركتوري نيز رعايت شده باشد، سايت معرفی شده را در گروه ياد شده مي پذيرند و در غير اين صورت از قبول آن امتناع مي كنند.
  • در صورتي كه كاربران استفاده درستي از گروه هاي دايركتوري بنمايند مي توانند اطلاعات مفيدي را به كمك آنها كسب كنند.
  • دايركتوري از وجود يک سايت مطلع نمي گردد مگر زماني كه آن سايت به دايركتوري معرفي شود تا در يكي از گروه هاي آن قرار گيرد.
  • تفاوت اصلي دايركتوري با يك موتور جستجوگر در اين است كه دايركتوري نرم افزار اسپايدر ندارد .
  • يكي از ايراداتي كه به دايركتوري ها وارد مي شود اين است كه سايت هاي مرده زيادي در خود دارند. به عبارت ديگر يك سايت بعد از آنكه به آن معرفي شده است ديگر به فعاليت خود ادامه نداده است اما با اين حال هنوز هم دايركتوري آنرا به عنوان يك سايت فعال به كاربران معرفي مي كند.
  • قرار گرفتن در پايگاه داده دايركتورهاي عمده، نقش مهمي در  کسب رتبه های بالا در موتورهاي جستجوگر (نوع اول) دارد. دايركتوري هاي عمده عبارتند از : Yahoo, Look Smart , Dmoz

اسلاید 4 :

3-  موتورهای جستجوی ترکیبی با نتایج مختلط

  • به موتورهایی گفته می‌شود که هر دو حالت را در کنار هم نمایش می‌دهند. غالباً، یک موتور جستجوی ترکیبی در صورت نمایش نتیجه جستجو از هر یک از دسته‌های فوق، نتایج حاصل از دسته دیگر را هم مورد توجه قرار می‌دهد. مثلاً موتور جستجوی MSN بیشتر نتایج حاصل از فهرست‌های تکمیل‌دستی را نشان می‌دهد اما در کنار آن نیم نگاهی هم به نتایج حاصل از جستجوی پیمایشی دارد.

4- ابر جستجوگرها

این گونه جدید از موتورهای جستجوگر که قدمت چندانی نیز ندارند، بصورت همزمان از چندین موتورجستجوگر برای کاوش در شبکه برای کلید واژه مورد نظر استفاده می کنند .بدین معنی که این موتور عبارت مورد نظر شما را در چندین موتورجستجوگر ‍ِ جستجو کرده و نتایج آنها را با هم ترکیب کرده و یک نتیجه کلی به شما ارائه می‌دهد.

مانند موتور داگ پايل از نتايج موتورهاي MSN-yahoo-google-Ask . يا MetaCrawler, DogPile, IXQuick, Mamma

 

اسلاید 5 :

مقدمه

  • امروزه بر روی اينترنت صدها ميليون صفحه حاوی اطلاعات وجود دارد. کاربران اينترنت با آگاهی از آدرس يک سايت ، قادر به اتصال به سايت مورد نظر و استفاده از منابع اطلاعاتی موجود بر روی سايت خواهند بود. كاربر با دريائی از اطلاعات مواجه است، در صورتيکه قصد يافتن اطلاعاتی خاص را داشته باشد، برای جستجو و يافتن اطلاعات مورد نياز از مراکز جستجوی اطلاعات در اينترنت استفاده می گردد . به مراکز فوق Search engines نيز گفته می شود .
  • مراکز جستجو در اينترنت ، نوع خاصی از سايت های موجود در وب بوده که با هدف کمک برای يافتن اطلاعات ، ايجاد شده اند. مراکز جستجو در اينترنت به منظور پاسخگوئی به کاربران متقاضی و جستجوکنندگان اطلاعات با يکديگر مشابه بوده و تنها تفاوت موجود ميدان انتخاب شده برای عمليات جستجو است . 
  • مراکز جستجو در اينترنت ، صرفا" اطلاعات مربوط به چندين هزار صفحه وب را ايندکس و روزانه دو تا سه هزار کاربر متقاضی به آنها مراجعه می كنند.

اسلاید 6 :

بررسي يك موتور پيمايشي 

بخش هاي مجزاي يك موتور جستجو گر عبارتند از :

  • Spider يا عنكبوت
  • Crawler يا خزنده
  • Indexer يا بايگاني كننده
  • Database يا پايگاه داده
  • Ranker يا سيستم رتبه بندي

اسلاید 7 :

  • نرم افزاري است كه كار جمع آوري اطلاعات مورد نياز يك موتور جستجو گر را برعهده دارد .
  • كار اين نرم افزار شبيه كار كاربران وب است .
  • اسپايدر به هنگام مشاهده صفحات از خود بر روي سرورها رد پا بر جا مي گذارد .
  • اسپايدرها كاربردهاي ديگر نيز دارند ، مثلا عده اي از آنها به سايت ها مراجعه و فقط به بررسي لينك هاي آنان مي پردازد و يا به دنبال آدرس پست الكترونيكي مي گردند .
  • Google كه يکی از مراکز جستجوی معتبر است . از چندين Spider ( معمولا" سه Spider در هر لحظه ) برای ايجاد مقادير اوليه برای سيستم ، استفاده می كند . هر Spider قادر به نگهداری ارتباط خود با بيش از 300 صفحه وب در يک لحظه است . با استفاده از چهار spider ، سيستم فوق قادر به جستجوی 100 صفحه در ثانيه و توليد 600 کيلوبايت اطلاعات در هر ثانيه است . اطلاعات مورد نياز هر يک از spider ها می بايست بسرعت در اختيار آنان گذاشته شود. سيستم اوليه Google ، دارای يک سرويس دهنده اختصاصی به منظور تغذيه آدرس های URL مورد نياز برای هر يک از Spider ها بود.

اسلاید 8 :

  • كراولر نرم افزاري است كه به عنوان يك فرمانده براي اسپايدر عمل مي كند ، آن مشخص مي كند كه اسپايدر كدام صفحات را مورد بازديد قرار دهد .
  • كراولر ممكن است از قبل برنامه ريزي شده باشد كه آدرس هاي خاصي را طبق برنامه در اختيار اسپايدر قراردهد تا از انها ديدن كند .
  • به عمل كراولر خزش ( Crawling ) مي گويند .

اسلاید 9 :

  • تمام اطلاعات جمع آوري شده در اختيار ايندكسر قرار مي گيرد.
  • اطلاعات مورد تجزيه و تحليل قرار مي گيرد و به بخش هاي متفاوت تقسيم مي شوند .
  • ايندكسر صفحه را به پارامترهاي آن خرد مي كند .
  • ايندكسر براي كاهش حجم داده ها از بعضي كلمات رايج مانند a,the,www,,is,.. صرف نظر مي كند .

اسلاید 10 :

  • تمام داده هاي تجزيه و تحليل شده در ايندكسر به پايگاه داده ارسال مي گردد .
  • يك موتور جستجو بايد پايگاه داده عظيمي داشته باشد و به طور مداوم حجم محتواي آنرا گسترش دهد و اطلاعات قديمي را بروز رساني نمايد .
  • پايگاه داده از امتيازات يك موتور جستجو گر است .
  • از تفاوتهاي اصلي موتورهاي جستجو گر حجم پايگاه داده و همچنين روش ذخيره سازي داده ها در پايگاه داده است .
در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید