بخشی از مقاله
چکیده
موتورهای جستجو امروزه از مهمترین سامانههایی هستند که افراد زیادی با آنها سروکار دارند و روزانه بارها و بارها از موتورهای جستجوی مختلف برای دسترسی به اطلاعات استفاده میکنند. اما اینکه در پشت پرده موترهای جستجو چه میگذرد و از چه پایگاه دادههایی برای نگهداری این حجم از اطلاعات استفاده میکنند و حتی مواقعی با اشتباهات املایی در جستجو میتوانند موضوع را تشخیص دهند و چگونه بهسرعت بسیار و در کسری از ثانیه اطلاعات مربوطه را برای ما به نمایش میگذارند ازجمله مهمترین مسائلی هستند که در این مقاله به آنها اشاره خواهیم کرد.
واژگان کلیدی: موتورهای جستجو، pagerank، خزش گر، نمایهسازی
-1 مقدمه
از سامانههایی که با دادههای عظیم سروکار دارند موتورهای جستجوی میباشند. بر اساس آمارهای منتشره، موتورهای جستجوی بین المللی میلیاردها صفحه را تحت پوشش قرار داده و چندین میلیارد پرسوجو در روز دریافت میکنند. بهعنوانمثال موتور جستجوی ایرانی پارسی جو قادر است تا دو میلیارد سند را خزش نماید که فضای موردنیاز برای نگهداری دادههای جمعآوریشده با سربار اطلاعاتی آنها، به بیش از 40 ترابایت بالغ میگردد. تعداد اتصالات موجود در گراف وب که لازم است جهت رتبه بندی پردازش شوند به بیش از ده میلیارد اتصال می رسد و تعداد عبارتهایی که می بایست برای نمایهسازی و پاسخ به پرسوجوی کاربران مورداستفاده قرار بگیرند، به بیش از پانصد میلیون عبارت رسیده است.
طبیعی است که برای پردازش این حجم بزرگ از داده با چالشهای جدیدی مواجه خواهیم بود و راهکارهای سنتی جوابگو نخواهند بود. حال ساختار موتورهای جستجو را بررسی کرده و راهکاری استفاده شده برای مدیریت داده های عظیم ارائه خواهد شد. در حال حاضر، موتورهای جستجو به عنوان مهمترین ابزارهای جستجو در وب مورداستفاده قرار میگیرند. با توجه به رشد روزافزون اطلاعات و محتوای موجود در وب و همچنین تغییرات زیاد در اطلاعات موجود، موتورهای جستجو نقش مهمی در بازیابی اطلاعات از اینترنت ایفاء مینمایند. قابلذکر است که حدود 80 درصد از افراد از طریق موتورهای جستجو به سایتها و اطلاعات موردنظرشان دسترسی پیدا میکنند. موتورهای جستجو به گوگل خلاصه نمیشود؛ یاهو، بینگ، Askو... ازجمله مشهورترین موتورهای جستجوگر هستند که روزانه بارها و بارها انواع کلمات و عبارات در آنها جستجو میشود.
مدل دیگری از موتورهای جستجو که با عنوان موتورهای جستجوی بومی شناخته میشوند، نیز در چند سال اخیر بهشدت مورد استقبال قرارگرفتهاند که از میان آنها، میتوان به جستجوگر بایدو در چین،سزنَم در جمهوری چک و نیور کره جنوبی اشاره کرد. جستجوگرهای بومی با توجه به دانش زیاد خود از فرهنگ و رفتار مردم منطقه و کشور خود، با سرویسهای متنوع و بهینهسازیهای لازم، قدرت بیشتری در ارائه قابلیتهای متنوع و موردنیاز کاربران بومی خوددارند. در ایران نیز پارسی جو ازجمله جستجوگرهای بومی موفق به شمار میرود.
همچنین موتور جستجوی ایرانی دیگری تحت عنوان "یوز" به راه افتاده است که برای پاسخدهی به کاربران از هیچ موتور جستجوی دیگری استفاده نمیکند. یوز تاکنون توانسته است بیش از یک میلیارد صفحه را پوشش دهد و احاطه گستردهای بر وب فارسی داشته باشد. یوز همچنین دارای خدمات جستجوی خبر، وبلاگ و عکس می باشد. از تعداد صفحات قابل جستجو میتوان به چندین میلیارد صفحه خزش شده و از میان آنها یک میلیارد صفحه منحصربه فرد نمایه گذاری شده اشاره کرد که تعداد صفحات نمایه گذاری شده به صورت مداوم در حال افزایش است. این موتور با تلاش نیروی های متخصص داخلی و فارغالتحصیلان نخبه دانشگاههای کشور طراحیشده است. در حال حاضر محققانی از دانشگاههای شریف، تهران، امیرکبیر، شهید بهشتی، علم و صنعت، و تربیت مدرس در پروژه یوز فعالیت دارند. سرورهای این موتور جستجوگر در داخل کشور میباشد و این وبگاه یک نمونه عملیاتی و در حال فعالیت و ارتقا میباشد. در ادامه به جنبههای مختلف پردازش دادههای حجیم در موتورهای جستجو میپردازیم.
-2 معماری موتورهای جستجو
بهصورت کلی یک موتور جستجو از سه قسمت اصلی خزش گر - Crawler - ، نمایهساز - Indexer - و بازیابی یا جستجوگر و واحد رتبهبندی - Ranking Module - تشکیلشده است. همانطور که در شکل 1 میبینید خزش گرها اطلاعات را از سطح وب جمعآوری میکنند و آنها را در مخزن دادههای عظیم ذخیره میکنند. سپس این اطلاعات توسط بخش نمایهساز بر اساس ساختار، متن و ... پردازششده و نمایه میشوند و سپس نتایج حاصل رتبهبندی و در اختیار کاربر قرار میگیرند. رشد نمایی و حجم زیاد اطلاعات وب باعث شده است تا نمایهسازی، رتبهبندی و خزش در وب، به مهمترین چالشیهای این حوزه تبدیل شوند.
- 1-2 خزش گر
این واحد که خزش گر نام دارد، محتوای تمام صفحات پیمایش شده - HTML/XML/DOC/PDF/PPT/… - را در یک مخزن بزرگ بهصورت فشرده، ذخیره میکند. بعد از اتمام عمل پیمایش علاوه برای داشتن تمام اسناد موجود در وب، ارتباط بین صفحات را نشان میدهد. در حال حاضر الگوریتمهای مختلفی برای خزش وب ارائهشده است. از الگوریتمهای مهم خزش میتوان تعداد پیوندهای ورودی، FICA, OPICو ... را نام برد. OPIC الگوریتمی است که بر روی خط، و استفاده از منابع بسیار کمتر کار میکند. بنابراین تمرکز آن بر روی صفحات خاص و جالب میباشد. یک نوع از این الگوریتم در حال حاضر توسط Xyleme استفاده میشود.
بهصورت کلی میتوان گفت خزش گر رباتی که بهصورت نرمافزاری پیادهسازی میشود البته برای اینکه عملکرد خوبی داشته باشد باید از هوشمندی بالایی برخوردار باشد. وظیفه اصلی این نرم افزار بسیار پیشرفته و هوشمند ورود به فضای اینترنت از یک یا چند نقطه و جمعآوری دادههای موجود در این فضا هست که البته این دادهها بیشتر صفحات وب است.
-1-1-2 معرفی برترین خزش گر های تحت وب، برای دادهکاوی
استفاده های بسیاری از خزشگرهای تحت وب می شود اما اساسا این خزشگرها برای جمع آوری اطلاعات از درون اینترنت ساخته شده اند. بیشتر موتور های جست و جو از این کراولرها استفاده میکنند تا از نظر اطلاعاتی همیشه بروز باشند و هر اطلاعاتی که بر روی وب یا وبسایت ها قرار می گیرند را شاخص گذاری - ایندکس - کنند. کمپانی های تحلیل کننده و محققان از خزشگر ها برای تعیین ضوابط و ترند اطلاعاتی بازار استفاده می کنند. در جدول شماره 1 سعی بر این بوده تا 50 خزشگر متن باز و موجود برتر در فضای وب و برای داده کاوی را به شما معرفی کنیم.