بخشی از مقاله
افزايش روز افزون منابع اطلاعاتي در اينترنت و مشكلات فني و غيرفني موتورهاي كاوش باعث شده حجم زيادي از اين اطلاعات از ديد كاربران پنهان بماند و به عنوان وب نامرئي مورد بحث بسياري از متخصصان
اطلاع رساني قرار گيرد. امروزه گرايش بسياري از كتابخانه ها و مراكز اطلاع رساني و محققان به ديجيتالي كردن منابع و قراردادن آن ها در محيط اينترنت مي باشد. بعلاوه، بسياري از اين منابع تك نسخه هستند و چنانچه دسترسي مطلوب به منابع ذخيره شده در اينترنت ممكن نباشد بسياري از ميراث هاي علمي، پژوهشي، فكري و فرهنگي بشر به هيچ وجه مورد استفادة حال و آينده قرار نخواهد گرفت.
در اين ميان كتابداران و اطلاع رسانان نيز با افزايش آگاهي كاربران از وجود وب نامرئي و شيوه هاي دستيابي و اطلاع يابي كاربران در باب اين اطلاعات، مي توانند نقش مهمي را در كاستن سطح اطلاعات نامرئي بر عهده بگيرند .
دراين مقاله تلاش شده است مفهوم وب پنهان چه از ديد فني و چه از ديد كاربرمدار باز شود، بدین منظور ابتدا تاریخچه ای در مورد پیدایش وب ( همچنین وب نا مرئی ) آورده شده است، سپس مهمترین ابزار های جستجو در وب شامل فهرست راهنما و موتور های جستجو آورده شده است و توضیحی درباره چگونگی ساز وکار
موتور های جستجو داده شده است.
بعد از آن مقوله وب نامرئی و اهمیت آن بررسی شده و در مورد تفاوت آن با وب مرئی از جنبه های مختلف نکاتی گفته می شود، سپس انواع وب نامرئی ، ویژگی های محتوایی وب پنهان و شیوه های اطلاع یابی در آن
گفته می شود و در نهایت در مورد وضعیت آن از گذشته تا به امروز و نیز در آینده تحلیلی انجام می شود.
آنچه گفته می شود تنها نوک کوه یخی را نشان میدهد. پیوندهایی که در این مقاله به آنها اشاره می شود تنها نقطه شروعی است برای دستیابی به منابع موجود در وب نامرئی.
هرچه زمان میگذرد، عمق وب نیز بیشتر و بیشتر میشود و بنابراین بهتر است از همین حالا یاد بگیریم که چگونه از آن استفاده کنیم.
فهرست صفحه
مقدمه ...........................................................................................................................5
تاریخچه........................................................................................................................6
ابزارهای کاوش که در وب............................................................................................7
فهرست راهنما.....................................................................................................................8
موتور های جستجو.............................................................................................................9
ساز وکار موتور های کاوش ........................................................................................10
وب نامرئی...................................................................................................................13
اهمیت وب پنهان ......................................................................................................14
مقایسه وب مرئی و نامرئی.........................................................................................15
انواع وب نامرئی..........................................................................................................17
دلایل عدم بازیابی و نمایه سازی وب نامرئی توسط موتورهای کاوش.....................20
ويژگيهاي محتوايي وب پنهان..................................................................................21
شیوه های اطلاع یابی در وب نامرئی.........................................................................24
وب پنهان از گذشته تا آینده....................................................................................30
نتیجه گیری...............................................................................................................31
منابع...........................................................................................................................32
مقدمه:
هرچه بر تنوع حجم و منابع موجود در شبکه وب افزوده می گردد، بحث جستجو و اطلاع یابی در محیط وب ابعاد و جنبه های گسترده تر و پیچیده تری به خود می گیرد.
گاهی یافتن پاسخ این پرسش در این شبکه به شکلی ساده و سریع انجام می شود و تنها به تایپ کلید واژه ای مناسب در یک موتور جستجوی آشنا مثل گوگل نیاز است. اما همیشه اطلاع یابی در این شبکه به این سهولت نیست و معمولا به تدبیر و تامل بیشتری نیاز دارد. با این حال گاهی با اتخاذ تمام تدابیر ممکن باز هم جستجو در وب و به ویژه از طریق موتور های کاوش عمومی نتیجه ای رضایت بخش در پی ندارد.
چنانچه منبعی مورد نظر درمحیط وب موجود باشد اما موتور های جستجو قادر به فراهم آوری امکان بازیابی آن نباشند اطلاعات مورد نظر در سایه وب پنهان / وب نامرئی مخفی مانده است.
واقعیت آن است که چالش عمده ما در حال حاضر، نبود اطلاعات نیست، بلکه دسترسی به اطلاعات مهمتر شده است. آنهم دسترسی به اطلاعات دقیق و معتبر و در زمان مورد نیاز.
وب منبع بزرگ اطلاعاتی عصر حاضر است و تقریبا درباره هر موضوعی می توان در آن اطلاعاتی یافت.
وب راهنمایی دارد که به کاربران برای یافتن اطلاعات کمک کند. سایتهایی وجود دارند که کاربران وب با مراجعه به آنها پاسخ سوالات خود را می یابند.
ما اینگونه سایتها را با عنوان “موتورهای جستجوگر” می شناسیم. در حقیقت موتور جستجوگر سایتی است که کاربر وب با مراجعه به آن و نوشتن چند کلمه می تواند هزاران پاسخ برای سوال خود بیابد. علاوه بر مراجعه به موتورهای جستجوگر یکی از راههای دیگر جستجوی اطلاعات، استفاده از “وب پنهان” است.
انواع اطلاعات موجود در اینترنت را می توان به سه دسته زیر تقسیم بندی کرد:
۱( اطلاعات رایگان و پیدا
۲( اطلاعات رایگان و ناپیدا
۳( اطلاعات تجاری
اطلاعات رایگان و پیدا اطلاعاتی هستند که در دسترس همگان قرار داده شده اند و با جستجو در موتورهای جستجوگر می توانیم آنها را بیابیم. اطلاعات تجاری اطلاعاتی هستند که برای استفاده از آن باید مبلغی پرداخت شود. در آخر اطلاعات رایگان و ناپیدا اطلاعاتی¬اند که نمی توانیم از طریق موتورهای جستجوگر به آنها دسترسی داشته باشیم.
تاریخچه:
افزايش روز افزون منابع اطلاعاتي و نياز شديد افراد در دسترسي به اين اطلاعات در سراسر دنيا از يك سو و در دنياي شگفت انگيز ارتباطات رايانه اي از سوي ديگر، موجب پيدايش شبكة جهاني اينترنت در اواخر دهة ۱۹۶۰ گرديد. ولي تا سال ۱۹۹۰ هيچگونه ابزاري براي كاوش اطلاعات موجود در آن وجود نداشت. در سال ۱۹۹۰ شبكة جهاني وب در« آزمايشگاه فيزيك ذره اي اروپا » واقع در سوئيس توسط « تيم برنرزلي » ابداع شد.
پس از ابداع شبكة جهاني وب، ابزارها و موتورهاي كاوش نيز پا به عرصة ظهور نهادند.
در سال ۱۹۹۰ اولين ابزار كاوش توسط «آلان امتيج» در دانشگاه «مك گيل» با عنوان «آركي» ابداع شد.
« آركي » از طريق نمايه سازي فايل هاي موجود در سايتهاي اف تي پي ( پروتكل انتقال فايل )، امكان جستجو و بازيابي فايل ها در محيط اينترنت را فراهم ساخت.
اما با وجود پيشرفت ها و تحولات در حوز ة ذخيرة اطلاعات در اينترنت كه يكي از امتيازات بارز اين پديدة جديد مي باشد، بايد يادآور شد كه ذخيرة اطلاعات به تنهايي كافي نيست، قطعًا اطلاعات توليدشده زماني ارزش واقعي مي¬يابد كه مورد استفاده قرار گيرد. مشكلات موجود در زمينة جستجو و بازيابي اطلاعات در اينترنت باعث شده كه حجم زيادي از اطلاعات ذخيره شده درآن، قابل دسترس نباشد. (Sherman and price, 1999)
به موازات گسترش ابزارهاي كاوش، پژوهش دربارة جنبه هاي مختلف اين موتور نيز شروع شد. بيشترين مباحث مطرح شده، موضوع دامنة كاوش و ميزان سودمندي و كارآيي موتورهاي كاوش بوده، كه در اين خصوص بحث هاي زيادي نيز صورت گرفته، اما از موضوعاتي كه كمتر مورد توجه قرار گرفته موضوع وب نامرئي مي باشد.
به رغم آنکه تاکنون مقالات متعدد به زبان انگلیسی درباره وب نامرئی منتشر شده اما به روشنی معلوم نیست که چه کسی برای اولین بار این واژه را ابداع کرده است.
مرور نوشتارها حاكي از آن است كه به نخستين ( وب نامرئي ) احتمال قريب به يقين گویا عبارت "وب پنهان یا وب نامرئی" درسال ١٩٩٤ توسط « ژيل السورث » ابداع شده است (برگمن2001,). البته معدودي از منابع نيز شخص ديگري به نام «متيوكل» را به عنوان مبدع اين اصطلاح معرفي مي كنند. (شرمن2003,)
"وب پنهان یا وب نامرئی" اشاره به یک مفهوم چند بعدی و گسترده دارد به شکلی که ارائه تعریفی گویا و کوتاه از آن را کمی دشوار می کند.
با این حال نام“ کریس شرمن و گری ﭘرایس ”به عنوان دو نفر از صاحب نظران اصلی دراین موضوع بیشتر از دیگران به چشم می خورد و تعریفی که آنان در سال 2001 از وب نامرئی ارائه کرده اند در اغلب منابع ذکر شده است. از آنجا كه بين وب نامرئي وموتورهاي كاوش در اينترنت ارتباط تنگاتنگي وجود دارد، لازم است نخست اشار ة مختصري به سازوكار موتورهاي كاوش كنيم.
ابزارهای کاوش که در وب ارايه می شود به دو گروه اصلی زير تقسيم بندی می گردد:
• Search Engine ( موتورهای جستجو)
• Directory (فهرست راهنما )
تفاوت اصلی دو گروه اشاره شده در اين است که:
اطلاعات پايگاه داده گروه اول را نرم افزارها جمع آوری می کنند، حال آنکه اين کار برای گروه دوم توسط انسانها انجام می شود.
فهرست هرگز از وجود سایت شما اطلاع نمی یابد مگر زمانی که شخصی آن را به وی معرفی نماید. بعد از معرفی است که ویراستار آن فهرست به سایت شما مراجعه نموده، در صورت رعایت قوانین فهرست و انتخاب گروه مناسب، سایت شما را به پایگاه داده فهرست اضافه می نماید.
شما باید سایت خود را با عنوان و توضیحی مناسب به فهرست ها معرفی نمایید و بهترین گروه ممکن را برای سایت خود در نظر بگیرید. این کار بسیار مهم است زیرا عموما فهرست ها همین عنوان و توضیح را به همراه آدرس صفحه اول سایت تان در پایگاه داده خود قرار می دهند.
اما در موتورهای جستجوگر وضع به گونه ای دیگر است؛ موتور جستجوگر می تواند از وجود سایت شما اطلاع یابد، اگر راه ورود آن فراهم شده باشد. در واقع نرم افزار موتور جستجوگر هر لحظه در حال وبگردی و به روز رسانی اطلاع قدیمی و همینطور افزودن اطلاعات جدید به پایگاه داده موتور جستجوگر است.
فهرست راهنما ( Directory ) :
فهرست راهنما یا دایرکتوری که به آن فهرست راهنما نیز گفته می شود٬ سایتی است که صفحات و سایت های مربوط به موضوعات گوناگون علمی وغیرعلمی را شناسایی و به صورت دستی دسته بندی می کند. ازاین رو اطلاعات طبقه بندی شده درفهرست راهنما از کیفیت خوبی برخوردار است و نتایج نامربوط در بین آنها بسیار اندک می باشد. برای ﭘذیرش یک لینک به لیست موضوعات٬ معیارها وشرایط خاصی وجود دارد اما این معیارها و شرایط برای لیست های موضوعات مختلف٬ متفاوت است. بیشتر لیست ها دارای قابلیت جستجو هستند.
دو نوع فهرست راهنما وجود دارد:
1- فهرست های دانشگاهی وتخصصی که غالباً توسط متخصصین موضوعات مربوطه وبه منظور ﭘﺎسخگویی به نیازهای محققین ایجاد واداره می شود.
2- فهرست هایی که به صورت تجاری عمل می کنند و مخاطبانشان عموم مردم وهدفشان جذب هرچه بیشتر مراجعان می باشد.
بنابراین هنگام انتخاب فهرست راهنما باید توجه کرد که مطابق با نیاز جستجوگر باشد. بسیاری از مردم از فهرست های راهنما استفاده کافی را نمی برند و مستقیماً به سراغ موتورهای جستجو می روند. حال آنکه فهرست های راهنمای دانشگاهی دربرگیرنده مجموعه های به دقت انتخاب شده ای از سایت های با کیفیت بالا هستند. هنگام جستجوی سایت های با کیفیت بالا ٬ نباید فهرست های راهنما را فراموش کرد.
نکته ای که در هنگام انتخاب فهرست های راهنما باید مورد توجه قرار گیرد٬ سیاست ها ومعیارهای ﭘذیرش سایت ها درآن فهرست راهنما است. ضوابط ﭘذیرش سایتها درفهرست های راهنما بسیار متفاوت است و می تواند تا حد زیادی نشانگر اعتبار آن فهرست راهنما باشد. به جرأت می توان گفت بزرگ ترین و معتبرترین فهرست راهنمای اینترنت درحال حاضر open project directory می باشد.که نشانی آن www.zdmo.org است. بسیاری از موتورهای جستجو مانند google وaltavista در دایرکتوری خود از همین فهرست راهنما استفاده می کنند.
ازجمله فهرستهای راهنمای دیگر می توان به www.about.com و www.yahoo.com اشاره كرد. البته yahoo مثال خوبی برای فهرست موضوعات تجاری است وهیچ گاه نباید از آن ویا دیگر راهنماهای تجاری مشابه درتحقیقات جدی ومهم استفاده کرد. Infomine از دانشگاه کالیفرنیا نیز مثال خوبی برای فهرست های راهنمای دانشگاهی است.
موتور های جستجو:
آمارها نشان می دهند که افراد بسیاری سفر در دنیای وب را با موتورهای جستجوگر آغاز میکنند و مراجعه به موتورهای جستجوگر چنان عادی شده است که جستجو کردن و کار با موتورهای جستجوگر، دومین فعالیت عمده کاربران در دنیای وب (بعد از ارسال و دریافت نامه های الکترونیکی) محسوب می شود.
موتورهاي كاوش، نرم افزارهاي كاربردي هستند كه براي جستجوي منابع اطلاعاتي در اينترنت و اينترانت ها مورد استفاده قرار مي گيرند. اين نرم افزارهاي كاربردي، تحت شبكه و در محيط وب قابل دسترس هستند و بر اساس كليد واژه ها و عبارات مورد نظر، جستجو را بر روي يك پايگاه اطلاعاتي انجام مي دهند و نتيجه را همراه با پيوندهايي به اصل موضوع ارائه مي كنند.
اين موتورهاي جستجو با هدف سهولت دسترسي به اطلاعات ابداع گرديدند و به عنوان پايگاه اطلاعاتي، از ساختار محتوايي نويني نسبت به پايگاه هاي اطلاعاتي سنتي برخوردارند.
دقت در ارایه نتایج جستجو چیزی است که کاربران وب همواره از موتورهای جستجوگر می خواهند.
اگر عبارت یکسانی در تمام موتورهای جستجوگر، جستجو شود هیچ کدام از آنها نتایج یکسانی را ارائه نمیدهند و با نتایج کاملا متفاوتی روبرو میشویم. تفاوت در ارائه نتایج جستجو در موتورهای جستجوگر از تفاوت آنها در الگوریتم (سیستم رتبه بندی) و بایگانی(index) داده هایشان ناشی میشود. حتی اگر همه آنها از بایگانی داده یکسانی نیز استفاده کنند، بازهم نتایج جستجویشان متفاوت خواهد بود. هر موتور جستجوگری برای رده بندی صفحات وب، از الگوریتم خاصی استفاده میکند که منحصر به خودش بوده و فوقالعاده محرمانه میباشد. الگوریتم نیز مجموعه ای از دستورالعمل ها است که موتور جستجوگر به کمک آن تصمیم میگیرد که سایت ها را چگونه در خروجیاش مرتب کند.
حال اگر کاربری که دنبال چیزی می گردد کلماتی را جستجو کند، موتور جستجوگر در پایگاه داده ای که تشکیل داده است، ابتدا تمام صفحات مرتبط با موضوع جستجو شده را می یابد و سپس مرتبط ترین را به عنوان اولین نتیجه جستجو و بقیه صفحات را بر اساس میزان ارتباط بعد از آن در اختیار کاربر قرار می دهد. به عبارت دیگر اگر تعداد نتایج جستجو 1000 مورد باشد، سایت رده اول مرتبط ترین و سایت رده 1000 کم ارتباط ترین سایت به موضوع جستجو شده می باشد.
موتور های جستجو امکانات ویژه ای برای جستجوی عکس، فیلم، فایل های صوتی و اخبار دارند که به کاربر کمک شایانی برای سازمان یافته تر عمل کردن می دهد.
بخش های مجزای یك موتور جستجوگر عبارتند از :
• Spider(عنکبوت) : عنكبوت با وارسي و پويش صفحه هاي وب، پيوند هاي موجود در هر صفحه به ديگر صفحات مربوط به آن صفحه را دنبال مي كند. اين روباتها معمولا هرچند وقت يكبار در اينترنت به جستجوي صفحات وب و ارتباط آن ها با صفحات ديگر مي پردازند و در پايان، آنچه را پيدا كرده اند به نمايه مي افزايند. گستردگي و عمق دسترسي به اطلاعات در هر موتورجستجو، بيش از هر چيز به ويژگي هاي نرم افزار خزندة آن بستگي دارد.
• Crawler ( نرم افزار خزنده يا روبات جستجوگر ) : پيوندهای وبی را دنبال می کند.
• Indexer ( بایگانی کننده ) : يك پايگاه اطلاعاتي است كه اطلاعات نمايه سازي شده و مرتبط با صفحات يا سايت هاي وب در آنجا نگهداري مي شود و قابل بازيابي است.
• Query processor : برنامه اي است كه در بين ميليون ها صفحة نمايه شدة موجود در يك موتور جستجو، مطابق با پرسش جستجوگر و استراتژي هاي جستجو عمل مي كند و اطلاعاتي را كه با موضوع مرتبط باشد بازيابي مي كند و نمايش مي دهد.
• Ranker ( سیستم رتبه بندی )
ساز وکار موتور های کاوش :
وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه مي شود، کاربران در واقع نتيجه کار بخش هاي متفاوت موتور جستجوگر را مي بينند، موتور جستجو اطلاعات را از پايگاه اطلاعاتي خود مورد جستجو و بازيابي قرار مي دهد و اينطور نيست که همان لحظه اطلاعات را از اينترنت به دست آورد، بلكه از قبل اطلاعات را از اينترنت گرفته و در پايگاه خود ذخيره مي کند.
در ابتدا مرحله گردآوري اطلاعات صفحات وب را داريم. از طريق روباتهاي اطلاعاتي مي توانيم به جستجوي مستمر و مداوم اطلاعات در صفحات وب بپردازيم. از جمله روباتهاي اينترنت مي توانيم به Spiderها و Crawler ها اشاره کنيم.
اسپايدر، اينترنت را براي اسناد جديد وب مورد جستجو قرار مي دهد و آدرسهاي آنها و اطلاعات مربوط به محتوا را در بانك اطلاعاتي قرار مي دهد که با موتور جستجو مي توان آن را در دسترسي قرار داد. کار اسپايدر بازبيني کدهاي HTML صفحات وب مي باشد (شکل 1) ، در حالي که کاربران وب نتيجه حاصل از کنار هم قرار گرفتن اين کدها را مي بينند. (شکل 2 )