بخشی از مقاله


بررسي بازيابي اطلاعات و ارتباط آن با شبکه هاي اجتماعي

خلاصه
با افزايش روز افزون حجم اطلاعات ذخيره شده در منابع قابل دسترس و گوناگون ، فرايندبازيابي و استخراج اطلاعات اهميت ويژه اي يافته است . اطلاعات مورد نظر ممکن است شامل هر نوع منبعي مانند متن ،تصوير،صوتو ويدئو باشد. بر خلاف پايگاه داده ها، اطلاعات ذخيره شده در منابع اطلاعاتي بزرگ مانند وب و زيرمجموعه هاي آن مانند شبکه هاي اجتماعي از ساختار مشخصي پيروي نمي کنند و عموماً داراي معاني تعريف شده و مشخصي نيستند. هدف بازيابي اطلاعات در چنين شرايطي ، کمک به کاربر براي يافتن اطلاعات مورد نظر در انبوهي از اطلاعات ساختارنايافته است . جستجوگرهاي گوگل ، ياهو و بينگ سه نمونه از پراستفاده ترين سيستم هاي بازيابي اطلاعات هستند که به کاربران براي بازيابي اطلاعات متني ، تصويري ، ويدئويي و غيره کمک مي کنند.
کلمات کليدي : بازيابي اطلاعات ، بازيابي اطلاعات اجتماعي ، داده معنايي ، ابهام زدايي ، وب کاوي ، شبکه هاي اجتماعي
١. مقدمه
وب به صورت بزرگ ترين منبع داده ها در آمده که به سهولت قابل دسترسي است ؛ از اين رو طبيعي است که اطلاعات از آن استخراج شود و موتورهاي جستجو ي وب به يکي از پراستفاده ترين ابزارها در اينترنت تبديل شده اند. اما رشد تصاعدي و آهنگ سريع تغيير و تحول در وب ، بازيابي تمام اطلاعات با ربط را واقعاً مشکل مي سازد. در واقع ، کاوش در وب شايد تنگناي اصلي موتورهاي جستجوي وب است . بعلاوه ، اين فرض نانوشته وجود دارد که يک فايل فيزيکي يک مدرک منطقي است ؛ و اين هميشه درست نيست .
از اواخر سال ١٩٩٠، تحقيقات و فن آوري هاي بازيابي اطلاعات به سرعت اعتباري را براي توسعه و برنامه هاي تجاري اينترنت گسترش داده اند. اين روزها، حجم اطلاعات موجود در وب به شدت افزايش يافته واطلاعات در زمينه هاي مختلف بطور پيچيده اي به هم پيوسته است . در نتيجه ، توسعه فني روي پيدا کردن اطلاعات باسرعت و دقت متمرکز شده است . با اين حال ، بازيابي اطلاعات يک بعدي که نتايج جستجو را صرفا براساس کلمات کليدي ارائه مي دهد، دشوار است که بتواند به ارائه اطلاعات دقيق مطابق با نيازهاي جستجوگران بپردازد.
به تازگي و در تلاش براي حرکت به فراتر از چنين بازيابي هاي يک بعدي اطلاعاتي ، پيشرفت هاي فني فعال در بازيابي اطلاعات سفارشي به وجود آمده است که دقيقا مطابق با نياز کاربر تنظيم شده است . به منظور تنظيم اطلاعات مطابق با نيازهاي کاربر، ابتدا بايد به دقت کاربران را از لحاظ اطلاعات کاربر و سليقه ها مورد تجزيه و تحليل قرار داد. اما درک نيازهاي کاربران و يا قضاوت روي همه کاربران به عنوان يک اصل کلي به منظور بازيابي اطلاعات شخصي سازي شده آسان نيست (ياتاز١، ٢٠٠٣).
وب به سادگي موانع طبيعي بين مردم و اطلاعاتي را که در هيچ جاي ديگر نمي توانستند بيابند از بين برده است . ما امروزه قادر هستيم اطلاعات را از مجراهاي گوناگون مستقيما به دست آوريم . وقتي که به يکباره با حجم وسيعي از اطلاعات بر روي وب بر مي خوريم شايد گمان کنيم که وب يک منبع فوري و آماده براي پاسخ به تمام نيازهاي اطلاعاتي ما است ، حال آنکه بايد ابتدا بدانيم چگونه اين درياي وسيع را براي رسيدن به هدف خاص خود در نورديم و اين همان چيزي است که مديريت اطلاعات به ما مي آموزد. سرعت و کيفيت بالا و سهولت دستيابي ، وب را به يک منبع اطلاعاتي جذاب تبديل کرده است ، همان چيزي که ( ورمن ١، ١٩٩٨) آن را «زيبايي فريبنده » ناميده است . واقعيت اينست که نمايش گرافيکي باعث جذابيت اطلاعات اينترنت شده است . اما در هر صورت اطلاعات بازيابي شده زماني معني دار است که با ايده اي مرتبط باشد ، نه وقتي که بدون هدف و با حالتي خوشايند ارائه گردد. فراموش نکنيم که امروزه شرايطي فراهم شده است که هر کس ، هر اطلاعاتي را که بخواهد مي تواند به آساني در وب قرار دهد. اين در حالي است که متاسفانه اکثر افراد تصور مي کنند اطلاعاتي که از طريق کامپيوترشان دريافت مي کنند بسيارقابل اطمينان تر از ساير منابع است (بريويک و جونز٢، ١٩٩٣). از طرفي آزادي عمل موجود در فضاي اطلاعاتي وب عاملي براي جذابيت آن به شمار مي رود(نهال ٣، ١٩٩٨). نبود کنترل کيفي مرکزي و گسترش دسترسي همگان به اينترنت مي تواند مزيتي برا ي آن محسوب شود اما به هر حال بايد در نظر گرفت که همواره طراحان وب مي توانند آنچه را که شما مي بينيد يا بازيابي مي کنيد دستکاري نمايند بنا براين کاربران نبايد به راحتي هر آن چه مي بينند را بپذيرند بلکه بايد ايده هاي مختلف را به چالش بکشند ، آنان بايد توان قضاوت درمورد کيفيت و صحت منابع را داشته باشند(گيلستر٤، ١٩٩٧). به علاوه گسترش وب بيشتر از پهنا است و نه عمق . خوشبختانه بسياري از منابع اطلاعاتي مورد انتقاد و ارزيابي قرار گرفته اند که اين امر براي تشخيص کاربران بسيار مفيد است . هرچند وجود واسطه ميان منابع و کاربران در محيط وب حذف شده است ولي نياز به آن احساس مي شود. ارزيابي منابع آفلاين را نيز نبايد فراموش کرد.
٢. چالش هاي جستجو در وب ، شامل مسائل زير است
-نمايه (و از جمله ، شمول آن بر محتواي پنهان ) را به روز و کامل نگه داشتن ؛
ـ شناسايي و حذف محتوا و پيوندهاي مغرضانه ، که اطلاعات ناخواستۀ موتور جستجو نام دارد . بعضي نويسندگان ، آن را «بازيابي اطلاعات متناقض » مي نامند؛ ـ مشخص کردن محتواي با کيفيت خوب . وب پر از محتويات با کيفيت پايين (از نظر نحوي و معنايي ) مشتمل بر داده هاي پارازيتي ، نامعتبر و متناقض مي باشد.
بنابراين ، ما اين مشکل را داريم که تا چه حد مي توان به يک وب سايت اعتماد کرد. اين ، شامل ساختار «اچ تي ام ال » (که در بيشتر موارد مبهم و نامتجانس است ) نيز مي شود.
ـ بهره برداري از بازخورد کاربر، چه از ارزيابي صريح کاربريا به طور ضمني از گزارش هاي وب . در اين جا مي توانيم اطلاعات ضمني را که توسط نويسندگان صفحات وب و به شکل چندين قاعدة مورد استفاده در طراحي «اچ تي ام ال » ارائه مي شود نيز اضافه کنيم ؛ ـ کشف نسخه هاي مشابه از ميزبان ها و محتويات ، به منظور اجتناب از کاوش غيرضروري .
ـ تشخيص نياز اطلاعاتي : اطلاعي ، راهنمايي يا اجرايي . برآورد شده است که کمتر از٥٠ درصد درخواست ها از نوع اول مي باشد .
ـ بهبود زبان پرس وجو، اضافه کردن زمينۀ اطلاعات مورد درخواست ، از قبيل نوع يا زمان ؛
ـ بهبود رتبه بندي ، بخصوص براي مرتبط کردن آن با فردي که پرسش را مطرح کرده است . اساس ربط ، قضاوت هاي شخصي است ؛ بنابراين رتبه بندي بر اساس پروفايل هاي کاربر يا اطلاعات زمينه اي ديگري که مربوط به کاربر است ، مي تواند مفيد باشد. در اينجا مي توانيم کيفيت ، اعتماد و موضوعات بازخورد کاربر را نيز اضافه کنيم (ياتاز ، ٢٠٠٣).
وب چيزي بيش از«اچ تي ام ال ٥» محض و ديگر ساختارهاي متني متداول است و ما مي خواهيم ديگر انواع داده ها را نيز جستجو کنيم ، که در ميان آن ها صفحات پويا، اشياي چندرسانه اي ، داده هاي «ايکس ام ال ٦» و اطلاعات معنايي همراه با آن ها را داريم . اگر «وب معنايي ٧» علي رغم تمام مسائل اجتماعي که بايد
حل شوند صورت واقعي به خود گيرد، يک وب بر پايه ي «ايکس ام ال » با طرح کلي و فراداده هاي معنايي استاندارد خواهيم داشت . در چنان محيط محتملي ، بازيابي اطلاعات آسان تر مي گردد و حتي جستجوي چندرسانه اي ساده مي شود. در چنين محيطي اطلاعات ناخواسته بايد از بين برود و تشخيص محتواي خوب ، راحت تر است . ازطرف ديگر، مسائل جديد بازيابي مانند پردازش و بازيابي «ايکس ام ال »و وب کاوي بر روي داده هاي ساختاري پيدا مي شود.
مفهوم محاسبات تقريبي به عنوان همگرايي روش ها که در مجموع ، پايه اي براي مفهوم سازي ، طرح ، ساخت و به کارگيري سيستم هاي هوشمند. اطلاعاتي هستند وبرخي از روش هاي اصلي محاسبۀ تقريبي عبارت اند از منطق فازي ، الگوريتم هاي تکاملي ، شبکه هاي عصبي ، مجموعه هاي ناهموار ، شبکه هاي بيزي و ديگر شيوه هاي احتمالاتي . ويژگي اصلي محاسبۀ تقريبي اين است که نسبت به عدم دقت ، ابهام ، حقيقت ناقص ، و برآورد، مقاوم است . ذهنيت ، ابهام و عدم دقت ، ويژگي هاي معمول در هر فرآيند بازيابي اطلاعات هستند. استفاده از فنون محاسبۀ تقريبي براي بهبود فرآيندهاي بازيابي اطلاعات ، رضايت بخش بوده است (لطفي زاده ، ١٣٨٤). بخصوص که کاربرد آن براي حل مسائل مختلف بازيابي اطلاعات که اخيراً در وب پديدار شده اند، مفيد است .

چالش هاي داده اي داده هاي پويا١
داده هاي پويا (dynamic) همراه با #C٤ در Visual Studio٢٠١٠ معرفي شدند. داده هاي پويا ، در ذات و طبيعت خودشان ، پويا هستند و به مقداردهي اوليه ، در زمان تعريف ، نيازي ندارند. ما مي توانيم اين نوع داده را با استفاده از کلمه ي کليدي "dynamic" درکدمان تعريف کنيم . يک متغير از نوع پويا (Dynamic) مي تواند همراه با هر نوع داده اي از قبيل string ,float ,Int و يا object مورد استفاده قرار بگيرد. متغير هاي پويا مي توانند براي ايجاد Property ها و بازگرداندن مقادير از يک تابع ، مورد استفاده قرار بگيرند
اصطلاح "داده هاي پويا" در زمان اجرا ارزيابي مي شوند، اين گفته به اين معناست که همه ي توابع و متغيرهايي که با کلمه ي کليدي "dynamic"
مشخص شده اند، در زمان کامپايل ناديده گرفته مي شوند. کامپايلر، همه ي اطلاعات مربوط به عبارت ها، مثل نوع آن ها را در خودش نگه مي دارد و در زمان اجرا از آن ها براي ارزيابي عبارات ، استفاده مي کند.
وب ايستا در مقايسه با محتوايي که بر اساس درخواست ، بخصوص بنابر ارائۀ درخواست در کسب و کار الکترونيکي يا در سايت هاي خدمات اطلاعاتي ايجاد مي شود، کوچک شده است . نرم افزارهاي کنوني کاوش مي توانند پيوندهاي پويارا دنبال کنند، اما اين کار بايد با دقت انجام شود، زيرا ممکن است هيچ محدوديتي وجود نداشته باشد، يا حتي يک صفحۀ مشابه ، دوباره و دوباره توليد شود. دسترسي به صفحاتي غير از آنچه در فرم هاي پرسش درخواست مي شود، از اين هم دشوارتر است ، زيرا کاوشگر شناختي از پايگاه اطلاعاتي ندارد. از طرف ديگر، حتي اگر پايگاه اطلاعاتي شناخته شده باشد، درخواست همۀ سؤالات ممکن ، بسيار وقتگير خواهد بود (وابسته به اندازة پايگاه اطلاعاتي ، به طور تصاعدي افزايش مي يابد) و حتي اگر فقط به درخواست هاي ساده بسنده کنيم ، بعضي از اين درخواست ها ممکن است هرگز توسط اشخاص حقيقي مطرح نشوند. خدمات وب ،اگر امکان يادگيري از پايگاه اطلاعاتي و نحوة پرسش افراد از آن را فراهم کنند، ممکن است راه حل نسبي براي اين مسئله باشند. مثلاً به دست آوردن هزار درخواستي که بيشترين تکرار را دارند، ممکن است کافي باشد. امکان ديگر، تجزيه و تحليل صفحه است
داده هاي چندرسانه اي ٢
استفاده از رسانه هاي مختلف مانند متن ، طراحي ، گرافيک ، عکس ، صدا، ويدئو، انيميشن ... در کنار يکديگر جهت انتقال بهتر پيام را چندرسانه اي گويند، که در مقابل برنامه هاي صرفاً متني به کار مي رود. در چنين برنامه هايي تا حد امکان از متن کمتر استفاده شده و بار اصلي انتقال پيام بر عهده ساير رسانه هاي تصويري يا صوتي قرار مي گيرد. در تعريف چندرسانه اي معاصر، واژه کليدي که سنت را تغيير شکل داده و رسانه اي جديد توليد مي کند، رايانه است . رايانه ، تکنيک هاي سنتي را براي ايجاد و ويرايش تمامي شکل هاي رسانه تغيير داده است . واژه پردازي جايگزين دستگاه تايپ شده است ، CD محصولات صوتي و موسيقي را متحول کرده است ، دوربين هاي ديجيتال و نرم افزار ويرايش ، فيلم و تاريک خانه را دگرگون کرده اند. انقلاب چندرسانه اي تنها در مورد انجام امور سنتي به شيوه هاي جديد نيست ، بلکه در مورد ايجاد رويکردهاي جديد در ارتباطات ، تجارت ، آموزش و سرگرمي نيز هست . تلفن هاي همراه به پيام رسانه هاي متني ، دوربين و نمايش هاي ويديويي مجهز شده اند. تجارت الکترونيکي به خريداران امکان دستيابي لحظه اي به خدمات و محصولات بي شمار از طريق تصاوير، پيش نمايش ها (دمو)، نقدها و امکان مقايسه قيمت را مي دهد. کلاسهاي درس ، ديوارهاي فيزيکي را با رسانه ديجيتال از جمله گرافيک ، انيميشن ، صدا و تصوير شکسته و در جريان شبکه هاي الکترونيکي سير مي کنند. شکل هاي جديد سرگرمي چون پادکست ها١، بازي هاي رايانه اي ، مسابقات آنلاين ٢و فيلم هاي غيرتعاملي نيز اين هنر-صنعت را متحول کرده است . در اين موارد و مواردي مشابه آن ، چندرسانه اي ديجيتال ، دنيا را با فراهم آوردن امکان تعامل با اطلاعات به شيوه هايي جديد براي کاربران ، متحول ساخته است
داده هاي چندرسانه اي شامل تصاوير، تصاوير متحرک ، صوت در چندين شکل ، و ويديو است . همۀ اين ها قالب استاندارد ندارند. متداول ترين آن ها JPG و GIF, PNGبراي تصاوير، MP٣ براي موسيقي ، Real Video يا Quicktime براي ويديو، و ... مي باشند. راه حل ايده آل اين است که بر روي هر نوع داده (از جمله متن )، با استفاده از الگوي يکسان و با زبان درخواست واحد، جستجو انجام شود. اين هدف بلندپروازانه شايد امکانپذير نباشد.
براي يک نوع دادة خاص مي توانيم يک مدل تشابه به وجود آوريم ، و براساس نوع داده ها، زبان درخواست تغيير کند. مثلاً درخواست به وسيلۀ مثال براي تصاوير، يا درخواست به وسيلۀ زمزمه براي صوت . تمام اين زمينه ها بيشتر متعلق به پردازش تصاوير و علائم است تا به بازيابي اطلاعات به روش کلاسيک .
داده هاي ساخت يافته ٣
تعداد فزاينده اي از مردم براي يافتن اطلاعات در وب ،موتورهاي جستجوگر را به کار مي گيرند. آنها به موتور هاي جستجوگري نياز دارند تا اطلاعات مرتبط با آنچه را که مي خواهند، در زمان کوتاهي در اختيارشان بگذارد. موتور هاي جستجوگر کنوني در وب ، بر اساس کلمات کليدي کار مي کنند. اين موتور هاي جستجوگر بايد کلمات ، عبارات و جملات را از ميليون ها صفحه وب استخراج و ايندکس کنند. بعضي اوقات مردم اطلاعات نامرتبطي را از جستجوهايشان دريافت مي کنند. سايت ها و نرم افزار هاي تحت وب ، داده هاي ساختاريافته را که در ديتابيس هاي رابطه اي ذخيره شده اند، به يک فرمت بدون ساختار که در صفحات وب موجود است ، تبديل مي کنند. موتورهاي جستجوگر بايد چنين صفحاتي را بررسي کنند. استخراج داده هاي ساختاريافته اوليه از چنين صفحاتي ، کار مشکلي است . روشهاي RDFa،Microformats ،Microdata براي افزودن داده هاي ساختاريافته به صفحه وجود دارد به طوري که آنها را قابل خواندن توسط ماشين يا موتورهاي جستجوگر کند.
اغلب داده ها تا حدودي داراي ساختار هستند، و نهايتاً داده هاي نيمه ساخت يافته نام دارند. نمونه هاي آن پست الکترونيکي ، اخبار ارسالي ، و... هستند. اگر «ايکس ام ال » متداول شود، سطح ساختار باز هم بالاتر مي رود. اولين چالش ، طراحي مدل هاي داده اي و زبان هاي پرس وجوي مربوط به آن ها است که امکان مي دهد محتوا و ساختار با هم درآميزند. متن هاي ساخت يافته را در مرتبۀ قبل از «ايکس ام ال » مي دانستند و چندين واسطۀ کارآيي .گويايي ، طراحي شد . بعد از «ايکس ام ال »، «کنسرسيوم وب جهاني »، «ايکس کوئري » را به عنوان استاندارد معرفي کرده است در هنگام بازيابي داده هاي «ايکس ام ال »، چندين چالش وجود دارد :
ـ پاسخ مي تواند جزئي از «ايکس ام ال » باشد و حتماًً لازم نيست يک شي ء کامل باشد. با وجود اين ، پاسخ ها نيز بايد داده هاي مبتني بر«ايکس ام ال » باشند .
ـ بسياري از پاسخ ها را مي توان در يک شي ء «ايکس ام ال » واحد آورد و مي توانند بايکديگر، همپوشاني داشته باشند.
ـ چگونه يک پاسخ را رتبه بندي کنيم و اگر لازم باشد پاسخ را در قالب انواع ساختارهاي خاصي ارائه دهيم ، و چگونه رتبه بندي را براي آن ها اعمال کنيم ؟ گاهي اوقات با ترکيب درختواره هاي فرعي اگر نزديک به هم باشند، رتبه بندي بهتري خواهيم داشت . اما در موارد ديگر اگر کاملاً دور از هم باشند، بهتر است .
مسئلۀ ديگر، پردازش جريانات «ايکس ام ال »، يعني غربال کردن جرياني از اشياي «ايکس ام ال » به وسيله مجموعۀ گسترده اي از پرسش ها مي باشد.
داده هاي معنايي ٤
دومسئلۀ اصلي در رابطه با اطلاعات معنايي ، استانداردهاي مربوط به فراداده هايي هستند که معنا، وکيفيت يا درجۀ اطمينان پذيري يک منبع اطلاعاتي را توصيف مي کنند. در مورد اولين مسئله [يعني استانداردهاي معنا] «کنسرسيوم وب » اقدام مي کند، اما براي مسئله دوم [يعني کيفيت يا درجۀ اطمينان پذيري ]، نياز به
«طرح هاي تصديق » مي باشد که بايد در آينده ايجاد شوند.
ب کاوي ١
کاربرد تکنيک هاي داده کاوي براي شناسايي الگوها در وب مي باشد. بر اساس نوع تحليل مورد نظر، وب کاوي به سه دسته کاربرد کاوي وب ( Web usage mining)، محتوا کاوي وب (web content mining) و ساختار کاوي وب (web structure mining) تقسيم مي شود.
فرايند وب کاوي کاربرد به دنبال اين موضوع است که کاربر چه چيزي را در اينترنت جستجو مي کند. برخي از کاربران تنها به دنبال داده هاي متني هستند در صورتيکه برخي ديگر به داده هاي چند رسانه اي علاقه مندند. همچنين وب کاوي کاربردي کمک مي کند تا الگوهايي براي گروه خاصي از مردم يا کاربران
اينترنت در حوزه اي خاص شناسايي شود. کاربرد وب کاوي همچنين مي تواند بسته به نوع استفاده داده هاي مورد نظر به موارد بيشتري طبقه بندي شود:
وب سرور داده : داده هاي کاربران توسط وب سرور جمع آوري مي شود. نمونه اطلاعات شامل آدرس آي پي ، منابع صفحه و زمان دسترسي مي شود.
داده سرور برنامه : سرويس دهنده هاي تجاري داراي ويژگي هاي برجسته اي هستند که نرم افزارهاي تجارت الکترونيکي را قادر مي سازد تا با کمي تلاش در راس آنها با کمترين هزينه ساخته شوند.
وب کاوي شامل استخراج اطلاعات ، و به دنبال آن تعميم و تحليل اين اطلاعات است . از وب کاوي مي توان علاوه بر يافتن اطلاعات يا دانش جديد، براي مقاصد گوناگون استفاده کرد: براي طراحي انطباقي وب (مثلاً طراحي وب با انگيزش ناشي از کاربر)، سازماندهي دوبارة وب سايت ، شخصي سازي وب سايت ، و موارد گوناگون بهبود در اجرا.
٣. معايب استخراج داده ها از صفحات موجود در وب چيست ؟
در اين راه بايد صفحات وب را به همان صورتي که هستند، قبول کنيم . اين يعني صفحات وب داده هاي ساختاريافته را در خود به صورتي غير قابل خواندن براي ماشين نمايش دهند و خزنده هاي وب مجبور باشند اين داده ها را در همين وضعيت استخراج کنند. بعضي از تحقيقات روي چنين روش هايي تمرکز دارند.
آنها مي خواهند مقاديري که احتمالا در ديتابيس ها ذخيره شده اند را به صورت اتوماتيک از صفحات وبي که بر اساس يک قالب (template) درست شده اند يا از درون جداول (table) ها و ليست هاي HTML استخراج کنند. اين تحقيقات در حوزه ديتابيس و هوش مصنوعي (AI) هستند که براي حل مسئله
استخراج داده ها از صفحات وب فعاليت دارند. اين روش به منابع و الگوريتم هاي پيچيده اي نياز دارد و با چالش هاي تکنيکي مواجه است :
oاستخراج داده ها دشوار است
oداده ها معمولا به صورت آشفته و پراکنده هستند
٤. موتور کامل جستجو در وب
موتور جستجويي است که طراحي شده است به منظور جُستن در وب براي بدست آوردن اطلاعات درخواست شده . نتايج يافته شده به طور معمول در صفحه اي با عنوان صفحه نتايج ٢فهرست مي شوند. با استفاده از کلمه ي کليدي ٣در واقع توضيحي است کوتاه درباره آنچه لازم است در اينترنت پيدا شود، کلمه کليدي بايد تا آنجا

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید