بخشی از مقاله

چکیده:

اطلاع از مشخصات وب ملی یکی از نیازمندي هاي اصلی کشور در رابطه با سیاستگذاري در حوزه فناوري اطلاعات می باشد. از آنجا که مت أسفانه تا بهحال، تحقیقی در این خصوص، انجام نشده است، نیاز مبرمی براي پژوهش و کسب اطلاع از وض عیت فعلی وب فارسی، احساس می شود. با درك این ضرورت، در این مقاله نتایج حاصل از مطالعات صورت گرفته در مورد خصوصیات و ویژگی هاي وب فارسی مطرح خواهد شد. براي این کار سامانه نیمه خودکاري طراحی و پیاده سازي شده است . هدف از این سیستم، استخراج شاخصهاي مختلف از قبیل حجم محتواي فارسی، تنوع محتوا و نیز عمر محتوا می باشد. از این آمار میتوان جهت هدفمند نمودن برنامه هاي آتی در خصوص ساماندهی وب فارسی و نیز ارائه راهکارهایی براي حل معضلات فعلی، بهره گرفت.آنالیز هاي انجام شده توسط سامانه فوق الذکر بر روي حدود یازده هزار وبگاه ثبت شده در دامنه IR، مشتمل بر اغلب سازمان ها و ارگان هاي دولتی، وزارتخانه ها، شرکت ها و دانشگاه ها است که بالغ بر حدود دو میلیون صفحه میباشند.

کلید واژهها: دامنه IR، وب فارسی، مشخصات وب

١. مقدمه

توسعه و رشد نمایی وب باعث شده است تا با حجم عظیمی از اطلاعات شامل اسناد با فرمتهاي متفاوت از جمله متن، صوت، تصویر و غیره در مکانها و سازمان هاي مختلف مواجه شویم. در عین حال، گسترش روز افزون نیازمندي به وب که زاییدة فزونی عرضه خدمات از طریق وب می باشد، باعث گردیده است تا همواره کاربران بیشتري به استفاده از وب، راغب شوند. بنا بر آمارهاي موجود در حال حاضر بالغ بر 130 میلیارد صفحه در محیط وب از طریق جویشگرهاي مطرح دنیا قابل دسترسی و جستجو هستند .[1] به دلایل مختلف از جمله شروع توسعه وب توسط کاربران انگلیسی زبان، غالب سرویسها و خدمات عرضه شده از طریق وب بویژه س رویس هاي جستجو، بصورت انگلیسی ارائه میشوند.

گرچه در طی سالهاي اخیر، موتورهاي جستجوي عمده اي مانند Yahoo و Google، سرویس جستجو را به زبانهاي دیگر نیز عرضه کردهاند، اما متأسفانه به دلایل مختلف بالاخص تحریم هاي سیاسی و اقتصادي، این خدمات هیچگاه به حوزه زب ان فارسی گسترش پیدا نکرده است . از سوي دیگر، در داخل کشور نیز ب هعلت عدم وجود شناخت کافی از مختصات وب فارسی، موتورهاي جستجوي توانمندي بوجود نیامدهاند.بطور کلی، شناخت مختصات وب ملی یک کشور، نمایانگر شاخصهاي توسعه یافتگی در آن کشور نیز محسوب میشود. به عن وان مثال، در کشورهاي توسعه یافته، حجم وب ملی شامل تعداد وبگاههاي مختلف و همچنین تنوع خدمات قابل عرضه در این رسانه، بسیار زیاد است .

همچنین کیفیت و به روز بودن اطلاعات عرضه شده نیز در دامنه وب این قبیل کشورها در مقایسه با دیگر کشورها بسیار بهتر است.از سوي دیگر، با توجه به اینکه زیرساخت اصلی اشاعه دولت الکترونیک، محیط وب میباشد، لذا مطالعه و شناسایی ویژگیهاي این محیط، کمک شایانی به انجام برنامه ریزي مناسب جهت تدوین سیاستهاي اجرایی جهت تحقق اهداف دولت الکترونیک طی مراحل مختلف، خواهد کرد . با درك این مطلب، در این مقاله سعی میشود تا به ویژگی هاي اصلی وب ایران پرداخته شود . شاخص هاي مورد مطالعه، بهگونه اي انتخاب شده است تا بتوان از آنها در جهت بهبود عملکرد سیستمهاي جستجوي وب، بهره گرفت.با توجه به مسائل فوق در این مقاله سعی میشود تا حد ممکن، محتواي وب فارسی کشور را به صورت خودکار، تحلیل و ارزیابی کرد - ابزار نظارت خودکار - تا در مقاطع زمانی مختلف، بتوان عمل ارزیابی را با کمترین هزینه، تکرار نمود.

لازم به ذکر است که در این مقاله حدود 11 هزار وبگاه با پسوند IR، که شامل تقریباً دو میلیون صفحه است، پردازش و تحلیل شدهاند. البته تعداد وبگاههاي فارسی بیش از این مقدار است، اما به دلیل دشواري یافتن وبگاههاي فارسی زبان، در این پژوهش به وبگاه هاي ثبت شده در دامنه IR بسنده شده است . علت این دشواري این است که همانطور که در قسمت نتایج، به تفصیل ذکر خواهد شد، متاسفانه دامنه IR به عنوان تنها دامنه فارسی زبان نیست و بسیاري از وبگاه هاي فارسی زبان، در دامنههاي مختلف و حتی غیر مرتبطی از قبیل .com, .net, .org و دامنههاي دیگر ثبت شدهاند.همانگونه که پیش از این ذکر شد، هدف اصلی این مطالعه، تعیین وضعیت فعلی وب فارسی است . بر این اس اس، هدف نهایی، استخراج شاخصهاي زیر از "وب ایران" میباشد:پاسخگویی به سؤالات کلی درباره وب ایران از جمله:

١-١.درصد پیوندهاي معتبر چقدر است؟ تعیین این شاخص بطور ضمنی، نرخ تغییرات وب را نیز تعیین خواهد کرد و زمانبندي براي خزشگر وب را دقیق خواهد کرد.

١-٢.توزیع صفحات وب فارسی از لحاظ محتو ا، چگونه است؟ یعنی چه حجمیاز محتواي وب در کلاس هاي علمی، تجاري، روزنامه، خبر، وبلاگ و غیره، قابل طبقهبندي است؟

١-٣.ساختار محتوایی صفحات وبگاهها چگونه است؟ بطور مشخص میخواهیم بدانیم که:

•درصد کدینگهاي زبانی مختلف استفاده شده نظیر Windows-1252, Windows-1256 و UTF-8 به چه صورت است؟ بدین ترتیب، مشخص خواهد شد که تبدیل کدینگها در سیستم هاي بازیابی وب، چقدر حائز اهمیت است؟

•چه کسري از صفحات، عنوان 1 مناسب دارند؟ وجود صفحات با عنوان مناسب و گویا، موجب بهبود کیفیت بازیابی توسط سیستم و نیز سهولت دسترسی توسط کاربران خواهد شد.
١-۴.فایلهاي غیر متنی مانند PDF، PPT، Doc و Image چند درصد از صفحات را تشکیل میدهند؟

١-۵.نرخ به روزآوري، تغییر، ایجاد - عمر صفحه - چقدر میباشد؟ استخراج این اطلاعات، نرخ تغییرات وب را تعیین خواهد کرد و موجب برنامهریزي و زمانبندي براي خزشگر وب را فراهم خواهد آورد.

١-۶.سرعت دسترسی به وبگاه چقدر است؟ این آگاهی نیز در تنظیم عملکرد خزشگر وب، موثر خواهد بود. ١-٧.تعداد دسترسی به وبگاه ها و صفحات در مقاطع زمانی مختلف یا بعبارت دیگر الگوي دسترسی به وبگاهها و صفحات، چگونه میباشد؟

١-٨.تعداد کل صفحات فارسی، میانگین تعداد صفحات هر وبگاه و حجم آنها چقدر است؟ ١-٩.تعداد لغاتی که در تمام صفحات محاسبه شده چقدر میباشد؟

١-١٠.  چند درصد صفحات شامل هردو محتواي فارسی و انگلیسی است؟

لازم به ذکر است در این فاز به دلایلی مانند پیچیدگی کار استخراج شاخصهاي مربوط به فازهاي تراکنش و تبدیل به کارهاي آینده موکول شده است . نتایج این مقاله را می توان در تعریف و پیاده سازي پروژههایی مانند موتور جستجوي ملی و درگاه دولتی استفاده کرد . به علاوه این پروژه در تدوین راهکارهاي آینده جهت تحقق سریع دولت الکترونیک در کشور مفید فایده خواهد بود.

٢. کارهاي مرتبط در داخل و خارج

تاکنون در داخل کشور مکانیزم ارزیابی وب بدین صورت انجام نشده است، اما بعضی از کشورها کاري شبیه به این پروژه را انجام داده اند. براي مثال در تایلند پروژه اي تحت عنوان " ابزار نظارت خودکار بر پروژه دولت الکترونیک تایلند " [2] انجام شدهاست. هدف این کار استخراج تمام شاخص هاي دولت الکترونیک از وب تایلند میباشد. بر اساس نتایج این مطالعه که حاصل بررسی حدود 150 وبگاه دولت تایلند در سال 2002 است، حدود %31 این سایتها، صرفاً به ارایه اطلاعات میپردازند، حدود %57 امکان تعامل محدود کاربران را با وبگاه فراهم میکنند و تنها حدود %11، بستر لازم براي اجراي تراکنشهاي مورد نیاز کاربران را در اختیار وي قرار میدهند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید