بخشی از پاورپوینت
اسلاید 1 :
به نام خدا
مباحث علمي در پياده سازي موتور جستجوي قرآني وب
اسلاید 2 :
فهرست
تعريف پروژه
جستجو در وب
کارهاي مرتبط
اجزاي موتور جستجو
راهکارهاي پيشنهادي
نتيجهگيري
اسلاید 3 :
موتور جستجوي قرآني وب
سيستم بازيابي اطلاعات وب بر اساس کليد واژه
نتايج قرآني : مستنداتي که قسمتي از قرآن در آنها آمده است
پرس جوي قرآني : کليد واژهها عربي و از کلمات موجود در قرآن
موتور جستجوي
تعريف پروژه
اسلاید 4 :
مشکلات اطلاعات وب و راه حلها
حجم بالاي اطلاعات
نياز به موتورهاي جستجو براي کاربر امروزي
نتايج متنوع و در زمينههاي مختلف
نياز به موتورهاي خاص منظوره و تخصّصي مثل شيمی و بيولوژی
اطلاعات غلط و غيرعلمي
ايجاد پايگاههاي تخصّصي وب و مرجع
اسلاید 5 :
علوم اسلامي در وب
همان مشکلات گفته شده
راه حلهاي گفته شده هنوز انجام نشدهاند
کم بودن پايگاههاي تخصّصي قرآني در وب
وجود نداشتن پايگاه مرجع قوي در پژوهشهاي قرآني
کاربردهايِ ديگرِ پروژه
جستجو در متون اسلامي
جستجو در يک اينترانت بر روي مستندات معتبر
اسلاید 6 :
کارهاي مرتبط
جستجوي عربي وب
http://www.google.com/intl/ar
جستجو در متن قرآن و کتابهاي اسلامي
http://www.searchquran.org
ارتباط بين قرآن و متون اسلامي (10/ 2006)
اسلاید 7 :
Crawler
خزشگر
Indexer
انديسگذار
Searcher & Ranker
جستجوگر و رتبهبند
ساختمان يک موتور جستجو
زير سيستمهاي موتور جستجو
اسلاید 8 :
هدف
جمعآوري و ذخيره مستندات وب
چالشها
نياز به منابع شبکه زياد
تعيين اولويت پيمايش صفحات
آدرسهاي تکراري و پيموده شده
صفحات متقلب
همزماني دسترسي به منابع (در خزشگرهاي موازي)
خزشگر(Crawler)
اسلاید 9 :
هدف
ايجاد فهرستي از اطلاعات لازم مستندات
براي جستجوي درست و سريع
مسائل
روش انديسگذاري : مستقيم يا معکوس
تعيين اطلاعات لازم يک مستند
نحوه نگهداري انديسها (ساختار دادهي مناسب)
تعيين کلمات بسيار متداول و يا اصطلاحاً کلمات توقف(stop words)
فشردهکردن انديسها
ريشهيابي کلمات (stemming)
بروزرساني يا افزايش : انديسگذاري دستهاي
انديسگذار(Indexer)
اسلاید 10 :
هدف
ارائه نتايج جستجو،
به ترتيب اهميت و ميزان ارتباط با پرسجو
اطلاعات رتبهبندي
اطلاعات مربوط به متن صفحه
اطلاعات مربوط به لينکهاي بين اين صفحه و صفحات ديگر
انواع رتبهبندي بر اساس لينکها
شبکههاي اجتماعي(Social Networks)
PageRank
جستجو و رتبهبند (Searcher & Ranker)
اسلاید 11 :
مسائل
جستجوي ترکيب منطقي از کلمات (و، يا، نفي، .)
گسترش پرسجو
ريشهيابي کلمات پرسجو،
اضافه کردن کلمات مترادف يک کلمه
اضافه کردن کلماتي که از نظر املائي نزديک به کلمه مورد نظر هستند؛ چون ممکن است کاربر يا نويسنده مستند، در املاي کلمه اشتباه کرده باشد.
ترجمه کردن کلمات به زبان مستندات
جستجو و رتبهبند (Searcher & Ranker) ادامه.
اسلاید 12 :
راهکارهاي انجام پروژه
خزشگر کانوني (Focus Crawler)
فوق موتور جستجو (Meta Search Engine)
انديسگذاري بر اساس رابطهي آيات و مستندات
اسلاید 13 :
خزشگر کانوني(Focus Crawler)
تعريف :
الگوريتم جستجوي بهترين اول(Best First Search)
جمعآوري مستندات مرتبط با يک زمينهي خاص
مزايا
حذف بسياري از صفحات وب قبل از جمعآوری
کنترل مرتبط با قرآن بودن نتايج از همين ابتدا
نياز کمتر به منابع شبکهاي
معايب
پيچيدگي الگوريتمي و نياز به منابع پردازشي
اسلاید 14 :
فوق موتور جستجو (Meta Search Engine)
سه رويکرد
رتبهبندي دوباره
فيلترکردن نتايج
گسترش پرسجو
مزايا
پيادهسازي سادهتر
معايب
زمان پاسخگويي سيستم بالا
نياز به منابع شبکهي زياد
عدم تضمين مربوط بودن نتايج به قرآن
اسلاید 15 :
انديسگذاري بر اساس رابطهي آيات و مستندات
دو مرحله
مدلکردن رابطههاي بين آيات
مدلکردن ارتباط مستندات و آيات
سه پيشنهاد
استفاده از کلمات مشترک
استفاده از محل کلمات مشترک
هستانشناسي براي مفاهيم قرآن و ايجاد پايگاه دانش
1385 دی
موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
اسلاید 16 :
انديسگذاري بر اساس رابطهي آيات و مستندات (ادامه.)
مزايا
تضمين ارتباط مستندات بازيابي شده با قرآن
با اجرای پيشنهاد سوم امکان گسترش پروژه به حالت پرسجوهاي به زبانهاي ديگر
گسترش پروژه به بازيابی صفحات در مورد مفاهيم اسلامي و قرآني (با اجرای پيشنهاد سوم)
معايب
مشکل بودن و هزينه و زمان بر بودن بخصوص ايجاد هستانشناسي
نياز به تخصص بالايي درعلوم قرآني بخصوص در پيشنهاد سوم
اسلاید 17 :
نتيجهگيري
سه راهکار بالا در تضاد با هم نيستند و با کمي تطبيق ميتوان در يک موتور به کار روند.
با توجه به مزايا و معايب
راهکار سوم قابل اجرا در يک سال نيست
راهکار دوم نتايج مطلوب را ايجاد نمیکند
تمرکز ما در اين مرحله بر روي خزشگر کانوني است