بخشی از مقاله
چکیده
این مقاله ضمن ارائه چارچوب پیشنهادي سامانه بازیابی اطلاعات معنایی قرآن کریم براي کاربران فارسی زبان، به مطالعه تأثیر دو شبکه واژگانی "وردنت" و "بابل نت" در میزان بازخوانی سامانه پیشنهادي میپردازد. روش شناسی پژوهش حاضر از نوع طراحی است که در آن از رویکرد مطالعه تجربی چند گروهی با پس آزمون صرف استفاده شده است. در این راستا، مجموعه آزمونی توسط محققان ساخته شد و 12 آزمایش با 90 پرسش انجام گرفت. در هر بار آزمایش یک سطح معنایی بسط - مترادفی، هایپرنیمی، هیپونیمی و مجموعه ترادف این سه سطح - بر وروديهاي چهار سامانه پیاده سازي شده، اعمال گردید و شاخص بازخوانی سامانهها محاسبه گردید. تجزیه و تحلیل دادهها با آزمون کروسکال والیس نشان داد که شبکههاي واژگانی در میزان بازخوانی سامانه پیشنهادي تأثیر گذار هستند و شبکه واژگانی "بابل نت فارسی" به صورت معناداري منجر به افزایش بازخوانی سامانه پیشنهادي میگردد. همچنین، سطح بسط پرسش با مترادف ها، نیز به طور معناداري بیشتر از دیگر سطوح منجر به افزایش بازخوانی سامانه میگردد.
واژههاي کلیدي: شبکههاي واژگانی، بسط پرسش، بازخوانی، بازیابی اطلاعات قرآن، بابل نت، وردنت.
-1 مقدمه
در رویکرد معنایی به بازیابی اطلاعات که ج ستجوي "مفاهیم" به جاي "واژگان" را مورد توجه قرار میدهد، راهکارهایی چون نمایه ﺳﺎزي معنایی پنهان1، نمایه سازي معنایی صریح2 و بسط پرسش 3 از طریق اصطلاحنامهها و ﻫﺴﺘﺎن شناسی ها4 ارائه شده است.[1] به طور کلی، بسط پرسش از روشهاي سودمند تقویت عملکرد یک سامانه بازیابی اطلاعات میباشد. در رویکردهاي سنتی بسط پرسش، پرسش اولیه با بهره ﮔﯿﺮي از رویکردهاي مختلفی چون بازخورد ربط5 و شبه بازخورد ربط 6 مجددا فرمولبندي میگردد و براي جستجو در اختیار سامانه قرار میگیرد.[2] بسط پرسش کاربر به کمک روابط معنایی موجود در اصطلاحنامهها و ه ستان شناسیها رویکرد ن سبتا جدیدتري است که انتظار میرود منجر به درك بهتر پرسش کاربر، توسط سامانه گردد. در این رویکرد، هستان شناسی ها7 را در حکم ستون فقرات سامانههاي بازیابی اطلاعات معنایی ﻣﯽداﻧﻨﺪ.[3] یکی از انواع هستان شناسیها شبکه واژگانی8 نام دارد که با نام واژهستان شناسی9 و یا واژگان معنایی نیز شناخته میشود. ﺷﺒﮑﻪﻫﺎي واژگانی عمومی هستند و به حوزه خاصی اختصاص ندارند. "وردنت"10، یکی از مشهورترین ﺷﺒﮑﻪﻫﺎي واژگانی در زبان انگلیسی است. "بابل نت"11 نیز یک شبکه واژگانی چند زبانه است که زبان فارسی را پوشش میدهد.
با مطرح شدن مباحث بازیابی اطلاعات معنایی، پژوهشگران سامانههاي بازیابی اطلاعات قرآن کریم نیز به استفاده از معنا روي آوردند تا بتوانند عملکرد این نوع سامانهها را بهبود بخشند و مشکلات بازیابی بر اساس واژگان را مرتفع سازند.
از اوایل قرن بیست و یکم تا کنون، پژوهشهاي زیادي، به منظور استخراج دانش قرآنی صورت گرفته است. پژوهش هایی که به استخراج دانش از متن قرآن کریم پرداخته اند معمولا از فنون پردازش زبان طبیعی مانند رفع ابهام معنایی[4]، [5]، [6] و ریشه یابی کلمات قرآنی[7]،[8]،[9] بهره گرفته اند و هستان شناسی قرآن و پیکرههاي تفسیري[10]،[11] را تولید کرده اند.
از طرف دیگر، پژوهش هایی نیز وجود دارند که بر طراحی سامانههاي پرسش و پاسخ[12]و بازیابی اطلاعات قرآن کریم[13] تمرکز داشته اند. فنون مورد استفاده در سامانههاي بازیابی اطلاعات قرآنی را میتوان به دو دسته عمده فنون جستجوي "کلیدواژه محور" و "معنا محور" تقسیم کرد. در سامانههاي "کلیدواژه محور" نتایج بر اساس حروف کلمات موجود در پرسش برگردانده میشوند. لازم به ذکر است که اکثر ابزارهاي جستجوي قرآنی از این فن بهره میبرند. این در حالی است که این رویکرد عیوب عمدهاي مانند بازیابی تعدادي آیه غیر مرتبط یا پرسش و عدم بازیابی تعدادي از آیات مربوط دارد.[14]
در سامانههاي "معنا محور" نتایج از طریق انطباق معناي بافتاري کلمات پرسش با متن قرآن کریم برگردانده میشوند. راهکارهاي ج ستجوي معنایی قرآنی موجود عبارتند از روشهاي "ه ستان شنا سی مدار"[15]، ب سط پر سش با مجموعه مترادف ها[16] و بازیابی اطلاعات بین زبانی.[17] در روشهاي "هستان شناسی مدار" انطباق مفاهیم پرسش کاربر با متن قرآن انجام میشود. به این منظور از هستان شناسیهاي قرآنی استفاده میشود. مشکل عمده روشهاي "هستان شناسی مدار" این است که در این روشها اغلب از یک هستان شناسی قرآنی استفاده میشود که همه مفاهیم قرآن کریم را دربرندارد. زیرا همه هستان شناسیهاي قرآنی ساخته شده به یکدیگر نگاشت نشده اند. بنابراین، پژوهشگران از هستان شناسی هایی استفاده کرده اند که از جامعیت لازم برخوردار نی ستند. البته، تلاشهاي اندکی به منظور نگا شت ه ستان شنا سیهاي قرآنی و رفع این م شکل آغاز شده است[14] اما، چالش همچنان باقی است. در روش ب سط پرسش با مجموعه مترادف ها، ابتدا تمامی مترادفهاي کلمات پرسش با استفاده از "وردنت" استخراج میشود سپس، تمام آیات حاوي هر یک از مترادفهاي کلمات پرسش برگردانده میشود. در بازیابی اطلاعات بین زبانی هم، ابتدا کلمات پرسش ورودي به زبان دیگر ترجمه میشوند و سپس، آیاتی که شامل کلمات موجود در پرسش ترجمه شده هستند برگردانده میشوند.
مرور ادبیات پژوهش ن شان میدهد که آن دسته از سامانههاي بازیابی اطلاعات قرآنی که در کنار فنون پردازش طبیعی مانند رفع ابهام معنایی و ریشه یابی، از بسط پرسش با روابط معنایی مفاهیم و واژهها بهره میبرند، از اثر بخشی بالاتري نسبت به سامانه هایی که فقط بر جستجوهاي کلیدواژهاي استوارند، برخوردار هستند. همچنین، با توجه به چالش عدم نگاشت جامع هستان شناسیهاي قرآنی از یک طرف و اهمیت بسط معنایی پرسش کاربر در بازیابی از طرف دیگر، جاي بررسی کارایی شبکههاي واژگانی موجود در زبانهاي مختلف به منظور به کارگیري در سامانههاي بازیابی اطلاعات قرآنی در ادبیات پژوهش خالی است.
از سوي دیگر، اغلب پژوهش هایی که به طراحی سامانههاي بازیابی اطلاعات معنایی قرآن کریم پرداخته اند، متن عربی و انگلیسی قرآن کریم را مورد توجه قرار داده اند. اندك پژوهش هایی نیز بر طراحی سامانههاي قرآنی براي کاربران مالایی[18]، [19] و اندونزیایی[20] تمرکز کرده اند. به طور کلی، پژوهشهاي مبتنی بر متن ترجمه قرآن به زبانهاي دیگر بسیار اندك هستند. همچنین، اکثر پژوهشهاي مبتنی بر بسط پرسش با شبکههاي واژگانی، از "وردنت" بهره برداري کرده اند.
با توجه به این که، به بازیابی اطلاعات معنایی قرآن کریم براي فار سی زبانان کمتر پرداخته شده ا ست، این مقاله ضمن ارائه چارچوب پیشنهادي سامانه بازیابی اطلاعات معنایی قرآن کریم براي کاربران فارسی زبان، به مطالعه تأثیر دو شبکه واژگانی مشهور و قدرتمند "وردنت" و "بابل نت" در میزان بازخوانی سامانه پیشنهادي میپردازد. لازم به ذکر است که با وجود این که پژوهشهاي زیادي بر سامانههاي بازیابی اطلاعات مبتنی بر "وردنت" تمرکز کرده اند، تاکنون میزان کارایی "وردنت" در مقابل "بابل نت" به بوته آزمایش گذاشته نشده است.
در ادامه فرضیههاي پژوهش و روش شناسی آورده میشوند. سپس یافتهها ارائه میگردند و در پایان، به بحث و نتیجه گیري پرداخته میشود.
-2 فرضیههاي پژوهش
همانطور که از پی شینه پژوهش بر میآید، به طور کلی ب سط پر سش اولیه کاربر منجر به افزایش بازخوانی سامانههاي بازیابی اطلاعات میگردد. اما این امر، در بازیابی اطلاعات بین زبانی کاملا روشن نیست. بر این اساس، فرضیههاي این پژوهش عبارتند از:
-1 شبکه واژگانی "وردنت" برمیزان بازخوانی سامانه پیشنهادي بازیابی اطلاعات قرآن کریم براي فارسی زبانان تأثیر دارد.
-2 شبکه واژگانی "بابل نت انگلی سی" بر میزان بازخوانی سامانه پی شنهادي بازیابی اطلاعات قرآن کریم براي فار سی زبانان تأثیر دارد.
-3 شبکه واژگانی "بابل نت فار سی" منجر به افزایش بازخوانی سامانه پی شنهادي بازیابی اطلاعات قرآن کریم براي فار سی زبانان میگردد.
-3 روش شناسی
روش شناسی پژوهش حاضر، از نوع طراحی است که در آن از رویکرد مطالعه تجربی چند گروهی با پس آزمون صرف12 استفاده شده است.
در ادامه، ضمن ارائه چارچوب مفهومی پیشنهادي سامانه بازیابی اطلاعات معنایی قرآن کریم براي کاربران فارسی زبان مراحل اجراي پژوهش تشریح میگردد: