بخشی از مقاله

چکیده

با توجه به توسعه سیستمهای رایانهای و گسترش استفاده از فناوری اطلاعات در زندگی روزمره، اطلاعات از درجهی اهمیتی بالا برخوردار شده و گردآوری اطلاعات مفید از وب نیز اهمیت یافته است. پروفایل کاربر نیز بهرغم دستیابی مشکل میتواند در به دست آوردن نیازهای اطلاعاتی کمک کند و اگر دانش قبلی توسط هستانشناسی تعیین شود، نیازهای اطلاعاتی بهطور مؤثر به دست میآید. در این تحقیق از دو منبع پروفایل کاربر و هستانشناسی برای ارائه اطلاعات بهتر و دقیقتر به کاربر استفاده میشود. از پروفایلهای کاربر جهت جمعآوری اطلاعات شخصی کاربران و دانستن علایق و رفتار گردشی آنها استفاده میشود.

با استفاده از هستانشناسی و نگاشت نتایج، اطلاعات مطلوبتر به کاربر ارائه میشود. فارس نت نخستین وردنت فارسی است که از آن بهعنوان یک پایگاه داده لغوی یا همان هستان شناسی برای بهبود ساخت مدل برداری از علایق کاربر استفاده میشود. در روش پیشنهادی کارهایی مانند پیشپردازش اولیه، استخراج کلمات کلیدی، ایجاد بردار کلمات کلیدی و اختصاص وزن به کلمات کلیدی و علایق کاربران انجام شد.

با تهیه بردار پروفایلها و نگاشت این کلمات کلیدی با مفاهیم و درنهایت بهروزرسانی بردارها، پروفایل کاربر هستانشناسی میشود. سیستم پیشنهادی بر روی مجموعه داده-های تحقیق که شامل اسناد متنی به زبان فارسی هستند، اجرا شد و ارزیابی انجام شده نشان داد که برای شخصیسازی جستجوی وب، دخالت هستانشناسی و پروفایل بهروز شده کاربر، معیارهای دقت، بازخوانی و معیار میانگین هارمونیک - F1 - را نسبت به جستجوی ساده به ترتیب تا %16، %18 و %12,5 افزایش یافت.

-1  مقدمه

با توسعه فناوری و تسریع راههای ارتباطی در دههای گذشته پیشرفت در حوزه کامپیوتر و بازیابی اطلاعات به حدی بوده است که با فشار دادن یک کلید، حجم عظیمی از اطلاعات روی نمایشگر لیست میشود. با افزایش حجم اطلاعات روی صفحات وب، به دست آوردن اطلاعات دقیق و موردنظر کاربر سختتر میشود. در شخصیسازی وب با انبوهی از اطلاعات بر اساس نیازهای کاربر مواجه میشویم. هر کاربر دارای هدفی خاص در جستجوی اطلاعات بر اساس کلمات کلیدی در موتورهای جستجو هست. موضوع شخصیسازی وب برای بهبود نتایج حاصل و کاستن از بار این مشکل مطرح میشود.

تکنیکهای بازیابی اطلاعات به دلیل ناتوانی پایگاههای دادهای سنتی در مدیریت متون غیر ساختیافته، بهشدت موردتوجه قرارگرفتهاند. ما برای حل این مشکلات بر آن شدیم تا با دخالت هستانشناسی و پروفایل کاربر بتوانیم کمی از مشکلات کاسته و دقت جستجو را بالاتر بریم. ازآنجاییکه صرفاً استفاده از کلمات کلیدی در بازیابی اطلاعات نتیجه مطلوبی ارائه نمیدهد، با توجه به رزومه و تخصص و علاقه هر فرد و دخالت هستان-شناسی انتظار میرود سیستمهای اطلاعاتی قادر به شناخت معناشناسی کلمات باشند. مقایسهی آیتمهای اطلاعاتی با استفاده از مفاهیم بهجای واژگان کلیدی انجام میگیرد.

-2  پیش زمینه و انگیزش

اطلاعات و منابع موجود در وب بهصورت فرآیندهایی رو به رشد هستند و استفادهکنندگان وب نیازمند یک درک مشترک از آنها هستند. بهطورکلی کاربران وب در استفاده از آن با مشکلاتی همچون یافتن اطلاعات مرتبط، ایجاد دانش جدید با استفاده از اطلاعات موجود در وب و شخصیسازی اطلاعات روبرو هستند.[11] به ازای هر درخواست کاربر صدها پاسخ توسط موتور جستجو برگردانده میشود که اکثراً نامربوط هستند.

یکی از راههایی که برای رفع این مشکل وجود دارد این است که علایق و نیازهای اطلاعاتی کاربر مدل شود و با توجه به آن مدل نتایج برگردانده شده توسط موتورهای جستجو مجدد رتبه بندی شود. با استفاده از رزومه و سوابق جستجوی کاربران در وب یک الگویی از علایق و سلایق کاربران به دست آید و از سویی دیگر با داشتن یک هستانشناسی جامع و پیدا کردن معنا و روابط مفاهیم موردعلاقه کاربر میتوان نتیجه مطلوب را استخراج کرد.

-1-2 کارهای مرتبط

تحقیقات زیادی در زمینه مدل کردن علایق و نیازهای کاربر بهصورت ضمنی انجام گرفته است. به طور مثال در سیستمهای بازیابی اطلاعات و فیلتر کردن اطلاعات تحت وب از تکنیکهای واژگان شناختی وب جهت مدل کردن علایق کاربر استفاده کردهاند.[2] از تکنیکهای خوشهبندی جهت انطباق صفحات وب و پیمایش صفحات استفاده شده است که زمینه شخصیسازی وب با استفاده از واژگان شناختی مبتنی بر ویکی پدیا نیز کارهایی انجامشده است .[ 3] در سال 2010 نیز چانگ، مدل کاربر واژگان شناختی مبتنی بر ساختار ویکیپدیا را طرح کرد که این سیستم نیز نیمه-پویا است.[18]

تحقیق انجام شده دیگری در این زمینه، شخصیسازی جستجوی وب از طریق ساخت پروفایل کاربر بر اساس هستیشناسی و رابطه سلسلهمراتبی بین مفاهیم با استفاده از ODP است. در سیستم گفته شده تلاش بر این بود که سیستم در برابر افزایش امتیاز علایق به هنگام بهروز رسانی متناوب علایق ثبات داشته باشد.[6] آخرین کار انجامشده مشابه با کار ما، مقالهای است که در آن مدل کاربر در وبسایت را بهصورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه بهبود بخشیده است.[4] لازم به توضیح است که تمامی شخصیسازیهای جستجوی وب برای زبان انگلیسی کار شدهاند و منبع معتبری برای کار بر روی اسناد فارسی موجود نیست.

-2-2 وب شخصیسازیشده

هرگاه اطلاعات یا سرویس ارائهشده با نیازهای کاربر، با توجه به رفتار و علایق آنها سازگار باشد، شخصیسازی نامیده میشود که در وب به آن شخصیسازی وب میگویند و هدف از این شخصیسازی، فراهم کردن اطلاعات دلخواه یا موردنیاز کاربران بدون درخواست صریح آنها است. عملیاتی که در شخصیسازی انجام میگیرد، به کاربر کمک میکند تا اطلاعات موردنیاز خود را سریعتر بیابد.

برای سیستم شخصیسازی وب، نیازمندیهایی همچون مشخصات دامنه، شناسایی کاربر، دریافت دادههای کاربران، آمادهسازی دادهها و درنهایت ساخت مدل کاربر است. هدف شخصیسازی وب توصیه کردن یک مجموعه از اشیاء - متن، آگهی، لینک، محصول - به کاربر جاری به سمت ترجیحات و علایق کاربر هست که این عمل با تطابق جستجوی فعلی و پروفایل ذخیرهشده او با الگوهای کاربردی کشفشده از طریق وبکاوی کاربرد صورت میگیرد.

-3-2 شخصیسازی جستجوی وب در زبان فارسی 

ازآنجاییکه تا حال در ×شخصیسازی وب کمتر بر روی مطالب فارسی کارکردهاند، در این تحقیق تمامی این کارها بر روی اسناد فارسی انجام خواهد گرفت. قبل از هر کاری اسناد را جهت یکسانسازی، پیشپردازش میکنیم. یکسانسازی فونت بهکاررفته، تشخیص مرز کلمات، یکسانسازی املاهای مختلف که این کارها باعث بهبود کیفیت بازیابی اسناد میشود.

-3 هستانشناسی

هستیشناسی یا هستانشناسی یک بیان روشن از مجموعهای از اشیاء، مفاهیم و دیگر موجودیتهای یکه فرض میشود. در بعضی محیطهای موردعلاقه موجود هستند و ارتباط بین آنها را نگه میدارد .[11] در محیط وبمعنایی، هستانشناسی دستهبندی از موضوعات یا عناصر موجود در یک حوزه خاص را بررسی میکند و فهرستی از آنها را ارائه میدهد. هستانشناسی در هوشمصنوعی و همچنین علوم کامپیوتر به مجموعهای از لغات و فرضیات گفته میشود که با توجه به معنی آن لغات ایجادشدهاند و بهمنظور توصیف یک واقعیت خاص طراحیشدهاند.

-1-3 نقش هستانشناسی در استخراج اطلاعات

اطلاعات موجود در وب، حوزه وسیعی از موضوعات را پوشش میدهد. نحوه گردآوری اطلاعات مفید و معنی دار از وب به عنوان یک چالش مطرح هست که این چالش توسط بسیاری از محققان، گردآوری اطلاعات وب نامیده میشود. هستانشناسیها توسط بسیاری از مدلهای موجود برای بهبود کارایی سیستمهای گردآوری اطلاعات وب شخصیسازیشده مورداستفاده قرارگرفته است.

بسیاری از گزارشها 5]و[19 بیان میکنند که هستانشناسیها میتوانند پایههایی برای مطابقت اطلاعات رفتاری اولیه و مفاهیم و روابط موجود تهیه کنند. برای مثال گاوچ در [19] و سیگ در [7] هستانشناسیهای شخصیسازیشده را از پروژه راهنمای آزاد برای موضوع موردعلاقه در جستجوی وب یاد گرفتند. بر اساس دوی دسی مال در [8] هستانشناسی اینتلی آنتو 2 را در کارایی بازیابی اطلاعات وب توزیعشده توسعه دادند. هستانشناسی های شخصی شده یادگیرنده، اطلاعات پروفایل کاربران را از اطلاعات محلی استخراج میکنند.

لی و زونگ [9] از الگوهای شناختی و قوانین پیوستگی، تکنیکهای استخراج برای کشف دانش از مستندات کاربران برای ساخت هستانشناسی استفاده میکردند. درنهایت به دست آوردن اطلاعات کاربران در سطح جمله برای سطح متن نیاز است و بازنمایی پروفایل کاربر توسط گراف هستان شناسی مفهومی به دست میآید. استفاده از تکنیکهای دادهکاوی در این مدلها باعث میشود اطلاعات زیادی از پروفایل کاربران استخراج شود، اگرچه دانش کشفشده در این کارها قطعی نیستند.

بهعلاوه هستانشناسیها در کارهای زیادی برای بهبود عملکرد کشف دانش مورداستفاده قرار میگیرد. هستانشناسی یک درک عمومی از موضوعات را برای ارتباط بین سیستم و کاربران ایجاد می کند که مفاهیم حوزه مرتبط، خصیصه های آنها و روابط ممکن میان مفاهیم و خصیصه ها را مشخص می کند. هستانشناسیها با مطابقت اطلاعات رفتاری اولیه و مفاهیم و روابط موجود، اطلاعات موثرتری را استخراج می نمایند.

-2-3  هستانشناسی شخصیسازیشده

هستان شناسی شخصیسازیشده یک مدل ادراکی است که بهصورت رسمی دانش پشت زمینه کاربر را تعریف و مشخص می کند. از مشاهدات روزانه زندگی پی میبریم که کاربران انتظارات متفاوتی برای پرسشهای جستجوی یکسان دارند. بر اساس این مشاهدات یک فرض این است که کاربران وب یک مدل مفهومی شخصی برای نیازهای اطلاعاتی دارند، بنابراین حوزه هوشمند از URL پیشنهادشده است.[10]

این شخصیسازی توسط دوباره طبقهبندی کردن نتایج حاصل از جستجو به دست میآید. در بعضی از تحقیقات اخیر، هستیشناسی بهعنوان پایهای برای ایجاد پروفایل کاربر به کار میرود و پروفایل کاربر با مجموعهای از واژگان کلیدی و الگوها بازنمایی شده است. شمایی از فرآیند هستانشناسی شخصیسازیشده در شکل - 1 - نشان دادهشده است.

-3-3  معرفی فارس نت

قبل از معرفی فارس نت،لازم است توضیحاتی در مورد وردنت بپردازیم. وردنت یک پایگاه داده لغوی بزرگی است که در اصل برای زبان انگلیسی طراحیشده بود و بعداً برای چندین زبان دیگر نیز طراحی شد. وردنت کلمات را در قالب مجموعههای مترادف که سین ست نامیده میشوند، سازماندهی میکند. یک مجموعهی ترادف، مجموعهای از کلماتی است که ازنظر معنایی یکسان هستند.

 در اولین مرحلهی ایجاد - فارس نت - 1 شامل 10000 مجموعهی ترادف بود. در دومین مرحله فارس نت - فارس نت - 2 رشد پیداکرده و شامل ساختارهای فعل و محدودیتهای آنها هست. فارس نت1 شامل دانش لغوی، نحوی و معنایی بیش از 15000 کلمه و عبارتهای فارسی است که در قالب 10000 مجموعه ترادفهای نام، صفت و فعل سازماندهی شدهاند.

فارس نت همانند سایر وردنتها شامل دودستهی کلی مفاهیم و روابط است. در فارس نت مفاهیم پایه به دو گروه دستهبندی میشوند: - 1 مفاهیم پایهی مستقل از زبان که شامل مفاهیمی هستند که در اکثر زبانها پایه یا مهم شمرده میشوند، - 2 مفاهیم پایهی فارسی که شامل کلمات زیاد تکرارشونده یا مفاهیم مهم میان فارسیزبانها میباشند.

روابط نیز در فارس نت در دو نوع اصلی تعریفشدهاند: - 1 روابط داخلی زبان و - 2 روابط بین زبانی. روابط بین زبانی روابطی هستند که مجموعه ترادفهای فارسی را به مجموعه ترادفهای انگلیسی ارتباط می-دهند. روابط داخلی زبان نیز همانند روابط در وردنت، بین معانی و مجموعه ترادفهای فارس نت برقرار میشوند. این روابط شامل روابط ترادف، تضاد، تعمیمپذیری و انواع مختلف بخشپذیری میباشند.[13] ساختار فارس نت در شکل - 2 - نشان دادهشده است.

-4   پروفایل کاربر

پروفایل کاربر شامل اطلاعات محلی و صفحات مشاهدهشده توسط کاربر بوده و بازتابی از علاقهمندیهای کاربر هست که به رغم دستیابی مشکل در به دست آوردن نیازهای اطلاعاتی میتواند مفید باشد.[14] هدف ما در استفاده از پروفایل کاربر در هستانشناسی شناخت موضوعات موردعلاقه کاربر است. یک پروفایل کاربر تعاریف الگوی مفهومی است که یک کاربر دارد.

در پروفایل کاربر هر مفهوم با یک امتیاز علاقه مشخص میشود و بر اساس فعالیت و علایق کاربر و معیار طبقه بندی از دانش دامنه - هستانشناسی منبع - ، پروفایلها همراه امتیاز علایق توسط الگوریتم فعالیت گسترده برای نگاشت مفاهیم - که در قالب بردار کلمات نمایش داده میشود - به پروفایل کاربر هستانشناسی شده همراه با ارزش به روز شده تبدیل میشوند. 

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید