بخشی از مقاله
چکیده
استفاده روزافزون کاربران از تکنولوژی برخط جهت دستیابی، مدیریت و اشتراکگذاری منابع باعث ایجاد فضای بزرگ و پیچیده اطلاعاتی و کاهش سودمندی این تکنولوژی شده است. یک راهکار مناسب جهت حل این مشکل استفاده از سیستمهای حاشیه-نویسی اجتماعی میباشد. سیستمهای حاشیهنویسی اجتماعی به کاربران اجازه میدهند منابع خود را آزادانه توسط برچسبها حاشیهنویسی، گروهبندی، جستجو و اشتراکگذاری کنند. این آزادی در برچسبزنی خود باعث افزایش برچسبهای اشتباه و به موجب آن دستهبندی غلط و دسترسی مشکل به دادهها شده است. سیستمهای پیشنهاددهنده با بررسی علایق کاربر و منبع مورد نظر سعی به ارائه برچسبهای پیشنهادی صحیح میکنند.
اکثر الگوریتمهای پیشنهاددهنده برچسب به خاطر حجم عظیم دادههای دنیای واقعی دارای سرعت پایینی میباشند و چالشهایی همچون مشکل در شروع سرد، وجود ناسازگاری و اشتباه در برچسبهای وارد شده توسط کاربران را میتوان اشاره کرد. در این مقاله یک سیستم پیشنهاددهنده برچسب معنایی برای سیستمهای برچسبزنی مردمی معرفی میشود که از ترکیب دو روش محتواگرا و مشارکتگرا بهره میبرد.
در این سیستم ارائه پیشنهادات براساس محتوای منبع، کلماتکلیدی و برچسبهای اختصاص داده شده به منبع، یافتن منابع مشابه، استفاده از پایگاه هستیشناسی سایت وردنت، بررسی پروفایل کاربر و یافتن کاربران مشابه صورت میگیرد. نتایج آزمایشات بر روی نمونههای استخراجی از سایت بیبسونومی نشان میدهد که روش ارائه شده از صحت و کارآیی بالاتری نسبت به دیگر روشها برخوردار است و نیز در دنیای واقعی قابل استفاده است.
-1 مقدمه
کلمه فوکسونومی - - Folksonomy اغلب برای تشریح سیستمهای حاشیه-نویسی اجتماعی1 استفاده میشود که از دو واژه - Folksمردم - وTaxonomy - ردهبندی - تشکیل شده است. فوکسونومی به کاربران اجازه میدهد منابع موجود در این سیستمها را آزادانه با استفاده از برچسب شرح دهند. برچسبها کاربردهای زیادی مانند مدیریت منابع [1]، کمک در جستجو [2]، طبقه بندی[3] 2 ، خوشه بندی[4] 3 و موارد بسیار دیگری را دارند. سیستمهای پیشنهاددهندهی برچسب4 با پیشنهاد مجموعهای از برچسبها که نزدیک به خواست کاربر است باعث کمک به کاربر در انتساب برچسب به منابع میشوند. اغلب سیستمهای پیشنهادی موجود، به دلایل زیر از دادن پیشنهاد درست ناتواناند:
· ممکن است نگرش کاربران به یک منبع اطلاعاتی متفاوت باشد.
· یک منبع اطلاعاتی دارای جنبههای گوناگونی باشد. به عنوان مثال اگر تصویر یک رایانه APPLE را در نظر بگیرید، ممکن است کاربری به آن تصویر، برچسب APPLE و کاربر دیگر برچسب Computer بزند. با توجه به دلایل ذکر شده محققان بر روی توسعه الگوریتمهای پیشنهادی تمرکز کردهاند[5]، تا بتوانند منابع و برچسبهای صحیح و مطابق با خواست کاربر را استخراج کنند و به کاربر پیشنهاد دهند.
عموما این سیستمها به دو گروه پیشنهاددهنده برای منابع متنی و منابع چندرسانهای - 5 مانند تصاویر، فیلم، موسیقی و... - دستهبندی میشوند.[6] معمولا در طراحی سیستمهای پیشنهاددهنده برای منابع متنی، از دو روش مبتنی بر محتوا6 و مبتنی بر گراف7 استفاده میشود. روش مبتنی بر محتوا [7] از محتوای منابع جهت پیشنهاددهی استفاده میکند و در روش مبتنی بر گراف [8] از ارتباط بین منابع برای پیشنهادهی بهره میبرد.
از انواع دیگر سیستمهای پیشنهادی رایج، میتوان سیستمهای مبتنی بر مشارکت[9] 8 را نام برد، که ایده اصلی آن پیدا کردن کاربرانی است که علایق مشابه کاربر فعال دارند. سیستم با برسی اطلاعات بدست آمده، مجموعهای از برچسبها که به سلیقه کاربر فعال نزدیک است را ارائه میدهد. این سیستم به خاطر سادگی و نتایج کارآمدش به چندین زیر گروه تقسیم شده است. مدل معرفی شده در [20] از روشهای پیشنهاددهندهی منبع مبتنی مشارکت، برای سیستم پیشنهاد دهندهی منبع، استفاده نموده است.
در این سیستم برچسبهای مشابه با برچسب ارسالی شناسایی و منابع مرتبط با آنها به کاربر پیشنهاد میشود. شناسایی برچسبهای مشابه بر اساس روشهای مبتنی بر مشارکت و روشهای بازیابی اطلاعات صورت میپذیرد که برای نیل به این هدف از روشهای دستهبندی و خوشهبندی همزمان با یکدیگر بهره برده است، از این رو ارتباطی صحیح بین این دستهها و اطلاعات جدید را میتواند کشف نماید. سپس منابع برچسبگذاری شده به برچسب مورد نظر را انتخاب نموده و بر اساس تعداد دفعات وقوع تکرار منبع مرتب سازی مینماید و عناصر ابتدایی لیست را برای پیشنهاد به کاربر انتخاب مینماید.
در [21] نویسنده با اعمال تغییراتی در روش کلاسیک نزدیکترین همسایه ، آن را برای ترکیب نمودن اطلاعات کاربران، منابع و برچسبها در داخل الگوریتم، جهت پیشنهاد منبع به کاربر استفاده نموده است. روش نزدیکترین همسایه معمولا فقط بر اساس ویژگیهای یک عنصر اطلاعاتی اقدام به ارائه دسته بندی اطلاعات مینماید که به دلیل وجود ارتباطی محکم بین عناصر سیستمهای برچسبزنی اطلاعاتی و وابستگی موجود میان ویژگیهای این عناصر با یکدیگر، نیاز به ترکیب سایر ویژگیهای عناصر اطلاعاتی در سیستم احساس میشود.
در این روش کاربرانی که منابع یکسان را برچسبگذاری کردهاند، به عنوان همسایه معرفی میشوند و منابع استخراج شده توسط الگوریتم به دلیل در نظر گرفتن ارتباط بین کاربران و برچسب، سبب بهبود نتایج خروجی میشود. در این سیستم به دلیل در نظر نگرفتن تمام حالات موجود در سیستمهای برچسبزنی مردمی سبب شده است که صحت خروجی در ارائه پیشنهادات به کاربر از درجه کیفی بالایی برخوردار نباشد، همچنین این سیستم نسبت به دادههای با حجم بالا مقیاس پذیر نمی-باشد.
از روشهای دیگر میتوان کلاسبندی بیزین[10] را نام برد. در این روش سیستم با استفاده از تئوری بیزین به دستهبندی کلمات کلیدی استخراجی از متن صفحه میپردازد. سیستم با بررسی پروفایل کاربر، برچسب-های انتسابی به منبع و بررسی پایگاه داده برچسبهایی که دارای تکرار بالایی هستند را بهعنوان برچسبهای کاندید به کاربر ارائه میدهد. از مزایای
این الگوریتم، بدلیل استفاده نویسنده از تئوری بیزین توانسته الگوریتمی سریع و با کارایی و دقت مناسب در مقایسه با روشهای بالا ارائه دهد. از معایب این الگوریتم نیز میتوان، نادیده گرفتن کلمات مترادف و مشکل در شروع-سرد19 را نام برد.
سیستم معرفی شده در[11] براساس ترکیب اطلاعات استخراج شده از محتوی منبع، برچسبهای منابع مشابه با منبع مورد نظر و برچسبهای مرتبط به پروفایل کاربر اقدام به ارائه پیشنهاد مینماید. در این سیستم چون کلمات استخراجی از محتوا به عنوان مبنای اصلی در روش خود جهت پیشنهاد به کاربر قرار داده است، اگر این اطلاعات به هر دلیلی ناقص یا اشتباه باشند - وجود صفحات پویا، تبلیغات، نظرسنجی و... - سیستم توانایی ارائه برچسبهای صحیح را از دست میدهد.
در این مقاله یک سیستم پیشنهاددهنده برچسب معنایی مبتنی برمحتوا و مشارکت معرفی کردهایم. این سیستم بصورت پیمانه ای طراحی شده است، که باعث سرعت و دقت بالا در پیشنهاددهی میشود. در این سیستم پیشنهادات به کاربر بر اساس محتوای منبع، کلماتکلیدی و برچسبهای اختصاص داده شده به منبع، یافتن منابع مشابه، استفاده از پایگاه هستی-شناسی سایت وردنت، بررسی پروفایل کاربر و یافتن کاربران مشابه انجام می-شود.
نتایج آزمایشات بر روی نمونه های استخراجی از سایت [2] Bibsonomy نشان میدهد که روش ارائه شده از صحت و کارآیی بالایی نسبت به دیگر روشها برخوردار است. هدف اصلی از ایجاد این سیستم رفع چالشهای بیان شده، کاربرگرایی، قابلیت عمومی سازی9 و توانایی شبیهسازی رفتار کاربر جهت انتخاب برچسب بوده است. ترتیب کلی این مقاله به این صورت میباشد: در بخش دوم مقاله به تعریف مسلئه میپردازیم، در بخش سوم سیستم پیشنهادی معرفی میشود و سرانجام در بخش چهارم نتایج و ارزیابی های صورت گرفته آورده شده است.
-2 تعریف مسئله
در سیستمهای برچسبزنی اجتماعی، کاربران از برچسب جهت حاشیه-نویسی منابع استفاده میکنند. در ساختار داده برچسبگذاری شده، سه پارامتر کاربران، برچسبها و منابع با هم مرتبط اند و این مجموعه سه تایی را می- توان در هر داده برچسبگذاری شده دید .[13,12]
-3 سیستم پیشنهاددهنده برچسب معنایی در سیستم های برچسبزنی اجتماعی
در شکل - - 1 معماری سیستم پیشنهادی نشان داده شده است. این سیستم از دو بخش اصلی محتواگرا و مشارکت گرا تشکیل شده است و هر بخش از تعدادی ماژول ساخته شده است.
-2-3 ماژول کلمات کلیدی عنوان11
این ماژول از عنوان صفحه مورد نظر سعی بر جمع آوری برچسب می-کند. اساس کار این ماژول به این صورت است که با حذف کلمات و حروف - اضافه لیستی از کلمات را به عنوان برچسب استخراج میکند.
-3-3 ماژول کلمات کلیدی محتوا13
این ماژول متن صفحه مورد نظر را پردازش میکند و آن دسته از کلمات که طول آنها از کمتر است و یا از حروف اضافه تشکیل شده اند را حذف میکند. در این ماژول کلمات نسبت به مکان قرارگیری آنها در صفحه وب، وزنی میگیرند.
-1-3 رابط کاربری10
وظیفه این ماژول برقراری ارتباط دوطرفه میان کاربر و سیستم است. رابط-کاربری شناسهکاربری، رمز عبور و آدرس صفحه مورد نظر را از کاربر دریافت میکند و سیستم دادههای ورودی را پردازش کرده و سپس رابطکاربری مجموعهای از برچسبهای پیشنهادی را به کاربر ارائه میدهد. در این معادله - - رتبه هر کلمه، ∑ تکرار یک کلمه، وزن محل قرارگیری آن کلمه و کلمات استخراج شده توسط ماژول خزنده وب میباشد. اساس وزنشان بصورت نزولی مرتب میشوند و تعداد k لیست انتخاب میشوند. در این مقاله بر اساس آزمایشات پارامتر k را برابر با 15در نظر گرفتهایم.
- بخش محتواگرا
این بخش آدرس صفحه مورد نظر را از رابطکاربر دریافت میکند و لیستی از برچسبهای کاندید را استخراج میکند. اکثر سیستمهای پیشنهادی مشارکتگرا وابستگی شدیدی به پروفایل کاربر دارند و اگر کاربری برای اولین بار از سیستم استفاده کند، چون پروفایل کاربری او تهی است به این دلیل این سیستمها از ارائه پیشنهاد ناتوان اند. این سیستم چون از روش محتواگرا نیز در ارائه پیشنهادات استفاده میکند، اگر پروفایل کاربر خالی باشد باز هم سیستم توانایی ارائه پیشنهاد را دارد. در اولین قدم سیستم از آدرس صفحه مورد نظر نام دامنه را به عنوان برچسب استخراج میکند - برای مثال از آدرس www.yahoo.com کلمه Yahooبه عنوان یک برچسب انتخاب میشود - .
-4-3 ماژول برچسب های منبع14
این ماژول برچسبهایی که کاربران به صفحه جاری زدهاند را استخراج میکند و به بخش هستیشناسی ارسال میکند. بدلیل اینکه کاربران در انتساب برچسب به منابع آزاد هستند از این رو احتمال وجود برچسبهای اشتباه یا مبهم افزایش مییابد. بخش هستی شناسی این سیستم با استفاده از پایگاه اطلاعاتی [14]Wordnet که مرتبط با هستیشناسی است سعی به تصحیح کلمات اشتباه یا گنگ میکند و لیستی از کلمات مرتبط و مترادف با کلمات دریافتی ایجاد میکند که باعث کمک در بخش مشارکت-گرا جهت کشف هرچه بهتر روابط میان برچسبها میشود.
در نهایت روی کلمات بدست امده آندسته از کلمات که طول کمتر از دارند و یا فقط از اعداد تشکیل شده اند حذف میشوند. به دلیل اینکه برخی کلمات و یا اسامی ریشه هستیشناسی ندارند - مانندکلمات Folksonomy, - eLearning, ... ماژولی به نام non-wordnet طراحی شده است که این کلمات را استخراج میکند. در این ماژول نیز کلمات متشکل از اعداد و با طول کمتر از حذف میشوند.