بخشی از مقاله

چکیده

امروزه با رشد و گسترش شبکه جهانی وب و افزایش نرم افزارهای کاربردی تحت وب، وب تبدیل به انباره عظیمی از اطلاعات و دادهها شده است. بر این مبنا، محققان به این نتیجه رسیدهاند که با توجه به رشد فزاینده اطلاعات در وب، فنون مرسوم مورد استفاده در وب دیگر پاسخگوی نیازهای جدید کاربران نیست. وب معنایی را ه حلی برای اضافه کردن معنا به دادهها به شمار میرود که در نتیجه آن امکان پردازش هوشمند اطلاعات وب توسط ماشین و نرم افزار فراهم میشود.

یکی از پردازشهایی که روی وب معنایی انجام میشود استخراج روابط بین اشیاء موجود در وب بر اساس میزان جذاب بودن آنها از دید کاربر است که به مدیران وب سایتها کمک میکند که محتوای وب سایت خود را بر اساس علایق و میزان استقبال کاربران به روز رسانی کنند. در این مقاله یک روش بر اساس تکنیکهای خوشه بندی برای تشخیص جذابترین اشیاء وب از دیدگاه کاربر معرفی میگردد. نتایج آزمایشات انجام شده روی مجموعه داده maxtla نشان میدهد که رهیافت پیشنهادی میتواند در تشخیص اشیاء محبوب از نظر کاربران کارآمد باشد.

.1 مقدمه

در وب اولیه، عوامل غیر انسانی درکی از اطلاعات گردآوری شده نداشته و مطالب برای آنها قابل پردازش نبود. در حقیقت وب معنایی، بسط و توسعه ای بر وب کنونی است که کامپیوترها و افراد را قادر میسازد که با یکدیگر همکاری بهتری داشته باشند. ایده اصلی وب معنایی، در سال 2001 مطرح شد. وب معنایی تکاملی از وب محسوب میشود که به مجموعه اسناد قابل فهم توسط انسان، مجموعه اسنادی قابل فهم توسط ماشین اضافه میشود. این اضافه کردن معنا می-تواند توسط فناوریهای مختلفی مانند XML و غیره انجام شود.

در زمینه وب معنایی کارهای تحقیقاتی مختلفی در زمینه آنالیز شبکههای اجتماعی، ساختار وب و استفاده از محتوای وب و غیره انجام شده است. یکی از مسائلی که در ساختار وب مطرح میشود این است که کاربران وب چگونه صفحات وب را مرور میکنند. معمولا اگر کاربری محتوای مورد علاقه خود را در وب سایتی بیابد به آن وب سایت باز میگردد و یا احتمال باقیماندن وی در صفحه وب بیشتر میشود. بنابراین مدیران وب سایتها دنبال یافتن روشهایی هستند که بتواند حداکثر رضایت کاربران را فراهم کنند.

یک وب سایت عادی معمولا از متن آزاد که به فرمت HTML استاندارد درآمده است تشکیل شده است. همچنین میتواند شامل فرمت های دیگر داده شامل عکس، فایل های انیمیشن، صوت و یا ویدئو باشد. هر یک از اجزایی که روی صفحه وب قرار میگیرد، چه متنی باشد چه به فرم چندرسانهای باشد، میتواند به عنوان اشیاء وب تعریف شود.
در این مقاله روشی ارائه میشود تا اشیایی که از دید کاربر جذاب تر است شناسایی شود. این کار به مدیران وب سایتها کمک میکند تا در به روز رسانی وب سایت خود اشیایی که محبوبتر هستند را نگهداری کنند و اشیائی که با استقبال کمتری مواجه بودهاند را تغییر دهند.

در بخش دوم به بررسی کارهای مشابه انجام شده میپردازیم و در بخش سوم روش پیشنهادی برای شیء کاوی در وب معنایی مطرح میگردد. در بخش چهارم نتایج آزمایشات انجام شده روی مجموعه داده مربوط به جلسات کاربران ثبت شده و آنتولوژی وب سایت که قبلا بصورت دستی ساخته شده است نشان داده شده است. در بخش پنجم نتیجهگیری و کارآینده مطرح خواهد شد.

.2 مروری بر کارهای انجام شده

علاوه بر اینکه در زمینه کشف و استخراج اشیاء وب کارهای زیادی انجام شده است، کارهای مشابهی [2,7] نیز در زمینه متن کاوی و بویژه استخراج کلمات کلیدی محبوب کاربران صورت گرفته است که میتواند به عنوان پیش زمینهای در کار استخراج اشیاء استفاده شود. در برخی از تحقیقات انجام شده، روشهایی برای یافتن کلمات کلیدی وب بر اساس تکنیکهای دادهکاوی مطرح شده است که میتواند در زمینه کاری انی مقاله نیز الهام بخش باشد.

همچنین در برخی از تحقیقات انجام شده در این زمینه هدف استخراج اتوماتیک اشیاء از روی وب بوده است[3,8]، بدون اینکه میزان محبوبیت آن توسط کاربر مطرح باشد. برای مثال در یک رهیافت پیشنهادی از پردازش فایل HTML و استفاده از برخی تگ های خاص مانند <div> به بخشبندی صفحات وب میپردازد و سپس با محاسبه آنتروپی برای هر بخش، ساختار درختی اشیاء را استخراج میکند

در تحقیق دیگری روش پیشنهاد شده بر اساس معیار GSM که یک معیار سنجش شباهت دو رشته در زبانهای طبیعی است، رابطه بین کاربران و اشیاء وب را استخراج میکند .[6] در حالی که میتوان از زمان صرف شده توسط کاربر برای بازدید از هر صفحه معین، برای پیش بینی میزان محبوبیت اشیاء آن صفحه بهره برد.

.3 روش پیشنهادی بر اساس خوشه بندی اشیاء وب

ایده اصلی روش پیشنهادی بر اساس کار قبلی انجام شده در زمینه استخراج اشیاء مهم در وب بر اساس زمان صرف شده توسط کاربر برای مشاهده اشیاء می باشد.[4] الگوریتم پیشنهادی در این تحقیق WSKO نامیده میشود.در این تحقیق، بردار اشیاء متفاوت تعریف شده است به طوریکه ویژگی زمان صرف شده برای هر شیء جزء بردار اشیاء در نظر گرفته شده است. بنابراین در هنگام خوشه بندی هم شباهت مفهومی و هم شباهت زمانی همزمان در نظر گرفته میشود و ممکن است دو شیء تقریبا بی شباهت از نظر معنایی بخاطر زمان صرف شده یکسان توسط کاربر در یک خوشه قرار گیرند. به نظر میرسد در نظر گرفتن این ویژگی برای معیار شباهت دو شیء کاربردی نباشد.

بنابراین در روش پیشنهادی، معیار شباهت دو شیء فقط از نظر معنایی سنجیده میشود، اما در ادامه هنگامی که خوشه ها شناسایی شدند برای برتری خوشه ها نسبت به یکدیگر از میانگین زمان صرف شده برای هر خوشه توسط کاربر استفاده میشود.

در حالی که WSKO برای برتری دادن خوشه ها نسبت به یکدیگر از شمارش اشیاء متعلق به آن خوشه استفاده میشود و هر خوشه ای که اشیاء بیشتری در خود جای داده است به عنوان خوشه رتبه برتر انتخاب میشود که حاوی اشیاء محبوب تر است. در حالی که ممکن است شیئ که داخل یک خوشه قرار گرفته شباهتش بیشتر متمایل به سمت معنایی باشد، به این معنا که این احتمال وجود دارد که شیئ در خوشه برتر یافت شود که زمان بازدید آن بسیار کم باشد. برای اینکه این مشکل کمرنگ تر شود در WSKO پیشنهاد شده است که علاوه بر k-means از شبکه های عصبی SOFM نیز برای بررسی دوباره خوشه ها استفاده شود که بر طبق گزارش این تحقیق پیچیدگی زمانی این روش بسیار بالاتر از روش k-means می باشد.

بنابراین پیشنهاد میشود که با حذف ویژگی زمان بازدید از بردار شیء شباهت فقط از نظر معنایی سنجیده شود و سپس برای تشخیص برتری خوشه ها از معیار میانگین زمان صرف شده برای اشیاء هر خوشه بهره گرفت.

در بخش اول این قسمت به شرح و فرمولهسازی مسئله می-پردازیم و در بخش بعدی روش حل مسئله شرح داده میشود.

.1-3 فرموله سازی مسئله

اشیائ وب عناصری از صفحات وب درنظر گرفته میشود که دارای فراداده برای توصیف محتوای خود است. این فراداده می-تواند با تکنولوژیهای مختلفی ارائه شده باشد. یک تکنولوژی استفاده از زبان XML است. این زبان لایه بنیادی وب معنایی را تشکیل میدهد. به کمک XML میتوان ساختار اسناد را مشخص کرد. در [1] یک روش برای تبدیل اسناد HTML به تگهای توصیف اشیاء ارائه شده است. در این مقاله، کاری برای ساختن اتوماتیک ساختار اشیاء انجام نشده است و فرض میشود که فایل XML به صورت دستی قبلا آماده شده است و ما فقط از آنتولوژی اشیاء برای تشکیل بردارهای اشیاء و خوشه بندی آنها استفاده میکنیم. یک روش توصیف اشیاء در شکل 1 نشان داده شده است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید