بخشی از مقاله
چکیده
جستوجوی مقالههای خبری قابل دسترس، برای انتخاب مقالههایی که مورد علاقه کاربر است، بصورت یک چالش خود را نشان داده است. هدف سیستمهای توصیهگر، پی بردن به زمینهی مطالعهای کاربر و پیشنهاد مناسبترین مقالات خبری است. سیستم توصیهگر شخصی پیشنهادی در این مقاله مبتنی بر مقالات خبری فارسی بوده و براساس روش مبتنیبرمحتوا عمل مینماید. در سیستم پیشنهادی برای تشخیص دستهی خبری موردعلاقهی کاربر در یک فضایبرداری، روش متفاوتی ارائه شده است که نشان میدهد که چگونه مقالات خبری در زمینهی مورد علاقهی کاربر توصیه میگردند. یادگیری و همچنین ارزیابی سیستم پیشنهادی توسط مجموعه مقالههای خبری فارسی پرسیکا انجام خواهد شد. با بکارگیری روش پیشنهادی برروی مجموعه تست، نشان میدهد که روش پیشنهادی تا حد زیادی در اکثر دستههای خبری برای تشخیص زمینهی مورد علاقهی کاربر در معیارهای precision، recall، f-measure کارا میباشد.
کلمات کلیدی:سیستم توصیهگر، مبتنی بر محتوا، روزنامه، فضایبرداری
-1 مقدمه
حجم رویدادهای خبری که در زمینههای مختلف خبر منتشر میشود، زیاد است. این امر بعنوان یک چالش برای کاربرانی که میخواهند از بین یک مجموعه عظیم از خبرها، اقلام خبری مورد علاقه خود را انتخاب کنند، مطرح میشود.[23] سیستمهای توصیهگر، یک تکنولوژی در پاسخ به این چالش میباشند که براساس روشهای مختلفی پیادهسازی شده است. سیستمهای توصیهگر به یک بخش قابل توجه از سیستمهای تجارت الکترونیک[6] و یک تکنیک محبوب برای هرس کردن فضاهای اطلاعاتی[24] تبدیل شده است. روشهای معمول برای ایجاد سیستمهای توصیهگر روش مبتنیبرمحتوا1 و فیلترینگهمکاری2 است. متدهای مبتنیبرمحتوا سلیقه و الویت مطالعه کاربر را، توسط محتوای مقالههای خبری که قبلا کاربر مطالعه نموده است، تعیین مینماید.
درحالیکه فیلترینگ همکاری بصورت استخراج و استفاده از بازخورد کاربران بدون تحلیل محتوا عمل میکند22]،. [7 اکثریت سیستمهای توصیهگر ایجاد شده براساس مقالههای خبری انگلیسی زبان بوده است. زبان فارسی به علت داشتن ویژگیهای منحصربفرد خود، باعث متمایز شدن از دیگر زبانها شده است 16] ،.[15 از جمله ویژگیهای زبان فارسی: نوشتن از سمت راست به چپ، تفاوت در ارکان جمله-3SOV بودن زبان فارسی برخلاف زبان انگلیسی که 4SVO است، تفاوت نداشتن ضمیر مذکر و مونث، داشتن 3 تا 4 شکل نوشتن بیشتر حروف فارسی،کلمات مشابه با معانی مختلف، املای مختلف و ویژگیهای بسیار دیگر.[16] در این مقاله یک سیستم توصیهگر شخصی خبری فارسی پیشنهاد شده است که براساس روش مبتنیبرمحتوا عمل نموده و برای شخصیسازی روزنامهی خبری فارسی، از سلیقه و سطح مطالعهای کاربر پیروی مینماید.
مقالهی خبری که مورد علاقهی کاربر بوده، پروفایل کاربر را تشکیل میدهد و بااستفاده از روش پیشنهادی، زمینهی خبری مورد علاقهی کاربر مشخص میگردد. سیستم توصیهگر از زمینهی خبری تشخیص داده شده، برای بازیابی مقالههای خبری که بیشترین شباهت را دارند استفاده مینماید. لذا برای آنکه سیستم توصیهگر توانایی کار با مجموعه بزرگی از مقالههای خبری فارسی را داشته باشد ، نیاز است در ابتدا بتواند با متن فارسی براساس نیاز پژوهشی کار نماید. در واقع مقالههای خبری فارسی را باید بتواند به شکل مورد نیاز برای کار بر روی محتوای خبری تبدیل کند. در سیستم پیشنهادی از تکنیکهای متنکاوی برای انجام مرحلهی پردازش مقاله استفاده شده است. به این طریق با مقالههای خبری به صورت لیستی از کلمات رفتار میشود و میتوان کلماتی را بعنوان نمایندهای از متن خبری که به مفاهیم اصلی متن اشاره دارند انتخاب نمود و در کیسهای از کلمات قرار داد.
همچنین برای وزندهی کلمات شاخص از متد TF_IDF5 استفاده شده است. در این سیستم با توجه به پروفایل کاربر، دستهی خبری مقالهی موردعلاقهی کاربر تشخیص داده شده است . سپس برای بازیابی مقالهی خبری در یک فضای t بعدی از روش شباهت کسینوسی یا شباهت برداری برای محاسبهی درجه شباهت مقالات خبری موجود در دستهی تشخیص داده شده با پروفایل کاربر استفاده شده است و براین اساس یک رتبهبندی انجام میگردد . در نهایت مقالاتی که بیشترین شباهت و رتبه را دارند به کاربر پیشنهادی میشود؛ در واقع این مقالات خبری امتیاز بالاتری برای توصیه شدن به کاربر را خواهند داشت.
یادگیری و همچنین ارزیابی سیستم پیشنهادی در 9 دستهی خبری از سایت خبرگزاری دانشجویان ایران که در یک مجموعه مقالههای خبری فارسی بنام "پرسیکا" ارائه شده است، صورت خواهد گرفت .[5]این مقاله به شرح زیر سازماندهی شده است. در بخش دوم این مطالعه، کارهای مرتبط انجام شده شرح داده میشود، و در بخش 3 تکنیکهای متنکاوی استفاده شده برروی مقالههای خبری فارسی مطرح میگردند. در بخش 4 سیستم توصیهگر پیشنهادی و روشهای استفاده شده بیان میشود، سپس در بخش بعدی روش ارزیابی و نتایج حاصل از تحقیق بررسی خواهد شد و در بخش آخر نتیجهگیری از کارهای انجام شده مطرح خواهد شد.
-2 کارهای مرتبط
در این بخش، ابتدا مروری بر متنکاوی شده است. سپس گذری بر کارهای انجام شده در زمینهی زبانفارسی خواهد شد و در نهایت در مورد کارهای انجام شده در زمینهی خبر بحث خواهد شد.
متن کاوی
متنکاوی یا کاوش دادههای متنی برای اولین بار توسط Feldman بیان شد.[4] که به پردازشهای کشف الگوهای جالب از اسناد متنی اشاره دارد9]،.[3 متنکاوی از تکنیکهای بازیابی اطلاعات، استخراج اطلاعات همچنین پردازش زبانطبیعی6 استفاده میکند و آنها را به الگوریتمها و متدهای دادهکاوی و آماری مرتبط میکند.Fouzia Sulthana و همکارانش به منظور گرفتن اطلاعات دقیق از مرورگرهای وب یک روش ترکیبی از دو متد ارائه نمودند. اولین متد، متنکاوی همراه با پردازشزبانطبیعی و درخت تجزیه زبان جستجو و دومین متد، خلاصهسازی موضوع و هستیشناسی محتوا - TSCAN - است. متد پیشنهادی شامل جداسازی جملات، قطعهبندی، شناسنده نام موجودیت، تطبیق الگو است.[22]
کارهای انجام شده در زمینهی فارسی
دکتر شمسفرد و همکارانش در مقالهای، خلاصهی از چالشها و مشکلات پردازشزبانفارسی، برنامههایکاربردی ناتمام و بعضی لغتنامههای فارسی مانند همشهری[ 8]، بیژنخان و... بحث نموده است. در این مقاله مشکلات زبان فارسی به 3 دسته تکنیکی تقسیم شده است: فاقد منبع زبان محاسباتی،کمبود ابزارهای پایه جهت پردازش و درنهایت بررسی ویژگیهای مبهم فارسی از قبیل فعلهای ترکیبی، حذف مصوت، ازقلم افتادگیها و غیره.[16]با رشد اینترنت و در دسترس بودن طیف وسیعی از اسمها، افعال و کلمات در زبانفارسی و اطلاعات در همهی زمینهها، سیستمی که بتواند متنهای فارسی را مقایسه نماید و درجه شباهت بین دو متن فارسی را تعیین کند، معرفی گردید که میانگین رضایت دواطلبان از سیستم پیشنهادی %64,31 است.[10]
همچنین در مقالهی دیگری تکنیکی برای خلاصه نمودن متن فارسی ارائه شده است. خلاصهسازی خودکار متن به منظور کاهش اندازه سند متنی با حفظ نکاتکلیدی انجام میشود. فرایند خلاصهسازی متن در 3 مرحله انجام شده است: - 1 بازسازی ساختار متن اصلی در مرحله پیشپردازش - 2 الگوریتمی برای تبدیل ساختار متن به یک ساختار خلاصهسازی در مرحله پردازش - 3 خلاصهسازی نهایی که با استفاده از ساختار خلاصه بدست میآید. برای ارزیابی این متد از توابع L، VL - کم و بسیار کم - ، - Mمتوسط - ، - Hبالا - ، - VHبسیار بالا - استفاده شده است.[11] در مقالهای، تکنیکی برای تشخیص فعل و عطف در متنهای فارسی ارائه گردید.
تکنیک پیشنهادی میتواند برای فاز پیشپردازش در NLP و متنکاوی شبیه برچسبگذاری7 و تشخیص مرز جمله مفید باشد.[12]البته برای انجام یکسری کارها بر روی زبان فارسی نیاز به ابزار است. در مقالهای یک مجموعه ابزار پایه برای پردازش متن فارسی بنامSTeP-1 ارائه شده است،STeP-1 اولین سیستم آمادهسازی متنفارسی استاندارد است که راهحل برخی از مشکلات زبانفارسی به صورت یک بسته یکپارچه ارائه شده است.کارهایی که توسط این مجموعه ابزار میتوان انجام داد شامل تحلیل قطعهبندیمتن، ساختواژی، برچسبگذاری، چککردن املاء و...است. کاربران میتوانند برحسب نیاز خود ترکیبی از این سرویسها یا حتی به صورت مجزا انتخاب کنند.[15]
کارهای انجام شده در زمینهی خبر
جستوجو و تحلیل دستی مقالههای خبری قابل دسترس، برای انتخاب مقالههایی که مورد علاقه کاربر است، با توجه به محدودیتهای زمانی برای اکثر کاربران غیرممکن بوده و یا امکانپذیر نیست.[19] بنابراین در این عصر تکنولوژی، انتظار میرود که هر چیزی را بتوان بصورت اتوماتیک انجام داد. تکنیکهای مختلفی برای پیادهسازی سیستمهای توصیهگر وجود دارد که محبوبترین آنها روش مبتنیبرمحتوا و فیلترینگهمکاری است. Li و همکارانش، برای انتخاب اقلام خبری برای پیشنهاد به کاربر، از علاقمندیکوتاهمدت و بلندمدت کاربر براساس روش مبتنیبرمحتوا استفاده نموده است. از علاقمندی بلندمدت برای تعیین موضوع و تفاوت بین گروههای خبری که توسط یک طرح وزندهی حساس به زمان محاسبه میگردد و علاقمندی کوتاهمدت برای انتخاب اقلام خبری برای توصیه به کاربر توسط آخرین سلیقه مطالعهای کاربر استفاده شده است.
این رویکرد""LOGO نامیده شده است و از نظر دقت - precision - ، جامعیت - Recall - و امتیاز - score - با دو روش دیگر به نامهای Goo و ClickB مقایسه شده است.[13] در مقاله دیگری یک متد جدید برای توصیه اقلام خبری براساس TF-IDF و دامنه آنتولوژی پیشنهاد شده است، در واقع از بحث وزندهی مفهوم در آنتولوژی استفاده شده است و تنها برای مفاهیم کلیدی بدست آمده محاسبه میشود. عملکرد توصیهگر با ROC curves ، PRcurves، t-test و آمار Kappa مورد مقایسه قرار گرفته است. همچنین هر دو روش با معیارهای accuracy, recall, F-measure مورد ارزیابی قرار گرفته است[14] .درمقاله دیگری سیستمی بنام "Categorizor" معرفی و ارائه شده است.
در این سیستم مقالههای خبری به دو روش، کلاسبندی عمومی و شخصی کلاسبندی میشوند. ویژگی اصلی آن این است که به کاربر اجازه ساخت و نگهداری کلاس شخصی بصورت کلماتکلیدی داده میشود. سیستم Categorizor برای کلاسبندی عمومی عملکرد خوبی از خود نشان داده است اما برای کلاسبندی شخصی، فضا برای پیشرفت وجود دارد .[20]Abhinandan Das و همکارانش یک توصیهگر شخصیسازی شده مقیاسپذیر برای کاربران خبری گوگل براساس سابقه کلیک آنها پیشنهاد نمودهاند. در این توصیهگر الگوریتم مبتنی بر مدل و مبتنی بر حافظه ترکیب شده است.
برای آزمون رویکرد پیشنهادی، از سه مجموعه NewsBig، MovieLens, NewsSmall استفاده شده است که به صورت جداگانه توسط دو معیار recall و precision مورد ارزیابی قرارگرفته شده است.[ 17] هدف مقالهای که توسط Jiahui Liu و همکارانش ارائه شد، تولید سیستم توصیهگر خبری شخصیسازی شده برای GoogleNews است. که روش مبتنیبرمحتوا را با فیلترینگهمکاری موجود ترکیب نموده است. در چارچوب پیشنهادی علایق کاربر به دو دستهی علایق اصلی کاربر و متاثر از گرایش خبری تقسیم میشود. از متد بیزین برای پیشبینی علاقه خبری کاربر فعلی براساس الگوی کلیک کاربر فردی و گروهی از کاربران یک کشور استفاده شده است.[18]
-3 تکنیکهای بکار رفته از متنکاوی
قبل از شروع هر کاری، سیستم باید قابلیت کار با متن خبر فارسی را داشته باشد و آن را به شکل قابل قبول برای سیستم توصیهگر پیشنهادی تبدیل نماید. در فضای برداری، مقالهی خبری به صورت مجموعهای از کلمات نشان داده میشود. با انتخاب تعدادی کلمهی شاخص از این مجموعه کلمات، میتوان محتوای مقالهی خبری را توصیف نمود. مجموعهی ادغام شدهی کلمات شاخص به دست آمده از هر مقاله خبری در مجموعه آموزشی، دیکشنری آن مجموعه مقاله را تشکیل میدهد. برای این امر در مرحلهی اول، برای استخراج تمام کلمات یک متن، یک فرآیند قطعهبندی یا Tokenization لازم است که در آن یک متن با توجه به علائم جداکننده8 موجود در زبان فارسی، برای حذف تمام علائم نقطهگذاری و دیگر کاراکترهای غیرمتنی، به جریانی از کلمات تقسیم میشود.
مرحلهی دوم، فیلترینگ کلمات است که روش حذف ایست واژه یا StopWord به کار گرفته شده است. ایستواژهها لغاتی هستند که علیرغم تکرار فراوان در متن، از لحاظ معنایی دارای اهمیت کمی هستند. به همین منظور برای کاهش حجم کار و افزایش دقت سیستم، نیاز است کلماتی که پیچیدگی و درصد خطا را افزایش میدهند از لیستکلمات حذف شوند. برای انتخاب کلماتشاخص از متن خبری، تعداد تکرار - - تمام کلمات در متن خبر محاسبه میشود. کلماتی که دارای بیشترین تعداد تکرار هستند میتوانند به عنوان کلماتشاخص درنظر گرفته شوند. اما کلماتی مانند »و«، » در«، »به« و... نمیتوانند به عنوان نمایندهای از کلمات در نظر گرفته شوند. این کلمات باعث انحراف شده و به عنوان ایستواژه در نظر گرفته میشوند و از متن و از لیست کلمات حذف میگردند. با انجام مراحل ذکر شده بر روی تمامی مقالههای خبری موجود در مجموعهی آموزشی، مطابق با شکل شماره 1، دو لیست از کلمات شاخص - دیکشنری - و ایستواژه بدست میآید.
-4 سیستم توصیهگر پیشنهادی
هدف هر سیستم توصیهگر9، کمک به کاربر و تصمیم به توصیهی مقالهی خبری مطابق با علایق وی است. بنابراین یکی ازچالشهای سیستمهای توصیهگر برای کمک به کاربران، پیداکردن مقالههای خبری مورد علاقه کاربر بوده است که این امر با تعیین نوع دسته مقاله خبری مورد علاقهی کاربر محقق میشود. این امر منجر میشود که از توصیه مقالات در سایر زمینهها خودداری شده و سرعت پشنهادات به کاربر افزایش یابد.سیستم توصیهگر پیشنهادی با توجه به پروفایل علاقمندی کاربر و دستهی خبری مشخص شده، تلاش میکند تا بتواند مقالاتی با بیشترین شباهت به پروفایل کاربر توصیه نماید. با درنظر گرفتن پروفایل علاقمندی کاربر، پیشنهادات سیستم توصیهگر در زمینهی مورد علاقهی کاربر خواهد بود و این امر منجر میشود هر کاربر روزنامهی شخصی مطابق با پروفایل خود داشته باشد.
درواقع سیستم توصیهگر پیشنهادی متشکل از دو قسمت است: قسمت یادگیری و توصیه. در قسمت یادگیری، %70 از مجموعه پرسیکا به عنوان مجموعه آموزشی به سیستم داده شده و هر مقاله در پایگاه داده به صورت یک ستون نمایش داده میشود. با توجه به دیکشنری حاصل از بخش 3 و تبدیل مقالهی خبری به لیستی از کلمات با استفاده از روش قطعهبندی، وزن و اهمیت هر یک از کلمات شاخص در هر یک از مقالاتخبری با استفاده از متد TF-IDF محاسبه شده و در ستون مربوطه در پایگاه داده درج میگردد. TF-IDF یک آمار عددی است که تعداد تکرار عبارت در معکوس تعداد اسناد حاوی عبارت تکرار شده به کل اسناد را نشان میدهد. این متد بیان میکند یک کلمه موجود در یک سند نسبت به کل اسناد چقدر مهم است.[2] به همین منظور TF بر روی هر مقالهی خبری و IDF بر روی تمام مجموعه مقاله خبر اعمال میشود و از ضرب این دو، وزن کلمه بدست میآید . لذا با توجه به رابطهی شماره 1، کلمهای که در تعداد مقاله خبری کمتری وجود داشته باشد - - ، به این معناست که کلمه به ندرت در مقالات خبری بوده و اهمیت بالای در آن دستهی