بخشی از مقاله
چکیده
امروزه با رشد روز افزون اینترنت، آموزش الکترونیکی و کتابخانه های دیجیتال نیز بطور گسترده مورد استفاده قرار می گیرند. این محیط ها دربرگیرنده و تولید کننده حجم عظیمی از داده ها هستند که این موضوع منجر به استفاده از تکنیکهای داده کاوی بمنظور استخراج دانش مفید و در نتیجه افزایش کیفیت خدمات ارائه شده در این حوزه می شود.در این مقاله، با استفاده از تکنیکهای داده کاوی روشی جهت شخصی سازی محیطهای آموزش الکترونیکی و کتابخانه های دیجیتال پیشنهاد گردیده است. تکنیکهای داده کاوی مورد استفاده در این پژوهش تکنیک خوشه بندی K-Means و قوانین انجمنی می باشند. هدف روش پیشنهادی افزایش شناخت مربیان سیستمهای آموزش الکترونیک و مدیران کتابخانه های الکترونیکی از کاربران خود می باشد که منجر به شخصی سازی و افزایش کیفیت خدمات ارائه شده به کاربران می شود. روش پیشنهادی بر روی داده های واقعی یک کتابخانه الکترونیکی مورد بررسی و اجرا قرار گرفته است. با به کارگیری روش پیشنهادی در این پژوهش در محیطهای آموزش الکترونیکی، می توان کاربران را در یافتن منابع آموزشی مورد علاقه خود راهنمایی کرده و در نتیجه موجبات افزایش کارایی این سیستم ها را فراهم آورد.
واژههای کلیدی:آموزش الکترونیکی ، کتابخانه های دیجیتال ، داده کاوی ، شخصی سازی .
-1 مقدمه
امروزه استفاده از فناوری های مدرن در زندگی روزمره جهت رفع نیازها امری اجتناب ناپذیر است . روزانه حجم زیادی از اطلاعات در اینترنت منتشر می شود و این مسئله منجر به این شده که تنوع کاربران و درخواست هایشان زیاد باشد. از جمله کارهایی که امروزه روی شبکه ی اینترنت رشد و توسعه یافته ، سیستمهای آموزش الکترونیکی و کتابخانه های دیجیتال است. برخورداری از مزایای این سیستمها نیازمند بسترسازی مناسب است. با توجه به عدم برقراری تعامل حضوری با یادگیرندگان در این سیستمها ،مربیان سیستمهای آموزش الکترونیک و مدیران کتابخانه های الکترونیکی شناختی از کاربران خود ندارند و در نتیجه نمی توانند کاربر را در شناسایی و رسیدن به منبع آموزشی مورد علاقه خود یاری کنند. - منظور نویسنده از منبع آموزشی کتاب ، مقاله و یا هر محتوای آموزش الکترونیکی دیگر می باشد. -
از طرف دیگر حجم منابع آموزشی موجود در سیستمهای آموزش الکترونیکی و کتابخانه های دیجیتال روز به روز در حال افزایش است. زمانیکه کاربران با فراوانی مواجه میشوند مشکل انتخاب کردن بوجود می آید. با ظهور وب مردم در دریایی از اطلاعات غوطه ور شده اند. متاسفانه جستجو میان این فضای بیکران اطلاعات، وقت گیر و گاهی گیج کننده است. در این شرایط سیستمهای پیشنهاد دهنده به عنوان انتخاب اول برای غلبه بر پدیده سر ریز شدن اطلاعات مطرح می شوند. [1] در این پژوهش با استفاده از تکنیکهای داده کاوی به ارائه روشی جهت پیاده سازی یک سیستم پیشنهاد دهنده منابع آموزشی به منظور شخصی سازی خودکار محیطهای آموزش الکترونیک و کتابخانه های دیجیتال پرداخته ایم.
-2 تحقیقات مرتبط
تعدادی از سیستمها به منظور ارائه خدمات شخصی سازی شده متکی بر اطلاعات صریح وارد شده توسط یادگیرندگان - مانند مشخصات فردی، پرسشنامه ها و غیره - می باشند. [2] برخی دیگر از سیستمها به منظور ارائه پیشنهادات و خدمات شخصی سازی شده از پروفایل های کاربر که بطور پویا توسط سیستم و بدون دریافت صریح اطلاعات از کاربران ایجاد می شوند استفاده می کنند مانند پیشنهادات و خدمات شخصی سازی شده در Amazon.com و توصیه گرهای موزیک مانند Mystrand.com در سیستمهای تجاری [3] ، توصیه گرهای سیستمهای آموزش الکترونیک [4] و غیره. بطور کلی این سیستمها در داده های ورودی ، استراتژی های مدل سازی و تکنیکهای پیش بینی رفتار کاربر متفاوت هستند. روشهای مختلفی برای شخصی سازی خودکار در مقالات گزارش شده است مانند فیلترینگ مبتنی بر محتوا ، فیلترینگ همکارگونه، فیلترینگ مبتنی بر قانون ، تکنولوژی های مبتنی بر Web Usage Mining و غیره [5].امروزه با رشد سریع سیستمهای آموزشی مبتنی بر وب و همچنین نیاز روز افزون به ارائه سرویس های شخصی شده به یادگیرندگان ، استفاده از تکنیکهای داده کاوی و وب کاوی در این سیستمها افزایش یافته است. در [6] و [7] جزئیات بیشتری از موارد استفاده و کاربردهای داده کاوی در سیستمهای آموزشی آمده است.
-3 روش پیشنهادی
استفاده همزمان از اطلاعات ساختاری و اطلاعات رفتاری کاربران یکی از چالش های مطرح در بهبود کارایی الگوریتمهای شخصی سازی در وب می باشد. روش پیشنهادی در این پژوهش شامل چهار گام است : گام اول، جمع آوری داده ، گام دوم، پیش پردازش و آماده سازی داده ، گام سوم، اندازه گیری شباهت کاربران و خوشه بندی کاربران مشابه ، گام چهارم، ایجاد پیشنهاد .
گام اول - جمع آوری داده : این مرحله شامل جمع آوری و استخراج داده های مورد نیاز از سیستمهای نرم افزاری آموزش الکترونیک و کتابخانه های دیجیتال می شود . داده های جمع آوری شده در این مرحله شامل اطلاعات موجود درباره منابع الکترونیک ، مانند کد منبع ، عنوان منبع ، موضوع منبع و همچنین داده های مربوط به رفتار گذشته کاربران سیستم الکترونیکی از قبیل ایمیل کاربر، منابع آموزشی مطالعه شده ، تاریخ و زمان ورود به سیستم ، تعداد منابع دریافت شده و غیره می شود .
گام دوم - پیش پردازش و آماده سازی داده : اگر چه داده های موجود در یک پایگاه داده ممکن است شامل اطلاعات کافی برای ساخت انواع مدل های داده کاوی باشد ولی همیشه در فرمی نگهداری نمی شوند که بتوانند مستقیما به عنوان ورودی مدل ها مورد استفاده قرار گیرند. درچنین مواردی داده ها باید به منظور بدست آوردن مدل های دقیق تبدیل شوند. داده های ذخیره شده از سوابق فعالیتهای کاربران از دیدگاه داده کاوی دارای چالش هایی می باشند که عبارتند از:
الف- حجم عظیم داده های ذخیره شده .
ب- پراکندگی در داده ها .
ج- ناهماهنگی یا غیر یکنواختی .
پیش پردازش و آماده سازی داده ها مهم ترین و زمان بر ترین مرحله در پروژه های داده کاوی است. تقریبا 60 تا 90 درصد زمان انجام بک پروژه داده کاوی صرف این مرحله می شود و 75 تا 90 درصد موفقیت پروژه های داده کاوی به آن بستگی دارد . [8]
گام سوم - اندازه گیری شباهت کاربران و خوشه بندی کاربران مشابه : در این مرحله با توجه به سوابق فعالیت کاربران در سیستم آموزش الکترونیکی موجود و لحاظ نمودن آنها به عنوان فاکتوری از سلیقه و علاقه یادگیرنده ، با استفاده از تکنیکهای خوشه بندی شباهت رفتاری کاربران را محاسبه کرده و کاربرانی که علایق مشابهی دارند در گروههای یکسان قرار می گیرند.
گام چهارم - ایجاد پیشنهاد : در این مرحله با اجرای قوانین انجمنی بطور جداگانه در هر خوشه به یافتن روابط و الگوهای پنهان در بین منابع آموزشی موجود - درس ، کتاب ، مقاله و ... - در سیستم آموزش الکترونیک مورد نظر می پردازیم و لیستی از منابع که مناسب پیشنهاد هستند را انتخاب می کنیم .
-4 مطالعه موردی
در این بخش روش پیشنهادی بر روی داده های واقعی کتابخانه الکترونیکی سیویلیکا مورد بررسی و اجرا قرار می گیرد. وب سایت سیویلیکا به عنوان تنها پایگاه تخصصی مستند سازی و نمایه سازی کنفرانسهای علمی پژوهشی کشور ، از سال 1384 در حال فعالیت است و در طی 7 سال فعالیت خود ، بیش از 115000 عنوان مقاله را نمایه سازی نموده است . تا کنون قریب به 1000 کنفرانس از سال 1365 تا 1390 در این پایگاه ثبت شده است که تعداد کل صفحات مقالات موجود در این پایگاه بیش از یک میلیون صفحه است و رکورد بزرگی در تاریخ کشور محسوب می شود.کلیه مقالات برای عموم کاربران از سراسر کشور به روشهای مختلف قابل دسترس می باشند و کاربران با پرداخت هزینه اندکی در ازای هر مقاله می توانند به دریافت مقالات دلخواه خود بپردازند.
با توجه به حجم زیاد مقالات موجود در سایت و تنوع گسترده آنها، یافتن مقالات مورد علاقه کاربران می تواند کاری زمان بر و خسته کننده باشد. بنابراین نیاز به وجود یک سیستم پیشنهاد دهنده که کاربران را در یافتن مقالات مورد علاقه آنها یاری کند به عنوان راهکاری مناسب برای چیرگی بر پدیده سرریز شدن اطلاعات شدیدا احساس می شود. روش پیشنهادی بر روی داده های جمع آوری شده از سوابق فعالیتهای کاربراناین سایت در بازه زمانی ابتدای فروردین لغایت اسفند ماه 1389 پیاده سازی شده است .
گام اول - جمع آوری داده : داده های تحقیق در مجموع مشتمل بر 2 فایل و حدود 181000 رکورد و 10 فیلد بوده که در فرمت Access2007 ذخیره شدند. این داده ها مربوط به اطلاعات دریافت مقالات سایت در سال 1389 می باشد. این مجموعه داده شامل جداولی مانند جدول کد کنفرانس ها و جدول خرید مقالات می باشد. از این میان جدول خرید مقالات شامل اطلاعات مفیدی در مورد خدمات ارائه شده به کاربران و مقالات دریافت شده توسط آنان می باشد که مبنای کار ما در این تحقیق قرار گرفته است. جدول کد کنفرانس ها مربوط به ثبت اطلاعات کنفرانس ها یا همایش ها می باشد و اطلاعات دقیقی را درمورد کلمه اختصاری کنفرانس، سال نمایه گذاری ، نام و موضوع کنفرانس نشان می دهد.جدول خرید مقالات، مربوط به ثبت اطلاعات درخواستهای خرید مقالات توسط کاربران سایت می باشد و اطلاعات دقیقی را در مورد تاریخ دریافت مقاله، زمان خرید، ایمیل کاربر، کد مقاله دریافت شده و موضوع مقاله نشان می دهد. تعداد رکوردهای این جدول 181171 رکورد است. نمونه ای از این دو جدول در زیر آمده است.
گام دوم - پیش پردازش و آماده سازی داده :در این مرحله داده های موجود از نظر وجود داده های پرت ، انتهایی و مقادیر مفقود بررسی شدند. همانطور که در جدول زیر آمده است نتایج بدست آمده نشان می دهد که تمامی رکورد های این مرحله کامل بوده و فاقد داده های پرت و مقادیر نامعتبر می باشند.
گام سوم - اندازه گیری شباهت کاربران و خوشه بندی کاربران مشابه : در این بخش پس از ورود داده ها به مدل پیشنهادی ، به منظور بخش بندی مشتریان، از تکنیک خوشه بندی فاصله ای K-Means، استفاده نموده ایم. تکنیک خوشه بندی فاصله ای K-Means تعداد خوشه بهینه را از داده کاو دریافت می کند، در این سیستم با توجه به وجود 32 کلاس موضوع برای مقالات موجود ، تعداد خوشه ها را برابر 32 در نظر می گیریم . شکل 4 برخی از خوشه های تولید شده توسط تکنیک K-Means را نشان می دهد.