بخشی از مقاله
داده کاوي جهت ارتقاء و بهبود فرآیندهاي سیستم آموزش عالی
چکیده
پیدا کردن الگوها و دانش نهفته از داده هاي سیستمهاي آموزشی می تواند به تصمیم گیرندگان عرصه آموزش عالی در جهت ارتقاء و بهبود فرآیندهاي آموزشی نظیر برنامه ریزي، ثبت نام، ارزیابی و مشاوره کمک شایانی نماید. داده کاوي می تواند بر روي داده هایی که از دو نوع سیستم آموزشی استخراج می شود اعمال شود:
کلاسهاي درس سنتی و آموزش الکترونیکی. با توجه به تفاوت در منابع داده و اهداف هر یک از این دو نوع سیستم آموزشی، ضرورت دارد که کاربردهاي مربوط به اعمال تکنیک هاي داده کاوي در هر یک از این دو نوع سیستم به صورت جداگانه مورد بررسی قرار بگیرد.
تنها کار جدي انجام شده در زمینه بررسی کاربردهاي مختلف تکنولوژي داده کاوي در آموزش عالی توسط Romero and Ventura (2006)، با تمرکز بر روي تکنیکهاي وب کاوي و متن کاوي در حوزه آموزش الکترونیکی انجام شده است. تمرکز اصلی این مقاله بر روي کاربرد سایر تکنیک هاي داده کاوي درحوزه آموزش عالی و مرتبط با سیستم هاي آموزش غیر الکترونیکی می باشد.
این مقاله ضمن تحلیل فرایندهاي سیستم آموزش دانشگاهها، به بررسی کارهاي انجام شده و همچنین قابل انجام در زمینه کاربرد عملیات هاي مختلف داده کاوي از قبیل خوشه بندي، قوانین انجمنی، دسته بندي و پیش بینی جهت پیش بینی ثبت نام در یک رشته یا درس خاص، بررسی ترکیب واحدهاي انتخابی هر دانشجو براي زمانبندي مناسب واحدها، شناخت انواع دانشجویان، تحلیل ماندگاري دانشجویان در ترم هاي آتی، پیش بینی وضعیت تحصیلی و میزان موفقیت دانشجویان در نیمسال هاي بعدي پرداخته است. در حال حاضر در اکثر دانشگاه هاي ایران، بانک هاي اطلاعاتی وسیعی از ویژگی ها، سوابق آموزشی و تحصیلی دانشجویان موجود است.
این مقاله می تواند راهنماي مفیدي براي استفاده از تکنیکهاي داده کاوي بر روي داده هاي این سیستمها باشد.
کلمات کلیدي
داده کاوي آموزشی، سیستم آموزش، روند تحصیلی دانشجو، پیش بینی ثبت نام، انواع دانشجویان، موفقیت دانشجو
-1 مقدمه
شرکت هاي بسیاري در صنایع مختلف شامل خرده فروشی، مالی، ارتباطات، سرگرمی و تفریحات، مراقبت هاي پزشکی، تولید، حمل و نقل و هوا فضا در حال استفاده از ابزارها و تکنیک هاي داده کاوي می باشند تا از این طریق از منافع داده هایشان استفاده کنند، اما کاربردهاي داده کاوي در حوزه آموزش عالی به تازگی مورد توجه قرار گرفته است.
در حال حاضر در اکثر دانشگاه ها بانک هاي اطلاعاتی وسیعی از ویژگی هاي دانشجویان موجود است که حجم بالایی از اطلاعات مربوط به سوابق آموزشی و تحصیلی را شامل می شود. متاسفانه با وجود انبوه داده هاي موجود در سیستم آموزش دانشگاه ها، هیچگاه بررسی عمیق و جامعی براي استخراج اطلاعات و دانش نهفته از این داده ها انجام نمی شود. پیدا کردن الگوها و دانش نهفته در این اطلاعات می تواند به تصمیم گیرندگان عرصه آموزش عالی در جهت ارتقاء و بهبود فرآیندهاي آموزشی نظیر برنامه ریزي، ثبت نام، ارزیابی و مشاوره کمک شایانی کند و بدین ترتیب آنها را در تصمیم گیري بهتر و داشتن طرح پیشرفته تري در هدایت دانشجویان کمک می کند. در نتیجه، این بهبود مزایاي بسیاري از قبیل حداکثر کردن کارایی سیستم آموزشی، کاهش نرخ از دست دادن و حذف دانشجویان، افزایش نرخ گذر دانشجویان، افزایش موفقیت دانشجو، افزایش خروجی یادگیري دانشجو و کاهش هزینه فرآیندهاي سیستم آموزش عالی به ارمغان می آورد. نرم افزارهاي کامپیوتري بکار گرفته شده براي این منظور، غالبا براي مکانیزه کردن وضع موجود و اجراي پرس و جوهاي معمولی جوابگو هستند. در حالیکه در عمق این حجم عظیم داده ها، الگوها و روابط بسیار جالبی بصورت پنهان باقی می ماند. 2]،5،[12
استفاده از داده کاوي در سیستم هاي آموزشی الزامات ویژه اي دارد که در سایر حوزه ها مطرح نیست، علی الخصوص نیازمند در نظر گرفتن جنبه هاي آموزشی یاد گیرنده (دانشجو) و سیستم می باشد. داده کاوي می تواند بر روي داده هایی که از دو نوع سیستم آموزشی استخراج می شود اعمال شود: کلاسهاي درس سنتی و آموزش الکترونیکی. با توجه به تفاوت در منابع داده و اهداف هر یک از این دو نوع سیستم آموزشی، ضرورت دارد که کاربردهاي مربوط به اعمال تکنیک هاي داده کاوي در هر یک از این دو نوع سیستم به صورت جداگانه مورد بررسی قرار بگیرد. [5]
تنها کار جدي انجام شده در زمینه بررسی کاربردهاي مختلف داده کاوي در آموزش عالی توسط Romero and Ventura (2006)، با تمرکز بر روي تکنیکهاي وب کاوي و متن کاوي در حوزه آموزش الکترونیکی انجام شده است. تمرکز اصلی این مقاله بر روي کاربرد سایر تکنیک هاي داده کاوي در حوزه آموزش عالی و مرتبط با سیستم هاي آموزش غیر الکترونیکی می باشد. می توان مسیر تحصیلی دانشجو، وضعیت تحصیلی دانشجو در نیمسال هاي بعدي (مشروطی، ممتازي، ترك تحصیلی، اخراجی)، میزان ثبت نام در یک رشته یا درس خاص، ترکیب واحدهاي انتخابی هر دانشجو، مدت زمان تحصیل دانشجو و خروجی آموزشی را به منظور تسهیل اقدامات زمانبندي آموزشی پیش بینی کرد.
این مقاله در بخش دوم بطور خلاصه فرآیندهاي سیستم آموزش و ذینفعان استفاده از تکنولوژي داده کاوي در آموزش عالی را معرفی می نماید و انواع مدل سازي با کمک تکنیک هاي داده کاوي در سیستم هاي آموزش عالی جهت ارتقاء و بهبود فرآیندهاي مختلفی که دانشجو از زمان تقاضا براي تحصیل تا فارغ التحصیلی و انتخاب شغل با آن مواجه است را بیان می دارد. در بخش ها بعدي کاربردهاي متنوعی از تکنیک هاي مختلف داده کاوي قابل اعمال بر روي سیستم هاي آموزشی مورد بررسی و تحلیل قرار می گیرند. کاربردهاي مربوط به بخش 4و زیر بخش هاي آن شناخت بیشتري از انواع مختلف دانشجویان و خصوصیات و رفتار هاي آنها فراهم می کند و بدین ترتیب به مؤسسات کمک می کند تا منابع را به نحو مؤثرتري تخصیص دهند. در بخش 5 و زیر بخش هاي آن پیش بینی ثبت نام در یک رشته یا درس خاص مورد تحلیل و بررسی قرار می گیرد. در بخش هاي بعدي نیز رفتارهاي دانشجویان و فارغ التحصیلان به تناسب نوع کاربرد مورد بررسی و تحلیل قرار گرفته است، به عنوان مثال نحوه انتخاب واحد دانشجویان و الگوهاي مختلف در انتخاب واحد آنها، نحوه رفتار آنها در طول تحصیل در ارتباط با گذراندن دروس و انتخاب دانشجویان مناسب براي مقاصد مختلف. سرانجام در بخش انتهایی خلاصه گیري و نتیجه ارائه می شود و پیشنهاداتی براي تحقیقات بعدي ارائه می شوند.
-2 فرآیندهاي سیستم آموزش
به طور کلی هدف اصلی هر مؤسسه آموزش عالی تسهیل امر یادگیري می باشد. در مورد آموزش هاي حرفه اي به عنوان مثال مهندسی یا مدیریت هدف مؤسسه تربیت یک متخصص خوب در آن حرفه یا رشته خاص می باشد. براي دستیابی به این هدف نیازمند ارتقا کیفیت متقاضی و فرآیندي که وي طی می کند، هستیم. فرآیند انتخاب یک متقاضی به عنوان دانشجو، آموزش و کمک به او براي کسب مهارتها و در نهایت ورود او به بازار کاري مناسب، سطح کیفیت یک مؤسسه را تعریف می کند. مؤسسات به منظور حفظ این کیفیت در یک سطح قابل قبول نیازمند آن هستند که از روش هاي معتبر و قوي براي انتخاب دانشجو و مشاوره وي در هر مرحله از تحصیل استفاده شود. شکل شماره 1 مراحل و فرآیندهاي گذر یک دانشجو در یک مؤسسه آموزش عالی را نشان می دهد.
در مرحله اول فرد به عنوان یک متقاضی با مؤسسه ارتباط برقرار می کند .(S1) در طول یک فرآیند مشاوره و گزینش پیش می رود (C1) و یک دانشجو می شود .(S2) در S2، شخص در طول فرآیند آموزش پیش می رود و مورد آموزش،
مشاوره و ارزیابی قرار می گیرد .(C2) در مرحله بعد دانشجو وارد فرآیند فارغ التحصیلی (C3) می شود و در طول این فرآیند جهت کنترل گذراندن دوره مطابق با قوانین و مقررات و صدور مدارك فارغ التحصیلی پیش می رود. دانشجو به عنوان یک متخصص از این مرحله عبور می کند و یک فارغ التحصیل می شود .(S3) فارغ التحصیل در مرحله بعد وارد فرآیند خدمات بعد از فارغ التحصیلی (C4) می شود. این فرآیند شامل فعالیتهایی نظیر پاسخ به استعلام مدارك فارغ التحصیلان و ارائه گواهی هاي درخواستی آنها می باشد.
کیفیت متخصصی که در نهایت وارد بازار کار مناسب می شود تا حد بسیار زیادي به کیفیت تک تک فرآیندهاي C1, C2, C3 و C4 وابسته است. از طرفی از آنجاییکه هر فرد در قابلیت ها و توانایی هایش منحصر به فرد می باشد براي هموار سازي و ارزشمند کردن فرآیند گذار دانشجو، نیاز است که تک تک این فرآیندها با داده کاوي و تحلیل داده هاي مرتبط مورد پشتیبانی قرار بگیرند. به عنوان مثال پذیرش دانشجو بر پایه معیارهاي مختلفی مانند درصد نمره دانشجو در امتحان ورودي، مصاحبه شخصی، پیش زمینه هاي تحصیلی قبلی، تجربه کاري و فعالیتهاي فوق برنامه صورت می گیرد. در واقع داده هاي آموزشی و اطلاعات دموگرافیک دانشجو تأثیر زیادي بر روي کارایی فرآیند انتخاب و مشاوره تحصیلی دانشجو دارد. با کمک ابزارهاي تحلیل داده و داده کاوي تا حد بسیار زیادي می توان کیفیت هریک از این فرآیندها را ارتقا بخشید. [5]
بیک زاده و دلاوري [12] شش فرآیند اصلی را در هر سیستم آموزش عالی مشخص کرده اند که شـامل ثبـت نـام، برنامـه ریزي، ارزیابی، مشاوره، بازاریابی و آزمون می باشد. هر فرآیند اصلی می تواند به زیر فرآیندهایی تقسیم شود. بـه عنـوان مثـال
"ارزیابی" یک فرآیند آموزشی می باشد و زیر فرآیندهاي اصلی آن شامل "ارزشیابی دانشجو"، "ارزشیابی مدرس"، "ارزشـیابی آموزش"، "آرزشیابی واحد درسی" و "ارزیابی ثبت نام دانشـجو" مـی باشـند. مقصـود اصـلی در داده کـاوي آموزشـی 1بهبـود فرآیندهاي فعلی به فرآیندهاي جدید و ارتقا یافته اي است که مزایاي برتري نسبت به فرآیندهاي قبلی دارند.
به عنوان مثال "ارزیابی ثبت نام دانشجو" یک زیر فرآیند از فرآیند "ارزیابی" است. با استفاده از بعضی تکنیک هاي پیش بینی در داده کاوي مانند تحلیل شبکه هاي عصبی، رگرسیون خطی و چند گانه بر روي مجموعه داده هاي سیستم، این فرآیند سنتی سیستم آموزش می تواند ارتقا یابد و الگوهاي موفقیت کسانی که براي دانشگاه پذیرفته شده اند استخراج شود. فرآیند ارتقا یافته نهایی امکان بازگشت هر دانشجوي ثبت نام شده در دانشگاه در نیمسال هاي آتی را پیش بینی می کند. "طراح الزامات پذیرش ثبت نام"2 به عنوان یک موجودیت خارجی در دانشگاه می تواند از نتایج فرآیند استفاده کند و پیش بینی دقیقی از تعداد دانشجویان ورودي جدید در هر سال ارائه دهد. [12]
داده کاوي می تواند به هر یک از عاملان فرآیند آموزش کمک کند. دانش قابل کشف از طریق داده کاوي در حوزه آموزش نه تنها قابل استفاده صاحبان سیستم یعنی مدرسین و مسئولین آموزشی بلکه قابل استفادة کاربران سیستم یعنی دانشجویان نیز می باشد. مؤسسات می خواهند بدانند که کدامیک از دانشجویان در یک درس خاص ثبت نام خواهند کرد، کدامیک از آنها به کمک ویژه و رسیدگی جهت فارغ التحصیل شدن نیاز دارند، کدامیک احتمال افتادن در یک درس و یا حذف پیش از فارغ التحصیلی را دارند، کدام زیر مجموعه از فارغ التحصیلان احتمال بیشتري براي عرضه تعهدات مالی دارند، یک مدیر ممکن است بخواهد به اطلاعاتی نظیر اطلاعات پذیرش دانشجویان پی ببرد و میزان ثبت نام دانشجویان در یک کلاس را به منظور برنامه ریزي و زمانبندي پیش بینی کند. دانشجویان ممکن است بخواهند بر اساس پیش بینی نحوه عملکرد شان بر طبق واحدهاي انتخابی خاص به بهترین نحو واحدها را انتخاب کنند. آموزشیاران ممکن است بخواهند بدانند که چه تجربیات یاد گیري کمک بیشتري در خروجی نهایی یادگیري دارند، چرا یک کلاس عملکرد بهتري نسبت به دیگري دارد، گروهاي دانشجویی شبیه به هم کدامند و ... .
دانش قابل کشف از طریق داده کاوي با ارائه توصیه هایی می تواند به دانشجویان کمک کند تا فرآیند یادگیري را ارتقاء دهند و موفق عمل کنند. از طرفی بازخورد هاي عینی به مدرسین ارائه می دهد که از طریق آن می توانند کارایی فرآیند یادگیري را ارتقا دهند و به مسئولین آموزشی کمک می کند تا منابع سازمانی اعم از مادي و انسانی را به نحو بهتري تخصیص دهند. 2]،[9
شکل شماره 2 چرخه اعمال داده کاوي به سیستم هاي آموزش عالی و ذینفعان آن را نشان می دهد.
-3 کاربردهاي داده کاوي در آموزش عالی
بسیاري از تکنیکهاي داده کاوي که در دنیاي تجارت استفاده می شود، قابل انتقال به حوزه آموزش عالی می باشند. تقریباً تمامی الگوریتم ها و مدل هایی که در حال حاضر در بخش تجارت مورد استفاده قرار می گیرند، مستقیماً یا با اندکی تغییرات قابل استفاده براي تحقیق در حوزه آموزش عالی علی الخصوص تحقیقات مؤسسه اي می باشند. جدول شماره 1 سؤالات مطرح در حوزه آموزش عالی و سؤالات معادل آن در حوزه کسب و کار که از طریق داده کاوي قابل پاسخ می باشند را بیان می کند. [6]
جدول-1 سؤالات داده کاوي مطرح در حوزه در آموزش عالی و سؤالات معادل آن در حوزه تجارت
به طور کلی تکنیک هاي داده کاوي فهم عمیقی از الگوهایی را که قبلاً نا شناخته بودند ارائه می دهند. داده کاوي غیر نظارتی3 در شرایطی به کار می رود که الگو ها یا گروههاي ویژه ناشناخته اند. به عنوان مثال، در پایگاه داده انتخاب واحد دانشجویان اطلاعات بسیار کمی در مورد اینکه کدام دروس معمولاً با هم اخذ می شوند، یا اینکه چه نوع دروسی با چه نوع دانشجویانی مرتبط هستند وجود دارد. داده کاوي غیر نظارتی معمولاً در چنین حالاتی در ابتداي فرآیند مدل سازي به کار می رود تا الگوهایی را که از قبل پنهان می باشند کشف کند و از این طریق به فهم، توصیف و دسته بندي داده ها قبل از اعمال فرضیه ها کمک کند و تحلیل جامعی از خصوصیات دانشجویان ارائه دهد.
داده کاوي نظارتی4 نیز در شرایطی به کار می رود که رکورد ها خروجی شناخته شده اي دارند. به عنوان مثال یک پایگاه داده مربوط به فارغ التحصیلان شامل رکورد هاي دانشجویانی است که همه دروسشان را گذرانده اند و یا ادامه تحصیل را نیمه کاره رها کرده اند و از سیستم حذف شده اند. داده کاوي نظارتی در اینجا از طریق اتصال الگوهاي رفتاري به سوابق تحصیلی و سایر اطلاعات ذخیره شده، براي مطالعه رفتار هر دو گروه به کار می رود. پس از ساخت مدل نهایی می توان از آن جهت پیش بینی رفتار دانشجویان جدید و احتمال فارغ التحصیلی آنها استفاده کرد. تکنیک هاي پیش بینی احتمال خروجی هاي مختلف از دانشجویان مانند انتقال، ماندگاري و موفقیت آنها در کلاس ها را برآورد می کنند. بعلاوه، پیش بینی در داده کاوي به دانشگاه ها و مؤسسات آموزش عالی این امکان را می دهد که با کمک اطلاعات دریافتی از تعداد دانشجویانی که درس خاصی را اخذ می کنند یا تعداد دانشجویانی که در درس خاصی موفق می شوند، قبل از تخصیص منابع به درستی عمل نمایند و یا با شناخت الگوهاي دانشجویان مشروطی و یا دانشجویانی که موفق به گذراندن دروس خاصی نخواهند شد قبل از اینکه دانشجویی با مشکل مواجه شود، اقدامات لازم را به عمل آورند. 8]، 13، [16
در ادامه مقاله برخی از کاربردهاي کلیدي داده کاوي در حوزه آموزش عالی را مطرح می کنیم. هریک از این کاربرد ها، بخشی از فرآیند هاي سیستم آموزش را ارتقاء می بخشد.
-4 ایجاد انواع (گونه هاي) معنا داري از دانشجویان
مؤسسات آموزشی چه اطلاعاتی از دانشجویان خود دارند؟ اگر جواب درصد ثبت نام دانشجویان یا آمارهایی از این قبیل می باشد، نشان دهنده این است که مؤسسات دانشجویان خود را آنقدر که باید بشناسند، نمی شناسند! از طریق تکنیک هاي داده کاوي غیر نظارتی می توان انواع معنا داري از دانشجویان را براي فهم بهتر رفتار آنها ایجاد کرد. ممکن است دانشگاه ها بر اساس اعلامات اولیه دانشجویان از اهداف تحصیلی شان در هنگام ثبت نام، شناسایی کلی از دانشجویان خود داشته باشند. مثلاً آنهایی که به دنبال مهارتها و آموزشهاي حرفه اي هستند، آنهایی که به دنبال مهارت هاي پایه اي هستند یا آنهایی که فقط به دنبال فارغ التحصیل شدن می باشند. هر چند اینها تقسیم بندي هاي جامعی هستند، ولی کمکی به نشان دادن تفاوت ها میان انواع دانشجویان نمی کنند. براي حل این مشکل می توان از دو الگوریتم قوي خوشه بندي TwoStep و K-means
استفاده کرد. البته حذف نقاط پرت5 (نقاطی که به نظر نمی آید به گروه خاصی متعلق باشند) در ایجاد خروجی مفید نقش اساسی دارد. از طریق این خوشه بندي ها می توان مدت تحصیل دانشجویان را تعیین کرد. اینکه کدامیک احتمال بیشتري براي ترك تحصیل دارند و یا کدامیک پس از ترك تحصیل بازمی گردند. بدین ترتیب داده کاوي با کمک اطلاعات دموگرافیک
سایر اطلاعات تحصیلی دانشجویان کمک بسیاري به ارتقا فهم دانشگاه از انواع دانشجویان خود می کند. این اطلاعات به مؤسسات آموزش عالی کمک می کند تا تصمیمات بهتري درباره نحوه برخورد با انواع دانشجویان اتخاذ کنند.
از طرفی یکی از مراحل اساسی تکنیک دسته بندي در داده کاوي تعیین دسته هاي رکورد ها قبل از مدل سازي می باشد
خوشه بندي می تواند از این طریق در دسته بندي دانشجویان نیز کمک کننده باشد و دقت مدل هاي پیش بینی کننده را بالا ببرد. به عنوان مثال در دسته بندي دانشجویان یک کالج به دسته هاي "آنهایی که به سرعت واحدهاي خود را به اتمام می رسانند "، "آنهایی که مدت تحصیلشان زمان قابل توجهی می باشد" و یا "میانه روها" می رسیم. 9]، [13
چند مورد از کاربردهاي خوشه بندي به تفصیل در بخش هاي بعدي آورده شده است.
-1-4 خوشه بندي و پیش بینی دانشجویان ماندگار و غیر ماندگار
امروزه ماندگاري دانشجویان در دانشگاه ها به عنوان یکی از شاخص هاي تعیین کننـده عملکـرد و مـدیریت ثبـت نـام آن دانشگاه یا مؤسسه آموزش عالی شناخته می شود. هر قدر تعداد دانشـجویان مانـدگار6 بیشـتر باشـد آن مؤسسـه برنامـه هـاي تحصیلی بهتر و درآمد بالاتري خواهد داشت. از اینرو یکی از وظایف مهم در مدیریت مؤسسات آموزش عالی تعیین دانشجویانی است که احتمال کمتري براي بازگشت دوباره در ترم آینده دارند. تشخیص این دانشجویان کمک شایانی بـه تعیـین اسـتراتژي هاي بازاریابی و افزایش نرخ ماندگاري دانشجویان می نماید.
لیستی از متغیرهاي انتخابی براي انجام عملیات داده کاوي به این قرار است: اطلاعات دموگرافیک مانند: (سن، جنس، نژاد، دبیرستان، کد پستی (جهت تعیین فاصله)، ساعات کاري برنامه ریزي شده، اقامت، موقعیت تحصیلی در ثبت نام اولیه)، تعداد کل واحدهاي گذرانده، تعداد واحدهاي اخذ شده از: اصلی، کار آموزي، پایه، علوم انسانی و تخصصی، تعداد کل واحدهاي اخذ شده و معدل نمرات دروس اخذ شده و تعداد نیمسال هاي ثبت نام کرده.
پیش بینی احتمال بازگشت یک دانشجو به دانشگاه در ترم آینده یک نقطه شروع به حساب می آید. بر حسب تجربه، شبکه هاي عصبی و دو الگوریتم استنتاج قانون به نام C5.0 و C&RT براي این منظور بسیار مناسب می باشند. شبکه هاي عصبی مصنوعی تا حد زیادي با داده کاوي مترادف و هم معنی می باشد و بنابراین نقطه شروع مناسبی براي ساخت مدل اولیه می باشند. . مدل استفاده شده شامل دو لایه پنهان می باشد. در مرحله بعد نیز دو الگوریتم پیشنهادي بعدي جهت پیش بینی
(دسته بندي و درخت رگرسیون) مورد بررسی قرار می گیرند. C&RT شکست هاي دودویی در درخت را به خوبی کنترل می کند، در حالیکه شکست هاي چند تایی با C5.0 به خوبی کنترل می شوند. این دو الگوریتم در معیاري که براي شکست استفاده می شود با هم تفاوت دارند. C5.0 از معیارهایی که در تئوري اطلاعات مطرح است استفاده می کند، در حالیکه الگوریتم C&RT از شاخص Gini استفاده می کند. 15]، [3
متدلوژي انجام خوشه بندي و پیش بینی دانشجویان ماندگار و غیر ماندگار به این صورت می باشد که در اولین مرحله متغیر خروجی تعیین می شود. در اینجا متغیر خروجی ثبت نام یا عدم ثبت نام دوباره در ترم آینده می باشد که به ترتیب با “P” و “NP” در پایگاه داده مشخص می شوند. می توان از الگوریتم غیر نظارتی TwoStep براي خوشه بندي استفاده کرد، زیرا نسبت به سایر الگوریتمهاي خوشه بندي مانند Kohonen Nets و K-means کاربر پسندتر می باشد و نسبت به انواع داده هاي ورودي حساسیتی ندارد. نتایج خوشه بندي نه تنها کمک به فهم بهتر خصوصیات مجموعه داده ها می کند، بلکه کمک می کند تا متغیرهاي با اهمیت کمتر را حذف کنیم یا وزن کمتر بدهیم، بویژه در مواقعی که از لحاظ زمان یا حافظه در مضیقه هستیم. از طرفی می توان از الگوریتم 7PCA و یا Factor Analysis براي حذف متغیرهاي اضافی استفاده کرد. در مرحله بعد داده ها به دو مجموعه آموزش و تست تقسیم می شوند. در مرحله بعد به سراغ استفاده از شبکه عصبی جهت آموزش و تست مدل می رویم. از آنجائیکه هدف اصلی این پروژه پیش بینی درست دانشجویانی است که در نیمسال بعدي ثبت نام نخواهند داشت، می توان دقت پیش بینی دانشجویان غیرماندگار را به قیمت کاهش دقت پیش بینی دانشجویان ماندگار، افزایش داد. یعنی تصمیم گیرندگان ترجیح می دهند که بعضی از دانشجویان ماندگار را غیر ماندگار تشخیص دهند تا در اهداف بازاریابی موفق تر باشند. براي تحقق این منظور می توان از نظرات فرد خبره و حرس کردن سود جست. به این ترتیب دقت پیش بینی تا حد زیادي افزایش می یابد.
پس از بررسی نتایج، شبکه عصبی بهترین مدل را براي هدف مورد نظر ارائه داد، اما از آنجائیکه به صورت جعبه سیاه عمل می کند و فراتر از لیست اهمیت نسبی متغیرهاي ورودي اطلاعات بیشتري فراهم نمی کند و در واقع مدل نهایی هیچگونه شفافیتی ندارد، ضرورت دارد که از یک مدل استنتاج قانون براي ارائه قوانین پنهان و فهم بهتر عملکرد مدل استفاده کرد. C5.0 می تواند هر دو درخت تصمیم و مجموعه قوانین را تولید کند. در تحقیق انجام شده توسط Jing Luan (2002)، این الگوریتم 13 قانون براي دانشجویان ماندگار و 38 قانون براي دانشجویان غیر ماندگار تولید کرد. [8]
-2-4 داده کاوي بر روي داده هاي ثبت نام دانشگاه جهت تحلیل ماندگاري دانشجویان سال اول با کمک داده کاوي می توان بررسی کرد کدامیک از دانشجویان سال اول احتمال بیشتري براي ترك تحصیل بعد از سال
اول تحصیل شان دارند. اگر امکان تشخیص این قبیل دانشجویان فراهم باشد، مؤسسات قادر خواهند بود استراتژي هاي بازاریابی و سایر برنامه هایشان را به نحو مناسبی تنظیم کنند و از این طریق نرخ ماندگاري دانشجو را در آینده ارتقا بدهند.
Ming Yang ( 2006)، براي تحقق این منظور از دو مجموعه داده هاي ثبت نام دانشجویان و داده هاي ثبت نام کلاسی دانشگاه تگزاس از پاییز 2000 تا پاییز 2004 که با فیلد مشترك شماره دانشجویی با هم ترکیب شده اند، استفاده کرده است.
لیست کلیه متغیرهاي مورد استفاده جهت انجام عملیات داده کاوي به این قرار است: شماره دانشجویی، جنسیت، نژاد، سن،