APP下载

基于Stacking集成学习模型的学生学习成绩预测研究

2024-09-15李杰程鸿芳张磊

科技风 2024年26期

摘要:以数据为载体驱动学生学习表现评估是教育领域的重要研究内容,鉴于单一学习模型在学习成绩预测时会出现泛化效果较差的情况,提出一种融合多个单一学习模型的Stacking集成学习模型,以KNN、逻辑斯谛回归、朴素贝叶斯、决策树四种模型作为集成学习模型的基分类器,选择XGBoost模型作为次学习器。结果表明,Stacking集成学习模型的准确率为99.4%、F1-score为96.18%,优于单一学习模型,对在线课程的学习成绩预测有较好的效果,能够有效预测学生的学习表现,为开展在线教学的教师提供学习预警。

关键词:在线学习;Stacking;集成学习;成绩预测

随着信息技术的快速发展,在线学习已成为一种日益普及的教育形式。在线学习突破了传统课堂的时空限制,使得学习方式更加灵活。《教育部2022年工作要点》中明确指出[1],要积极推进教育数字转型和智能升级,构建基于数据的教育治理新模式,从而改进学生的评价模式。现有的研究表明,学习行为和学习成绩之间存在密切的关系[2],学习行为是影响学业成就的重要因素,及时评测与干预学习行为会对学习成绩的改善有促进作用[3]。教师在传统的课堂多采用总结性评价方式评估学生的学习质量,但是总结性评价无法有效体现学生学习过程中的学习状态。在对学生的学习成绩的研究中,自我报告数据会被部分学者采纳,而自我报告的数据不能真实反映实际的学习行为[4];在线教育的兴起,教育数据的迅速增加,以学习行为数据为载体驱动教育的合理评价与科学变革,成为研究学者所需要思考的问题。针对上述问题,本文采取“集体决策”思路,采用集成学习方法构建学习成绩预测模型,并与单个分类模型进行性能比较分析。

一、相关研究

机器学习是基于经验自动改进其系统性能的人工智能领域的一门科学,集成学习作为机器学习的一种训练思路,旨在将数据融合、数据建模和数据挖掘整合到一个统一的框架中,在许多应用中都表现出明显的优势。基于学生的学习行为数据,可以了解学生的学习情况,国内外的学者应用机器学习等算法开展了较多的研究。Jiang等[5]基于Coursera开设的6门课程数据,选取了对课程有影响且所有课程共有的学习行为特征对学习成果进行了预测。You[4]探究了大学生的LMS数据与课程成绩之间的关系,研究发现定期学习、迟交作业、课程登录频率以及阅读课程信息包的证明是预测学生课程成绩的指标。

近年来,研究者们开始关注将不同类型的模型和异构数据进行集成,以更全面地理解学生学业表现,为学生学习情况提供全面的预测。Priyambada[6]提出了一种结合集合学习和基于集合的渐进式双层集合学习技术,并利用学生的学习行为数据和领域知识来预测当前和过去的成绩,结果表明,双层集合学习技术在学生数据集上的准确性得到了提高。Teoh等[7]使用三种集成学习方法来预测学生的表现,通过平衡输出特征的数量来建立集成学习模型。结果表明,所提出的AdaBoost型集成分类器的预测精度最高。陈子健等[8]采用数据挖掘和机器学习的方法对480名的学生学习成绩进行预测,研究结果表明对基分类器的结果进行组合的集成学习方法可以有效提升预测模型的性能。赵宇奔等[9]基于学情预测存在数据维度单一和数据结构不平衡等问题,构建高准确性和高泛化能力的K-XGBoost学情预测融合算法,实验结果表明,K-XGBoost多个子类模型的预测值均较好地逼近真实值。

二、特征工程

(一)数据来源

本研究使用在线课程注册和学生参与数据集,该数据集来自kaggle,该数据集包括课程ID、学生ID、学生的注册状态信息、是否查看课程内容、是否详细浏览课程内容,以及最终是否获得了课程证书等信息。采集到的数据总计641138条,根据是否有缺失信息标志的字段以及缺失信息的数据,共剔除510,339条数据,最终保留的数据数为130799条。剔除与学习成绩预测无关的属性:索引(index)、随机数(Random)、课程id(course_id)、用户id(userid_DI)、是否注册(registered)、用户在课程中的角色(roles)、是否有缺失信息(incomplete_flag),并将参加该课程最后一次活动和开始学习该课程的日期相减,构建学习课程天数新属性,最终形成每条数据记录共14个属性如表1所示。

本研究依据学习者最终是否获得相应的课程证书,将学习者的学习成绩划分为两个层次,其中:没有获得课程证书的为0,获得课程证书的为1。

数据集中包含定类变量和数值变量,为减少数值变量取值差异对最终预测产生影响,对数值变量归一化处理,让所有数值数据取值映射在0-1之间。

(二)学习成绩影响因素的选取

处理后的数据中仍包含一些与学习成绩相关性较小的变量,与学习成绩相关程度较小的学习行为属性需要删除。本研究选择对属性排序的方式确定最终的学习成绩影响因素,本实验基于Python的库SciPy,将学习成绩影响因素与学习成绩进行相关性分析并判断显著性,选取和学习成绩相关性>0.4且显著性p<0.01的6个变量,分析的结果如表2所示。

从表2中可以看出,在线学习中除浏览外是否还对课程内容进行其他学习、课程的考核评价、互动操作的次数、在课程中活跃的天数、在课程中点击视频次数、参与互动的章节数量6个指标与学习成绩显著正相关,其中,课程的考核评价与学习成绩的相关性最大,为0.92,在课程中点击视频次数与学习成绩的相关性最小,为0.41,因此选取上述6个指标作为预测变量。

一、实验及结果分析

在本研究中,将是否完成课程并获得证书视为课程的学习成绩,预测类别为:0、1。分类任务的主要过程是将数据集划分成训练集和测试集,训练集用来让模型学习数据特征,测试集用来评估训练的模型性能优劣。单一分类器在某些情况下表现出色,但会出现分类效果不佳,模型的泛化能力较差的情况。为提高分类器的性能,本研究采用集成学习的方法,将多个单一分类器组合成一个效果更好的集成分类器。选取KNN、逻辑斯谛回归、朴素贝叶斯、决策树四种模型作为集成学习模型的基分类器,选择XGBoost模型作为次学习器。集成学习模型框架如图1所示。

本文采用准确率(Accuracy),F1得分(F1-score)两个指标评价算法的预测结果。准确率是二分类模型中最直观的评价指标,易于解释和理解,但是准确率的局限性在于,当数据集不平衡时,即某一类的样本数量远大于其他类时,准确率可能会失去参考价值。F1得分是综合考虑精确率和召回率的结果,可以同时考虑到模型的精确性和完整性,因此在数据不平衡的情况下,F1得分通常比准确率更能准确地反映模型的性能。最终的模型实验结果如图2、图3所示。

从图2、图3中可以看出,stacking集成学习模型性能优于单一学习模型。其中:stacking集成学习模型的准确率为99.4%,比单一学习模型中表现最好的逻辑斯谛回归模型高0.09%;stacking集成学习模型的F1-score值为96.18%,比单一学习模型中表现最好的逻辑斯谛回归模型高0.59%。

从上述实验结果中可以看出,Stacking集成学习模型融合KNN、逻辑斯谛回归、朴素贝叶斯、决策树以及XGBoost模型的性能效果优于单一学习模型,这是因为当多个基础学习器之间存在差异,在训练过程中模型可能出现局部最小点的情况,但每个学习器都可能在某些方面有所优势通过“博采众长”的策略,通过结合多个基础学习器的预测效果来生成最终预测结果,可以提高模型的准确性和稳定性,有效减少局部最小点风险。

一、总结

本研究基于“以学习行为数据为载体驱动教育的合理评价与科学变革”的研究问题,鉴于单一学习模型的泛化能力较弱的情况,提出一种两层的Stacking集成学习模型,以KNN、逻辑斯谛回归、朴素贝叶斯、决策树为初级学习器,XGBoost模型为次级学习器。通过数据清理、相关性分析、显著性分析和特征选取等特征工程,确定了新的数据集,用于后面模型的学习、训练与预测,通过实验将Stacking集成学习模型与KNN、逻辑斯谛回归、朴素贝叶斯、决策树四个单一学习模型进行比较。结果表明:Stacking集成学习模型在准确率和F1-score两个性能指标均优于单一学习模型,对在线课程的学习成绩预测有较好的效果。由于此次的数据集的采集场景为在线课程,后续研究可以考虑结合混合式课堂的数据,构建效果更佳的学习成绩预测模型,从而提高学生学习情况的预测效果。

参考文献:

  • 教育部.教育部2022年工作要点[OL].

http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/202202/t20220208_597666.html.

  • CredéM,KuncelNR.Studyhabits,skills,andattitudes:Thethirdpillarsupportingcollegiateacademicperformance[J].Perspectivesonpsychologicalscience,2008,3(6):425-453.
  • JoséHanhama,ACBL,BTT.Theinfluenceoftechnology acceptance,academicself-efficacy,andgenderonacademicachievementthroughonlinetutoring[J].Computers&Education,2021(5):104252.
  • YouJW.IdentifyingsignificantindicatorsusingLMSdatatopredictcourseachievementinonlinelearning[J].TheInternetandHigherEducation,2016,29:23-30.
  • ZhuoxuanJ,YanZ,XiaomingL.LearningbehavioranalysisandpredictionbasedonMOOCdata[J].Journalofcomputerresearchanddevelopment,2015,52(3):614.
  • PriyambadaSA,UsagawaT,MahendrawathiER.Two-layerensemblepredictionofstudents’performanceusinglearningbehavioranddomainknowledge[J].ComputersandEducation:ArtificialIntelligence,2023,5:100149.
  • TeohCW,HoSB,DollmatKS,etal.Ensemble-Learningtechniquesforpredictingstudentperformanceonvideo-basedlearning[J].InternationalJournalofInformationandEducationTechnology,2022,12(8):741-745.
  • 陈子健,朱晓亮.基于教育数据挖掘的在线学习者学业成绩预测建模研究[J].中国电化教育,2017(12):75-81+89.
  • 赵宇奔,王鑫宁,李崇.基于K-XGBoost融合模型的高校学生学情预测研究[J].南京师大学报(自然科学版),2023,46(03):89-97.

基金项目:2023年度安徽省科研编制计划项目---基于物联网和大数据的汽车充电桩控制系统设计(项目编号:2023AH052385);2024年度芜湖职业技术学院校级科学研究项目(wzyzr202435);2023年质量工程项目(2023jyxm1311);新时代职业学校名师(名匠)名校长培养计划

作者简介:李杰(1996—),男,安徽合肥人,硕士,芜湖职业技术学院信息与人工智能学院助教,研究方向:计算机应用、数据挖掘。