智慧教育背景下采用机器学习技术的成绩预测决策系统
2021-04-11李国峰
李国峰
(滁州学院 教育科学学院,安徽 滁州 239000 )
机器学习技术在智慧教育中的应用已经成为挖掘数据价值、探索智慧教育的新兴领域.基于机器学习技术,深挖数据价值,建立智慧教育背景下的学生成绩预测系统,是教育发展的必然趋势.随着越来越多的学生进入在线学习环境,有关学生访问和学习模式的数据库将不断增长,诸如考试分数等电子信息可为教师提供有力的决策工具.这些数据使教育利益相关者能够发现关于学生的新的、有趣的和有价值的信息.国内外学者对此进行了深入的研究[1-4].Hershkovitz 等[5]提供了一种基于智慧教育的机器学习技术应用分类;Kabra 等[6]将决策树分类算法应用于教育系统预测学生的学习成绩,并提取特征用以描述未来学生在考试中的成绩;Kotsiantis[7]在前人工作的基础上,开发了一个基于回归技术的原型决策支持系统,用于预测学生未来的成绩.
基于前人的研究,本文提出了一种基于机器学习算法的决策支持工具,其被用于预测学生在学年期末考试中的表现.该工具的显著优点为具有简单的接口,使得其可部署在任何操作系统下的任何平台上,同时支持学生入学程序和教育机构的服务系统,因此更有利于挖掘影响大学生成绩的主要因素,最终为高校学生成绩辅导提供科学的决策.
1 智慧教育中的机器学习
传统的数据库只能实现成绩查询、查找表现较差的学生、查找最高分的学生等功能.而作为一个新兴的研究领域,机器学习对提高教育机构和教育系统的质量具有巨大的潜力.在过去的十年中,因为教育利益相关者能够通过机器学习发现关于学生的新的、有趣的和有用的信息并能改善传统教育系统的不足[8],因此这一领域的研究呈指数级增长.机器学习的重要性在于帮助教育工作者和研究人员从复杂的问题中提取有用的数据[9],其应用主要集中在开发准确的模型、预测学生的成绩和表现等方面,从而提高学习体验和学习效果.
1.1 预测成绩的意义
高等教育的快速发展使得高校不断地扩大办学规模,专业数量越来越多,同时招生的人数也越来越多,准确预测学生在不同阶段的学习成绩对教育工作者实施学生教学管理具有至关重要的意义[10].为了预测学生的成绩,教育者可以将学生的口头和书面考试以及少量的评估测试中的成绩作为强有力的决策工具.通过预测结果为每一名学生指定最合适的干预措施,并根据他们的需要提供进一步的帮助.此外,对学习成绩比较差的学生进行准确识别,有助于教师结合学生的实际情况提供更具针对性的教育服务方式,从而确保学生获得良好的知识教育.
1.2 智慧教育机器学习技术
机器学习是从一组已知属性值来预测未知属性值的过程[11].为此,人们开发了大量人工智能和统计的技术和算法.贝叶斯网络的结构是由节点和链接的有向无环图和一组条件概率表组成.网络中的每个节点都与一个特性相关联,节点之间的链接表示它们之间的关系,链接的强度由条件概率表决定.人工神经网络(ANN)是由紧密联系的自适应处理单元组成的并行计算模型,具有从经验中学习和发现新信息的特点[12].决策树是监督分类学习中应用最广泛的算法之一,其使用一组训练示例创建一个基于树结构的模型,并旨在将属于不同类别的示例分离开来.支持向量机(SVM)是一组监督学习方法,作为分类中最精确的判别方法的一部分,可对广义画像算法的非线性模型的扩展[13].该算法基于结构风险最小化,这是机器学习中使用的一个归纳原则.利用适当选择的具有足够维数的特征空间,可以分离出任何一致的训练集[14-15].图1 为成绩预测决策流程示意图.
图1 成绩预测决策流程示意图
2 随机森林决策系统
2.1 方法与数据集
本研究的目的是开发一种决策支持工具来预测学生在期末考试中的表现.
第一阶段为数据收集和数据准备阶段.第二阶段为模型构建阶段,通过一系列的测试来评估每种机器学习技术中最流行和最常用的算法的分类性能.在第三阶段中将准确率最高的分类器整合到一个用户友好的软件工具中,且该工具被用于预测学生的成绩,以便教育工作者更容易地识别出弱势学生并提供支持行动.
本研究使用的数据是某高校大一学生的外国语成绩,包括279 个不同的数据集.该数据集与学生的口语成绩、考试成绩和期末考试成绩有关.在学生绩效评估中使用分类方案,将学生分为4 个等级.
1)“Fail”代表学生表现得分为0~9.
2)“Good”代表学生表现得分为10~14.
3)“Very good”代表学生表现得分为15~17.
4)“Excellent”代表学生表现得分为18~20.
图2 给出了数据集的分布,图中显示了被划分为“失败”(53 个实例)、“良好”(76 个实例)、“非常好”(85 个实例)和“优秀”(65 个实例)的学生数量.
图2 数据集分布
2.2 研究的数据集
本文数据集的属性(特性)和每个属性的值如表1 所示.属性集分为3 组,分别为“注册属性”“导师属性”和“课堂属性”.
表1 数据集的详细信息表
2.3 随机森林分类
随机森林算法的步骤如下[16].
1)利用Bootstrap 方法多次采样,随机产生k 个训练集θ1,θ2,…,θk;利用每个训练集生成对应的决策树集{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)};
2)假设特征为M 维,从M 维特征中随机抽取m 个特征作为当前节点的分裂特征集,并以m 个特征中最好的分裂方式对该节点进行分裂;
3)在节点分裂的过程中不进行剪枝操作,确保每个决策树均得到最大限度的生长;
4)对于测试集样本Z,运用每个决策树进行测试,获取对应的类别{T(z,θ1)},{T(z,θ2)},…,{T(z,θk)};
5)运用投票法,将k 个决策树中输出最多的类别作为测试集样本Z 所属类别.
基于随机森林的学习成绩测评流程图如图3 所示.
图3 基于随机森林的学习成绩测评流程图
3 机器学习算法的实验结果
机器学习算法的最终目的在于获得一个函数模型,本文利用未知回归函数的样本对目标连续变量y 与变量x1,x2,…,xn的关系进行预测,这些样本描述了预测器和目标变量之间的不同映射.
本实验结果验证所采用算法:随机森林(RF)、递归流分类(RFC)、支持向量机(SVM)和前馈神经网络(BPNN).
实验分两个阶段进行.在第一阶段(训练阶段),使用采集的数据进行训练.训练阶段分为5 个连续的步骤.第一步为人员数据的统计、第一次课堂、书面作业和最终的课程情况(最终分数);第二步为第三次课堂情况;第三步为第三次书面作业;第四步包括第四次课堂情况;第五步包括表1 中描述的所有属性.
从导师登记的数据集中获取学生新学年的10 组数据,这10 组数据被用来验证成绩预测决策系统在测试阶段的准确性.测试阶段也分为5 个步骤.第一步为使用人口统计数据以及新学年的两次课堂和书面作业来预测每个学生的成绩,该步骤重复10 次.第二步采用这些人员统计数据和第三次课堂的数据来预测每个学生的成绩,该步骤重复10 次.第三步利用第二步的数据和第三次书面作业的数据来预测学生的成绩.剩下的步骤按照上面描述的方法使用新学年的数据,该步骤重复10 次.
表2 给出了实验中所有测试步骤中最容易理解的测量方法——平均绝对误差.
表2 实验结果的平均绝对误差
结果表明,M5 规则是用于构建软件支持工具的最精确的回归算法.M5 规则除了性能更好之外,还具有更高的可理解性的优点.
4 预测实验
为保证实测结果的可靠性,随机抽取80%的数据作为训练样本集,剩下20%为测试样本集,将随机森林(RF)、递归流分类(RFC)、支持向量机(SVM)和前馈神经网络(BPNN)进行对比.测试结果如表3 所示.
表3 识别效果
图4、图5、图6、图7 中,“*”表示大学生成绩状态的预测类别,“○”表示大学生实际知识储备,通过对比可以直观地显示大学生心理状态识别结果和实际大学生成绩状态类别,其中1、2、3、4 分别表示学习成绩:Excellent、Very good、Good 和Fail.当“*”和“○”重合时,大学生成绩状态的预测类别和实际类别一致,说明识别正确;当“*”和“○”不重合时,大学生成绩状态的预测类别和实际类别不一致,此时大学生心理状态识别错误.实验结果显示,随机森林的识别准确率为99.41%,其优于RFC 的96.30%、SVM 的96.50%和BP 的92.33%.通过对比发现随机森林具有更高的大学生心理状态识别率,效果较好.
图4 RF 识别结果图
图5 RFC 识别结果图
图6 SVM 识别结果图
图7 BPNN 识别结果图
5 结论
在智慧教育背景下,本文提出了基于机器学习技术的成绩预算决策系统,并利用数据挖掘方法和机器学习方法,建立学习预测体系,提升了预测效果,最终为教师的指导和管理提供支撑.本文工具的建立与应用可为确定缺乏学习动机的学习者寻找补救措施从而降低辍学率,同时预测其通过课程的成功率.通过对几种最先进的算法的比较,找到更适合帮助教师的教学辅助工具,从而更准确地预测学生的学习成绩.