基于在线学习行为数据的成绩预测方法
2022-05-30冯广罗时强陈卓江家懿伍文燕
冯广 罗时强 陈卓 江家懿 伍文燕
摘 要:针对目前成绩预测方法中存在准确率不高、实施性不强、可行性不佳等问题,文章提出一种基于浅层神经网络的预测模型。该模型采用调整的共轭梯度优化算法,将输入层与输出层进行连接,然后应用感知器进行学习成绩预测。与传统方法相比,该预测方法精度和准确率更高,而且实用性更强,能为后续优化与发展网络在线教育提供参考。
关键词:浅层神经网络;优化算法;成绩预测;在线教育
中图分类号:G434;TP183 文献标志码:A 文章编号:1673-8454(2022)08-0086-09
一、引言
随着信息化教育的快速发展,越来越多的线下教育方式转变成线上或者线上线下融合的方式。线上教育发展如此之快,源于线上教育的几个优点:线上教育无时间空间限制;多元化课程体系;可缓解教育资源不均问题。但是,在网络带来好处的同时,在线教育也存在弊端,很多学生存在学习注意力不集中、自制力不够、学习效率低等问题,导致学习进度跟不上,通常使用在线学习预警与干预系统来解决上述问题,而在线学习预测是该系统的核心。现有的在线学习系统预测模型有准确率不高、实施性不强、可行性不佳等三个问题,不利于实践应用。
本文分析学习管理系统(Learning Management System,简称LMS)提供的数据集,采用浅层神经网络(Shallow Neural Network,简称SNN)模型,通过学习数据集进行预测学习者未来学习情况的相关性研究,为教师后期干预学习者学习进度提供理论依据。在线成绩预测方法采用浅层神经网络模型研究准确率高、实用性强、可行性好,这也是本文采用SNN预测模型的主要原因。
二、预测模型研究分析
(一)相关研究
目前,已有很多研究者对教育大数据分析相关工作进行了大量研究,教育大数据的研究也从理论层面走向应用层面。[1]如何对在线学习行为数据进行提取和有效的分析评价,是目前在线教育平台共同面临的一个难题。[2]研究者基于教室监控视频分析教学主题与学生集中度的关系。例如,有学者为了更好地提高学生线上学习的集中程度,通过检测和跟踪学生的脸部表情,分析教学主题集中程度与教师教学特征的关系,更好地提高学生的注意力集中水平。[3]還有研究者通过研究学生行为特征数据集,来探讨各种行为特征与学习的影响。例如,有学者以edX数据集为基础,探讨与分析学生各种学习行为属性数据之间的关联性,以及学生的各种特征属性对学习效果的影响。[4]也有研究者使用动态贝叶斯算法,提出一种条件概率预测模型。例如,有学者构建贝叶斯模型,预测学生未来成绩的概率分布情况。[5]有学者通过MOOC的学生行为数据,进行认知诊断分析,用来确定学生的学习情况,分析出互动的学生更有机会通过这门课程。[6]有学者采集823名大学生在线学习数据、一卡通消费和借阅图书数据,通过五种机器学习模型对学习绩效进行预测分析,构建一种决策树和深度神经网络结合的学习诊断模型,来实现教学干预。[7]有学者指出,通过分析学生学习行为数据,预测学生的表现情况能够帮助教师更有效地了解学生的具体学习情况,并能够对其进行干预教学,以提高学生成绩。[8]通过在线学习数据预测建模找出影响学生学习成绩的因素,为教师了解学生实际学习情况提供帮助,也助于推进学生学业预警,为提高网络教学质量提供策略。[9-14]在预测准确率提升方法上,有学者采用朴素贝叶斯、前馈反向传播神经网络、支持向量机、决策树四种机器学习的分类算法,分析出四种方法的准确度、召回率、F值的精确度在84.96%~99.99%之间。[14]
(二)研究模型
在线教学主要是学生基于线上教育资源展开的自主学习活动,这要求学生自制能力强、学习注意力集中且不受外界环境影响,有效地完成在线学习任务、达到预期目标。在线学习也需要学生具备一些简单的计算机操作能力,并且学习环境、网络问题、学习设备等在一定程度上会影响学生的在线学习效率。因此,本文将影响学生在线学习成绩的16个特征属性作为研究对象,分析学生特征属性与学生成绩之间的关联性。模型先从16个特征属性中提取出影响学习成绩的主要特征属性,通过感知器模型训练一组数据,并得到一个分类模型,将未训练的数据导入分类模型,通过分类模型预测学生成绩,调整学生学习属性与学习成绩之间的关系,可以对成绩较差的学生进行预警并提供相应的帮助。
三、学习行为特征数据提取与分析
(一)数据来源
本研究采用LMS提供的数据集,数据来源于加州大学欧文分校的机器学习库[15][16](UC Irvine Machine Learning Repository),记录学生学业成绩数据集(xAPI-Edu-Data),该数据集记录480条数据,涉及学生16个特征属性及其成绩等级。成绩属性:成绩为H(成绩在90到100之间)的人数为142人、成绩为M(成绩在70到89之间)的人数为211人、成绩为L(成绩在0到69)的人数为127人;性别属性:男生305人,女生175人;国籍属性:来自科威特(179人)、约旦(172人)等主要国家;教育阶段:高中33人、初中284人、小学199人。还包括教育阶段、举手发言次数、访问资源次数、查看公告次数、参加讨论小组次数、学生缺席天数等特征属性。对数据集进行分析,这16个特征属性与学生成绩有相关性或者弱相关性,基于此进行相关性分析,提取与学习成绩相关的主要特征属性。
(二)数据标准化
因为本文的数据集中包含数值特征属性和字符特征属性,并且不同属性数值大小不能直接进行比较,为了避免不同类型的特征属性和不同单位对预测模型的干扰,所以在进行数据分析时先对数据进行标准化处理,目的就是将原始数据经过处理使其处于一定范围内,比如[0,1]或[-1,1]之间。这种标准化处理能消除不同特征属性之间维度不同对结果造成的影响,并且能够更有效地减少后续算法迭代次数,加快寻求最优解的速度。本文对原始数据使用Z-Score标准化,采用的软件为SPSS,基于原始数据计算出均值μ(Mean)和标准差σ(Standard Deviation),然后进行数据标准化。经过处理的数据符合标准正态分布,即Xi~μ(0,1),处理数据的均值为0,标准差为1。 Z-Score标准化公式如下:
Yi=■(1)
(三)数据处理
数据集中包含学生学业成绩外的16个特征数据,为了更好地研究和分析数据,减少特征数据属性的个数,本文采用相关性分析法提取出影响最终考试的特征属性。将已经进行标准化的学生特征属性数据与考试最终等级(Grade)进行Pearson相关性分析,相关分析采用皮尔逊积差相关法[17][18],相关系数的计算公式如下:
ρXY=■(2)
当相关系数ρXY的值越接近于1,表示两个变量之间的正相关程度越高;当相关系数ρXY的值越接近于-1,表示两个变量之间的负相关程度越高;当相关系数ρXY的值越接近于0,表示两个变量之间的相关程度越低;当相关系数ρXY=0时,表明变量X和变量Y之间不存在相关关系,对16个特征属性与考试等级进行Pearson相关性分析,分析结果如表1所示。
由Pearson相关性分析的结果可知,在置信度(双侧)为0.01时,选取出9个特征属性作为最终影响成绩的主要指标。影响成绩等级的9个具体指标如表2所示,为方便数据分析,下面的数据分析结果均以字母简称形式出现。基于皮尔逊积差相关分析可知,这9个特征属性与成绩等级(Grade)相关性是显著的。
从数据分析可知,这九个特征属性与学生学业成绩是有关联性的,这些特征属性从学习态度、学习环境、学习效率等方面对学生学业成绩造成影响。因此,可以提取出这九个属性作为主要影响因素,方便统计分析和减少计算维度问题。
四、预测模型建立
(一)神经网络算法
神经网络作为机器学习的重要技术,融合多种学科领域的算法,包括输入层、隐含层、输出层,通过该结构能够进行复杂数据信息处理。其中,输入层和输出层分别具有接收输入的外部信息、输出神经网络的处理结果的功能。三层均可由若干个神经元构成,将这三层以特定的方法连接起来,并且设置偏移量和权重,这样就能形成神经网络。[19]这样的连接关系使神经网络可以处理复杂的问题,本文通过神经网络预测功能,来预测学生学业成绩等级。
(二)初始化权重
数据初始值选取适当的数值非常重要,不恰当地选择初始值可能最后导致模型不能收敛。初始化權重不会取同一个值,也不会取0,在选择权重时权重初始值为非常接近0的小数。本文采用调整的共轭梯度优化算法,具体初始化权重数值如表3所示。
(三)浅层神经网络SNN模型
本文数据分析采用的激活函数为双曲正切函数,激活函数公式如下:
φ(x)=Tanh■=■(3)
在人工智能领域,Tanh函数是一种常见的激活函数,对于解决梯度消失问题很有帮助,所以,本文采用Tanh作为浅层神经网络隐藏层的激活函数。
本文神经网络将采用三层神经网络,包含输入层、隐藏层、输出层,即浅层神经网络。图1中输入为9个,即上文分析提取的9个特征属性作为输入变量;输出为3个,即H(成绩在90到100之间)、M(成绩在70到89之间)、L(成绩在0到69之间)。为了叙述方便,此处引入如下约定:设输入单元特征变量为Ik(k=1,2,……,9),分别对应提取出来的9个特征变量。相应的输出单元状态记为Oi(i=1,2,3),分别对应学生的三个成绩等级:H、M、L。从中间层到输出层的权记为Wij,从输出层到中间层的权记为Wjk,隐藏层的特征变量为Hj(j=1,2,……,n),神经网络预测模型如图1所示。
如果Wij、■均已给定,那么对应于任何一组确定的输入(I1,I2,……,I9),网络中所有单元的取值不难确定。从输入层到隐藏层的输出函数如下:
■=■I1+■I2 +……+■I9 +b1
■=■I1+■I2 +……+■I9 +b2(4)
■=■I1+■I2 +……+■I9 +bj
此时,隐藏层相应的输入函数为:
H1=φ(■)=φ(■I1+■I2+……+■I9+b1)
H2=φ(■)=φ(■I1+■I2+……+■I9+b2)(5)
Hj=φ(■)=φ(■I1+■I2+……+■I9+bj)
由此可得,从隐藏层到输出层的输出单元所接到的叠加信号函数如下:
h1=■WijH1=■Wijφ(H1)
h2=■WijH2=■Wijφ(H2)(6)
hj=■WijHj=■Wijφ(Hj)
得到神经网络的最终输出函数如下:
O1=φ(h1)=φ■Wij φ(■■I1)
O2=φ(h2)=φ■Wij φ(■■I2)(7)
O3=φ(h3)=φ■Wij φ(■■I3)
五、实验结果
(一)预测结果分析
验证本文所提出的成绩预测模型,先对数据中成绩等级的高(H)、中(M)、低(L)分别采用3、2、1替代。使用SPSS软件中的“分析—神经网络—多层感知器”功能,对9个特征属性进行数据分析,构建出三层神经网络模型——“输入层—隐藏层—输出层”,即浅层神经网络,实验仿真结果如图2所示。
从图2中的神经网络预测模型可知,本研究模拟出的隐藏层的层数为1,隐藏层神经元的个数为6。由SPSS数据分析软件预测出学习者成绩等级分布,因为数据较多,所以本文只展示部分实际值与预测值的结果,预测结果如表4所示。
将480份学生特征数据集分成两大部分:训练集和验证集。在实际分析过程中,采取67.90%的数据作为训练集,即326份数据作为训练集;32.10%的数据作为验证集,即154份数据作为验证集。
在训练集中,SNN模型下分类预测成绩等级为H的召回率和精确率为(63.81%,74.40%)、成绩等级为M的召回率和精确率为(87.6%,73.44%)、成绩等级为L的召回率和精确率为(63.90%,73.44%),准确率为73.3%,训练集分类结果的混淆矩阵如表5所示。
在验证集中,SNN模型下分类预测成绩等级为H的召回率和精确率为(75.00%,72.22%)、成绩等级为M的召回率和精确率为(84.20%,86.49%)、成绩等级为L的召回率和精确率为(68.80%,69.84%),准确率为74.70%,验证集分类结果的混淆矩阵如表6所示。
(二)数据集分析
从缺席天数与成绩等级的关系进行分析,由数据分析结果可知,缺席天数在7天以下的学习成绩大部分集中于H(成绩在90到100之间)和M(成绩在70到89之间),大部分学生成绩都是属于中等偏上;缺席天数在7天以上的成绩大部分集中于L(成绩在0到69之间),大部分学生学习成绩都是较差的。所以针对教师,建议应该对学生上课缺席管理制度加以完善,督促学生完成正常上课任务。缺席天数人数与成绩等级关系数据分析结果如表7所示。
从父母对学校满意程度与成绩等级的关系进行分析,由数据分析结果可知,父母对学校满意,其子女即学生学习成绩大部分集中于H(成绩在90到100之间)和M(成绩在70到89之间);发现父母对学校不满意,相关学生成绩大部分集中于M(成绩在70到89之间)和L(成绩在0到69之间)。所以对于父母来说,建议他们应该传播积极的思想,使其子女即学生能对学校拥有自信心。父母对学校满意程度人数与学习成绩关系数据分析结果如表8所示。
从参加讨论小组与学习成绩等级的关系进行分析,由数据分析结果可知,参加讨论小组次数在70~99次的学生学习成绩大部分集中于H(成绩在90到100之间)和M(成绩在70到89之间),只有个位数的人数处于L(成绩在0到69之间);而参加讨论小组次数在70次以下的学生成绩大部分集中于M(成绩在70到89之间)和L(成绩在0到69之间)。所以针对学生,应该增强学生对讨论活动的积极性,使其在学习时更加投入。学生参加讨论小组次数与学生成绩关系数据分析结果如表9所示。
从访问资源情况与成绩等级的关系进行分析,由数据分析结果可知,访问资源次数在70~99次的学生的成绩分布在H(成绩在90到100之间)和M(成绩在70到89之间),并且只有5个学生成绩为L(成绩在0到69之间);访问资源次数在70次以下的学生等级大多数分布在M(成绩在70到89之间)与L(成绩在0到69之间),少数成绩较高。所以,针对学生的主动性问题,教师可以督促学生访问和下载学习资源,父母也可以督促学生主动获取学习资源。访问资源次数与成绩等级关系如表10所示。
(三)模型验证
本文提出采用浅层神经网络预测模型,根据特征数据集拟合出该模型的ROC(Receiver Operating Characteristic)曲线,如图3所示。ROC曲线所围成的面积AUC(Area Under Curve)可以用来评价模型的好坏,曲线距离越靠近左上方时AUC面积越接近1,预测的准确率越高;反之,曲线越靠近右下方时AUC面积越接近0,预测的准确率越低。本文浅层神经网络模型成绩三个等级H、M、L靠近左上角,表明模型预测准确率较高。学习成绩等级为H的AUC值为91.50%、成绩等级为M的AUC值为97.00%、成绩为L的AUC值为83.50%,该数据结果表明神经网络能够实现预测,达到预期想要的结果。
Lift是用来评价预测模型的结果是否有效的一个标准。Lift衡量的是一个模型(或规则)对目标中“响应”的预测能力优于随机选择的倍数,1作为界线,大于1的Lift表示该模型比随机选择捕捉更多的“响应”,等于1的Lift表示该模型的表现独立于随机选择,小于1则表示该模型比随机选择捕捉更少的“响应”。因此,当Lift(提升指数)越大,模型的预测效果就越好,当Lift一直保持大于1的数值时,即曲线足够陡峭时,所得的预测模型的效果比较好。提升曲线如图4所示,该曲线的Lift都大于1,预测模型的效果比较好。所以,采用浅层神经网络模型预测该数据集的真实性非常高,能够在学习行为分析方面处于一定的应用价值水平。
(四)模型对比
从神经网络的预测效果来看,采用感知器构建预测模型,预测模型的精确率达到(72.22%,86.49%,69.84%),准确率百分比为74.70%,相比其他学者研究在线学业成绩采用神经网络模型的准确率为65.81%和决策树算法的准确率为69.73%,[20]本文的总体预测成绩准确率分别提升8.89%和4.97%;还有学者采用8种分类算法进行学习成绩预测,[21]采用不同的算法工具的学习结果预测准確率均在60.19%~73.15%,本文的预测水平提升1.55%~14.51%;还有学者采用4种机器学习分类预测,结果在68.50%~72.40%,本文的预测水平提升2.30%~6.20%;本文浅层神经网络在准确率、召回率方面,与其他机器学习算法预测效果对比如图5所示。由图5可知,本文的浅层神经网络从准确率和召回率两个方面比较,准确率和召回率都有所提升,优于其他机器学习预测算法,能够用于学习行为诊断和学习干预的界定。并且为了验证模型的预测性能,本文计算浅层神经网络的ROC面积下的AUC值为(91.50%,97.00%,83.50%),并且分类的三个成绩预测等级AUC值均在80.00%以上,表示预测性能较好,相比上述学者的ROC面积为85.00%,本文的预测稳定性也有提升。
六、结语
学生学习成绩预测和评价是所有教育行业研究者共同关注的话题,而在当今网络在线学习教育快速发展的时代背景下,学生在网络教育平台上积累多特征属性数据信息,记录学习者的在线学习行为数据并加以分类,对研究学生学习成绩预测具有重要意义。[22]学习成绩预测不止步于计算准确率,更重要的是根据预测结果给学生提供个性化教学。本研究提供的利用浅层神经网络方法,能对学生学习的成绩进行有效预测。从数据结果可以看出,该模型可以针对不同学生的学习行为数据加以分析,来有效预测学生的成绩等级;教师可以通过学习管理系统的数据进行跟踪,并针对学习进度较慢的学生进行提醒、对学习较差的学生进行适当人为干预,引导学生与教师进行交流互动,激发学生的学习兴趣,优化学生的学习行为路径与方向,帮助其合理安排学习计划,采取不同的策略,实现个性化学习。
参考文献:
[1]王文晶,闫俊伢.基于大数据的在线学习行为分析与干预研究[J].山西电子技术,2020(6):69-71.
[2]曾海,郑燕芬,黄月盈.基于大数据理念的教师在线学习行为分析与研究[J].广州广播电视大学学报,2020(6):29-33.
[3]BOHONGYANG, ZEPINGYAOHONG, LU YAQIAN,et al. In-classroom learning analytics based on student behavior, topic and teaching characteristic mining[J]. Pattern Recognition Letters, 2020,129:224-231.
[4]孙琳,张巧荣,郑娅峰.基于edX开放数据的学习者在线学习行为分析[J].软件导刊, 2020(12):190-194.
[5]樊一娜,郎波.利用动态贝叶斯网络实现网络在线学习成绩的概率预测方法[J].计算机与数字工程,2020,48(10):2313-2315,2326.
[6]HONGLI LI, MIN KYU KIM, YAO XIONG. Individual learning vs interactive learning: a cognitive diagnostic analysis of MOOC students learning behaviors[J]. American Journal of Distance Education, 2020,34(2):121-136.
[7]胡航,杜爽,梁佳柔,等.学习绩效预测模型构建:源于学习行为大数据分析[J].中国远程教育,2021(4):8-20,76.
[8]DIETZ-UHLER B, HURN JANET E. Using learning analytics to predict (and improve) student success: a faculty perspective[J]. Journal of Interactive Online Learning, 2013,12(1):17-26.
[9]陈子健,朱晓亮.基于教育数据挖掘的在线学习者学业成绩预测建模研究[J].中国电化教育,2017(12):75-81,89.
[10]罗达雄,叶俊民,郭霄宇,等.ARPDF:基于对话流的学习者成绩等级预测算法[J].小型微型计算机系统,2019,40(2):267-274.
[11]王凤芹,李瑛,韩庆龙.基于k-近邻优化算法慕课学习成绩预测研究[J].计算机与数字工程,2019,47(4):785-788.
[12]田浩,武法提.学习分析视域下学习预测研究的发展图景[J].现代教育技术,2020,30(11):98-104.
[13]张冰珠,李浩,侯贺祥,等.基于数据库和机器学习技术的高校学生成绩预警系统设计[J].中医教育,2021,40(3):63-67.
[14]龚艺,杨娟,纪娟.基于学习分析技术的学习预警系统研究与设计[J].太原城市职业技术学院学报,2021(2):53-56.
[15]AMRIEH, ELAF ABU, THAIR HAMTINI, et al. Mining educational data to predict students academic performance using ensemble methods[J]. International Journal of Database Theory and Application,2016,9(8):119-136.
[16]AMRIEH, ELAF ABU, THAIR HAMTINI,et al. Preprocessing and analyzing educational data set using X-API for improving students performance[C]. 2015 IEEE Jordan Conference on Applied Electrical Engineering and Computing Technologies (AEECT). IEEE, 2015.
[17]沈恒范.概率論与数理统计教程[M].北京:高等教育出版社,1997.
[18]张敬,芦雪娟,田巍.混合式教学模式中在线学习行为与高等数学成绩的相关性分析[J].高师理科刊,2020,40(6):65-68.
[19]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.
[20]孙发勤,冯锐.基于学习分析的在线学业成就影响因素研究[J].中国电化教育,2019,4(3):48-54.
[21]武法提,田浩.挖掘有意义学习行为特征:学习结果预测框架[J].开放教育研究,2019,25(6):75-82.
[22]NING YAN, OLIVER TAT-SHEUNG AU. Online learning behavior analysis based on machine learning[J].Asian Association of Open Universities Journal, 2019,14(2):97-100.
作者简介:
冯广,教授,博士,主要研究方向为网络控制、机器学习、大数据,邮箱: von@gut.edu.cn;
罗时强,硕士研究生,主要研究方向为机器学习、大数据分析,邮箱:502796375@qq.com;
陈卓,硕士研究生,主要研究方向为机器学习、大数据分析,邮箱: 656768194@qq.com;
江家懿,硕士研究生,主要研究方向为多模态情感分析,邮箱:1067119003@qq.com;
伍文燕,高级工程师,博士研究生,通讯作者,主要研究方向为教育信息化、人工智能、大数据,邮箱:wuwy@gdut.edu.cn。
Grade Prediction Method Based on Online Learning Behavior Data
Guang FENG1, Shiqiang LUO1, Zhuo CHEN1, Jiayi JIANG2, Wenyan WU3*
(1.School of Automation, Guangdong University of Technology, Guangzhou Guangdong 510006;
2.School of Computer Science, Guangdong University of Technology, Guangzhou Guangdong 510006;
3.Network Information and Modern Education Technology Center, Guangdong University of Technology, Guangzhou Guangdong 510006)
Abstract: To solve such problems as low accuracy, low implementability and feasibility of the current performance prediction methods, this paper, based on Shallow Neural Network (SNN), proposes a prediction model. The model uses an adjusted conjugate gradient optimization algorithm to connect the input layer with the output layer, and then applies the perceptron for learning performance prediction. Compared with traditional method, the prediction method in this paper has higher precision and accuracy, and is more practical, which thus guarantees itself a reference for the subsequent optimization and development of online education.
Keywords: Shallow neural network; Optimization algorithm; Grade prediction; Online education
編辑:王天鹏 校对:王晓明