基于线上线下学习行为分析的学生成绩预测研究
2022-11-25郭羿韦文山邓居昌
郭羿,韦文山,邓居昌
(广西民族大学电子信息学院,南宁 530000)
0 引言
近年来,线上教育的不断普及对常规教育数据的研究方法提出了挑战。管理者通过学习者产生的学习行为大数据对在线教育大数据进行研究,并根据分析结果进行应用,这对于指导在线开放课程的设计、运行及评价,进而有效组织学生的教学活动有帮助作用。如今的高校教学过程中,线上教学与线下教学相结合已成为主流趋势。线上教育产生了许多学生学习数据,运用数据挖掘方法对学生的线上学习数据与线下学习数据相结合,能够实现对学生的成绩预测,帮助学生规避学业风险[1]。
学习行为分析及结果预测主要体现在数据相关性分析及成绩预测理论模型的构建、成绩预测模型的实证研究、算法准确性的对比、算法的开发、预警因素研究等方面,已有研究主要采用决策树、回归分析、时序分析等算法。此外,基于大学生网络课程学习过程、早起行为和图书借阅行为,将课内表现和数据联系,建立多个学习场景的数据链路,通过对不同机器学习分类模型的预测分析和性能提升,结合不同预测模型的优势,建立用于教学干预与学习推荐系统的行为诊断模型[2]。随着深度学习技术越来越广泛地应用到实际问题中,将深度学习技术应用到教育大数据挖掘领域,能更好地描述教育数据的内在信息,帮助教育者发现教育问题的关键[3]。
本研究采用多元线性回归(MLR)、随机森林(RF)和支持向量机(SVM)三种传统机器学习方法和一种人工神经网络(ANN)方法,通过学生线上线下两方面表现和成绩来对高校学生进行期末学业成绩预测,通过四种不同的算法,提供合适的参考依据[4]。
1 实验数据
1.1 数据来源
本研究以N市M高校2020级电子信息学院435名大学生作为数据采集对象,其中两名同学的记录存在信息缺失,剔除含有信息缺失的数据,最终保留433条有效数据[5-6]。学习科目为数据结构课程,学习场景数据来源于蓝墨云班课的在线课程学习日志数据和线下教学学习数据;学习绩效数据来源于蓝墨云班课平台的签到次数、在线测试成绩和线下笔试成绩等方面。
1.2 成绩影响因素的确定
其中,在线学习平台包含10个属性,如签到次数、资源学习数量、在线测试等。本研究拟通过原始数据中所有单个数据的属性对最终成绩的影响进行评估并排序,借助排序结果来选择子属性集[7-8]。方法是计算所有单个属性和期末成绩类别之间的皮尔逊相关系数,并依据其相关系数大小进行排序,系数值越大,表明其与最终成绩的相关性越强。评估方法的排序结果如表1所示。表1中的第一列是属性的序号,第二列是属性的类别,第三列为相关系数[9]。其中,部分属性中含有缺失值、无关数据、孤立点等,对这些属性进行数据清洗[10],最终保留下来6项属性。由于各项属性的初始指标不同,为了方便相关性分析,将所有属性数据进行预处理,属性数据都转换为百分制分数与期末成绩进行比对。从表1可以发现,不同属性与期末成绩的相关性数值大小有所差异,从中判断出系数较大的3项是影响期末成绩的主要因素,因此将其作为在线学习平台预测建模的部分自变量。
表1 在线学习平台属性相关性分析
线下成绩主要包含2个方面:平时成绩与卷面成绩。平时成绩由5个属性构成,如测验、作业、实验等。数据来源为学生的日常测验考核的真实成绩。平时成绩的计算方法如公式(1)所示。其中,y1代表平时成绩,α代表段考,β代表实验,γ1代表课堂测验1,γ2代表课堂测验2,δ代表作业。
期末成绩的计算方式主要由平时成绩与卷面成绩得出,计算方法如公式(2)所示。此处y2代表期末成绩,α代表卷面成绩,β代表平时成绩。
对线上和线下两部分成绩,共8个属性,3456条数据进行分析研究。数值集中的同时,为避免不同数据属性对回归预测的干扰,对所有数据进行数据归一化处理,使所有数据范围处于[0,1]的区间内。
2 实验方法
2.1 预测模型
预测问题主要分为分类和回归两类。预测离散的值使用分类,预测连续的值使用回归[11]。本研究主要通过学习者日常学习行为对学生期末学业成绩进行回归预测。回归预测一般根据预测目标来确定自变量和因变量,进而建立回归模型,再对数据进行相关性分析,检验回归预测变量,计算预测误差,并确定预测值[12]。目前,常用的回归方法有支持向量机(SVM)、多元线性回归(MLR)、人工神经网络(ANN)等[13]。
传统回归建模方法是将原始数据集分为训练集、测试集和验证集三类,其中训练集用于模型的训练,验证集用于模型的调参,测试集用来检验模型性能的好坏。由于“单一模型的决策可能会低于集体决策”,本研究在模型选择上采用单一模型和集中学习模型相结合的方式,对学生期末学业成绩进行预测分析[14]。预测模型分为两部分:第一部分进行监督学习,将已知各项属性用于模型对预测变量的训练,建立模型参数;第二部分对模型进行优化,将原模型结果与优化结果进行对比,检验模型的提升程度,评估模型的性能。
2.1.1 多元线性回归(Multiple Linear Regression)
建立多元线性回归(MLR)模型时,为了保证回归模型具有良好的解释能力和预测效果,应注意自变量的选择:
(1)自变量对因变量要有显著影响,并呈现出线性相关性;
(2)自变量与因变量的关系必须是真实的,而不是形式上的;
(3)自变量间须有互斥度,自变量之间的相关性不应高于自变量与因变量之间的相关性[15]。
对于n维特征的样本数据,在使用线性回归时,对应的模型为
为简化模型,增加一个特征x0=1,使得
得到模型,需要求出损失函数,一般线性回归采用均方误差作为损失函数。损失函数的代数法表示如下:
其中,求损失函数最小化参数的方法一种是梯度下降法,一种是最小二乘法。
2.1.2 支持向量机(Support Vector Machines)
支持向量机(SVM)在解决高维特征的分类和回归问题方面很有效,特征维度大于样本数时依然有很好的效果。它有大量的核函数可以使用,从而可以很灵活地解决各种非线性的分类回归问题。且样本数据不是海量数据时,分类的准确率高,泛化能力强[16]。
在回归问题中,常用的误差函数是最小平方和误差函数,其表示如下:
2.1.3 人工神经网络(Artificial Neural Networks)
人工神经网络(ANN)是一种通过神经元的处理单元相互连接而组成的一套机器学习方法。神经网络主要由输入层、隐藏层和输出层构成,同时,神经网络在输入层、隐藏层和输出层上都部署了非线性函数的组合[17]。神经网络广泛应用于社会的各个领域,在教育领域主要通过不同的神经网络算法组合实现学生学习效果预测和学习预警等。与传统机器学习算法相比,神经网络在一般情况下预测准确率更优,因此适用于学业成绩预测。
2.1.4 随机森林(Random Forest)
随机森林(RF)是采用集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树。它集成多棵决策树的预测,其中每棵树都由基于随机向量的一个独立集合的值产生[18]。
随机森林具有极好的准确率,能够有效地运行在大数据集上,它能够处理具有高维特征的输入样本,并且不需要进行降维处理。此外,随机森林还能够评估各个特征在分类问题上的重要性,在生成过程中,它通过获取内部生成误差的一种无偏估计,对缺省值问题也可以得出很好的结果[19]。
2.2 研究设计
本研究采用4∶1的比例将数据集分为训练集和测试集,分别使用MLR、SVM、ANN和RF四种算法在训练集上训练,比较这四种回归算法的性能[20]。之后对MLR、SVM和RF三种算法采用十折交叉验证方法重新划分数据集;同时将所有设定参数进行排列组合,选取最优模型性能;对ANN采用改进超参数的方法优化模型参数,同时比较优化后的模型性能。
研究流程图如图1所示。
本研究采用MAE(平均绝对误差)和MSE(均方误差)两项回归评价指标来评定模型性能。这两个指标都是用来描述预测值与真实值之间的误差情况,指标值越小,说明模型性能越好,预测值与真实值之间的误差越小。二者的计算公式分别如下:
2.3 研究工具
本研究实验平台为PC平台,处理器Inter Corei7-11800H,Windows版本21H1,基于Python3.8环境下,运用Python自带工具进行数据预处理,安装tensorflow2.5版本进行神经网络模型构建。在其他预测工具及集成学习模型方面,使用Keras进行模型的构建与改进。
3 实验结果与分析
3.1 预测结果对比
将四种预测模型的预测值与真实值进行对比,实现同一课程不同模型之间的对比分析,寻找不同预测模型之间预测的差异,选择最优模型对学生期末学业成绩进行预测及分析[21]。其中,四种初始模型的预测成绩与实际成绩的误差曲线如图2—图5所示。图中虚线线条为已知的真实值,其下方的折线为四种模型的预测成绩。数据点越接近虚线线条,其对应的预测模型越好。
从图2—图5可以看出,四种方法的成绩预测误差曲线区别较小,不易看出四个模型中哪个效果更好。表2给出了评估指标的具体数值,展现出了各模型预测性能的好坏。
表2 四种原始模型的评估指标
从表2可以看出,上述实验样本中ANN的MSE和MAE均最小,其次是RF,对比之下,MLR和SVM的效果较差。
3.2 模型优化
在上述实验模型和实验样本中,人工神经网络的表现最好,两项指标在四个模型中均为最小值。但其MSE和MAE的数值仍较大,不符合预期期望。因此,针对同一实验样本和模型,本文对方法进行优化,从而得出更好的结果。优化后的模型结构流程图如图6所示。
由于数据集样本数量有限,因此采用K折交叉验证的方法对数据集进行“扩充”,同时,还可以评估模型的泛化能力。K的值取为10,通过测试,10折交叉验证在偏差和方差之间可以取得最佳的平衡。
对实验模型的优化,主要采用改进参数设置来提升模型性能。原始模型采用默认参数进行实验,针对本实验样本数据,不一定会得到最佳效果。因此,对模型的各项参数设定不同的值,通过参数间的排列组合,来寻找最佳参数的组合,提升模型性能。
对于随机森林(RF),通过设置其子树数量、分支数量以及叶子结点数量进行嵌套循环,寻找最优组合对象;支持向量机(SVM)则通过其核函数和C值(惩罚系数)来寻找泛化能力较强的模型;人工神经网络(ANN)则通过调整其神经元数量(neurons)、激活函数(activations)与全连接层数量(denses)来提升其模型性能。多元线性回归由于是一条直线,本研究中不需要进行优化处理。
模型优化后的各项指标对比见表3。
表3 优化后四种模型评估指标
从表3可以看出,模型优化之后,此数据集下人工神经网络没有太好的优化效果,MAE(平均绝对误差)只下降了0.19,而MSE(均方误差)反而上升了5。人工神经网络在常规回归实验中的效果比较好,但是在本实验数据样本下,却没有达到预期效果。而随机森林和支持向量机在本实验数据样本下取得了极大幅度的提升。经多次对比试验验证,排除了因为过拟合情况导致的MAE和MSE误差值过小的问题。故此,在本实验中,支持向量机预测结果好于随机森林,远高于人工神经网络和多元线性回归。
4 结论与展望
本文采用数据挖掘方法中常用的回归预测手段,对学生期末学业成绩进行回归预测分析。疫情以来,在线教育的快速发展不仅给学生带来新的机遇,同时也带来了新的挑战。随着学生网课时间越来越多,如何对线上学生的期末学业成绩进行预测,以便为学生及时提供学业预警及其他干预措施显得尤为重要[22]。在大数据时代,将学生在线学习所产生的大量非线性数据与线下学习产生的线性数据相结合,对探寻学生期末学业成绩的影响因素至关重要。
基于本研究采用的数据集,学生在线学习情况对期末学业成绩的影响因素中,测试平均分对学生学业成绩的影响最大,其次是上课出勤率和学习资源数,而其他在线学习因素对学生学业成绩的影响相对较小。学生的线下成绩呈线性分布,每个属性都有相应的比例。因此,通过线上学习行为表现与线下成绩相结合对学业成绩进行预测对当今学生教育具有重要意义。同时,还可以根据在线教育平台对学生学业成绩的影响属性的关系,对在线教育平台的改进以及实现学生真正的个性化教育提供良好的帮助。
本研究采用三种机器学习模型和一种神经网络模型对学生期末学业成绩进行预测,分析和比较了预测的结果和模型的评估指标,提供了本数据集中最优的实验模型。研究还存在一些局限性,由于数据的缺失与数据的不平衡,教师的主观评分影响较大,研究场景未能覆盖大学学习环境中对学业成绩产生影响的所有因素。在后期研究中,将在更多的学习场景中结合不同学生的学习类型和学习行为数据,针对场景特点提供最优的预测模型,以直观、清晰的方式对高校教师提供技术支持,以便对学生学习提供专业指导,对提升高校学生的个性化教育起到推动作用。