学业导师制提升课程成绩的机器学习评价方法

2020-11-04罗加美安俊宇薛建新

上海第二工业大学学报 2020年3期

罗加美, 牛森, 安俊宇, 薛建新

(上海第二工业大学计算机与信息工程学院,上海201209)

0 引言

2018 年10 月,教育部发布的《深化本科教育教学改革相关意见》提出要建立健全本科生学业导师制度,让符合条件的教师帮助学生制订更具个性化的培养方案和学业生涯规划。本科生学业导师制度,是对学生进行生涯规划教育和引导[1]。

目前,在全员协同育人理念下,更加突显学业导师制度意义重大。已有众多的高等院校开展了学业导师制度,在专业的个性化培养学生方面有了显著提升。当前,针对学业导师制度的研究主要集中在思想政治理论探讨上,樊奔[2]结合自身实践,针对目前高校本科生导师制度的人才培养效果,剖析了制度实施过程中存在的主要问题和困难,并提出了自己的观点和理念。匙芳廷等[3]指出本科生导师制对大学生创新教育和实践能力培养方面的优点以及如何加强本科生导师制度建设的方法和手段;宋怀涛等[4]提出构建突出专业价值的本科生导师制度培养模式,将本科生导师培养与专业的特点和学生的兴趣相结合,培养学生的职业精神; 闫冬春等[5]提出了学业导师指导下的“三位驱动”生成实习模式,包括就业、考研和毕业论文的三位模式。然而,当前的研究还缺少确定的、可以量化的指标来衡量学业导师制度对学生成绩带来的积极影响。

2016 年上海第二工业大学开始出台学业导师制度的相关实施办法,至今已经产生了充足的研究数据。对于学生成绩而言,学业导师制度对其应当具有积极作用,并可能对不同的学生群体产生不同的作用程度,如某学生对“数据结构与算法”课程兴趣颇深且获得了好成绩,那么他更大概率会对学业导师在该方面的指导更专注,从而在下学期的“算法设计与分析”课程中取得比无学业导师更高的成绩。在此基础上,通过分析引入学业导师制度前后智能科学与技术专业的某班级成绩变化,提出了基于多元线性回归的机器学习评价方法,对学生的成绩进行预测分析,从而对学业导师制度的评价进行精确的量化。

通过多元线性回归算法,将某几门专业基础课程成绩作为特征数据,训练模型预测此后开展的专业课程成绩,其中特征中使用的课程发生时间早于标签所使用的课程成绩。因此,将未引入导师制度的成绩作为训练集,引入导师制度的成绩作为测试集。这里假设每门课的打分制度是一致的,又因为选入特征的课程为更早开展的课程,受导师制度影响小于或远小于标签所使用的课程,故训练集和测试集的特征基本是分布一致的。而标签之间的分布区别主要受导师制度的影响,因此使用训练集得到的模型对测试集进行预测,预测值与真实值的差距即为导师制度的影响程度。最后,通过真实的班级成绩数据,可以证明学业导师制度在我校实施以来所取得的成效显著。

1 多元线性回归模型

多元线性回归是线性回归重要的组成部分,被广泛应用在众多的科学研究中[6-8]。一般多元线性回归模型的基本形式[9-10]为:

式中: y 为因变量; xi为自变量, i ∈(1,2,··· ,p),是数据的p 维属性特征; wi为回归系数, i ∈(1,2,··· ,p), 其决定了因变量和自变量间的线性关系;b 为偏移误差项。

对于一个具有n 组数据,p 个维度特征的现实问题,此多元线性回归模型可以写成如下的矩阵形式:

在多元线性回归模型求解过程中,利用最小二乘法对W 和B 进行参数的估计。若将w 和b 合并形成向量ˆw = (w;b),则矩阵X 就变成了最后一个元素恒为1 的n×(p+1)大小的矩阵,即为:

通过线性回归模型的参数估计,分别对w 求导,可得的如下公式:

2 基于多元线性回归的机器学习评价方法

为了分析学业导师制度对学生成绩的影响程度,结合机器学习模型,提出了基于多元线性回归的分析评价方法,如图1 所示。

整个评价方法流程分为5 个阶段,包括数据预处理、特征筛选、模型训练、交叉验证和预测分析等。技术流程如下:

(1)数据预处理。由于部分课程学生缺考,原始数据中存在缺失值的情况。在此数据预处理阶段,主要利用计算平均值的方式来补全缺失值。计算公式为

式中: ¯x 为缺失值;xi为数据中同一属性值相同的完全变量。

(2)特征筛选。选出某一门课程,将其与预测的目标课程计算Pearson 相关系数,得到对目标影响较大的课程作为特征数据集D。r 的计算公式如下:

式中: xi,yi分别代表X 和Y 数据的第i 条记录;N表示记录的个数。

(3)模型训练。利用2014、2015 年未引入学业导师的学生课程数据,指定3 门专业课程作为目标,通过特征筛选,分别生成模型的训练集和测试集。然后,根据多元线性回归模型的理论进行参数估计,得到回归模型。

(4)交叉验证。在交叉验证阶段,为了保证模型训练、参数评估的准确性,采用5 折交叉验证方法,从而优化模型的参数。

(5)预测分析。在训练好的回归模型基础上,对引入本科生学业导师制度的学生课程成绩进行预测,进而去比较预测值和真实值之间的变化情况,从而评估学业导师制度的重要性程度。

图1 基于多元线性回归的机器学习评价方法流程Fig.1 The processes of evaluation method of machine learning based on multiple linear regression

3 实验结果与分析

3.1 实验数据集描述

使用了2014—2017 年我校引入本科生学业导师制度前后某班级学生的各科成绩数据, 其中2014、2015 年为未引入学业导师制度的成绩数据,2016、2017 年为引入学业导师制度后的成绩数据。原始数据中包含了174 人,共36 门课程的成绩。在特征筛选阶段,选择了7 门主要课程为目标,其中2014、2015 年为训练集共79 条数据,2016、2017 年为验证集共95 条数据。由于整体数据量较小,采用5 折交叉验证来保证模型训练的有效性,并利用平均绝对误差和均方根误差来衡量模型训练的误差。整个实验过程利用Python3.7 语言进行编程,在anaconda 集成环境中进行开发实现。

3.2 实验设置

将2014、2015 年的数据作为未引入导师制度时的训练集,同时将2016、2017 年的数据作为引入导师制度后的测试集,共使用3 组特征和标签进行实验分析。根据提出的机器学习分析框架,经过数据预处理阶段,在特征筛选阶段,通过每个学生的课程成绩,根据培养计划中课程的联系,利用Pearson相关系数计算得出“数据结构与算法”“离散数学”“算法设计与分析”“概率论与数理统计”“模式识别”“人工智能”和“计算机组成原理”等7 门课程之间的相关系数,如表1 所示。

根据表1 中的课程相关系数,选择相似度阈值≥0.4 为条件,进行特征数据的筛选。在此基础上,在模型训练和模型验证中作如下的实验设置:

表1 课程间的相关系数表Tab.1 The correlation coefficient between courses

(1)利用“数据结构与算法”“离散数学”和“概率论与数理统计”3 门课的成绩作为特征,预测“算法设计与分析”的课程成绩。

(2)利用“数据结构与算法”“算法设计与分析”“离散数学”“概率论与数理统计”和“计算机组成原理”5 门课的成绩作为特征,预测“人工智能”的课程成绩。

(3) 利用“人工智能”“离散数学”“计算机组成原理”和“概率论与数理统计”4 门课的成绩作为特征,预测“模式识别”的课程成绩。

3.3 实验结果与对比分析

根据3.2 中的3 个实验设置,在模型训练阶段,根据多元线性回归模型训练的过程,参数估计、误差分析、预测值与真实值之间对比结果分别如表2～4 所示。

在表2 中, 根据实验设置(1) 中的特征数据,分别得出了多元线性回归方程中的系数分别为0.205、0.201 和0.44, 偏移项为5.525。依据估计参数可计算出模型训练的平均绝对误差和均方根误差分别为4.924 和6.508。同时,可计算出每位同学在此基础上“算法设计与分析”课程的成绩分布。根据预测出的成绩可计算出课程预测的及格率和优良率分别为86.7%和2.2%。通过预测值和真实值之间的对比,可以发现在引入学业导师制后,“算法设计与分析”课程在及格率和优良率上分别提高了10%和22.2%。

在表3 中, 根据实验设置(2) 中选择的特征数据,可得出多元线性回归模型中的估计参数系数分别为0.255、0.218、0.248、0.308 和−0.041,偏移项值为3.555。依据估计参数可计算出模型训练的平均绝对误差和均方根误差分别为5.358 和6.568。同时,可计算出“人工智能”课程的学生成绩分布。根据预测的成绩分布,得到预测的及格率和优良率分别为96.6%和25.6%。通过与真实值对比,可以发现在引入学业导师制度后,“人工智能”课程学生在优良率上提升了13.3%。

在表4 中, 根据实验设置(3)要求的特征数据,可训练出多元线性回归模型中的系数参数分别为0.424、0.279、0.06 和0.039,偏移项值为14.035。根据估计的模型参数,可得出模型训练的平均绝对误差和均方误差分别为4.108 和5.066。同时,可以计算出“模式识别”课程学生的成绩分布,得出预测的及格率和优良率分别为94.4%和20%。通过与真实的值进行比较,发现在引入学业导师制度后,“模式识别”课程学生的及格率和优良率分别提高了3.4%和6.6%。

表2 “算法设计与分析”课程预测参数评估和值对比表Tab.2 Parameters estimation and value comparison on Algorithms Design Techniques and Analysis

表3 “人工智能”课程预测参数评估和值对比表Tab.3 Parameters estimation and value comparison on Artificial Intelligence

表4 “模式识别”课程预测参数评估和值对比表Tab.4 Parameters estimation and value comparison on Pattern Recognition

为了进一步分析学业导师制度的积极影响,下面以“算法设计与分析”课程为例,分析各个成绩阶段分数的变化情况,分别如图2～5 所示。

在图2～5 中, 左图为课程训练集的成绩分布,右图为课程测试集的成绩分布。在图2～4 中,及格学生的分数、成绩在x ≥80 分,70 ≤x < 80 分间的成绩平均提高了0.82 和3.07 分、11.08 和15.62分、2.69 和3.93 分。由此可以发现在学业导师制度影响下,学生的“算法设计与分析”课程的总体成绩都有所提升。在图5 中, 成绩在60 ≤x < 70 分的学生成绩提升了−2.86 分和−3.96 分。直观地发现,成绩60 ≤x < 70 分的学生分数在引入学业导师制度后,这部分学生的分数有所下降,但通过进一步分析,可知道学业导师制引入后,该门课程的整体及格率提升了10%。这部分学生大多是学业导师制度实施前不及格的部分。进一步也证实了学业导师制度对学生课程成绩影响的积极作用。

图2 “算法设计与分析”成绩及格学生的分数提升分布Fig.2 The distribution of increased scores of students passed on Algorithms Design Techniques and Analysis

图3 “算法设计与分析”成绩≥80 分的学生分数提升分布Fig.3 The distribution of increased scores of students‘scores ≥80 on Algorithms Design Techniques and Analysis

图4 “算法设计与分析”成绩≥70 分且<80 分的学生分数提升分布Fig.4 The increased distribution of scores of students‘scores ≥70&<80 on Algorithms Design Techniques and Analysis

图5 “算法设计与分析”成绩≥60 分且<70 分学生的分数提升分布Fig.5 The distribution of increased scores of students scores ≥60&<70 on Algorithms Design Techniques and Analysis

4 结论

本科生学业导师制度让学生在导师的影响下获得更具个性化的培养方案和学业生涯规划。在实施学业导师制度前后学生的课程成绩数据基础上,提出了基于多元线性回归的机器学习分析框架。通过实验分析和对比,发现在学业导师制度实施后,无论在课程的及格率、优良率和整体分数上,都有了很大的提高。可见学业导师制度可以极大提高学生学习的积极主动性。

目前的研究与分析更偏向于实行学业导师制度的计算机相关专业学生或工科学生,且局限于对学习成绩的影响。今后可以进一步分析其他专业方向的学生,研究该制度在其他学科上的影响程度,并进一步涵盖学生的竞赛、升学、就业等全方位影响。