APP下载

线上教学智能学业预警和精准干预研究

2021-07-28

关键词:样本重要性特征

张 源

(安徽医学高等专科学校教务处,合肥 230601)

1 研究背景和现状

1.1 研究背景

目前关于线上教学的研究与实践处在起步阶段,也是现在高职教学改革的热点项目.人工智能与线上教学的融合成了必然趋势,授课方式的改变必然需要管理模式的更新.学业预警是一个新的词汇,也是一种高等教育的管理模式,学业预警的一个核心组成部分就是课程考核成绩预警.教学干预作为对学习者学习产生影响的介入手段,它能阐释学习过程中多方面的要素和关系,能为改善学习绩效提供新的思路和视角[1].传统课堂环境下的教学干预,常指教师发现问题后直接为学习者提供方法上的建议、态度和心理上的疏导,而线上教学中课堂的干预信息获取媒介更加丰富,手段更加智能化.融合“互联网+”和“智能+”技术的在线学习将成为线上教学的重要发展趋势,尤其是今年的疫情防控,在线教学规模大、范围广,在全球范围如此规模实属首次.因此,大力提升信息化服务管理能力,提升在线平台管理水平,决策支持水平,以此在保障线上和线下教学质量实质等效的基础上,充分发挥在线教育的优势.

以我校为例,对比2018~2020 年在线教学平台的教师参与数量和学生参与数量如表1 所示,截至目前我校有226 门在线课程,本年度3 个月学生人数是2018 年全年人数的112 倍多,学生学习人次比2018 年全年增加了1490 倍,教师参与数量也增加了23 倍,教师登录次数增加了96 倍.主要原因:一是教育部2020 年1 月《利用网络平台,“停课不停学”》文件的通知要求,二是线上教学得到了广泛认可和普及.

表1 2018~2020年的教师和学生某平台参与数量

表1 (续)

1.2 研究现状

基于学业预警的预测模型是教育大数据、云计算等智能技术应用的热点,许多研究采用数据挖掘、机器学习、深度学习等技术来预测成绩.Wookhee Min等[2]采用LSTM 网络评估191 名中学生在智能游戏学习环境中的交互数据和干预学习措施.Sorour 等[3]采用数据挖掘技术分析学习者的评论数据,通过SVM 模型预测学生成绩.Huang &Fang[4]运用了四种不同的方法来预测学生在神经工程动力学课程中的成绩,这些方法使用了来自四个学期的323 名学生的数据,以三个期中考试成绩作为学生本学期表现的指标,以学生在四门必修及动力相关课程的累积平均绩点及成绩作为学生修习前的表现指标.Le 等[5]利用递归神经网络分类方法,对20 门MOOC 的数据集进行评估,形成专有数据库,为教学团队提供个性化通信仪表板,并通过学习者投入度实时预测分析模型得出学习者获得结课证书和离开课程的概率,为可能无法成功结课的学习者提供个性化学习支持服务,增强MOOC 平台的精准学习服务功能.

目前智能学业预警常见的问题有以下几个方面:

(1)通常使用一个通用的预测模型,不能解决所有课程的复杂性,模型只针对学生行为,而教师授课行为往往被忽略;

(2)通常只对结果进行预测,而对影响结果的特征指标没有量化分析;

预警目的是提前发现学生或者教师行为的异常情况,并加以干预,尽可能防止学业危机的出现,因此需要制定精准干预措施.

2 基于随机森林智能预警模型

针对上述问题,本研究构建了基于随机森林的预测模型分析教师和学生行为,通过计算特征行为的强弱指标,制定精准的干预措施,形成了智能预警、精准干预措施、再智能预警的线上教学监管闭环,如图1 所示.

图1 线上教学智能预警与干预体系闭环图

2.1 预警模型构建

随机森林(Random Forest)是一种鲁棒且实用的机器学习技术,结合随机森林的特征原理进行特征选择,对特征进行重要性排序,从而筛选出“强特征”.但是,该技术在处理非平衡数据的时候精确度大幅下降,尤其是在随机抽取训练子集进行训练时,存在抽取的子集均为“弱特征”子集,导致产生“弱决策树”现象,因此传统的随机森林受到噪声和冗余特征干扰,使得训练出现拟合且鲁棒性大大降低的情况[6].鉴于此,本研究先进行一次主成分分析,初次过滤“弱特征”,避免出现随机抽取特征产生的“弱决策树”.在构建训练子训练集中,存在部分没有选择的训练集,将这部分称为袋外样本(out-of-bag),通过计算袋外样本的误差来评估特征指标的重要性.针对重要的“强特征”制定干预措施,分别对教师行为“强特征”和学生行为“强特征”采用精准干预措施,构建的模型框架如图2 所示.

图2 基于随机森林智能预警和精准干预模型框架图

构建的教师行为、学生行为和课程信息的指标体系,首先输入特征集合X,计算特征之间的相关系数矩阵W,输出计算各指标得分:

wij为指标权重,Pij为第j个公共指标,εij为偏置参数.构建一种K个{c(X,θi),i=1,2,…,K} 分类器,θi为特征向量,i为模型中的子分类器数,最后通过多数投票原理确定样本所属类别,模型表达如下:

其中,C(x)为组合预测模型,hi为单个子分类单元,Y表示输出变量,V(·)为投票函数.首先,随机产生K个训练集T1,T2,…,Tk;其次,选取K个样本进行训练,每个子分类单元与每个样本对应,得到K个分类器.假设每个样本有N个属性,0 ≤m≤N是整数,从N个属性中选取m个最佳属性作为子分类单元的属性集,训练过程中,确保m不变.最后,根据产生的子分类单元,将分类结果定义为C1,C2,…,Ck,依次对每个分类单元进行测试,将测试集样本X对应分类结果C1(X),C2(X),…,Ck(X),通过多数投票法得到K个分类单元最终的输出结果.

2.2 关键指标重要性评估

最后得出所有特征的重要性得分.若Score大于0,说明加入干扰数据后准确率下降,该特征重要性较高,反之,Score小于0,说明该特征重要性较低,由此得到特征体系中的重要性指标.

3 实验数据

本研究采用我校某在线教学平台教学活动和选课人数排名TOP10 的课程如表2 所示,设计了教师13 个在线教学活动特征指标集合X={x1,x2,x3,…,xn},n=13,具体特征指标如表3 所示,学生11 个学习行为特征指标集Y={y1,y2,y3,…,yn},n=11,具体指标如表4所示.

表2 我校教学活动和选课人数排名TOP10

表3 教师行为特征表

表4 学生行为特征表

将学生行为和教师行为数据分别与学生成绩对应生成训练数据,其中学生行为数据65500 条,教师行为数据5000 条,这些特征数据的取值范围非常大,如果直接输入到模型进行训练和预测,会严重影响实验性能.特征值在分类器进行训练时,为避免数值范围属性值影响实验结果,将特征值进行归一化处理,使求得的特征值标准化处理到[-1,1]区间或者[0,1]区间.本研究采用零均值归一化方法:

其中,xmean为所有样本值的平均值,xSD为均方差.

为保障数据的有效性,我们选择出勤率和学习进度均在10%以上的数据,分成三类z1={0,1,2}分别对应优秀、合格、不及格三个类别,其中85 分以上(含85 分)为优秀,60~85 分(不含85 分)为合格,60 分以下(不含60 分)为不及格,部分数据如表6所示.同时,将教师特征数据中x2不为空的特征数据对应成绩的三类,z2={0,1,2}分别对应10%以上学业不及格类、10%以上学业合格类和10%以上学业优秀类。部分数据集如表5 所示.另外,收集了5000 条学生行为特征数据集和2000 条教师行为特征数据集,并经过预处理用于验证模型性能.

表5 教师行为数据集

表6 学生行为训练数据集

4 实验结果分析

4.1 实验参数和实验结果

实验模型超参设置涉及训练率、最小批尺寸、训练迭代次数等,依据经验调试取值,采用5 折交叉验证算法更新参数,参数的初始化选择随机初始,学习率设置为0.001,迭代次数选择12000 次,我们将教师和学生行为特征的训练样本按照6∶4,7∶3的比例抽取样本和袋外数据样本,教师和学生行为的验证样本按照8∶2 和9∶1 的比例抽取样本和袋外数据样本.

实验结果表明训练数据集在迭代10000 次以后达到96%以上,验证数据集的准确率达到90%以上,该模型的性能符合预期.但是,由于训练数据集有限,同时特征指标值的差异性变化趋势反应出随着迭代次数增加到4000 以后,准确率变化不明显,后期会增加特征选择和样本数量.

图3 在训练数据集和验证数据集上的模型性能表现

4.2 学生行为“强特征”

为了验证学生行为中特征重要性权重指标,最佳属性个数m设置为不超过的整数,故m≤3,计算袋外数据(out-of-bag)误差值Score来评估学生行为关键指标,特征权重值计算结果如图4 所示.

图4 学生行为关键指标分析图

实验表明学生行为中的y9、y6、y1、y10、y3、y2所占的权重比较大,其余4 个重要性指标权重几乎为0.经过专家主观分析,课堂问答完成次数和课堂活动参与数较多,反映学生对学习的积极性较高,因此,课程的参与度高,明显对学生学业成绩的提高起到重要作用.

4.3 教师行为“强特征”

为了计算教师行为中特征重要性权重指标,我们将每门课程单独归一化处理,防止不同课程之间由于课时不同而产生的样本分布不均衡.本研究的指标体系设置为10 个,故m≤3,特征权重值计算结果如图5 所示.

图5 教师行为关键指标分析图

实验结果表明x2、x11、x9、x4、x12、x10和x1是影响学生成绩的主要指标,其余6 个指标通过实验得出所占权重相对较低.专家主观分析课堂教学次数较多和视频资源丰富的教师对学生学业影响较大,教师采用线上教学是否频繁且课程内容准备是否充分直接影响了学生学习的质量,所以该两项指标对学业影响较大.

4.4 线上教学精准干预

研究结果客观地反映出线上教学是影响学业成绩的主要因素,针对两种角色分别在不同的时间节点,进行分析预测(1 或者3 个月),然后对可能出现不及格的学生行为或者引起10%学生学业不及格的教师行为加以人工干预,当重要性指标低于相应阈值,就触发干预措施机制.具体指标阈值如表7 所示.

表7 重要性指标干预阈值表

对达到阈值的指标采取干预措施,具体措施如下:

(1)学生行为干预

y9(问答):对学生进行跟踪,通过谈话、问卷形式,调查学生的情绪和状态,激发学习积极性,督促其主动学习;

y6(课堂活动参与数):授课教师主动激发学生参与课堂活动,循序渐进地培养学生的课堂参与积极性;

y1(登录次数):通过谈话和问卷了解学生登录次数较少的原因,并督促和鼓励学生使用线上平台进行学习;

y10(笔记):通过发布任务和谈话,跟踪学生学习进度,并通过测验了解学生对知识的掌握程度;

y3(签到数):通过1 对1 沟通,了解学生没有签到的原因;

y2(学习进度):通过1 对1 交流,了解学生学习进度慢的原因,并通过制定考试成绩核算办法来约束学生学习行为.

(2)教师行为干预

x2(课堂教学):教学管理部门通过谈话和通知,督促教师线上教学的频次;

x11(视频资源):此项指标反映该门课程视频资源数量,分管部门提醒教师根据授课内容适当增加教学视频资源;

x9(已批作业):此项指标反映该教师批改作业次数,分管部门提醒教师及时完成作业批改;

x4(题目):此项指标反映该教师相比同课程的题库数量,分管部门提醒教师及时更新题库;

x12(教学评价):此项指标反映该教师获得学生的课堂教学评价等级,分管部门通过谈话提醒教师,并加强对该课程的教师进行听课;

5 结论

本研究选择10 门线上教学课程的学生行为数据65500 条,教师行为数据5000 条用于模型训练,同时生成了5000 条学生行为数据和2000 条教师行为数据作为验证数据,设计了基于随机森林智能预警模型,将教师和学生行为特征的训练样本按照6∶4,7∶3 的比例抽取样本和袋外数据样本,教师和学生行为的验证样本按照8∶2 和9∶1 的比例抽取样本和袋外数据样本,采用了关键指标重要性评估方法计算教师行为和学生行为的“强特征”.实验结果表明训练模型的准确率达到96%以上,在验证数据集的预测结果也达到了90%以上.通过计算袋外数据误差值来评估特征权重,分析了关键指标的重要性,实验结果表明学生行为中的问答、课堂活动参与数、登录次数、笔记、签到数、学习进度等特征重要性权重高,教师行为中的课堂教学、视频资源、已批作业、题目、课堂教学评价、已批考试试卷和登录次数等特征重要性权重高.最后,针对学生行为和教师行为制定了精准干预措施.本研究构建的模型暂未考虑时间因素,未来会在模型中加入时间序列参数,计算不同时间序列条件下特征重要性权重,再实时采用干预措施.

猜你喜欢

样本重要性特征
根据方程特征选解法
离散型随机变量的分布列与数字特征
“0”的重要性
用样本估计总体复习点拨
论七分饱之重要性
幼儿教育中阅读的重要性
不忠诚的四个特征
规划·样本
随机微分方程的样本Lyapunov二次型估计
读《边疆的重要性》有感