融合随机森林和神经网络的教学质量分析算法
2023-08-29骆仕杰韩抒真
骆仕杰,韩抒真
(天津工业大学 网络安全和信息化办公室,天津 300387)
1 引 言
随着互联网推动信息化技术的爆发式发展,数据的规模也逐渐扩大,由此引发了缺失数据、劣质数据、数据分散等问题,因此数据治理显得尤为重要.数据治理可以尽可能弥补缺失数据,清洗劣质数据,还可以有效地归一和聚合分散的数据.在高校中,由于学科多,学科之间存在一定差异,信息化技术高速发展的今天,教学手段也更灵活多样,高校教学质量评估变得相当复杂,如何有效的分析影响教学质量的因素,并且可以尽可能多方面的影响维度进行分析,分析的合理有效是一个颇具挑战性的问题.目前,教学质量为衡量各高校的水平的重要指标之一,如何有效地分析研究影响学校教学质量的原因是提升学校水平的重要方法.数据治理中将学校的各业务数据标准统一,提高数据质量,降低数据的冗余性.在更丰富的数据中使用数据挖掘技术对影响教学质量的原因进行分析,可以更具体更全面的构建分析模型,对影响教学质量的因素进行分级排序,用更科学和合理的方式对现阶段影响教学质量的因素进行量化分析,可以指导高校制定适合自己学校的制度和方法来有效的提升教学质量[1-3].
教学质量评估中比较重要的影响因素有教师的信息,因此在教学质量分析模型中需要构造好的教师画像.国外学者Gorrab A等已经证实将社交信息融入进去来构造用户画像取得了较好的成效[4].本文采取相似的思路在构造师资信息和学生信息相关的模型时融入了学生和教师的社交信息.国内学者杨长春,徐筱等人使用随机森林方法在用户画像的构建上有很好的突破,但是数据维度较为稀疏,并且特征上均为静态信息,在特征丰富度上稍有不足[5].本文在用户的特征上具备了社交信息、评价信息等动态信息作为特征,可以在画像的构造上更加完整.鄂海红、张文静等学者通过深度神经网络可以良好的构造实体关系,教师、学生和教学信息之间的信息关系类似构造实体关系网络,因此本文采取了深度神经网络来处理学生信息数据模型[6].李恒超等人提出了构建用户画像的二级融合算法,成功在用户画像的构建中使用了融合算法.本文将教师和学生的画像信息通过模型构造后引入教学评估的融合模型认为会充分发挥画像信息的作用[7].
快速高效的从开放领域中提取出有效的信息并且建立好的实体关系作为数据挖掘和信息抽取的重要问题[8].Feng X,Guo J等人通过使用双向神经网络提取出了信息之间的监督关系,建立了较好的关系网络模型[9].但是仅仅采用双向神经网络构造的关系模型的缺点在于如果出现特征维度过高或者无用关系特征过多,关系网络将会非常复杂,导致效果不佳[10,11].本文引入Attention机制将较好的解决这一问题.
目前国内外针对教学质量分析的数据挖掘研究主要针对于经过认可的影响因素来构建,对挖掘特征的扩展性和延展性略有不足.因此采用深度学习模型计算复杂的关系特征的关联规则,并且使用随机森林模型特点,让评估指标更好的通过权重来解释.充分利用数据治理将高校各系统的数据汇总的优势,有效的选取影响教学质量的影响因素作为特征,最后将深度神经网络和随机森林模型融合在一起得到最后的教学质量分析模型(RALCA).本模型通过数据挖掘算法和建模的方式更科学的对影响教学质量的因素做分析,可以更直观的得到影响教学质量因素的影响因素,通过已有的教学质量评估数据实际分析,可以更好的提高教学质量.
2 数据模型的构建
影响教学质量的因素复杂多样,教学质量分析主要和教师、学生的个人信息、教学互动信息两部分信息相关,针对两类信息的数据特点,制定不同的分析方案,选择适合的数据模型进行挖掘来做模型融合前的第一步工作.
2.1 人物画像数据模型
人事系统主要存放在职教师的个人信息数据,人事系统中教师的个人信息具有结构化、可表示性较强的特点.师资信息的数据来源于人事系统,人事系统中数据主要对教师的教学水平、科研水平等有较好的表示,因此人事信息对教学质量评估的影响有很强的指向性意图.对于人事系统的信息,目的是有效的衡量教师的科研能力、组织能力、教学能力、工作能力等方面.学生信息数据来源于研究生院系统和教务系统,学生的信息数据包括学生基本信息和行为信息数据,两者类型的数据关系比较复杂,又涉及到一些学生基本信息和学生的行为数据有关联的特点.已有的决策树算法对特征之间的无关联性要求较高才能达到很好的效果,人事系统中的数据特征有很多是具有关联性意义的,比如教学能力和科研能力有一定关系,组织能力和教学能力也有一定关系,所以要对模型的泛化能力做着重关注,最终决定选取随机森林模型来构建人物画像信息方面的数据.
随机森林模型(Random Forest,简称RF)是一种有监督学习算法[12].随机森林是多个决策树集成到一起而构建成的,通过随机性来构建森林,使用“bagging”的方法训练而成,bagging方法即为bootstrap aggregating,采用的是随机又放回的选择训练数据然后构造分类器,最后通过组合学习到的模型来增加整体的效果[13,14].
随机森林的算法流程如下:
1)其中,特征数量N,通过有放回的抽样可以构造成(m×n)m×n的抽样空间假设存在数据集D:
D={xi1,xi2,…,xin,yi}(i∈[1,m])
(1)
2)构建决策树的学习器:对于每一个抽样
dj={xi1,xi2,…,xik,yi}(i∈[1,m])
(2)
生成决策树,并且记录每一个的决策树结果为hj(x);
3)使用加权投票法训练C次使得
(3)
其中φ即为加权投票法.
2.2 教学信息数据模型
教学信息数据主要以教师和学生对教学情况的评估为主,因此核心的内容是要构造教师对于课堂的讲授因素、教师对课程本身的调控关系因素、学生对于课堂的接收能力以及学生对于课堂的授课方式的评价等关系对于教学质量的影响.教学信息数据模型目的是为了表示学生、教师信息和教学情况信息的关联关系进行较好的表示.深度神经网络具有对复杂关系解释性强和对特征合理强化或者弱化的优点,在处理关联性较多的这种多维特征、关系复杂的问题可以有效地对特征进行筛选且较好地解释特征之间的关系.近年来,深度学习领域中提出的注意力机制(Attention Mechanism)在面临一些需要突出关注的特征弱化无关的特征类型的困难任务中,能有效地提高深度学习算法的准确率[15,16].注意力机制的思想是在模仿人脑的注意力机制,人的大脑在接收外界信输入的时候,通常是不能将全部的信息进行处理的,会有选择的进行处理,选择的标准就是将注意力集中在部分关键的信息上,过滤掉自认为不重要的信息,让自己的注意力更加关注到关键的部分,从而使得信息处理的效率和准确率有所提升[17].教学信息数据维度较多,但不是所有的信息都是质量分析模型关注的,比如教学的师资信息、教学课程年份等为需要关注的信息,而教师与学生的性别、爱好、社团参加经历等为弱化关注的信息.针对教学信息数据特征关注度不同的特点,准备采取注意力机制和神经网络结合的方式作为学生信息数据处理的模型选择.
选用注意力机制与长短记忆神经网络(Long Short Term Memory,简称LSTM)进行结合的方法来构造模型.LSTM作为深度神经网络对数据的抽象关系表述较好,并且对学习长期的依赖性的关系信息有较好的保存能力[18].
Attention-LSTM模型的计算过程如下:
Ci为不同时间的压缩信息,hi为LSTM作为编码器每一个step的输出,yi为输出hi经softmax层后得到的注意力权重.
某一时间间隔为t,将第n个LSTM编码器输出向量记为H:
H=(h1,h2,…,hn)
(4)
其中,Gt为给定时间间隔t的输入门、遗忘门和输出门,这些从LSTM输出的hi经过softmax层后计算得出注意力机制的权重:
yi=softmax(hi)×[(Gt)×tanh(ci)]
(5)
注意力权重向量记为Y:
Y=(y1,y2,y3,…,yn)
(6)
由上述计算可得到影响因素的权重向量表示,得到学生、教师和教学信息数据的之间的关系表示.
3 模型设计
3.1 影响教学质量数据分析
为了更好的完成对教学质量分析的模型构建,首先要对可以构建影响教学质量评估分析的模型的数据因素进行分析,在数据采集上通过数据治理工具采集了教师信息、学生信息和教学信息3部分的数据.下面将对这3部分的数据具体进行分析展示:
1)教师与学生信息
教师的数据信息主要来自人事系统,是一些教师的基本信息、科研信息、师资信息等.教学质量评估中教师的信息作为比较重要的特征信息,表1展示部分教师信息数据特征,教师信息数据特征总共有178个.
表1 高校教师信息数据特征简介
学生的数据信息主要来自于研究生院,是学生的基本信息、授课信息、导师关系、研究方向、课堂状态等.在教学质量评估分析中,学生的最终学习效果和学生的研究方向、个人驱动等方面原因结合起来进行分析,对教学质量评估的分析更客观和直接,比如生源不同、入学方式不同等各方面因素均会体现学生的学习能力、学习驱动型等特征,通过这些特征再进一步和学生的听课状态、考试方法、教学情况结合起来分析可以更好的分析影响教学质量的因素.表2展示部分学生信息数据特征,学生信息数据特征总共有112个.
表2 高校学生信息数据特征简介
2)教学信息
教学信息数据是来源于教务处系统,这个也是主要教学质量评估分析的核心数据信息内容,这部分数据大多数是用课堂教学评价的信息,用来连接教师和学生的核心数据.从教师角度分析得到教师课堂教学特征,包括听课次数、调课次数、提前下课次数、找人代课次数、留作业次数、随堂检验次数、ppt制作次数等.从学生角度分析得到学生评价课堂教学特征,包括课堂内容合理程度、讲课的质量评估、授课技巧评估、教师责任心、作业批改认真程度、课堂内容实践意义、课堂氛围好坏、考试内容是否符合教学等.
3.2 教学质量分析模型设计
3.2.1 模型融合
模型的融合的技术有很多方法,可以通过回归算法,例如线性回归(Linear Regression)、逻辑回归(Logistic Regression)、Lasso回归等方法对特征的权重重新拟合达到多个模型融合的目的.当然还有针对不同类别的数据特征设计的模型融合算法,例如投票算法(Voting)、排名排序算法(Ranking)、抽样生成算法(Bagging)、交叉加权平均算法(Blending)、叠加法(Stacking)等对多个模型的输出进行进一步的处理得到最终结果[19].神经网络concatenate层不仅仅是对模型信息的一个叠加或者是排序,而是在保证原有的特征维度基础上的一个通道数的合并,对特征的信息描述的更加具体.另外由于涉及到教学质量分析的特征维度较高,采用叠加或者排序的方法很容易造成过拟合,采用神经网络concatenate层可以有效的避免特征维度较高并且样本数量较少的过拟合情况,在维持原有特征维度的基础上更加高效进行特征的信息联合[20].为了让模型在特征层面进行融合,并且可以对特征进行联合,最终选取神经网络concatenate层对学生信息模型、教师信息模型和教学信息模型的输出层进行信息融合.
3.2.2 教学质量分析模型RALCA的设计
教学质量的影响因素受到学生、教师信息数据和教学信息数据的影响.学生的信息数据主要对教学质量的影响在于判断学生是否认真学习、学生的学习质量如何.
教师信息数据在于课堂教学的质量和授课方法的效果等因素对教学质量的影响.使用RF模型可以较好的表现学生、教师自身因素对于教学质量的影响,生成对学生较好表达的人物画像信息特征.教学信息模型采用循环神经网络挖掘教师、学生信息与教学特征之间的关联关系,引入注意力机制排除一些影响较小的因素,生成稀疏高维度的教师信息特征.使用concatenate方法融合了学生、教师信息特征和教学信息特征,然后将融合的特征输入到一个全连接层,使用全连接层将学习到的特征表示映射到样本的标记空间,将所有的特征整合到一起,对特征进行提纯和筛选.最后连接到sigmoid对影响教学质量的因素进行打分,得到影响因素的影响程度得分.提出的RALCA模型如图1所示.
图1 RALCA模型
如图1给定n个影响因素,用pi来表示影响因素的影响程度,那么所有的影响因素表示为P:
P={P1,P2,P3,…,Pn}
(7)
(8)
公式(8)为影响因素的影响概率,即为影响因素的影响程度.结合本文2.1节随机森林模型的人物画像输出和本文2.2节Attention-LSTM模型的教学信息和教师、学生之间的关系输出,使用concatenate融合两个输出后,再经过一个全连接层计算:
z=W[ORF,OAttention-LSTM]+c
(9)
其中ORF为人物画像的影响指数,OAttention-LSTM为Attention-LSTM模型的关系预测结果,最终pi计算为:
(10)
下面详细介绍RALCA模型的融合过程:
1)人物画像构建
教师的个人信息和学生的个人信息作为影响教学质量的因素通过随机森林中bagging的思想构造特征信息之间的分类器,每一个bagging通过组合学习得到一个较为综合的权重表示的向量.最后得到具有人物信息特征重要性组成的用户画像模型.
用户画像特征数量为n,画像信息特征的距离表示为:
L(n)=∑d(k)=iprox2(n,k)
(11)
画像特征构造出多个决策树,多个决策树通过平均相关系数来平衡画像特征之间的决策树,计算公式如公式(12)所示:
M(X,Y)=P(Y=Y)-maxP(Y=Z)
(12)
其中Y是根据随机向量构建的决策树的预测类别,通过计算泛化误差的关系,来平衡计算各个决策树之间的关系.
当各个决策树构建平衡后,得出用户画像的随机森林模型,其中每个用户信息特征的影响程度计算过程为:
通过Gini指数来代表特征对于决策树中分类的纯度:
(13)
其中,K表示有K个画像类别,pnk表示节点n中类别k所占的比例.因此画像特征在节点n中与相邻的画像特征重要性指数变化表示为:
(14)
因此这个画像特征在第i棵决策树的重要性为:
(15)
由此可得到在z个决策树组成的随机森林中画像特征的重要性评分为:
(16)
2)信息关系表示
其中教学信息数据模型的LSTM的过程类似于编码和解码,也就是encoder和decoder.此模型中encoder的过程及将学生、教师信息和教学信息转化为一个类似关系中间件的东西,decoder的过程及根据关系中间件来输出最有可能的信息组合.但是LSTM如果遇到输入的特征维度非常长的时候会在encoder和decoder的过程中产生的关系中间件的表达不是特别的好,注意力机制会较好解决此类问题,注意力机制可以在encoder的过程中对每一个输入赋予不同的权重,输出一个不同关系比例的关系中间件组合,因此decoder的过程可以根据这个比例关系进一步处理,从而达到较好的关系解释效果.自注意力机制将会给每一个关系信息分配权重,得到影响因素的关系权重表示.
3)信息融合
如图1所示,RALCA模型使用concatenate方法将RF模型构造的人物画像关系和Attention-LSTM模型构造的人物信息和教学信息之间的关系信息融合起来,输入到全连接层进行计算.
4)影响程度计算
为了输出教师、学生信息和教学信息中影响因素的概率,在全连接层计算后通过sigmoid函数计算出每一个影响因素的概率表示,即为影响程度.
3.3 教学质量模型的分析步骤
1)根据3.1中的分析从人事系统、研究生系统、教务系统中收集相应的特征数据.
2)对收集到的数据进行数据清洗、数据预处理、数据特征化的处理.
3)对采集到的教师信息特征、学生信息特征使用随机森林的方法构造模型,对教务系统采集到的教学信息特征使用基于注意力机制的双向神经网络方法构造模型.
4)将两部分模型的输出通过concatenate方法进行融合处理.然后拼接上全连接层对融合后的特征进行提纯和筛选,RALCA模型构造完成.
5)通过初始值、学习率、动量因子、准确率、召回率等因素确定融合模型的稳定时刻.
6)根据模型的构造数据,对模型进行训练,直到训练到满足预先设置的范围为止.
4 数据治理中教学质量分析模型的实例分析
4.1 实验分析平台
数据治理中教学质量分析模型的构建中有深度学习和多进程训练的模型,因此对于实验分析平台的性能要求较高,在进行模型的训练、验证和实例分析中采用了如表3所示的1台带显卡的深度学习机器和如表4所示高性能CPU配置机器.
表3 显卡深度学习机器配置信息
表4 多进程机器配置信息
4.2 模型的分析性能评估对比
融合模型的评估包括各个部分的模型评估以及最后的模型融合效果的评估,针对教师和学生数据、教学信息数据的模型构造将分开逐一进行评估,最后的融合效果采取了对比的方式进行最后的评估.
4.2.1 人物画像数据模型评估
使用随机森林模型原因在于模型的分类综合稳定性和树类型模型可以形象的对特征有一个权重的表示,因此对于教师数据的模型主要衡量模型的准确率、召回率和权重分布.真阳性率和假阳性率为衡量分类模型的重要指标,真阳性率=真阳性数量/金标准阳性数量,假阳性率=假阳性数量/金标准阴性数量.ROC曲线是以真阳性率为纵坐标,假阳性率为横坐标绘制的曲线,因此ROC曲线可以综合考量准确率和召回率的平衡关系.AUC是ROC曲线下与坐标轴围成的面积,面积值不会大于1,此数值主要是ROC曲线面积的一个数值计算.实验数据计算得到随机森林的AUC值可以达到0.93,因此认为随机森林模型在教师、学生数据的准确率和召回率的平衡因素上表现符合预期.
如图2所示,随机森林模型的训练后,模型对特征权的分布图来看,有个别特征影响较强,大多数特征影响程度均衡在0.2~0.2之间,可见模型对于权重的影响程度的拟合度较好,此模型的权重影响程度符合融合模型第1层的分布.
图2 特征影响程度分布散点图
如表5所示为画像模型构造完成后,按照影响程度从高到低排序的部分数据信息,构建用户画像模型用于表示教师对于教学的综合能力评价,画像特征影响程度越高对于教师的教学综合能力评价影响程度越高,表5展示的均为正向影响特征,与教学本身相关特征4个,无关特征2个,可得出学生综合评价打分与科研成就值均会对教师画像产生较高的正向影响的结论,由此可以证明教师在学生中的影响力和教师的科研能力会对教师画像构建产生正向的较高影响.
表5 画像特征影响程度部分数据
4.2.2 教学信息数据模型评估
针对深度神经网络LSTM和Attention机制组合的模型,在录入融合模型前最关心的是模型是否过拟合,学生数据比较杂乱繁多,深度学习类型的模型更是容易训练过程中有过拟合的现象,针对此问题才需训练过程中使用验证集合交叉验证的方法,并且持续训练,查看模型的准确率是否可以持续提升并且符合预期.如图3所示为模型交叉验证训练波动图由,可以看出,不断的交叉验证在模型的准确率上确实有所影响,但是准确率达到平稳状态下的时候,依旧可以维持在0.91的数据附近,符合录入融合模型预期.
图3 模型交叉验证训练准确率波动图
4.2.3 教学质量评估分析融合模型评估
教学质量评估模型的融合效果好坏决定了教学质量评估分析的好坏,采用了数据治理中的上述教师和学生数据、教学数据两类模型进行融合得到综合的教学质量评估模型,选取了LR、SVM、Stacking、concatenate 4种融合技术作为最后模型融合的方法.通过实验对比分析4种融合后算法的ROC曲线如图4所示,RALCA模型融合算法的ROC曲线在LR和SVM融合后的算法曲线之上,更接近于点(0,1),显然采用concatenate方法的RALCA模型融合的AUC值也是最大,故RALCA模型融合的教学质量评估模型的泛化性能更好.
图4 4种融合算法ROC曲线对比图
4种算法分别进行了实验,对4种算法融合的精确率、召回率、P-R调和均值和AUC值如表6所示.对4种融合算法的准确率和召回率进行分析:LR属于回归模型,准确率较高,但是召回率表现较差,模型表现并不均衡;SVM作为线性分类,融合效果不佳,虽然召回率比较LR出色一些,但是准确率太低,预测精准度不高;Stacking融合效果优于前两种方法,但是Stacking融合在效率上较差;RALCA融合模型在召回率和准确率上表现均不错,这表明融合模型的预测准确度保证的前提下也保证了模型预测正确的数量,并且F1值也很高,表明此融合技术比较传统的线形和回归形的融合方法优势较大.Concatenate方法作为最后的融合技术,使得模型的AUC也达到了0.96的高数值,这说明模型的综合泛化性能也是最佳的.综上,RALCA模型融合算法作为教学质量评估模型可以有效的对教学质量的影响因素进行分析.
表6 4种融合算法效果对比
5 教学质量评估的分析
本实验采用的数据是某高校2019-2020年度的教学数据和相关的学生数据以及教师数据,为了对个人信息进行保护,实验数据为真实数据脱敏后的数据.对训练好的教学质量评估模型中的原始特征影响因素进行分析,对影响权重的分布进行了统计如图5所示.通过图5可以看出大部分的特征影响程度很小,而影响程度0.15~0.25之间出现了二次波动的峰顶,由此可见高频的有效的特征应处于这个之间,从特征数量在特征影响程度的分析曲线较为平滑,可见特征的影响程度比较均匀,曲线表现的光滑平稳,模型特征的影响程度分析也比较可靠,因此通过这个模型选取影响印象因素较高的特征进行查看可以得出高校近期对教学质量提升有力的因素.
图5 特征影响程度与数量分析图
本实验选取了影响程度较高的Top10个影响因素和影响程度绘制如图6所示.可以发现大多数影响较高的特征还是来自于教学因素相关,授课技巧、内容合理程度、调课次数和课堂氛围对教学质量的影响较大,这也是在教学方面提升的比较快的一些方式和方法;同时教师的资质水平也会对教学质量有一定的影响,教师的专业和优秀的专家称号从侧面也会给学生一定的优质教师影响,会激励学生更努力的学习;学生方面也是学生的学科影响较高,文科类型的学生在教学质量提升上有一定的困难,学生的入学成绩也影响较高,可见好的学习基础对于教学质量的影响也比较突出.
图6 Top10影响因素与影响程度图
6 结 论
影响高校教学质量的因素有很多,如何快速的提升教学质量是当前的研究热点.通过数据挖掘算法对影响高校教学质量的因素进行快速的定位和科学的评估,可以为学校更好的分析影响教学质量的影响因素.学校可以根据教学质量模型对影响因素的分析快速定位教学质量的问题所在,依据问题有针对性的制定政策方针制定方针,可以快速提升教学质量.通过数据治理对学校数据聚合处理的优势,采集到更多方位对影响教学质量的因素数据,使用concatenate方法将随机森林和注意力机制的双向长段记忆神经网络进行融合,对模型得到的特征影响度进行分析,可以得到对教学质量影响因素的快速分析,具有十分广泛的应用价值.
本次教学质量评估分析中录入的信息均为个人信息、关系信息等固定信息,高校数据治理还可以采集一些人物行为信息,比如课堂学生行为信息和课堂教师行为信息,解析为可以分析教学质量的结构化信息后录入模型将对模型的数据特征多样性进行丰富,也可以对更多的人物行为信息进行解释,指导教师日后的教课行为也可以规范学生的听课习惯.