一种RBF神经网络改进算法在高校学习预警中的应用
2020-09-02宋楚平李少芹蔡彬彬
宋楚平 李少芹 蔡彬彬
1(南京科技职业学院信息工程学院 江苏 南京 210048)2(江苏工程职业技术学院建筑工程学院 江苏 南通 226007)
0 引 言
目前,我国已建成世界上规模最大的高等教育,在向高等教育普及化和教育大众化的迈进过程中正面临严峻的挑战,如学生沉迷于手游、视频和网络小说等,将大量的时间花在与学习无关的活动上;也有部分学生过度热衷于课外兼职和社团活动,严重影响了正常的学习效果;还有部分学生面对纷繁的在线学习任务时,止于浅表的学习和应付,甚至自暴自弃。这些学生都无一例外地难逃陷入“学困泥潭”的命运,最后导致逃学、弃学、辍学、延期毕业和大面积“清考”等学习危机,在浪费教育教学资源的同时,也给个人、家庭和社会造成一定程度的伤害,是新势态下高校人才培养质量问题日益突出的集中体现。令人欣慰的是,高校数字校园的普及和云计算、大数据、物联网和人工智能等各种新兴信息技术与教育的融合发展,为该问题的解决提供了无限可能。然而,学习危机一直是一个复杂的学习现象,由于学生个体多样性和差异性的特点,受家庭结构、师生关系、学习环境、学校管理制度、教育方式和社会环境等多因素影响,目前高校还没有完善的技术手段对学习危机进行监控和预测,这导致学生管理难度大,学困生数量居高不下,毕业生质量呈逐年下降趋势,影响了学校的办学声誉和人才竞争力。因此,针对该问题,立足高等教育教学现状和特点,利用教育大数据,从技术层面和应用层面开展学习预警相关研究,是教育信息化、“智能+教育”下提高高校社会声誉和办学效益的必然产物,也是国家战略层面高等教育创新的必然诉求。
1 研究现状
纵观国内外聚焦“学习危机”、“学习预警”或“学业预警”等方面的研究,总体而言,国外比国内起步早、实证研究成果也更为丰富。文献[1-2]指出:不同群体学生来自不同地区,具有不同的文化背景,对新环境的适应需要时间,相比而言新生更容易出现学习危机;学习动机不足和目标评估不清晰都是学习危机学生的明显特征,在面对挑战和困难时,学困生在学习主动性方面明显较低。美国阿拉巴马大学、马里兰大学等高校利用多源数据对预测学困生进行了相关研究和实践探索,这对学生的学业成功和学生保有率有明显影响[3];欧洲地区的一些高校建立了专门的学习预警机构、流程和系统,对学生的学习兴趣、学习效能和学习能力进行评价,并评估学习预警对学生的积极和消极影响;新加坡、日本的个别高校建立了家-校-生三位一体的学习预警平台,根据学生的学习状况、出勤和课外活动等指标定期发布学习风险提示,督促学生及时纠正不良学习习惯[4]。国内的袁安府等[5]、潘凌理等[6]和王球琳等[7]就学业预警评价指标体系、预警机制、预警保障体系等方面进行研究,为学业预警提供了一些理论基础,但现有的相关研究多集中于逻辑思辨,缺乏系统的理论指导和实践层面的实证研究,侧重于对结果数据的静态分析研究,几乎没有对过程数据的动态研究,研究成果在高校的实证应用也鲜有所闻。综上,在大数据视域下关于高校学习危机的相关研究主要存在以下不足。
(1) 缺乏对学生群体的系统分析。现有相关研究多集中于对学生学业结果的研究,缺乏对学生有针对性的系统研究,如学生的心理、性格、家庭情况,以及入校高考成绩和职业抱负等个体因素是学习的原生动力,在一定程度上往往比外界因素更能影响学生的学习成绩。另外,不同的高校无论是在教育制度、管理流程、学习环境、授课方式、评价标准等方面,还是在生源的素质、生源结构等方面都存在较大的差异,简单将研究成果迁用于所有高校学生的学业预警,无疑是“张冠李戴”、“ 浅尝辄止”。厘清研究对象有哪些内涵、外延数据,有哪些个体特征和特定的学习环境是进行研究的基础,只有对学习危机进行追根溯源,充分认识高校学生的“本来面目”,才能为学习预警的研究内容、研究方式指明方向。
(2) 忽视了大数据环境。随着教育领域大数据的到来和大数据的普及,学习危机、学业预警等课题的研究不可避免地置身于大数据环境,忽视甚至摈弃大数据环境的研究必然带有局限性和视角盲区。因此要在现有研究的基础上,采集学生基本信息、学习过程、考核结果、课外活动等多方数据,实现校内各管理平台间的互通互联,利用数据挖掘、智能分析等工具从教育大数据中提取、发现新的信息和知识,提供学习预警和干预帮扶等服务,为学习危机研究提供新的方法和视角。同时,尤其对于高校教育而言,教、学、研、做中心分布广泛,学生群体数据离散度高,学习数据量大,静态数据和动态数据分隔严重,研究者站在怎样的视点,如何针对大数据解决学习预警问题也需要进行深入的研究。
(3) 预警方法单一。Romero等[8]通过抓取在线学习平台上学生的信息发布数、邮件数、完成测验数量、学生活跃度等指标数据来预测学生期末学习危机趋势,该方法只利用了学习过程数据,忽视了学生个体静态基本信息,该预警视角影响了预警整体效果;金义富等[9]提出一种基于离群挖掘与分析技术的课程、课堂、课外数据“三位一体”的学业预警方法,通过相似度和离群次数来判别离群对象进而发现学习危机者,该方法在界定离群对象的关键属性和离群阈值上缺乏理论指导,一定程度上影响了该方法的实用性;牟智佳等[10]主张从个人档案、课堂学习行为、网络学习行为三个维度获取预警数据源,构建评价矩阵并计算各指标值权重,最后通过个体偏离平均值的幅度来预测危机状态,该方法较全面地考虑了预警内涵和自变量属性,但在异常个体较多时就显得力不从心;赵惠琼等[11]通过筛选在线学习行为数据,利用多元线性回归分析法来预测学生学习某一课程的绩效分类,该方法并不能较好解释学生复杂的学习行为,且变量之间可能存在的相关关系影响了该方法的有效性;刘博鹏等[12]基于过往课程成绩及关联行为特征数据,利用支持向量机(SVM)预测学生学习某门课程的好、中、差三种状态,但实际生活中很难界定学生某行为特征与单一课程的对应关系,因而影响了该方法分析结论的可信度。总体来看,学习危机预测既要考虑个体信息、生活环境等静态数据,又要突出学习过程大数据动态特征,抓住影响因子和预警方法两个关键要素,以信息共享、数据挖掘、人工智能技术为手段,为不同学生提供个性化预警服务,彰显教育个性化、精准化的价值。
2 危机成因及预警模型
当前该领域研究提出了利用贝叶斯网络、神经网络、关联规则、支持向量机等数据挖据技术来创新预警手段,但由于学习危机本身的复杂性和技术应用的局限性,预测效果有待进一步提升。考虑到当下学习预警具有“大数据驱动、非线性变化、预警分类化”的特征,本研究在甄别学习危机评价指标的基础上,结合径向基函数(Radial Basis Function,RBF)神经网络,其具有唯一最佳逼近任意连续函数、收敛速度快、特别适合解决分类问题的特点,经过模型对比,决定采用RBF来解决学习危机非线性演变问题的拟合和预测。
2.1 学习危机影响因素
查阅和梳理大量的相关文献,结合学生的基本信息、日常生活、课堂表现、学业成绩等情况,对学业预警指标要素进行了初步的选取,并请多位具有教学教育管理经验的老师对指标进行分析评价,另外结合专家的意见,增加了在线学习这项一级指标,最终形成上述五个维度的指标体系。根据“综合考量成因,抓住关键要素,减低预测成本,有利问题求解”的原则,将各指标要素细化至容易测量的层级,这样的降级处理使得最后的指标要素更具可操作价值,同时为今后的信息搜集奠定了确切的基础数据保障,最后提炼出影响学习危机的22个评价指标。显然,各项指标对学习危机所作贡献大小并不一样,其贡献权重系数采用AHP层次分析法,构成22×22的权重矩阵,各元素值先由召集的专家和教师独立打分,再统计频次最后集中评议确定,各指标及其权重系数计算结果如表1所示。
表1 评价指标及贡献权重系数
由表1可知,有些指标的贡献系数相对很小,为抓住关键要素,并考虑到指标之间的关联重合性和减少预测模型的计算量,将课堂参与度、课堂学习任务完成度两项指标合并为课堂表现,过滤掉系数小于0.01的指标项。最后得到心理健康评估、进入图书馆频率、玩游戏时长、违规违纪、课堂出勤情况、课堂表现、期末不及格课程门数、期末临界不及格课程门数、已取必考证书、选修课未修满学分、及时提交学习作业、学习作业成绩和参与交流和讨论共13项主要指标。日常的学生评价指标数据通过智慧校园中的教务管理、学业管理、爱课程等相关系统自动提取,并结合学校的学生预警自评系统进行补充和修正。
2.2 预警模型
RBF神经网络是由输入层、隐藏层和输出层三部分组成的前馈神经网络,其拓扑结构如图1所示。
图1 RBF网络结构
(1) 输入层的计算。输入层直接输入学生样本数据,样本数据由N×K的矩阵构成,其中,N是输入向量X=(x1,x2,…,xN)的维度,即上述学习危机评价指标个数,等于输入层神经元个数,此处N=13,K为样本数,输入层节点到隐藏层节点的连接权值为1。
(2) 隐藏层的计算。隐藏层有m个节点,节点激活函数是径向基函数φ(r),径向基函数有多种形式,如高斯函数、反演S型函数、拟多二次函数等,此处选高斯函数,则隐藏层节点j的输出φj(X)为:
(1)
式中:‖X-cj‖是欧式范数;cj为函数隐藏层第j个高斯节点中心;σj是径向基函数的宽度,用来调节网络灵敏度。在MATLAB中利用NEWRB函数设计近似RBF网络,设定网络目标均方误差为10-8,m初值为4,迭代训练过程中m加1,直至训练误差稳定在目标误差之下,经试验,m=9时网络性能较为稳定,故隐藏层节点数取值为9。
(3) 输出层的计算。学习危机的预警级别有正常、关注、严重和危险四个级别,用数值1、2、3、4表示,RBF神经网络的输出范围为[1,4],按四舍五入取整对应四个预警级别,因此输出层的节点数k为1,该节点的输出值为:
(2)
式中:wjk为第j个隐藏层节点到输出节点k的权值,根据输出层的输出值y就可以得到学习危机的4种分类,从而为学习预警干预工作提供决策依据。
(3)
输入:训练集D={(X1,y1),(X2,y2),…,(Xk,yk)}、BP学习率η、训练误差ΔE、训练总轮数P、遗传变异种群数L、最大迭代次数K、收敛系数Pk。/*Xk是第k个样本的输入向量,yk是第k个样本的实际输出值*/
输出:(W1,W2,…,Wj,Wk)p。/*p次迭代后网络隐藏层、输出层的权重向量Wj、Wk*/
1 D的归一化;/*区间[0.2,0.8]*/
2 取一组权重向量种群S0=(W1,W2,…,Wj,Wk);/*Wj为隐藏层第j个神经元的权重输入向量,j=1,2,…,9;Wk为输出层神经元的权重输入向量,k=1,取值范围均为[-0.5,0.5]*/
3 repeat
4 for all(W1,W2,…,Wj,Wk)∈Stdo /*t为迭代次数,初值为0*/
5 计算个体i被选中概率Pi,用赌轮法选择新的个体进入下一代St;
6 完成交叉、变异算子操作,形成一组新染色体种群St;
7 end for
8t=t+1;
9 计算种群均方误差和E(w)(t);
10 untilE(w)(t)<=Pk‖t>K
11 end repeat
12 得到最优个体的染色体(W1,W2,…,Wj,Wk)1;
13 repeat /*置p=0*/
14 for all (Xi,yi)∈Ddo
16 依式(3)更新(W1,W2,…,Wj,Wk);
17 end for
18p=p+1;
19 计算样本的E(w)(p);
20 untilE(w)(p)<=ΔE‖p>P
21 end repeat
3 应用实例
基于预测模型对学生的学习危机进行评估,要经历样本数据采集、模型参数设定、模型训练和模型测试4个阶段,其工作流程如图2所示。
图2 学习危机预测流程
(1) 数据采集与处理。直接采集的学习危机13项指标数据(用向量X0表示)不能直接作为网络的输入数据,必须进行归一化处理,以提高模型训练速度和灵敏性以及有效避免量纲影响,保证模型具有一定的外推能力。归一化公式如下:
(4)
因为各分量值对网络输出“预警级别”的贡献大小是不同的,其对应的初始权重向量W由AHP层次分析法重新计算来确定,而非采用[-0.5,0.5]内的随机数,以避免模型训练过程中出现梯度饱和与梯度消失的问题,保证输出依然有着良好的分布,显著降低训练时间。计算后的值为W={0.012 9,0.013 5,0.068 4,0.052 6,0.014 8,0.010 6,0.280 9,0.085 8,0.110 7,0.076 3,0.030 6,0.229 6,0.013 5}。
(2) 模型参数设定。由式(1)和式(2)可知,模型的学习包括RBF函数中心cj、宽度σj和隐藏层与输出层的连接权值wjk三个部分的学习。
① 基函数中心cj。本文采用文献[13]提出的基于轮廓系数的自适应K-means算法来计算输入样本的各类中心cp,用cp来替代传统的基于所有样本的隐藏层各个高斯节点中心cj(j=1,2,…,9)。cp的准则评价函数如下:
(5)
式中:n为样本数;xi表示样本i和同属c类的其他样本之间的平均距离;xi′表示样本i和其他类所属样本平均距离的最小值。显然,cp越大,所有样本的类内平均距离与类间平均距离的差距越明显,则说明对样本的聚类达到了最优效果。
② 基函数宽度σj。根据聚类结果来确定σj,其值等于各聚类中心到训练样本距离的平均值,由式(1)可知σj表示了m个基函数的方差,则其宽度为:
(6)
式中:dmax表示中心cj两两之间的最大距离值;m是基函数个数。
③ 连接权值wjk。在确定隐藏层节点数m、高斯函数中心cj后,利用最小二乘法计算隐藏层各节点到输出层的权值为:
(7)
式中:cmax为训练后最终的基函数中心。
(3) 模型训练。从某院校2018毕业生中抽取200个学生样本,其中顺利毕业的学生50人,困难毕业和未毕业的学生150人,非顺利毕业包括有补考记录、学分不够、无英语、计算机和专业必考证书等情况。采集该200个学生在第四学期的学习记录数据,经人工标注得到50条正常样本,61条关注样本,54条严重样本,35条危险样本共4个数据集,从这4个数据集分别随机选取80%共160个样本作为训练样本,余下的作为测试样本,模型训练中损失函数Ft的变化如图3所示,损失函数Ft为:
(8)
图3 损失函数变化曲线
式中:TP为正确分类的学习危机类样本数;TN为正确分类的正常学习状态类样本数;N为总样本数。
可见,改进的RBF算法比原始RBF算法的训练误差小,准确性更高,在网络训练方面明显优于原始算法。另外,改进算法的训练速度更快,比原始算法具有更快的收敛速度和更小的极小值,这主要得益于更合理的初始权重向量W和遗传算法的全局优先策略。
(4) 模型测试。为进一步评估模型的性能,利用训练后的模型对40个测试样本进行测试,结果如图4所示。
图4 预测结果与实际结果关系图
可以看出,预测值与实际值非常接近,只有5个样本的预测值与实际值有偏大误差,2个关注样本被错分到严重类,2个严重样本错分到危险类,1个正常样本错分到关注类。分类结果整体呈现偏大的趋势,学习危机预测偏于保守,这可能与学习危机评价中突出“差表现”的贡献、重视“危害程度”有关,说明模型的训练精度能满足学习危机预测要求;预测值与实际值的总体发展趋势基本一致,较好反映了学习危机的实际演变规律,说明模型具有较好的泛化能力,预测结果应用于危机干预较为理想。
将发生学习危机定为正类,非学习异常定为负类,测试样本的正确率A和召回率R分别为:
这说明模型的整体分类精度较高,针对学习危机趋势预测这样的应用场景,上述分类精度完全能够满足预警工作要求,对于发生的学习危机该模型均能够识别,说明模型对学习危机的敏感性高,正确识别能力强。
4 结 语
第一时间获知学习预警情报是高等院校在教育教学中必须面对的一个现实问题。本文在分析学习危机成因和评价指标的基础上,结合数据挖掘技术,提出了一种学习危机预测方法,为学习预警的情报侦测提供了一种智慧手段和方法。但学习危机是一个已知和未知、规律性和突发性并存的问题,想利用现有的智慧校园观测数据来准确预测未来的学习危机发展趋势仍有困难,如果将学习危机量化过程与学生的学习考核和相关管理标准进行精准对接来提高样本质量,并进一步考虑优化模型算法势必会提高模型预测精度和泛化能力,这也是下一步要研究的问题。总之,在智慧教育2.0支撑下的高校学习生态发生了全面和深度的变化,面对学习危机问题,要抓住高等教育的内涵和特征,以教育的“大数据”为基础,以学校系统和社会系统的“联通共享”为要义,以教育大数据的“挖掘”为策略,以学习监测的“智能智慧”为驱动,建设科学立体的学习危机情报系统,为真正实现个性化教育提供技术支持和精准供给服务。