基于深度神经网络的虚拟仿真实验学习效果评估研究

2021-07-29林衍森

江苏科技大学学报（社会科学版） 2021年2期

尹隽,林衍森,钱萍

(1.江苏科技大学经济管理学院,江苏镇江 212100;2.江苏科技大学计算机学院,江苏镇江 212100)

实验教学在培养学生的实践和创新能力方面发挥至关重要的作用。但传统方式难以还原企业复杂的管理流程和情境,无法将知识点与业务过程以及数据有效衔接。近年来，虚拟仿真技术的发展为高校实验教学带来了深远影响,许多学校依托虚拟现实技术,构建出高度仿真的实验模拟环境,学生参与其中,通过与场景的交互强化知识的理解和应用,提升实践、探索和创新能力[1]。经管类虚拟仿真实验教学被纳入国家虚拟仿真项目目录后,很多高校经管类专业陆续引入虚拟仿真实验项目,并与现实业务情境相衔接,如湖南工商大学的智慧供应链虚拟仿真项目、杭州电子科技大学ERP财务虚拟仿真实验等。伴随虚拟仿真教学应用的逐步深入,大量数据被记录下来,如何利用好这些数据进行学习效果的评估与分析,成为教育领域研究者近期关注的重点[2]。

目前，有关虚拟仿真实验教学的研究成果主要集中于实验教学应用、教学改革探索以及实证分析三个方面。首先,从应用情况来看,虚拟仿真实验最早应用于理工类学科[3],在管理学科的学习中也发挥了重要作用。如薛永基等致力于将案例分析教学与虚拟仿真实验教学相融合[4]。其次,随着应用范围愈发广泛,学者们对如何有效应用该技术进行了探索,认为虚拟仿真实验教学需契合课程需求,并与教学模式、教学方法相配合。王育杰等倡导将新型教学模式即虚拟仿真实验教学引入到传统课堂教学中,实现优势互补[5]。最后,相关实证分析类研究发现虚拟仿真实验能够影响学习效果[6]。王雪等对国内外38篇相关实证研究文献进行定量分析,结果发现,在虚拟仿真实验中，不同的学习者面对不同的学习环境和任务类型时,其学习效果存在显著差异[7]。

针对学习效果的评估问题,现有文献主要集中于在线教学领域。研究者主要从评估特征模型、评估方法等方面开展了多视角研究,并在个性化电子题库开发、学习可视化等方面开展了具体应用。然而，虚拟仿真实验的特点决定其学习效果的评估与实验特性紧密关联,且学习行为具有多层次性,而现有研究大多采用基于机器学习和数据挖掘的方法。比如，何韵竹采用支持向量机、决策树、随机森林等算法分析了软件工程专业特定课程对于学生综合学习效果的影响和作用[8]；汪昱帅使用Canopy、FCM以及支持向量机等算法对高校开放在线课程学习的学生行为进行分析,并提出特征加权的支持向量机方法[9]。这些方法难以适用于较为复杂的虚拟仿真实验学习效果评估，且在概念模型构建方面,现有研究大多只考虑了学习者的自身特征和行为特征,而虚拟仿真的实验特性同样会影响学习效果。另外，从研究方法角度看,实验者的学习行为具有复杂的多层次性,现有的单层分析方法难以抽取其复杂特征,因而在一定程度上会影响评估结果的准确性。

综上,针对虚拟仿真实验教学的研究多为定性分析,对于如何评估虚拟仿真实验教学效果尚缺乏具体严谨的结论。与此同时,随着越来越多的虚拟仿真实验项目投入使用,虚拟仿真实验过程的详细记录也为深入分析学习效果带来了契机。尽管目前学界已经开始对虚拟仿真教学进行定量分析,但现有研究仍相对较少。在高校仿真教学备受关注的今天,加强对实验学习效果的有效评估成为更具价值的研究问题。基于此,笔者提出以下研究问题:如何构建评估经管类虚拟仿真实验学习效果的模型?构建的模型是否优于传统模型,从而能更好地分析和评估虚拟仿真实验的学习效果?

基于所提问题,笔者先构建了虚拟仿真学习效果评估模型,除学习者个体属性特征、学习行为属性外,又添加了虚拟仿真教学的实验属性,形成新的特征工程方案;同时，考虑到深度学习在复杂行为模式特征抽取上的优势,提出基于深度神经网络(DNN)进行经管类虚拟仿真实验教学效果的评估方法;最后，依据某高校经管类虚拟仿真实验教学平台的真实实验数据进行模型验证和对比分析。

一、学习效果评估模型构建

根据建模思想,构建学习效果评估模型需要经历构建特征模型、评估模型和开展针对模型的学习效果评估等环节。模型框架的第一部分是针对基于学习效果评估的特征建模,进行相关需求获取和分析,确定纳入模型的特征,进而构建特征方案;第二部分是基于虚拟仿真学习的复杂性和多层次特点,通过深度神经网络进行学习效果评估;第三部分是基于实验数据,对模型进行评价。

(一)特征工程分析

数据的原有属性是未经加工的一次信息,若直接使用原有属性进行学习效果预测,效果欠佳。为解决这类问题,需增加经过属性间转换生成的新属性。特征工程就是特征衍生和特征筛选的过程,可以人为构建出可获得更好预测效果的二次特征。

拟建立的数据集字段包含部分原有字段以及经过特征工程产生的新字段。原有特征包括性别、专业、班级、实验完成总数、实验总积分、试题总积分、在线总时长、实验名称、实验得分、实验试题得分、实验时长、步骤编号、步骤得分,步骤时长,共计14个。新增特征包括实验平均得分数、试题平均得分数、是否观看视频、观看视频数量、实验所属类别、单位时长得分数,共计6个。

判别条件则由实验平均得分及试题平均得分共同决定。根据研究目的构建以下新特征。

第一，单位时长得分数。原有属性包含步骤得分及步骤时长,但考虑到有的用户用时短但得分高,有的用户耗费了大量时间却并未获得有效得分,因此考虑用得分除以时长,得到单位时长得分数。该新特征可以用来判定学生的学习效率。

第二，实验所属类别。此实验包含三个主线,分别为物流、生产和成本主线。原有属性并未标明实验所属类别,因此向公司相关人员咨询,构建出实验所属类别。类别不同可能会导致实验复杂程度不同,如物流专业学生完成物流主线的实验可能会比其他专业完成的速度快且准确度高。因此，学生学习效果会受到实验类别的影响,需区别对待。

第三，是否观看视频。根据观看视频数量而定,若无观看视频记录,则置为“0”,有观看视频记录则置为“1”。观看视频与否可能会对实验完成情况产生一定的影响。

第四，观看视频数量。每个实验基本上都会配套一个或多个讲解视频,主要介绍步骤等背景知识,有助于学生更好地理解实验要求。观看视频数量体现了学生理论知识掌握情况。

第五，实验平均得分数。由于每个学生的实验完成总数不尽相同,因而实验总分也相差较大。添加该列旨在得出平均每个实验的得分,便于进行比较。

第六，试题平均得分数。与实验平均得分数类似,便于对试题得分进行比较。

(二)判别条件分析

原始特征包含一系列分数,但并未给出相应的学习效果评价,因此需要人工添加判别标签,使原本的无监督学习转化为有监督学习。对最终学习效果的判定,应当落实到具体分数上,其他的相关属性可作为补充说明,为方便对效果进行判定,在上节已构造出新属性列。判别条件列的选取应有理有据,如黄赟茹对学生的期末考试成绩是否合格进行预测,将60分以上的归为一类,60分以下的归为另一类[10]。文中数据不仅包括实验得分,也包括试题得分,实验得分显示的是学生的实践能力,而试题得分则反映了学生的理论知识掌握程度,学习效果好坏评定要二者兼顾。基于这个原则,分别计算所有样本实验得分及试题得分的均值,将每个学生的分数与均值进行比较,若分数在平均值以上,则可认为其水平处于中上游,否则学习效果有所欠缺。

(三)基于DNN的模型训练

近年来,教育领域内的数据复杂度越来越高,数据量呈指数级增长,传统的机器学习算法在处理大数据方面显得力不从心,导致模型分类和预测效果不佳。随着深度学习的不断发展,研究者开始在许多领域关注深度学习的实用性,如图像领域[11]、语音领域[12]、数据分析领域[13]。在这些领域,深度神经网络的准确率已经超过人类专家。与专家系统不同,深度神经网络的高准确率来源于对大量数据的统计分析,通过在原始数据中进行特征提取,探索出其深层价值。具体到教学过程,学生的行为数据较多,对学生学习的评价若只依赖于考试成绩和老师的主观判断,学习效果监控很难做到实时、有效[14]。采用深度神经网络可以很好地解决这类难题。

在教育领域引入深度学习方法,如Xing等利用深度学习算法构建MOOC辍学预测模型,进而预测单个学生辍学概率,并采用支持向量机、决策树等作为基准模型,结果表明深度学习方法要优于传统方法[15]；朱家成等构建了基于深度神经网络的分析评价模型[16]。可见,深度学习方法已被广泛应用,且较之传统机器学习方法显现出独特的优势,尤其是在处理海量数据方面。同时，结合当下虚拟仿真实验教学蓬勃发展的趋势,实验过程的详细记录数据将会越来越丰富。因此，建议将深度学习方法应用于评估虚拟仿真实验学习效果。

具有多个隐藏层的神经网络相较于传统单层感知机而言具备更强大的学习能力,能够洞悉数据的本质特征,进一步提高分类或回归的准确性。利用深度学习模型解决复杂的学习问题是根本目的。以往的人工神经网络(ANN)在数据爆炸式增长的时代逐渐显现出局限性,为弥补其不足,深度神经网络(DNN)应运而生。DNN实现了复杂的函数逼近,有能力完成更为困难的实际任务。具体训练过程为:将原始特征输入DNN的Sequential模型,进行多次迭代训练,选择最优参数设置,在最优参数的模型训练下获得最高层的特征表达,然后进行模型评估。

(四)基于DNN的模型评价和验证

为衡量和评价预测的有效性和准确性,将该方法与以往相关研究中常用的机器学习典型方法(支持向量机)进行比较。在具体评估指标方面,采用损失率、精度和AUC值三个常用指标进行评估。损失率可用于观察模型训练过程中是否对数据信息充分利用；精度能反映预测方法针对虚拟仿真实验教学效果的预测能力；AUC值则用于评估二值分类器的好坏。最后,对模型进行拟合验证。

二、模型评估与性能对比

(一)研究对象和数据准备

研究对象是某高校企业管理虚拟实景实验教学平台,该平台提供的虚拟企业涵盖物流、财务和生产三条主线的全过程虚拟仿真实验,自2016年5月开始正式投入使用,目前主要服务于经济管理学院7个专业学生的管理信息系统、数据库原理与应用、认识实习等课程。笔者收集了该平台2016年5月至2019年4月为期3年的学生实验日志数据,共674名同学的146 153条实验记录,具体收集了与本研究相关的四张表，即用户表(users)、实验完成情况表(expAll)、单个实验完成情况表(userExp)和学生实验详细操作记录表(record)的相关数据,各表的具体描述如表1所示。

表1 表数据描述

(二)DNN模型设置

对于学习效果的评估,其中模型构建是重要环节。选取深度神经网络作为预测模型,并采用支持向量机作为对照模型,对比二者性能,选取评估效果较好的模型作为最终模型。前文已对数据进行预处理,将原始数据及衍生属性汇集到一张表里作为样本数据集。

1.模型数值编码

样本数据集里的非数值类型不能被模型有效识别,需要对其进行转化。当属性取值为两类时,可以采用二值化“0-1”编码;取值为多个且各值之间无明显次序关系时,可以考虑采取One-Hot编码方式进行编码,将特征扩充到高维空间,该方式又称独热编码,即采用n位状态存储器对n个状态编码,单个状态只有一位有效。独热编码的作用是使数据的分类更加准确,使模型更具表现力,虽扩充了特征维度,增加了时间成本,但会得到更好效果。具体而言,即令物流主线=(1,0,0),生产主线=(0,1,0),成本主线=(0,0,1)。这样一来,各特征互斥,每次只有一个生效,且各自的欧式距离相等,解决了分类器不能识别离散特征的问题。

2.模型参数选择

在理解机器学习经典分类案例基础上,结合具体数据集特点,选用Sequential序贯模型作为模型的基本结构,设置各项参数:将批大小batch-size设置为128;将轮次nb-epoch设置为30次。网络层数和各层隐藏结点数量的选取同样是比较繁琐的问题,从理论上来说,隐藏层层数及各层节点数的确定并没有一个普遍适用的标准,需要不断增加层数或者减少层数进行调试,太多、太少都不合理。层数过多会导致训练时间拉长和模型的过拟合;层数过少则会导致学习不充分,泛化能力弱,所以应寻求一个折中方案。因此，可先用较少隐藏层进行训练并监控效果,达不到要求则在此基础上继续添加层数或增加节点数,直至预测结果足够好为止。对样本数据集进行训练集和测试集的划分,各个隐藏层都相应地设置适当的激活函数，并添加Dropout层来抑制过拟合现象,取其系数为0.2,其作用是在每次训练过程中随机剔除相应隐藏层内20%的部分节点,相当于每次都使用不同的子模型进行训练,最终结果的输出相当于多个不同模型的综合。编译模型时需要定义损失函数、优化函数,若不设置激活函数,则输入层与输出层之间只能构成简单的线性映射关系,不能获取到真正有用的信息。笔者选取Relu函数作为隐藏层的激活函数,该函数是深度学习领域使用较为广泛的激活函数,且效果较好,因此具有一定的合理性。又由于是二分类问题,故应当选用Sigmoid函数作为输出层的激活函数,将损失函数设置为binary-crossentropy,将优化函数设置为RMSprop。采取精度、损失率、AUC值对模型预测效果进行评价,指导超参数的调整,多次进行训练,直至模型性能符合既定要求,从而可以实现较为精确的预测。

3.模型训练和评估

模型参数基本确定后,开始对模型进行训练。依次采取不同的网络规模,对模型性能进行评估。首先采用的网络拓扑结构是[20,10,20,1],该含义是指一层输入层、两层隐藏层和一层输出层,且输入层有20个神经元,第一个隐藏层有10个神经元,第二个隐藏层有20个神经元,针对教学效果的评估问题可被归结为二分类问题,因此将输出层神经元个数设置为“1”。后续的模型结构含义以此类推。在此基础上多次更改模型的层数或层内神经元的数量。例如,在起始模型结构基础上再添加一层隐藏层,即[20,10,20,10,1],观察模型性能变化;在保持层数不变的前提下,适当增加网络结构复杂度,即增加各层节点数,使得拓扑结构变为[20,32,64,32,1],再观察模型性能上的改变。在训练批量和训练轮次均固定的条件下,多次改变网络模型的复杂程度。由于训练过程具有随机性,因此相同网络结构训练出的结果也会略有不同。通过输出结果的比对来评判模型的性能,比较结果如表2所示。

表2 不同网络规模性能对比

由表2可以看出,将[20,10,20,1]添加一层后变为[20,10,20,10,1],损失下降且精度和AUC值均小幅度提升,证明模型的学习能力在一定程度上有所提高。

当保持层数不变而增加各层节点数为[20,32,64,32,1]时,发现损失明显降低,且精度和AUC值均获得较大幅度增长,说明模型的学习能力得到显著提升。

在此基础上再增加层数或者让各层变得更为复杂,模型性能也将会随之提升,最后一次调试的模型已经足够复杂,其精度可达98%,已经可以称为一个较好的模型。比其更为复杂的网络结构的学习能力虽有所增强,但也只是体现在对训练样例的完全吸收,泛化能力却呈下降趋势。由于产生了过拟合的现象,且越复杂的网络对计算机配置的要求越高,可能会超过个人计算机的最大运算性能,导致占用内存过高甚至无法运算,而且在预测性能上的提升空间也不大,因此可选取[20,64,128,256,128,64,1],即一层输入层、五层隐藏层和一层输出层作为所构建模型的最优参数。

(三)不同模型的性能对比

经过多次调整参数,最终得到性能较优的DNN模型,此时与SVM模型进行性能对比,观察何种模型更适用于分类任务。

综上,两类模型均已建立完成且运行出各自结果,表3是两种不同模型之间的性能对比。

表3 模型性能对比

通过模型对比结果可以看出,DNN模型性能优于SVM,其中损失下降了11.55%、精度和AUC值则分别提升了16.48%和0.10。多层迭代运算使得DNN的学习能力显著优于SVM,数据信息每经过一个隐藏层都可看作是一次过滤,过滤无用信息,提炼深层次信息,对数据进行更本质的刻画,而支持向量机算法则无法逐层提炼。

三、主要结论与展望

准确评估虚拟仿真实验的学习效果的关键是建立有效的评估模型。为了满足虚拟仿真实验要求的完整性、一致性与准确性的学习特征,笔者设计了新的特征工程方案,在已有的学习者特性、行为特性基础上新增了实验特性,以确保所构建的特征模型满足学习效果评估的要求。首先，通过一定的判断条件,为学习效果添加类别标签,将无监督学习转化为有监督学习;其次,为有效抽取影响学习效果诸多特征的复杂关联模式,运用深度神经网络方法进行模型建构和评估;最后,以一个实际运行三年的虚拟仿真实验教学系统为案例,对评估方法进行验证和对比。

结果表明,基于DNN的分类方法与SVM相比,二者学习效果评估的有效性和准确性均能提升,而基于DNN的学习效果评估方法能够更好评估虚拟仿真的教学效果,更适用于针对虚拟仿真实验教学的学习效果评估模型的建构。原因在于,随着虚拟仿真实验教学的发展,数据量呈指数级增长,且特征属性也不断细分,数据复杂度越来越高,传统的机器学习方法在处理大数据时力不从心,而深度神经网络在处理海量数据方面具有巨大优势,通过逐层处理和特征的内部变化,表现出很强的非线性拟合能力和自学习能力。此外,未来教育领域内对于学习效果的评价方式也将越来越丰富和完善,在实际应用中,很可能不再是简单的二分类问题,而是会根据相应评价指标划分出更加多元化的学习效果层次体系，此时二分类问题便转化为多分类问题。与此同时,经典的支持向量机算法在处理多分类问题上存在一定困难,而深度神经网络在该问题上表现更优。这也表明，对于教育这类复杂领域的数据分析,深度学习方法比传统浅层算法具备更大优势,能够解决更为复杂的实际问题。

与以往虚拟仿真领域研究以定性分析为主不同,基于虚拟仿真实验积累的海量数据,构建基于深度学习的虚拟仿真实验教学效果评估模型,补充和丰富了虚拟仿真实验教学的研究成果,促进了实验教学研究领域定量研究的发展。此外,它验证了深度神经网络方法应用于虚拟仿真实验学习效果评估的有效性,在一定程度上拓宽了深度学习的应用领域,为深度学习在未来进一步应用于教育领域提供了思路。

虽然笔者仅以经管类虚拟仿真实验教学为案例进行模型的构建和分析,但该思路同样可以应用至其他学科的虚拟实验教学评估环节中。需结合实际情境,对具体问题进行具体分析,比如根据数据量和维度适当调整模型的复杂度;对相关特征的分类和提取即特征工程也是极为重要的环节,不同的应用情境下各类特征不尽相同,前期良好的特征工程会提高模型输入的质量,从而有利于评估效果的提升和对结果进行合理解释。在方法应用方面,由于深度学习在处理海量数据方面具有优势,采取此模型对学习效果进行评估是存在价值的;在结论应用方面,对于涉及不同领域的虚拟仿真实验教学项目,具体结论存在差异,因而需要结合专业背景和相关知识将模型作为辅助工具,得出契合各个应用场景的结论和启示。

本研究所构建的学习效果评估模型对学生和教师而言均有一定的价值:对学生而言,学生完成实验后,采用该方法可以更为及时、准确地评估自身虚拟仿真实验的学习效果,积极采取措施查漏补缺;对教师而言,该框架有助于更全面了解影响实验教学效果的因素,以便在课堂教学和实验教学中根据评估情况进行改进，教师可以进一步投入更多时间和精力致力于对教学内容的深化、对教学方式的创新及与学生进行线下深度交互等更为重要的方面,从而有效提升教学效果。

本研究仍存在许多不足之处,需要进一步完善。这是将深度学习方法应用于虚拟仿真实验教学效果预测的简单尝试,而深度学习方法虽然性能优越,但其具体运算的内在机理尚不明确,因此解释能力较弱,且训练过程伴有随机性,即便是同一数据集,每次模型运行的结果也可能会有差异;参数的选择方面也没有固定标准,具有一定主观性。但本研究在一定程度上探索了其在教学领域内的巨大应用潜力。此外,由于虚拟仿真实验将面临学习者个性化特征、实验类型差异的挑战,因此应考虑进行更大规模的实证分析予以验证。