基于ConvLSTM网络的维度情感识别模型研究

2021-09-26米珍美赵恒斌

计算机工程与应用 2021年18期

米珍美，赵恒斌，高攀

石河子大学信息科学与技术学院，新疆石河子832003

学业情绪不仅作用于学习者学习过程中产生的注意、记忆、决策等各个认知加工环节，而且影响学习者的学习动机和学习兴趣[1]。精准检测学习者学习状态是智慧学习环境的基础，也对实施个性化教育起着尤为重要的作用。学习者面部情感已成为教育情感计算中最常用的人工智能技术之一[2]，相比于离散情感模型在时间轴上是点式非连续的，维度情感模型是基于时间的一系列数据，更能揭示数据的趋势性、规律性、异常性[3]。

目前基于维度情感计算研究主要针对人类的普通表情，而面向中学生学业情绪的研究却很少。分析维度情感预测研究，主要可分为回归和分类两类问题。早期的连续维度情感识别方法主要采用手工特征并结合传统机器学习算法进行识别[4]。维度情感分类识别常用的算法有支持向量机（Support Vector Machine，SVM）[5]、隐马尔可夫模型（Hidden Markov Model，HMM）[6]，维度情感预测常用的回归模型如支持向量回归（Support Vector Regression，SVR）等[7-8]。随着深度学习的发展，循环神经网络（Recurrent Neural Network，RNN）以及其变体长短期记忆网络（Long Short-Term Memory，LSTM）也被用于维度情感检测[9-10]。

Metallinou等[11]结合隐马尔可夫模型与双向长短时记忆网络（BLSTM）进行维度情感识别，其结果优于传统的机器学习方法。余莉萍等[12]通过改进LSTM，在算法中引入注意力机制，将传统的遗忘门和输入门用注意力门进行替换，并在多个时刻的细胞状态Fau Aibo儿童情感数据语料库以及婴儿哭声情感数据库上得到比传统LSTM更好的识别结果。汤宇豪等[13]则提出基于层次注意力机制的维度情感识别方法，将人脸信息与声音信息通过多层注意力进行有效融合，结果表明模型在大规模的数据集中表现突出。Kollias等[14]设计基于卷积神经网络（Convolutional Neural Networks，CNN）、CNN和RNN相结合的模型进行情感维度识别，并在CVPR比赛中获得优异成绩。

虽然上述方法在维度情感方面取得了成功的应用，但是在面向中学生学业情绪识别上存在很大挑战：（1）相比于基本情绪，学生在学习过程中产生的情感更加复杂，虽然研究者一直致力于识别更精准、更加丰富的人类情感，但其研究结果并不能直接应用于实际学习环境中；（2）基于面部表情的维度情感识别更需要时空融合模型提取特征值，已有研究者提出CNN与LSTM堆叠相结合的方法，在时序模型LSTM阶段融合空间模型CNN进行时空特征提取，忽略了LSTM时序建模中面部情感特征的学习。

因此，本文利用ConvLSTM[15]网络进行维度情感识别，其不仅具有CNN刻画图像局部特征的能力，而且能够像LSTM一样建立时序模型，通过筛选有用的学生面部情感特征，解决LSTM网络无法处理冗余空间信息的问题。在自建的中学生学习维度情感数据库上进行实验，并在Aff-Wild公开数据集[16]上进行试验，得到的相关系数均值为0.222。实验表明，本文提出的基于维度情感模型在中学生学业情绪识别中CCC相关度系数指标提升了7.6%~43.0%。

本文主要贡献有两点：（1）构建面向中学生的二维情感数据库；（2）通过经典深度卷积网络提取视频中的学生面部学业情绪，并将提取的特征输入ConvLSTM网络进行维度情感预测。

1 实验方法

1.1 维度情感预测

维度情感模型用几个取值连续的维度将情感刻画为一个多维信号，维度情感预测是对维度空间中每个维度的连续取值进行预测，通过对情感状态的实时标注来跟踪情感状态的演变过程。

基于Arousal-Valence二维情感空间从Arousal、Valence两个维度刻画情感，Valence代表价效维度，表示情感的强烈和微弱程度。通过价效和唤醒两个维度可以区分更多细微的情感，每个人的情感状态可以根据价效维度和唤醒维度上的取值组合得到表征，这也使得机器能够更好地理解人的感情并做出精准的反应。

借鉴不同模态中基本情感维度的预测方法，宏观上模型分为面向中学生的不同学业情绪特征学习和维度情感预测两个阶段。在模型训练阶段，将待训练学生学业情绪视频输入到模型中学习情感显著特征。在模型测试阶段，将待测试维度情感预测视频输入到训练充分的算法模型中，先提取学生学业情绪的面部显著特征，再进行最终情感预测。实验中首先建立基于面向中学生的学业情绪数据集，通过Arousal-Valence二维情感空间描述学生的学业情绪，如图1所示部分学业情绪在维度空间中的表示；其次以中学生学业情绪数据集为基准筛选最优特征，并进行数据集与训练集的划分，其中训练集与测试集划分比例为4∶1；最后分析不同CNNLSTM算法模型在情感维度中的预测结果，即使用V、A各维度的最优特征对算法模型进行训练，得到最好的模型，然后将测试集输入到训练好的算法模型中，得到待检测图像的A、V二维向量预测值。

图1 二维（Arousal-Valence）情感状态空间Fig.1 Two dimensional（Arousal-Valence）emotional state space

1.2 ConvLSTM网络

LSTM擅长时序数据的处理，但是如果时序数据是图像等三维图形，其有着丰富的空间信息并且每一个点与周围具有很强的相关性，普通的LSTM很难刻画这种空间特征，于是在LSTM的基础上加上卷积操作捕捉空间特征，对于图像的特征提取会更加有效。为了解决这个问题，Shi等[15]设计了ConvLSTM网络，其将输入与各门之间的连接替换为卷积，从而融合CNN提取局部特征的能力和LSTM时序建模的能力。传统LSTM[17]有输入门、输出门、遗忘门三个门，网络主要通过学习对这三者的控制来得到理想的结果，如果是多层结构，每个LSTM计算单元向上层传递的是h值。ConvLSTM是LSTM的变体，主要是将w的权值计算变成卷积运算，这样可以提取出图像的特征，如图2所示LSTM单元结构图。

图2 LSTM单元结构图Fig.2 LSTM cell structure

LSTM的输入、单元输出和状态都是一维向量，其关键公式如式（1）~（5）所示，其中“∘”表示Hadamard乘积：

与传统网络不同，ConvLSTM网络所有的输入X1,X2,…,Xt,细胞的输出C1,C2,…,Ct，隐藏状态H1,H2,…,Ht以及输入门it、遗忘门ft、输出门ot，均为三维向量，其最后两个维度代表行和列两个空间信息。式（6）~（10）显示了ConvLSTM的关键等式，其中“∗”表示卷积运算，“∘”表示Hadamard乘积：

1.3 基于ConvLSTM网络的维度情感结构

基于ConvLSTM网络的维度情感模型结构如图3所示，通过卷积神经网络和ConvLSTM网络实现自动定位重要信息并对不同的帧分配不同的权重。首先，对中学生学业情绪视频进行预处理，为获取视频中学生面部特征，视频采样率FPS值为5，即每0.2秒提取1帧，采用Opencv中的人脸特征模型对每一帧有效的学生学业情绪进行裁剪，并归一化到相同尺寸大小；接着将中学生学业情绪视频帧序列输入到由卷积神经网络构成的空间注意力网络中；随后将提取的卷积特征经过Conv-LSTM解析后提取出长时间的序列特征，同时结合不同视频帧的时间信息生成视频的特征表示；最后生成的特征表示经过全连接层和tanh激活函数，输出V、A二维向量预测值。

图3 基于ConvLSTM网络的维度情感预测模型结构图Fig.3 Structure of dimensional affective prediction model of ConvLSTM network

实验中去除VGG、ResNet和Inception网络的全连接层，主要目的是学习中学生面部情绪中的高层特征，相比选取最后的全连接层作为特征，池化后提取的特征未经压缩和拉直，保留原始图像位置信息和通道信息，同时ConvLSTM网络要求保留面部学业情绪的特征矩阵。视频图像序列特征通过堆叠三层ConvLSTM网络，最终的预测结果由可能性最大的参数估算值决定，如式（11）所示。通过多层叠加的ConvLSTM层，具有较强的时空表征能力，适用于维度情感等复杂问题的预测。

2 数据库构建

实验通过模拟在线学习环境，实时采集学生学业情绪，创建了基于情感维度的中学生学业情绪数据库，数据库包括157个视频。实验采集了来自中学年龄在12~18岁的32名学生，其中男生8名，女生24名，所有实验人员在实验开始之前均自愿签署了知情同意书。实验提前调查了被试学生所学知识以及知识水平，根据其学习特点，选择相应的知识内容，以使学生产生多样的学业情绪。图4显示了数据库中的一些帧，不同学生表现出不同的学业情感。

图4 二维Arousal-Valence情感空间中的学生学业情绪Fig.4 Two-dimensional Arousal-Valence academic emotionin emotional space

实验结束，邀请4名标记人员依据二维Arousal-Valence情感空间和维度情感数据库[18]对情感视频进行标注。如图5和图6展示生成数据库中Arousal和Valence注释值的直方图。

图5 学业情绪数据库Arousal标签分布直方图Fig.5 Academic emotional database Arousal label distribution histogram

图6 学业情绪数据库Valence标签分布直方图Fig.6 Academic emotional database Valence label distribution histogram

2.1 数据预处理

为了更有效地提取面部特征，本文对视频进行预处理，通过Peakutils库提取视频帧，在每一帧中，使用Adaboost人脸检测算法进行人脸检测并进行裁剪[19]，在此过程中删除检测失败的帧，最终得到2 178张学生面部表情帧。

2.2 数据标注

数据标注过程中使用了ANNEMO[20]软件，一个基于情感和社会行为标注的Web软件，其界面如图7所示。每个维度的标注过程如下：

图7 ANNEMO标记界面图Fig.7 ANNEMO tag interface diagram

（1）用户使用邮箱注册进行登录；

（2）同步所需标注的视频，用户可选择标注的视频；

（3）播放视频，通过左右移动标杆为视频标注Arousal-Valence值，其范围在[-1,1]之间，最后在数据库中存储每一帧生成相应的Arousal-Valence值。

实验中选择4位标注人员进行视频情感维度标注，每位注释者均得到注释文档，指导该任务的进行。该文档包括识别情绪Arousal和Valence的基础方法，标注人员通过对学业情绪状态的理解进行标注。其中在开始对每个学业视频标注之前，标注者观看了整个视频，以便对所显示的视频进行更为精准的标注。

2.3 注释统计分析

本文主要提供对标记者标记结果的详细分析。相比于离散情感模型，Arousal-Valence情感模型可以用来更好地识别学生在学习过程中的情绪，通过定量和定性方法证明标记者标记结果的可靠性。图8中的散点图显示了Arousal-Valence值在在线学习中六种（专注、困惑、疲惫、厌烦、走神和愉快）常见的学业情绪的分布值。

图8 六种学业情绪在Arousal-Valence维度空间分布图Fig.8 Six kinds of academic emotions in Arousal-Valence dimension space distribution

从六种情感类别在Arousal-Valence空间中的分布情况可以看出：（1）单一情感（如愉快）可产生多个Arousal-Valence值。这表明每一种类别的情感可能有不同的Arousal-Valence分布，这意味着传统离散情感类别可能不能准确地描述人的内心情感。（2）情绪之间存在重叠，表明不同的情绪类别可能具有相似的Arousal-Valence分布。例如，某些“专注”和“愉快”图像的Arousal、Valence值非常接近。这表明每个人对语言特征都有不同的理解。在描述上，人类对情感的分类标记的一致性是相当差的。可以看到，从许多明确的词语中选择一种情感来描述一个人的情感是不容易的，因为有些情感标签之间有细微的差别，或者说情绪之间也有关系。

为进一步检验Arousal-Valence标签的质量，随机选取标记者的500个图像序列，本文使用Cronbach的alpha方法评估数据的可靠性。在所有Arousal-Valence标签分数的Cronbach’s alpha值为0.69，最小值为0.52。可以证明，不同标记者标注的标签之间的内部一致性是良好的。不同标记者之间的Pearson[21]相关系数为0.46。

3 实验结果与分析

3.1 实验设置

实验中采用一致相关系数（Concordance Correlation Coefficient，CCC）和均方误差作为评估维度情感识别效能的评价指标。CCC通过将两个时间序列（例如所有标注视频和预测）的相关系数与它们的均方差进行缩放来评估它们之间的一致性。其取值范围为[-1,1]，其中+1表示完全一致，-1表示完全不一致。CCC的值越高，注释和预测之间的拟合越好。CCC被定义为如式（12）所示：

其中，ρxy指皮尔逊相关系数（PCC）[21]，sx和sy分别为学生学习视频Valance或Arousal真实标签值和预测值，sxy是相应的协方差值。

均方误差（Mean Square Error，MSE）作为损失函数，其定义如式（13）所示：

其中，x和y分别是学生学习视频Valance或Arousal真实标签值与预测值，N是样本数量。MSE的值越小，代表模型的预测能力越强。

实验中已标注的学生学习视频作为训练集和测试集，测试集与训练集数据之间相互隔离，并且训练集与测试集比例为4∶1，对比实验设置中分别采用Vgg19、ResNet34、ResNet50、InceptionV3四种经典CNN提取学生面部学业情绪特征，并采用单向两层LSTM堆叠结构进行时序建模，tanh作为激活函数，小批量梯度下降法，比较不同网络特征融合的预测结果，其中设置图片大小为224×224或229×229，后文称之为CNN-LSTM网络。在ConvLSTM网络中，使用三个ConvLSTM层进行特征学习，三层卷积核大小均为7×7，卷积层中第一层卷积核数量为32，第二层卷积核数量为16，第三层卷积核数量为8。为缩减模型计算量，在网络中使用最大池化层，设置尺寸为4×4，图像矩阵边缘填充为“same”。

在验证ConvLSTM模型预测效果阶段，设置了三组对比实验：（1）使用CNN-LSTM网络进行维度预测，比较CCC、MSE相关度系数。（2）在使用CNN-LSTM情况下，分析CNN-LSTM、CNN-GRU的预测性能，比较CCC、MSE相关度系数。（3）将模型应用于Aff-Wild数据当中，分析其检测效果。

实现实验的操作系统为Ubuntu16.04，深度学习框架为Pytorch1.4，CPU为Intel酷睿处理器，内存为三星DDR4 2400 16 GB×2（32 GB），GPU为GTX1080 Ti显存，开发语言采用Python3.5。在前期多次实验对比的情况下，为了保证训练充分，比较了三种不同梯度下降优化算法SGD、Adam和RMSProp，初始epoch次数设置为1 000，学习率设置为0.000 1。为了更直观地对比训练和测试的结果之间的差异，每训练一个epoch并在相应数据集上测试一次。

3.2 性能比较

3.2.1 不同CNN-LSTM网络预测结果对比

实验中依次使用四种深度CNN网络与LSTM进行结合分别对Arousal和Valence两个维度进行预测，结果对比如表1所示。实验中通过多次比较不同深度的LSTM网络，最终选择了两层的LSTM网络，并在网络最后连接2层全连接层实现Valance和Arousal两个情感维度的预测，实验中VGG19相对于InceptionV3和ResNet50网络参数都要少，但是其结果最佳，可能是因为数据量相对较少。

表1 CNN-LSTM网络预测结果对比Table 1 Comparison of CNN-LSTM network prediction results

表1中实验针对学生维度情感数据库，结果显示，VGG网络模型在CCC和MSE均表现最好，通过计算不同CNN-LSTM在Arousal和Valence的均值（Mean Value）可以看出VGG19-LSTM在CCC均值上至少高出其他CNN-LSTM模型0.086；在VGG网络中VGG19-LSTM网络预测能力总体强于VGG16-LSTM，可以看出VGG19-LSTM网络对Valance维度的预测能力最佳，CCC值高于VGG16-LSTM网络0.191，CCC均值高于VGG16-LSTM网络0.086，并且MSE均值中低于VGG16-LSTM网络0.003，因此适当增加网络深度可以增强网络对样本数据的学习能力，但并非越深的网络实验效果越好。由于训练样本数据量有限，ResNet50网络在此数据集中模型没有取得好的效果。

3.2.2 ConvLSTM上的性能分析

经典的LSTM网络中state-state采用全连接形式，而ConLSTM采用卷积的形式，分析3.2.1小节结果，实验将使用VGG19网络提取特征并融合ConLSTM特征进行维度预测，分别比较了VGG19-LSTM与ConLSTM网络对学生学业情绪预测的能力。另外，实验比较了三种不同梯度下降优化算法SGD、Adam和RMSProp。

ConLSTM可以更好地学习图像输入的特征而不造成信息冗余。本文提出VGG19-ConLSTM结构不仅可以兼顾学生的面部表情特征，更能够克服时序数据对空间数据造成的冗余，又避免了LSTM无法实现对局部特征的刻画特点。

如图9和图10所示，三种网络VGG19-LSTM、VGGGRU以及ConvLSTM在Arousal和Valence两个维度上训练和测试时的MSE损失曲线，在最终训练模型的评估中Arousal和Valence的值均达到0.9以上，测试集中ConvLSTM表现最优，epoch在900左右时，模型接近于水平。从图10中可以看出测试过程较为抖动，获取整个过程的Arousal和Valence两个维度的真实值和预测值，最终得到Arousal的CCC为0.592，Valence维度上CCC为0.571。

图9 维度情感训练过程Fig.9 Training process of dimensional emotion

图10 维度情感测试过程Fig.10 Test process of dimensional emotion

图11显示了三种网络对测试集的预测能力，图中横坐标代表待测试帧，纵坐标为每一帧对应Arousal和Valence维度值，黄色线代表模型在Arousal和Valence两个维度上的预测值，蓝色线代表模型在Arousal和Valence两个维度上的真实值。从图中可以看出Conv-LSTM预测效果最好，VGG19-GRU网络的预测效果相比于VGG19-LSTM网络较为逊色。因此，虽然GRU相对于LSTM模型结构复杂度低，需要更少的训练参数，但在数据集不同的情况下，模型预测能力是有所变化的。而ConvLSTM网络通过充分地提取空间特征并对特征进行筛选，充分提升预测网络能力。

图11 三种不同模型对Arousal和Valence的预测结果Fig.11 Three different models prediction results for Arousal and Valence

另外，本文还将ConvLSTM模型应用在Aff-Wild数据库中进行测试，划分数据集为训练集和测试集，训练集和测试集比例为4∶1，具体对比实验结果如表2所示，相比于当前维度情感识别中的其他方法，ConvLSTM虽然在损失上远优于其他结果，但是CCC相关度系数更能反映情感预测值和情感标签值的拟合程度，可以看出，使用了ConvLSTM网络在CCC均值上已经超越了大部分结果。CCC在两个维度上分别达到了0.203和0.240，这说明使用ConvLSTM网络在具有时空信息的维度情感预测中具有一定的效果。

表2 Aff-Wild数据库实验结果比较Table 2 Comparison of Aff-Wild database experiment results

4 讨论与结论

本文在Vlence-Arousal维度情感理论和教育心理学的基础上，实现了面向中学生的维度情感数据库，其中有157个学生学业情绪视频和2 178张带有Arousal和Valence维度标签的学生面部表情。在此基础上，利用ConvLSTM网络能有效处理时空信息的能力设计维度情感预测模型，实现了面向学生学业情绪的维度情感预测。实验证明ConvLSTM与其他CNN-LSTM网络相比，在一致性相关系数和均方误差标准方面，均能提供最佳的Vlence-Arousal估计性能。实验结果表明，将ConvLSTM网络应用于面向中学生的维度情感预测具有较好效果，为了测试模型预测能力，本文还在Aff-Wild公开数据集上进行实验，与目前的方法相比，本实验将学生面部的局部特征与其时间信息进行充分融合，减少数据冗余，识别中CCC相关度系数指标提升了7.6%~43.0%。

学生学业情绪的精准测量是学生进行个性化学习的重要依据，本文将深度学习应用于教育中，实现学生的学业情绪预测，是教育与人工智能融合的有力尝试。当然，由于数据量不够，难免在精度上有一些欠缺。未来的研究方向首先应该扩大面向学生的维度情感数据库，并将其他特征融入到学生学业情绪中，比如学生学习的音频信息，学生学习的文本日志信息以及学生的学习行为数据，相信这些信息会进一步提高模型的预测能力。