APP下载

基于时间分段网络并融合上下文信息的视频情感识别

2021-05-12王金伟孙华志

关键词:脸部类别数据库

王金伟,孙华志

(天津师范大学计算机与信息工程学院,天津300387)

情感识别是模式识别领域中的重要内容,在人机交互、广告、社交媒体传播和认知科学等许多应用中起着重要作用.鉴于人脸在情感表达和感知中的重要性,大多数情感识别研究都集中在对脸部表情进行分析. 著名心理学家Ekman 创建了面部动作编码系统(facial action coding system,FACS)以客观测量脸部活动[1],使研究者意识到利用计算机视觉技术自动识别脸部表情的可能性.在过去的20 多年中,人们一直致力于改善脸部表情识别系统,早期研究主要集中在识别人为表情的静态脸部图像,目前的研究重点已从人为表情转为自发表情,从实验室表情转为无约束条件下的表情,从静态图像转为动态视频.

心理学研究表明[2-3],除脸部表情外,身体、姿势和周围环境等上下文信息也可以为情感感知提供重要线索,文献[2-3]中提供的证据和实验说明情感会受到上下文的影响.而且,在某些情况下,上下文对于情感交流是必不可少的.在计算机视觉的研究中也获得了类似结果,文献[4]的实验表明,当同时使用上下文信息和脸部信息时,情感识别的准确率优于仅使用其中一种信息.

目前,深度学习技术的性能已在完成各种具有挑战性的任务中得到了显著提升.常见的卷积神经网络(convolutional neural networks,CNN)的主要局限性在于其仅可以处理空间信息,这对于视频的情感识别和静态图像的表情特征显然是不够的.一些研究[5-6]表明,图像序列的脸部表情动态时空特征有助于提升识别性能.

本文基于时间分段网络(temporal segment networks,TSN)[7],提出了一种融合上下文信息的视频情感识别网络模型.该模型由2 个并行的TSN 网络组成,分别用于提取视频中的脸部信息和上下文信息的时空特征并计算情感类别分数,将2 个网络的计算结果进行决策融合,最终得到整个视频的情感类别.

1 相关研究

目前大多数对视频的情感识别方法主要集中于对脸部表情的研究,具体方法可分为2 类.

一类方法是使用各种深度网络提取视频的时空特征进行情感识别.常用的深度网络有VGGFace(visual geometry group net-face)[8]、ResNet(residual network)[9]、LSTM(long short-term memory)、GRU(gate recurrent unit)和C3D(3D convolutional networks)[10],其中:VGGFace和ResNet 能够提取视频中每一帧图像的脸部空间特征,LSTM、GRU 和C3D 用于提取图像序列的时间特征.文献[11]利用VGGFace-LSTM 和VGGFace-GRU 的组合模型进行视频情感分类.文献[12]组合了VGGFace-LSTM 和C3D-LSTM 模型用于情感识别. 文献[13]将VGGFace-LSTM 模型提取的特征输入到DNN(deep neuralnetworks)进行情感分类.文献[14]融合了VGGFace-LSTM 和C3D 模型来判断视频情感类别.还有一些研究提出了新的模型,试图获得更好的识别性能.如:文献[15]提出了一种MRE-CNN(multi-region ensemble CNN)框架,目的是通过捕获人脸的多个子区域的全局和局部特征来增强CNN 模型的学习能力;文献[16]提出的FAN(frame attention networks)模型包含特征嵌入模块和帧关注模块,试图自动突出一些有类别区分力的帧.

另一类方法是将深度网络特征和人工特征相结合进行情感识别.文献[17]一方面从视频中提取了LBPTOP(local binary patterns from three orthogonal planes)、HOG(histogram of oriented gradient)、Dense-SIFT(scaleinvariant feature transform)和HOG-LBP 等4 种人工特征,另一方面提取了AE(autoencode)和CNN 2 种深度网络特征,使用RF(random forest)分类器进行分类,最后根据D-S(dempster-shafer)证据理论将分类结果进行融合得到情感类别.本课题组先前的研究[18]使用C3D 深度网络从视频中提取正面化的脸部表情时空特征,同时提取脸部几何变化的人工特征作为辅助,来判断情感类别.文献[19]同时使用深度学习方法VGGNet-GRU 和传统的机器学习方法LBP-TOP+SVM 对视频进行情感识别.文献[20]首先提取视频中每帧图像的脸部形状、头部姿态、眼睛注视方向和HOG 等人工特征以及VGGFace 深度网络特征,然后用这些特征训练HMM(hidden Markovmodel),最后用naiveBayesian 分类器进行情感分类. 文献[21]提出DGNN(directed graph neural network)模型,通过提取视频中每帧图像的脸部特征点作为DGNN 的输入获得脸部结构信息,同时结合C3D-GRU 进行情感分类.

2 情感识别模型

本文提出的情感识别模型的流程图见图1,该模型可以分为3 个阶段:预处理视频、利用TSN 计算情感类别分数和预测情感类别.

2.1 预处理视频

首先从原始的视频中提取出上下文图像序列和脸部图像序列.为了使上下文包含更多信息,使用整帧图像作为上下文,其中包含了身体、姿势和周围环境等与情感相关的各类信息.然后对每帧图像进行缩放以输入到后续的TSN 网络中.根据文献[7],将上下文图像的像素设置为340×256.

使用PyramidBox[22]进行人脸检测,这是一种基于SSD(the single shot detector)的单阶段人脸检测器,它在6 个尺度的特征图上进行不同层级的预测,并结合上下文信息,解决了困难人脸的检测问题.通过人脸检测获取每帧的脸部图像,如果没有检测到脸部则跳过该帧.

2.2 利用TSN 计算情感类别分数

将上下文图像序列和脸部图像序列分别作为2个TSN 网络的输入,用于提取时空特征并计算情感类别分数.

TSN 是视频分类领域经典的基于2D-ConvNet 的解决方案,主要用于解决视频的行为判断问题,其核心思想是:因为视频的连续帧之间存在冗余,所以利用稀疏采样视频帧的方式代替稠密采样,这样既能捕获视频的全局信息,又能去除冗余,降低计算量.

将预处理后的图像序列等时间地划分成K 段{S1,S2,…,SK},TSN 的输出可表示为

其中(T1,T2,…,TK)为一系列片段,每个片段Tk都是从其对应的段Sk中随机采样得到的.每个片段Tk包含2 部分:一部分是从段Sk中随机抽取的一帧图像I 作为空间ConvNet 的输入;另一部分是时间ConvNet的输入,即计算图像I 后L 个连续帧的稠密光流场的水平和垂直分量的堆叠,这样共形成2L 个输入通道,本文设L=5.F(Tk;W)表示具有参数W 的ConvNet 函数,该函数以片段Tk作为输入并输出所有情感类别的得分.G 为一个段融合函数,它将多个片段输出的类别得分组合在一起,获得每个情感类别的融合分数,本文采用均值函数作为G,即将所有片段相同类别分数的算术平均值作为融合分数.

图1 融合上下文信息的情感识别模型Fig.1 Emotion recognition model fused with context information

2.3 预测情感类别

基于TSN 输出的情感类别分数,整个视频的情感类别可由下式计算其中:

TSNcs、TSNct、TSNfs和TSNft分别表示上下文空间、上下文时间、脸部空间和脸部时间ConvNet 输出的情感类别分数;M 为时空融合函数,根据文献[7],采用加权平均函数融合时间和空间的情感类别分数,空间权重设为1,时间权重设为1.5;H 为类别预测函数,用于生成上下文或脸部序列的每个情感类别的概率,本文采用Softmax 函数作为H;D 为决策融合函数,这里采用最大值融合,即选择情感类别概率中的最大值所对应的类别作为整个视频的情感类别.

3 实验和结果分析

3.1 实验数据库

实验使用2 个数据库:CHEAVD(Chinese natural audio-visual emotion database)2.0[23]和AFEW(acted facial expressions in the wild)[24].

CHEAVD2.0 包含从电影、电视剧和脱口秀节目中提取的7 030 个自发情感视频片段,这些片段包含了各年龄段的中国人.将这7 030 个片段分为训练集、验证集和测试集,分别包含4 917、707 和1 406 个片段.CHEAVD2.0 包括愤怒、快乐、悲伤、担心、焦虑、惊奇、厌恶和中立等8 种情感类别.

AFEW 包含从电影和电视中剪辑的含有情感的视频片段,包含6 种基本情感(愤怒、快乐、悲伤、害怕、惊奇、厌恶)和中立情感.AFEW 是Emotion Recognition In The Wild Challenge(EmotiW)系列情感识别挑战赛使用的数据库,包含训练集样本773 个、验证集样本383个和测试集样本653 个.由于AFEW 训练集样本较少,本文采用另外一个情感数据库CAER(contextaware emotion recognition)[25]作为AFEW 训练集的补充.CAER 包含从欧美电视剧中收集的13 201 个自发情感视频片段,其情感标签和AFEW 相同.本文将CAER 的所有视频片段和AFEW 训练集的视频片段合并在一起,共13 974 个样本,作为AFEW 新的训练集.

由于CHEAVD 和AFEW 均未公开测试集标签,本文采用2 个数据库的训练集和验证集进行实验.

图2 为2 个数据库训练集的样本分布.

图2 CHEAVD 和AFEW 训练集样本分布Fig.2 Sample distribution of CHEAVD and AFEW training set

由图2 可见这2 个训练集的样本分布是不平衡的.为减小分布不平衡的影响,本文采用类感知(classaware)[26]的采样方法.具体地,使用2 个列表,一个是情感类别列表,另一个是每个类别的视频列表.对于每次训练迭代,首先在情感类别列表中随机采样一个类别,然后在该类别中随机采样一个视频,当采样到某类别视频列表的末尾时,对该列表进行依次“洗牌”,当采样到情感类别列表的末尾时也执行“洗牌”.

3.2 实验设置和环境

将上下文图像和脸部图像都缩放为340×256 像素大小.TSN 将从{256,224,192,168}中随机选择元素作为裁剪区域的宽度和高度,再将这些裁剪区域的大小调整为224×224 像素,输入网络进行训练.这种采样方式不仅有缩放抖动还有纵横比抖动.

空间和时间ConvNet 均采用ResNet50 网络结构[9],具体见表1.首先,在输入阶段,通过一个含有64 个filter(每个filter 为7×7)、stride 为2 的卷积层进行特征提取,输出图像的长宽变为原来的1/2,再经过一个最大池化层进一步降低分辨率.接下来的第1 到第4 阶段使用重复的残差块提取特征,每个残差块包含1×1、3×3 和1×1 共3 层卷积,每一阶段使输入特征图的通道数扩大为原来的2 倍,而长宽都变为原来的1/2.最后,网络以全局平均池化层和N 路全连接层结束.N 为情感类别数量,对于CHEAVD 数据库,N=8,对于AFEW 数据库,N=7.

表1 ResNet50 网络结构Tab.1 Architecture for ResNet50

实验使用在ImageNet 数据集上预训练过的ResNet50 网络.对于空间网络,直接将预训练后网络的权重作为初始化参数.对于时间网络,采用文献[7]的交叉模态预训练策略:首先通过线性变换将光流场离散到0 到255 区间,使光流场的范围和RGB 图像相同;然后求出RGB 通道上权重的平均值,并将该平均值复制到时间网络输入的各通道上;最后,再将预训练网络中其余层的权重复制到时间网络中.将预训练模型用CHEAVD 和AFEW 数据库分别再训练. 训练时,batchsize 设为32,动量设为0.9,学习率初始化为0.001,每40 次迭代降低到其1/10,最大迭代数设为100.所有实验均在百度AI Studio 云端平台完成,该平台的CPU 配置为Intel Xeon Gold 6271C,8 核心,主频2.60 GHz,内存32 GB,GPU 为NVIDIA Tesla v100,显存16 GB.

3.3 实验结果与分析

对于CHEAVD 数据库,选择ACC(accuracy)和MAP(macro average precision)作为评价指标;对于AFEW数据库,选择ACC 作为评价指标.ACC 和MAP 的计算公式为

其中:S 为情感类别的数量,TPi和FPi分别为第i 个情感类别中正确分类的数量和错误分类的数量.

在TSN 中,最为关键的参数是分段数K.本文设K 为3、5、7,分别训练模型. 表2 给出了在CHEAVD验证集上的实验结果,比较在不同分段数下,单独使用脸部或上下文图像序列以及它们组合的识别性能.由表2 可见,K=5 的性能优于K=3 的情况,而当K从5 增加到7 时,性能趋于饱和甚至下降.因此,为了在识别性能和计算量之间取得平衡,后面的实验将直接使用5 分段.

表2 模型采用不同分段数K 在CHEAVD 验证集上的实验结果Tab.2 Experimental results of different segment numbers K in the model on CHEAVD validation set

将本文模型(Face5+Context5)与现有方法[11-21]进行比较,各种方法在CHEAVD 和AFEW 验证集上的比较结果分别见表3 和表4.由表3 和表4 可见,本文模型的性能明显优于2 个数据库构建者给出的Baseline,其中:CHEAVD 数据库的ACC 和MAP 分别比Baseline 提高了48%和33%,达到了54.2%和45.6%;AFEW 数据库的ACC 提高了39%,达到了53.8%.本文模型在AFEW 数据库的MAP 为49.9%,由于AFEW的Baseline 和现有研究均未给出MAP,因此表4 只对比了ACC.另外,相比现有的使用深度网络提取视频时空特征的方法[11-16]以及将深度网络特征和人工特征相结合的情感识别方法[17-21],本文模型的性能均有不同程度的提高.

表3 本文模型与现有方法在CHEAVD 验证集上的实验结果对比Tab.3 Comparison of experimental results of the proposed model with state-of-the-art methods on CHEAVD validation set

表4 本文模型与现有方法在AFEW 验证集上的实验结果对比Tab.4 Comparison of experimental results of the proposed model with state-of-the-art methods on AFEW validation set

本文模型在CHEAVD 和AFEW 验证集上的混淆矩阵见图3,矩阵对角线上的数值是每个类别的识别精度(%).由2 个混淆矩阵可见,快乐、悲伤、愤怒和中立4 种情感的识别精度都比较高,CHEAVD 可达50%以上,AFEW 也达到了48%以上.快乐是识别精度最高的情感,在2 个数据库上分别达到75.2%和73.3%.对于CHEAVD,惊奇和厌恶的识别精度最低,对于AFEW,害怕和厌恶的识别精度明显低于其他情感.造成某种情感识别精度低的原因可能有2 个:一是情感感知存在模糊性[19];二是数据库中该情感的训练样本较少.图2 数据显示,CHEAVD 训练集中惊奇和厌恶的样本数以及AFEW 训练集中害怕和厌恶的样本数明显少于其他情感,因此进一步改善模型并增加某些情感的样本数,可以期待获得更好的性能.

图3 本文模型在CHEAVD 和AFEW 验证集上的混淆矩阵Fig.3 Confusion matrices of the proposed model on CHEAVD and AFEW validation set

4 结语

本文提出了一种融合上下文和脸部信息的视频情感识别模型,该模型首先对视频样本进行预处理,提取上下文和脸部的图像序列,然后采用2 个并行的TSN 分别提取上下文和脸部图像序列的时空特征并计算情感类别分数,最后将2 个网络的计算结果进行决策融合,得到整个视频的情感类别. 模型在CHEAVD 和AFEW 视频情感数据库上训练和测试,分别获得了54.2%的ACC、45.6%的MAP 以及53.8%的ACC,明显优于2 个数据库的基线性能,而且相比现有的其他方法均有不同程度的性能提升.情感识别仍然是一项艰巨的挑战,今后的工作将继续改进模型,同时探索更有效的情感特征以及特征融合策略.

猜你喜欢

脸部类别数据库
脸部美容须知
论陶瓷刻划花艺术类别与特征
一起去图书馆吧
做脸部运动让你显得更年轻
数据库
数据库
数据库
数据库
选相纸 打照片