多层次特征融合的视频显著目标检测系统设计

2022-08-04毕洪波朱徽徽杨丽娜吴然万

实验室研究与探索 2022年3期

毕洪波，朱徽徽，杨丽娜，张丛，吴然万

(东北石油大学电气信息工程学院，黑龙江大庆 163318)

0 引言

视频显著性目标检测(Video Saliency Object Detection，VSOD)可以提取视频中最吸引注意力的对象。这项任务起始于对人类视觉系统(Human Vision System，HVS)的研究，并且体现了人类可以快速且不受干扰地将注意力转移到复杂场景中信息最丰富的部分的能力。

在计算机视觉领域，VSOD受到了广泛的关注，包括视频压缩[1]等。Song等[2]设计了一个并行网络，其中一个网络学习全局结构的特征;另一个网络融合上下文信息并细化显著性结果。Li等[3]构造了一个时间一致的特征，引入了长短期记忆(Long Short-Term Memory，LSTM)的流网络和特征编码器的联合作用。然而，这些模型忽略了对于理解人类视觉注意力机制很重要的视频帧的显著变化。

深度学习领域中核心的技术之一便是注意力机制模型，广泛应用于图像处理、语音识别、自然语言处理等各个领域。注意力模型工作原理和人类视觉选择性注意力机制相似，人类视觉系统具有特殊的大脑信号处理机制，该机制可对获取到的图像信号进行快速扫描，并准确地将模型关注的权重放在重要目标所在区域，将更多的注意力资源放在目标区域可以获得显著目标更多细节特征。与此同时，无用的信息在信息处理过程中被有效抑制。

另外，循环神经网络(Recurrent Neural Network，RNN)擅长处理可变长度序列数据，比如文字序列、时间序列等，待处理的数据具有共同的特点就是后面的信息和前面的信息有强烈的相关性。LSTM神经网络是RNN的变形结构，相较于传统的RNN，LSTM可以记忆长期的信息间的联系。LSTM网络主要有三部分组成，即输入门、输出门和遗忘门。该网络可以将过去信息与当前信息进行联系，利用过去记忆的信息对未来信息进行预测。LSTM已广泛应用于视频处理等任务中。卷积LSTM(Convolutional LSTM, ConvLSTM)原理类似于LSTM，两者最大的不同在于卷积LSTM模块中的乘法运算转换为卷积运算来代替,其可以被应用于VSOD任务中。

本文结合注意力机制和循环神经网络设计了视频显著目标检测系统，使用全局上下文对不同通道进行权值重标定，并且可以捕获长时间依赖关系，充分利用全局上下文信息对视觉场景进行全局理解。另外，该系统以联合和协作的方式集成了自上而下和自下而上的消息。因此，语义信息和空间细节被纳入每个层次，以粗到细的方式完成显著性估计推理，更好地定位突出区域。在标准数据集的仿真结果表明，与11种最先进的系统相比，该系统的性能均得到比较大的提升。

1 视频显著目标检测系统

图1展示了检测系统的整体结构示意图。该系统用ResNet-50作为主干网络，主要分为两大模块:上下文语义聚合模块(用于空间特征的提取)和双层卷积LSTM模块(用于连续帧间时间相关性的提取)。在ResNet-50的各个卷积模块中增加了注意力模块：压缩激励网络(Squeeze-and-Excitation Networks，SE-Net)，经过通道注意力单元重新分配权重的显著性特征，分别进行了自上而下和自下而上的特征联合，最后将融合后的特征进行整合，输入到双层卷积LSTM模块中提取时间相关性特征，从而完成整个系统的学习。

图1 目标检测系统整体结构示意图

1.1 上下文语义聚合模块

现有的部分视频显著性检测系统并没有充分考虑特征融合，因此显著目标不能被完全检测。本文利用注意力SE-Net使通道特征权重分配，利用自上而下和自下而上的结构将深层特征和浅层特征相融合，既能灵活调整不同层次特征的贡献，同时可以有效地进行信息交换，避免过多的冗余信息。

如图1所示，ResNet-50作为该系统的基础网络，并且将每个卷积模块的特征进行输出，输出分别表示为C(1)～C(5)。由于深层网络主要提取丰富的语义信息和纹理信息，为了重建通道特征并抑制无用信息，本文采用深特层征C(3)、C(4)、C(5)分别输入SE-Net，然后将每个卷积模块处理后的特征分别输入到CA(Context Aggregation)模块，SE-Net和CA模块串联的上下文语义聚合模块图如图2所示。

图2 上下文语义聚合模块

首先通过自上而下的过程传递浅层特征细节，ResNet-50的每层输出经过SE-Net权重重新规划后，输入到CA模块与上一层特征进行连接，连接后的特征向下输入以便和下层特征进行连接，从而使高层次的特征逐步完善。CA模块中卷积层的参数为Kernel-size：3，Padding：1，Stride：1。然后通过自下而上的过程向顶层网络传输更多的空间细节，并且背景不存在噪声。

自下而上的特征传输与自上而下传输相似，但传输方向相反，用自下而上的联合过程细化上下文信息，提供更准确的高级显著性估计。自上而下的特征传递可表示为

(1)

(2)

(3)

1.2 双层卷积LSTM模块

为了预测连续视频帧中的动态显著信息，本文运用双层ConvLSTM来探索视频帧之间注意力的动态转换，并且联合头部视频帧信息以增强连续视频帧间运动信息的表达。双层卷积LSTM模块模型图如图3所示。

图3 双层卷积LSTM模块

式中：σ代表Sigmoid激活函数；*代表卷积操作；·代表元素级别的相乘；it、ot、ft分别代表输入门，输出门，遗忘门；gt表示输入调制；mt表示细胞记忆；上标H为卷积LSTM的隐藏层；H和m1表示视频序列第1帧的输出和细胞状态，目的是添加头部帧的输出信息使长距离注意力转移得到体现。本文采用双层ConvLSTM传输模式来提高运动物体的感知能力，并通过监督学习逐步更新状态。

2 实验设计

2.1 参数及评价准则

2.1.1 实验设置

本文模型基于caffe框架中实现，并使用DAVIS和DAVSOD作为训练集。训练阶段超参数设置如下：batchsize(4)，the moment(0.9)，the weight decay(0.000 5)，基础学习率设置为1×e-8。

2.1.2 数据集

本文使用了3个常见的视频显著数据集：ViSal、FBMS数据集以及UVSD数据集。

2.1.3 评价准则

为了评估所提出网络的性能，本文采用了3种流行的评估指标，包括平均绝对误差MAE[4]、F-measure[5]和S-measure[6]。为了测量两个图像的区域符合的程度，通过评估精确度(Precision)和召回率(Recall)来估计 F-measure 分数，其公式如下：

(9)

基于以往的工作经验，本文在评估实验中将β2设置为0.3。另外，采用F-measure的最大值maxF作为一种评估指标。

使用结构相似度来评估显著图和真值图之间的相似性。S-measure定义为

S=αSo+(1-α)Sr

(10)

式中:α∈[0,1];So表示目标级别的结构相似度;Sr表示位置级别的结构相似度。

MAE常用于测量显著概率图P与其对应的真值图G之间的平均像素差,计算公式如下：

(11)

式中:H表示输入帧的高;W表示输入帧的宽。

使用经典的交叉熵损失函数来完成整个网络的学习过程其中网络的总体损失,公式如下：

(12)

2.2 实验结果及分析

如表1所示，为了验证本文系统的有效性，和11种常见的视频显著性目标检测系统进行定量比较，这些方法分别为：PQFT[7]、SST[8]、TIMP[9]、RWRV[10]、MST[11]、SAGE[12]、GF[13]、SGSP[14]、SFLR[15]、FGRNE[16]和 DLVSD[17]。其中PQFT、SST、MST、TIMP、SAGE、GF、RWRV、SGSP和SFLR是基于传统方法生成的显著目标检测系统，在过去的研究中被广泛比较。FGRNE和DLVSD是利用卷积神经网络方法提取特征的视频显著性检测系统。

表1 常用数据集定量比较

表1的数据结果显示，字体加粗数据是对比结果中最好的结果。本文设计的系统明显优于其他系统，尤其在具有挑战的UVSD数据集中，获得了更好的性能。由于其他系统使用不同的数据增广方式可能会导致测评结果出现偏差，但本文系统仍然具有显著的优越性，因此表明该系统的有效性。

图4展现了3个数据集中6对视频序列的视觉效果图，第1行表示原图像，第2行表示标准真值图，第3行表示本文方法的检测结果，其余各行表示其他算法的检测结果。从图4可以看出，这些图像拥有复杂的背景和相机的快速运动，但本系统检测了完整的显著目标区域包括图像中较小的显著目标和图像中多个显著目标均可得到正确检测。从视觉效果比较图中可以看出，本系统在一些具有挑战性的视频中，如飞机和滑冰视频段均可以生成良好的显著区域和令人满意的细节。

3 结语

针对特征聚合过程中特征之间的差异没有被充分考虑，导致显著目标的空间细节不完善的问题，本系统提出了上下文语义聚合模块。另外，该模块可以解决特征聚合忽略多层次特征之间差异，无法充分利用适合于定位的空间细节，导致预测结果表现不佳等问题。同时，静态信息不能准确的表达运动物体的显著性，而连续帧之间的运动信息又难于被捕捉，为了预测连续视频帧中的动态显著信息，本系统运用双层ConvLSTM来探索视频帧之间注意力的动态转换，并且联合头部视频帧信息以增强连续视频帧间运动信息，使远距离视频帧中丰富的语义特征被挖掘。实验结果表明，本系统的性能更加优越。