基于多模态特征的视频密集描述生成方法

2023-01-18陈小秋田卓钰

中文信息学报 2022年11期

马苗,陈小秋,田卓钰

(1. 陕西师范大学计算机科学学院，陕西西安 710119；2. 现代教学技术教育部重点实验室(陕西师范大学)，陕西西安 710062)

0 引言

相比静态图像，视频包含时间维度，具有视觉内容动态可变、容纳范围广、信息维度大等特点，是现今应用最广泛的媒体资源格式之一。面对视频数据量的爆发式增长，视频理解和跨媒体检索成为当下计算机视觉领域的研究热点和难点。视频密集描述生成作为一项视频理解子任务，在定位出长视频中潜在动作片段(事件)的基础上(对应动作提议生成任务)，再为各个动作片段生成对应的语句描述(对应视频描述生成任务)。对该任务的研究在视频问答、摘要生成、视频检索等领域具有广阔应用前景，但由于视频数据的时序动态特性与语义的多样性、复杂性，导致该任务有很大挑战性[1]。

视频密集描述生成可分为两个阶段: 一是设计动作提议生成网络，为后续语句描述生成提供动作的时间边界信息；二是设计语句描述生成网络，为动作提议对应的视频内容生成语句描述。高质量的动作提议应同时具备灵活的时序长度、精确的时序边界和可靠的置信度分数[2]。目前，大部分动作提议生成网络采用自顶向下的框架(如时序滑窗和锚框机制)，因需要人工预定义滑窗或锚定框尺度，所以无法很好满足上述要求。近年来，基于编码器-解码器框架的神经网络成为视频描述生成的主流方法，其基本思想为使用基于深度神经网络(常为循环神经网络)的编码器对输入视频特征进行编码，再利用解码器将视频特征序列解码为文本序列。传统循环神经网络作为编解码器时，常会发生梯度消失问题，并且由于当前时刻的计算依赖上一时刻计算的输出，所以很难进行大规模的并行计算[3]。

视频中包含视觉、运动和音频等多种信息，如何有效地对视频进行特征编码是密集描述生成的重要一环。特征表达的抽象与有效性、特征利用的合理与充分性都将直接影响最终的效果。在多数密集描述生成研究工作中，通常使用卷积神经网络提取视频RGB和光流(Flow)图像特征来分别表征视觉和运动信息(即双流特征)，却忽略了对音频信息的有效挖掘与利用。此外，密集描述生成的研究对象常为长视频，往往包含多个事件，事件间可能相互独立，也可能具有一定的关联。多数密集描述生成方法只关注事件的局部信息或简单的事件级上下文信息却忽略了事件间的时序结构和语义关系。由于缺乏对视频的整体感知，可能会导致生成的描述存在连贯性及明显的逻辑错误[4]。

为解决上述问题，本文提出一种基于多模态特征的视频密集描述生成方法。我们在边界匹配网络(Boundary Matching Network, BMN)的基础上提出Improved-BMN网络用于动作提议生成[2]。首先，该网络使用Timeception层作为基础模块，能更好检测时长灵活多变的事件[5]；其次，为合理利用音频特征增强提议生成准确性，本文探究了四种音视频特征融合方案；之后，本文在双模态Transformer(Bi-modal Transformer, BMT)的基础上通过时序语义关系模块(Temporal Semantic Relation Module, TSRM)对事件间的时间结构和语义信息进行建模得到时序语义特征，并与事件对应的音视频特征进行融合，得到用于语句描述生成的特征。

1 相关工作

早期视频描述研究主要集中在简单视频描述上，其方法可分为传统方法和深度学习的方法两大类。传统方法主要包含基于检索的描述生成和基于模板的描述生成两类。前者通过查询描述样本库中与待查样本相似的样本，将查询到的描述作为结果，其特点是依赖描述样本库的大小，当描述样本库中缺少类似描述样本时，生成的描述语句与期望输出差距较大；后者根据可能出现的描述情况事先人为设计相应的模板，生成的描述语句缺乏语言自身的灵活性，而且不能详细表达出视频中丰富的语义信息[6]。基于深度学习的视频描述生成方法利用卷积神经网络强大的特征自学习能力弥补了传统方法需人为设计特征的弊端，可以根据实际情况生成长度可变的描述，极大地丰富了描述生成的多样性。

与简单视频描述不同，密集描述生成任务是对长视频生成多句描述，包括了事件定位过程，技术更加复杂，成为近年来研究人员的关注重点。2017年，Krishna等首次提出针对长视频的密集描述生成任务并给出了相应的解决方案，其过程为: 首先通过C3D网络提取视频特征序列；然后，将视频特征送入DAPs动作提议生成模块生成候选动作提议；最后，将这些候选动作提议送入描述生成模块生成对应的语句描述[7]。2018年，Wang等提出基于双向注意力融合上下文门控机制的视频密集描述生成方法，其思想是充分利用过去和未来的上下文信息进行双向动作提议生成，并设计了一种新颖的上下文门控机制来动态平衡当前事件和上下文信息对描述生成的贡献[8]。2019年，Xu等在R-C3D的基础上提出可同时进行动作提议生成和描述生成的JEDDi-Net网络，其过程为: 首先提出分级Captioning模块，用于跟踪上下文信息以建模视频中事件的视觉特征与对应描述之间的时序依赖关系；然后使用C3D网络编码连续的输入视频流并使用SPN(Segment Proposal Network)生成候选动作提议[9]。为解决以往视频密集描述生成模型动作提议生成和描述生成两部分网络独立训练优化的问题，2019年Zhou等将Transformer模型用于密集描述生成并通过掩码(Mask)机制实现了两部分网络的端到端训练[10-11]。为解决密集描述生成语句描述冗余和未考虑事件之间相关性的问题，2020年Mun等通过构建事件序列生成网络对事件进行自适应选择，并使用基于强化学习的训练策略来提升视频密集描述生成的定量指标，在ActivityNet Captions数据集上METEOR值为8.82%[12]。

除了上述方法，Duan等在2018年首次探究了弱监督视频密集描述生成，其思路是: 在一对一假设(即一句描述对应一个动作片段)的基础上，将弱监督视频密集描述生成抽象为一对对偶问题，通过交替训练文本描述生成网络与提议生成网络，使得文本描述生成的重构误差最小，以此解决弱监督视频密集描述生成问题，但实验结果表明，这种弱监督方法相比有监督的方法还有很大差距[13]。2019年，Rahman等在Duan等研究的基础上探究了多模态特征的使用对弱监督视频密集描述生成的影响[14]，但其描述生成效果仍不理想。

2 方法

2.1 基础模型

2.1.1 BMN网络

基于动作概率序列的动作提议生成方法通过深度网络先预测视频每个时序位置或片段的动作置信度，然后按照特定的规则联合满足指定条件的区间形成候选提议，可灵活地生成各种时长的动作提议。受动作概率序列方式启发，Lin等于2018年提出BMN网络，并获得同年ActivityNet比赛动作检测和提议生成两项任务的冠军[2]。如图1所示，该网络主要由特征提取模块、基础模块、时序评估模块和提议评估模块构成。

图1 BMN网络整体框架[2]

(1) 特征提取模块采用双流网络进行视频特征提取并作为后续网络输入。

(2) 基础模块使用两层一维时序卷积层对输入视频特征序列进行编码，其输出特征序列被后续时序评估模块和提议评估模块共享。

(3) 时序评估模块用于评估特征序列每个时序位置属于动作开始和结束的概率，通过结合具有高边界概率的时序位置生成一系列候选动作提议。

(4) 提议评估模块采用边界匹配机制同时进行动作提议特征提取和置信度评估。首先，按照动作提议开始边界的位置及动作提议的长度将所有可能存在的动作提议结合为二维边界匹配图；然后，构造采样矩阵以点乘的方式同时采样所有提议的特征，通过一层三维卷积层消除采样维度；最后，用两层二维卷积层获取动作提议的上下文信息，并通过一层二维卷积层生成每个动作提议的置信度得分。

2.1.2 双模态Transformer

2017年，谷歌研究人员提出完全采用注意力机制的Transformer模型，其利用注意力机制将文本序列中任意两个位置的距离缩短为一个常量，避免了长时依赖问题，在多项自然语言处理任务中取得了最佳性能[10]。为充分利用视频中的音频信息，Iashin等在Transformer模型的基础上提出双模态Transformer[15]，其由双模态编码器和解码器两部分构成，双模态编码器用于对输入音视频进行编码，解码器负责文本序列预测生成。

(1) 双模态编码器

(2) 双模态解码器

(5)

其中，[·,·]代表特征拼接操作，fc为全连接层。

(3) 单词概率生成

(6)

其向量维度和字典大小一致。本文选用概率向量最大概率位置对应的单词作为当前预测单词。

2.2 方法框架

本文所提基于多模态特征的视频密集描述生成方法框架如图2所示。首先，我们分别使用双流i3D网络和VGGish网络提取输入视频的视频和音频特征作为Improved-BMN动作提议生成网络的输入[16-17]。之后，对于生成的候选动作提议，裁剪对应的音频、视频特征并用时序语义关系模块对这些提议间的时序结构和语义信息进行建模生成时序语义特征，通过全连接层与音视频特征融合后送入基于编码器-解码器框架的BMT-TSRM网络进行描述生成。具体地，编码器通过两层自注意力层和双模态注意力层对输入特征进行编码。解码器首先输入单词序列特征并通过自注意力层获取单词上下文信息，之后通过双模态注意力层选取音频、视频特征与单词上下文信息高度相关的部分。解码器输出经全连接层编码再经过Softmax函数得单词预测概率向量。

图2 基于多模态特征的视频密集描述生成方法框架图

2.3 Improved-BMN网络

BMN网络使用由一维时序卷积层构成的基础模块对输入视频特征序列进行编码。由于卷积核尺度固定，BMN生成的一维特征序列中每个时序位置对应的感受野固定，导致该方法不能很好适应动作片段时间跨度的多样性。其次，BMN在动作提议生成时只利用了双流特征，而忽略了音频特征。因此，本文使用具有多尺度卷积核的Timeception层作为基础模块以更好适应时间跨度多变的动作片段并探究四种音视频特征融合方案以充分利用音频信息。

2.3.1 音视频特征融合方案

本文分析对比了如下四种方案融合视频特征V和音频特征A。

(1) 拼接融合

该方案直接将音频特征与视频特征进行按列拼接，如图3所示。

图3 拼接融合

(2) 多模态融合

如图4所示，该方案首先将音频特征与视频特征分别进行元素级相加和相乘操作；然后，将两种特征进行按列拼接操作后经全连接层编码；最后，将三种处理后的特征按列拼接操作得到最终特征向量，如式(7)所示。

Cfinal=(V+A)||(V·A)||fc(V||A)

(7)

其中，“+”和“||”分别代表元素级相加和按列拼接操作；“fc”代表全连接层。

图4 多模态融合

(3) 乘性混合融合

如图5所示，该方案首先将两种特征进行元素级相加操作，然后再和原始特征进行按列拼接操作，得到最终特征向量，如式(8)所示。

Cfinal=(V+A)||fc(V)||fc(A)

(8)

其中，“+”和“||”分别代表元素级相加和按列拼接操作。

图5 乘性混合融合

(4) 交叉门控融合

Wang等针对视频描述任务首次提出交叉门控策略用于增强空间流和时序流特征中相互关联的信息[18]，如图6所示。

本文借鉴该策略的思想用于融合音频、视频特征向量。该方案得到最终特征的过程如式(9)～式(11)所示。

gating(x,y)=δ(wx+b)y+y

(12)

其中，y代表目标特征，在特征x的引导下进行更新；w和b为待学习参数；δ(·)为非线性激活函数。

图6 交叉门控融合

2.3.2 Timeception层

对于Improved-BMN网络，本文采用具有多尺度卷积核的Timeception层编码融合后的音频、视频特征，其输出特征序列被后续时序评估模块和提议评估模块共享。对于输入特征序列F∈RT×L×L×C，假设F的特征维度为dm，其中T为特征序列长度；L为空间维大小；C为特征序列通道数。如图7所示，由Timeception层经以下步骤得到输出特征序列。

图7 Timeception层

第1步: 将特征序列F按通道C分为N个组来降低通道间的依赖关系和复杂度，每个组的特征维度为gm∈RT×L×L×C/N。

第2步: 使用多分支卷积模块对划分得到的特征序列进行卷积，其包含5个分支，其中，中间3个分支使用具有多尺度卷积核的深度可分离时序卷积，在降低网络参数量的同时保证网络可以很好适应动作片段时间跨度的多样性；最左侧分支只进行kernel_size=2，Stride=1的最大池化操作；每个分支后连接kernel_size=1×1的2D卷积，用于增强Timeception层的非线性表达能力；最终，5个分支得到的特征序列经过按列拼接操作，得到该组的输出特征序列。

第3步: 对于每个组的输出特征序列，首先通过随机置乱(Shuffle)操作来交互不同通道的信息。接下来，将置乱后的每个组的输出特征序列进行按列拼接，再经过kernel_size=2，Stride=2的最大池化操作，得到输出特征序列。

2.4 TSRM模块

在使用BMT-TSRM网络进行描述生成前，本文首先采用TSRM模块对事件间的时序结构和语义信息进行建模，得到时序语义特征[4]。如图8所示，TSRM模块由时序结构分支与语义信息分支构成。

图8 TSRM模块结构图

2.4.1 时序结构分支

该分支负责建模事件间的时序结构，首先对于任意给定的动作提议对(Pi,Pj)进行位置编码，如式(13)所示。

(13)

其中，Pij为得到的时序位置编码向量；Ci和li分别为提议Pi的中心位置和长度；[·,·]代表元素级拼接操作。接下来，通过tanh非线性激活函数和全连接层将Pij嵌入到高维特征空间，得到最终的时序结构特征。

2.4.2 语义信息分支

3 实验

3.1 数据集与测评指标

本文基于ActivityNet Captions和SDVC数据集进行实验[7]。ActivityNet Captions是目前密集描述生成任务的基准数据集，其包含20K个视频，约100K句描述，平均每个视频约3.65句描述，每句描述包含约13.48个单词。训练集、验证集和测试集分别包含10 024、4 926和5 044个视频。SDVC数据集为本文构建的基于学习场景的小型视频密集描述数据集。数据集中的视频由我们使用拍摄设备在教室和实验室中对单一学生拍摄得到，共包含78个分辨率为1 280×720像素、帧率为30FPS、时长为1～6min的长视频。在视频采集过程中，每一位学生动作的顺序、幅度和持续时长是任意的，以确保数据的丰富性。该数据集的特点是: ①视频总时长为2.81h，平均每个视频时长约183.4s； ②包含661个有效动作片段，每个视频包含约8.5个有效动作片段，平均每个动作片段时长为14.1s； ③具体661个动作片段的时长分布统计如图9所示。

图9 661个动作实例的时长分布

视频采集完成后，我们参考ActivityNet Captions数据集的标注格式对78个视频进行标注。实验中，我们将其中的64个视频用于训练，14个视频用于测试。

对于动作提议生成，本文实验采用IoU阈值集合为[0.5:0.05:0.95]下的平均召回率与平均提议数量曲线下的面积(area under AR vs. AN curve, AUC)作为主要评价指标，此处平均提议数量的范围是从0到100。此外，还评估了一定数量动作提议下的平均召回率(AR with Average Number of proposals, AR@AN)。对于描述生成，本文使用IoU阈值集合为{0.3,0.5,0.7,0.9}下的平均BLEU_3(B@3)、BLEU_4(B@4)和METEOR(M)值作为评价指标[19-20]，以衡量语句描述生成的质量。

3.2 实验细节

本文使用在Kinetics数据集上预训练的双流i3D网络进行双流特征提取(特征通道数为1 024)[16]，使用在AudioSet音频数据集上预训练的VGGish模型进行音频特征提取(特征通道数为128)[17,21]。与BMN一致，进行动作提议生成实验时，我们将视频特征序列通过线性插值方式缩放到维度dv=R100×400，将音频特征序列缩放到维度dA=R100×128。Improved-BMN网络训练阶段学习率为0.001，批量大小为8，ActivityNet Captions和SDVC数据集最大迭代次数分别为10和50轮，Timeception层数为1，Group数为8。BMT-TSRM网络训练阶段学习率为5×10-5，批量大小为32，ActivityNet Captions和SDVC数据集最大迭代次数分别为30和100轮，单词序列长度上限为30，编码器和解码器层数为2，多头注意力机制头数为4。训练前我们使用torchtext-0.3.1进行文本预处理工作，并使用Glove算法将单词编码为300维的词嵌入向量，两个网络均使用Adam算法进行优化。

3.3 实验结果及分析

3.3.1 动作提议生成实验结果及分析

Improved-BMN在ActivityNet Captions(1)简记为ANet Captions。和SDVC数据集上的实验结果如表1所示。

表1 Improved-BMN网络动作提议生成结果

表1表明，Improved-BMN网络在两个数据集上的动作提议生成性能均比BMN有所提升。ActivityNet Captions和SDVC数据集的平均AUC值分别提升了0.8%和6.7%。

图10和图11分别展示了BMN与Improved-BMN网络在SDVC和ActivityNet Captions数据集上不同IoU阈值下的AR曲线与AUC值。可以发现，Improved-BMN网络在不同IoU阈值下的AUC值相比BMN网络均有不同程度提升。特别地，当IoU=0.9时，两个数据集AUC值仍有5.94%和0.84%的提升。这表明即使在IoU阈值要求较高的情况下，Improved-BMN网络的检测性能仍优于BMN网络。

为分析对BMN网络两处改进的有效性，本文进行了相关消融实验。消融实验结果如表2所示。其中，“V”表示视频特征；“A”表示音频特征；“T”表示Timeception层。

表2 改进有效性消融实验结果

图10 BMN(左)与Improved-BMN(右)网络在STAD不同IoU阈值下的AR曲线和AUC对比

图11 BMN(左)与Improved-BMN(右)网络在ActivityNet Captions不同IoU阈值下的AR曲线和AUC对比

表2表明，使用Timeception层作为基础模块时，SDVC与ActivityNet Captions数据集平均AUC值分别提升4.4%和0.7%。这表明多尺度卷积核能更好地适应动作片段时长的多变，音频特征的使用也进一步提升了网络性能。具体四种融合方案的平均AUC值如表3所示。

表3 四种融合方案的AUC值

表3表明，引入音频特征并使用正确的融合方式能有效提升动作提议生成的质量。四种融合方案中，乘性混合融合方案在两个数据集上结果最优，这是因为该方案能自动聚焦于更可靠的模态信息，减少对不可靠模态的关注。多模态融合方案效果最差，尤其是在ActivityNet Captions数据集上，使用该方案反而导致性能下降。

3.3.2 描述生成实验结果及分析

本节我们分别使用真实动作提议(GT Proposals)与Improved-BMN网络生成的动作提议(Learned Proposals)进行描述生成实验。SDVC数据集描述生成结果如表4所示。

表4 SDVC数据集描述生成结果

表4表明，使用真实提议时BMT-TSRM网络描述生成的BLEU_3与BLEU_4值分别提升了4.7%和5.3%。同样，使用生成的候选动作提议，描述生成的BLEU_3与BLEU_4值分别提升了2.3%和2.2%。以上结果表明了使用TSRM模块建模事件间时序结构和语义信息的有效性。

考虑到SDVC数据集存在的局限性。为进一步验证本文方法的有效性，我们在ActivityNet Captions数据集上进行实验，与目前主流方法的对比结果如表5所示，其中，“RL”表示在训练时使用强化学习方式提升定量评价指标；“Full”表示数据集视频是否完整可用(ActivityNet Captions数据集中的部分视频链接已经失效，导致了一小部分视频不再可用)。

表5 与目前主流方法在ActivityNet Captions数据集上的对比结果

表5表明，使用真实动作提议时，本文方法在BLEU_3、BLEU_4两个评价指标上取得了最佳结果，METEOR得分高于除使用强化学习的文献[12]之外的所有方法。相比于双模态Transformer，本文方法在三个评价指标上分别提升了1.4%、0.9%、0.4%。使用Improved-BMN网络生成的动作提议时，本文方法METEOR值为8.0%，低于双模态Transformer 0.4%。这是因为文献[15]采用了与YOLO类似的动作提议生成模块，其生成的动作提议质量高于本文方法，但本文方法仍优于文献[14]和文献[24]等主流方法。

为进一步验证TSRM模块有效性，我们对比了双模态Transformer网络和BMT-TSRM网络在两个数据集上的描述生成性能。为了保证对比公平，SDVC数据集改进前后两个网络均使用Improved-BMN网络生成的动作提议；ActivityNet Captions数据集改进前后两个网络均使用文献[15]提供的动作提议。实验结果如表6所示。表6表明，使用TSRM模块建模多个事件间丰富的时序结构和语义信息能在很大程度上提升描述生成性能。

相比BMT网络，BMT-TSRM在SDVC数据集BLEU_3和BLEU_4两个指标上分别提升2.3%和2.2%;在ActivityNet Captions数据集三个指标均有所提升，METEOR最终值为8.7%，与表5中文献[12]的方法性能相当，但文献[12]的方法使用强化学习来提升定量评价指标，易使生成的描述结果不够自然流畅。

表6 TSRM模块有效性实验结果

最后，我们验证不同模态特征使用对描述生成的影响。实验中的动作提议设定与验证TSRM模块有效性时保持一致。单用音频特征(A)、单用视频特征(V)和两者融合(AV)的实验结果如表7所示。表7中的数据表明: ①单独使用音频特征进行密集描述生成效果较差。这是因为音频中缺乏视觉和运动信息，仅根据音频信息很难对视频中的事件进行准确描述； ②单独使用视频特征较只使用音频特征有很大性能提升，表明了视觉和运动信息对于密集描述生成的重要性； ③多种模态特征融合能取得最佳结果，说明使用多模态特征进行密集描述生成任务的正确性； ④通过对比单用视频特征和融合后的结果，我们发现性能得分差距并不明显。这说明密集描述生成任务在很大程度上依赖于视频中的视觉和运动信息，音频特征多起到辅助作用。

表7 不同模态特征使用对描述生成的影响

3.3.3 模型结果可视化

SDVC和ActivityNet Captions数据集部分密集描述生成可视化结果如图12所示，其中，最上方为采样的帧用于展示对应时刻的视频内容；中部箭头分别表示真实动作提议和预测动作提议对应的时序区间；底部分别是真实动作提议和预测动作提议对应的文本描述。从图12可以看出，对于SDVC数据集，本文方法可以准确定位出视频中潜在的动作片段并进行文本描述。观察生成的文本描述，所提方法对行为的描述和参考描述基本一致，但在衣服颜色等视频内容细节描述方面仍不尽人意，主要是一维特征序列缺乏细粒度信息造成的。对于ActivityNet Captions数据集，所提方法可准确定位存在重叠的动作片段并进行文本描述，对其中发生的多数关键事件准确描述(黑色加粗部分)。

图12 SDVC(上)和ActivityNet Captions(下)数据集密集描述生成结果可视化

4 总结

本文针对密集描述生成技术进行深入研究，提出基于多模态特征的视频密集描述生成方法。该方法分别使用Improved-BMN和BMT-TSRM网络进行动作提议与语句描述生成。相比于原始网络，改进后的网络充分利用视频中的多模态信息，能够更好地适应不同时间跨度的动作片段。在语句描述生成时，本文方法通过TSRM模块对事件间丰富的时序结构和语义信息进行建模，生成语句描述质量更好。实验结果表明，本文所提方法在ActivityNet Captions和SDVC两个数据集上的动作提议生成和描述生成效果均准确、有效。