基于边界敏感网络的时序行为定位研究*

2023-09-29余思成

计算机与数字工程 2023年6期

余思成彭力

（江南大学物联网工程学院无锡 214000）

1 引言

为了保证自身的利益和安全，人们每年都会在不同的区域投放数百万的摄像头，这将会产生大量的记录、传输和存储视频。视频是一种有着密集的信息和背景变化复杂的媒介，为了减少日常繁琐的视频检索任务，研究人员着手开发一项能够检测未修剪的视频中发生人员活动片段的技术，这在计算机视觉中是一项具有挑战性的任务，随着互联网的迅速发展，在引入卷积神经网络之后，越来越多的算法也被研究者提出。

在视频行为识别领域中，要对一段长视频进行行为识别通常分为两个步骤：行为分类和行为定位。在行为分类中很多算法已经达到了很高的准确性，大致分为两种方法，第一种方法是Simonyan［1］等提出的双流卷积网络，他采用两个二维卷积网络分别提取视频的时间和空间特征，最后进行特征融合，Wang L［2］等的TSN 算中在双流卷积上增加了稀疏采样的过程，解决了双流卷积无法对长时间视频建模的短板，本文的视频特征提取部分也将采用此算法进行。第二种方法是直接使用三维卷积神经网络提取时空特征，如3-Dimensionsal Convolutional Networks（C3D）［3］，Tran 等把2D 卷积结构拓展到3D卷积结结构，对多帧连续的视频序列提取时空特征，由于模型计算量小，所以比第一种方法速率快，但精确度不高。在行为定位领域中，GAO J［4］等提出了一种TURN 模型，借鉴Faster-Rcnn［5］中采用anchor的方式生成预测序列，并用时空坐标进行修正，Bush S［6］等的SST 算法网络通过结构化时序金字塔对每一个动作实例的时序结构建模。在金字塔的顶端，引入一个判别模型进行视频序列预测。

本文结合Lin T［7］提出的边界敏感网络（Boundary-Sensitive Network，BSN）算法，沿用了时序动作检测的传统的两个阶段，第一阶段输入原始视频的图像序列，为了获得较高的准确率，通常引入光流来增强视频的特征表达，原始图片和光流序列经过二维卷积后，采用TSN 模型进行分数融合，生成视频特征序列作为第二阶段的输入，然后使用三个独立的模型分别进行动作时间预测，动作序列融合和预测序列置信度。本文主要贡献如下：

1）改变了时序评估模块中的网络模型，在一维卷积中构造低级双流特征，丰富了视频原始特征的语义信息，使得生成的时序概率序列更加准确。

2）引入了目标检测领域中的softer-NMS，应用在时序行为定位中，能够实现修正最佳序列坐标的效果。

将改进的算法与baseline的边界敏感网络BSN以及目前的state-of-the-art 算法比较，通过在THUMOS-14 数据集上进行测试，证明该算法取得了较好的效果。

2 相关工作

算法主要包含三个模块，依次为时序评估模块，提名生成模块和提名评估模块，结构框图如图1所示。

图1 BSN网络框架

1）视频特征编码（visual encoder）

双流法的视频提取特征算法具有高效的性能，采用经典的双流法TSN 用以提取视频中丰富的特征信息，对每个包含T 帧的视频分为T/ns T/ns个snippet 作为网络输入的最小单元，其中ns=16ns=16 为每个最小单元的长度。两个通道均采用Inception-v4 作为基础的卷积网络，空间层将视频的RGB 图像作为网络输入，时空层的输入的是包含x方向和y方向的两张光流图像，最终两个网络进行特征融合得到提取好的视频特征作为下一个模块的输入。

2）时序评估模块（Temporal Evaluation Module）

原BSN算法基于提取的图像特征序列，时序评估模块采用三层一维时序卷积层来对视频序列中每个位置上动作开始的概率、动作结束的概率和动作进行的概率同时进行建模。本文框架延续了一维时间卷积层去探索局部语义信息，用以捕捉和判断在时序边界上的动作特征，不在特征提取阶段将RGB特征和光流特征融合，而是在时序评估阶段分别对其进行卷积融合构造低级双流特征，从而生成动作开始概率序列，动作结束概率序列和动作概率序列。

3）提名生成模块（Proposal Generation Module）

为了生成候选时序动作提名，将上一模块输出产生的时序序列中满足条件的时间位置点筛选出来，组成多个候选序列。选择动作开始和动作结束概率序列中满足以下两点条件之一的时间节点作为候选时序边界节点：

（1）概率高于一个阈值；

（2）该时间节点的概率高于前一时刻以及后一时刻的概率（即一个概率峰值）。

然后将候选开始时间节点和候选结束时间节点两两结合，保留条件符合要求的开始节点-结束节点组合作为候选时序动作提名。对于生成的每一段候选序列，采用线性插值的方法生成BSP（Boundary-Sensitive-Proposal）特征，用于第三步的输入。

4）提名评估模块（Proposal Evaluation Module）

经过上述处理，生成的一个时序序列可以表示为Pro=()Ts,Te,Fbsp，Ts表示对应的动作开始时间点，Te表示对应的动作结束时间点，Fbsp表示通过PGM产生的BSP特征，该模块采用一个简单的多层感知器（MLP）对于每个时序序列进行置信度评估，置信度分数越高代表该时序序列是一个完整的动作序列的可能性越高。最后通过Soft-NMS 对结果进行非极大值抑制，降低算法产生重叠序列的可能性。

3 基于BSN的改进方法

3.1 生成时序概率序列模型

基于提取的图像特征序列，时序评估模块（TEM）接收时序视频特征序列作为输入，经过前期的视频特征提取之后，每个视频可以表示为V={Fw,ψw}，其中Fw和ψw分别表示该视频的特征序列和动作实例。对每一个动作实例ψw=(ts,te)，其中的开始时序区域在模型中扩展为，结束时序区域扩展为，其中dg=ts-te，将作为该模型的输入。

原算法仅采用3 层一维时序卷积层来对视频序列进行建模，将视频特征融合之后进行简单的一维卷积会丢失掉视频语义信息。为了丰富原始视频特征，本文不在视频特征提取阶段提前将信息融合，而是利用两个堆叠的一维卷积层分别对空间和时间特征进行卷积，如图2 所示，时间和空间特征信息分别由Sf=Fconv（12Fconv11(S)）和Tf=Fconv22（Fconv21(T)）表示，然后在第二层将Sf和Tf进行融合构造低级双流特征，dsf=Fsu（mSf，Tf）。Sf，Tf和dsf将分别采用三个卷积层用以生成三个动作特征序列Pa=（Fconv13(Sf)，Fconv23(Tf)，Fconv33(dsf)。

图2 TEM网络结构

定义一个1D-Resnet单元为

其中，x和y分别表示该残差单元的输入和输出，F(x,w)表示经过2 次一维卷积之后的特征序列，W1和W2为单元中的卷积核权重，σ为激活函数，本文中采用Relu函数作为激活函数。

该模型结构组成如下：

1）输入层（Input）为经过TSN 网络得到的[nvmt,fd]序列，其中nv表示输入的视频数量，训练集中数量为200，测试集为213，mt为时间最长的视频序列长度，TSN 网络的两路输出特征层维度都为1024，作为该网络输入的特征长度。

2）一维卷积（1D-Conv）分别对输入的视频特征卷积，过滤器设为512，卷积核大小为3，步长为1，并采用zero-padding填充保证尺度不变。

3）为加快模型收敛和防止梯度消失，在每一层卷积之后采用归一化（Batch Normalization）操作，加快了训练速度。

4）在归一化之后添加dropout 层调节模型的泛化能力，这里参数设置为0.2。

5）对于构造出的低级双流特征层，连接融合并采用下采样（Down sample）改变特征维度，使得其与最后的输出层特征相同。

6）全连接层（FC），其输出维度为每个视频的时序概率点，输出格式为［nv*mt,cv,lp］，其中cv=3表示输出的是三通道，分别代表运动序列、开始序列和结束序列。lp分别是在时间轴上每个时间点关于行为，开始，结束的概率，从而生成动作概率序列，动作开始概率序列和动作结束概率序列，序列长度lp设为100。

在模型训练时，考虑到这是一个多输出的预测任务，分别计算三个预测部分各自的二元逻辑回归损失函数Lbl，然后加权组合为该模型的损失函数，总体损失函数公式如下：

其中λ用来控制动作区域损失对结果的影响，实验中λ=2，Lbl Lbl公式如下：

其中bi=sign(gi-θIoP)是用于转换真值分数的二值函数，gi为在θIoP=0.5 指标下的真值iou分数，定义l+=和l-=lw-l+，均衡正负样本数量

如表1 所示，经过模型的修改，能看出替换了时序概率阶段的模型能够在提议数量为100和200时有着近0.5 的召回率提升，相对于原始模型能够更好地捕捉原始视频特征信息，从而使得初步构建的时序概率曲线能将原始视频表现的更加完整。

表1 不同模型下的召回率比较

3.2 非极大值抑制（non-maximum suppression）

在最后生成行为预测序列时，经常会出现大量用于表示同一行为的重叠序列，所以需要进行非极大值抑制从而排出重叠序列并识别和定位出我们想要看到的行为序列。NMS［8］算法被广泛地应用在边缘检测和目标检测中，主要用于解决分类器分类时，目标被大量的候选区域框包围从而出现候选区域大量重叠的现象，该算法在时序行为定位领域同样具有较好的效果。

传统的NMS 是根据每个目标与得分最高目标的iou值，若大于规定阈值则删除，低于阈值的保留。Soft-NMS算法在执行过程中不是简单的对iou大于阈值的检测框删除，而是加入了高斯加权法对其进行降分，softer-NMS则是在非极值抑制之后对最终目标进行修正，具体算法如下：

1）对候选序列集合P中所有序列按照得分大小排序，选择最大的框记为M。

2）分别计算所有的序列与M的iou值，大于某阈值的序列放入集合S中。

3）利用线性加权法将S集合中的序列逐一进行降分，并对集合S中的序列坐标进行加权平均计算，然后对M进行修正。

4）在P中删除M，并将M放入有效结果集合R中，返回步骤1），直至P中无序列。

算法原理图如图3所示。

图3 Softer-NMS算法步骤

Soft-NMS中采用高斯加权法降分，公式如下：

其中M为当前时序序列置信分数最大的序列，bi为待处理的时序序列，si是bi序列的置信分，IoU是两者序列的重叠率，具体表达式如下：

其中A是预测序列，B是实际序列，由此可看出bi和M的IoU越大，bi的得分si就下降的越厉害。

Softer-NMS 中分别对所有IoU>Nt的预测序列坐标进行加权平均计算，得到两个新的时间点，第i个时序序列的计算公式如下（j表示所有IoU>Nt的序列）：

通过文献Softer-NMS［9］中的实验结果可知阈值Nt Nt设置为0.45到0.6效果最佳，通过实验可得阈值Nt取为0.6 时能得到最佳效果。通过上述可知，为了解决时序行为定位中的预测序列重叠难以分辨，soft-NMS引入了高斯加权法对重叠部分进行降分，从而达到去除重叠时序的效果，但反而忽略了这些被降分的重叠部分的时序信息。Softer-NMS则是对这些被忽略的时序信息的时序坐标得分进行加权，实现了“多条合一”，优化了最佳候选序列坐标，充分利用了所有的时序序列信息，效果如图4所示。

图4 实验效果展示

4 实验结果与过程

4.1 数据集和评价指标

THUMOS 是一个包含大量的人类动作在真实环境中开源视频数据集，其中人类动作包括刷牙、吹头发等日常动作和汽车、打篮球等体育动作。THUMOS-14中包括行为识别和时序行为检测两项任务，带有时序标注的视频是用来验证时序信为检测算法，验证集含有3007 个动作片段的200 个视频，测试集含有2558 个动作片段的213 个视频，动作类别共有20 个种类，目前大多时序行为算法都以此数据集作为评估。

评价指标通常采用平均召回率（Average Rec call）和平均视频数量（Average Number of Proposals per Video）曲线（AR-AN），其中预测出的时序序列为正确目标的条件是该序列的时间区间和标注中的真实动作区间的tIoU（temporal intersection over union）大于等于一个阈值，遵照惯例通常设置tIoU=［0.5∶0.05∶1.0］，AN具体定义公式如下：

4.2 实验对比及其分析

实验采用python2.7 编程，均在ubuntu16.04 操作系统下进行，处理器为intel i7-8700，主频是3.20 GHz，内存是16G。显卡是NVIDIA Geforce GTX 1070，显存为8G。为了证明算法的有效性，论文实验在THUMOS-14 数据集上与目前的state-of-the-art算法进行比较，结果如表2所示。

表2 不同tIoU下的召回率比较

根据实验结果表明，本文的算法相比于baseline的BSN能够提升1%~2%的精确度，在特征提取方面，双流卷积相对于3D 卷积提取到的视频信息更加丰富，在时序行为定位任务中也应用地更加广泛。当候选提议数量处于50~200 之前，基于局部到全局生成时序概率曲线的方式要优于传统的滑动窗口方法和anchor 方式，有明显的召回率提升。本文中因为加深了第一步的网络模型，使得整个算法能够处理到更多的视频语义信息，在极大值抑制时能够修正最终序列，最终提高了提议数量少时的召回率，但在提议数量较大时提升不明显。

5 结语

提出了一种基于局部到全局的BSN改进算法，替换了原算法的基础网络，构造低级双流特征，丰富了视频的原始特征信息，并在非极大值抑制阶段引入了softer-nms 对预测序列进行修正，得到了更加准确的时序动作坐标。在共享数据集THUMOS14中的实验结果表明，文本的算法在视频不同的提议数量指标下均有提升。由于生成的时序概率序列的长度固定，基于局部到全局的方法能够在提议数量较少时有着领先的精度，但在面对长时间的视频建模却稍显乏力，未来将继续改进该方法，解决时序长度不灵活的缺点，将多个模块联合化学习。