融合时间和空间上下文特征的群体行为识别

2022-09-28程雅儒孙永宣吴克伟武金金

智能计算机与应用 2022年9期

李骏，程雅儒，谢昭，孙永宣，吴克伟，2，武金金

（1合肥工业大学计算机与信息学院，合肥 230601；2 合肥工业大学工业安全与应急技术安徽省重点实验室，合肥 230601）

0 引言

群体行为识别，是通过对人员密集场所的视频分析，并对其突发性群体行为进行识别，有利于维护公共场所安全，避免人员伤亡和财产损失，已被广泛应用于视频监控、视频摘要、视频检索等领域。个体行为识别模型只需要识别个体的单独行动，而群体行为识别，需要依据个体的行为，推断出个体之间的群体活动。视频中，个体的关系是隐藏的，且行为特征具有复杂的时序信息，个体之间的行为会相互干扰，影响多人关系的估计结果，而解析个体的时序信息具有一定的挑战性。

群体的外观特征通常使用卷积神经网络来提取，但无法提取群体的时序信息。实验表明，虽然可以利用长短期记忆网络（LSTM）提取个体的时序信息，但会导致网络性能下降。现有的图模型结构只专注于群体的外观信息和位置信息，不能够很好地表达群体关系，导致群体行为识别效果欠佳。

针对上述问题，本文提出了一种时间上下文模块，用来解决个体特征缺乏时序信息的问题。通过通道级的时间位移方法，每个个体的时序信息都得到增强。为了保证群体建模的完整性，构建了基于融合通道级时间上下文特征的空间图模型，该图模型使用外观和位置信息，实现对空间关系的编码。在增强时序信息的基础上，通过建立多个个体关系图来模拟个体之间的相互关系，将每个个体的全部特征描述为图模型的每个节点，通过图模型的推理，完成行为分类。

1 相关工作

1.1 视频特征学习

早期的视频特征学习主要采用传统手工制作的视觉特征，或采用与概率图模型结合的方法。在图模型的基础上，多尺度模型And-or通过对不同的群体粒度进行建模，对群组行为分类。双流卷积神经网络还可以额外学习视频帧的光流图像特征，进一步识别不同的行为。时间分段网络在双流的基础上做出改进，通过稀疏采样和加权池化来识别行为特征。膨胀三维卷积网络通过将2D CNN参数膨胀拓展为3D CNN，可以解决TSN单一视频权重的问题。

1.2 交互关系分析

群体行为分析的细节存在于群体结构中。与个体行为识别不同，群体行为识别更重要的是分析个体之间交互关系。层次关系网络（HRN）使用固定的群体结构，来学习个体之间的相互关系强度。卷积关系机（CRM）使用多阶段的群体结构误差，来优化群体行为识别结果。时空注意力图网络stagNet被用于估计图结构中，用于表达目标之间的关系。

图卷积网络（GCN）在结构化数据的表示和推理方面具有优势。图注意力交互模型（GAIM）将群体节点加入图模型，并利用自注意力同时学习个体之间和个体与群体之间的关系。在图模型中引入LSTM可以增强时序信息。置信度能量循环网络（CERN）在LSTM的动态特征基础上构建图模型，在图模型构建阶段，可以获得群体的时序信息。本文在模型的设计中应用了图卷积网络，将个体的信息作为图模型一个节点。为了保证群体建模的完整性，在图构建的过程中引入了多图策略。

2 融合时间和空间上下文特征的群体行为识别

本文使用Inception-v3对视频序列提取特征，通过RoIAlign从帧特征图中提取每个个体的边界框特征，将对齐的特征通过全连接层得到每个个体的原始特征。原始特征经过通道级时间上下文模块，与图卷积特征相加得到多图融合特征，最终融合特征通过群体分类器和个体分类器完成行为的分类。整体网络框架如图1所示。

图1 融合时间和空间上下文特征的群体行为识别网络Fig.1 The group activity recognition model based on temporal and spatial context features

2.1 通道级时间上下文模块

本文设计了通道级时间上下文模块，该模块通过对个体特征的多个通道进行时间平移，可以让视频帧获得相邻帧的时序信息，在图模型的建立过程中增强模型的时序信息，并最终影响行为分类的结果。

通道级位移策略如图2所示，对于个体特征的通道位移，本文分别采用时间延迟后移、时间双向移动、时间循环双向移动策略来实现。

图2中描述了本文设计的3种位移方式，考虑了不同的位移方式对于模型性能的影响，并最终选择时间循环双向移动作为模块内特征位移的方式。

图2 通道级位移策略Fig.2 Channel-wise shift strategies

通过时间循环双向移动的位移策略，既增强了时序信息，也确保个体特征不会丢失，保证了图模型构建过程中建模的完整性。

2.2 多图时空特征融合模块

由于图模型能够实现结构化数据的表示和推理，本文在建模中利用图模型来模拟群体行为中的成对个体关系。图定义为：｛，｝，其中，节点｛v｝，边｛e｝，节点编号为1，2，…，，1，2，…，，这里表示群体中个体的数量；节点有外观特征和位置特征；表示图模型节点之间的相互关系。通过估计边上的关系取值，构成关系矩阵，表示个体和个体的关联性。

在考虑上下文建模时，对2个个体的特征使用线性变换来学习投影特征，在投影的基础上，通过点积和归一化来估计2个个体的关系。使用α来表示学习到的2个个体上下文特征关系值，计算方式如下：

本文建立了一组多图的关系矩阵进行图推理。使用图卷积网络实现了图的推理过程，对于图中的目标节点，根据其周围全部个体的权重进行更新。研究中使用X来表示图模型输出的特征，其数学表述见如下：

2.3 群体行为识别

将多图融合特征通过Max Pooling池化层减少维度，得到群体行为特征。并将群体行为特征与权重参数矩阵做线性变化，可以得到每一帧的结果，将视频序列的平均预测结果作为群体行为识别的结果。群体行为的预测标签y数学计算公式具体如下：

2.4 损失函数

整个模型可以通过反向传播的方式，进行端到端的训练，使用损失函数来评价预测值和真实值偏差的程度，损失函数的运算公式可写为：

3 实验

3.1 数据集与评价标准

本文在Volleyball数据集和Collective Activity数据集上分别进行了实验。对此拟做阐释分述如下。

（1）Volleyball数据集。由55场排球比赛中收集的4 830个视频片段组成，其中包括3 493个训练片段，1 377个测试片段。在每个视频片段中，视频的中间帧标注了个体的边界框、个体行为标签和群体行为标签。总地说来，群体行为标签有8种，分别是Right set、Right spike、Right pass、Right winpoint、Left set、Left spike、Left pass、Left winpoint；个体行为标签有9种，分别是Blocking、Digging、Falling、Jumping、Moving、Setting、Spiking、Standing、Waiting。实验中，使用一个长度为10的时间窗口，对应于标注帧的前5帧和后4帧。未被标注的个体边界框数据从该数据集提供的轨迹信息数据中获取。

（2）Collective Activity数据集。由低分辨率相机拍摄的44个视频片段组成，总共约为2 500帧。每个视频片段每10帧有一个标注，标注包含个体行为和群体行为标签，以及个体的边界框。共5个群体活动标签，分别为Crossing、Waiting、Queueing、Walking、Talking；6个个体行为标签，分别为NA、Crossing、Waiting、Queueing、Walking、Talking。实验中的2／3视频用于训练，其余用于测试。

本文采用多类正确率（Multi-Class Accuracy，）作为评价标准，先求出所有类别的正确样本数，并除以所有类别的样本总数来获得多类正确率。

3.2 实验环境及参数设定

本文实验使用Inception-v3提取视频特征，RoIAlign为每个个体提取1 024维度特征，这些特征是在每个个体边界框约束下提取的。数据集参数设定如下：

（1）Volleyball数据集。网络超参设置为：为8，参数为0.3，学习率初始设置为1e-4，权重参数为图片宽度的1／5，网络训练180个周期，每30个周期学习后变为之前的0.5倍，学习率在4次衰减后停止衰减。

（2）对于Collective Activity数据集。网络超参设置为：为16，参数为0.5，初始学习率为1e-3，权重参数为图片宽度的1／5，网络训练80个周期，每10个周期学习率变为之前的0.1倍，学习率在4次衰减后停止衰减。

实验在64位Ubuntu16.04上进行，编程环境选择Python3.7，实验采用Pytorch1.4深度学习平台。计算机配置英特尔Xeon（R）W-2133处理器，内存为64 G，配有2块GeForce RTX 2080Ti显卡。

3.3 对比实验

在Volleyball数据集上，本文方法与其它方法对比的结果见表1。由表1可以看出，本文方法的效果优于其它方法，其识别准确率相比于VC模型提高了1.0%。在个体行为准确率识别中，也表现出了最佳的性能，相比于AT模型提高了0.4%。

表1 在Volleyball数据集上与其它方法的对比Tab.1 Comparison with the state-of-the-art methods on Volleyball dataset

在Collective Activity数据集上，本文方法与其它方法对比的结果见表2。由表2可知，本文方法性能优于现有的行为识别方法。在群体行为识别准确率上，本文模型相对于VC模型提高了0.4%；在个体行为识别准确率上，相对于GLIL模型提高了0.2%。

表2 在Collective Activity数据集上与其它方法的对比Tab.2 Comparison with the state-of-the-art methods on Collective Activity dataset

3.4 消融实验

为了验证本文方法的有效性以及各个模块的效果，在Volleyball数据集上进行消融实验分析。设计了一种特征通道位移的时间上下文模块，讨论了通道位移策略对于识别准确率的影响。实验效果数据见表3。

表3 在Volleyball数据集上不同位移方式的效果Tab.3 Effects of different shift modes on Volleyball dataset

由表3可见，在使用时间循环双向移动时，既得到完整的时序信息，也保证了个体特征的完整性，且正确率得到了明显的提升。因此，本文最终选择时间循环双向移动策略。

3.5 可视化分析

实验中使用t-SNE来可视化不同模型的标签分离度。其可视化结果如图3所示。

从图3中可以看出，相对于VC模型，本文方法在Right pass和Right winpoint这2类群体行为中有着更好的分离度，其它行为的分离度也优于VC和MLIR模型，验证了使用本文方法学习到的场景特征有更好的分离效果。

图3 在Volleyball数据集上t-SNE可视化Fig.3 t-SNE visualization on Volleyball dataset

4 结束语

本文提出了一种新的通道时间上下文模块，通过在特征通道层面进行通道时间位移，使用时间循环双向移动作为位移策略，有效增强了个体的时序信息。其次，本文构建了基于融合通道级时间上下文特征的空间图模型，实现多复杂空间关系的编码。通过在2个公开的数据集上进行试验分析，结果显示本文方法优于现有群体行为识别方法，验证了本文方法的有效性。