群体行为识别深度学习方法研究综述

2022-04-13裴利沈赵雪专

计算机与生活 2022年4期

裴利沈，赵雪专

1.河南财经政法大学计算机与信息工程学院，郑州450046

2.郑州航空工业管理学院智能工程学院，郑州450046

群体行为的识别与理解是计算机视觉领域的热点问题，它是一个多学科交叉融合的研究方向，涉及了模式识别、人工智能、机器学习、计算机视觉等众多学科的研究技术。该方向是国家自然科学基金委员会设立的重大研究计划“视听觉信息的认知计算”的重要研究内容，是“国家中长期科学和技术发展规划纲要”中前沿技术类智能感知技术方向的重点研究对象。

群体行为识别的研究不仅具有重要的理论价值及科学意义，在公共安全保障方面，亦具有非常重要的应用价值。随着城市化建设的大举推进，城市人口急剧增加，国际恐怖主义日益猖獗，社会公共场所中因群体行为异常引发的拥堵及踩踏事件频频发生，造成了社会财产的巨大损失，对公共安全产生了巨大损害。对人群行为实时分析，及时发现异常行为能够有效地阻止事态的恶化，甚至避免安全事故的发生。中国工业和信息化部在“中华人民共和国国民经济和社会发展第十三个五年规划纲要”中亦提出健全公共安全体系，为实现应对重大公共风险从被动应付型向主动防范型的重大转变、从传统经验型向现代高科技型的战略转变提供了支撑。

目前，群体行为识别技术广泛应用于智能监控、基于内容的视频检索、视频自动分析与标注、运动分析等应用领域，对交通、公安刑侦等众多行业也都有积极的推动作用。对视频中的群体行为进行分析识别是一项非常重要且意义重大的科学任务。

长期以来，科研人员对群体行为识别进行了各种各样的探索。群体行为是人与人、人与物及人与环境交互的集合，具有多元性、动态性和集体性等多重特征。鉴于这些特征，群体行为的分析识别涉及到了场景分割、目标检测、目标跟踪、个体行为识别等众多视觉处理技术。此外，由于群体行为识别对图像序列进行分析，该问题从时间域与空间域对信息进行处理。这导致了群体行为识别存在算法复杂度高、处理的数据规模大等问题。这为科研工作者尝试新思路、研究新技术解决时序问题提供了更为开阔的空间。

随着技术的发展及对该问题认识的不断深入，群体行为识别算法层出不穷。根据群体行为识别算法的建模模型，现有方法大致可以分为两大类，即基于传统的概率统计模型的方法和基于深度网络模型的方法。传统的概率统计模型主要有概率图模型（graphical models）和语法模型（grammar models）等。深度网络模型则主要包括了卷积神经网络模型（convolutional neural network，CNN）、双流网络模型（two stream network）、长短时记忆神经网络（long short-term memory，LSTM）模型等。这些模型涵盖了视觉处理技术从传统机器学习向深度神经网络学习演化的过程中各种主流的群体行为识别方法。这些模型各有其特色，亦衍生出了这些模型之间的交叉融合。下面主要对基于深度学习的群体行为识别方法进行分析介绍。

目前，大部分群体行为识别的研究都采用了深度神经网络模型，亦或在深度网络架构下结合语法模型或图模型的方法。鉴于群体行为识别的这种研究现状，首先给出了群体行为识别问题的定义描述，介绍了群体行为识别通用的识别流程；然后，概括总结了群体行为识别所面临的主要挑战；继而，重点归类梳理了在深度学习架构下，群体行为识别常用的主流的深度网络模型，对其进行了对比和讨论；最后，对常用的公共的群体行为数据库进行了介绍和对比之后，总结展望了未来可以探索的研究方向和研究思路。

1 群体行为识别问题定义

Moeslund 等人和Poppe将人体行为分为了3个层次，即基本动作Action Primitive、行为Action 与活动Activity。Turaga 等人指出，行为Action 是由一个人执行的持续一段时间的简单的运动模式，活动Activity 是由多人在某种环境或条件限制下执行的可以交互的复杂的行为Action 序列。新华字典定义群体行为是团体行为的一种特殊形式，由两个或更多的个体为了实现某个特定的目标，而形成的相互影响、相互作用、相互依赖的人群集合体。后续介绍中，活动Activity 特指群体行为。

随着目标检测、跟踪等计算机视觉相关技术的发展，群体行为识别得到了进一步的深化。大量的群体行为识别方法，除了对群体行为类别的识别，还涵盖了一些对群体行为识别有辅助作用的相关任务去识别群体行为，如人体检测、跟踪等。目前，对群体行为的识别与理解包含了对参与个体的检测、个体级别的行为识别与场景级别的行为识别。该类群体行为的识别可以定义为，对于给定的视频序列={,,…,x,…,x}，经过一系列的检测分类等技术的处理，获得了参与群体行为的各人体所在位置的矩形区域[,;,]，及主要的参与人体的个体行为类别a∈和群体行为类别A∈。其中指群体行为中涉及到的个体行为类别的集合，是群体行为类别的集合。

调研发现，目前基于深度学习的群体行为识别算法大都经历了3 个阶段的处理分析。如图1 所示，首先通过各种网络架构进行特征学习和提取，对群体行为场景中的人体进行检测；然后，基于检测到的人体，采用多目标跟踪技术对人体进行跟踪处理，并利用获得的人体跟踪序列，对其进行个体行为表征，并识别其行为；在识别了各群体行为的参与者的个体行为类别以后，结合群体行为所处的场景信息及人体与人体、人体与场景的交互信息对群体行为进行识别。在该通用群体行为识别流程框架中，人体检测与跟踪在群体行为识别中属于低级的信息处理，个体行为识别属于中级的信息处理，群体行为识别属于高级的信息处理。

图1 群体行为深度识别流程Fig.1 Workflow of deep recognition of collective activity

2 挑战

群体行为识别，作为计算机视觉领域一个比较高层级的语义分析问题，它除了要面对人体检测、多人体跟踪、个体行为识别等所面临的挑战，还要解决该问题本身所涉及的众多挑战。群体行为涉及到了稀疏至高密度场景等各种情景下的人与人、人与活动场景的交互，群体活动场景相对来说比较复杂，比较容易受到群体行为活动以外事物的影响，例如经过的汽车的遮挡、建筑物上动态广告屏的干扰等。本文总结了群体行为识别所面临的一些主要挑战。

（1）群体行为所处环境异常混乱，或存在较为严重的遮挡问题。

（2）群体行为视频为手持设备所拍摄，且存在较为严重的抖动及频繁的画面切换。

（3）群体行为由于个体行为习惯问题存在较大的类内差异及类间相似性。

（4）群体行为的精确定位识别任务，涉及到人体检测、人体跟踪、个体行为识别等众多视觉问题，由于对象为三维视频数据，识别任务复杂度高、计算工作量大。

（5）现有的群体行为识别数据库还没有形成体系规模，行为种类纷繁杂乱，行为类别定义及标签信息的标注没有统一的规范，限制了相关研究工作的开展。

3 基于深度架构的群体行为识别模型

近年来，深度网络模型在图像处理领域快速发展，科研工作者基于深度架构模型对群体行为识别进行了大量的探索，并获得了显著的识别效果。按照使用的深度神经网络的架构的不同，现有的群体行为识别方法大致可以分为四类，即基于卷积神经网络（CNN）的识别模型、基于双流网络的算法模型、基于循环神经网络（RNN）或长短时记忆神经网络（LSTM）从时序角度对群体行为进行处理的识别模型和基于Transformer从时序角度对群体行为识别的算法模型。各模型的大部分算法直接从RGB 视频序列中学习行为特征，亦有部分算法基于骨架序列信息对行为进行表征。下面从网络架构、算法模型的优缺点、实验效果等方面对这些算法模型展开论述。

3.1 基于CNN/3DCNN 的群体行为识别模型

卷积神经网络由于其在空间域优越的特征表征能力，在图像的分类、检测与分割等任务中取得了显著的效果。Ji等人克服了其不能利用时序特征的缺陷，将其从2D 卷积扩展为3D 卷积，让其能够从时空两个维度对三维的行为视频数据进行处理。如图2所示，展示了2D 卷积模型与3D 模型的对比，图2（b）中卷积核的时间维度为3，共享权重采用了相同颜色的连接线标示。从该图中可以发现，3D 卷积模型不仅能够提取空间域的信息，亦能够捕捉到连续的视频帧中的时序运动信息，它更适用于行为识别等时序问题。基于CNN/3DCNN 网络，产生了一系列群体行为识别网络架构，如C3D（convolutional three dimensional）模型、GCN（graph convolutional network）模型、HRN（hierarchical relational networks）模型、CRM（convolutional relational machine）模型等。

图2 2D 卷积与3D 卷积的对比Fig.2 Comparison of 2D and 3D convolutions

继3D 卷积模型之后，Tran 等人提出了C3D 模型，他们通过实验验证了3D 卷积深度网络模型学习提取的时空特征具有非常好的识别效果；并通过在一系列网络架构上的实验，经验性地发现利用3×3×3的卷积核提取的特征识别效果最好；此外，C3D 架构仅仅使用简单的线性模型就能在众多公用数据库上取得优越的识别效果；最终得出了3D 卷积神经网络具有通用、紧凑、易于实现和高效等特点的结论。3D卷积网络利用三维卷积核提取时空特征，在一定程度上降低了混乱环境中遮挡问题对行为识别的影响。此后，3DCNN 以其优异的时空特征提取性能被广泛应用于行为识别中。

目前许多群体行为识别算法涉及了对个体行为的识别和对群体行为的识别，许多深度模型会先用CNN 对行为人体进行特征表征，然后利用图模型或时序处理网络对人体行为或群体行为进行推理识别。早期，用于群体行为识别的3DCNN 架构大多采用类似于图3 所示架构仅对群体行为进行分类识别。随着深度神经网络架构的发展及对群体行为分析识别的深入，后续产生了许多基于CNN 网络结合其他网络架构对群体行为进行深度分析的算法。

图3 行为识别的3DCNN 架构Fig.3 3DCNN architecture for activity recognition

Ibrahim 等人利用CNN 对视频帧中的行为人体进行特征表征，然后基于人体序列的特征向量采用两层LSTM 网络对群体行为中的个体行为和群体行为进行识别。Bagautdinov 等人利用全卷积网络FCN 对视频序列进行表征，并对群体行为中的多个人体目标同时进行检测，继而使用RNN 进行时序处理，对个体行为和群体行为进行识别。

Wu 等人提出了图卷积网络（GCN）模型，该方法利用CNN 对边界框标定的actor 进行特征表征，然后利用多个Actor Relation Graphs 来捕捉actor 之间的关系信息，继而通过GCN 对个体行为和群体行为进行识别。受该工作启发，Gavrilyuk 等人亦利用2D 姿态网络和3DCNN 对群体行为中的个体进行actor 层级的特征表征，然后基于自注意力机制选择性地突出actor 和群体行为之间的关系，对群体行为进行识别。

Ibrahim 等人提出了HRN（hierarchical relational networks）群体行为识别模型，该方法利用CNN 对群体行为中的个体进行初始表征，然后通过多个关系层网络来学习个体行为的关系图，以识别群体行为。受其启发，Azar等人提出了CRM模型，利用2DCNN或3DCNN 从视频帧序列中计算的特征图来学习人体活动图和群体活动图，用其表示人体行为的空间关系，然后整合卷积特征图和优化的活动图对群体行为的类别进行识别预测，其网络架构如图4 所示。该方法通过实验证实，利用卷积网络去学习高层的关系特征非常困难，提出了利用活动图来表征群体中各行为个体之间关系的方法，并在Vollyball 和Collective Activity 数据库上获得了93.04%和85.75%的平均识别率。

图4 群体行为识别的CRM 架构Fig.4 CRM architecture for group activity recognition

3.2 基于双流网络的群体行为识别模型

基于双流网络Two-Stream Network 的行为识别网络模型一般都采用如图5 所示的网络结构，分别利用空间流网络和时间流网络对行为视频空间域的静态信息与时间域的动态信息进行提取，并利用信息融合的方法进行特征表征，然后利用分类识别网络对行为的这些特征表征进行分类识别。时间流网络一般对视频的光流数据进行处理，在一定程度上降低了手持设备拍摄数据的抖动问题对行为识别的影响。伴随着群体行为分析识别的深化及识别粒度的细化，群体行为的分析识别在该架构的基础上结合了个体级别、群体级别或场景级别的分析。有些算法则直接利用双流网络或多流网络对群体行为或群体中的个体行为进行特征表征，然后对提取的特征进行分析识别。

图5 双流网络架构Fig.5 Two-stream network architecture

Li等人利用双流网络架构提取的特征，提出了基于特征融合的时序分割网络模型。该模型针对主流网络输入数据为RGB 图像和光流图像的局限，结合了低层细节信息和深度网络学习的高层语义信息对行为进行识别，该方法可用于对群体行为进行分类识别。时序分割网络结构如图6 所示。

图6 时序分割网络结构Fig.6 Temporal segment network

Wang 等人基于双流网络进行特征提取，提出了一种基于交互上下文编码的层级性的群体行为识别方法。该方法基于跟踪获取的群体行为中的个体跟踪序列，利用AlexNet网络从对应的RGB 视频帧中提取空间特征，利用GoogleNet从相应的光流图像序列中提取运动特征，然后利用二者对人体上下文信息进行编码，进行个体级别的行为识别，最后结合提取的空间域特征、时间域特征和人体上下文特征编码对群体行为进行识别。该模型的网络架构如图7 所示。该方法利用对双流网络提取的特征以再编码的方式，对群体行为进行了多级分析，在The Collective Activity Dataset上进行了实验验证，获得了89.4%的平均识别率。

图7 基于交互上下文编码的层级性的循环网络架构Fig.7 Hierarchical recurrent interactional context encoding framework

Zalluhoglu 等人考虑到群体行为中涉及到众多行为个体及其行为，且人体活动区域内的场景信息对群体行为识别具有重要意义，扩展了双流网络，引入了空间区域流网络sRCNN 和时间区域流网络tRCNN。该群体行为识别模型被称为基于区域的多流网络架构。该方法不仅对群体行为进行了分类识别，还对群体行为中活动个体所在的区域进行了检测，在The Volleyball Dataset 和The Collective Activity Dataset上进行了实验验证，分别获得了72.4%和88.9%的识别率。

3.3 基于RNN/LSTM 的群体行为识别模型

RNN和LSTM首先在自然语言处理、语音识别等时序数据处理方面获得了巨大的成功。基于其优秀的信息学习表征能力和对数据时序关系的强大建模能力，二者在图像标题生成方面和行为识别方面取得了巨大进展，尤其在对变长的行为视频的处理方面体现了其优越的性能。大部分基于RNN 或LSTM 的群体行为识别算法，大都采用如图8所示的流程。

图8 行为识别循环网络架构Fig.8 Recurrent neural network architecture of action recognition

Ramanathan 等人基于注意力机制利用RNN 来学习随时间变化的注意力权重，对行为个体的运动信息以跟踪特征的方式进行表征，实现了对群体行为的检测和识别。Shu 等人扩展了该工作，在循环网络的基础上增加了能量层来获取更可靠的区域来实现群体行为识别。Qi 等人为了利用群体行为场景中的各行为个体间的空间关系，提出了注意力语义RNN 来识别群体行为。

Deng 等人利用RNN 来学习群体行为中众多活动个体和环境之间的丰富的语义关系信息，结合图模型推理对群体行为进行识别，该方法利用环境信息识别群体行为，一定程度上降低了个体行为习惯对行为识别的影响。Bagautdinov 等人则利用RNN来实现群体行为中多行为个体的时序一致性匹配问题，然后基于匹配的结果利用深度网络提取的特征对个体行为和群体行为进行分类识别，其网络架构如图9 所示。

图9 基于时序一致性检测的群体行为识别框架Fig.9 Collective activity recognition framework based on temporal consistency detection

相比于RNN，由于LSTM 更易于处理需要深度表征的时序问题，LSTM 在群体行为识别领域得到了更为广泛的应用。Ibrahim 等人认为，群体行为时序动态特征可以从群体中个体行为的动态特征中推理出来，他们利用LSTM 模型的堆叠提出了包含两个层次的深度时序模型。第一层LSTM 用来学习表征各个体行为的动态时序特征，第二层LSTM 整合这些特征对群体行为进行表征，最后利用Softmax 分类层对群体行为进行识别。

Wang 等人利用LSTM 建模了高阶的交互上下文信息，该模型框架如图10 所示。该模型利用多级LSTM 分别对行为个体的动态信息、行为群体内部的交互信息和行为群体之间的交互信息进行建模表征，产生了对群体行为识别更有区分性的高阶交互特征。该模型可以灵活地解决场景中有不同数目的行为群体，和群体中有不同数目的行为个体的群体行为的识别问题。而且，该模型对高阶上下文建模问题极易进行线性扩展。该算法利用高阶特征对行为进行识别，能够有效降低环境嘈杂、遮挡等因素对行为效果的影响。

图10 交互上下文的层级性循环建模模型架构Fig.10 Hierarchical recurrent interactional context modeling framework

3.4 基于Transformer 的群体行为识别模型

在Transformer 架构出现以前，对时序数据的处理主要依赖于以循环神经网络为基础的网络模型。自2017 年谷歌提出Transformer以后，它迅速成为自然语言处理领域的主流模型，并应用于其他领域。Transformer 模型的网络架构如图11 所示，该模型利用自注意力机制和位置编码对序列信息进行处理。2020 年谷歌提出了Vision Transformer，该模型可以不需要卷积，直接利用Transformer 对图像块序列进行分类，且取得了与当前最优的卷积网络相媲美的结果，但其训练所需的计算资源大大减少，一定程度上解决了群体行为识别任务复杂度高、计算工作量大的挑战。

图11 Transformer 模型架构Fig.11 Architecture of Transformer model

近来出现了大量将Transformer 应用于计算机视觉领域的研究。有部分工作将Transformer 用于行为识别。相比于以串行方式按时间顺序对数据进行处理的RNN、LSTM 等循环神经网络，Transformer 架构的最大特点在于它依赖于自注意力机制的并行化处理能力。Transformer 模型可以在同一时间对所有的特征进行分析，而无须考虑特征序列的先后次序。这种并行处理机制大大加快了其训练速度，从而使其能够在更大的数据集上进行训练。

基于迅速发展的Vision Transformer模型，Neimark等人提出了Video Transformer 网络模型，该模型摈弃了一般的行为识别所依赖的3D 卷积网络，介绍了一种基于注意力机制编码和位置编码，对视频行为进行端对端的识别方法。该工作通过实验统计发现，在保证获得与现有最先进的算法同等的识别效果的情况下，该模型的训练速度要快16.1 倍，其推理识别速度快5.1 倍，其时间性能明显优于其他算法。

Girdhar 等人提出了Action Transformer 网络模型，该模型利用Transformer 类的架构从行为主体的时空上下文中去整合学习特征对行为进行识别。该模型的行为识别流程如图12 所示。该模型能够同时对行为个体进行跟踪，从场景中其他人的行为中提取语义上下文信息。其实验证明，该方法获得了明显优于其他主流方法的识别效果。

图12 行为识别的Action Transformer 模型Fig.12 Action Transformer in action recognition

近来，Gavrilyuk 等人提出了用于群体行为识别的Actor Transformers 模型，该模型能够学习并选择性地提取与群体行为识别相关的有效信息，对群体活动中的个体行为和群体行为进行识别。该模型架构如图13 所示，从图中可以看出，该模型采用了与基于卷积神经网络的I3D 相结合的方法进行群体行为识别，没有发挥Transformer 模型不必借助卷积即可进行分类识别的特性，Transformer 在群体行为识别中的应用有待进一步发展。该算法在The Volleyball Dataset 和The Collective Activity Dataset 上分别获得了94.4%和92.8%的平均识别率，实验证明Actor Transformer 相比其他方法获得了比较好的识别效果。

图13 群体行为识别中的Actor Transformers网络架构Fig.13 Actor Transformers architecture in group activity recognition

3.5 算法对比分析

通过前面对深度学习架构在群体行为识别中的应用模型的介绍发现，群体行为识别算法大多融合了多个网络架构，去解决涉及到的活动个体检测、个体行为识别、群体行为识别等多项任务的群体行为识别。所列举算法都适用于现实中非密集的群体行为识别场景。通过对上述四类神经网络架构模型涉及到的群体行为识别算法的分析，总结了各网络架构的优缺点，如表1 所示。

如表1 所示，CNN/3DCNN 和Two-Stream Network网络架构擅长对低级底层特征进行表征。相对而言，CNN/3DCNN 网络架构更为通用、紧凑、易于实现，而双流网络从时间域与空间域对信息进行全面表征，其特征的识别效果更好一些。3DCNN 和双流网络都能够对数据进行时空特征的表征，相比于CNN，3DCNN 用于视频数据的处理，其计算开销比较大，而双流网络要分别对RGB 视频序列和光流数据分别进行处理，并分别训练两个网络，计算开销则更大。

如表1 所示，RNN/LSTM 和Transformer 网络架构擅长对时序数据的识别处理。RNN/LSTM 对时序数据采用串行的处理方式，网络架构训练较为困难，对训练数据的需求量比较大，对硬件要求也比较高。Transformer 采用并行计算的方式，能有效降低计算时间，然而该架构不能利用序列数据中的顺序信息，需要引入位置编码信息。目前，Transformer 在群体行为识别领域的应用较少，技术尚不成熟，有较大的发展空间。

表1 深度学习架构比较Table 1 Comparison of deep learning architectures

卷积网络和双流网络的特征表征能力比较强大，然而其计算复杂度限制了其在视频处理领域的发展，而Transformer 可以在不进行卷积处理的情况下，直接对时序数据进行分析识别，该特性将促进Transformer在群体行为识别领域的发展。

为了对深度网络架构下典型的群体行为识别算法进行比较，将各算法所依赖的神经网络架构及其在两公共数据集上的平均识别率展示于表2 中。从表中可以发现，几乎现有的算法都依赖于卷积神经网络类的网络架构对群体行为进行特征表征，大部分算法都采用了时序处理网络RNN、LSTM 等架构进行后续处理。虽然这些算法都采用卷积网络进行特征表征，但卷积网络架构的差异以及对特征进行处理分类的网络模型的不同，造成了这些算法在识别效果上具有很大的差异。

大部分经典的群体行为识别算法都在公共数据集The Volleyball Dataset 和The Collective Activity Dataset 上进行了实验验证。为了客观地对各算法的识别效果进行对比，在表2 中展示了各算法在两个公共数据库The Volleyball Dataset 和The Collective Activity Dataset 上的平均识别率。通过对比可以发现，识别率比较高的算法都采用了卷积的方式进行特征表征，LSTM 也展现了其对时序数据进行处理的优越性。识别效果比较突出的是Gavrilyuk 等人提出的Actor Transformers网络模型。目前，采用Transformer 进行群体行为识别的算法比较少，作为一个擅长对时序数据进行处理的网络架构，Transformer 模型在群体行为识别中具有较大的潜力。

表2 各算法平均识别率的比较Table 2 Average recognition accuracy comparison of algorithms

4 常用公共数据集

对群体行为的深度分析识别涉及到了多级标签，群体行为数据库的建立需要消耗大量的人力、物力。目前最常用的群体行为数据库为The Volleyball Dataset和The Collective Activity Dataset。下面对这两个最常用的数据库和The Collective Activity Extended Dataset、The Choi's New Dataset、The Nursing Home Dataset、UCLA Courtyard Dataset及Broadcast Field Hockey Dataset进行了介绍，并简要地进行了对比说明。

The Volleyball Dataset是一个大规模的群体行为识别数据集，该数据集包含了多层次的样本标签。该数据库包含了55 个排球视频，其中有4 830 个标注好的视频帧。标注信息包含3 种类型的标签。对每一个足球运动员，该数据库通过一个矩形框标注了其位置标签信息，并给其分配了一个个体行为类别标签，该数据库共涉及到9 种个体行为类别，分别为spiking、blocking、setting、jumping、digging、standing、falling、waiting 和moving。对每个视频中的整个排球活动场景，亦给其分配了群体活动类别标签，共涉及到8 种群体活动类别，分别为left pass、right pass、left set、right set、left spike、right spike、left winpoint、right winpoint。

The Collective Activity Dataset是一个被广泛应用的群体行为识别数据库。该数据库共包含44 个视频序列，其中有些视频是通过手持数字信息采集设备在动态视角下拍摄的。该数据库共包含5 种集体行为类别，并标定了8 种个体级别的人体姿态标签。5 种集体行为是crossing、waiting、queuing、walking 和talking。8种姿态标签为Right、Front-right、Front、Frontleft、Left、Back-left、Back 和Back-right。每个视频每隔10 帧标注了集体行为类别、人体姿态类别和人体边界框信息。

The Collective Activity Extended Dataset包含了75 个行为视频，它扩展了The Collective Activity Dataset，在原数据库的基础上增加了dancing 和jogging 两个群体行为类别，并将原来的群体行为类别walking改为了个体行为。该数据库共包含6 类群体行为和8类个体行为。

The Choi's New Dataset由32 个视频序列组成，共包含6 种集体行为、9 种交互行为、3 种基本动作和8 种人体姿态。6 种集体行为类别分别为gathering、talking、dismissal、walking together、chasing 和queueing。3 种基本动作类别为walking、standing still 和running。

The Nursing Home Dataset拍摄于养老院，由80个视频序列组成，包含了两大类具有极大类内差异的群体行为fall与non-fall和6 种基本行为。6 种基本行为是walking、standing、sitting、bending、squatting 和falling。

UCLA Courtyard Dataset以鸟瞰的角度拍摄于加州大学洛杉矶分校的校园里，包含了106 min 的高分辨率的视频，共涉及到6 种群体行为和10 类个体行为。群体行为分别为Walking-together、Standingin-line、Discussing-in-group、Sitting-together、Waitingin-group、Guided-tour。

Broadcast Field Hockey Dataset包含了58个视频序列，涉及到了3 类场景级别的行为attack play、free hit 和penalty corner和11种个体行为类别，即pass、dribble、shot、receive、tackle、prepare、stand、jog、run、walk 和save。为了探索社会角色对群体行为的影响，该数据还定义了5 种社会角色。

通过对各数据库的介绍可以发现，这些公用数据库都包含了多层级的样本标签，除了群体行为的类别标签以外，还标注了个体行为的类别，甚至于人体所在的位置信息，各数据库的视频数目、各级行为类别的数目如表3 所示。The Volleyball Dataset 创建的时间比较晚，标注信息比较全面，涉及了排球运动的8 种群体行为，识别难度较大，目前应用最为广泛。该数据库和The Collective Activity Dataset 不仅包含了群体、个体行为类别的标注，还标注了人体的边界框信息，大量算法在该群体运动行为库和日常行为库上进行了测试。

表3 公共数据集描述Table 3 Public dataset description

The Collective Activity Extended Dataset 对The Collective Activity Dataset 进行了扩展，The Choi's New Dataset 为Choi所在团队继上述两个数据库之后提出的新的日常行为数据库。这些数据库拍摄于真实场景，存在各种干扰，在行为识别处理具有一定的难度，应用的广泛程度略逊于The Volleyball Dataset 和The Collective Activity Dataset。The Nursing Home Dataset 只涉及了两类群体行为的鉴别，它与UCLA Courtyard、Broadcast Field Hockey 数据库标注信息相对较少，分别是养老院、校园和运动场景，其应用比较少。

表4 展示了各数据库的发布时间及其获得的最好的识别效果。由于The Volleyball Dataset 标注的信息较为详细，The Collective Activity Dataset 发布的时间比较早，标注信息也较为详备，且二者在数据量方面都具有一定的规模，目前这两个数据库得到了广泛的应用，以验证群体行为识别算法的效果。

表4 群体行为分析识别数据集Table 4 Datasets of collective activity analysis and recognition

5 总结与展望

本文对目前主流的基于深度学习的群体行为分析识别算法进行了归类与梳理，将其分为了四种类型，通过对各类的对比分析，得出了如下结论。目前，大部分算法都基于卷积神经网络对群体行为或活动场景进行描述；部分算法在卷积神经网络的基础上，引入了光流神经网络对群体行为中的运动信息进行学习。这些方法在特征刻画方面都取得了非常好的效果。群体行为识别是一个可变长度的时序数据分析问题，大部分算法都采用循环神经网络RNN 和长短时记忆神经网络LSTM 群体行为进行分析识别。

近来，科研人员对群体行为多层级的分析识别问题的研究取得了一定的进展。结合现存问题及新技术的不断涌现，未来群体行为分析识别问题可能会在以下几方面获得进一步的发展：

（1）大规模通用数据库

目前，存在大量的群体行为识别数据库，但这些数据库大都属于某一类特定场景，群体行为的组成比较简单，仅限于几类相关的行为。行为识别领域缺乏大规模的、具有统一规范标准的、多实际应用场景的、行为类别及组成标注更为详细丰富的通用数据库。鉴于群体行为视频数据量比较大，信息比较丰富，群体行为本身亦涉及到目标检测、目标跟踪、场景识别、个体行为识别等多个计算机视觉问题，信息标注涉及大量的人力、物力资源，大规模通用数据库的创建将需要众多科研团队的协作。

（2）多模态特征的提取问题

大部分群体行为识别算法仅通过RGB 或光流序列数据对行为进行识别，这限制了行为识别精度的提升。伴随着深度学习网络架构的大力发展，语音识别得到了长足发展。由于人工智能物联网硬件的快速发展，深度视觉信息及其他传感信息的采集变得更为低廉。此外，深度神经网络的发展，给多模态多特征信息的融合提供了有利的支撑。未来视频、音频及其他传感信息等多模态特征的提取和融合将获得一定的发展。

（3）Transformer模型的应用

Transformer 模型是继LSTM 以后出现的解决时序问题的网络模型，该模型引入了Attention 和Positional Encoding 机制，在翻译任务、语音识别等方面取得了比较好的效果。此外，该模型并行能力强，相比于RNN、LSTM 等模型，计算速度快。行为识别作为时序问题，可以使用Transformer 模型来解决，目前已存在少量利用该模型识别行为的算法，但Transformer 在行为识别问题中的应用，应该得到进一步的发展。