基于合作与竞争交互关系的组群行为识别算法
2022-10-21王传旭林晓萌林国丞
王传旭,林晓萌,林国丞
(青岛科技大学 信息科学技术学院,山东 青岛 266061)
群组行为识别则是对给定的视频进行分析,从而理解视频中群组正在进行的活动。群组行为识别技术的不断发展,其应用领域越来越广泛,例如在异常行为的检测和预警、为图像和视频检索提供标签、团体赛事的辅助分析等领域,随着深度学习网络在其他领域的广泛应用,亦启发了对群组行为识别研究的学者们。
针对组群行为识别,许多学者发现人与人之间的交互关系建模具有重要的研究价值,早期主要是通过手工设计的特征描述子构建群组中的交互关系[1-3]。CHENG[4]采用高斯过程来描述个体运动轨迹,以及个人和群体的活动模式三个描述符来捕捉群体活动中人与人潜在的关系。ZHANG等[5]借助对组结构的分析,构造出了加权关系图,并通过加权图捕捉每个人的运动和上下文信息。LAN等[6]提出一种基于上下文的判别模型,在结构、功能和混合模型三种不同的方法来模拟整个群组中人与人之间的交互关系。QI等[7]通过节点和边RNN构建个体间交互的语义关系图,进而推理得到每个子组行为和整个群组行为的标签。上述方法只能提取浅层的交互关系,IBRAHIM和MORI[8]通过关系层来进一步细化关系图,利用去噪自动编码器变体,以推断失踪的人在现场从他们的上下文交互信息。由于个体之间存在着大量的语义和几何关系,因此,LIU等[9]通过基于全连接的条件随机场模型捕捉并推理群组成员间的交互关系。为了能够丰富关系特征,XU等[10]提出了一种时空注意的多模态关系表示模型,通过关系GRU和Opt-GRU分别对个体间的关系和运动进行编码。SHU等[11]提出了一种宿-寄结构的基于图LSTM-in-LSTM网络(GLIL),首先通过Person-LSTM提取其人与人之间的交互关系,然后使用组级记忆单元提取交互关系,最后实现群组行为识别。丰艳等[12]提出基于伪3D残差网络(Psudo 3D_CNN Network,P3D)模型实现对交互关系和时空特征的提取,通过推理模型对群组行为的识别。将弱监督算法与深度学习网络相结合从而减轻了数据标注的工作量。ZHANG等[13]提出一种基于快速弱监督深度学习的群组行为识别模型,在弱监督学习中引入了一种潜在的嵌入策略,能推理人与人之间的交互关系,摆脱了每个人与其动作标签的成对的关系。
上述方法主要是通过构建整体成员整体交互关系进而识别群组行为,具有一定的效果。但在群体行为中,整体成员之间的交互关系是复杂的,为了简化,因此需要对整体成员进行分组[14-17]。
本工作主要内容是对视频中的群组行为识别的方法进行研究,提出了基于IAP(improved affinity propagation)[18]算法实现群组成员自动分组的思想,提出了合作与竞争的交互关系基于半监督与弱监督结合的思想,通过利用半监督模型实现对标注较少的数据集中的个人成员动作的识别,并为弱监督模块提供高层的语义信息。
1 基于合作与竞争关系的群组行为识别算法
1.1 整体算法原理
在群组行为视频中,构建成员之间的交互关系成为识别群组行为的手段。在前期的成果中,大多忽略了成员之间存在的合作与竞争关系,使得这些算法的交互信息模型比较笼统,没有进行更细化地描述。本工作提出了一种基于合作竞争关系的群组行为识别,算法模型如图1所示,概述如下。
图1为模型的整体框架图。主要是借鉴了以往工作中分组建模和社会关系中的合作/竞争思想。将群组行为识别分为4部分:基于弱监督模块的分组建模、半监督模块个体动作特征语义化、合作与竞争关系特征的判别、特征融合和群组行为识别。
图1 本工作整体算法架构Fig.1 Overall algorithm architecture
首先,基于弱监督的方式对成员分组建模。在弱监督模型中,利用目标检测算法Faster RCNN获取提取每个成员的视觉特征和位置信息。通过IAP算法将整体成员分为若干个较为准确的“簇”。在得到不同的簇后,利用MobileNet网络提取每个簇中成员的交互关系,通过全连接的方式构建成员初始的交互关系图。
其次,利用半监督模型提取姿态特征并对个人行为进行识别,对个体的行为识别用于对弱监督模型的补充。通过Openpose提取每个人的姿态,将人分为5个部分,将每一部分视作一个节点,并构建节点间的关系图,利用图卷积网络进一步提取的姿态特征,从而实现对个人动作的识别,并将个人动作标签应用于弱监督模块,为同一簇内和不同簇间成员的关系特征补充动作语义特征。
再次,基于弱监督的合作和竞争关系的判定。在每个簇中的成员之间可能是合作关系,对抗关系,为了清楚地判断出“敌我双方”,利用Bert网络在情感识别中能够识别信息是“positive”或“negative”,并提取其相关特征,完成簇的更新。其次,对不同的簇进行成对全连接,从而构建新的簇间的关系图,利用完成对不同簇间成员合作与竞争关系的提取和判断,不断地对每个簇间成员的关系进行判断和拓展,直到每个组内成员完全合作。
最后,特征的融合和群组行为的识别。特征融合模型DLA通过归一化策略实现对弱监督模型中的合作、竞争关系特征和半监督模型中姿态特征的融合,最后利用softmax分类器实现对群组行为的分类。下面将从基于弱监督的分组建模、基于半监督模型对姿态特征的语义化、合作和竞争关系的判断、特征融合模型和群组行为识别等方面进行详述。
1.2 基于弱监督的分组建模
在群体活动中,对整体成员构建和推理交互关系时其参数量是巨大的。因此,为了减少对构建交互关系图时的复杂性和参数量,本工作提出了分组建模的思想,而通过聚类算法自动对成员进行分组减少人为因素的影响。
整体成员进行分组建模前,需要对目标成员进行检测和跟踪,得到N×d的外观特征,如图2。而对主要人物定位与跟踪的过程实际上剔除了与数据集中无关的角色和背景。
图2 目标成员的检测和定位Fig.2 Detection and location of target members
近邻传播算法AP:首先通过计算样本间的相似度sim ij,并构建样本集合的相似度矩阵Sim,其次对样本的吸引度α和归属度β进行迭代计算,并通过α与β的和是否满足一定条件来判断样本点是否属于该类,直到算法收敛。而这样的分组往往出现聚类的个数大于实际的个数,因此进一步进行了对簇的合并。因此,采用IAP算法对群组成员进行自动分组,其过程如下:
步骤1:将检测到每个成员的特征视作一个节点,所有成员特征可以表示为V={v i|i=1,2,…,n},其中,v i表示第i个成员的特征,共有n名成员,并将其作为弱监督模型的输入。
步骤2:计算成员i和j间的相似度sim ij,而所有成员间相似度构成的相似度矩阵为Sim:
其中,t(j)表示簇中心的选择倾向,其值越大,则说明v j越有可能成为该类的聚类中心。
步骤3:成员之间的信息传递,并更新吸引度α和归属度β。通过迭代实现对成员特征的更新,从而产生高质量聚类类别。α(i,j)表示成员v i对v j的吸引度,即v j适合作为v i类的程度,该值越大则越能说明v j越适合作为v i类代表点的聚类或簇中心点;β(i,j)表示v i对v j的归属度,值越大越能说明v i将v j视作聚类中心;吸引度α(i,j)和归属度β(i,j)的更新方式:
上述过程存在着一定的振荡,因此,为了减少该影响,引入了衰减因子λ,且λ∈[0,1):
其中,α(i,j)t和α(i,j)t+1分别表示成员i和j在第t次和第t+1次的吸引度,同理,β(i,j)t和β(i,j)t+1为成员i和j在第t次和第t+1次的归属度。
步骤4:确定每类的代表点。通过判断m值是否满足吸引度α(i,m)和归属度β(i,m)之和的最大值:
步骤5:通过步骤2-步骤4生成初始的簇。为了能够减少聚类存在的误差,通过判断簇间的相似度,对簇进行进一步聚类,生成最终的分组结果:
其中,G i和G j分别表示第i个组和第j个组,χi,j为簇间相似度:
其中,v i和v j表示第i个组的节点特征和第j个组的节点特征,A2N则为排列组合数。表示两组节点相似度最大的信息,而示两组所有节点的和。
因此,最终获得的簇的集合为G={G i|i=1,2,…},每个簇为G i={v i|i=1,2,…}。
利用IAP算法实现自动对群组成员分组,减少了人为因素的影响,并且使得分组更加准确。
1.3 基于半监督模型特征语义化
对于半监督模型而言,部分标注提高算法的识别精度。对于弱监督模型而言,则噪声往往识别精度不高,因此,需要半监督模型对群组成员特征进行补充和指导。利用半监督模型,为个人数据集中部分帧增添个人动作标签,并进一步提供个体身体部位的标注。本节主要利用Openpose网络对每个群组成员姿态特征的提取,并进行个人行为识别,得到个人动作的标签,其过程如图3。
图3 半监督模块实现个体动作识别Fig.3 Semi-supervised model realizes individual action recognition
首先,通过Openpose实现对视频序列中多人的姿态检测,从而提取鲁棒性较强的姿态特征。
其次,将每个人分割为5部分,即“头”“左臂”“右臂”“左腿”“右腿”,将每个部分的语义标签通过one-hot编码转化为词向量,可用矩阵表示:
其中,式8所表示的矩阵中,每一行表示一个部位,而标有“1”的位置则表示身体所在部位的编码。
再次,将5部分利用全连接的方式进行重新连接,得到更新后的姿态,并利用图卷积网络对其进行关系推理,最后,通过softmax实现对视频中每个人的行为识别。同样将个人行为的标签通过独热编码(One-hot coding)的方式得到每个成员的动作编码,并将其作为对后文中同一簇内和不同簇间合作竞争关系判断的补充。
1.4 合作/竞争关系特征的判别
1.2节实现了将整体成员分成若干小组,而每个小组中的成员之间既存在着合作的关系又存在竞争关系。因此,本节对主要对同一簇内成员和不同簇间成员交互关系进行判断和推理。通过情感识别网络Bert对簇内合作竞争关系特征判断和识别,并利用图卷积网络实现对不同簇间的合作和竞争关系的推理,使得原有小组获得拓展或保持原有状态,最终得到组内成员合作、组间为竞争关系的两组或整体完全为合作关系的一组,并得到整体的交互特征。
1.4.1 基于簇内合作竞争关系的判断
在进行簇内合作或竞争关系推理和判断前,需要先构建同簇内成员的交互关系图,如图4。
图4 簇内交互关系图Fig.4 Interaction diagram within the cluster
图4中表示的是两簇内成员的交互关系图,其中,每个节点表示的是每个成员经过分组建模后的特征,而边则表示成员之间的交互关系。由图4可知,在每个簇中,其成员间的交互关系不一定全是合作关系,也有可能存在竞争关系。因此,为了区分同一簇内成员之间的合作和竞争关系,本节引入了Bert网络,如图5所示,实现对同一簇内节点间合作竞争关系的识别。
图5 Bert网络模型识别簇内成员的关系是合作或竞争Fig.5 Bert network identifies whether the relationship between members of the cluster is cooperation or competition
首先,将每帧中第i簇中成员信息 作为Bert网络的输入,并将其映射到高维空间中,并对同一簇中每个节点位置编码,主要通过节点特征的内积实现:
其中,表示节点i的位置编码,表示每个节点的映射,则表示第i个节点的自相关。
其次,将半监督模块语义与位置编码、外观信息进行连接,从而完善每帧节点的特征,因为Bert网络由多个Transformer网络构成,每个节点在其编码器和解码器的过程如下。
1)在编码过程中,需要计算每个节点特征中的查询向量Q、关键词K和关键词的值V,并通过注意力机制计算查询向量 计算语料库中与之最相关的键值 及对应的值:
其中,A表示通过注意力机制提取的重要特征,d k表示同一簇内节点间的距离。
2)对注意力提取到的特征进行正则化,得到编码器的输出:
其中,O(v′i)表示节点i的编码,max(0,v i W1+b i)则表示在0和节点i的线性变换v i W1+b i之间选择最大值,W k和W k+1分别表示第k层网络和第k+1层网络的权重。
3)解码结构与编码结构相似,但编解码attention层,其输出为每个节点对应的语义信息、位置特征及与编码器提取出的节点特征向量之间的关系。
由图5可知,Bert网络能捕获同一簇内节点间的交互关系,同时半监督网络所提供的语义特征标签对节点语义特征和节点间的关系特征的提取,最后通过softmax对交互关系进行分类并对其判断是合作关系还是竞争关系:
其中,R(v1,i,v1,j)表示同一簇内成员的交互关系,O(v1,i),O(v1,j)分别表示同一组的节点i和j的视觉、位置及语义等特征,通过softmax分类器识别两节点间是合作还是竞争的关系,每个输出都对应与其他节点的交互关系属性,即合作/竞争。
通过对同一簇内成员的合作和竞争关系的分类,得到彼此是合作关系的仍为一组,分为两组。
1.4.2 基于簇间合作竞争关系的判断
通过同一簇内成员的合作与竞争关系的判断,从而使得同一簇内成员间的关系为合作关系。然而在进行群组行为识别的过程,不同的簇间也有交互关系,如图6。因此为了进一步判断簇间的交互关系,本节通过图卷积网络实现对不同簇间合作或竞争关系的判断。
图6 组间交互关系图Fig.6 Interaction diagram between groups
构建建组间的交互关系图后,便将其送入残差图卷积网络中实现对组间交互关系的推理和判断,如图7。
图7 残差图卷积网络Fig.7 Residual graph convolutional network
首先,将半监督网络获得的个人运动标签作为语义特征补充更新后簇节点特征:
其中,v′i为更新后的节点特征,vsem为节点的语义特征。
其次,对新的节点特征进行线性变换得到两个簇间成员的特征:
对两节点进行变换,并通过矩阵乘法得到两节点之间的交互关系:
其中,R(v1,i,v2,j)表示以第一组的节点i和第二组的节点j为例进行相关性计算,由公式14可知,ζ(v′1,i)和φ(v′2,j)则表示第一组节点i和第二组的节点j经过线性变换得到的特征。
再次,将得到关系特征和节点原有特征作为残差图卷积网络的输入进行节点信息的更新:
其中,A′ij为归一化邻接矩阵,V为节点信息,V′经过迭代后的输出的节点信息,Y′表示两个不同簇间成员信息经过线性变换后的信息。
由公式(15)可以提取不同簇间的交互关系,设置阈值实现对簇间成员的合作和竞争关系的判断:
其中,公式(17)表示为不同簇间节点的交互关系。如果大于阈值,判定合作关系,否则为竞争关系。
通过对不同簇间合作竞争关系的判断,实现了簇的更新和规模的扩展,其中,若簇间的交互关系为合作关系的组则进行合并,若为竞争关系则仍然保留,从而实现簇的不断更新:
其中,C1,i表示第一组的第i个节点,C2,j表示第二组的第j个节点。∪表示簇的扩展。
通过对同一簇和不同簇成员间的合作/竞争交互关系的判断能够不断更新簇节点信息,并提取节点间的关系特征。
1.5 特征融合和群组行为识别
弱监督模块中包含簇内成员的合作和竞争交互关系、簇间成员的合作/竞争关系和半监督模块中的语义信息。本研究采用深层特征融合的方法对上述特征进行融合,其结构如图8。
图8 深层特征融合模型Fig.8 Deep feature fusion model
基于半监督模型为Vsem,基于弱监督模型则通过两阶段对合作竞争关系进行了判断和提取,第一阶段提取的同一簇内的合作竞争关系特征为{R(v k,i,v k,j)coo,R(v k,i,v k,j)com},其中,R(v k,i,v k,j)coo表示第k组成员之间的合作关系特征,R(v k,i,v k,j)com表示第k组成员之间的竞争关系;第二阶段提取的不同簇间成员的交互关系可以表示为{R(v k,i,vm,j)coo,R(v k,i,vm,j)com},其 中,R(v k,i,vm,j)coo表示第k组和第m组成员之间的合作关系特征,R(v k,i,vm,j)com则表示第k组和第m组成员之间的竞争关系特征。将上述特征作为该融合模型的输入,可表示为:F=[[R(v k,i,v k,j)coo,R(v k,i,v k,j)com],[R(v k,i,v m,j)coo,R(v k,i,v m,j)com],Vsem]。而该模块主要包含迭代深层聚合IDA(iterative deep aggregation)和层次深层聚合HDA(hierarchical deep aggregation)。
在IDA模块中,通过不断地迭代,得到小尺度、大频率的信息:
其中,IDA(f1,f2,…,f n)表示各个节点的迭代,N为聚合节点:
其中,f i表示第i个节点的特征,同v i;Batch Norm( )表示归一化表示。
将迭代深层模块的聚合信息作为分层聚合模块的输入,从而得到尺度更大、频率更小的聚合特征。H(f)=
通过该模型,实现了对半监督模型的语义特征和弱监督模型提取的两阶段的合作竞争交互关系特征进行融合,最后通过softmax分类器实现对群组整体行为的识别。
2 实验结果与分析
本工作采用CAD数据集和NBA数据集进行算法的验证。
2.1 数据集介绍
1)CAD(collective activity dataset)数据集包含44个视频剪辑,共有2 500个片段。其中,包含6类个人动作标签:NA、Crossing、Queqing、Walking、Talking、Waiting 5类 群 组 行 为 标 签:Crossing、Queqing、Walking、Talking、Waiting,如图9所示。
图9 CAD数据集中的两种群组行为Fig.9 Two group activities in the CAD dataset
2)NBA数据集[19]包含了181段视频,每个视频分成6 s的剪辑,其帧采样为频率为12 fps,剔除了一些异常的视频剪辑(主要是对某位成员中的特写),共包含了9 172个视频剪辑。在收集该数据集时,参与者的运动速度较快,并且摄像机也是运动的,与此同时,在制作该数据集时放弃了dunk和turnover两种行为。该数据集仅包含9种群组行为,而不包含对个体信息,因此适用于弱监督模块中聚类算法中,其标注为2p-succ,2p-fail-off,2p-faildef,2p-layup-succ,2p-layup-fail-off,2p-layup-faildef,3p-succ,3p-fail-off,3p-fail-def,见图10。
图10 NBA数据集中3种群组行为Fig.10 3 kinds of group activity in NBA dataset
为了与现有文献的实验对比,使用了和文献[9]相同的训练方式,其中2/3用于训练,1/3用于测试与验证。并且使用多类分类准确度(MCA)和平均分类准确度(MPCA)作为性能指标。
2.2 聚类簇数分析
由于引入了合作、竞争两种定性的交互关系,因此,本研究利用IAP聚类算法将每帧中的成员分为若干个小组。将该部分利用IAP聚类算法对群组成员聚类的簇数在两个数据集上的群组行为识别的精度影响进行对比。
由表1和表2两个数据集中最佳的簇数不同,对于CAD数据集的最佳簇数为3,NBA数据集的最佳簇数为4。由两表格可知,与仅一个簇相比,其他簇数皆具有一定的增益,但分成不同簇数的增益有所不同,对于CAD数据集来说,其精确度能够从90.50%提升到92.35%,是由于数据集本身即具有个体动作标签和群组行为动作标签;对于NBA数据集,其识别精度则从48.90%提升到51.86%,是因为该数据集仅只有较少的视频级的标签,适用于弱监督模型,具有较大的提升空间。整个群体成员构建交互关系时,参数量是较大的,随着不断分组,构建交互关系也不断细化,但只有到簇数为4时,能够达到最佳的识别效果。同时,从表中可知,并不是簇的数量越多精确度越高,而是能够找到簇的数目使得模型能够更好的收敛,才能使得群组行为的识别得到提高。
表1 不同簇数在CAD数据集上的准确度(accuracy)Table 1 Accuracy of different numbers of clusters on the CAD data set(accuracy) %
表2 不同簇数在NBA数据集上的准确度(accuracy)Table 2 Accuracy of different cluster numbers on NBA dataset(accuracy) %
2.3 两种合作/竞争交互关系判断
本研究对于两种交互关系,使用了两种网络对其进行判断。为了验证Bert网络提取同一簇内成员的合作/竞争关系网络对GCN网络不同簇间成员的合作/竞争关系的判断是否有促进作用,因此,共有4种方式,即Bert—Bert、Bert—GCN、GCN—Bert、GCN—GCN,其实验结果如表3所示。
表3 两种不同网络对交互关系判断的先后顺序在NBA数据集上的识别效果(accuracy)Table 3 Recognition effect(accuracy)of two different networks on the NBA data set of the order in which the interaction relationship is judged %
由表3可知,在进行同一簇内和不同簇间合作/竞争交互关系判断的过程中,其顺序也是由一定影响的。表3中,Model1和Model2分别代表同一簇内成员的合作/竞争关系的识别和判断。当利用GCN对同一簇内成员交互关系进行判断时,只能为其提供关系特征,而GCN网络对组内合作/竞争交互关系的判断促进作用较小,Bert网络能够实现对合作/竞争交互关系进行识别,从语义上进行提取,对簇间成员的交互关系的判断具有更好的促进作用,因此,利用Bert网络识别同一簇内成员是合作/竞争关系的精度比GCN网络判断的方法至少提高0.7%。由于GCN能够捕获非欧数据的关系特征,簇内成员间合作/竞争交互关系的识别和半监督模块语义信息的补充为GCN提取并判断提供了重要的信息,因此,不难发现利用GCN网络判断簇间成员的合作/竞争关系效果好。
2.4 基线(Baseline)实验设计
采用由于本实验主要通过半监督模型对弱监督模型进行指导,因此,需要先将两种数据集放入半监督模型中进行训练,并将提取到的特征送入到弱监督模型中与弱监督模型IAP所提取的特征进一步训练,从而实现对群组行为的识别,因此,本研究为了验证在半监督模型对弱监督网络的影响以及合作和竞争关系在群组行为识别中起到的作用,本研究设置4种基线模型与本研究模型进行对比,其结果如表4所得。
表4 本研究方法与基线方法在NBA数据集和CAD数据集上的识别率对比(MCA/MPCA)Table 4 Comparison of the recognition rate between the method in this paper and the baseline method on NBA dataset and CAD dataset(MCA/MPCA) %
由表4可以看出,本研究模型与各个基线相比,在多类分类精度和平均识别精度都有一定程度的提高,其主要原因有3个:
首先,输入信息不同且算法本身的情况不同。基线B1为基于弱监督的网络对群组行为进行识别,而B2、B3和B4则通过半监督网络实现的,因为半监督的方法能够提供更全面的信息,而基于弱监督的方法则无法提供较为全面的标注。对于基线B3和B4,主要是通过输入每个角色交互关系信息来识别群组行为,基线B3不仅考虑了群组成员之间的交互关系,同时也考虑了整体群组的合作和竞争的关系,但并未将半监督模块和弱监督模块联合。而对于基线B5来说,不仅定义和量化了合作、竞争交互关系,同时也通过弱监督模型和半监督模块联合对群体聚类分组更加精确,且能提取每个簇的特征。
其次,不同的基线对不同结构的信息处理的速度不同。图卷积神经网络GCN在提取非欧式数据的特征时效果显著;但LSTM在处理时列信息时更加高效。基线B1、B3和B4是对提取群组行为交互关系实现群组行为的识别,基线B2则忽略了群组成员间的交互关系,主要对视频RGB信息和运动信息进行提取。在提取群组交互关系时,图卷积网络(GCN)能够对图结构的关系特征灵活的处理,因此与B4相比,其性能在两个数据集中均有所提升。对于基线B1和B4,是两种完全不同的网络,B1减少前期数据标注的工作量,提高了群组行为识别的速度,但提取的特征依然为粗放的关系特征,效果并不理想;对于基线B4,能够提取时序信息和节点的双向交互信息,但对于GCN网络,在提取非欧式数据的速度相较慢,因此,其效果也不理想。
最后,是否考虑细化的交互关系。基线B1、B2、B4忽略了人与人之间的存在的合作和竞争的关系,无法定性、定量的描述交互关系;基线B3引入了图卷积网络来提取人与人之间的关系,同时也对人与人之间的交互过程中存在的合作和竞争关系进行了更加详细地描述,因此本工作半监督模型和弱监督模型结合弥补了这一缺陷。
2.5 本研究算法和现有模型的实验结果对比
表5和表6比较了不同的算法和当前已有算法在两个数据集上的实现结果。相比之下,本算法具有较高的优越性。由表中数据可以看出,与当前流行方法相比,已经取得了94.2%和52.6%的效果,并且明显优于目前算法的识别效果。
表5 本研究模型在CAD数据集上的识别准确率以及与其他方法的比较Table 5 Recognition accuracy of the model on the CAD data set and comparison with other methods %
表5将本方法与目前较先进的方法及基本方法进行比较,并在CAD数据集上进行测试。本算法与其他几种算法都是对群组交互关系的群组行为识别,其性能都更加优越。前6种方法没有将视频中的成员进行分组,即不考虑组内成员和组间的合作竞争关系判别。与文献[22]相比,本研究方法的识别精度相对较高的主要原因是将弱监督算法与半监督模块联合,并为其提供了高层的信息;与文献[21]和文献[7]相比,本算法主要通过图卷积神经网络来处理非欧式结构的数据,更加灵活高效;与文献[20]相比,语义信息能提供更高的特征,更能避免因为(例如“crossing”)遮挡问题引起的识别错误;如果不进行分组,在构建交互关系时更加复杂;如果进行分组,即考虑合作与竞争关系,则需要更加细化团队之间的关系及其关系的层次性。对于CAD数据集而言,不存在竞争的关系,因此,分不分组,对其结果影响不大。
表6为本模型与近几年在NBA数据上进行群组行为识别方法的对比。对于TSN、TRN和I3D等方法,通过对NBA比赛视频序列的时空特征进行群组行为识别,具有一定的效果,但忽视了成员间潜在的关系。而时空的SAM模型,不仅能够提取每个成员的时空特征,而且能提取并推理群组中的关系特征,因此相对于上述模型而言,有了一定的提升,但该模型主要是基于弱监督的模型,提供的信息较少,并且没有对关系特征进行定性或定量描述,因此导致识别精度不高。本模型正是考虑了交互关系的复杂性,对交互关系进行了定性的描述和推理,并将弱监督和半监督模型结合,从而使得识别精度有了显著的提升。
表6 本研究模型在NBA数据集上的识别准确率以及与其他方法的比较Table 6 Recognition accuracy of this model on the NBA dataset and comparison with other methods %
图11展示了本算法在CAD数据集上的混淆矩阵。从图11中 可 以 看 出,“crossing”“queuing”“walking”“talking”等群组行为的识别精度达到90%以上,充分体现了本算法的有效性;但也存在一些识别率较低的情况,例如“waiting”的识别率只有86.34%,是因为“waiting”与“queuing”等姿势相似,并将识别为queuing,因此,影响了识别此行为的过程,导致对“waiting”的识别率降低。
图11 本模型在CAD数据集上的混淆矩阵Fig.11 Confusion matrix of the model on the CAD dataset
图12展示了本模型在NBA数据集上的混淆矩阵。由图可知,主要存在两方:“进攻方”与“防守方”,但这两方的动作在识别的过程中往往容易混淆,而区分2p和3p往往较为容易,因为三分球员通常跳到三分线后面,而不封阻挡。相比之下,两分球员经常被其他人阻挡。
图12 本模型在NBA数据集上的混淆矩阵Fig.12 Confusion matrix of the model on the NBA dataset
3 结 语
本研究提出了一种基于合作与竞争关系的群组行为识别模型。利用IAP算法实现对整个群体中不同子群体的聚类,从而简化了群体成员交互关系的构建,减少了交互关系的参数量,实现了基于弱监督的小组聚类,但聚类的过程中与实际分组相比往往会出现误差。为了能够更准确地对群组成员进行分组并对群组成员间的合作与竞争交互关系进一步判断,本研究通过半监督网络对个体动作标签并为群组成员合作与竞争关系的判断提供了语义信息,提高了群组成员分组的准确度。而在分组后不同小组成员之间存在着合作或竞争的关系,因此,通过Bert网络和GCN网络实现对每个簇内的成员和小组成员之间的关系进行识别和判别,并不断对小组进行分合,更进一步细化了关系特征,最后通过DLA特征融合模型实现对分层次融合特征并通过分类器实现对群组行为的识别。虽然该模型在两种数据集上取得了一定的效果,但在进行不同簇间成员合作与竞争交互关系判断的过程中,阈值的设置仍存在一定的人为因素,其合作与竞争关系应当自动进行判别;除此之外利用半监督模块和弱监督网络结合,对设备的要求依然很高,因此,应当采用更轻量级的网络或无监督的方法。