APP下载

基于特征关联的视频中群体人物行为语义抽取

2020-04-30岳文静

计算机技术与发展 2020年4期
关键词:语义群体特征

掌 静,陈 志,岳文静

(1.南京邮电大学 计算机学院,江苏 南京 210023;2.南京邮电大学 通信与信息工程学院,江苏 南京 210003)

0 引 言

群体人物行为是指三个或者更多个相互作用、相互影响、有共同目标的人物组成的群体的相对运动现象[1],具体在竞技体育场景中,主要表现为竞技双方的团队成员为取得比赛胜利而产生的相互协同、相互竞争的运动行为,具有广泛的应用。在经典的群体人物行为语义分析算法中,Allett等人基于群体人物行为特点提出一种面向自我视觉的群体人物行为语义分析算法,该算法能够有效利用群体人物社交关系推理行为语义,但是研究基于图像中的群体人物,不能对群体人物行为语义进行持续的跟踪,并且基于视线范围的群体人物模型可适用场景少,一定程度上限制了算法的应用范围[2]。Ibrahim等人提出了一种两阶段的分层深度时间模型,第一阶段描述视频序列中单个人物的动作动态,第二阶段融合第一阶段得到的个人动作信息推理群体人物行为语义。该模型充分利用了时间特征,但在人物遮挡、运动剧烈等情况下效果不佳[3]。

可见,普遍存在时空关系复杂的群体人物语义理解的应用需求使得视频中群体行为人物语义抽取算法设计需要解决以下问题:

(1)人物遮挡问题:群体人物的运动过程中,由于多个人物同时变动位置,并且伴随着人物间相互遮挡或环境中其他静物遮挡等情况的发生[4],易造成获取人物位置的获取不准确,甚至发生人物漏检;

(2)人物追踪问题:群体人物的行为语义表现出人物间强烈的时间相关性和空间相关性[5],需要对群体人物运动轨迹进行追踪。在人物位置相似的情况下,易出现追踪错误,造成语义抽取偏差;

(3)应用局限问题:传统的群体人物行为语义分析模型根据设计者的先验知识使用手工特征定义的结构化模型描述群体人物间关系[6],针对不同的场景需要不断地调整模型设计,应用范围比较局限。

良好的视频群体人物行为语义抽取算法需要具有较强的抗噪性和鲁棒性,能够克服人物遮挡给群体人物检测带来的困难,准确追踪人物的动作变化推理群体行为语义。为此,结合特征掩码和运动轨迹,设计一种视频群体人物行为语义抽取算法,以解决上述问题,提高在多遮挡环境中群体人物检测的有效性和视频序列中群体语义抽取的准确率。

1 基于多尺度融合特征的视频群体人物定位检测

视频群体人物定位检测是指从不同复杂程度的背景中检测出群体人物的位置,并将背景与人物分离开,从而完成后续的跟踪、识别等任务[7]。群体人物定位检测是理解群体人物行为语义的第一步,良好的群体人物定位检测算法可以降低复杂背景、人物遮挡等因素对检测结果的影响。

为准确检测人物、定位坐标,采用特征金字塔网络[8]对视频帧提取多尺度特征图。相较于单一尺度特征图,多尺度特征图中融合了图像的底层特征和高层特征,底层特征对中高级任务的帮助有限,但对人物位置的描述精准,高层特征回归的人物位置模糊但含有丰富的高级语义[9],两者的有效融合有助于提升定位检测算法的性能。使用区域候选网络[10],对视频帧进行人物粗检测,为了避免人物漏检,粗检测会尽量多抓取可能存在的人物对象。人物精检测过程中,采用重复删除网络[11]筛除粗检测中的重复结果,获取检测人物的准确位置。

在实际检测过程中,对视频序列内的T帧视频帧进行相同的人物定位检测操作,第t帧视频帧的人物定位检测具体算法描述如下:

(1)判断视频序列中的视频帧尺寸是否统一,设置标准视频帧尺寸为H×W,如果输入的视频序列内的T帧视频帧尺寸与标准视频帧尺寸不一致,采用双线性内差值算法[8]将输入视频帧缩放到标准视频帧尺寸大小,其中H和W分别是视频帧的高度和宽度;

(2)采用特征金字塔网络对视频帧提取多尺度融合特征图,多尺度融合特征图是视频帧每个像素点特征值的集合,在此后的人物检测和动作分类过程中都被共享;

(3)对多尺度融合特征图采用区域候选网络进行群体人物的粗检测,获取粗检测假设,粗检测假设结果由Boxt和Persont组成,其中Boxt表示第t帧视频帧中抓取的目标候选框的坐标,Persont表示目标候选框是人物的概率,值越大表示该目标候选框是人物的可能性越大;

(4)将Boxt通过重复删除网络去除重复的目标候选框,比较去重后的目标候选框的Persont大小,取值最大的n个目标候选框,认定这n个目标候选框为算法检测到的人物边界框,n是第t帧视频帧检测到的人物数量;

(5)根据人物边界框的坐标,分别获取每个人物边界框区域像素点的特征值组成群体人物边界框特征集合Ft以供后续人物的使用。

2 基于特征掩码的视频群体人物轨迹跟踪

群体人物由多个单个人物组成,单个人物在视频序列中的动作变化最终构成了群体人物行为语义,为了有效识别视频群体人物的行为语义,理解单个人物的运动线索非常重要。下面对每个人物的边界框采用全卷积网络[12]扩展一条特征掩码分支[13],快速分析视频中每个人物的动作形态,并持续追踪每个人物的位置变化。具体算法描述如下:

(1)为了获取人物在视频序列内的动作分类结果,具体如下:

(a)采用全卷积网络对第t帧视频帧群体人物边界框特征集合Ft进行并行特征预测,得到第t帧视频帧群体人物预测特征掩码集合;

(b)结合预测特征掩码集合,使用softmax分类器对第t帧视频帧所有人物进行动作分类,得到第t帧视频帧所有人物的动作集合;

(c)重复上述操作,直到遍历完所有视频帧,完成视频序列内所有人物的动作分类。

(2)设置视频序列中检测到的人物集合为P,所有人物在视频序列内的运动轨迹集合为C,C中包含每个人物在视频序列内的动作集合和预测特征掩码集合;

(3)初始化人物集合P为第1帧视频帧检测到的所有人物,初始化运动轨迹集合C为第1帧视频帧检测到的所有人物的动作和预测特征掩码,从第一个人物开始对每个人物在视频序列上的运动线索进行跟踪;

(4)在视频群体人物行为语义分析过程中,为了获取所有人物在视频序列内的完整运动线索,需要对视频中的每个人物的动作变化进行动态跟踪,单个人物的动态跟踪具体原则如下:

(a)设当前追踪人物为pnow,pt为pnow在第t帧视频帧追踪到的人物,赋值pnow在第t帧视频帧的预测特征掩码e'now=et,et是pt的预测特征掩码,根据式(1)分别计算第t帧视频帧预测特征掩码与第t+1帧视频帧所有可追踪人物预测特征掩码的差异度Diff。

Diff=‖e'now-et+1‖22

(1)

其中,et+1是第t+1帧视频帧可追踪人物pt+1的预测特征掩码,差异度Diff越小,表示pnow和pt+1是同一个人物的可能性越高;

(b)如果第t+1帧视频帧存在可追踪人物pt+1与pnow差异度Diff最小,且Diff

(c)如果第t+1帧视频帧不存在可追踪人物,或第t+1帧视频帧存在的所有可追踪人物Diff≥Diffmax,认定pnow在第t+1帧视频帧追踪中断,更新当前追踪人物pnow在第t+1帧视频帧的预测特征掩码为et,在t+1帧视频帧的动作置空;

(d)重复上述的追踪行为,直到pnow追踪遍历完视频序列。

(5)最后根据单个人物跟踪原则,依次确认每个人物在每个时刻的动作,直到人物集合P中所有人物的视频内运动线索都检索完毕,获取全部更新后动作变化集合C,完成视频群体人物轨迹跟踪。

3 基于运动轨迹的视频群体人物行为关联

人物动作指的是因人物的肢体变化引起的基本运动,人物行为由基本动作组成[14],群体人物行为由多个人物行为关联形成,为使语义抽取算法能够分析出有效的群体行为语义,需要将时间序列内的群体人物动作关联起来,得到时序化的抽取结果。此外,行为通常描述周期性的全身运动,在一个较短的时间序列内,群体行为语义不会发生频繁的变化。具体算法描述如下:

(1)为了获取群体人物在视频序列内的行为语义,需要了解每一帧的群体人物动作,结合更新后的运动线索集合C,提取新的t时刻人物动作集合A't,包含N个人物在t时刻的动作;

(2)采用softmax分类器,根据群体人物表现出的动作,预测群体人物在第t帧视频帧行为语义;

(3)重复以上操作,直到遍历完视频序列,设置视频序列内的群体行为语义集合G,G由每个帧视频帧的群体人物行为语义组成;

(4)统计G中的每种群体行为语义出现的次数gnum,如果gnum>Gmax表示行为关联失败,未能对群体人物行为语义进行正确的抽取,其中Gmax表示视频序列内群体行为变化次数最大阈值;

(5)认定G中gnum最大的群体人物行为语义为视频序列最终的群体人物行为语义,如果出现多个群体人物行为语义的gnum最大,取出现最晚群体人物行为语义的作为最终群体人物行为语义,表示行为关联成功,抽取出了视频群体人物行为语义。

4 实验与结果分析

4.1 实验准备

本章实验的数据集来源Volleyball数据集[3],这个数据集是目前公开可用的群体行为识别数据集,并且详细标注了视频帧中的目标人物位置、动作类别以及群体行为语义类别。

这个数据集由55段收集于YouTube中公开的真实的排球比赛视频组成,包含4 830帧标签视频帧,每帧视频帧的像素都是720×1 080。每个视频帧的标签信息包含当前视频帧的编号、群体人物行为语义类别、所有球员的位置信息和个人动作类别。群体行为类别共有8种,包括Right set、Right spike、Right pass、Right winpoint、Left winpoint、Left pass、Left spike、Left set。个人的位置信息由目标人物的边界框坐标组成,分别为边界框的左上角坐标和边界框的宽高。个人行为类别共有9种,包括Waiting、Setting、Digging、Falling、Spiking、Blocking、Jumping、Moving、Standing。本章所有实验均采用TensorFlow[15]开发,运行于Linux平台。

本节实验过程中采用了Volleyball数据集,使用前39个视频中3 493帧标签视频帧进行训练,后16个视频中1 337帧标签视频帧用于测试。实验过程中,输入长度为T的视频序列,推理N个球员的动作和群体行为语义,实验中定义T=10。分别取包含标注视频帧在内的前4帧和后5帧总共10帧的视频帧作为一个视频序列片段,并且根据数据集中排球比赛的特点定义N=12。

4.2 结果分析

为验证基于特征关联的视频中群体行为人物语义抽取算法(简称MTCA算法)的有效性,实验过程中采用了Volleyball数据集进行测试,将实验结果与Inception[16-17]算法、HDTM[3]算法进行了对比,包括人物动作语义和群体行为语义两方面的比较。在MTCA算法实现过程中,也得到了单帧视频帧的群体行为语义的抽取结果,为了多维对比数据,将其纳入算法对比,简称为MTCA-Single算法。表1给出了Inception算法、HDTM算法、MTCA-Single算法和MTCA算法的准确性比较。

表1 MTCA算法与各算法的准确性比较

根据表1,MTCA-Single算法在人物动作和群体行为语义两方面都优于上述两种算法。个人动作语义准确率提高了,群体动作语义准确率提高了。融入了关联的群体人物运动轨迹后,依靠精准的群体人物追踪,掌握了人物在视频序列内完整的运动线索,MTCA算法的语义抽取能力得到了进一步增强,相较于MTCA-Single算法,能够更加准确地描述视频中的群体行为语义。

图1为数据集部分视频中人物动作和群体行为语义抽取成功的示例。图中绘制了该视频帧中每个球员的动作,并标注了当前的群体行为语义。

图1 部分语义抽取成功示例

5 结束语

为解决存在人物遮挡、追踪困难的视频群体人物行为语义抽取问题,提出了基于特征关联的视频中群体行为人物语义抽取算法。该算法提取多尺度融合特征图,通过两阶段定位检测确定群体人物的分布,然后结合特征掩码匹配的结果对人物轨迹进行跟踪,最后根据群体人物行为特点,抽取出视频群体人物的行为。实验结果表明,该算法在存在复杂群体人物时空关系的场景下可以准确地定位检测视频中的群体人物,跟踪群体人物的运动轨迹,提高了群体行为语义抽取的准确率和抗噪性。

在后续的研究中,可以考虑对视频中的多个群体进行分群检测和多群体的行为语义分析,此外该算法的研究针对人物重叠程度不高、有较大部分躯体未被遮挡的情况,对于人物高度重叠的密集群体行为语义分析仍有较大研究发展的空间。

猜你喜欢

语义群体特征
真实场景水下语义分割方法及数据集
离散型随机变量的分布列与数字特征
哪些群体容易“返贫”——受灾户、遇困户、边缘户
关爱地球,学生成主流群体
认清亏欠问题——对参与近期香港暴乱的青年群体之我见
抓特征解方程组
不忠诚的四个特征
“群体失语”需要警惕——“为官不言”也是腐败
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴