基于OPEC-Net 框架的人群框架姿态估计
2022-07-01林浩翔李万益邬依林黄靖敏黄用有
林浩翔,李万益,邬依林,黄靖敏,黄用有
(广东第二师范学院计算机学院,广州 510303)
0 引言
长期以来,人体姿态估计是计算机视觉中一个热门研究课题。近年来,由于该技术的应用需求不断增加,它受到越来越多的关注。尽管先进的深度学习技术在这一领域已经取得了重大进展,但遮挡问题比较困难,人群场景中的姿态估计仍然极具挑战性。人群姿态估计的趋势模型强烈依赖于热图表示来估计关节: 虽然这些方法对可见关节有效,但在遮挡上的性能却不够完善。迄今为止,许多研究人员在遮挡问题中付出了艰苦的努力,采取了许多对应的措施。然而,遮挡问题受到的关注很少,解决它的方法也比较少。 由于复杂的背景图、复杂的人体姿态和随机的遮挡形状,最先进的SOTA 法仍会产生不准确的姿势。为了揭示隐藏的关节,我们提出了一种方法进行全面推理,例如:人类可以利用来自动作类型和图像上下文的线索推断出不可见关节的位置。因此,我们提出一个新的框架OPEC-Net并深入研究了隐形关节推理所需的线索,并将这些线索纳入多人姿态估计,最后实验得出结果。
图1 两种方法的比较
1 相关工作
基于热图的用于姿态估计的模型。多人姿态估计模型(MPPE)可分为两类,即自下而上两种方法和自上而下两种方法。
自下而上的方法:首先检测关节,然后将它们分配给匹配的人。作为自下而上方法的先锋工作,试图设计不同的联合分组策略。DeepCut提出了一个整数线性规划(ILP)。根据学习的评分功能数将关节分组,提出了一种新的二维向量场部分亲和场(PAFs)来进行关联。然而,之前的工作都存在一个严重的缺陷,隐形关节会大大降低性能。
自上而下的方法:首先检测场景中的所有人,然后对每个人进行姿态估计。现有的大多数自上而下的方法都集中于提出一种更有效的人体探测器,以获得更好的结果。大多数主流的方法都是基于热图的,因此仅限于估计缺乏视觉信息的无形关节。因此,我们提出了一个与这些工作完全不同的OPEC-Net,它能够通过推理而不是本地化来估计不可见的关节。
2 遮挡的姿态估计和修正
图2 管道示意图(描述了一个项目的两个评估阶段单体式)
2.1 来自基于热图的模块的初始姿态估计
在此阶段,使用AlphaPose+作为基础模块来生成可见关节的热图,我们将在下面描述一个实例级的人体姿态估计的过程。
首先,基本模块的三层解码器生成三个不同层次的对应特征图: 粗糙特征图、中间特征图和精细特征图。基本模块输出一个热图,从热图H 中估计的姿态可以表示为P,其中包含了每个关节的估计结果:
其中x和y是第一个关节的位置,c是置信度得分,是骨架中关节的数量。
2.2 基于GCN的接缝校正Jki
我们提出了一种图像引导图来校正网络,采用上述模块生成的初始姿势并调整关节的隐式关系来估计结果。
我们用G∈R 作为训练集中第个姿态的输入特征,其中为特征维数。
2.3 损失函数
3 遮挡的姿态数据集
我们建立了一个新的数据集Occluded Pose(OCPose),它包含了具有挑战性的隐形关节和复杂的相互交织在一起的人体姿势。我们大多考虑双人互动的姿势场景,如舞蹈、滑冰和摔跤, 因为它们有更可靠的注释和实用价值。当遮挡非常严重时,人体姿态的关键点位可能很难识别。我们首先使用拳击、舞蹈和摔跤等关键词从互联网上搜索视频。然后,手动筛选剪辑网上视频,在隐私问题许可下,选择高质量的图像。各数据集的比较见表1。
表1 光遮挡水平的比较
4 实验
4.1 实验设置
(1)实施细节。对于训练,我们设置了参数= 0.3、= 0.5、= 1 和epochs=30。每 批提供10 张图像来训练整个框架。初始学习速率设置为1,并以余弦函数的规律衰减。MSCOCO 的输入图像尺寸大小为384×288,其他数据集的输入图像尺寸大小为320×256。采用自适应优化算法对参数进行反向传播优化。
(2)评价指标。我们遵循MSCOCO 的标准评价度量,报告了平均精度(mAP)值为0.5∶0.95、0.5、0.75、0.80和0.90。建议姿态必须包含超过5 个可见点,OKS 值大于0.3。这是现有工作和广泛使用的指标。
(3)基线。为了进行比较,我们使用三种最先 进 方 法 的MPPE: Mask RCNN, Alpha-Pose+和SimplePose来评估性能。这是现有工作和广泛使用的基线。
4.2 与本文OCPose数据集的性能比较
各数据集的定量结果见表2。
表2 OCPose数据集的比较
与所有基线相比,本文的方法获得了最好的映射。与AlphaPose+ 相比,该方法提高了2.0mAP@0.5:0.95。与定位方法相比,本文的OPEC-Net 推理能力比较准确。总之,这些结果验证了本文的OPEC-Net 模块在MPPE 任务上的显著有效性。双联曲线图的评价结果见表2和图3。与OPEC-Net 相比,双联曲线图基线也显示提升了0.8mAP@0.5∶0.95,这验证了人类的互动线索是相当突出的。如图3 所示,CoupleGraph曲线图在质量上显著优于OPEC-Net。
图3 人体姿态估计CoupleGraph和OPEC-Net的定性评价
图3 人体姿态估计CoupleGraph和OPEC-Net的定性评价(续)
4.3 与其他基准的比较
在大量基准数据集上的广泛评估证明了我们的模型对遮挡问题的有效性。在现有基准测试上的实验结果如表3、表4、图4 所示。我们的模型超过了所有的基线。
表3 关于数据遮挡数据集的定性结果
表4 MSCOCO 2017 测试-开发集
图4 不同数据集的评估结果对比
CrowdPose 如表3 所示,OPEC-Net 在AlphaPose+上的估计结果提高了2.1mAP@0.5∶0.95。
在最大的基准测试MSCOCO 上的结果显示,我们的模型只略微提高了精度的准确性。此外许多不可见的关节在MSCOCO上缺乏注释。
为了分别研究对不可见(Inv)和可见(V)关节的有效性,我们根据类似的OKS 规则报告了每种类型关节的统计数据。从表5 可以看出,本文的OPEC 网络主要改进了看不见的关节,而不是可见的关节。
表5 CrowdPose和OCPose上可见和不可见关节的结果
5 结语
在本文中,我们提出了一个新的OPEC-Net模块和一个具有挑战性的遮挡姿态(OCPose)数据集来解决群体姿态估计中的遮挡问题。两个复杂的组件,图像引导渐进GCN 和级联特征适应,设计利用自然人体约束和图像上下文。我们对四个基准和消融研究进行了彻底的实验,以证明其有效性并提供各种见解。热图和坐标模块可以协同工作,在各个方面都取得了显著的改进。通过提供该数据集,我们希望能引起人们的注意,并增加人们对姿态估计中的遮挡问题的研究兴趣。