APP下载

基于卷积神经网络的RGB图像人体姿态估计

2019-05-23侯珊珊尹扬帆梁聪

电脑知识与技术 2019年8期
关键词:卷积神经网络

侯珊珊 尹扬帆 梁聪

摘要:人体姿态估计是计算机中的一个重要而热门的研究课题,该文使用卷积神经网络算法对RGB图像进行人体姿态估计的研究。基于改进的残差结构,应用层叠沙漏网络对RGB图像进行精确的关节位置预测,通过二维的关节点信息估计人体姿态状况。本文重点研究了利用RGB图像恢复二维人体姿态的挑战性设置,提出了一种在多个公共数据集上从RGB图像中进行二维人体姿态估计的有效方法。

关键词:卷积神经网络;人体姿态估计;RGB图像

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2019)08-0135-02

从图像测量推断人体姿态恢复是计算机视觉中的经典任务。这种技术在各种任务中具有直接的应用,例如动作理解[1]、监视、人机交互[2]和运动字幕等。然而,由于关节遮挡、背景杂乱、光照以及人体的动态变化,人体姿态估计是一项具有挑战性的任务。各种肤色和衣服也使得估计困难。近年来,利用卷积神经网络(CNN)[3-5]实现了人体姿态估计的最新性能。基于RGB图像的人体姿态估计在CNN中取得了很大的成功。强大的表现力和解开潜在变异因素的能力是CNN的特征,这些特征使得能够自动学习判别特征,并显示出自动学习特征的优越性能[6]。

1 卷积神经网络的概述

在机器学习中,卷积神经网络是一种深度前馈人工神经网络,已成功地应用于图像识别。卷积神经网络模型由输入层、卷积层、采样层以及全连接层和输出层构成。通常状况下会取若干交替设置的卷积层和池化层,每个卷积层连接一个池化层,每个池化层后也连接一个卷基层。卷积神经网络的输入是局部连接的,通过局部输入和相应的连接权值求和加上偏置值得到该神经元的输入值,这是一个相当于卷积的过程,卷积神经网络也是因此被命名的。

卷积神经网络的每一个卷积层都包含一定数量的特征面,与多重神经网络模型相比,卷积神经网络模型中通过卷积层的权值共享可以减少训练参数,降低了多层神经网络的复杂程度,降低了出现过拟合的可能性,因此,能够获得一个拥有泛化能力的模型,同时可以通过池化操作大量减少运算中神经元的数量,网络模型的鲁棒性也得到了加强,能够处理更为复杂的分类问题。此外,由于卷积神经网络模型比传统神经网络模型多了局部连接、权值共享以及降低模型复杂度的池化操作,使得网络模型更容易训练,所以卷积神经网络拥有比传统多层神经网络更加出色的性能,更适合于处理复杂问题。

2 算法分析

2.1算法及过程分析

首先,利用卷积神经网络构造坐标预测的网络框架[3]进行特征提取,并为关节位置生成小的热图(heatmaps),然后从特征和小的热图中使用IK(反向动力学)推断出人体的姿态。

近年来,许多现有的2D关节点回归技术,如DeepPose[3]、CPM[5]和HG-Stacked网络等都能够从彩色图像中获得一定的成功。CPM[5]和HG叠加网络[6]是近年来在RGB图像上进行2D人体姿态估计的典型网络。CPM是位姿机框架的一种改进的网络结构。该结构利用快捷结构和级联回归来学习长距离空间相关性,并改进二维联合点预测。HG-Stacked网络[6]设计的剩余模块,并在通过每个沙漏之后生成预测,其中网络有机会在本地和全局上下文中处理特征。我们使用分层、并行和多尺度残差模块,这种结构类似于其他姿态估计方法,该方法在多个迭代阶段和中间监督下表现出了较强的性能。

2.2实验过程及分析

我们假设卷积神经网络(CNN)是一个非线性函数,返回N2D个热图,其中N是关节的数目。在本文中,不使用大于3x3的滤波器,并且在我们的网络中使用的模块如图1(b)所示。提出的分层并行多尺度结构通过增加接收场大小,增强了网络捕获信息的能力,提高了地标定位预测的精度。

图1:(a)原始瓶颈层,(b)提出的分层并行多尺度结构:我们的块增加了接收场大小,改进了梯度流,在每个3x3卷积之前的BN层和Relu层。注意:一个层被描绘成一个矩形块,包含:它的过滤器大小,输入和输出通道的数量;“C”表示连接和“+”一个元素式的和。

在256x256的完全输入分辨率下操作需要大量的GPU存储器,因此沙漏的最高分辨率(最终输出分辨率)是64x64。整个网络从7x7卷积层开始,步长为2,接着是剩余模块和最大池循环,以便将分辨率从256降低到64。剩余模块是HG-Stacked网络的主要组成部分,HG-Stacked网络是最新的用于地标定位的体系结构,它以完全卷积的方式预测一组热图。剩余模块的设计是由于需要在每一个尺度上捕获信息。我们模型的条件下的二维姿态给定的图像作为结果。

實验对于人体姿态估计有各种各样的基准。在本文中,为了验证我们的方法,我们在两个著名的公共姿态估计或动作识别基准上评估所提出的方法:MPII;Human3.6M。

2.3数据集集合

MPII数据集是一个大规模的野外人体姿态数据集,由大约25k张训练图像和2957张验证图像组成,带有注释,供多人使用。40K注释样本。这些图像是从网上采集的。我们使用25k训练图像训练基于网络的二维姿态估计模型,并用2957图像验证精度。

Human3.6M数据集被用作二维姿态估计的测试集。这个数据集包含3.6百万RGB图像。为了使数据更加精确,我们对同一位置的多次测量得到的物体的高度和宽度进行平均。从该数据集的2874幅图像验证我们的训练二维姿态回归模型的准确性。

2.4实现细节

在给定的输入图像中通常存在多个可见的人,但是没有图形模型或后处理步骤,图像必须传达网络确定哪个人值得注释的所有必要信息。我们通过训练网络来专门对直接中心的人进行注释。对于每个样本,尺度和中心注释被用来裁剪围绕目标人的图像。然后将所有输入图像调整为256x256像素。在测试阶段,图像在中心附近进行裁剪,调整大小为256x256像素,作为网络的输入,并基于二维姿态估计模型预测地标定位。然后利用预测来计算原始图像的关节定位。

使用Trink7对网络进行训练。沙漏组件是基于[6]中的公共代码。并用提出的分层并行多尺度结构代替原点残差块。为了快速训练,我们使用了一个浅层的堆积沙漏,即每一个沙漏有2个堆栈,2个剩余模块[6 ]。网络的最终预测是给定关节的热映射的最大激活位置。

2.5二维姿态估计

(a)MPII结果(PCKh@ 0.5)(b)Human3.6M结果(PCKh@ 0.5)

我们使用标准度量PCKh@0.5来评估2D姿态估计的精度。其结果可以在图2中看到,图2显示了随着训练的进展,验证图像的平均准确度,图3分别显示了MPII和Human3.6M测试图像的平均准确度。表明我们提出的网络具有很强的学习能力,能够得到较高的估计精度。

3 结论

介绍了一种基于RGB图像的利用卷积神经网络算法进行人体姿态估计的方法。首先,我们提出了一种分层的并行多尺度残差结构,以提高二维姿态预测的精度。然后,根据获得的2D关节位置,估计人体具体姿态。在不同的人体姿态数据集下的估计实验证明了本文的人体姿态估计方法具有很好的鲁棒性,对基于RGB图像的人体姿态估计能够得到较好的效果

参考文献:

[1] 朱煜, 赵江坤, 王逸宁, 等.基于深度学习的人体行为识别算法综述[J]. 自动化学报. 2016,42(6):848?857.

[2] ShottonJ,Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depthimages. In Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence[M]. IEEE Computer Society Press, 2013:2821–2840.

[3] Toshev A, Szegedy C. DeepPose: Human pose estimation via deep neural networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[J]. IEEE Computer SocietyPress, 2014:1653-1660.

[4] Cao, Z., Simon, T., Wei, S. E., et al. Realtime Multi- Person 2D Pose Estimation using Part Affinity Fields. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M].IEEE Computer Society Press,2016:7291- 7299.

[5] Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M]. IEEE Computer Society Press. 2016:4724-4732.

[6] Alejandro, Newell.,kaiyu, Yang., and Jia, Deng. Stacked Hourglass Networks for Human Pose Estimation[M].In ECCV. 2016:483-499.

【通聯编辑:代影】

猜你喜欢

卷积神经网络
卷积神经网络语言模型研究
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法