深度学习的单人姿态估计方法综述

2020-07-13曾凡玉

小型微型计算机系统 2020年7期

张锋，叶茂，曾凡玉

(电子科技大学计算机科学与工程学院，成都 611731)

1 引言

单人姿态估计是计算机视觉中的基础问题，它是多人姿态估计、行为识别的基础，其被广泛应用于人机交互[1]、行人重识别[2]、人体分割[3]等领域.单人姿态估计的目的是从一幅包含有单个人体的图像中找出人各个关节点的坐标.由于受到拍摄角度、场景、光照、穿着等影响，图像中的单人姿态估计面临着艰巨的挑战.然而，随着姿态估计数据集的开放[4-7]、计算机硬件的发展以及深度学习技术的提出，特别是卷积神经网络[8]和生成对抗网络[9]逐渐渗透到计算机视觉中的各个研究领域，单人姿态估计也取得了飞速发展.由于姿态估计所使用方法主要是基于深度卷积神经网络的，少部分方法基于生成对抗网络.因此本文将从介绍深度学习中的深度卷积神经网络和生成对抗网络的发展开始，从三个不同的角度阐述单人姿态估计的研究进展，最后给出单人姿态估计的发展趋势和展望.

2 深度学习方法

Hinton于2006年首先提出了深度学习的概念.深度学习是指一系列基于人工神经网络机器学习方法的统称.深度学习也被称为深度结构化学习或者深度层次化学习.深度学习主要包括深度神经网络、深度卷积神经网络、生成对抗网络、递归神经网络等.由于姿态估计领域中大部分方法使用深度卷积神经网络、少部分方法使用生成对抗网络.因此本节将对深度卷积神经网络以及生成对抗网络的发展进行简要的回顾.

2.1 深度卷积神经网络

Lecun于1998年首次提出使用梯度反传方法训练卷积神经网络从而实现手写字体自动识别[8]，这为深度学习奠定了基础.在2012年Krizhevsky等人在ImageNet竞赛中提出了一种新型的卷积神经网络结构AlexNet[10]，该网络的性能远远超越了其他方法，首次证明了卷积神经网络的优越性.在随后的2014年，牛津大学提出的VGGNet网络[11]使用多个3×3卷积替代较大的卷积核引入更多的非线性变换增强模型的性能.同年，谷歌提出了GoogleNet[12]，将不同大小的卷积核处理得到的特征进行融合不仅能降低计算量还能够提升模型的性能.Kaiming等人于2015年提出的残差网络ResNet[13]解决了卷积神经网络退化问题.残差结构的引入使得训练很深的卷积神经网络成为可能.与ResNet采用跳跃连接解决退化问题不同的是DenseNet[14]通过特征复用的方式来解决这一问题.2017年之后，网络架构的研究主要集中在如何设计更为轻量化的网络结构.2017年MobileNet[15]被提出，该网络中将普通的卷积操作换为深度卷积和点卷积这两个操作来实现(即深度可分离卷积)从而实现网络的轻量化.由于网络中大量使用1×1卷积，为了得到更加轻量级的网络结构，ShuffleNet[16]将1×1卷积替换为点组卷积(由组卷积和深度可分离卷积得到，深度可分离卷积又称为点卷积)并引入通道打散技术从而在加快速度的同时保证模型的精度.2018年至2019年的研究主要集中在如何通过自动化的搜索方法去搜索更为高效的网络架构.关于搜索方法可以分为基于强化学习的方法[17]、基于进化学习的方法[18]、基于梯度的方法[19]这三种类型.深度卷积神经网络的发展是单人姿态估计的基础，特征提取的架构设计、网络结构的演进以及面向姿态估计的特殊结构的提出共同推动了姿态估计的发展.

2.2 生成对抗网络

生成对抗网络(GAN)[9]由Ian等人于2014年提出，生成对抗网络包含生成器和判别器两个部分，其中生成器的目的是为了产生能够欺骗判别器的样本，而判别器的目的是为了判断样本的来源.生成对抗网络训练过程中判别器和生成器不断进行博弈，在判别器无法判断样本究竟是来自于生成器还是真实的分布时训练结束，此时的生成器能够产生足以迷惑判别器的样本.虽然生成对抗网络能够生成不错的样本，但是无法控制所生成的样本.条件生成对抗网络(cGAN)[20]使得控制所生成的样本成为可能.cGAN通过在生成器网络和判别器网络添加控制生成的类标或其他知识使得生成器和判别器成为基于类标或者其他知识的条件概率函数，从而控制生成器的生成.由于早期生成对抗网络中生成器和判别器都是采用全连接网络进行构建，生成器和判别器没有空间感知能力.如何改造生成器和判别器使其具有空间感知能力从而生成更加逼真的图像是一项非常值得研究的问题.Radford等人[21]通过大量尝试找出了深度卷积生成对抗网络(DCGAN)成功训练的方法，为GAN的发展做出了卓越贡献.虽然Radford等人通过实验枚举出了一组比较好的网络架构设置，但仍然不能很好地解决训练过程中模态坍缩所导致的生成样本多样性不足、网络训练不稳定、没有能够指示GAN训练进程的指标等问题.Wassertein GAN(WGAN)[22]通过理论分析提出了能够让原始 GAN的训练变得稳定的几点改进，这为GAN的广泛应用打下了基础.GAN的热潮同样席卷了姿态估计领域，少部分研究者[23，24]将GAN应用到姿态估计中并取得了不错的效果.

3 基于坐标回归的单人姿态估计

基于坐标回归的单人姿态估计主要分为两大类：无误差反馈的方法和迭代误差反馈的方法.其中无误差反馈的方法又细分为单源输入和双源输入，如图1所示基于坐标回归的单人姿态估计分类.

无误差反馈的典型方法为DeepPose[25]，它开创了使用深度学习进行姿态估计的先例，该方法使用归一化的坐标表示关节点的位置，使用多阶段回归的方式得到关节点精确的坐标.随后，双源姿态估计网络(DS-CNN)[26]将包含有人的整体图像以及包含有关节点的局部图像作为姿态估计网络的输入从而有效地提升了姿态估计网络的性能.由于人的视觉系统中包含有反馈连接，为了利用反馈连接改善基于坐标回归的单人姿态估计，Carriean等人[27]提出了迭代误差反馈(IEF)的思想.该方法将关节点坐标转换为热力图并将表示关节点位置的热力图与人体图像同时输入到回归关节点偏移量的网络中，经过多次迭代逐步回归关节点的位置.基于坐标回归的方法为单人姿态估计早期方法，相关的研究较少，最为典型的方法为无误差反馈方法DeepPose和IEF，因此本节将会详细介绍这两种方法.

图1 基于坐标回归的单人姿态估计分类

Fig.1 Classification of coordinate based regression for single-person pose estimation

3.1 无误差反馈方法

Toshev首次将深度学习引入到姿态估计并提出DeepPose[25].人体姿态估计目的是为了能够回归关节点的坐标，为了让深度卷积神经网络能够回归出关节点的位置并能够产生较为稳定的预测结果，归一化的坐标被提出用于表达关节点的位置.归一化的坐标定义如下：输入的图像为x，输入图像包含有k个关节点y={y1，…，yk}，第i个关节点的坐标为(x，y)=yi∈y，其中输入图像还有边界框信息b={bw,bn,bc}.边界框中心的坐标为bc，框的宽和高分别为bw和bh，那么归一化的坐标可以通过公式(1)获得.

(1)

公式(1)中将绝对坐标减去边界框的中心点并除以框的宽和高从而达到归一化的目的.

图2 DeepPose网络架构图

在DeepPose中作者使用AlexNet网络架构，详细的网络结构为C-LCN-P-C-LCN-P-C-C-C-P-F-F，其中C表示卷积层，LCN表示局部对比度归一化层，P表示最大池化层，F表示全连接层.在该网络结构中第一层的卷积核大小为11×11，第二层的卷积核大小为5×5，随后的网络层中的卷积核为3×3，全连接阶段神经元的数目为4096，网络的输入大小为220×220，如图2所示DeepPose网络架构图.

DeepPose采用L2损失函数进行训练，定义关节点回归网络为ψ，可得最优的网络参数θ：

(2)

公式(2)中DN={N(x;b)，N(y;b)|(x，y)∈D}，其中D为训练集，为了简化表示这里作者使用N(x;b)表示使用边界框对图像进行切割之后的图像.

在图2中初始阶段由于网络的输入为220×220，只能够感知到人的整体信息，并不能感受到关节点局部的细节.为了提升模型的性能，作者提出使用多个级联的网络来学习关节点的精确位置.包含有S个阶段的网络定义如下：每个阶段s∈{1，…，S}，网络ψ(·;θs)的参数为θs.除了第一阶段网络学习的是关节点的坐标，后续阶段网络学习前一阶段相对于真实关节点位置的偏移量.给定第i个关节点的坐标yi，可以通过公式(3)定义该关节点yi的边界框bi.

bi(y;σ)={σdiam(y)，σdiam(y)，yi}

(3)

其中diam(y)表示该人的左肩膀到右胯部的距离，σ表示缩放因子.上述表述中第s阶段中每个关节点的框bs={b1，…，bk}，第s阶段k个关节点的坐标ys={y1，…，yk}.使用上述的定义可得如下形式化表示：

第一阶段即s=1时，b0表示包围整个人的框，因此可得.

y1←N-1(ψ(N(x;b0);θ1);b0)

(4)

公式(4)中N-1表示归一化的坐标进行逆变换，将归一化的坐标转换为绝对坐标.

(5)

3.2 迭代误差反馈方法

人的视觉系统中包含反馈连接，而基于深度卷积神经网络的姿态估计方法中并不包含反馈连接.迭代误差反馈(IEF)[27]将误差反馈引入到深度卷积神经网络中从而学习人体的结构信息，如图3所示迭代误差反馈框架.

图3 迭代误差反馈框架

图3中输入图像I与二维高斯分布函数根据第t阶段所预测的关节点坐标yt产生的热力图g(yt)在通道这一维度进行拼接(图中⊕表示拼接)作为网络f的输入，网络预测修正的偏移量εt，该偏移量将前一阶段预测的结果yt进行修正从而逼近真正的坐标y.整个方法通过不断地重复上述过程，获得最终精确的关节点坐标.在该方法的初始阶段网络输入的关节点的坐标y0是通过计算训练集的平均姿态获得.这里需要注意的是在每次迭代时，模型学习的目标为有限度的修正即偏移量εt的长度应该小于某个阈值，即‖t‖2

t=f(xt)

(6)

yt+1=yt+t

(7)

xt+1=I⊕g(yt+1)

(8)

公式(8)中g表示二维高斯分布函数，二维高斯分布函数将关节点坐标编码为热力图，关节点yt+1有K个关节点，那么g(yt+1)将会产生K个热力图，一个热力图与一个关节点的坐标相对应.公式(8)将K个热力图与输入图像进行拼接.因此xt+1的大小为H×W×(K+3)，其中H为输入的高度，W为输入的宽度.在该方法中作者使用ImageNet数据集上预训练好的GoogLeNet作为基本网络模型f，将该网络的第一卷积层的输入通道修改为K+3并去掉网络最后一层1000个单元的全连接层，使用2K个神经元的全连接层替代原始的全连接层.

迭代误差反馈方法在网络f和高斯分布函数g中包含有参数θf和θg，为了得到最佳的参数可进行如下优化.

(9)

公式(9)中εt为网络预测的偏移量，而e(y，yt)为所需要学习的目标偏移量.函数h为距离度量函数，T为网络需要进行反馈的次数.作者使用随机梯度下降算法优化该网络.

4 基于热力图回归的单人姿态估计

单人姿态估计研究中大小不一的人体尺度、不同的拍摄角度、复杂的光照条件、任意的遮挡等问题加大了所需要学习映射关系的复杂度.相比于直接坐标回归而言，热力图回归能够保留图像中更多的信息.因此基于大部分主流的单人姿态估计方法都是基于热力图回归的.本小节从三个方面梳理了基于热力图回归的单人姿态估计方法.这三个方面分别为先验知识的引入、网络架构的改进、关节点关系建模.如图4所示基于热力图回归的单人姿态估计分类.

图4 基于热力图回归的单人姿态估计分类

4.1 先验知识的引入

如图5所示，先验知识的引入包括引入手工先验知识[28]以及引入学习到的先验知识[29].

图5 引入先验知识

如图5(a)所示引入手工先验知识，Guanghan等人[28]将传统的霍夫变换特征和梯度方向直方图作为先验知识引入到深度卷积神经网络中，并设计了一种门控机制用于在训练时控制引入到网络的知识从而保证在给模型施加几何限制和图像描述信息的同时保留模型的性能.另一种引入先验知识的方法是定义一个可学习的相关任务.如图5(b)所示引入学习到的先验知识.Adrian等人[29]将人体检测这一任务所产生的检测关节的热力图与原始图像一起作为网络的输入，利用检测关节的热力图引导网络学习人体关节点的位置从而降低网络学习关节点位置的难度.

4.2 网络架构的改进

姿态估计网络架构的改进可以分为多尺度的特征提取、主干模型的改进、注意力机制的引入以及关节点的关系建模这四个方面.

4.2.1 多尺度特征提取

多尺度特征提取包括引入特征金字塔进行特征提取[30]，将低分辨率的特征与高分辨率特征进行融合[31]以及级联特征提取[32]这三种典型的方法.

融资平台的发展，关键在人，建立科学高效的人才管理体制，激励好每一位员工，人尽其才。制定系统完备的预算管理制度，实现零基预算管理，更高效率的管理好每一分钱；加强往来资金管理，尤其是短期资金拆借的追还，安排专人负责往来资金催缴和管理。

引入特征金字塔这一类方法中最为典型的为Wei等人[31]提出的金字塔残差模块.在原有残差模块的基础上，将残差特征划分为多个分支，每个分支使用不同缩放比例的下采样层产生不同尺度的特征，然后再使用上采样将不同尺度的特征缩放到同一大小，最后将这些特征进行融合.这种方式的金字塔残差模块属于模块级别的多尺度特征提取.

另一种提取多尺度特征的方式属于网络架构级别的.Rafi1等人[31]在特征提取网络中将低层特征与高层特征(分辨率较小，需要使用反卷积进行上采样)进行融合以保证特征提取网络所提取特征是多尺度的.在输入层面作者将两种不同分辨率(高分辨率和低分辨率的图像)的图像输入到两个同样架构的特征提取网络中，分别提取两种分辨率的多尺度特征，并将低分辨率的多尺度特征进行上采样，然后将来自两个网络的不同分辨率的多尺度特征进行融合从而获得丰富的多尺度特征.

Xuan等人[32]提出了级联特征融合的思想，将三种不同分辨率的图像作为输入，输入到级联特征提取模块中，该模块提取三种不同大小的特征之后将低分辨率的特征与较高分辨率的特征进行逐步融合，从而获得多尺度特征.

4.2.2 主干模型改进

姿态估计的目的是学习人的关节点的位置.拍摄角度、拍摄距离等因素导致图像中的人的尺度不一，加大了姿态估计这一问题的难度.人与人之间的相互遮挡和干扰使得姿态估计变得更为棘手.如何从主干模型架构角度解决这些问题是一个值得研究的点.主干模型的架构设计主要从扩大模型感受野、区分难易样本、保持高分辨率这几个角度进行设计.下面分别对几个重要的主干模型进行介绍.

卷积姿态机(CPM)[33]使用多个基于VGGNet[11]的子网络构成的多阶段网络提升整个网络的感受野.每个子网络使用中继监督缓解梯度消失问题.随着网络架构的发展，特别是残差网络的提出，Newell等人[34]提出了一种称之为沙漏(Hourglass)的模块并将若干沙漏模块堆叠起来构成堆叠沙漏网络.堆叠沙漏网络吸收了卷积姿态机的中继监督的思想，在每个阶段的子网络中使用了中继监督以弥补网络的梯度弥散.沙漏模块是基于残差模块进行设计的.沙漏模块中将特征进行多次下采样和上采样，并将下采样与上采样过程中相同大小的特征进行融合，沙漏模块不仅能够提取多尺度特征还能够在增大整个网络的感受野的同时进一步降低模型计算量.值得注意的是，从堆叠沙漏模型开始，后续网络开始吸收沙漏模块设计中先降采样再上采样这一设计思想.级联金字塔网络(CPN)[35]是基于残差网络中的残差模块设计了类似的结构.

图6 级联金字塔网络

图6中靠近输入图像的为残差网络的主干网络(4个实线方块，自顶向下)，残差网络将高分辨率图像转换为低分辨率的特征，随后使用多个反卷积层(4个虚线方块，自底向上)将低分辨率特征逐步恢复到高分辨率的特征.级联金字塔网络是使用残差网络的主干网络进行降采样，并在主干网络的后端加入了多个上采样层.级联金字塔网络除了对多个上采样层的输出使用L2损失函数进行监督学习之外，还将上采样过程中不同分辨率的特征进行融合利用在线难关节点挖掘损失函数(OHKM)对难样本进行学习，从而解决更难的样本.

虽然上述网络结构解决了多尺度特征提取、扩大感受野以及在训练过程中所面临的梯度弥散问题，但是由于这些网络中所使用的降采样和上采样操作会导致信息丢失.为了解决这一问题，高分辨率网络(HRNet)[36]被提出.如图7所示高分辨率网络.高分辨率网络中包含多个分支网络，每个分支网络的特征具有不同的分辨率.最顶层的分支网络中的特征具有最高分辨率，最底层分支的特征具有最低分辨率.不同分支中不同分辨率的特征会进行融合从而获得多尺度特征，由于该架构中最顶层分支拥有最高的分辨率并且分辨率一直保持不变因此能够保留高分辨率信息，从而避免出现信息丢失问题.

4.2.3 注意力机制

在人的视觉系统中由于人脑的计算资源有限，需要将资源集中于需要处理的部分而注意力机制是一种可以应对信息过载的方法.将注意力机制引入到深度卷积神经网络中能够帮助网络聚焦到需要处理的部分，从而避免出现不合理的预测结果.在姿态估计中人身体的区域是需要注意的部分因此引入注意力机制可以避免模型预测出不合理的人体姿态，改善预测结果.注意力机制分为两种，分别为基于条件随机场的注意力机制以及空间-通道间注意力机制.

图7 高分辨率网络

由于条件随机场(CRF)能够学习特征图中的相互关系，Xiao等人[37]使用条件随机场替换传统注意力机制中的softmax，带有条件随机场的注意力机制可以增强网络学习人的轮廓，避免出现不合理的姿态.Kai等人[38]将空间注意力和通道间的注意力同时引入到姿态估计中，使网络聚焦于需要学习的区域以及相关的特征避免出现非人体的姿态.

4.2.4 关节点关系建模

考虑关节点之间所存在位置关系，引入显式关节间的关系建模能够改善姿态估计方法并且从人身体的结构去约束网络可以降低任务的难度.关节点关系建模主要分为基于图模型的关系建模方法以及非图模型的关系建模方法这两种.

基于图模型的关系建模方法分为基于马尔科夫随机场和基于条件随机场这两种类型.如果当前预测的热力图中产生假阳性预测区域(热力图中出现多个区域的峰值，峰值不仅出现在关节点所在区域，还出现在其他区域)，则假阳性预测区域会降低的模型的预测精度.Tompson等人[39]首次提出使用马尔科夫随机场去学习关节点之间的关系从而消除假阳性预测区域.Wei等人[40]提出使用基于条件随机场构建的树状模型来对关节之间的关系进行建模，将每个关节点看作图中的顶点，关节之间的关系看作边，该方法既考虑了关节的外形特征也考虑了关节点之间的关系.虽然基于条件随机场的树状模型能够对关节点的关系进行建模，但没有考虑特征之间的关系，Xiao等人[41]改进了上述方法，提出一种新的基于条件随机场的方法，该方法能够对特征之间以及关节点之间的关系进行建模.

使用非图模型对关节点之间的关系进行建模的方法主要使用深度卷积神经网络去学习关节点之间的关系.Xiao等人[42]提出使用可学习的几何变换核来学习某个关节点到另外一个关节点的几何变换关系，并利用几何变换核构成的双向树模型对关节之间的关系进行建模从而改善预测结果.使用树状或图状结构对关节点的关系建模，需要根据问题手工设计特定的结构且求解复杂需要进行近似计算，而链状结构[43]能够有效地避免这一点.与递归神经网络类似，链状结构利用深度卷积神经网络学习相邻关节点之间的依赖关系.该方法预先定义了所预测关节点的顺序.在初始阶段使用深度卷积神经网络预测第一个关节点的热力图，随后阶段将图片特征、上一次所预测关节点的热力图作为当前阶段的输入去预测定义好的下一个相邻关节点的热力图.如此迭代，直至得到所有的关节点的热力图.另一种学习关节点的之间的信息的方法是将生成对抗网络的思想引入到姿态估计中实现关节点关系的学习.Yu等人[23]利用生成器产生热力图，并提出了两种类型的判别器与生成器进行对抗训练.这两种判别器分别为置信度判别器和姿态判别器，其中置信度判别器用于强制让生成器生成高置信度的热力图，而姿态判别器强制让生成器产生正确的姿态，这两种判别器同时与生成器对抗，在对抗的过程中让生成器学习关节点之间的关系.

5 基于坐标回归的单人姿态估计(使用热力图表示)

基于坐标回归的单人姿态估计中最为特殊的一种方法是使用热力图表示的坐标回归方法，该方法保留了基于热力图的表示以及坐标回归这两种方法的优点.由于直接坐标回归这一类方法是学习从图像到关节点坐标的直接映射，因此会丢失太多人体的空间信息，不利于网络学习空间位置.而基于热力图回归的单人姿态估计方法使用热力图表示关节点的位置，网络学习的是从图像到热力图的映射关系，因此可以充分利用图像中的位置信息，避免丢失图像中的空间信息，获得更好的精度.但是基于热力图的方法在预测阶段获得关节点坐标时取热力图中最大值的位置作为关节点的坐标并使用逆变换将热力图空间的坐标转换到原图空间中的坐标.这一过程中由于取最大值的位置会出现量化误差导致最终原图空间的坐标出现较大的偏移.由于取最大值位置这一操作是不可导的，因此这也导致了无法对模型进行端到端的优化.为了解决这一问题，Xiao等人[44]使用热力图作为中间表示，并使用softmax对热力图进行归一化将热力图转换为概率图，概率图关于概率图中的位置计算期望从而得到精确的关节点的坐标.这一改进不仅统一了热力图表示与基于坐标回归的方法还能够避免基于热力图方法中所出现的量化误差.图8所示使用热力图表示的坐标回归.

6 数据集

目前主流的单人姿态估计数据集包括FLIC(Frames Labeled In Cinema)[4]、LSP(Leeds Sports Pose)[7]、MPII(Max Planck Institute for Informatics)[5]和AIC(AI Challenger)[6].表1给出了各个数据集在样本数目、数据集的特点以及所标注的关节点数目的对比.

表1 数据集比较

FLIC数据集从好莱坞电影中提取而来.使用人体检测器对电影中每隔10帧的图像帧进行检测，取得其中包含有人的图像，然后使用众包的方式对图像进行标注，最终获得2万多张标注图像.LSP数据集中的图像搜集自Flickr，数据集中大部分为运动场景下包含有人的图像，每个图像都只包含单个人，每个人都缩放为150个像素高度，由于这些图像大部分与体育相关，比如羽毛球、棒球、体操、足球、网球等，因此该数据集具有较大的挑战性.MPII数据集中的图像从YouTube视频中获得，这些图像通常都是日常生活中的各种场景，该数据集包含有2.5万张图像，标注了4万个人的样本.AIC数据集中的图像从网络爬取得到，整个数据集包含有30万张图像，其规模最大，也更具挑战性，该数据集包含有70万个人的样本.每个人标注的关节点的数目为14个.

7 发展趋势与展望

由于深度学习的出现，单人姿态估计虽然取得了不错的进展，但其作为计算机视觉的基础问题，尤其是多人姿态估计、人机交互、行为识别等领域的基础，仍面临一些挑战.

1)数据集差异性

由于基于深度学习的方法非常依赖所标注的数据，目前现有的姿态估计数据集，各有侧重点，某些数据集侧重于运动场景，某些数据集侧重于日常生活场景.这就造成使用不同的数据集训练出的模型转换到另一个场景下或许并不能获得很好的性能，因此如何克服数据集之间的差异性是姿态估计走向实用的重要问题.

2)人体遮挡

拍摄角度的不同，人与人的位置关系的不同会导致图像中出现自遮挡和其他物体遮挡人体的情形，虽然现有的方法能够一定程度处理遮挡问题，但是会造成模型的过拟合，在某些特殊情况下会出现假阳性的情形.如何解决遮挡问题是姿态估计中长期面临的问题.

3)低分辨率图像

来自室外监控摄像头可能包含有低分辨率的人体图像，如何解决低分辨率下人体的姿态估计是一个迫切需要研究的问题.

4)实时性与高效性

由于目前现有的姿态估计方法计算量较大，如何设计轻量级的网络架构或者通过神经架构搜索等方法获得轻量级网络从而降低模型的参数量和计算量是单人姿态估计落地所面临的重要问题.

5)少样本问题

当前单人姿态估计方法需要大量标注的数据进行训练才能取得不错的效果，但是数据标注费时费力，在某些特殊场景下比如医疗场景下标注的数据较少，如何实现少样本的姿态估计也是一个值得研究的方向.

6)与其他领域相结合

单人姿态估计应用到二维人体图像生成、人的三维模型生成、人的意图识别、人与物体之间的关系识别等领域进行结合是姿态估计发展过程中新的趋势.

8 结束语

本文在对单人姿态估计进行广泛研究的基础上，旨在介绍基于深度学习的单人姿态估计的研究现状.首先介绍了与单人姿态估计有关的基础研究包括深度卷积神经网络和生成对抗网络的发展历程.然后从三个方面介绍了单人姿态估计的研究现状：基于直接坐标回归的方法、基于热力图回归的方法以基于热力图表示的直接坐标回归方法，并给出了常用的数据集的特点以及介绍.本文的最后对未来单人姿态估计的发展趋势进行展望以及仍然面临的一些问题进行阐述.