APP下载

并联化高分辨网络的人体姿态估计方法

2022-02-15任立成张建林徐智勇

计算机工程与设计 2022年1期
关键词:关键点并联特征提取

刘 勇,李 杰,任立成,张建林,徐智勇

(1.中国科学院 光电技术研究所,四川 成都 610209; 2.中国科学院大学 电子电气与通信工程学院,北京 100049)

0 引 言

基于深度神经网络的2D人体姿态估计是计算机视觉图像信号处理中的经典课题,其相关算法被广泛应用[1,2]。然而随着对姿态估计结果精度要求的提高,网络规模也不断扩大,导致训练时间过长与模型所需存储过大等问题。在保证高精度的情况下对网络进行模型优化的研究[3]逐渐受到关注。

文献[4]采取多尺度特征融合方法来丰富感受野信息;文献[5,6]则对残差模块[7]进行改良;文献[8]采用特征金字塔网络级联架构兼顾了图像的全局与局部特征;文献[9]提出的并联网络结构以及特征匹配算法则针对关键点的定位特征与连接特征;文献[10]采用转置卷积代替了上采样处理。以上处理策略主要以网络结构设计与多尺度融合方法为主。

Sun等提出的高分辨网络(high-resolution net,HRNet)[11]通过网络分支策略在保持特征图像原始分辨率的情况下实现对人体姿态的精确估计。虽然这种保持高分辨率的策略对提升网络特征提取精度效果显著,但随着网络加深,其对计算能力以及网络参数量的需求也随之增大。

本文提出一种针对HRNet-W32网络结构进行优化的并联化高分辨网络。首先对网络分阶段进行消融实验以确定高分辨网络的可精简范围,然后对余下特征提取部分添加并联网络模块以维持分辨率提取范围。改进后的并联化高分辨网络(以下简称并联化HRNet)其网络参数仅为原网络的37%,保证其在MPII和COCO数据集上的测试精度的同时,浮点运算量比原网络降低30%。

1 HRNet网络

HRNet在特征提取以及特征融合的过程中始终保持着网络输入时的高分辨率,并在利用多组分辨率不断丰富高维空间的特征细节信息的同时保证其低维空间中的全局定位分布,兼顾了局部特征的提取与全局特征的定位,从而使得预测结果得到优化,最后对多尺度特征信息进行融合,得到最终的输出结果。HRNet与其它网络结构的相关参数与性能对比见表1。

HRNet的网络结构按输入特征图像分辨率的情况可分为4个阶段。对各阶段又可再次划分为3部分:由多个级联残差模块所构成的特征提取部分,各分辨率之间经由卷积采样后的特征融合部分和低分辨率网络分支的特征扩增部分。其网络结构如图1所示,网络具体参数见表2。

图1 HRNet网络

如表3所示,其特征提取效率出现明显的衰减趋势。第4阶段比前3阶段增加的参数量以及浮点运算量占比分别为72.5%和38.1%,其在MPII数据集上的人体姿态估计结果精度仅提高了不到0.5%。如图2所示为表3中针对HRNet网络阶段数消融实验在MPII中对人体姿态关键点的特征响应结果。

综上所述,不论从16个关键点特征响应范围,还是最终数据评测结果,阶段数为4的HRNet对姿态估计的提升效果相较于网络阶段数为3时并未获得与其所增加的参数量与浮点计算量相匹配的有关人体姿态估计的精度改良。如果将第4阶段整体移除,并等价地在剩余各阶段中添加参数量相对较少的等尺度的特征提取网络模块,那么便能在保证网络性能不变时减少网络训练成本与结构规模。

2 并联化HRNet

参考表2中消融实验的结果以及表3中HRNet各阶段的参数分布,可以看出从第4阶段开始,随着网络层数的逐步加深,其对特征精度的提高不再如之前层更有效率,因为第4阶段的特征提取因感受野尺度超出原图尺度而造成信息过冗余[12]。

表2 HRNet网络参数配置

表3 HRNet在MPII数据集上的消融实验

2.1 并联化HRNet网络结构

为减少网络参数量和浮点数运算量的同时保持网络对人体姿态估计结果的精度,本文对原始HRNet网络的特征感受野尺寸进行调整,剔除了特征提取相对较为冗余的第4阶段,并设计相应的并联网络架构弥补第4阶段剔除后所造成的低分辨率下特征提取情况的缺失问题。新的并联化高分辨网络架构如图3所示。

图2 基于MPII数据集的HRNet网络各阶段16个关键点特征响应输出情况

图3 并联化HRNet网络

2.1.1 特征感受野尺寸的调整

特征感受野计算如式(1)所示。其中RFi为当前层输出结果的感受野尺寸,RFi-1为当前层输入结果即前一层输出结果的感受野尺寸,Kerneli为当前层卷积核尺寸,Stridek为第k层卷积采样步长

(1)

HRNet-W32输入图像尺寸为256,经过HRNet的前3个网络阶段后,其在3条支路输出特征图像的特征感受野尺寸分别为目标原图尺寸的58.9%、108%和165%。

而加上第4阶段后,网络最终所输出的4条支路的特征感受野则分别达到了原目标尺寸的83.9%、158%、265%和377%,其大部分的支路感受野尺度远远超过了原图尺寸。

过大的感受野会导致网络过度地倾向于对全局特征进行提取和学习[13]。若感受野尺度大于目标物体尺度,则这些物体会被直接忽略掉而成为背景的一部分。这也很好地解释了网络消融实验中第4阶段的引入为何没能从实质上提升网络对人体姿态估计的效果。

2.1.2 并联网络结构的设计

为补充被剔除掉的第4阶段的低分辨率情况,网络对第2阶段与第3阶段的部分并联一个全卷积的U型网络。该并联卷积层的数据传输流程如图4所示。

该并联网络的拓扑结构参考U-Net[14]的网络架构,按分辨率共分为4层,其各层的分辨率依次与原始HRNet网络的分辨率相对应,同时保持其与所并联阶段输出的感受野尺度一致。

图4 并联网络模块流程

设计这种分辨率由高到低的处理方法是为了生成多种分辨率下感受野不同的特征表示模式,以便进行多尺度特征融合,最终将丰富的特征信息再由低到高地在所保持的高分辨率下进行表征。为避免特征信息在返回到高分辨率时出现信息重复导致网络特征提取冗余,在由低到高的信息处理过程中,新设计的并联网络采用了转置卷积对图像的分辨率进行恢复,同时为避免原始特征信息的缺失以及网络较深而在训练时出现梯度消失的问题,在分辨率相同的操作层之间建立特征信息的直联通道。

2.2 损失函数

与之前的多阶段人体姿态估计网络在训练时采用中继监督策略来优化特征提取能力不同,HRNet采取的是直接以末端的输出结果来计算人体关键点定位的损失函数。

而针对特征关键点定位问题来说,由于涉及到欧式距离的计算,因此均方误差函数比较适宜作为网络的损失函数。该损失函数可以对每批次每个关键点的预测输出最大响应与真实关定位最大响应之间的L2距离进行最小化约束。如式(2)所示,人体关键点总数为K,第k个关键点的真实位置用gtk表示,对应预测结果的最大响应位置用dtk表示,N为每批次的训练的样本数量,n为对应样本

(2)

3 实 验

实验以Pytorch作为网络设计开发平台,所使用的CPU型号为i5-8500,GPU型号为GTX1660Ti,显存为6 GB,操作系统为Ubuntu16.04。

实验中网络输入图片的原始分辨率依数据集的选取不同而不同。在MPII数据集上的图像输入格式为256×256,在MSCOCO数据集上的图像输入格式为256×192。输入的图像数据首先进行随机预处理,包含对原图像的裁剪、旋转、翻转以及相关图像增强等策略。选择Adam优化器对模型迭代210轮。动量值设置为0.9,学习率采用阶段式设置,初始学习率为0.001,并在第170轮和第200轮时以学习因子按10%的比例各进行一次学习率衰减。为减少特征干扰,提高预测精度,最终输出的特征响应结果采用非极大值抑制(non-maximum suppression,NMS)策略进行响应截断。

3.1 数据集和评价指标

本实验分别在MPII数据集和MSCOCO数据集上对网络进行人体姿态估计的训练与测评。

3.1.1 MPII数据集评测指标

网络对MPII数据集中22 246幅图像进行训练,2958幅图像进行测试,每批8幅图像,输出为16通道,对其中6对左右对称的关键点的精度结果相加取均值。以PCKh作为评测指标,且综合评测结果的PCKh比例因子分别取0.5和0.1。

3.1.2 MSCOCO数据集评测指标

网络对MSCOCO数据集中118 287幅图像进行训练,5000幅图像进行测试,每批16幅图像,输出为17通道。对人体17个关键点进行综合评测,以mAP作为关键点预测性能评测指标,按OKS标准与样本尺度标准又细分成5项测评指标。

3.2 实验结果

实验结果对原始HRNet与改进后的并联化HRNet分别从网络参数量、浮点运算量以及人体姿态预测精度方面进行评估。结果表明,通过剔除冗余的网络结构以及添加适当的并联模块可以在保证原有精度的情况下,降低网络参数量以及算法复杂度,甚至在测评指标要求略为宽松的情况下,改进后网络模型的预测结果会略优于原网络模型。

MPII数据集上的实验对并联模块上采样部分进行4组对照实验,其并联模块中各层间的参数部署具体见表4。在保证计算复杂度与网络参数量远低于原网络的情况下,当转置卷积核尺寸为3时网络对人体关键点的预测精度保持了原始网络的精度,且当测评标准更加严格时,并联化HRNet的预测结果比原网络的结果更好,图5所示为表5中各网络在MPII中人体姿态关键点特征响应结果。

之后在MSCOCO数据集上的实验又进行了3组对照实验,具体参数也见表4,其中去除了浮点计算量过大的转置卷积步长为1时的并联网络配置模型,其实验结果具体如表6和图6所示。

表4 各实验组网络相关参数配置

表5 在MPII-val数据集上的实验结果

图5 在MPII-val上的各模型16个关键点特征响应输出结果

表6 在MSCOCO-val数据集上的实验结果

图6 在MSCOCO-val上的各模型17个关键点特征响应输出结果

可见,在数据集训练样本变得更加丰富后,采用并联化HRNet除了将网络参数量以及浮点计算量分别减少63%和30%外,其在mAP上更是比原始HRNet的网络结果高出了近1%。

但对比大尺度情况下的mAP,并联化HRNet的精度下降了1.5%,但其对样本占比更高的中等尺度的mAP却提高了1.9%。图7为不同尺度下序号为2的并联化HRNet 在MSCOCO上的结果展示。

图7 并联化HRNet人体姿态估计结果展示

除此之外,在与网络参数量和浮点运算量相当的人体姿态估计网络算法的结果进行对比时,因为对高分辨的保持,多尺度融合以及并联化特征增强等策略,并联化HRNet 对人体姿态的预测精度要更高一些,见表7。

表7 MSCOCO-val数据集上的结果比较

4 结束语

针对减小人体姿态估计算法的网络参数量以及浮点运算量的问题,本文在高分辨网络HRNet的网络架构基础上进行删改并提出了一种并联化HRNet人体姿态估计网络架构。在对原始HRNet网络进行逐层的特征图感受野尺寸分析后,该架构删除了性能不高的第4阶段,大大减少了网络参数量与浮点计算量;为保持多分辨率的特征提取,该架构又为剩余阶段网络添加了轻量化的全卷积U型并联模块,保持了原始HRNet的检测精度。其在同等参数量与浮点运算量的人体姿态估计算法中有着更高的检测精度。下一步将继续对并联模块进行进一步优化设计,提升其大尺度样本的检测精度,形成一种更加轻量化和精确高效的人体姿态估计网络架构。

猜你喜欢

关键点并联特征提取
论建筑工程管理关键点
肉兔育肥抓好七个关键点
识别串、并联电路的方法
建筑设计中的防火技术关键点
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
并联型开关稳压电源的常见故障与维修
基于Daubechies(dbN)的飞行器音频特征提取
柴油发电机并联控制器的思考