基于循环推理网络的人脸关键点检测算法

2023-06-25王兴

现代信息科技 2023年4期

摘要：人脸关键点检测是计算机视觉任务中研究的一个重要话题。但目前的人脸关键点检测算法只能有效地提取人脸的表观信息，未能充分挖掘人脸的结构信息。为了解决上述问题，提出了循环推理网络用于人脸关键点的检测，通过分批次循环递归地学习人脸结构信息和人脸表观信息，使得神经网络能有效地提取人脸的结构信息。通过在AFLW2000-3D数据集的实验表明，文章的算法优于其他经典的人脸关键点检测算法。

关键词：人脸关键点检测；人脸表观信息；人脸结构信息；神经网络

中图分类号：TP391.4 文献标识码：A 文章编号：2096-4706（2023）04-0091-04

Face Landmark Detection Algorithm Based on Recurrent Inference Network

WANG Xing

（Beijing China-Power Information Technology Co.， Ltd.， Beijing 102208， China）

Abstract： Face landmark detection is an important topic in computer vision tasks. However， the current face landmark detection algorithm can only effectively extract the face apparent information， but not fully explore the structural information of the face. In order to solve the above problems， a recurrent inference network is proposed to detect the landmark of the face. The neural network can effectively extract the structural information of the face by learning the structural information and the apparent information of the face recursively in batches. Experiments on AFLW2000-3D datasets show that the proposed algorithm outperforms other classical face landmark detection algorithms in this paper.

Keywords： face landmark detection; face apparent information; face structure information; neural network

0 引言

隨着深度学习的不断发展，计算机视觉成为深度学习领域的研究的热点问题。3D人脸重建[1，2]和人脸关键点[3，4] 是计算机视觉中两个基本且高度相关的任务。近几十年来，这两个任务相互促进，取得了令人瞩目的成果。Blanz等[5]提出了一种基于主成分分析（PCA）的3D人脸可变形模型（3DMM）。3DMM是一种基于统计参数模型，它将3D人脸近似为形状和纹理的线性组合，包括形状参数和纹理参数，形状参数又包括身份参数和表情参数。通过参数的线性组合可以更好地处理具有不同姿势和光照的2D人脸图像。然而，当人脸在强光下或存在较大姿态时，存在大量不可见的表观信息，导致回归的组合参数误差较大。在姿势非常大的情况下，光照和大姿势的影响会降低网络性能。为了解决极端环境下光照和大姿态的影响，Lee[6]，Qu[7]和Liu[8]建议丢弃在大姿势中自遮挡的关键点，将其作为缺失数据处理，有效提取人脸模型的表观信息，从而提高回归的准确性。这种方法只增强了人脸的表观信息，没有考虑人脸的几何结构信息。Feng[9]认为3D人脸关键点的变化与3D人脸重构形状的变化是一致的，因此他们提出了将人脸关键点检测和3D人脸重建的协同工作。在协同工作时，将人脸关键点的位置变化信息作为3D人脸重建的先验信息进行人脸重建的回归任务。这种方法虽然考虑了人脸结构信息，但是通过级联回归进行回归是非常耗时的。在上一个工作中，为了解决极端情况光照、大姿态和耗时的问题，提出了一种用于人脸地标检测与重建（GSRN）的图结构推理网络[10，11]。当人脸被遮挡时，被遮挡部分的表观信息缺失，神经网络无法利用表观信息对齐人脸关键点。但上述工作中，存在无法充分学习人脸的结构信息。为了解决上述问题，本文提出了循环推理网络为人脸关键点对齐和人脸重建。通过分批次的循环地进行人脸结构信息和进行人脸表观信息的学习，更有效的提取了人脸的结构信息和表观信息。循环推理网络的结构图，如图1所示。

本文的贡献如下：

（1）针对在无约束的自然环境下，存在遮挡和大姿态自遮挡的问题，本文提出了循环推理学习网络，通过分批次的形式将人脸结构信息与人脸的表观信息循环的学习，更有助于神经网络提取人脸的结构信息和表观信息。

（2）通过大量实验证明，本文的算法在人脸检测的精度都有所提升，并且提出的方法可以有效地处理遮挡和大姿态场景下的人脸关键点。

1 方法介绍

1.1 网络结构

为了解决目前的人脸关键点检测算法只能有效的提取人脸的表观信息，未能充分挖掘人脸的结构信息的问题，提出了循环推理网络用于人脸关键点的检测，通过分批次循环递归的学习人脸结构信息和人脸表观信息，使得神经网络能有效的提取人脸的结构信息。循环推理网络主要分为两个部分：人脸表观信息提取和人脸结构信息提取。人脸表观信息提取部分主要提取人脸的表观信息和部分人脸结构信息；人脸结构信息主要进行人脸的五官结构的提取。人脸表观信息提取包括四个损失函数：加权参数距离成本Lwpdc[12]、点距离损失函数Lossvdc[12]、LossWing[13]和图结构损失Lossgra[10，11]。人脸结构信息是通过Lossgra[10，11]损失函数进行人脸五官结构信息的提取。通过批次的不同，神经网络循环提取人脸的结构信息和表观信息，使神经网络更能充分挖掘人脸的结构信息。网络流程示意图如图2所示。

给定一张输入图片X，首先将图片送入DAMD-Net网络提取人脸的表观和结构特征。提取的特征可以表示为：

F=Wc*X

其中*表示一系列扩张卷积、稠密网络、空间注意力和通道注意力等操作，Wc表示所有参数。F代表DAMD-Net提取的特征。

αPose_all，αId_all，αExp_all=f （F）

αPose_grap，αId_ grap，αExp_grap=f （F）

其中αPose_all代表表观姿态参数，αId_all代表表观身份参数，αExp_all代表表观表情参数；αPose_grap代表结构姿态参数，αId_ grap代表结构身份参数，αExp_grap代表结构表情参数。

这些参数通过3DMM模型可以得到人脸重建模型Vall和Vgrap：

其中AId代表身份基，AExp代表表情基。将重建的人脸模型中根据固定的索引选取相应的点就可以得到68个人脸关键点V68_all和V68_grap：

V68_all=Vall[ind， ; ， ;]

V68_grap=Vgrap[ind， ; ， ;]

其中ind代表人脸关键点在人脸重建模型中的索引，总共有68个。将68个关键点进行图结构的建立得到Lossgrap [11，12]。

1.2 损失函数

当训练批次为奇数时，仅采用图结构损失函数Lossgrap，该函数可以有效提取人脸的结构信息：

Lossgra=λLossglo+Losspart

其中，λ代表权重掩码，λ≥1。

当训练批次为偶数时，采用加权参数距离成本Lwpdc、点距离损失函数Lossvdc、LossWing[13]和图结构损失Lossgra[10，11]组合Loss：

Loss=Lwpdc+Lossvdc+LossWing+Lossgra

2 实验分析

实验中采用的硬件环境是RTX 3070系列显卡进行网络的训练。数据流的处理采用的是12核Intel（R） Xeon（R） Platinum 8255C CPU @ 2.50 GHz。使用ubuntu18.04的操作系統，使用Python 3.8以及PyTorch 1.9.0-GPU版本。

2.1 数据处理及实现细节

循环推理网络的输入是一张二维图，该图像的面部ROI由人脸检测器定位。本文采用Dlib SDK进行人脸检测。首先将检测到的人脸边框放大0.25倍，裁剪人脸ROI的正方形图像块，并将其缩放到120×120。神经网络输出两个62位参数，分别是表观约束侧的输出参数和结构约束侧的损失函数。其中前12个参数代表姿态参数，中间40个参数代表身份参数，后10个参数代表表情参数。这些参数通过3DMM模型得到三维的人脸模型，然后通过相应的索引得到3D人脸关键点，最后通过三维人脸关键点得到图结构表示结构。当批次为偶数时，通过参数约束损失函数、人脸重建损失函数、三维人脸关键点损失函数和图约束损失函数来完成模型参数的优化。当批次为奇数时，通过图结构损失函数进行网络的优化。对于超参数，设置的超参batchsize大小为128，采用自适应随机梯度下降法（Adam）。总训练60个批次，前15个批次的学习率为0.002，后面每15个批次就衰减为原来的0.2。本文的训练数据集采用的是300W-LP[14]，测试数据集采用的是AFLW2000-3D[15]。

2.2 评价标准

本文采用归一化平均误差和累积曲线误差两种方式的两种评价标准进行算法的评价。为了验证本文算法的有效性，在归一化平均误差和累积曲线误差评价中，本文通过和多个经典的深度学习方法进行了比较和分析。

平均误差比较：本文采用了归一平均误差作为人脸关键点检测的评价标准之一。平均误差计算公式为：

其中di表示图片检测框的对角线距离，N表示图片个数，fi表示尺度因子，Ri表示旋转矩阵，Vi指人脸关键点，ti为平移向量，αId，αExp分别表示身份参数和表情参数。为真实值。对于平均误差而言，平均误差越小则表明算法的准确率越高，平均误差越大则表明算法的准确率越低。

累积误差曲线（CED）：为了使本文的算法更加直观，本文绘制了NME误差的累积误差分布（CED）曲线，通过与经典的人脸检测算法进行比较，从而更直观的证明方法的有效性。CED曲线的计算公式为：

其中l为误差阈值，e代表当前的误差，Ne≤1代表所有图片中误差小于l的图片个数，N代表所有图片的个数。

而对于累积误差曲线，横坐标代表误差的阈值，纵坐标代表图片占的百分比，当曲线位于左上方时，代表算法的准确率越高，反之亦然。

2.3 实验结果

本文采用AFLW2000-3D[15]数据集作为测试样本，在AFLW2000-3D数据集中，2 000张图像作为测试样本根据测试集的绝对偏航角将其分为三个子集：[0，30），[30，60）和[60，90]分别为1 312、383和305个样本，其中[0，30]代表小姿态，[30，60]代表中姿态，[60，90]代表大姿态。本文算法与经典的人脸关键点检测算法RCPR[16]、ESR[17]、SDM[18]、3DDFA[19]、DAMDNet[6]和GSRN[10，11]等算法做了对比。表1给出了AFLW2000-3D数据集人脸对齐的NME%（归一化平均误差）。

从表1可以看出，本文的循环推理网络算法在AFLW2000-3D数据集上相比与GSRN（图结构推理网络）的归一化平均误差提高了0.017个点，在小姿态和大姿态的情况下分别提高了0.051和0.057，从而证明了本文方法在人脸关键点检测的有效性。与经典的3DDFA算法相比，本文的算法归一化平均误差平均提升了1.708，其中在小姿态和中姿态分别提升了1.021和0.875。特别是在大姿态的情况下，本文的算法提升了3.216。从而证明了本文的算法在大姿态的情况下提升了很大的准确率，对大姿态遮挡的情况下具有很好的鲁棒性。

為了更直观地说明本文算法的有效性，本文在AFLW2000-3D数据集上进行了CED曲线图的比较，如图3所示。

从图3可以看出，与经典算法DeFA、3DDFA、DAMDNet、GSRN（距离）和GSRN（距离+方向）相比，本文算法的黑色曲线位于其他经典算法的左上方，可以看出本文的算法优于这些经典的人脸关键点检测算法，从而证明了本文算法的有效性。与算法GSRN（距离）和GSRN（距离+方向）相比，本文曲线大部分位于其左上方，从而证明的本文方法在改进GSRN算法的有效性，同时也证明了在人脸大姿态的情况下，该算法具有很好的鲁棒性。

3 结论

人脸关键点检测是计算机视觉任务中研究的一个重要话题。但目前的人脸关键点检测算法只能有效的提取人脸的表观信息，为了解决其他经典方法未能充分挖掘人脸的结构信息，本文通过分批次递归推理学习人脸结构信息与人脸的表观信息，提出了循环推理网络用于人脸关键点的检测，使得神经网络更能有效的提取人脸的结构信息。本文的算法在300W-LP数据集上进行了训练，在AFLW2000-3D数据集上进行了实验对比。通过与经典的人脸检测算法RCPR、ESR、SDM、3DDFA、DAMDNet和GSRN的实验对比，证明了本文的算法可以有效的提取人脸的表观信息，从而提高人脸关键点检测的准确率。尤其是对于人脸大姿态的情况下，本文算法具有很强的鲁棒性。

参考文献：

[1] JIN Y，LI Q，JIANG D，et al. High-fidelity 3D face reconstruction with multi-scale details [J].Pattern Recognition Letters，2022，153：51-58.

[2] ZHAO D，QI Y. Generative landmarks guided eyeglasses removal 3D face reconstruction [C]//International Conference on Multimedia Modeling. Cham：Springer ，2022：109-120.

[3] SADIQ M，SHI D. Attentive occlusion-adaptive deep network for facial landmark detection [J/OL].Pattern Recognition，2022，125：[2022-09-20].https：//doi.org/10.1016/j.patcog.2021.108510.

[4] FENG S，NONG X，HU H. Cascaded structure-learning network with using adversarial training for robust facial landmark detection [J].ACM Transactions on Multimedia Computing，Communications，and Applications （TOMM），2022，18（2）：1-20.

[5] BLANZ V，VETTER T. Face recognition based on fitting a 3d morphable model [J].IEEE Transactions on pattern analysis and machine intelligence，2003，25（9）：1063-1074.

[6] LEE Y J，LEE S J，PARK K R，et al. Single view-based 3D face reconstruction robust to self-occlusion [J].EURASIP Journal on Advances in Signal Processing，2012（1）：1-20.

[7] QU C，MONARI E，SCHUCHERT T，et al. Fast，robust and automatic 3D face model reconstruction from videos [C]//2014 11th IEEE International Conference on Advanced Video and Signal Based Surveillance （AVSS）.Seoul：IEEE，2014：113-118.

[8] LIU F，ZENG D，LI J，et al. Cascaded regressor based 3D face reconstruction from a single arbitrary view image[J/OL].arXiv：1509.06161 [cs.CV].（2015-08-21）.https：//arxiv.org/abs/1509.06161v1.

[9] FENG L，ZENG D，ZHAO Q，et al. Joint face alignment and 3d face reconstruction [C]//European Conference on Computer Vision.Cham：Springer，2016：545-560.

[10] WANG X，LI X，WU S. Graph structure reasoning network for face alignment and reconstruction [C]//International Conference on Multimedia Modeling. Cham：Springer，2021：493-505.

[11] 王兴.基于人脸关键点和三维重建的算法研究与实现 [D].宁夏：宁夏大学，2020.

[12] JIANG L，WU X J，Kittler J. Dual Attention MobDenseNet （DAMDNet） for Robust 3D Face Alignment [C]//2019 IEEE/CVF International Conference on Computer Vision Workshop （ICCVW）.Seoul：IEEE，2019：504-513.

[13] FENG Z H，KITTLER J，AWAIS M，et al. Wing loss for robust facial landmarklocalisation with convolutional neural networks [C]//In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE，2018：2235-2245.

[14] CHENG X，WANG P，YANG R. Learning depth with convolutional spatial propagation network [J].arXiv：1810.02695 [cs.CV].（2018-10-04）.https：//arxiv.org/abs/1810.02695v3.

[15] BELHUMEUR P N，JACOBS D W，KRIEGMAN D J，et al. Localizing parts of faces using a consensus of exemplars [J].IEEE transactions on pattern analysis and machine intelligence，2013，35（12）：2930-2940.

[16] YU X，HUANG J，ZHANG S，et al. Face landmark fitting via optimized part mixtures and cascaded deformable model [J].Transactions on Pattern Analysis & Machine Intelligence，2016（11）：2212-2226.

[17] BURGOS-ARTIZZU X P，PERONA P，DOLLAR P. Robust face landmark estimation under occlusion [C]//2013 IEEE International Conference on Computer Vision.Sydney：IEEE，2013：1513-1520.

[18] CAO X，WEI Y，WEN F，et al. Face alignment by explicit shape regression [J].International Journal of Computer Vision，2014，107（2）：177-190.

[19] ZHU X，LEI Z，LIU X，et al. Face alignment across large poses：A 3d solution [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE，2016：146-155.

作者簡介：王兴（1996—），男，汉族，宁夏中卫人，研发工程师，中级职称，硕士研究生，研究方向：计算机视觉（人脸关键点检测、人脸重建、年龄估计、OCR识别技术）。

收稿日期：2022-10-08