基于投影与深度学习网络的三维人脸特征点定位方法
2018-01-09杜星悦董洪伟杨振
杜星悦+董洪伟+杨振
摘要:标定三维人脸模型特征点对人脸识别、人脸建模等都具有重要作用。针对人脸特征点标定需要手工干预、标定特征点个数少或不准确、标定时间长等问题,提出了一种基于投影与深度学习网络的人脸三维模型特征点标定法。基于正交投影,生成人脸三维模型二维深度图与二维特征点位置,采用以卷积神经网络为主的深度学习网络模型训练测试,将深度图上特征点映射到三维人脸模型,实现眉毛、眼睛、鼻尖、嘴巴等重要区域的特征点定位。实验表明,该方法可自动标定三维人脸模型特征点,快速、准确预测足够数量特征点位置。
关键词:三维人脸;特征点定位;投影;卷积神经网络
DOIDOI:10.11907/rjdk.171924
中图分类号:TP301
文献标识码:A 文章编号:1672-7800(2017)012-0012-03
Abstract:Calibration of the three-dimensional face model feature points has an important role on face recognition, face modeling, and so.Some problems still exist,like that Face feature points need to be manually calibrated, the number of calibration points is small or inaccurate, the calibration time is long, and so on. A feature point calibration method of face 3D model based on projection and depth learning network is proposed. Firstly, based on the orthogonal projection, the two-dimensional depth map and two-dimensional feature point position of the human face 3D model are generated.Then we use the depth learning network model, mainly based on the convolution neural network, to train and test, and map the feature points on the depth map to the 3D human model .Finally,we achieve facial key points on eyebrows, eyes, the nose tip and the mouth. Experiments show that this method can automatically calibrate enough 3D face model feature points, fastly and accurately.
Key Words:three dimensional; face feature point positioning; projection; convolution neural network
0 引言
二维人脸识别技术发展迅速,但没有很好解决光照、表情等问题。光照条件、姿态变化等因素都对二维人脸精确检测与识别有较大影响。近年,三维人脸识别技术受到了越来越多关注。相对于二维人脸识别技术,三维人脸识别技术较容易做到姿态与光照的不变性[1-2]。随着技术发展,三维模型获取日趋简化,促进了三维人脸识别[3-4]、三维表情识别[5-6]、三维人脸分割[7-8]等三维人脸方面的研究。
国内外关于三维人脸特征点定位的一些研究包括:①基于曲率进行特征点定位,曲率是三维研究中重要基本属性之一,且有欧氏变换不变性,Chang等[9]综合利用平均曲率及高斯曲率定位眼眶、鼻尖、鼻梁等人脸特殊区域。基于曲率的三维特征点定位算法缺点是对于数据噪声较为敏感,除了内眼点以及鼻尖点外,其余特征点定位效果达不到要求;②王蜜宫等[10]基于局部形状图的方法,半径大小选择很关键,但大小确定较困难,选择不当直接影响结果精度,且只能对个别几个特征点进行预测;③利用较成熟二维图像数据人脸特征点定位技术,辅助定位三维人脸数据特征点,但此类算法要求三维数据存在二维辅助图像,无法仅用于三维信息人脸数据。
结合上述研究以及解决方法不足之处,本文提出基于正交投影获得三维数据对应二维深度图与深度学习网络进行三维人脸特征点的定位方法。
1 正交投影
正交投影理论介绍如图1所示,在右手坐标系中,观察空间中正交投影矩形观察体,原点代表相机位置,f代表远裁剪面到相机面距离,n代表近裁剪面到相机面距离,p是该空间中某一个点,p′是点p投影之后得到的点。
2 深度学习卷积神经网络
深度学习卷积神经网络算法,采取局部连接与权值共享方式,网络结构除了输入与输出层,还包括中间卷积层、抽样层、全连接层。当网络输入层是多维图像时,卷积神经网络避免了传统复杂的特征提取与数据重建过程,优点更为明显。其在二维图像处理上有众多优势,如网络能自行抽取颜色、形状、纹理等图像特征,具有良好魯棒性、运算效率等。输入若干由d维人脸构成图像x∈Rd,p维目标输出变量Tg(x)∈Rp,深度学习卷积神经网络学习出一个从图像到目标值的映射函数:F:x→T。映射F是复杂的非线性函数,各层网络作用可看作最小化以下目标函数:
3 算法
3.1 流程
本文方法流程主要分为训练及测试。
(1)训练。①标定三维模型特征点位置;②对三维模型进行正交投影;③获得深度图像(包括三维特征点所对应二维坐标位置);④深度网络训练:以卷积神经网络为主要结构(样本是深度图的值,标签是特征点二维坐标)进行训练。
(2)预测。①输入三维模型进行正交投影获得深度图像(不包括特征点位置);②使用已训练好的深度网络对深度图像进行特征点二维坐标预测;③输出二维坐标一一反投影到三维坐标,在三维模型上得到特征点位置。
其中,本文检测人脸特征点位置目前标记为左眼中心、左眼内侧、左眼外侧、右眼中心、右眼内侧、右眼外侧、左眉外侧、左眉内侧、右眉外侧、右眉内侧、鼻尖、嘴巴上侧、嘴巴下侧、嘴巴左侧、嘴巴右侧共计15个特征点,如图4所示。可自由增加训练样本特征点个数,以预测更多特征点。
3.2 正交投影与透视投影对比
本文之所以采用正交投影,存在合理性。平面投影一般分为正交投影及透视投影。透视投影是视锥观察体,基本原理如图5所示。透视投影会据物体离视点远近缩放物体,深度值会发生一定扭曲。扭曲深度值作为实验数据无法反映真实深度,所以选择正交投影而非透视投影。
3.3 深度网络架构
本文深度网络架构主要由卷积神经网络构成,先是输入层,经过3层以卷积层、池化层为主网络结构,然后是2层全连接层,最后是计算损失层。各层网络主要参数如下:第一层卷积层:kernel size=5,stride=1;下接ReLU层;第一层池化层:kernel size=2,stride=2。第二层卷积层:kernel size=5,stride=1;下接ReLU层;第二层池化层:kernel size=2,stride=2。第三层卷积层:kernel size=3,stride=1;下接ReLU层。然后下接2个全连接层,参数num_output分别为500、30。
本文深度网络架构主要由卷积神经网络构成,与传统机器学习方法(如SVM、随机森林等)相比,深度学习对图像有强大特征提取能力,取得特征更加丰富,取得效果会有一定程度提升。另外,由于本文数据量很大,若使用传统机器学习方法,训练会非常耗时,而深度学习网络依赖更加成熟GPU加速技术,在缩短训练时间上有很大优势。
4 实验
4.1 实验数据
实验数据库采用bfm数据库,库中每个三维人脸包括53 490个点及106 400个三角面。训练200个三维人脸人脸,每个人脸绕着xyz轴在一定范围旋转加上平移得到50个不同姿势下深度图像,增加训练样本大小。再在库中选取200个三维人脸进行后期测试。
4.2 实验结果
硬件条件为显卡gtx960,本文运用GPU加速并行架构。GPU近年来发展迅速,可以极大提升计算速度。在投影阶段GPU加速示意图如图6所示。正交投影200个三维人脸时间,计算时间单CPU模式下约2h,GPU模式下约15min,提高10倍左右。
训练卷积神经网络,迭代50 000次,在GPU模式下训练时间为25min左右,效率比CPU模式下快很多。
4.3 结果分析
使用GPU并行技术,大幅缩短训练时间,是本文方法优势之一。另外,从测试实验结果中选取3个三维人脸,特征点结果预测结果如图7、图8、图9所示。实验表明,运用本文方法来预测人脸,三维人脸特征点定位结果准确。
5 结语
本文方法利用基于三维人脸模型正交投影生成合理深度值的二维深度图像,结合卷积神经网络强大的图像特征提取及拟合能力,解决了三维人脸特征点需人工手动定位以及标定三维特征点耗时长等问题。由实验结果可见,本文方法训练及测试时间短,三维特征点定位准确,并且可增加三维人脸预测特征点数目。本文实验预测了15个关键特征点,可通过扩充训练库人脸关键特征点数目,预测大于15个三维人脸特征点。
参考文献:
[1] 吕士文,达飞鹏,邓星.基于区域改进LBP的三维人脸识别[J].东南大学学报:自然科学版,2015(4):64-68.
[2] 王健,高媛,秦品乐,等.基于改进的LBP算法的三维人脸识别[J].计算机工程与设计,2016(12):234-238.
[3] 邓星,达飞鹏,杨乔生.基于自适应人脸切割的三维人脸识别算法[J].东南大学学报:自然科学版,2016(2):34-38.
[4] 刘述木,杨建,陈跃.保角特征结合改进差分进化算法的三维人脸识别[J].计算机应用研究,2016(6):304-308.
[5] 李江,冉君军,张克非.一种基于降噪自编码器的人脸表情识别方法[J].计算机应用研究,2016(12):329-332.
[6] 黄建,李文书,高玉娟.人脸表情識别研究进展[J].计算机科学,2016(S2):132-135.
[7] XUN GONG, GUOYIN WANG.Automatic 3D face segmentation based on facial feature extraction[C].IEEE International Conference on Industrial Technology,2006:1154-1159.
[8] 贾晖,耿国华,周明全,等.基于区域离散曲率的三维网格分水岭分割[J].计算机工程与应用, 2015,51(11):182-186.
[9] CHANG K I,BOWYER W,FLYNN P J.Multiple nose region matching for 3D face recognitlon under varying facial expression[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(10):1695-1700.
[10] 王密宫,陈锻生,林超.基于局部形状图的三维人脸特征点自动定位[J].计算机应用,2010 (5):121-124.
(责任编辑:何 丽)