耦合关系自学习的人脸年龄估计研究
2022-04-21田青毛军翔曹猛
田青,毛军翔,曹猛
(1.南京信息工程大学 计算机与软件学院,江苏 南京 210044;2.南京信息工程大学 数字取证教育部工程研究中心,江苏 南京 210044;3.东南大学 计算机科学与工程学院,江苏 南京 210096)
如今,计算机技术飞速发展,人脸年龄估计(age estimation,AE)作为机器学习、模式识别领域的经典研究课题,吸引了众多学者的目光,并被广泛应用于辅助身份识别[1]、智能服务推荐[2-4]等众多应用场景。
鉴于人脸的连续变化,绝大多数现有工作借助不同的人脸先验信息关系构建AE 模型。有序性为AE 工作中常用的先验关系。文献[5]提出一种LBP 特征的代价敏感版本CS-LBPL,将代价敏感学习融入LBP 特征,借助超平面序列排序器进行AE。文献[6]考虑直接在特征上利用年龄属性的有序信息,并提出一种用于保持人脸图像局部流型结构与年龄间序列特征的特征提取方法,随后借助超平面序列排序器获取AE 结果。文献[7]引入Lp范数计算类别中心,以便获取更鲁棒的有序投影。文献[8]结合AlexNet 网络提出一种输出有序回归损失预测年龄。文献[9]认为OR-CNN[8]未能保护面部图像之间的有序关系,由此提出ODFL 算法预训练VGG-16 网络,以提取面部图像的有序结构关系。鉴于人脸老化过程包含连续渐变的特性,近邻相似关系被考虑运用至AE。文献[10]提出标记分布学习(label distribution learning,LDL)以刻画年龄属性的近邻相似性。随后,文献[11-13]借助深度网络学习图像特征并结合LDL,获得更优的AE 结果。另一方面,文献[14]结合深度随机森林采用LDL 刻画年龄的近邻相似语义信息。
尽管现有AE 工作估计性能表现较好,然而绝大部分工作仅着重考虑有序性、近邻相似性等年龄属性的固有特性,或者AE 任务与其余面部属性估计任务的关联,极少AE 工作考虑挖掘年龄属性内部潜在的关系。为利用人类年龄属性存在有序性、近邻相似性等固有特性,同时挖掘年龄属性内部潜在关系,文献[15-16]尝试将累积属性编码(cumulative attribute,CA)[17]结构作为AE先验信息,挖掘CA 编码内在关系,并取得了良好的AE 效果。这一现象验证了CA 编码之间存在潜在关系。
与此同时,文献[18]指出,基于面部特征空间混合高斯建模的年龄估计效果优于单高斯建模。这一事实表明人脸特征空间应服从混合高斯分布,而混合高斯分布的多峰性表征了随着人类年龄的增长,面部各区域容貌变化程度不一致的事实。因此,本文认为同一幅图像所提取的各维度特征向量之间应该存在某种未被发掘的内在联系,即人脸样本特征之间存在潜在联系。
不仅如此,样本特征关系经过回归函数映射至CA 编码空间后,这些关系将线性传递至对应编码之中,原始面部特征之间的关系经过线性变换传递至输出空间。因此,在AE 问题当中,这种线性变换,即投影矩阵W,作为输入输出的桥梁亦蕴含某种潜在关系有待发掘。
为发掘上述3 种潜在关系,即输入特征关系、输出编码关系以及输入输出关系,本文提出一种耦合(本文耦合不仅指在输入与输出的耦合,同时指在样本空间或编码空间内的自关系耦合。)关系自学习年龄估计模型CRSAE (coupled relationships self-learning age estimation)。具体而言,本文借助CA 编码策略编码年龄标签以刻画人脸固有的有序特性与近邻相似特性。与此同时,为投影矩阵W构建矩阵变量高斯分布模型用以挖掘输入特征关系与输出编码关系,并引入一个低秩结构矩阵用以捕获输入输出关系。有别于现有的年龄属性关系挖掘模型,本文提出的CRSAE模型不仅能够利用这三类耦合关系,同时能够自动挖掘这些潜在关系而无需手工定义。鉴于面部特征具有高度非线性的特性[19],本文在所提出的模型的基础上引入深度架构进一步提升模型的泛化能力。
1 相关工作
在AE 问题中,Chen 等[17]为保留年龄标签的近邻相似性、有序性等内在特性,对one-hot 编码策略[20]进行改进,提出了CA 编码策略,其编码形式为
随后,Tian 等[15]为挖掘CA 编码内部的潜在关系,对标签编码矩阵引入差分操作,用来描述标签编码矩阵的0 阶和1 阶关系,其损失函数为
式中:λ1、λ2、λ3为非负超参数;Yk表示样本标签对应的CA 编码矩阵第k维行向量。鉴于线性回归函数可等价为,因此式中表示拓展后的样本矩阵,表示拓展后的投影矩阵,目标函数第1 项代表经验损失,第2 项用于控制模型复杂度,第3 项用于刻画0 阶CA 关系,第4 项用于刻画1 阶CA 关系。鉴于篇幅关系,具体模型请参考文献[15]。
尽管上述CA 编码关系挖掘方法取得了良好的效果,然而同样由于差分操作的引入致使CA编码的原始结构遭到破坏。为此,文献[16]从投影矩阵W的列关系入手,构建如式(3)所示的目标函数,在保留CA 编码原始结构关系的同时,自动发掘CA 编码之间的潜在关系。为方便阐述,本文将此模型称为AELR (age estimation through exploring label relationships)。
2 耦合关系自学习的人脸年龄估计
虽然文献[15-17]的工作在AE 任务上取得了一定成功,但是其仅对CA 编码关系做了单方面挖掘,并未挖掘更深层或多层面的年龄属性潜在关系,从而使得AE 模型泛化性能较弱。为克服这一问题,本文提出一种耦合关系自学习的人脸年龄估计模型(CRSAE),分别从输入特征关系、输出编码关系以及输入输出关系3 层面发掘年龄属性的潜在关系。CRSAE 流程图如图1 所示。首先,对训练数据集进行人脸特征提取,得到面部特征向量。随后,结合CA 编码策略,对样本标签进行CA 编码,与此同时,引入的关系矩阵表示的编码关系约束、特征关系约束和输入输出关系约束,进行多层面耦合潜在关系挖掘。最后,通过SVR 回归器将CA 编码映射到年龄标量空间。
图1 耦合关系自学习的人脸年龄估计模型(CRSAE)流程Fig.1 Flowchart of coupled relationships self-learning age estimation
2.1 耦合关系自学习的人脸年龄估计模型构建
受Zhang 等[21]工作的启发,本文将投影矩阵W∈Rd×K视作随机矩阵,采用矩阵正态分布为其建模,以获取其行结构与列结构关系,其概率密度函数为
式中:随机矩阵变量W服从矩阵正态分布:Ψd×K(W|E,ΩF,ΩC)代表其概率密度函数。E∈Rd×K表示随机矩阵变量W的期望;ΩF和ΩC分别为矩阵W的行协方差矩阵和列协方差矩阵。由矩阵W的定义可知,其行结构关系与列结构关系可视作对样本输入特征关系与输出编码关系的刻画。因此,对这两类具有内部耦合性的潜在关系挖掘,可借助对协方差矩阵 ΩF与 ΩC的参数估计实现。此时,样本特征内部的潜在关系可以通过对 ΩF建模来体现,CA 编码内部潜在关系可以通过对 ΩC建模来体现。与此同时,为便于计算,本文将期望矩阵E设为零矩阵。
为建模刻画协方差矩阵 ΩF与 ΩC,本文结合回归模型f(xi)=WTxi+b,先对随机矩阵W进行最大后验估计,随后对参数b、ΩF、ΩC进行最大似然估计,得到如下所示的目标函数:
式中:tr(·)=1用于控制模型复杂度,ΩF,ΩC0 用于保证模型的凸性质。目标函数的第1 项为经验损失,第2 项用于控制模型整体复杂度,第3 项为关系自动挖掘项用以自动挖掘样本输入特征关系与输出编码关系。
与此同时,样本输入特征与输出编码之间亦存在潜在的耦合关系。同类样本之间存在类不变特征表示,同时人脸原始特征之间存在块相关的特性,即样本特征关系;经过回归函数WTX+b映射至CA 编码空间后,这些关系将线性传递至对应编码之中。因而,作为输入输出中间桥梁的投影矩阵W蕴含某些潜在关系有待挖掘,本文称为输入输出关系。为挖掘这种关系,受文献[22-23]启发,本文在目标函数(5)的基础之上引入一个结构矩阵S,并对其施加低秩惩罚。因此,式(5)模型被重写为
式中:λ1、λ2、λ3、λ4为超参数;S∈RK×K代表构造的结构矩阵,用于刻画潜在的回归结构。第3 项用于控制模型复杂度,第4 项用于去除冗余关系,以便提取更有效的关系结构。
鉴于引入低秩约束项rank(S)导致目标函数(6)变成NP-hard 问题[24],不利于求解。为此,本文采用核范数||S||∗替换低秩函数[25],即最终CRSAE 模型如下:
值得注意的是,本文采用核范数自动去除原始特征空间传递至输出标签空间中的冗余关系。若直接对W施加低秩约束,一方面直接破坏了原本的回归结构,使得输出有效类数目小于K,显然不合理;另一方面,由式(4)、(5)中导出,若直接加入,则扭曲了矩阵正态分布的建模假设。鉴于矩阵具有线性组合的特性,本文单独引入结构矩阵S刻画样本输入特征与输出编码关系,以避免上述问题。
2.2 耦合关系自学习的人脸年龄估计模型求解
为便于求解式(7),本文基于ALM 策略[26],提出一种交替优化算法。具体而言,首先引入一个辅助矩阵Z对其进行目标的等价转换,转换后的目标函数为
随后,对式(8)进行拉格朗日增广,得如下形式:
最后,采用类似交替优化算法,优化待求解标量。
求解。当固定其他四者时,式(9)可以写成:
对式(11)采用梯度下降算法更新:
求解S。当固定其他四者时,式(9)可以写成:
然后计算J关于S的梯度,并令 ∂J/∂S=0,便可得到S的闭合解:
求解 ΩC。当固定其他四者时,依据文献[16],ΩC具有闭合解:
求解 ΩF。当固定其他四者时,ΩF具有相似的闭合解形式:
求解Z。当固定其他四者时,式(9)变成:
此时Z具有闭合解:
本文用Id/d初始化ΩF,IK/K初始化ΩC,IK初始化S,其中IR为R阶单位矩阵,不断重复上述步骤直到式(9)收敛,此时、ΩF、ΩC、S即为模型最终解。综上所述,耦合关系自学习的人脸年龄估计模型求解算法如下。
算法CRSAE 优化算法
2.3 模型的深度化拓展
为进一步提升模型性能,将对提出的耦合关系自学习的人脸年龄估计模型(CRSAE)进行深度化拓展,得到Deep-CRSAE 模型。具体如图2所示,本文采用VGG-16 深度卷积神经网络作为基础架构,调整其最后一层全连接层的大小以适应CA 编码,同时将最后原本的SoftMax 函数及交叉熵损失移除,替换为CRSAE 目标函数。通过这样的设置,显式的特征关系自学习约束 ΩF可以经过反向传播作用于每一层神经网络,提高深度网络的特征学习能力。同样,显式的编码关系约束 ΩC和输入输出关系约束S也可作用于每一层,获得性能更加优越的年龄回归器。
图2 CRSAE 深度化拓展示意Fig.2 Schematic diagram of Deep-CRSAE
3 实验设置与结果分析
3.1 数据集选择
为评估于第2 节中提出的潜在关系自学习的人脸年龄估计模型,本文在4个广泛应用于年龄估计任务的数据集上进行了实验:FG-NET[27]、Morph I[28]、Morph II[28]和Cross-Age Celebrity Data Set(CACD)[29]。
3.2 实验设置
在特征提取阶段,为估计提出模型在特征表示层面的泛化能力,本文为不同数据集采用不同的特征提取方法。在FG-NET 和Morph I 数据集上,提取AAM 特征[30],在Morph II 数据集上提取BIF 特征[31],而对CACD 数据集提取HoG 特征[32]。然后,对于提取的样本特征,采用PCA 降维算法保留95%的信息。降维后,FG-NET 数据集特征维度为200 维,Morph I 数据集为49 维度,Morph II数据集为146 维度,而CACD 数据集为204 维。
超参数 λ1、λ2、λ3、λ4采用五折交叉验证网格搜索选取的方式在[10−2,10−1,100,101,102]范围内选取。为评估模型性能,本文采用平均绝对误差(mean absolute error,MAE)进行测量,其定义如式(22)所示。其中fi和yi分别表示第i测试样例的预测年龄值和真实年龄值。
为验证提出模型的有效性与先进性,在线性模型对比实验中,本文采用下列相关方法进行实验对比:
1)LSR[17]:采用one-hot 编码的最小平方回归模型;
2)caLSR[17]:采用CA 编码的最小平方回归模型;
3)CAOSR[15]:挖掘CA 编码0 阶关系的模型;
4)CAADOR[15]:挖掘CA 编码0 阶与1 阶关系的模型;
5)AELR[16]:挖掘CA 编码关系的自学习模型;
6)CRSAE:本文提出的模型,采用CA 编码,其目标函数如式(6)所示。
而在深度模型对比实验中,本文采用以下方法进行对比:
1)OR-CNN[8]:基于有序回归的深度架构;
2)D2C[33]:深度累积信号对比年龄估计模型;
3)ODFL+ODL+Cross-Entropy[9]:有序特征嵌入的深度年龄估计模型;
4)C3AE[34]:结合LDL 的紧凑深度年龄估计模型;
5)1CH[35]:基于有序学习的深度年龄估计模型;
6)Deep-CRSAE:本文提出模型的深度拓展形式,具体见第2.3 节。
3.3 实验结果与分析
在线性和深度情况下,将本文提出的潜在关系自学习模型与对比方案的预测性能进行比较并结果分析。
3.3.1 线性模型对比实验
本部分主要展示和分析CRSAE 与其他5 种对比模型的实验结果,其中加粗部分表示最优结果,下划线部分表示次优结果。
由表1~4 展示的实验结果,可以得到以下几点结论:1)所有AE 模型的MAE 值均随训练样本数量的增加而降低,说明了训练样本数量的增加有助于AE 模型捕获更加精确的潜在关系;2)采用CA 编码策略的LSR 模型,即caLSR 模型的MAE 值优于采用one-hot 编码策略的LSR 模型。说明了相较于one-hot 编码,CA 编码更能有效利用面部年龄属性的先验信息,如有序性、近邻相似性;3)发掘CA 编码关系的AE 模型性能均优于caLSR 模型。该结果验证了CA 编码关系的客观存在性,并且对此关系的挖掘能够提升AE 预测性能;4) 在绝大多数情况下,AELR 模型优于CAOSR 模型及CAADOR 模型。说明了尽管CAOSR 模型和CAADOR 模型尝试通过挖掘CA 编码的0 阶和1 阶关系来刻画CA 编码潜在关系,但是由于差分操作破坏了原始编码结构,导致整体模型鲁棒性减弱,而AELR 模型通过自学习的方式,保留了CA 原始编码结构,提高了AE 模型的鲁棒性;5)本文提出的CRSAE 取得了所有情况下的最优值。这有力地说明了CRSAE在AE 任务上的有效性及先进性,同时输入特征关系、输出编码关系以及输入输出关系的挖掘利用能够提升模型的鲁泛化能力。
表1 在FG-NET 数据集上的年龄估计结果对比(MAE±STD)Table1 Comparison of age estimation results on FG-NET dataset (MAE±STD)
表2 在Morph I 数据集上的年龄估计结果对比(MAE±STD)Table2 Comparison of age estimation results on Morph I dataset (MAE±STD)
表3 在Morph II 数据集上的年龄估计结果对比(MAE±STD)Table3 Comparison of age estimation results on Morph II dataset (MAE±STD)
表4 在CACD 数据集上的年龄估计结果对比(MAE±STD)Table4 Comparison of age estimation results on CACD dataset (MAE±STD)
3.3.2 深度模型对比实验
本文采用预训练好的VGG-16 作为基础架构,并使用SGD 优化器。此外,设置权重衰减为0.000 5,动量为0.9,批次大小为64,初始学习率为0.001 且每30 轮epoch 缩减为原来的10%。根据上述设置,本文使用80%的Morph II 和CACD数据集进行训练,剩余样本进行测试。表5 汇总了MAE 对比结果。
表5 在Morph II 与CACD 数据集上基于深度架构的年龄估计对比结果(MAE)Table5 Comparison of age estimation results on Morph II and CACD dataset based on deep framework(MAE)
从表5 可以看出,相较于另外5 种深度学习方法,Deep-CRSAE 在AE 任务上取得了更低的MAE 值,从而也再一次说明了本文所提出的耦合关系挖掘策略在深度架构上依然有效,CRSAE 具有优越鲁棒性和泛化性。
4 结束语
本文主要探索了人脸年龄估计问题中,输入特征关系、输出编码关系以及输入输出关系对年龄估计的影响。首先,利用投影矩阵W的行列协方差矩阵 ΩF、ΩC对编码关系和特征关系进行建模。随后,引入一个结构矩阵S对输入输出关系进行发掘,从而构建了一种耦合关系自学习的人脸年龄估计模型(CRSAE)。然后,在原始关系挖掘策略上引入深度先验信息,对原始模型进行深度化拓展(Deep-CRSAE)。最后,在FG-NET、Morph I、Morph II 和CACD 这4个年龄数据集上进行了实验,验证了所提出模型的有效性和鲁棒性。