APP下载

一种基于HOG与LBP双特征融合模型的人脸年龄估计方法

2021-08-10刘庆华

关键词:年龄段人脸像素

刘庆华,李 智

(江苏科技大学 计算机学院,镇江 212100)

人脸图像涵盖了众多与个人特性相关的重要信息,如身份、性别、年龄、情绪等.基于人脸图像检测与识别的相关研究近几十年来都是学者们所热衷的领域,最常见的例子就是我们每个人身份证上的人脸图像.目前基于二代身份证的人脸验证技术正在被广泛应用于火车站、银行、机场等公共场所中以实现无人化智能化服务[1].

年龄作为人类的一项重要信息特征,在许多实际应用场景下均有涉及.而基于人脸图像的年龄估计技术也逐渐被广大研究者们所发掘.年龄估计技术可应用于基于年龄的访问限制[2],例如禁止未成年人购买烟酒、限制玩网络游戏的时长,禁止老年人参与刺激型项目等;也可应用于推荐系统,例如针对不同年龄段的消费者提供与之相适应的营销策略;还可应用于人员的排查筛选,例如协助警方缩小嫌疑人的范围.

关于人脸年龄估计的研究,文献[3]首次引入主动外观模型(active appearance model,AMM)的相关概念,以一个年龄函数描述了年龄随着人脸特征变化的过程,并利用一个二次函数来表示年龄大小与面部特征特征向量的映射关系;文献[4]提出一种年龄衰老模式子空间(aging pattern subspace ,AGES)方法,将一个人不同年龄段的一系列图像构成一个年龄衰老模式子空间.近年来,陆续提出更多的年龄估计方法,文献[5]采用偏最小二乘法(partial least squares,PLS)对年龄估计实验进行降维处理,并取得了比常用降维处理方法——主成分分析法(principal component analysis,PCA)更佳的实验效果;文献[6]采用局部定向模式(local direction pattern,LDP)和Gabor小波变换分别提取人脸的全局和局部特征,经过特征融合后再使用PCA法进行降维,最后利用支持向量回归(support vector regression,SVR)模型进行年龄估计,同样取得了良好的实验效果.

基于人脸图像的年龄估计并不是一个简单的过程,因为人类从出生到生长发育,再到成熟衰老是一个十分复杂且不受意识控制的过程,每个人都会因为先天遗传、生活习惯、健康状况等因素而表现出不同的面部特征,这种多样性和不确定性给年龄估计的工作带来了很大的挑战.

人脸在年龄增长的情况下发生的变化主要为:婴幼儿至青少年时期,脸部皮肤光滑富有弹性;而步入中老年之后,则会出现皱纹增多、光泽度降低等特征[7].年少时期的脸部轮廓变化[8],包括脸部整体大小变大,眼睛、鼻子变大,但眼睛占整个脸部比例变小等;成年之后的脸部特征变化,主要表现在皱纹与斑点增多、脸部颜色变深等[9],如图1.

图1 同一人在不同年龄的脸部图像Fig.1 Face image of the same person at different ages

方向梯度直方图(histogram of oriented gradient,HOG)方法与支持向量机方法(support vector machine,SVM)相结合最初被应用于道路行人检测,并取得了不错的实际效果.HOG的变形梯度方向金字塔在跨度较大的人脸年龄数据上表现良好[10];局部二值模式(local binary parrtern,LBP)是一种用于局部纹理信息提取的方法,具有良好的灰度不变性和旋转不变性,在人脸图像的年龄识别实验中取得了良好的效果.

文中将HOG特征与LBP特征二者进行融合,建立一个双特征的年龄估计模型用于估计不同时期人脸的年龄,HOG用于提取人脸轮廓及五官的形状信息,LBP用于提取人脸皱纹信息,二者兼顾整体与局部,对于年龄增长过程中的人脸特征变化在相互补充下可获得更佳的表现.

1 基于HOG、LBP融合模型的年龄估计

针对人脸图像年龄特征提取困难及精确度较低的问题,文中使用LBP和HOG融合模型进行人脸年龄特征的提取,并采用支持向量回归的方法对人脸图像进行年龄回归.图2为该方法的大致步骤.

图2 文中年龄估计方法步骤Fig.2 Age estimation method steps in this paper

对年龄变化所表现出的特征进行提取,遵循的原则是同类图像差异尽量小,不同类图像差异尽量大,即拥有较小的类内距和较大的类间距,如此可增强区分力度;同时尽量让特征提取的时间复杂度降低以提高效率.

1.1 方向梯度直方图

方向梯度直方图是计算机视觉和图像领域用于目标检测的特征描述器[11].其原理是:首先确定一个采样窗口,该窗口以选取的关键点作为中心.将关键点采样窗口设置为一个8×8的像素领域,均分采样窗口为4个大小相等的区域(称其为块或cell),每个块大小是4×4;式(1)计算出每小块每个像素的梯度方向,其中,I(x,y)为像素点(x,y)上的灰度值,θ(x,y)为像素点(x,y)上的梯度方向,随后再计算每小块每个像素的梯度幅值,如式(2),其中,m(x,y)为像素点(x,y)上的梯度幅值.

θ(x,y)=arctan[I(x,y+1)-I(x,y-1))/

(I(x+1,y)-I(x-1,y)]

(1)

m(x,y)=

(2)

图3以单张人脸图像为例说明HOG直方图序列提取过程,箭头方向即为梯度方向.

图3 HOG直方图序列提取过程Fig.3 Extraction process of HOG

1.2 局部二值模式

LBP运用在年龄识别的思想是:在取得的人脸图像中,每个像素均按照3×3的区域划分,以图像中心像素为阈值,将相邻8个像素的灰度值分别与其比较,像素相对中心像素的中心灰度值进行比较,若周围像素值大于中心像素值,则该像素点所在的位置被标记为1,否则标记为0[12-13].如此,在3×3的区域中,就可以产生8个经过比较的之后得出的二进制数,在一般情况下将其转换成十进制数,称之为LBP码,表示区域中心像素点的LBP值,从而反映出该区域的纹理信息.

假设每个像素以灰度值f_c作为阈值,其周围像素的灰度值若满足,则将该点设置为1,否则为0.对其8个邻域进行0/1编码,得到一个长度为8的二进制串,用该二进制串作为该像素的编码,如下:

(3)

1.3 融合模型

在人脸图像的特征提取层面将上述两种特征进行融合,将数据集中的人脸图像统一大小为P×P,随后将其划分为Q×Q个正方形区域,在此正方形区域内采用HOG与LBP两种特征算子,计算得到整体特征.假设每个直方图影响整体的效果一致,即所占权重相同,则在每张图像被分为的(P/Q)2个小区域内计算的区域特征就可以被连接成总体特征.

假设将图像G分为r行r列,G(x,y)表示第x行中的第y个区域,其中R=P/Q,x,y的范围均在[0,r)之间.对于每一个G(x,y)区域,分别采用HOG与LBP算子求取每个区域位置的相应值,随后统计得到直方图H_g和H_l特征,将两者进行融合,得到各小块区域的融合特征,全图共有r×r块小区域,将它们连接起来之后即得到整幅图像的融合特征K.

1.4 年龄估计

要做到精确的年龄估计,目前有两种主流的评价指标,一种是累计指数(cumulative score,CS)[14],另一种是平均绝对误差(mean absolute error,MAE).

建立年龄估计融合模型后,采用支持向量机回归法进行年龄回归[15-16].确定一个回归函数,其通过数据集训练得到,表示人脸图像年龄与特征之间的关系.假设T=[t1,t2,…,tN]与L=[l1,l2,…,lN]分别代表人脸图像特征与其对应的年龄估计值信息,其中N为训练集的样本总量.文中使用交叉留一法与支持向量机方法结合获取年龄回归函数.

支持向量机方法可以在训练样本的学习过程中,获取一个分类超平面将不同类型的数据归为不同类别,其核心是找到最优的分类超平面.在广义上,最优分类平面的定义如下:

s.t.yi[(w·xi)+b]=1-ξii=1,2,…,N

(4)

式中:w为最优分类平面的法向量;ξi≥0为第i个样本的松弛变量;分类错误的样本被称为离群点,C为离群点权重;b为最优分类平面常数项.

核函数一般直接采用径向基函数,定义为:

K(x,z)=exp(-gmma‖x-z‖2)

(5)

式中:gmma为1/2σ2,随后可通过交叉验证法选择式(4)中的离群点权重C与gmma数值得到回归函数.

图4为文中年龄回归方法具体流程.

图4 年龄回归方法流程Fig.4 Flow chart of age regression method

2 基于深度学习的年龄估计

近年来,随着机器计算能力地大幅提高与神经网络理论地不断发展,深度学习逐渐成为科学界及工业界所重点关注的领域,其中最具代表性的就是卷积神经网络(convolutional neural networks,CNN),其在人脸年龄估计上也取得了优异的成绩.文中列举两种具有代表性的采用卷积神经网络来进行人脸年龄估计的案例,并与所提方法进行人脸年龄估计的对比实验.

案例一:文献[17]在人脸年龄估计的实验中先将人脸图像大小调整为60×60,随后输入一个6层的卷积神经网络用于特征提取,其中包含一个输入层、两个卷积层,大小分别为5×5和7×7,两个大小均为2×2的池化层和一个全连接层.这些提取的特征是根据深度学习的衰老模式创造的,将L2~L6层的特征全部提取后进行串联,但是该方法会引起维数的急剧增大,对此通过3种流形学习的方法对特征进行降维,分别为边际Fisher分析法(marginal fisher analysis,MFA)、正交局部投影分析法(orthogonal locality preserving projections,OLPP)和大量类别场景分析法(locality sensitive dscriminant analysis,LSDA).最终实验在FG-NET人脸数据集上取得了理想的结果.

案例二:文献[18]提出了一种多尺度卷积神经网络方法进行人脸年龄估计实验,认为人脸的不同区域所表现出的年龄特征并不完全一致,并针对人脸的不同位置分别训练出多种尺度的卷积神经网络,最终得到的年龄估计值为这些网络输出的平均值.该方法充分利用了人脸局部特征和整体特征之间的联系,尽管需要较为繁琐的人脸关键点分区域标注以及多个卷积神经网络的训练,但实验结果在人脸数据集Morph上表现优良,同对比实验中的其他年龄估计方法相比误差值缩小了1岁以上.

3 实验数据

3.1 人脸数据集选择

文中人脸数据集主要来自FG-NET[19],是一个公开的人脸数据集,其中包含彩色图像和黑白图像,总计1 000张左右82个不同人的脸部照片,采集的年龄范围是0~70岁.FG-NET数据该数据集的年龄分布如表1.

表1 FG-NET年龄分布Table 1 FG-NET age distribution %

由表1可知,FG-NET的人脸图片均集中于较低的年龄段,40岁之后的样本数量稀缺,60岁以上的样本更是寥寥无几.由此可见,单纯使用FG-NET数据集得到的年龄估计模型并不具有十分强的说服力.文中再引入另一数据集Adience的样本与FG-NET的样本进行数据集融合,Adience包含2 284人共26 580张人脸图片,年龄跨度在0~69岁,将其用于补充40岁以上的人脸数据集,从而使实验样本的年龄分布更加合理.

3.2 数据集处理

实验具体步骤为:按文件顺序依次读取FG-NET与Adience相结合的实验人脸数据库,同时获取人脸年龄标签,根据人脸关键点裁剪图像并统一大小,将图像分为80个8×8的小网格,分别获取HOG直方图序列与 LBP直方图序列,并在特征层将两种特征进行融合,随后结合年龄标签建立训练样本集,训练模型进行学习获得年龄回归函数,从而获得所有样本的年龄估计值.

4 实验结果与讨论

文中采用两种目前较为流行的评价指标对实验结果数据进行评估.

平均绝对误差(MAE),为每个单个观测值与算术平均值偏差的绝对值取平均,因其能有效避免误差相互抵消的问题,可较为准确地反映实际预测误差的大小.文中平均绝对误差为:

(6)

式中:yi和y′i分别为第i个测试数据的估计值和真实值.

累计误差指数(CS)为计算年龄估计值与真实值绝对差在一定范围内的比例,公式如下:

CS(u)=pe

(7)

式中:p为总测试数目;e为绝对误差值;u为设定的可容忍误差的最大值,将u设为10,因为一般认为估计误差值在10岁以上的测试样例在年龄估计实验中是没有意义的.

实验中对仅采用HOG特征、仅采用LBP特征、采用HOG与LBP融合特征这3种情况下的实验结果进行了对比.将实验结果按照年龄段分为7部分,分别对应0~9岁、10~19岁、20~29岁、30~39岁、40~49岁、50~59岁、60~69岁.表2列出实验结果中不同特征在各个年龄段中所对应的平均绝对误差MAE的值.

表2 不同特征在不同年龄段的均值绝对误差结果Table 2 Absolute error results of mean values of different characteristics in different age groups 岁

图5是3种不同特征(HOG、LBP和HOG+LBP)年龄估计模型的累计误差指数曲线.

图5 3种估计模型CS曲线比较Fig.5 Comparison of three estimated model CS curves

通过表2及图5可以看出:文中采用的HOG、LBP双特征融合模型在各年龄段的人脸年龄估计实验中均有良好的表现,估计误差比仅采用HOG方法的单特征模型缩短0.7岁;比仅采用LBP方法的单特征模型缩短1.2岁.

为了使实验具有可比性,将文献[17-18]所提两种深度学习方法与文中方法采用同一数据集,且实验结果仍然按照上述将年龄段分为7部分,分别计算对应的平均绝对误差MAE的值(表3).

表3 文中方法与两种深度学习方法的均值绝对误差结果Table 3 Mean absolute error results of method in this paper and the two deep learning methods 岁

表3可以看出,文中HOG+LBP双特征融合模型,在10~29岁年龄段表现略优于两种深度学习方法;在0~9岁及30~39岁年龄段表现略低于两种深度学习方法;而在40~69岁年龄段,年龄估计误差相较于文献[17],平均高了0.32岁;相较于文献[18],平均高了0.72岁.

考虑到两种深度学习方法均需要搭建及训练CNN网络模型,尤其是文献[18]的实验,需要对人脸图像进行域划分,并分别训练不同尺度的CNN,复杂程度和工作量远大于文中所提方法,因此提出的双特征融合模型十分具有实验与实用价值.

5 结论

文中提出的HOG+LBP双特征融合模型,结合支持向量回归的方法在处理跨年龄段的人脸年龄识别实验中取得了显著效果,即使在图像未经预处理的情况下仍表现出相当的准确率,给实时采集人脸图像预估年龄从而进行端到端的人机交互服务带来了启发.在未来的工作中,如何找到一个更佳的年龄估计模型从而实现更高效更快捷的估计方法,以及建立一个更为完备、统一的人脸数据库值得更深入的探究.

猜你喜欢

年龄段人脸像素
像素前线之“幻影”2000
不同年龄段妊娠早期妇女维生素D含量水平分布
各年龄段人群对网上健康教育的认知和期望的调查报告
有特点的人脸
一起学画人脸
适合各个年龄段的黑胶爱好者 Sony(索尼)PS-LX310BT
“像素”仙人掌
三国漫——人脸解锁
ÉVOLUTIONDIGAE Style de vie tactile
高像素不是全部