APP下载

人脸相似性特征分析与提取方法

2021-12-14周雷雷蒋行国李海鸥

桂林电子科技大学学报 2021年3期
关键词:训练样本标准差相似性

周雷雷, 蒋行国, 李海鸥

(1.桂林电子科技大学 信息与通信学院,广西 桂林 541004;2.四川轻化工大学 自动化与信息工程学院,四川 宜宾 644000)

随着计算机视觉的快速发展,人脸识别[1-2]这一非接触性、具有可视化性特点的生物特征识别技术应运而生,并在人们生活中扮演着不可或缺的角色。人脸特征的提取是人脸识别技术中最关键的一步,特征提取及特征融合不但从原始模式信息中提取出最有利于模式分类的特征,而且极大地降低模式样本的维数[3-5]。因此,如何选取并提取稳定可靠的人脸特征是人脸识别技术中迫切需要解决的问题[6]。

近年来,一些基于组合特征的人脸识别方法相继出现,相对于单一的人脸特征,组合特征可以实现优势互补,囊括更多的人脸信息,获得更优的人脸识别效果[7-8]。文献[9]提出一种基于线性融合表示分类的人脸识别方法,将原始训练样本与原始训练样本图像对应的新获得的镜像用作线性回归分类(LRC)的训练集,然后生成每个图像的逆图像,并将逆训练图像用于执行协作表示分类(CRC),最后采用分数级融合特征完成人脸分类,经实验表明,该方法具有非常有竞争力的分类结果。文献[10]提出一种新颖的多极特征融合模型(MFFM),MFFM 由两部分组成,第一部分包含一系列功能模块,是一种用于对一个高级功能进行建模的体系结构,对其进行训练可以提取每个输入图像的多个属性部分中最具有辨别性的特征。第二部分是将手工设计特征与深度特征相融合,利用HOG和LBP 依次计算统计梯度和图像各像素的LBP特征,该模型在数据集中进行测试,获得了很好的效果。文献[11]提出一种针对卷积连接模型的特征和体系结构优化的集成方法,可选择具有良好辨别能力的单个特征,并提取具有相同目标特征的非线性组合,但无法提取不同特征之间的非线性相关关系。人脸图像特征中,非线性的特征同样是重要特征,文献[12]利用核函数方法提取像素高阶相关信息,并与线性SVM 相结合进行人脸识别,实验结果表明,非线性特征的提取是有效的。文献[13]利用局部线性嵌套(locally linear embedding,简称LLE)[14-15]和线性判别分析(linear discriminant analysis,简称LDA)[16-17],通过优化核特征空间中的目标函数提取非线性特征,充分利用了训练数据的非线性结构和类特定信息。核函数方法提取的是像素的高阶相关信息,提取的非线性特征不包含低阶像素的信息,而LLE侧重于保留局部领域结构的信息。非线性特征不仅存在于单一人脸图像上,文献[18-19]在人脸图像上运用了ICA(independent component analysis)的2种不同架构,其中一种架构是将像素视为随机变量,将人脸图片当作观察值,找到面部空间的基础图像,为面部图像提供统计独立的基础集,可以将其视为一组独立的面部特征图像,该算法是PCA(principal component analysis)[20]算法的一种推广,在找到一组基图像并将面部表示为这组基图像的自适应加权系数融合方面优于基于PCA的表示。ICA的这种架构将单一人脸图像上的特征扩展到了人脸与人脸之间的特征的关系,且可以求出相互统计独立的系数,但对应于相应的基图像则可能不是统计独立的,冗余的基图像增加了数据的复杂度。

鉴于此,提出一种人脸相似性特征的概念,并给出其提取方法,在面貌相似的双胞胎或者不同年龄的同一个人的人脸图像中分析提取一组统计独立的相似性特征,通过用这组相似性特征进行自适应加权融合来描述其他的人脸图像。

1 相似性特征的定义

尽管随着时间或环境的改变,双胞胎、多胞胎或者处在不同年龄阶段的同一个人的面部图像会发生部分改变,但他们的面部仍具有高度的相似性,这种相似是由于他们对应部分的基因组成相似或相同。人类的基因是由相应的基因片段按不同的排列顺序组成的,他们的人脸中存在如人体基因一样的某些特征,这些特征受外界因素的影响较小,具有很大的相似性和稳定性,并在不同的人脸中有着不同的组成方式。将这些特征定义为相似性特征,相似性特征是由双胞胎、多胞胎或者处在不同年龄阶段的同一个人的人脸图像中发生变化的像素组成的特征图像。每张人脸都可看作是由很多个不同的相似性特征线性组合而成,并且在不同的人脸中相似性特征有着不同的组合方式。如图1所示,人脸图像由相似性特征的一个线性组合表示。人脸图像可由相似性特征(c1,c2,…,c n)和系数(b1,b2,…,b n)的线性组合来表示,并且在不同的人脸图像中相似性特征的组合系数(b1,b2,…,b n)也不尽相同。其中,单个相似性特征是从一组人脸图像中训练提取得到,呈现一张人脸图像的大致轮廓,每个相似性特征都融合了这一组训练样本的大致人脸信息,相似性特征的融合是每个样本类中人脸样本信息的整合,能够更好地表达待识别的人脸图像。

图1 人脸图片表示为相似性特征的一个线性组合

相似性特征独具代表性,相较于人脸其它的特征又具有较好的稳定性。从训练图像中得到一组相似性特征后,理论上可以将任何正面人脸图像用这组相似性特征的线性组合进行描述。

2 基于欧式距离的相似性特征提取

2.1 相似性特征分析

设数据集中共有c个样本类,每个样本类中包含k个大小为M×N的训练样本,将各个样本类中的训练样本进行标准化处理,计算式为

其中:x为每个样本类中的训练样本,μ、σ分别为训练样本的样本均值和样本标准差,x*为标准化处理后的人脸图像。

样本类中的训练样本进行标准化处理后,依次得到k个图像矩阵A1,A2,…,A k,依次提取每个图像矩阵的同一位置的元素,组成一组向量u=[u1,u2,…,u k]。图像矩阵及向量u的提取,如图2所示。

图2 图像矩阵及向量u 的提取

计算向量u的均值和标准差:

其中u(i,j)r是由图像矩阵A1,A2,…,A k第i行j列的元素组成的向量。

将图像矩阵A1,A2,…,A k中每一位置计算的均值¯x和标准差s重新组合,得到M×N阶均值矩阵A¯x和标准差矩阵A s(m,n),m、n表示标准差矩阵A s的第m行第n列的元素。标准差矩阵A s(m,n)中,每个元素表示图像矩阵A1,A2,…,A k中相对应位置的这一组元素的离散程度。标准差矩阵A s(m,n)的值越大,图像矩阵A1,A2,…,A k中相对应位置的元素大部分数值与其平均值之间的差异越大,反之,A s(m,n)的值越小,图像矩阵A1,A2,…,A k相对应位置的元素大部分数值比较接近平均值,即表示该组人脸图像中相对应位置的一组像素的相关性就较大。由于提取的是具有非相关特性的特征,保留图像矩阵A1,A2,…,A k中元素值变化大的元素。标准差矩阵A s(m,n)值越大,则图像矩阵A1,A2,…,A k和均值矩阵A¯x之间的距离也越大,由此可提取相似性特征。

2.2 相似性特征提取

根据标准差矩阵A s(m,n)中元素值大小,定义一个阈值θ,其大小介于标准差矩阵A s中元素的最大值和最小值之间。标准差矩阵A s(m,n)的值大于θ时,令图像矩阵A1,A2,…,A k的值等于其本身;标准差矩阵A s(m,n)的值小于θ时,令图像矩阵A1,A2,…,A k的值等于零。随着θ值的每次变化,依次计算图像矩阵A1,A2,…,A k与均值矩阵A¯x之间的欧式距离。

在机器学习中,一般通过衡量2个向量之间的距离来描述向量之间的相似度[21],而欧氏距离(Euclidean metric,即欧几里得度量)是最常用的一种向量距离计算方法。欧氏距离表现更多的是个体之间的绝对差异,忽略了个体之间的不同属性,将它们之间的差别等同看待。

以M×N阶矩阵P和矩阵D为例,计算两者间的欧式距离。记P i为矩阵P的第i行,D j为矩阵D的第j行,

其中:‖P i‖为向量P i的范数;‖D j‖为向量D j的范数;D j

T 为向量D j的转置。将式(4)推广至整个距离矩阵,则

随阈值θ不断变化,d(P,D)最大时,保存图像矩阵A1,A2,…,A k中的元素,并对每个样本类中的图像矩阵A1,A2,…,A k做均值处理,

得到C个相似性特征。

3 实验结果与分析

从AR[22]人脸库中抽取不同时间段采集的80个人脸图像,分成80个样本类,每个样本类包含8个训练样本,像素大小均为120×165,共640个训练样本。根据式(5),计算仿真得到图像矩阵A1,A2,…,A k与均值矩阵A¯x间的欧式距离d与阈值θ的关系,如图3所示。从图3可看出,当θ的值取0.2~0.5时,图像矩阵A1,A2,…,A k与均值矩阵A¯x之间的欧式距离存在极大值。当图像矩阵A1,A2,…,A k与均值矩阵A¯x之间的欧式距离达到极大值时,保存图像矩阵A1,A2,…,A k中的元素值。

图3 欧氏距离d 与阈值θ 的关系

实验中每个样本类的8个训练样本是同一个人的人脸图像,如图4所示。样本类的训练样本经过相似性特征提取后得人脸图像如图5所示。

图4 样本类中的人脸图像

图5 经过相似性特征提取后的人脸图像

对每个类中经过相似性特征提取后前5个样本做均值处理,得到80个相似性特征。另外,为了使相似性特征尽可能相互统计独立,计算实验提取到的80个相似性特征两两之间的欧式距离,欧式距离较小的取两者均值。以此方式将80个相似性特征压缩到50个。

在80个样本类训练库中,每个样本类取前5个样本做自适应加权融合训练,以5个样本所对应的加权系数的均值为相似性特征的组合系数,从每类剩下的3个训练样本中随机抽取1、2、3张用作测试。测试结果如图6所示。从图6可看出,人脸图像可以用提取的相似性特征的线性组合进行表示。此外,在相似性特征的个数不变时,人脸识别率随着测试人脸数量的增加而有所提高,在测试人脸数量一定时,80个相似性特征时的人脸识别率比50 个相似性特征时高。

图6 不同相似性特征个数时的人脸识别率

4 结束语

提出了人脸相似性特征的定义,并进行了相应的数学分析,给出了提取方法,即依据欧式距离分析提取相互统计独立的相似性特征。其最大优点是可以通过相似性特征的自适应加权融合估计其他人脸图像。在从AR数据库中抽取的不同时间段采集的人脸数据集上进行测试,取得了较高的识别率。

猜你喜欢

训练样本标准差相似性
隐喻相似性问题的探讨
订正
人工智能
过程能力指数法在改进中小学教学质量中的应用
12个毫无违和感的奇妙动物组合
基于隐喻相似性研究[血]的惯用句
基于小波神经网络的网络流量预测研究
方差中亟待澄清的两个错误观点
潜析结构 把握性质
谈数据的变化对方差、标准差的影响