APP下载

基于人脸和声纹的多生物特征融合技术研究

2018-05-23张瑛杰彭亚雄

电子科技 2018年5期
关键词:声纹识别人脸识别人脸

张瑛杰,彭亚雄

(贵州大学 大数据与信息工程学院,贵州 贵阳 550025)

近些年来,利用生物特征信息来实现身份认证的技术由于克服了传统身份认证技术的缺点而变得越来越普及[1]。但就目前而言,已有的生物特征身份识别技术大都是基于单一生物特征的。众所周知,每一种生物特征形态都有它本身的优缺点,也不存在一种最优的生物特征能满足所有的需求。单生物特征认证技术主要有以下局限性:(1)不确定性。采集到的数据受噪声影响使得识别结果可能不可靠,并且每一种生物特征在辨识能力方面都有它理论上的极限值;(2)非普遍性。一些用户可能缺失某种生物特征或其某种生物特征受损伤;(3)安全性。冒充者可能冒充合法用户来攻击生物识别系统[2]。为解决上述问题,近年来,基于多生物特征融合的身份认证技术逐渐兴起,融合系统由于利用了不同生物特征之间的互补信息,克服了单生物特征认证系统的缺点,提高了身份认证的安全性和准确性[3]。

本文选择人脸和声纹两种特征进行融合,首先这些生物特征是与生俱来的,具备唯一性且不易被复制。其次,这些特征易采集且采集隐蔽性较强,采集设备成本低。

1 识别算法

1.1 人脸识别算法

人脸识别技术是指通过计算机技术对人脸的视觉特征信息进行提取,然后根据特征信息进行身份识别。目前常用的人脸识别算法有:基于几何特征的方法、基于局部特征的方法、基于机器学习的方法和基于子空间的方法等[4]。人脸识别的基本过程包括图像预处理、特征提取与选择、特征识别这几个阶段[5]。完整的人脸识别过程如图1所示。

本文人脸识别算法通过局部二值模式[6](Local Binary Pattern,LBP)算法来实现。LBP算法用于人脸识别的优势在于它可以准确地描述图片的局部纹理,一般图像识别中,仅使用全局特征是不够的,获得的识别率较低,更多的时候,表征一副图像的特征也缺少不了局部特征。本文使用的LBP算法就是这样一种表征局部特征的方法。

图1 人脸识别基本过程

LBP算法记录中心像素点与邻域像素点的比对信息,并与阈值做比较。将得到的结果以二进制形式写入原位置,作为该点的值

(1)

其中,(xc,yc)代表中心元素,它的像素值为ic,ip, 代表邻域内其他像素的值。s(x)是符号函数,定义为

(2)

在识别时,先将所有图片统一成一定的尺寸,再将图片划分为块即子区域,并在子区域内根据LBP值统计其直方图,以直方图作为其判别特征。本文利用卡方统计量来度量两个LBP特征之间的距离,公式为

(3)

其中,S和M分别为两个直方图特征向量。

1.2 声纹识别算法

声纹识别(Voiceprint Recognition,VR),又称说话人识别(Speaker Recognit-ion,SR),是一种根据语音波形中反映的说话人生理和行为特征的语音参数,自动识别说话人身份的技术[7]。其目的是从语音信号中提取出代表着说话人个人身份的个性信息,从而实现说话人身份的识别。声纹识别的基本过程如图2所示。

图2 声纹识别基本过程

本文采用经典MFCC算法来获得语音的各特征参数,梅尔倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)是一种听觉感知频域倒谱参数,由于MFCC参数能够从人耳对声音频率的高低的非线性心理感觉的角度反映短时幅度谱的特征[8],因此无论在声纹识别领域,还是在语音识别领域都有广泛的应用。

由于说话人系统是以概率模型为基础的,所以如何对其表示就在于似然函数的表达。GMM[9]模型是统计概率模型,其能通过对说话人特征分布的有效统计来区分说话人,其统计参量能有效的表示说话人的特征。GMM的似然函数定义如下

(4)

其中,M是高斯混合分布的维数,即高斯混合模型中单高斯分布的个数,wi是第i个高斯分布的权重,并满足

(5)

gi(x)是期望为μi,协方差为∑i的高斯混合概率密度函数

(6)

GMM模型易于理解、计算量较小,并且对语音没有文本相关的要求,但GMM系统需要充足的语音来训练模型,通常情况下,登录的说话人语音长度有限,不能覆盖整个声学空间[10]。针对这种情况,本文采用GMM-UBM模型。通用背景模型(Universal Background Model,UBM)实际是一个由大量说话人通过采集大量语音信号进行训练得到的模型,使用该模型来表征说话人无关的特征空间。对于单个说话人个体的模型,就是说话人自身的GMM模型来自适应UBM而得到的模型。这样,说话人语音所覆盖的发音情况可用自身的语音建立模型,而没有覆盖到的发音情况可以用说话人无关的特征分布来近似表达,通过这种方法涵盖了所有的发音情况,提升了系统性能。经过特征提取和建模,识别时在未知说话人的模型中,得到似然概率最大的模型对应的说话人即为识别结果

x=arg{max[L(X|λs)]}

(7)

2 融合策略

2.1 信息融合概述

信息融合又称数据融合,也可称为传感器信息融合,其主要目的就是融合多个信息源来提高系统性能[11]。

目前,多生物特征融合方法主要分为3种:特征层融合、匹配层融合、决策层融合[12]。特征层融合是指采集到的不同生物特征的数据经过前端处理后提取特征描述向量,然后将这些低维特征向量通过某种方法融合成新的高维特征向量。特征层融合的好处是可以最大限度的利用丰富的特征信息,但也存在着各特征向量不兼容难以直接进行融合的缺点。匹配层融合是不同匹配得分的一种整合,每个匹配得分都是单生物特征的一个识别结果,并且这些匹配过程都是相互独立的。这些匹配得分通过某种融合算法得出最终的判决结果。决策层融合是最高层次的整合,它的输入是单生物特征识别的逻辑输出,通过某些逻辑规则这些逻辑输出最终融合成一个识别结果。

本文采用的生物特征为语音和人脸图像,特征之间不具有很强的关联性,如果直接在特征层进行融合,不仅处理起来非常复杂且达不到好的效果。因此本文选择在匹配层进行融合,图 3为融合的基本流程。

图3 融合基本流程

2.2 基于MPM的融合策略

3 实验及分析

为了对提出的方法进行分析和评价,本文选取了昆士兰大学的Vidtimit多模态数据库进行测试。该数据库包含43人的面部视频和与之相关的语音,是从事多模态音视频融合研究的一个典型数据库。视频序列最终被保存为分辨率512×384的jpg格式,语音则保存为单声道,量化精度为16 bit,采样率为32 kHz的wav格式。本文将该库中一张人脸图像和一段语音作为一个记录, 因此该库包含43人共430个记录,每人10个记录, 每个记录包含一张人脸图像和一段语音。

(8)

图4是经过测试后得到的接收特性曲线。表1是单生物特征认证和融合后的认证算法等错误率(Equal Error Rate,EER)比较。通过比较可以得知,本文的融合方法使整个系统等错误率降低到0.97%,相比声纹识别和人脸识别两种方法分别下降了2.15%和0.96%。实验结果表明,相比单生物特征的方法,本文所用融合算法在认证性能上有了明显提高,证明了本文采用的融合算法的有效性和可行性。

图4 单生物特征方法与融合方法ROC特性比较

表1 单生物特征方法与融合方法等错误率比较

4 结束语

本文提出了一种基于最小最大概率机的多生物特征融合算法。实验结果表明, 本文的多生物特征融合认证方法比单生物特征方法在性能上有了明显改善,等错误率明显降低,证明了该融合算法的有效性。

参考文献

[1] 王骕,胡浩基,于慧敏.基于数字水印的人脸与声纹融合识别算法[J].浙江大学学报:工学版,2015,49(1):6-14.

[2] 李雨凇.基于支持向量机的多生物特征融合技术研究[D].无锡:江南大学,2011.

[3] 李彦明.多通道生物认证关键技术的研究[D].兰州:兰州理工大学,2014.

[4] 陈倩.多生物特征融合身份识别研究[D].杭州:浙江大学,2007.

[5] 黄华盛,杨阿庆.基于PCA算法的人脸识别[J].电子科技,2015,28(8):98-101.

[6] Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.

[7] 蔡莲红,贾珈,郑方.言语信息处理的进展[J].中文信息学报,2011,25(6):137-141.

[8] 常飞,乔欣,张申.基于MFCC特征提取的故障预测与评价方法[J].计算机应用研究,2015,32(6):1716-1719.

[9] Reynolds D,Quatieri T,Dunn R.Speaker verification using adapted gaussian mixture models[J].Digital Signal Processing,2000,10(13):19-41.

[10] 王军.复杂环境下说话人确认鲁棒性研究[D].北京:清华大学,2015.

[11] 周新科,邬艳艳.数据融合方法在医疗案例检索中的应用[J].电子科技,2017,30(3):45-48.

[12] 李彦明.基于确认模式的多通道生物认证技术研究[J].甘肃科技,2014,30(9):35-37.

[13] Lanckriet G,Ghaoui L,Jordan M,et al.Minimax probability machine[C].California:Proceedings of Advances in Neural Information Processing Systems,2002.

[14] 王晓初,王士同,包芳.基于数据分布一致性最小最大概率机[J].计算机工程与应用,2016,52(16):79-84.

[15] 王婧,彭亚雄,贺松.基于指纹和声纹的身份认证技术研究[J].微型机与应用,2016,35(8):51-52.

猜你喜欢

声纹识别人脸识别人脸
人脸识别 等
有特点的人脸
一起学画人脸
揭开人脸识别的神秘面纱
人脸识别技术的基本原理与应用
三国漫——人脸解锁
声纹识别中的区分性训练
基于i—vector声纹识别上课点名系统的设计与实现
面向移动终端的语音签到系统
长得象人脸的十种动物