一种多模态生物特征融合算法探究

2018-12-22王俊生韩庆芝

智能计算机与应用 2018年6期

王俊生，王波，韩庆芝

(1 国网电子商务有限公司，北京 100053； 2 国网雄安金融科技集团有限公司，河北雄安 071800；3 国家电网电力金融与电子商务实验室，北京 100053)

引言

近年来，在陆续涌现的各类身份识别技术中，如指纹识别、人脸识别、声纹识别等就正以其安全、方便的特性，以及较传统的安全认证技术所展现的更优防伪性能，已在众多身份认证领域中获得了广泛应用，而与此同时其市场规模也正悄然呈现出快速递增态势[1]。

通常，生物识别技术多将分为单模态识别技术和多模态识别技术两种。时下，随着现代科学技术的飞跃式发展，其中的单模态生物识别技术已日渐凸显出其相对居于劣势的安全性，也就是存在着较大的安全风险，例如仿真头套、全息投影、人脸跟踪等高科技手段的出现，即从根本上打破了单模态生物识别技术的安全屏障。而多模态生物识别技术却可通过数据融合算法将不同的生物特征进行有机结合，如掌纹与人脸特征的融合[2]、指纹与声纹特征的融合[3]、虹膜与指纹特征的融合[4]等，这样就可有效弥补单模态生物识别技术的安全风险，从而使识别系统的安全性能大大提高[5]。迄至目前，基于市场需求的多样化和市场竞争的选择性作用，均已使得多模态生物识别技术日渐成为生物特征识别领域的研究热点，并且也终将引领生物特征识别领域的未来发展趋势[6]。

通过全面分析后可知，人脸识别技术具有唯一性和不易复制性，而且还兼具识别无接触、使用上的便捷性和用户友好性等特点[7]，据此就赢得了广阔的发展空间。但不可否认的却是，人脸识别技术的安全性相对较弱，也就是用户将面临隐私泄露的可能，而且其识别准确率也会受到多种外界因素的影响，如光线、识别距离，以及化妆、整容所带来的面部特征改变等。而另有研究表明，在将声纹识别与其它生物特征比较后可知，前者表现出提取特征方便、获取特征成本低[8]、受到距离影响较小的突出优越性，因此将会更加适于应用在远程身份认证的方案设计中。此外，尤需一提的是，声纹辨认和确认算法的运行复杂度也很低。故而，声纹识别已经越来越受到业界的系统开发者和用户群体的高度重视与青睐。虽然如此，却仍需看到，声音本身具有易变性，而且也容易受到身体状况、年龄、情绪等因素影响，以及环境噪音干扰等，因此现如今的声纹识别大多情况下还仅是应用在对身份认证安全性要求不高的场景中。综上论述演绎后可以推得，如果能够将上面2种实用性强、特征易获取、且应用广泛的生物特征进行融合，就会在相当程度上显著提升身份识别的适用性、准确性、隐蔽性及安全性，同时还能大幅降低生物识别对环境的依赖度，从而全面满足用户在不同目的和环境下的使用需求。

在此基础上，本文拟将运用卷积神经网络提取人脸特征，而对声纹特征的提取则采用了梅尔频率倒谱系数(MFCC)的方法，并通过加权融合算法将2种特征加以融合，弥补单一模态生物识别技术的不足，使身份认证系统具有更高的安全性和鲁棒性。本文则将对此展开如下的研究论述。

1 基于卷积神经网络的人脸特征提取

目前，基于深度模型的卷积网络凭借其局部连接和权值共享的独特优势，在计算机视觉领域的研发实践中占据着举足轻重的位置。卷积神经网络本质上是一个前馈神经网络，通过卷积层和池化层的交替级联模拟人类视觉皮层中用于高层次特征提取的简单细胞和复杂细胞交替级联结构。

卷积神经网络作为一种深度机器学习模型，通过多次训练数据学习得到特征提取参数[9]，一方面通过神经元的非全连接方式、即稀疏性连接方式，将相邻每层的神经元节点仅和与其相近的上一层神经元节点链接，有效地减少了神经网络中的参数规模；另一方面，通过权值共享方式降低了网络复杂度，减少了网络参数。

卷积神经网络特征提取的核心模块包括隐含的卷积层和池化采样层，采用梯度下降算法对网络中的权重参数逐层反向调节，并通过设置迭代次数反复训练网络参数以提高网络精度。其中，卷积层与池化采样层是交替连接的。最高层是2个全连接层，首个全连接层的输入是由卷积层和池化层进行特征提取得到的特征图像，最后一层全连接则是对图像进行分类。

卷积神经网络的结构包括：卷积层、池化层和全连接层，每一层包含多个特征图，每个特征图将利用过滤器(卷积核)提取特征。具体来说，在卷积层中，进行卷积计算可以提取输入数据的高层次特征，从而增强原始数据的特征，并且还能够达到科学降低噪音的效果。池化层通过最大池化或平均池化对图像进行下采样，这样可以减少模型的计算量，还能抵抗输入的轻微形变或位移，使图像具有旋转不变性；而当找到某个特征后，只需要知道该特征与其它特征的相对位置而无需确认其详细位置就可以对图像进行识别。卷积层和池化层是图像特征提取的过程，最后将通过全连接层完成分类任务(全连接层与BP神经网络一样)。

利用卷积神经网络通过逐层卷积降维提取人脸特征，并经由多层非线性映射，从原始样本(未经处理的样本)中历经多次迭代训练，自动学习修正模型参数并形成相应的特征提取器，这样就能够降低模型对训练样本的要求。而且，当网络的层数越多，学习得到的样本全局特征也就越多。更进一步地，通过卷积和池化计算得到的图像特征也不容易产生过拟合。

2 声纹特征提取

声纹特征提取采用梅尔频率倒谱系数(MFCC)，即使因其能够很好地表达人耳对语音的感知，故而这里将通过构建Mel三角滤波器组来模拟人耳的听觉特性，以提高语音识别系统的识别率和鲁棒性。MFCC提取过程可阐释如下。

(1)预加重。将采集到的语音信息送入一个高通滤波器，即：H(Z)=1-μz-1。其中，μ表示预加重系数，取值范围为0.9～1。经过预加重处理后，语音信号中的高频部分得以增强。

(2)分帧。考虑到语音信号在短时间内平稳的特点，就可将其以每帧20～30 ms的时间进行分段截取。同时，为了切实保证帧与帧之间的连续性，还需要在分帧时加入一个帧移，即在2帧之间设置一个重叠区域。

(3)加窗。通常使用汉明窗(Hamming Window)，用于降低语音帧的边缘效应，增加语音帧左端和右端的连续性。

(4)快速傅里叶变换(FFT)。将语音信号从时域上转换到频域上进行表示，通过观察频谱图，了解能量分布状况，有利于更好地观察其特性。

(5)三角带通滤波器。将语音频谱通过一组Mel尺度的三角形滤波器组，使频谱平滑化，并避免谐波的影响，突显原始语音的共振峰。不仅如此，还可以降低整体运算量。

(6)对数能量计算。将(5)中的每个滤波器组的输出进行对数运算，得到对数能量谱。

(7)离散余弦变换(DCT)。通过DCT变换得到MFCC系数，使语音信号从频域转化至时域，从而可以得到MFCC特征。

(8)动态差分参数的提取。语音信号除了MFCC反映的静态特征外，还包含动态特性，而语音的动态特性则可以用静态特征的差分谱做出描述，常用一阶差分和二阶差分来反映语音信号的动态特征。

3 特征的加权融合算法

人脸特征提取和声纹特征提取是2个相对独立的过程，特征提取方法不同，且属于不同的生物模态，因此这2种特征在融合之前，需要引入归一化处理，就是将这2种特征的特征向量处于同一范围，有助于对其进行后续的综合性分析。该部分研究内容可探讨分述如下。

3.1 归一化方法

本文采用z-score归一化方法[10]，方法中将基于原数据的均值和标准差进行标准化，数学公式如下：

(1)

其中，x是由人脸(声纹)的特征向量组成的矩阵；μ为矩阵的均值；xnew为归一化后的新数据。人脸特征和声纹特征在经过了归一化处理后，就将会整合统一到一个一致区间中。文中在此之后，将给出这2种特征的融合研究过程。

3.2 融合算法

本文采用遍历加权方法进行人脸特征和声纹特征的融合[2]，通过比较每一组权值的识别率大小确定权值。人脸和声纹的权值之和始终为1，并且只在0.1～0.9之间变化，步长为0.1，如式(2)所示：

wf+ws=1wf=0.1,0.2,…,0.9

(2)

其中，wf表示人脸的权值，ws表示声纹的权值。声纹特征向量的权值与人脸特征向量的权值是成反向变化的，即当人脸特征向量的权值从0.1～0.9之间变化时，声纹特征向量从0.9到0.1变化，并且当人脸特征向量选定一个权值α时，所有类别的人脸特征权值都为α，而所有声纹特征的权值为1-α。当所有特征权值经过0.1～0.9变化后，需要计算每个权值的识别率，研究推得其数学表述如下：

(3)

其中，R表示系统识别率；L和F分别表示合法用户和违法者尝试的总次数；LR和FR分别表示错误拒绝和错误接收的次数。从中选择使R最大的权值，视作最佳组合的权值，并作为人脸和声纹加权后的最终权值。

在此基础上，研究将利用卷积神经网络中的全连接层进行最后的特征分类判别。

4 结束语

本文针对单模态生物特征稳定性差等缺陷，提出了将人脸特征与声纹特征2种生物特征融合的方法。采用卷积神经网络来提取人脸特征，声纹特征提取采用的是MFCC的方法，而后再经过z-score方法将2种特征予以归一化处理，接下来又采用遍历加权的方法对2种特征进行融合，融合之后通过卷积神经网络中的全连接层实现最终的特征分类判别。