智能声纹识别系统与技术分析

2018-12-19蒋宗琎

科技传播 2018年23期

蒋宗琎

摘要在传统的两种依靠生物特征进行识别的技术（指纹与掌纹）之后，声纹，作為一种新的生物特征识别技术，逐渐出现并且应用于许多实际领域。声纹的识别与传统的生物识别比起来，具有容易获取、计算简便、耗资低等优势。声纹也正因如此，吸引着大批专家与相关的技术人员进行开发研究。文章主要结合了人工智能的方法，介绍了智能声纹识别系统，并对声纹识别过程中涉及的特征提取、模式识别进行了技术分析，并阐述了人工智能在这两个关键过程中的应用，最后指出了如何将人工智能嵌入声纹识别技术之中。

关键词人工智能；声纹识别；特征提取；模式识别

中图分类号 TP3 文献标识码 A 文章编号 1674-6708（2018）224-0073-03

随着信息技术的发展和人们对生活品质的追求，声纹识别技术近些年得到快速发展，与其他传统的认证方法相对比，基于人们自身的识别系统—声纹识别系统具有更为优越的安全性、稳定性[ 1 ]。由于人们自身的各种生物特性（如指纹、声纹、虹膜、DNA等）具有唯一性，相比容易丢失的重要识别物品（如钥匙、身份卡等）更不容易被他人获取并非法利用。加之声纹识别技术所需要的设备简单、其操作方便且实用性强，使得其在许多领域都有极大的发展潜力[ 2 ]。

文章结合声纹识别技术与智能技术的交叉，重点探究分析智能声纹识别技术，围绕技术原理与关键过程分析展开论述，并就其智能特征提取与智能模式识别技术进行了深入研究分析，这将有助于人们对智能声纹识别技术进行更加深入的了解与掌握，为其深入应用奠定基础。

1 声纹识别系统

1.1 声纹识别系统的原理

类似于人体的各种生物特征，声纹也因人而异，很少存在声纹相同的两个人。声纹识别便是从语音信号处理中提取声纹的特征，并加以建模，最后便能与其他的声纹加以比对并进行诸如身份识别的判断，其一般原理如图1所示[ 2 ]。

1.2 声纹识别关键过程分析

1.2.1 特征参数的提取[3]

特征参数，顾名思义，就是在一个人的日常语言中，能够表达生物特别的特性和语言习惯、语音习惯等特征信息的参数。通过对这种参数进行提取，就能够对语音进行分析，从而能够记录与计算。由于这种参数是稳定的，即使被分析者所在场合不同时间不同，这些参数也基本一致。同时这些参数是独特的，这表现在它的不能模仿特性上。这使这种特征参数能够完全区分不同的人，具有身份识别功能。现在语音分析中，参数提取的方法有如下的几种[ 3 ]。

第一种：语音频谱。语音频谱更多地描绘了提取对象的生理结构，主要体现在它的发声器官上。每个人的发声器官都具有独一无二的独特构造。这种参数的提取主要是基于说话人的基础发声器官，这种器官以声道和鼻腔等为主，从而获取测量对象的语音短时频谱特征。这种数据能够反映被测人的发音生理结构和发声的激励源，能够体现其生理器官的特殊性。短时频谱和它的基本轮廓则更加注重于反映被测人的语音上的习惯性动作。

第二种：线性预测参数的本质是一种预测，它的预测基于一些“过去”的语音抽样，并在数学模型的基础上来运算当前的语音，这种方式获得的参数可以用来运算语音特征。这种带有预测性质的运算能够极大降低成本、提升运算的效率，它只需要很少的参数就能够表现一种特殊的语音。

第三种：小波特征。小波特征参数是一种运用小波技术来提取语音特征信息的方式。这种技术的优势是可以接受分辨率的改变，对于语音材料的稳定性要求交叉，可以与时频域兼容表征。这种方式既快捷又应用范围广，可以准确得到被测人的语音特征信息。

1.2.2 模式匹配识别[4]

模式匹配识别是基于已经获得被测者语音特征参数的基础上，进行进一步的分析与判断。这种分析与判断是一种比对：将尚未识别处理的特征参数及其模板与已经得到的模型库进行对照。二者的对比结果将以相似度的形式呈现出来，并记录下相似度距离。在这个距离范围中，选取一个适合的距离就可以作为一种门限值。有了门限值就可以根据它来筛选出一种最好的结果，最终的结果将由识别系统输出。现在较为成熟较为常见的模式匹配识别判断，主要是两种模型。

第一种：矢量化模型。矢量化模型是通过一种建立矢量的方法，对被测人的语音特征进行进一步的处理，也即矢量化。被测人的语音特征参数将被处理成一种能代表个人信息的矢量，当需要对个体特征进行识别的时候，这种矢量将提供一定的标准。

第二种：随机模型。随机模型的建立是考虑到语音的变化范围及其概率的方式。在充分考虑到转移概率、传输概率的基础上，随机模型为每个被测者都建立起了其发声模型。在训练的过程中，将获取状态转移概率矩阵，此外还有符号输出概率矩阵。当被测者的语音在状态转移时，计算机就能够识别这种语音在转移时所发生的最大概率，通过这种概率，对该被测人的模型进行进一步的分析。

1.3 声纹识别的应用

声纹识别作为是一种新兴的生物身份认证技术[ 5 ]。在智能时代的发展过程中，将占据着越来越重要的地位。随着信息技术的进步，在信息更容易获取的同时，人们的信息也面临各种危险。因此，个人信息的安全需求越来越高。声纹识别以其高度的安全特性和低成本、简单便捷的特点，得到了越来越广泛的应用。声纹识别与传统的生物识别不同，它对识别设备的要求很低，从声音的采样到后期的建模、分析、处理，只需要带有麦克风的电脑即可完成。并且，声纹识别的准确性也很高，它不受到方言等因素的限制，更多地是关于一个人生理结构、发音特征的记录，因此，具有更高的普适性。同时，声音的便于传输也使声纹识别能够远程运用，得到更加广泛的应用。

2 声纹识别系统中的智能技术分析

2.1 人工智能技术[6]

人工智能是通过模仿人的思维进行运算、判断和分类等能力，通常借助建立人工神经网络（Artificial？Neural？Network，ANN）来实现目标任务。人工神经网络是由大量的相互连接的处理单元组成的具有非线性与自适应信息处理能力的智能系统，近些年得到了大力的研究与应用，常见的人工神经网络结构如图2所示。

图2表示的典型人工神经网络结构示意图是从信息处理角度对人脑神经网络进行抽象得到的，并通过建立这种简单易懂的网络模型示意，可以知道数据处理节点按不同的连接方式可以组成不同的网络，网络中各个神经元节点接受前一级的输入，按照特定算法计算，并将结果输出到下一级。典型的神经网络结构分为3层：分别为输入层、隐含层和输出层。三层的主要功能如下。

1）在输入层中，输入层节点接受大量的外部输入信息，通常会表示成数组或向量形式。

2）在隐含层中，由于隐含层是介于输入层和输出层之间的众多神经元节点和链接组成的众多层面。隐含层可以是单层也可以是多层的，其神经元节点数目不定，根据实际处理需要可能会十分复杂，隐含层节点数目越多人工神经网络的非线性越显著。

3）在输出层中，信息从输入层输入经过隐含层的神经元节点运算、分析和传送，形成输出结果，输出通常也是以数组或向量的形式表达。

借助人工神经网络，通过处理器模拟实现的人的智能，是智能信息处理技术的思想，借助人工神经网络实现的智能信息处理设备将给信息化技术的发展增添新动力。

2.2 智能特征提取技术分析[7]

在对被测者的语音信息处理中，这种参数的特别性与可识别度，都将决定这种技术的应用范围和可靠程度。在被测人声音的参数提取中，必须排除干扰因素，使结果能够具有充分的特别度和可区别性。通过人工神经网络智能信息处理，计算机可自主将所接受到的各种信息数字化后转化为数据输入，随后在隐含层中进行复杂的信息处理，从而完成特征提取并进行分析筛选，最后输出具有特异性的声纹特征，减少了特征参量的维度，提高了训练和识别的效率。

2.3 智能模式识别技术分析

这种智能模式使用了神经网络模型。这种模型是一种具有一定拟生特性的模型。它能像生物一样进行感知，并且对数据进行分布式处理，这种模型具有很强的自学习能力。同时，这种神经网络模型能够快速处理复杂的信息，并且能够自我训练，对模型中的结构与参数进行自我修正与调整，实现系统的自动优化与环境的高度配适。这种神经网络模型的速度很快，识别度也达到了相当的程度，近几年来，不断地被应用于对景象、语言与自然语言中包含模式识别问题的理解。在图像处理过程中人工神经网络将识别对象数字化，将其转化为可供计算机处理的数字信息。随后通过特征提取从数字化后的输入模式中选取一组含冗余信息的特征。在此后引入鉴别函数，由特征矢量计算出各种类别的函数值，再进行比较并分类得到有实际作用的数据。

3 结论

利用人工智能对声纹进行处理与分析，优点一是人工智能可通过具有一定自主性的演算进行更为精准的特征提取和识别以得到更为精确的声纹特征数据，减小结果的误差，使得到的声纹特征具有更为强大的可靠性和利用性；优点二是人工智能和声纹识别技术都尚有广阔的发展空间，出现的计算错误或步骤差错可通过人工计算和人工智能自我演算来纠正并改进分析计算模式，这使得智能声纹识别的出错率得以逐步降低而容错率逐步上升；优点三是人工智能在进行声纹识别的过程中也可进行其他类别的工作，这使得智能声纹演算拥有更大的应用领域及利用价值。

因此，智能声纹识别系统在特定方面上具有传统声纹系统所无法比拟的优点，其技术发展难度也较传统方法有所降低，通过人工智能和声纹识别系统的共同结合，智能声纹识别系统的功能也会有进一步的增强，使得智能声纹系统对科研领域及人类生活有着更为重大的意义和影响。

参考文献

[1]杨阳，陈永明.声纹识别技术及其应用[J].电声技术，2007，31（2）：45-46.

[2]郑方，李蓝天，张慧，等.声纹识别技术及其应用现状[J].信息安全研究，2016，2（1）：44-57.

[3]朱浩冰，郭東辉.声纹识别系统原理及其关键技术[J].计算机安全，2007（9）：14-17.

[4]黄成玉，张全柱，赖斌.声纹识别中MEL参数的提取研究[J].电源技术，2011，35（4）：433-435.

[5]李财莲，赵小阳，王丽娟，等.说话人识别中关键技术的现状与展望[J].军事通信技术，2005，26（2）：62-65.

[6]王永庆.人工智能原理与方法[M].西安：西安交通大学出版社，1998.

[7]汪峥，连翰，王建军.说话人识别中特征参数提取的一种新方法[J].复旦学报（自然科学版），2005，44（1）：197-200.