基于公共安全领域大数据声纹识别系统评测关键技术及方法

2021-11-06公安部第一研究所刘琦陈伟井冰张济国

中国安全防范技术与应用 2021年4期

■ 文/公安部第一研究所刘琦陈伟井冰张济国

关键字：声纹识别公共安全大数据

1 引言

当前，信息化技术已经深入到人们生活的方方面面。智能设备在人们的生活中随处可见，如何方便快捷、准确高效地实现人与智能设备的信息交流已经日渐成为当前研究的热点问题。随着电子计算机和人工智能设备的普遍应用，语音通信成为人与机器之间最便捷的交流方式。因此，通过声纹识别等语音技术实现人与智能设备之间的高效沟通成为了当前语音领域研究的重点内容。而声纹作为生物识别技术的重要组成方式之一，因其具备独特的优势而在市场中被广泛推广，部署应用于安全加密、金融信息安全、刑侦取证、声控、安防、音频检索、个性娱乐交互服务乃至军事国防等诸多领域。目前，越来越多的声纹识别系统已经在金融和智能安防等公共安全行业中广泛应用，对提高公安办案效率、服务智能金融和改善人民生活等方面发挥着越来越重要的作用。如何定位基于公共安全大数据的声纹识别系统的核心性能指标、研究相应的检测方法、确定声纹识别系统测试数据集并根据检测方法搭建检测平台，已经成为当前公共安全声纹识别领域及评测领域的首要任务。

2 声纹识别简介

2.1声纹原理

所谓声纹，通常是指一种带有个人标识的特征信息，在人类语音信号中，这类特征信息具有其特定性、相对稳定性和一定程度的差异性。特定性即指每个人的声纹信息各不相同，个人生理差异，发声器官和发声习惯差异，可以导致每个个体的音长、音强、音高、音色这些语音要素的不同，进而引起了音波长、频率、强度、节奏等方面的差异；相对稳定性是指每个人的声纹信息通常情况下不会产生较大变化；一定程度的差异性是指心理状态、生理情况、外部环境干扰等因素会导致目标人员的声纹信息在一定程度范围内产生变化。正是由于声纹信息具有特定性和稳定性，可将目标说话人的声纹信息与指定说话人的声纹信息进行匹配与比较，得到相应的匹配结果，并根据结果判定两个声纹信息的发声者是否为同一目标人员，这就是声纹识别。

2.2声纹识别分类

声纹识别的分类方式主要有两种，一种是根据比较目标数量相关的分类方式，另一种是根据是否文本相关的分类方式。下图1和图2分别展示了两种分类方式。

图1 说话人确认

图2 说话人辨认

第一种分类方式，按照比较目标数量是否为同一个目标，声纹识别分为说话人辨认和说话人确认。说话人辨认是指判断当前说话人与多个被比较目标中的哪一个目标是匹配的，即当前说话人与被比较目标数量关系为1：N（N≥2）时，此时的声纹识别任务为说话人辨认；说话人确认是判断当前说话人与被比较目标说话人是否匹配，即当前说话人与被比较目标数量关系为1:1时，此时的声纹识别任务为说话人确认。

第二种分类方式则将声纹识别任务分为文本相关和文本无关两种。文本相关是指此次声纹识别任务的说话人按照已指定的文本信息内容执行说话任务，而声纹识别任务的建模也按照上述文本信息内容进行建模、处理及特征提取等操作，文本相关的声纹识别任务的优点是具有较高的识别准确率，但需要说话目标人员的高度配合；相反，文本无关的声纹识别任务，不对说话人的文本内容信息进行限制，此类声纹识别任务的优点是用户体验好、操作简单、应用范围广，缺点是模型建立困难、识别准确率相对于文本相关的声纹识别任务较低。

2.3声纹识别原理

如图3所示，完整的声纹识别系统通常包括两个主要模块，即特征提取模块和模型建立模块。特征提取模块包括语音信号预处理单元和声纹特征提取单元；模型建立模块包括模型训练模块和模型匹配模块。

图3 声纹识别系统原理图

实际识别过程中，在预处理前都要对声音源的声音信号进行采集。声音源的模拟信号通过数字采集系统，形成离散的语音信号，此时就完成了声音信号的采集工作。

随后进行预处理，对离散的语音信号预加重处理，即在保证有效信号功率的前提下，提升高频部分的频谱，降低低频部分的干扰。预加重处理之后需进行分帧加窗操作，将语音信号分成多个语音帧，语音帧具有短时平稳的特性，为后续操作提供了基础。预处理过程的最后一步为语音信号的端点检测，即在某段语音信号中，区分出有效语音信号的起止点，进行端点检测后的语音信号才能进行有效的特征提取。

语音信号的特征提取是标准的ICO框架模型操作，输入端为待提取的语音信号，输出端为语音信号特征参数值，输入输出端处理的核心为语音特征提取算法。其中，输出端语音信号的特征参数分为时域特征参数和频域特征参数。时域特征参数主要包括短时能量、短时过零率和短时自相关等；频域特征参数主要为功率谱分析后的相关特征向量，如频谱重心、均方频率、频谱方差和频率方差等。

值得一提的是，目前存在一种主流的特征参数，称为梅尔倒谱系数（MFCC）。它是一种接近于普通人耳听觉特性的特征参数，在声纹识别领域中，相比于普通线性倒谱，梅尔倒谱系数更能在非线性关系下，反应语音信号的特征。

声纹识别属于一种模式识别，需要进行相应的模型匹配及训练操作。利用指定算法模型计算说话人语音的声纹信息与模板语音的声纹信息之间的匹配程度，从而进行说话人确认与说话人辨认。

3 基于公共安全领域大数据声纹识别系统的主要性能指标

不同声纹识别任务对应的系统性能指标基本不同。通常，公共安全声纹识别系统的性能指标也是按照声纹确认和声纹辨认进行分类的。

对于声纹确认系统而言，其主要性能指标包括检测错误权衡曲线（DET）、等错误率（EER）和检测代价函数（DCF），影响这三个主要性能指标的参量为错误接受率（FAR）和错误拒绝率（FRR）。

对于声纹辨认系统而言，需按照系统是开集系统还是闭集系统进行分类讨论。通常情况下，等错误率（EER）和检测代价函数（DCF）仍被看作是开集声纹辨认系统的核心指标。闭集声纹识别系统需要将从目标说话人集合中正确/错误找到对应的说话人的比率列为核心指标。

由于声纹识别系统的主要性能指标均为相关比率（需要较多的重复次数与较大的测试数据集合），因此，对于声纹识别系统的评价、搭建检测平台、采集测试数据并构造测试数据集合是十分重要的。

4 基于公共安全领域大数据声纹识别系统测试数据集的构建

常规声纹数据库在说话场景、说话人数量、单个说话人的语音数量、说话内容文本多样性、说话人口音多样性、录音设备多样性以及数据正确性等多个方面均有要求，而这些也恰恰是基于公共安全领域大数据声纹识别系统测试数据集建设时需要考虑的要素。

4.1录音语料

4.1.1语料池内容

考虑到数据库的复杂性，录音内容应分为固定语句和非固定语句，涉及多种位数不同的汉语数字串以及多个不同的中文文本，比如：“我叫某某，XX岁，出生于……”、随机数字串、与电话号码格式相同的数字串等。

4.1.2语料池处理

1）脱敏处理：删除政治敏感、个人隐私、色情暴力等内容；

2）添加与删除内容同样数量的语料文本；

3）统一格式。

4.1.3固定语句与非固定语句分配

录音的语句分为固定语句和非固定语句。固定语句为朗读同一内容多遍并分别进行录音；非固定语句为朗读不同内容或随机内容一遍并进行录音，相同类型的语句（如：随机数字串）可以制作多种非固定语句并进行朗读和录音。

4.2录制发音人信息

1）籍贯：考虑到地域和方言发音方式的差异，发音人的籍贯录制应尽可能覆盖范围广泛，且当前居住位置分布也应较为分散；

2）性别：男/女，其中男女比例应接近1：1；

3）年龄区间：应划分为多个年龄段，每个年龄段的声音应存在较明显的特征，且各个年龄段录音人数应符合中年和壮年人群居多，青少年和老年人数较少的要求；

4）信道：可分为网络信道和电话信道。

4.3数据录制环境

4.3.1录制环境

安静的室内环境,包含不影响声纹识别的背景噪音。说话人按照正常语速朗读录音文本。

4.3.2录制设备

用于录制的设备应包括高保真麦克风和录音机、多种型号的手机等。

4.3.3录制过程

1）说话人距离高保真麦克风以及手机一致,以正常说话音量和语速朗读录音文本；

2）同时使用两种方式（网络信道、电话信道）录制同一个人的声音，分别命名为信道1和信道2；

3）录制过程如图4所示。

图4 录制过程

5 基于公共安全领域大数据声纹识别系统测试平台的搭建与测试

基于公共安全领域大数据声纹识别系统测试平台工作示意图如图5所示，被测声纹识别系统可为算法动态链接库和应用程序两种形式。

图5 基于公共安全领域大数据声纹识别系统测试平台工作示意图

在测试声纹识别系统之前，应先进行数据准备。在数据准备过程中可添加、修改、删除和查看相应的数据集，并对指定数据集内的数据进行导入操作，被导入的语音文件在导入完成后会优先进行数据符合性测试，对已采集并成功输入至测试平台的数据进行质量评估和审核，参考因素应包括但不限于《安全防范声纹识别应用网络语音样本技术要求》中规定的内容：

1）数据格式符合性检验；

2）语音质量符合性检验；

3）采样率符合性检验；

4）通道数符合性检验；

5）信噪比符合性检验；

6）有效语音长度符合性检验；

7）平均幅度值符合性检验；

8）说话人数符合性检验；

9）合成语音符合性检验。

在数据符合性测试完成后，可对已导入数据进行相应的标注操作，在标注操作过程中可生成标注项目，并可查看标注项目的标注日志、标注进度等情况。同时根据标注任务所选择的库自动生成下一条标注任务，可在标注过程中播放语音数据且具有语音播放、暂停和停止功能。标注完成的数据可被指定数据集调用，在完成所有数据的导入和标注任务后，可创建测试集。如图6所示，测试集分为注册集和验证集，注册集用于被测声纹识别系统的模型建立及测试数据的注册；验证集用于在建模完成及注册完成后大量数据的测试。

图6 数据集管理流程

数据和数据集处理完成后可测试声纹识别系统性能。性能测试前需选择注册集和测试集，并根据《安全防范声纹识别应用程序接口规范》进行声纹识别接口符合性测试。具体包括如下：

1）声纹数据接口类型符合性判定，包括：接口数据类型、单/多段语音数据、声纹模型、声纹相似度、声纹识别版本、声纹识别句柄；

2）声纹识别接口函数符合性判定，包括：声纹初始化函数、声纹释放函数、声纹版本信息获取函数、声纹错误信息获取函数、声纹注册函数、声纹确认函数、声纹辨认函数；

3）声纹应用接口函数符合性判定，包括：声纹注册、声纹确认、声纹辨认、声纹删除、声纹查询。

在声纹识别系统接口符合性测试通过后，可设置后续性能测试的相关参数阈值。当测试结果返回值超过设定阈值或未在设定阈值范围内时，应给出提示信息并在测试结果中突出显示。

性能测试包括但不限于如下指标要求，主要包括：声纹注册成功率、声纹确认成功率、声纹辨认成功率、声纹确认识别精度（错误拒绝率、错误接受率）、声纹辨认准确率、声纹注册时间、声纹识别时间、声纹确认时间、声纹辨认时间、最小错误损失、等错误率、查全率、查准率、F1分数、虚警率、漏警率、最小检测代价函数（最小检测损失）、检测代价曲线（检测损失函数）、注册实时率和测试实时率等。

性能测试结束后，可展示的测试统计结果如下：

1）给定FAR下FRR统计（包含声纹确认、合成语音检测、重放语音检测）；

2）给定FRR下FAR统计（包含声纹确认、合成语音检测、重放语音检测）；

3）EER统计（包含声纹确认、合成语音检测、重放语音检测）；

4）确认打分分布统计和绘制（声纹确认）；

5）DET曲线绘制（声纹确认）；

6）ROC曲线绘制（声纹确认）；

7）给定Rank辨认准确率统计（声纹辨认）；

8）辨认打分分布统计和绘制（声纹辨认）；

9）多系统性能对比包含（声纹确认、声纹辨认、合成语音检测、重放语音检测）。

除此之外，还可对当前被测系统防攻击性能进行测试，具体指标包括合成语音检测准确率和重放语音检测准确率。