声纹识别对抗攻击对公安领域的影响及对策
2022-04-27宋杰
◆宋杰
声纹识别对抗攻击对公安领域的影响及对策
◆宋杰
(四川警察学院 四川 646000)
声纹识别技术由于其独特的优势,在公安领域中有广泛的应用。基于深度学习的声纹识别技术有较高的识别准确度,是目前主流的声纹识别技术,但同时应用此类技术的系统容易遭受对抗攻击。本文主要对基于深度学习的声纹识别技术及其对抗攻击进行介绍,对可能给公安领域带来的影响进行了讨论并提出了对策。
声纹识别;深度学习;对抗攻击;公安
声纹识别(Voiceprint Recognition)又称说话人识别(Speaker Recognition),顾名思义是通过说话人的声音特征来识别说话者是谁的技术,是用于识别说话人身份信息的一种生物特征识别技术。与指纹、虹膜、DNA识别等其他形式的生物特征识别技术相比,声纹识别有许多独特的优势,如语音采集便利、采集成本低、准确率较高、非接触式采集、可远程识别、用户接受度高等,声纹识别系统已逐渐被应用于多个领域。
1 声纹识别简介
1.1 声纹识别系统基本框架
声纹识别可分为说话人辨认和说话人确认,二者的区别在于,说话人辨认是从注册的声纹集合中识别出说话人的身份(一对多),说话人确认是针对单个注册声纹进行匹配来确定说话人的身份(一对一),两者的识别原理没有太大差别[1]。此外根据测试语音的内容,声纹识别还可以分为文本相关和文本无关两类,二者的区别在于在识别说话人身份时对说话的文本内容是否有限定。一个基本的声纹识别系统的工作框架如图1所示。
图1 声纹识别系统基本框架
在声纹模型匹配方面,早期的有线性预测技术、动态时间规整技术、矢量量化技术等。之后,出现了基于统计训练的方法,极大提高了声纹识别的效果,基本框架如图2所示。
图2 基于统计训练的声纹识别系统基本框架
1.2 深度学习在声纹识别中的应用
随着深度学习框架的广泛普及、硬件成本的不断降低,深度学习(Deep Learning)的普及率不断上升,它开始渗透到机器学习适用的每一个研究领域中。因此,学者们开始将深度学习用于声纹识别系统之中。
一般来说,声纹识别中的深度学习有两个主要方向[2]。一种是用深度学习方法进行特征提取,使用声学特征作为输入,对说话者样本进行神经网络训练,将说话者身份作为目标变量,通常使用内部隐藏层作为输出,并应用余弦距离或概率线性判别分析作为决策。另一个方向是使用深度学习进行分类和决策,通过深度神经网络进行决策分类来替代向量余弦距离和概率线性判别分析方法。
目前,基于深度神经网络的声纹识别系统的训练速度快,识别率高,在短语音识别上有很强的鲁棒性,是目前声纹识别系统采用的主流方法。
2 声纹识别对抗攻击及防御
针对声纹识别系统的攻击有很多种,如人为伪装、频率变换伪装、语音转换伪装、语音合成攻击、录音重放攻击等。随着深度学习技术在声纹识别系统中的应用,声纹识别系统的性能在得到提升的同时,也引入了深度学习易遭受对抗攻击的弱点。
2.1 对抗攻击基本原理
所谓对抗攻击,即对分类器的训练过程中为样本添加人为设计的“噪声”,这种被修改过的样本虽难以被人眼直接分辨,却是使分类器不能正确进行识别分类的一种攻击方式,这种被修改过的样本叫做对抗样本。这种在感知上与原始样本无法区分的对抗性样本,可以大幅降低机器学习算法分类的准确性,对基于深度神经网络的声纹识别系统构成严重的安全威胁。其基本工作原理如图3所示。
图3 声纹识别对抗攻击基本原理
2.2 对抗攻击相关概念
目前已有的多种声纹识别攻击技术,既有白盒攻击,又有黑盒攻击,有针对性也有非针对性的,有攻击时域空间的也有攻击特征空间的,且都有较好的难以察觉性,对声纹识别系统构成了较大威胁。
(1)非针对性攻击与针对性攻击
所谓非针对性攻击,即攻击者并没有一个特定的伪装对象,攻击者迫使声纹识别系统输出任何非当前说话人的识别结果即为攻击成功。而针对性攻击是攻击者使声纹识别系统输出一个特定的识别结果即为攻击成功。
(2)白盒攻击与黑盒攻击
攻击者完全了解声纹识别系统的所有知识,包括系统的架构、使用的算法、算法的参数等的情况下开展的攻击称为白盒攻击,白盒攻击是对攻击者最有利的情况,攻击者能够获取到产生对抗样本所需要的有关信息。若攻击者只知道声纹识别系统的作用,并不知道系统的架构、算法和参数等相关信息的情况开展攻击便叫黑盒攻击。
(3)攻击空间
音频对抗攻击可以在不同的信号空间执行,攻击空间可分为时域空间和特征空间,例如时域原始波形、提取的特征频谱图或其他声学特征空间。针对时域空间的攻击可以在语音到达声纹识别系统之前就将对抗噪声添加到其中,且在空中播放时能有效保持对抗性,有助于在真实世界中攻击成功。
(4)不易察觉性
要想通过在空气中传播声音并被麦克风接收识别的方式实现对抗攻击,对抗样本的不易察觉性是一个重要的指标。所谓不易察觉性即被添加了对抗噪音的攻击样本难以被人类感官明显感知到差异。实现不易察觉性的途径可以有噪音、人类无法感知的超低频或超高频、利用心理声学被人脑自动忽略掉等方法。
2.3 对抗攻击的防御
(1)主动防御
主动防御的思想是通过主动增加模型对对抗攻击的鲁棒性来进行防御。对抗训练是主动防御的一种代表性方法,这种方法的基本原理是将生成的对抗样本和原始样本一起训练,以得到一个更鲁棒的模型。攻击者要攻击经过对抗训练的模型,需要花费更多的时间进行攻击算法迭代或是在样本中引入更大的对抗噪声,并且对抗训练虽然能使模型对对抗样本表现出更强的鲁棒性,但代价是使正常样本的识别准确率降低。此外,由于对抗样本和正常样本之间可能有相似的特征向量,对抗样本中的对抗噪声可能在对抗训练模型的特征提取阶段被过滤,因此对抗性训练可能无法防御基于特征空间的对抗攻击。
(2)被动防御
被动防御通常不会对模型进行修改,而是在模型之外再添加一些防御性的模块,以此来防御对抗攻击。对抗样本检测是被动防御的一种代表性方法,旨在在声纹识别系统接受测试前先检测输入的音频样本是否具有恶意。活体检测是被动防御的一个研究方向,其目的是确定语音来源是否是真人,它可以帮助检测录音重放的对抗攻击[3]。
3 对公安领域的影响及对策
3.1 声纹识别在公安领域的应用
声纹识别技术在公安领域的主要应用场景[4]有:
(1)智慧社区警务,通过语音识别技术进行信息录入和案件办理等,提高工作效率,同时采集声纹信息。
(2)治安防控,在巡逻盘查中对可疑人员通过语音进行身份识别、综合查询等功能,提升治安管控能力。
(3)重点人声纹库,采集重点人声纹信息并构建声纹库,以实现以音找人、查询匹配等功能,可用于案件预警,有效打击遏制犯罪。
(4)警务智能语音服务,智能警务服务中心,民众可以通过语音交互的形式在智能设备上办理业务,通过声纹识别可无感识别用户身份,提高人民群众办事体验。
(5)公安物联网,为了提高警务智能化和公安信息化的水平,多地已开展了公安物联网的建设,构建语音大数据平台,利用音视频传感器、生物特征识别传感器等感知技术与智能装备,提升公安工作的效率,打造城市智慧安防体系。
(6)电诈打击,在电信网络空间中,声纹识别技术可充分发挥技术优势,在海量电话及语音信息场景中根据声纹比对快速发现涉诈信息、进行诈骗预警、锁定嫌疑人身份。
(7)案件侦破,通过语音线索提取声纹信息,进行身份确认、心理画像等,为案件侦破提供帮助。
(8)案件证据,语音信息作为试听资料或电子数据,是法定的证据形式之一,通过声纹鉴定可用以证明身份或反应案件事实等,有明确的证据效力。
3.2 声纹识别对抗攻击带来的影响
上述的具体应用场景可以根据语音的来源及用途分为:有监督采集原始语音、无监督采集语音、虚拟空间采集语音、用于声纹识别与鉴定的语音几类。下面分别讨论对抗攻击对这几类场景可能带来的影响。
(1)有监督采集语音
声纹识别在公安领域的应用场景中,有直接采集语音的情景,如智慧社区警务、巡逻盘查、重点人声纹采集等,此类场景可在警务人员监督下直接采集说话人原始语音,并录入声纹库。在此过程中,语音采集一般是在监督指导下现场完成的,攻击者难以在此过程中添加对抗性噪声到采集的语音样本中,可以看作拥有说话人最真实的声学特征和频谱信息的语音样本。因此应继续强化此类场景下的监督,避免攻击者趁监督者不备从而录入对抗语音的情况。
(2)无监督采集语音
对于智能语音警务服务、公安物联网等来说,进行音频采集的设备可能处于无人监督状态,这便给了攻击者通过播放对抗样本的方式攻击系统的可能性,攻击者可以通过事先准备好含有对抗噪声的样本输入到系统,以欺骗系统达到攻击目的。
例如,攻击者通过事先录制好含有针对性对抗噪声的语音样本,对无人监督的智能警务服务设备或公安物联网语音感知设备进行播放,从而欺骗系统将声纹识别成特定的身份,从而实现攻击目的。此外,还需防范其他非正常与系统进行语音交互的攻击手段,如通过声光转换调制激光照射语音感知设备[5],以欺骗系统的方式进行攻击。
(3)虚拟空间采集语音
对于电信网络诈骗等通过电信网络虚拟空间采集语音信息的情况,如电话、即时聊天工具、VoIP等方式传递、采集的音频信息,由于说话人的语音是间接采集的,并非直接面对面输入到被信任的语音采集设备,因此无法确定语音信息是否进行伪装或添加了对抗噪声。若攻击者在虚拟空间中的语音通话、语音信息中使用了对抗攻击技术,那么将会影响声纹识别的准确性,目前基于声纹识别匹配的一些反电诈技战法将失效,若将这些语音作为声纹来源加入声纹库,还会对建设的声纹库造成污染,降低整个声纹识别系统的鲁棒性。
(4)声纹识别与鉴定
在案件的侦破过程中,往往涉及对相关语音信息进行声纹识别与鉴定。声纹识别包括从声纹库中匹配出与输入语音声纹特征高度一致的说话人,如以音找人等场景,以便快速辨认语音来源人员的身份。而声纹鉴定则主要包括真实性和同一性鉴定[6],将语音信息中的声纹特征与特定人员的声纹进行鉴定,从而确认语音来源人员的身份。
而在案件中搜集到的语音信息往往并不是有监督采集的语音,这些非直接、面对面采集的语音信息的可信度无法保证,若嫌疑人在其中加入了对抗噪声,则会使语音识别系统做出错误的判断。同时,对于对抗性语音样本,由于其生成原理不同于剪辑、合成等语音伪装手段,其真实性鉴定存在一定难度,此外在一些攻击算法中语音的频谱分布和声学特征与正常样本无明显差异[7],即声纹鉴定结果即使为肯定同一的情况下,将两段语音输入声纹识别系统中可能会得到完全不同的输出结果,被系统识别为2个不同的人,与鉴定结果存在冲突。
3.3 对策
(1)声纹采集与声纹库建设管理规范化
为避免在涉及语音录入的场景采集到对抗性声纹样本,对系统造成不良影响,应加强对录音设备、环境、采集流程等的规范管理,确保采集语音信息的真实性,提高样本质量,防止采集设备遭受外部干扰,严格监督采集过程,避免被采集者通过事先准备的音频播放设备进行外放录音,以免对抗样本进入声纹库造成污染。
(2)为声纹识别系统添加检测模块
为了防止攻击者在无监督采集语音的情况下对采集设备通过录音重放、利用声光转换调制激光等方式进行对抗攻击,可以为声纹识别系统添加活体检测模块,从而过滤非直接活体采集的语音样本,防止被篡改的样本输入系统。对于通过电信网络采集的语音信息,可以在系统中添加对抗样本检测[8]模块,用以识别出添加了对抗噪声的样本并进行过滤,从而避免对抗样本输入系统实施攻击。但目前对抗样本检测的技术尚不够成熟,因此对来源于电信网络的语音信息须谨慎对待,不宜直接纳入标准声纹库以免造成污染。
(3)采用多重认证
对无监督采集语音的场景,需要通过声纹认证访问有较高安全要求的系统时,可结合人脸识别、随机语音口令等方式进行多重认证,在满足便捷性和无感识别需求的情况下,提高安全性,增加对声纹识别系统进行对抗攻击的难度。
(4)完善相关标准和技术
在声纹鉴定方面,现行的《SF-Z JD0301001-2010录音资料鉴定规范》等规范,由于制定时间较早,未对存在对抗攻击的情况作出规定,一些鉴定方法、技术等在鉴定对抗样本时存在困难。此外,如《GA/T 1179-2014 安防声纹确认应用算法技术要求和测试方法》、《GB/T 35318-2017 公安物联网感知终端安全防护技术要求》等相关技术规范中也缺乏对存在对抗攻击的情形的考虑。因此,需要不断完善声纹识别相关技术规范与要求,及时制定对抗攻击防御技术规范,积极开展多方合作,跟进前沿研究成果,提高完善司法鉴定的技术方法,提高对抗样本的检出准确率,促进行业在大数据与人工智能浪潮下应对对抗攻击带来的挑战。
(5)完善法律责任与监管
语音数据包含了说话人的生物特征信息,属于敏感隐私数据,其采集、传输、存储等过程都应严格管理,避免被不法分子利用从而带来严重后果。2021年9月1日开始正式施行的《中华人民共和国数据安全法》规范了数据处理活动,在促进数据开发利用的同时保障数据安全,保护个人、组织的合法权益,维护国家主权、安全和发展利益,要与《网络安全法》《个人信息保护法》等法律法规一起配合,进一步完善、明确法律责任和监管主体执法部门,体现立法效果。此外,对一些类似人脸造假软件ZAO等,可能带来不良后果的语音伪装软件等应加强兼管,防止技术滥用破坏经济社会的安全稳定发展。
4 结束语
在大数据时代,人工智能、深度学习等技术是实现智慧城市、智慧警务的重要工具,但深度学习面临着遭受对抗攻击的风险,而基于深度学习的声纹识别系统面临着相同的挑战。在公安领域中,声纹识别系统有着广泛的应用和光明的前景,对抗攻击的检测与防御关系着公共安全,希望各方能够积极应对,早日攻克这个难点。
[1]Hansen J H L,Hasan T. Speaker recognition by machines and humans:A tutorial review[J]. IEEE Signal processing magazine,2015.
[2]Sztahó D,Szaszák G,Beke A. Deep learning methods in speaker recognition:a review[J]. arXiv preprint,2019.
[3]Abdullah H,et al. Sok:The faults in our asrs:An overview of attacks against automatic speech recognition and speaker identification systems[C]//2021 IEEE Symposium on Security and Privacy. IEEE,2021.
[4]刘晓晨,潘孝勤,曹金璇,等.声纹识别和语音识别技术在公安领域的应用[J].网络安全技术与应用,2021.
[5]Sugawara T,et al. Light commands:laser-based audio injection attacks on voice-controllable systems[C]//USENIX Security,2020.
[6]曹洪林,张晓琳.中国声纹鉴定证据庭审应用现状的实证研究[J].中国语音学报,2020.
[7]Hanifa R M,Isa K,Mohamad S. A review on speaker recognition:Technology and challenges[J]. Computers & Electrical Engineering,2021.
[8]Tian J,et al. Detecting Adversarial Examples from Sensitivity Inconsistency of Spatial-Transform Domain[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2021.
四川省教育厅科研计划项目(18ZB0409)