APP下载

智能语音系统安全分析

2020-01-15张笑宇沈超陈宇飞吴星辉刘畅

数据与计算发展前沿 2019年6期
关键词:攻击者音频机器

张笑宇,沈超*,陈宇飞,吴星辉,刘畅

1.西安交通大学,智能网络与网络安全教育部重点实验室,陕西 西安 710049 2.西安交通大学,电子与信息工程学部,陕西 西安 710049

引言

早在计算机发明之前,人们就已经开始了对语音系统的种种设想。20世纪初,AT&T贝尔实验室开发了最早的基于电子计算机的语音识别系统——Audrey语音识别系统[1]。到了20世纪60年代,人工神经网络的引入为语音系统智能化迈出第一步。如今智能语音系统在世界范围内都得到了相当普遍的应用:根据全球最大管理咨询公司Accenture调研显示全球50%的消费者使用着智能语音助手,其中中国的用户比例最高,达到77%[2]。此外,在智能家居、物联网等领域,智能语音系统也对提高服务质量、促进未来发展起着至关重要的作用。

然而,语音助手在方便了人们生活的同时,也逐渐暴露出了其在信息隐私及系统安全上的风险。2019年,亚马逊、谷歌、苹果、微软相继被爆出旗下语音助手对用户进行了非法监听[3],而在语音系统安全尚未得到保障的情况下,亚马逊[4]与谷歌又相继将语音助手支付提上了日程。在此背景下,语音系统安全问题得到了越来越多研究者的关注。为了揭示语音系统潜在的安全风险,大批来自工业界以及学术界的研究人员提出了各类攻击的可能性与相应的防御机制。然而,不同学者提出的威胁模型不同,研究的侧重点不同,攻击与防御的侧重点也不同。本文根据数据的流向把系统划分为输入环节、预处理环节、机器学习模型及输出环节,对现有的研究工作进行了系统地整理与归纳,并开展了相应的安全性分析,讨论了未来的可能的研究发展方向。

1 语音系统安全模型

针对语音系统进行安全分析,首先需要建立系统安全模型。本节对语音系统的可能攻击面进行简要分析,并从攻击能力与攻击目标两个角度建立系统的攻击者模型。

1.1 语音系统攻击面

根据智能系统内部的数据流向,如图1所示,可以将语音系统的处理流程分为四个主要环节[5]:

图1 智能语音系统框架[5]Fig.1 The frame of intelligent acoustic system

输入环节:语音系统通过麦克风等传感器设备从外界采集模拟音频信号数据并生成数字编码数据,或者直接读取文件获得数据。

数据预处理环节:输入环节得到的原始数据往往需要经过格式转换、数据压缩、尺度变换等预处理工作,以满足机器学习模型对语音数据输入格式的要求,同时也可以将数据量保持在模型可以正常处理的范围内,确保工作的效率。

机器学习模型环节:机器学习模型是整个语音系统的核心,其主要包括训练与测试两个阶段。在训练阶段,机器学习模型根据经过预处理的训练数据调节模型参数,以提升对于目标任务的工作性能。训练阶段结束后进入测试阶段,此时训练好的模型根据模型输入提供针对目标任务的相应预测结果。

输出环节:语音系统一般会将音频可能的对应标签、置信度作为中间输出,并进行后续的分类、决策等操作。

1.2 攻击能力

在语音系统的攻防中,主要以攻击者在实行攻击时掌握的情报量来评价攻击能力,可以分为:

白盒攻击(White-box Attack):攻击者完全了解目标系统的各类信息,包括:数据预处理方法、机器学习模型结构、训练参数等等,甚至有时攻击者还可以掌握部分乃至全部训练数据信息。在这种攻击模型下,攻击者可以相对容易的发现系统的薄弱环节并设计相应的攻击策略。

黑盒攻击(Black-box Attack):系统对于攻击者并不透明,所有内部的细节、信息都被隐藏,攻击者仅能生成并输入样本,根据相应的模型输出来对模型内部进行推断。

灰盒攻击(Grey-box Attack):攻击者只能获取到受到限制的目标系统信息,仅对系统的某个环节有足够的了解而对其余环节一无所知,因此无法对目标系统的具体方法、参数有一个详细、全面的认识。在这种攻击模型下,攻击者可以在一定程度上对目标系统进行分析,是一种介于黑盒与白盒之间的攻击模型。

1.3 攻击目标

攻击目标是指攻击者希望借助攻击达到的效果,Papernots等人[5]将机器学习的安全需求总结为CIA模型,即三个特性:机密性(Confidentiality)、完整性(Integrity)、可用性(Availability)。机器学习的CIA特性均有可能受到破坏,每种特性对应的攻击方法即为:机密性攻击、完整性攻击、可用性攻击。

机密性攻击:攻击者期望通过攻击从目标模型中窃取训练数据、模型参数等私密信息,从而破坏数据、模型隐私。

完整性攻击:攻击者期望影响系统的输出,使之在训练阶段无法学到正确分类,在测试阶段做出错误的预测。

可用性攻击:攻击者期望通过攻击降低目标系统的性能或服务质量,乃至无法正常工作。

下面我们将基于以上的安全模型,从输入环节、数据预处理环节、机器学习模型环节、输出环节等四个核心模块,以及实际搭建安全分析共五个角度入手,结合相关的研究工作,对语音系统安全进行阐述与分析。

2 输入环节安全分析

语音系统依赖麦克风等传感器设备来采集模拟音频信号并将其数字编码结果作为输入,或者直接从音频文件中读取数据作为输入,输入的音频数据经过后续的预处理环节后直接输入机器学习模型进行处理。麦克风这类硬件设备往往暴露在外,可以直接被攻击者研究、利用,因此攻击者可以相对容易的对音频输入进行干扰,从而展开攻击。

语音系统的输入环节主要存在两类攻击方法:传感器干扰与传感器窃听,前者主要针对的是语音系统的可用性与完整性,后者针对的是语音系统的机密性。输入环节攻击基本属于灰盒攻击,即攻击者仅仅需要得知少量的关于目标系统的知识(例如相关设备的特性与性能),即可以达成攻击。

2.1 传感器干扰

早期传感器干扰攻击主要是利用电磁干扰攻击输入设备。Kasmi等人[6]针对耳机线使用特殊的电磁耦合干扰,向智能手机语音系统注入操作指令,达成了远程的静音拒绝服务攻击,但对于发起攻击的设备、环境均有一定的要求;后来的Roy等人[7]利用了麦克风硬件的非线性特性,使得他们生成的音频携带远超人类可听范围的高频声音(例如携带40kHz,远超人类可听的20kHz范围),在通过麦克风的非线性振膜和功率放大器后,可以在可听频率范围内产生“阴影”,对输入模型的数据产生干扰,达成了无法被听到的攻击。利用类似的方法,Zhang等人[8]设计了“DolphinAttack”,成功地对音频信号插入不可闻的语音命令,并通过在Siri等语音识别系统上的实验验证了攻击方法的有效性。Song等人[9]利用同样的麦克风非线性漏洞攻击了Android设备以及Amazon Echo,取得了较高的成功率。这类攻击相对而言对于开展攻击的设备要求宽松,但是仍旧需要在目标设备的一定范围内开展。Roy等人[10]进一步改进了这类攻击,极大延伸了攻击的可行距离。

安全分析:传感器干扰攻击对于攻击者与受害者的距离有一定的要求,难以远程操控。对于传感器干扰攻击,往往可以通过对硬件设备的改良展开防御,例如设计或增强麦克风以抑制在超声波频率范围内的声学信号,即可有效地消除声学阴影造成的影响[8];降低输入端口的灵敏度可以抵御电磁耦合干扰[6]。此外Roy等人[10]还提出了软件层面针对非线性痕迹的检测防御机制,取得了较好的防御效果。

2.2 传感器窃听

传感器窃听利用的是对输入设备及其传感器进行低权限访问,并从中窃取私密信息,例如信用卡密码等。Michalevsky等人[11]利用智能手机上的MEMS陀螺仪对于音频信号的敏感性,开展了无需访问麦克风的窃听攻击,他们的工作表明,对陀螺仪的无限制访问可以轻易地暴露使用者的隐私信息。Schlegel等人[12]设计了小型木马“Soundcomber”,仅靠很低的权限便可以从目标手机的音频传感器提取少量的信息并分析出信用卡密码等一系列敏感数据。

安全分析:对于传感器窃听攻击,虽然可以靠限制程序对特定目标的访问来进行阻止,但同时用户对手机的正常使用也会受到影响。Schlegel等人[12]提出了一种包含上下文分析的内置监视器以防止音频数据在敏感呼叫期间泄漏到不受信任的应用程序,这种监视器旨在阻止所有应用程序在可能包含私密信息的时间内访问音频数据。

3 数据预处理环节安全分析

数据预处理环节旨在将输入环节采集到的音频编码数据转换为机器学习模型可接受的相应格式。如今市面上比较常见的语音识别系统对输入音频格式均有较高的要求,例如采样率要求为8Khz或16Khz,单声道音频;而一般来讲手机录制的音频文件为44.1Khz,双声道音频;因此一般会对原始数据进行重采样、声道转换等预处理。此外,输入音频在应用到机器学习模型前还需要进行预加重、加窗、特征提取等等。Abdullah等人[27]针对特征提取算法开发了多种扰动,并展示了该黑盒攻击对于现有防御机制的破坏性。

安全分析:尽管在目前的研究中,针对音频文件预处理的攻防研究仍处在起步阶段,但不难发现的是,音频预处理会存在大量的数据损失,因此存在被攻击的风险。针对现有的扰动攻击,Abdullah等人[27]提出在预处理前对音频实施特定处理或者加入活体检测辅助识别的防御策略,但会在一定程度上影响服务质量。

4 机器学习模型环节安全分析

机器学习模型是语音系统进行决策判断的核心。最早在2004年,Dalvi等[13]提出了对抗分类(Adversarial Classification)的概念,引出了机器学习模型安全问题,2005年Lowd 等进一步提出了对抗学习(adversarial learning)的概念[14],随后机器学习模型安全研究热度逐步上升,尤其是近五年,相关的攻防研究如雨后春笋一般层出不穷。Huang 等[15]对对抗机器学习提出了更为具体和系统的分类方式。目前,机器学习模型安全问题可以主要分为以下几类:

诱导攻击(Causative Attack):攻击者通过对训练数据进行投毒等方式影响模型训练过程,进而干扰模型的正常工作;

逃逸攻击(Evasion Attack):攻击者借助人为构造的异常输入样本来影响模型在分类或决策时出现错误;

探索攻击(Exploratory Attack):攻击者试图推断机器学习模型是如何工作的,包括对模型边界的预测、训练数据的推测等。

由于语音系统运作不同于智能推荐等系统,攻击者难以直接对训练数据进行影响,因此目前在语音系统安全问题主要为逃逸攻击与探索攻击,其中构造对抗样本造成模型误识别最为常见。

4.1 对抗样本

一般在机器学习模型中,默认输入测试数据的分布与训练数据的分布大致相同,因此当输入数据进行过精心编辑后,就有可能导致机器学习系统错误输出。针对图像系统进行的对抗样本攻击往往可以通过改变特定像素或者添加一些色块达成目标[16-19],但是这种方法不足以对语音系统产生影响,现代图像模型直接对提供的图像像素进行操作,以得出相关的空间特征[20-21]。然而,音频模型不对单个样本进行操作,而是使用人类语音的声学属性来导出原始时间空间的表示,因此细微的改变基本无法对模型运作产生显著影响。

从结构上来讲,语音系统一般包括两个机器学习模型:语音模型、语言模型。语音模型负责将输入的音频数据进行分析,得到初步的结果,语言模型则根据人类遣词造句的习惯,对语音模型的输出进行调优得到最终输出。语音系统的对抗样本攻击主要是分别针对两个机器学习模型进行的攻击。

4.1.1 语言模型

针对语言模型的攻击往往利用语言模型自身的缺陷,人为地构造样本,使得语言模型“误解”受害者的意思从而达成攻击。

Nikiforakis等人[22]研究了基于同音词的抢注攻击,这类抢注攻击会使语音识别系统错误地下载具有相同读音的恶意软件;Kumar等人[23]针对亚马逊“Alexa”进行了抢注攻击的研究,该研究证明了这类错误解释是系统性的,且极容易被攻击者加以利用;此外,Zhang等人[24]探索了一种类似的方法,利用目标语音系统的调用方式,使用具有相似发音的恶意技能来拦截正常调用。Bispham等人[25]的研究表明语音助手会试图把无意义的音节序列理解为可能有意义的指令,从而便可以达成攻击。

安全分析:目前针对语言模型的攻击主要利用了语言模型建立中的漏洞,误解受害者原本的意思,最终达成攻击目的。为了预防并解决抢注攻击,Zhang等人[26]以语言模型为中心,设计了一套具有普适性的模糊测试工具用于测试语音系统可能存在的问题以及易受攻击的应用程序,较好的缓解了这一类攻击,但真正解决这种攻击问题还需要从语言模型本身入手加以防御。

4.1.2 语音模型

目前对音频识别系统语音模型的对抗样本攻击根据研究主要可以分为三类[27]:

第一种生成恶意音频命令,这些命令对人耳完全听不见但被音频模型识别[8]。

第二种将恶意命令嵌入到合法音频片段(例如,歌曲)中[30-31],借此阻碍人类发现。

第三种模糊了一个音频命令到一定程度,以至于偶然的人类观察者会认为音频仅仅是噪音,但会被受害模型正确解释[28,32-33]。

由于第一类由于主要针对的是麦克风(传感器)漏洞,在本文中划分在输入环节的攻击。在此主要介绍第二类与第三类的相关研究。

Neupane等人[29]利用功能性近红外技术对语音信号的神经基础进行了分析,得到了人脑处理合成语音和正常语音的方法几乎没有区别的结论,进一步表明了语音攻击的隐蔽性与危害性:微小的音频改变对人而言不可查觉,但对系统而言可能是致命的。Yuan等人[30]将语音指令隐秘地插入歌曲中,利用目标语音识别系统有效地控制目标且难以被注意到。这种攻击拥有较高的传播性与隐蔽性。同时他们提出了相应的防御措施,包括添加噪声并对比结果来检测攻击、降低音频采样率并对比结果来检测攻击。类似的,Zhou 等人[31]通过隐秘地在流行音乐、视频等插入语音指令,成功地攻击了汽车的语音交互系统,并提出了基于流行音乐的防御策略。

Vaidya等人[32]研究了人类与机器在语音识别机制的差异,证实了这类差异可以被攻击者轻易利用,从而产生仅机器可以识别的指令。Carlini 等人[34]针对 Mozilla DeepSpeech 构建了对抗音频,采用基于优化的方法对原始输入直接进行修改,最终有极大的概率被识别为其他音频语句。此外,Carlini等人[33]进一步采用了白盒方法对采用基于GMM的声学模型的语音识别系统进行攻击,在完全了解目标系统的算法情况下,他们的攻击模型可以生成人类与机器识别结果完全不一致的音频。此外他们还探讨了针对这类攻击的防御方法可行性,包括安全警报、主动质询、预防与检测等等,总的来讲,通过调整滤波器轻微降低音频质量可以较为有效的消除隐藏语音命令。Cisse等人[35]提出了一种名为“Houdini”的新型对抗样本生成手段,并在对实际系统的攻击中取得了良好的效果。Szurley等人[36]设计了基于心理声学属性的损失函数,可以更好的实现针对语音系统攻击。Alzantot等人[28]通过添加背景噪声,达成了对自动语音识别系统的黑盒攻击,使得系统误分类的同时听众不会感受到音频的明显变化。Schönherr等[37]开发了一种基于心理声学的新型对抗样本,只加入极小的扰动就可以在任意音频输入中嵌入恶意语音命令。此外,Kreuk等人[38]针对说话人识别系统设计了黑盒攻击方法,他们通过添加特殊噪声生成对抗样本,可以有效地降低系统识别说话人身份的准确性。

安全分析:目前针对语音模型的对抗样本攻击以白盒攻击、规避攻击为主,梯度下降是这种前提下比较常见用于求解对抗样本的方法。近两年黑盒攻击的数量正在不断攀升,可以预见的,相关的研究正在不断提升实用性,减少对攻击前提的约束。

针对加入噪声和扰动的攻击,Serdyuk等人[39]提出使用生成对抗网络来提升模型的鲁棒性,类似的,Sriram等人[40]设计了一套基于生成对抗网络的框架以训练稳健的语音识别系统。这类方法可以明显提升模型对于扰动以及噪音干扰的抵抗力,有效降低误识别几率。

此外,针对不可闻的音频攻击,往往加入噪声或者改变采样率便可以对隐藏指令进行一定的破坏[30],或者添加滤波器使得音频质量产生一定的损失[33]。Zeng等人[41]提出利用不同ASR系统训练与识别的差异性来检测对抗样本,取得了最高99.88%的准确率。由此可见音频对抗样本攻击仍旧较为脆弱,对音频整体的影响也会体现在隐藏的信息上,但是改善对抗样本也影响了音频质量和正常使用,因此如何在两者之间取舍是目前的一个问题。

事实上,如今许多对抗样本防御都不具备通用性,且很难对适应性攻击产生较好的效果——也就是说一旦攻击者对防御模型有所了解,那么攻击者对问题模型加以改变仍可以轻易完成攻击。在这个方面,Yang等人[42]提出利用音频数据的时间依赖性来针对对抗性样本进行判别,在一定程度上可以抵抗适应性攻击,提升系统稳健性。

4.2 模型逆向

模型逆向攻击是攻击者针对训练数据的挖掘攻击,是针对系统的机密性攻击。近年的研究均指出:针对在云端训练的机器学习模型进行模型逆向攻击从而窃取私密数据或进行成员推断并非难事。Shokri等人[43]的研究表明可以通过机器学习模型的影子模型对训练集成员进行推断,Salem 等人[44]进一步通过实验证明了通过单个影子模型开展相同攻击的可能性。语音系统一旦被进行模型逆向攻击,攻击者便可以有目标的进行语音合成或者重放攻击,从而绕开系统造成更大的危害。Miao等人[45]开发了一套语音审查系统,对基于DNN-HMM的语音识别模型进行了成员推断攻击从而判断用户的语音是否在未授权情况下用于模型训练,取得了一定的成果

安全分析:为了解决隐私泄露问题,有研究者提出了“差分隐私”(Differential Privacy)模型[46],一般来讲是在模型预测值与标签中加入一定的扰动使得攻击者无法通过输入输出对私密数据进行推断。Chaudhuri 等人[47]进一步在训练期间对模型预测值与标签的误差加入指数分布的噪声,可以实现ε-差分隐私。此外Salem等人[44]通过模型分块训练以及随机删减神经元有效地减少了过拟合,削弱了影子模型的威胁。

4.3 模型后门

模型后门(backdoor)意味着在训练的模型中有一套隐藏模式,仅当输入音频数据具备触发条件(trigger)时激活,从而产生异常行为,带来安全威胁。Jadhav等人[48]设计了一种在音频中隐藏信息的方法,一旦模型输入不包含原定的隐藏信息则认为系统被非法使用并发出警报。Kong等人[49]对隐藏技术进行了进一步研究,并揭示了由此产生的高隐蔽对抗样本激活模型后门的安全隐患。

安全分析:目前的相关研究仍处在起步阶段,但相关研究均表明了在音频数据中插入隐藏信息的可行性。对此可能的防御手段可以参考Wang等人[50]提出的后门检测方法,通过微小扰动引发的标签变化判别后门是否存在。

5 输出环节安全分析

机器学习模型输出的结果直接决定着语音系统的决策与分类,但是同时存在一个问题——准确而又丰富的模型输出会给攻击者带来可乘之机,攻击者可以借此高效地进行模型逆推或者模型萃取,进一步窃取私密数据,相对地,具备较大误差的输出会降低系统的可用性。Elsayed等人[51]针对视觉模型进行了模型重编程攻击的研究,并证明了这类攻击的可行性以及危害性。尽管在语音系统中关于这方面的研究十分有限,但也存在类似的安全风险的可能性:语音模型的输出结果可能也会被攻击者利用从而达成机密性攻击,该领域应为潜在的研究方向。

6 实际搭建安全分析

在系统的实际搭建中存在各类安全风险:代码可靠与否、系统设计是否完善、学习不完全风险等等。

在实际使用中最常见也是最基础的针对系统的攻击是语音重放攻击,即攻击者实现将语音指令录制下来,在需要的时候播放,从而达成攻击目的。这类攻击虽然简单易实现,但是易于检测。以此为基础,研究人员提出了种种改进措施:Mukhopadhyay等人[52]展示了攻击者利用自动语音合成技术模仿受害者语音模型从而欺骗机器学习模型乃至人工语音识别,使得攻击更加有效;Lei等人[53]的研究表明了当前家庭数字语音助理(Alexa等)存在的漏洞可能导致重放攻击等等,他们提出应当完善验证机制,改变设计为检测到有人类活动才能接受语音指令从而降低受攻击的可能性。Lai等人[54]提出了一套检测系统,可以有效地对语音重放攻击进行检测,并在测试中取得了8.99%的错误率。

系统自身的不完善也可能为攻击者提供可乘之机。Diao等人[55]展示了攻击者可以控制设备扬声器后台播放准备好的音频文件从而借助安卓系统内置的谷歌语音助手直接进行发送短信、读取隐私数据等本应需要高权限的行为。针对这类隐私窃取攻击,比较有效的手段是进行的权限设置,例如禁止后台静音播放等,但同时也会对用户的正常使用带来不便。

此外,实际搭建的系统往往需要依赖市面上流行的深度学习框架,例如TensorFlow、Caffe等等,这些框架固然可以极大地简化使用者自己搭建系统的步骤,但是与此同时也带来了安全隐患——深度学习框架往往使用大量的第三方库与组件,这些调用内容的微小改变就能对搭建好的系统鲁棒性、完整性、机密性带来巨大打击[56]。另外,在实际使用中,系统不完全的学习可能会影响正常使用,导致系统误判。

目前对于语音系统搭建风险的研究仍然十分有限,几乎没有针对语音模型代码以及学习不完全风险的研究,主要研究方向仍停留在系统上。

7 前景展望与挑战

尽管目前关于语音系统的研究已取得一定的成果,但是主要研究范围仍集中在系统的特定环节上,而且整体研究状况仍处在初级阶段,部分研究对攻击的环境、目标都有较为严格的要求,难以应用在实际场景中。同时,机器学习的技术也在不断进步,深度学习、强化学习、元学习等新一代机器学习技术的发展将会为整个系统的攻防对抗带来更多可能。

7.1 已有研究方向有限

目前语音系统的研究主要针对机器学习模型,尤其是对抗样本。关于数据预处理、输出等环节仍有待研究与探索。这些环节的攻防研究均在图像识别、文本分析等人工智能系统中有所建树。如何将已有的其它领域系统上的攻防研究“类比”到语音系统中将会是未来的重要研究方向。此外,现有攻击研究多集中在完整性与可用性上,对于机密性的攻击研究十分有限。事实上,语音系统如今已得到足够广泛的应用,各类语音系统均使用、携带大量的数据,而目前针对这些训练数据、模型参数的攻防研究仍有待更多探索。未来研究应对语音系统的数据投毒攻击以及私密数据的检测与保护予以更多关注。

7.2 攻防博弈有待提升

现阶段语音系统的攻击以白盒、灰盒为主,一般在黑盒系统上较难取得理想的攻击效果,在实际应用中价值不高。此外,这类攻击常使用梯度下降的方法解优化函数以得到对抗样本需要的扰动,但这种方法容易被梯度蒸馏等方法防御;而黑盒攻击依赖于启发式算法,在较大的搜索空间上难以取得理想的结果。在未来的研究中,如何进行更加有效、廉价的攻击将会是重要研究目标。

同样的,目前的针对攻击的防御尚未形成体系。对于不同的方法往往进行针对性的防御,而且部分防御是以用户的正常使用为代价,难以应用在实际系统中;更糟的是,许多针对机器学习模型的防御机制并不具备适应性,即无法对知晓目标系统防御机制的攻击者进行有效防御。在未来研究中,如何对防御机制进行系统的评价以及如何建立适应性防御都是重点难题。

7.3 语音系统安全评估量化

在目前的研究中,有相当一部分是针对实际使用的语音系统进行的攻击测试,例如针对亚马逊的Alexa或手机上的语音助手的攻击测试,这些攻击展现出语音系统实际使用中的危险性。未来有待提出一套针对语音系统安全的全面的量化评判标准,以对市面上的语音系统进行评价分析,从而减少潜在风险,提升系统可用性。这类标准可以基于自动化测试系统,利用生成对抗网络等生成模型全方位地对目标系统进行测试评估。

8 总结

智能语音系统逐步融入人们的生活之中,Alexa、Siri等等语音助手方便了人们的生活,同时也吸引着来自学术界以及工业界的研究者对系统安全进行探索以及深入研究,目前在这一研究领域已经取得了预期的成果。然而对语音系统的研究整体还处在初级阶段,仍有方向等待探索,仍有难题等待解决。为了重新审视智能语音系统中存在的安全隐患,我们需要理清现有研究的优势与不足,提供未来方向的参考。本文从智能语音系统的各个环节以及实际搭建过程共五个模块进行了介绍与分析,回顾了各个方向的研究进展并进行了总结与分析。此外,本文还指出了目前研究上存在的难题,并对未来可能的研究方向进行了展望,旨在为后续研究提供参考。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢

攻击者音频机器
机器狗
机器狗
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
未来机器城
正面迎接批判
正面迎接批判
音频分析仪中低失真音频信号的发生方法
Pro Tools音频剪辑及修正
有限次重复博弈下的网络攻击行为研究