康锦涛,王 莉,王晓笛,盛 卉,李敬阳,黄文林
(公安部物证鉴定中心,2011计划司法文明协同创新中心,北京 100038)
1 语音同一认定
1.1 听觉分析
听觉分析是目前语音同一认定技术方法的重要组成部分[1,8-10],在国内外许多规范标准中早有明确规定[11-16]。2017年,Sundqvist等[17]设计了一套听觉分析程序,并将之应用于瑞典国家法庭科学中心(NFC)的检验实践中。为了推进听觉分析方法的体系化与规范化,Lindh等[18]对听觉分析方法的可靠性做了考察,分别使用听觉分析与自动识别对芬兰语说话人进行对比分析,并用于芬兰国家调查局(NBI)的语音同一认定实践的流程改进。Leinonen等[19]提出建立不同语种的听觉特征集,并在瑞典语和芬兰语两个语种上开始了初步尝试。Land等[20]对笑声的听觉分析价值进行了探讨。在伪装语音的研究方面,Skarnitzl与 Růžičková等[21-22]研究了捷克语说话人的常见伪装方式,并对不同伪造方式下的听觉特征与声学特征做了初步分析,Delvaux等[23]考察了伪装与模仿两种方式下听觉特征与声学特征的差异。
嗓音特质分析(Vocal Prof i le Analysis, VPA)在语音同一认定中的应用是近年来听觉分析研究的热点[24-29],2017年,许多专家学者继续就这一方向进行探索。为了便于分析,Segundo等[30]设计了简化的VPA分析表,并应用于同卵双胞胎的听觉分析上;Segundo等[31]验证了VPA分析表在西班牙语、德语、英语语境下的有效性。Klug[32]就VPA分析表的改进做了探讨,提出应当在加强培训的基础上改进要素的类目。Hughes等[33-34]将VPA分析表得分与自动识别方法结合起来考察,结果表明,将使用梅尔频率倒谱系数(MFCC)参数与长时共振峰分布(LTFD)特征的自动识别系统融合,系统性能提升有限,将VPA得分结果加入后,系统识别正确率显著增加。
1.2 语音学-声学分析
听觉分析与语音学-声学分析是共生互补的关系[35-36],语音学-声学分析方法不仅为听觉分析提供量化支持,而且也可以提供新的特征[3]。在语音学-声学分析方面,Heuven、Gold等[37-38]继续就填词暂停(f i lled pauses)、犹豫词(hesitation markers)的声学特征进行分析,以进一步挖掘其在语音同一认定中的价值。He等[39]研究了不同说话人的重音变化受噪音或不同频段影响的程度,结果表明不同说话人的重音特征在全频段上都有较好的体现。双语者在说两种语言时的声学特征各有何特点是一直以来的研究课题之一,Dorreen等[40]就这个课题下的长时基频分布做了研究。Arantes等[41]考察了语种、话语方式等因素对长时基频达到稳定状态时的时长影响,结果表明话语方式的影响最大。Dimos、Lopez等[42-43]研究了大喊状态下语音的节奏、韵律以及频谱特征。He等[44]研究了音强曲线的声纹鉴定价值。不同语种的元音空间(vowel space)并不相同,Varošanec-Škarić[45]研究了克罗地亚语、塞尔维亚语和斯洛文尼亚语男性说话人元音空间的异同,为开展不同语种间的说话人鉴定提供了一定基础。McDougall等[46]比较了基于音节与基于时间的两种流利度描写方法。Wang等[47]研究了汉语复合元音的动态特征,结果表明复合元音也具备较高的声纹鉴定价值。Heeren[48]对电话录音中[s]在不同语境下的不同声学特性进行了探讨。在嗓音档案(voice prof i le)的构建方面,Franchini[49]以[l]音的声学特征为例对此做了研究,Fingerling[50]对二语说话人的元音集合重建做了探索。
1.3 语音特征的价值
在语音同一认定中,语音特征价值的高低是需要重点考虑的内容。根据语音特征的动态性原理,其具有变异性(即同一说话人的自身的差异)和差异性(即不同说话人之间的差异),变异小而差异大的特征鉴定价值较高。2017年,对于特征价值的关注点主要在人群的语音特征分布上。Rhodes等[51]认为现阶段的人群特征分布研究应与实际案件结合。Hughes、Wormald[52]提出建立维基方言库的构想,将方言中的高价值特征放入数据库。Hughes等[53]提出了研究人群语音特征分布需要考虑的四个问题,一是控制因子,二是特异度,三是误差,四是确定程度,并以英语中双元音[ai]中的共振峰走势为例,说明了不同情况下的语音特征分布对语音同一认定结果的可能影响。在检材与样本内部语音特征的表现是否稳定方面,在以往部分研究的基础上,Ajili[54-56]提出一种使用信息论中的同质化度量(homogeneity measure)标准对声学参数的稳定性进行度量的方法[57]。
1.4 声纹鉴定意见表述
2017年,英国的French[58]调整了其意见表述形式,逐渐从英国立场说明框架下的一致性与独特性[59]转向可能性等级形式,在这一框架下,意见共分为13级,与英国法庭科学提供者协会(Association of Forensic Science Providers)推荐的标准[60]一致。荷兰NFI的Vermeulen[61]介绍了其得出“强烈支持”结论的依据,在实际案例中,NFI只有在检材与样本特征几乎相同或者说话人有言语障碍等高度独特性特征时才给出这种鉴定意见。
1.5 语音数据库及自动识别技术
目前,国际上司法语音及声学专门的语音数据库有英国的Nolan建立的DyVis[62]、澳大利亚的Morrison建立的FVCD[63]、西班牙的Ramos建立的AHUMADA[64]、荷兰的Vloed建立的NFI-FRITS[65]、法国的Ajili建立的FABIOLE[66]等。国内方面,我国的“全国公安机关声纹数据库”依然是国际上收录说话人最多的声纹鉴定语音数据库。2017年新建的VoxCeleb[67]则是比较新的代表。目前说话人自动识别技术的主流框架主要有两类,一种是高斯混合模型加通用背景模型(GMM-UBM),另一种是基于i向量(i-vector)空间的概率线性判别分析(PLDA)方法,同时开始使用深度神经网络(deep neural network,DNN)提取语音特征。后一种框架较新,因此成为2017年的研究热点。DNN提取语音特征的方法取得的效果较好,对训练数据量的要求也较大,我国的“全国公安机关声纹数据库”已经采用DNN方法提取特征。Park等[68]将嗓音音质声学特征引入采用这种架构的自动识别系统中,与MFCC特征结合,显著提升了短语音的识别率。Solewicz等[69]为解决现有的对数似然比(LLR)对处理说话人内部变异的不足提出了一种新的说话人自动识别系统性能指标——空假设对数似然比(Null-Hypothesis LLR)。Tschäpe等[70]考察了基于i向量系统的错误结果,发现如果加入地域信息,系统错误率会大大下降。Alexander等[71]设计了基于i向量的多说话人自动识别系统。Milošević[72]将基频、共振峰频率、共振峰带宽等音段特征(SF)与现有GMM-MFCC架构的自动识别系统相结合,提升了原有系统的识别正确率。
关于说话人自动识别在语音同一认定中的作用,目前仍有争议。比如,虽然德国、西班牙、瑞典等国的诉讼中已有接受专家干预自动识别方法鉴定结论的判例,但鉴于目前自动识别系统的性能,这种“接受”不仅在程度上有限,而且推广起来仍困难重重。以英国为例,英国JP French实验室的French与Harrison作为辩方专家证人在“女王诉斯雷德等人”(R v Slade&Ors)的上诉案件中提供了专家鉴定与自动识别系统两套语音同一认定证据,但是上诉法院驳回了自动识别系统的鉴定结论。 French[58]表示,虽然这宗判例并没有直接扼杀英国未来使用自动识别系统鉴定结论的希望,但是,鉴于英美法系的判例传统,除非未来说话人自动识别技术取得重大技术突破,否则不仅是英国,甚至包括加拿大、新西兰、澳大利亚等英联邦国家(共52个国家)都将驳回说话人自动识别系统的鉴定结论。
2 质量控制及标准化
质量控制方面,French等[73]提出了声纹鉴定实验室检验鉴定的透明化倡议,其将之称为“打开百叶窗”(opening the blinds)行动,并详细介绍了JP French实验室的检验流程。德国BKA的Wagner[74]则介绍了其语音同一认定的标准操作规程,并结合实际案例进行了演示。这种透明化与标准化的趋势是司法语音及声学中质量控制的主要方向。
3 语音人身分析
语音情感分析方面,Kathiresan等[84]研究了MFCC中的语音情感信息。Hippey等[85]探索了在语音中识别懊悔情绪的方法。Bizozzero等[86]研究了女性说话人声音中的恐惧信息,主要涉及基频、语速以及音高对恐惧信息的影响。Satt等设计了一种使用卷积网络与递归网络两种神经网络工[87]具直接从声谱图中识别情感的方法。Zhang等[88]针对对话语音设计了一个情感交流与转换(EIT)模型挖掘对话中的交流与转换语中的情感信息,设计的算法比传统方法在正确率与精度方面各提升了18.8%与22.6%。Parthasarathy、Le等[89-90]对深度学习中的多任务学习方法在语音情感识别中的应用做了探索。除了一般性的情感识别外,语音测谎也是语音情感识别的研究热点。Schroder[91]使用合成分析方法(analysis-bysynthesis)将不同的发声方式、语速、颤音(tremolo)及基频与中性言语(neutral utterances)组合,分别判断各段语音的可信度。结果表明,当颤音与气息增加时,语音内容的可信度大大提升,当暂停与基频增加上,语音内容的可信度则下降。Mendels[92]使用CXD语料库比较了频谱集合、声学-韵律集合和用词特征集合对于谎言的表征程度,并使用混合深度模型对这些集合进行测试。
4 录音的真实性检验
电网频率(ENF)检测方法是录音的真实性检验中的热点。关于这一方法的原理与具体内容,可参见以往文献[97-99]。Huang等[100]就ENF检验中的一些常见问题进行了讨论。James等[101]开发了基于云端的便携式ENF系统,从而避免了检验的地域限制。Huang等[102]提出用绝对误差图(absolute error map)联系检材音频与ENF数据库中的ENF信息,并据此构建的两套算法。Reis等[103]开发了基于ESPRITHilbert检测ENF的分析方法,结果大大优于其他方法。
5 降噪及语音增强
在去混响及回声消除方面,Guzewich等[107]研究了使用DNN去混响的一种新方法。此前,相关研究[108-111]已经在使用DNN去混响方面取得了一定进展,新方法处理的音频在说话人比对系统中的等错误率由9.2%降至6.8%。Bulling等[112]提出了一种消除录音中回声的新方法,可以使信号的最大稳定增益(MSG)提升30分贝。在语音增强方面,Wu等[113]提出了基于局部线性嵌入(LLE)算法的差异补偿后置滤波(post-f i ltering)方法。Ogawa等[114]从基于深度神经网络的声学模型(DNN-AM)中提取出瓶颈特征(bottleneck features),然后使用噪音样例搜索(example search)的方法消除单声道音频中的高度不稳定噪音。Gelderblom等[115]提出了一种评价基于DNN的语音增强算法的主观评测方法。在非DNN方法上,Qian等[116]使用贝叶斯WaveNet方法直接就原始音频进行处理,也得到了不错的语音增强效果。在降噪方面,Pascual等[117]使用深度网络中的生成式对抗网络(generative adversarial network)降噪,并以主观与客观两种评测方法证明了这种方法的有效性。Maiti等[118]同时使用两个网络进行拼接再合成(concatenative resynthesis),大大提升了处理速度。值得注意的是,在司法实践中,背景噪音因为包含着有用信息,需要在降噪过程中保留甚至增强,这就需要实践中结合多种方法,消减目标噪音,保留有用信息,上述部分深度学习的方法因具有较强的灵活性便具有了更大的优势。
