录制方式变化对法庭说话人识别的影响
2021-11-12杨英仓
杨英仓
(贵州警察学院刑事技术系,贵州贵阳550005)
工信部数据显示,截至2020 年10 月末,移动电话用户总数达16 亿户[1]。手机兼具语音通讯和声音采集功能,成为当前最主要的语音录制工具。犯罪分子无论是案前预谋、案中实施、案后掩盖,还是串供、逃跑、销赃等,会涉及大量的言语交流。理论上讲,绝大多数案件可以运用技术手段提取到声音[2,3]。利用语音进行法庭说话人身份鉴别,是司法语音学的核心内容[4]。司法语音的录制多数与案事件息息相关,个别情况下甚至会成为证明案件事实的唯一证据。案事件具有突发性、不可预见性、不确定性和非常规性,且语音录制的当事人大部分都是被动收集证据、形势异常紧迫、机会稍纵即逝,导致语音录制时间、人员、地点、设备、环境等可供选择的范围大大缩小。此外,语音检材和样本录制具有不同步性,样本录制往往滞后于检材,二者往往间隔几天、几个星期、几个月甚至是几年,多重因素的影响会导致语音检材和样本的录制方式不同。针对语音采集方式的不确定性以及语音变异问题,本研究选用专业人员常用的高保真录音笔、执法人员常用的执法记录仪、老百姓常用的手机录音机录音、手机通话录音、手机微信语音、以及手机QQ 语音等进行研究。通过贴近案件需求的实验设计,得到更加实用的方案,找出相对稳定且具有个性差异的特征参数,分析录制方式差异导致的语音特征变化,用于法庭说话人识别。
1 实验设计
1.1 设备和录制方式
手机应用的广泛性和便捷性,导致手机成为语音录制的重要设备。在录制条件可控、录制设备可选、录制时间较长的情况下,人们多数会选择高保真的录音笔进行录音。执法人员在执法过程中会按照既定要求同步使用执法记录仪,客观、完整、真实记录执法过程,确保执法留痕、过程可溯。而现实当中需要回溯执法过程、查明事实的情况往往是极端执法条件,如光线差、雨雾雪天、夜间、设备抖动、近距离肢体冲突等,视频模糊不清几乎无法使用。此时执法记录仪当中的语音成为还原事实的一个重要依据。综合上述问题,本次实验主要研究录音笔录音、手机录音机录音、手机通话录音、执法记录仪录音、手机微信录音以及手机QQ 录音等6种常见方式的语音录制。
1.2 软硬件设施
实验设备和器材选用高保真录音笔ZOOM H6、笔记本电脑、华为P20 手机六部。实验当中使用Format Factory5.4.5、VS-99 计算机语音工作站 5.0、praat6.1.38 和WaveSurfer1.8.8 语音软件,进行格式转化、语图分析和数据提取。
1.3 语音录制
实验选用10 名成年男性,年龄范围为21-23 岁,均系贵州警察学院全日制本科生。其发音标准,无明显地方口音,日常交往以普通话为主。在贵州警察学院司法鉴定中心的语音录制室内,对10 位发音人分别进行3 次录音,每次录音时间间隔一周以上。每一位发音人均同步使用录音笔录音、手机录音机录音、手机通话录音、执法记录仪录音、微信录音和QQ 录音6 种方式录音,发音人距离各个设备间的距离为10cm。录音文本包含汉语普通话的全部辅音、单元音、二合元音和三合元音,让发音人以正常说话方式用普通话进行念读。录音笔、执法记录仪录音采样频率为22kHz,精度为16 位。手机录音机录音、手机通话录音、微信录音、以及QQ 录音均使用设备默认录制参数。语音录制期间,发音人身体健康,无疾病。期间未服用药物,无酒精和镇静剂的影响。
2 实验结果与分析
2.1 六种语音录制方式的实验结果与分析
2.1.1 六种语音录制方式的听觉检验
听觉检验重点针对录制方式差异对音高变化、嗓音品质、强度变化、韵律特征、发音规律、音质差异、声音畸变和噪声干扰等的影响[5]。选择10 名与发音人不熟悉的听音人,对不同录制方式的语音进行听辨。结果显示:声调特点、韵律特征、个性化拼读、发音和言语习惯的一致性检验,几种录制方式均未发生变化。平卷舌发音特点,在各个语音录制方式中均稳定出现。录音笔录音、手机录音机录音、微信录音、QQ 录音的强度、音高、嗓音品质差异不大,无噪声、无回声、无畸变、声音清晰、效果较好;手机通话录音音量明显减小,无噪声、无回声、无畸变,基本能听辨出内容,嗓音特征受到部分影响;执法记录仪录音的音量明显增大,可以听清楚语音内容,但声音不清晰,有噪声干扰、有明显扩音和回声,声音产生了较大畸变。
2.1.2 六种语音录制方式宽带语图检验
宽带语图常用于检验共振峰频率特征、走向特征、音素间过渡段形态特征、时长分布特征等等。而共振峰频率特征、走向特征的个人稳定性较强,不易受到说话状态改变的影响,可作为语音同一性鉴定的主要依据[6]。录音笔录音、手机录音机录音、执法记录仪录音、微信录音和QQ 录音的高频语音信息均有记录,但通话录音4000Hz 以上的高频信息未被记录,见图1。
图1 A1 六种语音录制方式的宽带语图
司法实践中对辅音的分析要求采样率22050Hz 及以上(即显示出的语图在11025Hz 及以上), 但这并不是鉴定的唯一参数。相对于辅音而言,元音的共振峰更稳定,是说话人司法语音识别对比的有效方法。共振峰能够清晰反映说话人声道的整体特征,还能反映出说话人的发音习惯[7]。共振峰的低频信息记录了发音内容,高频信息记录了人与人之间的个体差异,但实际应用中4000Hz 以上的高频信息并不稳定[8]。语速加快、声音变小、发音不充分的情况下,4000Hz 以上的高频信息很难稳定出现。处于两、三千赫兹左右的第三、四共振峰能客观、稳定地记录语音发音特征,基本涵盖个体差异特征[9],因此通话录音也可以进行话者识别。对六种录制方式录制的“现在”宽带语图分别检验,发现录制方式的变化对语音产生一定影响对语音识别造成干扰,但同一人、相同音节、不同录制方式语音间的共振峰走向、过渡段特征、时长分配等基本一致。相同话者不同录制方式共振峰整体特征基本一致,但也表现出能量分布的不同;执法记录仪语音不同频次的共振峰能量分布相对一致;其它录制方式语音不同频次的共振峰能量分布存在显著差异,见图2。
图2 A1 六种语音录制方式“现在”的宽带语图
微信语音和QQ 语音录制的“圳”“测”“吃”“缺”“生”等多个音节在第四共振峰以上区域出现虚峰,个别音节出现共振峰缺失;通话录音还表现出横杠模糊不清,辅音部分被明显弱化,高频信息丢失,辅音能量减弱或消失,鼻韵母共振峰减弱或消失,音节内和音节间的过渡特征减弱或消失,低频和高频的共振峰部分缺失,少量中频共振峰缺失,个别音节出现虚峰。通话录音虽然音量最小、采样率最低,但是语图相对清晰,共振峰位置、形态走向、能量分布均十分清晰。执法记录仪则普遍表现为在不同频段均出现多个虚峰。对比其他录音方式,执法记录仪录音的宽带语图颜色最深,各部分能量均得到增强,声音最大;语音信号被物理放大的同时噪声较为严重,增加数条虚峰,共振峰模糊不清,见图3。经检验录音笔录音的信息保存最为完整;手机录音机录音其次;微信录音、QQ 录音再次;通话录音复次;执法记录仪录音质量最差。同一人相同音节,各录制方式间声母、韵母和声韵母时长分配比例相对稳定。
图3 A1 六种语音录制方式“深圳”的共振峰频率检测
A1 至A10 不同话者、同一录制方式,辅音参数 COG、SD、skewness、kurtosis 差异显著;在能量分布、共振峰走向、共振峰频率、过渡特征、时长分配等方面也表现出明显的差异特征,见图4。例如:A1 与A7 的“现”第一、二、三共振峰频率较为接近,但音节内过渡特征和共振峰走向有差异,第三、四共振峰能量分布也不同,第四共振峰相差341Hz;辅音部分的能量分布也表现出较为明显的差异,A1 辅音部分的COG 集中在3715Hz,A7 辅 音 部 分 的 COG 集 中 在5049Hz,相差较大。
图4 A1-A10 手机录音机录音“现”的共振峰频率检测
2.1.3 音强检验
音强可以作为语音检验的有效参数,即使是发音器官高度相似的同卵双胞胎语音,其音强特性也具有一定的个体特殊性[10]。振幅曲线可用来观测音强,还可以用来确定音节中声母与韵母的分界或语流中音节之间的分界。制作六种录制方式的音强语图,进行对比分析,见图5。对比检验“你又不缺钱”的强度曲线,强度从大到小依次排序为执法记录仪录音、录音笔录音、手机录音机录音、微信录音、QQ 录音、手机通话录音。执法记录仪录音的强度介于53.88dB 至93.38dB 之间,录音笔录音的强度介于34.68dB 至88.26dB 之间,通话录音的强度介于-2.83dB 至69.27dB 之间。韵母部分的音强走势表现出较强的个体特征。对比同一话者不同录制方式的相同语音内容,强度随时间变化的分布规律基本一致。
图5 A1 六种语音录制方式的强度曲线图谱
对比不同话者、相同录制方式、相同语音内容,总体强度按时间的分布情况表现出了较大的差异特征,见图6。音强统计的结果表明:以录音笔录音为参照,音强平均水平最高的是A7,为65.32dB;音强平均水平最低的是A4,为50.12dB。10 位发音人的总体音强均为执法记录仪最高,较录音笔平均高出16.69dB;通话录音最低,较录音笔平均低出34.08dB;执法记录仪和通话录音间音强平均相差50.76dB。利用音强曲线图,给出所有发音人六种录制方式的平均音强值,图中各个点上的数值代表各个发音人的平均音强,见图7。
图6 A1-A10 手机录音机录音的"你又不缺钱"音强检验
图7 十位发音人六种录制方式的平均音强变化
2.1.4 自动识别检验
将声纹识别运用于涉案人员的身份认定能有效提高司法案件鉴定的效率。但是受情绪、方言、噪音、录制设备等的影响,声纹自动识别技术还有待于继续深入挖掘和研究[11]。利用科大讯飞语音软件进行自动识别比对,检测录制方式变化对语音识别的影响。将六种不同方式录制的语音文件以样本的形式录入到数据库,再以其中一个文件为检材进行识别比对。比对结果表明录音笔录音为检材时,识别准确度最高;执法记录仪录音为检材比对时,识别准确度最低。录音笔录音为检材进行识别对比,自动识别准确度排序依次为:手机录音机录音、微信录音、QQ 录音、通话录音、执法记录仪录音。分值越大越支持来自同一话者,分值越小越支持来自不同话者。同一人不同录制方式间比对的分值大部分高于不同人同一录制方式间的分值。个别出现同一人通话录音、执法记录仪录音比对分值小于不同人同一录制方式分值,这与噪声干扰、信号损失情况密切相关。
2.2 录音笔录音和执法记录仪录音差异的实验研究结果与分析
无论是听觉检验、图谱分析、数据测量还是自动识别,执法记录仪录音效果都是最差的。因此以录音笔录音为参照,重点对执法记录仪录音进行分析和检验。因执法记录仪语音噪声干扰较强,先用VS99 语音工作站进行降噪,再与录音笔录音进行对比检验。
2.2.1 基频数据和基频曲线检验
基频是声带振动的基本频率,基频的高低取决于声带的长短、厚薄、弹性和韧性。它能够反映说话人的很多生物学信息,是语音中最重要的声学参数之一[12]。音调特征在汉语语音识别中起着非常重要的作用,而音调特征可以由基频特征来刻画和构造[13]。基音周期是描述浊音激励源的一个基本特征,其倒数称为基音频率,基音频率的不同轨迹就是声调[14]。通过观察分析录音笔录音和执法记录仪录音基频曲线图发现,音节基频曲线基本一致,畸变现象不严重,见图8。具体表现为“深”的基频曲线连续、起始部位均为181Hz 左右“,深”的基频均为一条水平线至“圳”开始上升到200Hz 后平缓下降,最低达 121Hz。“深”为一声、“圳”为四声,根据基频调形阴平、阳平、上声、去声分类图谱分析,是发音变化导致的曲线变化,与录制方式无关。继续分析“衣服”“吃饭”“双簧”“电灯 “ 姓名”“ 自 己 ”“ 现 在 ”“ 生 气 ”“ 拜 年 ”“ 框架”“测量”“这个完全不存在”等多个音节,基频曲线变化不大,二者基本吻合。深入分析A1 至A10,10 人的3 次录音笔录音和执法记录仪录音的基频,发现基本吻合,仅个别音节基频曲线出现轻微畸变现象。例如“框架”“现在”等音节的录音笔基频曲线为连续,而执法记录仪基频曲线则中间断裂,“吃饭”等音节的录音笔基频曲线为中间断裂而执法记录仪基频曲线为连续,但二者形态走向基本一致。
图8 A1 录音笔录音和执法记录仪录音基频特征检验
同一人3 次录音笔F0 均值,与同一人3 次执法记录仪F0 均值较为接近,与另外9 人3 次录音笔F0 均值相差较大,见图9。将A1 至A10 同一人录音笔录音和执法记录仪录音基频均值进行方差分析,分别为2.25、1.02、4.23、2.42、3.29、4.27、2.61、4.15、4.62、2.36;不同人录音笔录音基频均值方差为161.24,不同人执法记录仪录音基频均值方差为131.89。统计分析10 个音节,得出同一话者录音笔录音和执法记录仪录音基频变异系数在0-1.65%之间,不同话者同一录音笔录音基频变异系数在17.14% -45.90%之间,见表1。说明录制方式变化对语音基频的影响较小,可作为法庭说话人识别中的特征参数。
图9 同一人录音笔、执法记录仪录音和不同人同一录音笔录音F0 均值
表1 同一人录音笔、执法记录仪录音和不同人同一录音笔录音基频变化比较
2.2.2 音强和音强曲线检验
检测A1 执法记录仪录音的音强均值为54.37dB,方差为14.31;录音笔录音音强均值为70.78dB,方差为13.23;A1 至A10相同录制方式的音强方差相差较大。执法记录仪音强明显增加,录制方式变化改变了音强的绝对数值,但是方差分析录音笔录音和执法记录仪录音变化幅度不大,音强随时间变化波动情况较为相似,见图10。
图10 A1 录音笔录音和执法记录仪录音音强特征检验
2.2.3 语图检验
挑选“特”“灯”“圳”“现”“簧”“姓”等音节进行分析。多数情况下,执法记录仪除出现了“特”的前四个共振峰外,额外多出一或两条虚峰,对比相同频次的共振峰发现出现的位置、形态走向、能量分布基本一致。“圳”的前鼻韵母特征相对稳定,与录音笔吻合;执法记录仪“簧”的后鼻韵母特征相对稳定,与录音笔吻合。对比“深圳”的宽带语图和频谱曲线,见图11。录音笔“深圳”800Hz 至5000Hz 的共振峰能量是依次递减,而执法记录仪“深圳”800Hz 至5000Hz 的共振峰能量呈均匀分布,未出现明显的能量衰减,且执法记录仪增加数条虚峰。鼻韵母的共振峰特征相对稳定。执法记录仪“深圳”的辅音部分相较于录音笔有明显的能量增强,但能量集中的区域变化不大。
图11 A1“深圳”的宽带语图和“圳”的频谱曲线
2.2.4 统计分析
挑选“存”“吃”“间”“特”“姓”“圳”“现”“生”“灯”“簧”10 个音节,各音节均有 4 条以上共振峰,分别测量A1 至A10 的10 人3 次录音笔录音和执法记录仪录音的共振峰数值。同一话者录音笔录音和执法记录仪录音的共振峰频率变异系数在0-15.94%,不同话者同一录音笔的共振峰频率变异系数在0.12%-41.13%,见图12。结合听辨检验、声调、韵律特征、语音图谱、共振峰模式、音节内和音节间的过渡特征等综合分析,对比检验“存”“吃”“特”“圳”“现”“簧”,同一话者录音笔录音和执法记录仪录音的语音差异小于 10%;“存”“吃”“间”“特”“圳”“簧”不同话者同一录音笔的语音差异大于10%。中华人民共和国公共安全行业标准GA/T1433-2017《法庭科学语音同一认定技术规范》规定,检材语音和样本语音中有6个以上可供比对的不同音节,且每个音节有4 条以上有效共振峰,经综合评断,同一话者录音笔录音和执法记录仪录音的语音特征总体符合率超过90%,二者间差异部分能得到合理解释的,可认定同一。
图12 同一话者录音笔、执法记录仪录音和不同话者同一录音笔录音的共振峰对比
3 结论
3.1 条件允许时尽量选择相同的录制方式
以高保真录音笔为参照,手机录音机录音效果较好,微信录音和QQ 录音变化相对较小,通话录音的能量整体减少、能量较弱的频率部分消失、高频共振峰和辅音特征减少,执法记录仪录音能量整体增加、部分高频共振峰出现偏移、增加多条虚峰。声音具有相对稳定和绝对变化的特性,同一人的几次发音不可能完全相同。录制方式变化会加剧语音的变异,给法庭说话人识别带来一定难度。相同话者情绪高涨与情绪低落时可能会出现基频相差一倍以上的现象[15],说话方式的改变会对声纹鉴定产生影响[16],案件语音不仅存在正常的语音变异,而且存在形形色色的反常语音变异[17]。本实验要求发音人尽可能保持相同的音高、语速、情绪状态等,研究结论仅适用于相同发音状态。因此,当语音受影响较大时可能出现不具备鉴定条件的情况,故条件允许时应尽量选择录制检材的方式来录制语音样本。案件鉴定中,还应额外注意语音的来源、录制方式等问题,根据录制方式变化适当调整参数和样本采集方案,必要时可先推算出回归模型对语音进行校正后再进行鉴定。
3.2 录制方式造成的语音变异小于话者之间的差异
录制方式变化对听觉检验的影响较小,对声母、韵母和声韵时长分配比例影响较小,对声音强度有影响但韵母部分走势变化不大。个别音节基频曲线出现轻微畸变现象但数据变化不大且形态走向基本一致。共振峰位置、走势、音节内和音节间过渡特征基本一致,仅个别出现显著变化。六种录制方式语音质量由高到低依次为:高保真录音笔-手机录音机录音-微信录音-QQ 录音-通话录音-执法记录仪录音。虽然自动识别方便、快速,但限于研究内容的有限性和语音变异的无限性,当前仍应采用自动识别比对和专家人工鉴定相结合的技术手段。相同话者不同录制方式采集的语音,其基频和共振峰变异较小,小于不同话者相同录制方式的语音基频和共振峰差异。结合听辨检验、声调、韵律特征、语音图谱、共振峰模式、音节内和音节间的过渡特征等综合分析,可以得出准确的鉴定意见。研究结果为录制方式变化导致的语音差异提供了解决方案,为其它种类语音变异的鉴定提供了技术参考,为提高法庭话者自动识别提供了研究思路。本研究也有一定的局限性,研究成果仅适用于以上六种语音录制方式,不能排除其他录制方式会导致语音特征发生较大变异的情况。