擦音LPC倒谱特征在法庭说话人识别中的应用
2019-11-12张翠玲
张翠玲 丁 盼
(1 西南政法大学刑事侦查学院 重庆 401120;2 重庆高校刑事科学技术重点实验室 重庆 401120)
1 引言
近年来,随着科学技术的不断发展,法庭对科学证据的准确性、可靠性的要求不断提高,法庭证据评估方法体系也在不断发展完善,基于似然比框架的参数性能测试和证据价值评估逐渐得到认可和重视[1-3]。在司法语音领域,基于似然比方法的法庭说话人识别不仅更符合法庭逻辑推理,而且可以量化评估证据价值、量化评估方法系统的准确性和可靠性,加之程序更加客观、透明,因此已经成为当前研究的热点和未来的发展方向。
在法庭说话人识别实践中,不管是基于听觉——声学语音学方法,还是基于半自动和全自动方法,都需要对提取的语音特征进行量化分析和比较鉴别。特征的选取和特征价值的高低直接影响说话人识别的效果,因此寻找个体区分效果较好的语音特征参数,比较评估参数特征的价值一直是法庭说话人识别领域关注的重点问题。基于听觉——声学语音学方法的研究侧重的参数特征往往是元音和浊辅音的共振峰频率,基于半自动和全自动方法的研究侧重参数特征一般是梅尔频率倒谱系数(MFCC)[4-5]。对于线性预测倒谱特征(LPCC)则较少在法庭语音比对中应用。
国内外学者基于似然比方法对语音的LPC倒谱特征进行了初步研究。Rose基于297名男性的日语语音数据库对5个元音的LPC倒谱特征进行了研究,特征融合后取得了较好的效果[6];王华朋基于45名男性汉语普通话语音数据库,对单元音/a/的LPC倒谱特征进行了测试,发现自动提取特征比人工提取的共振峰特征更具优势[7]。对于浊辅音的研究,主要集中在鼻音上,因为鼻音作为一种声源特征具有较好的个体特异性[8]。而Alex等对日语和粤语的研究表明,利用鼻音LPC特征进行说话人识别时,两种语言间差异不大,而且鼻音并不比其他种类音段具有明显的优势[9]。相对而言,对于清辅音的LPC倒谱特征研究相对较少。Rose对舌面清擦音的研究表明,清辅音的LPC倒谱具有潜在的话者区分价值[10]。
相较于元音和浊辅音,清辅音的时长较短,声学特征也略为复杂,不易提取。为了探究汉语清辅音的个体特性及其应用价值,本文以时长相对较长的擦音/s/为代表,分析提取其LPC倒谱特征,并采用似然比框架量化评价其在法庭说话人识别中的作用和表现。
2 似然比框架
似然比框架是一种基于贝叶斯统计推理的量化评估证据强度的逻辑体系[11]。似然比是两种竞争假设条件下观察到的证据特征的概率之比。在法庭说话人识别领域,似然比方法通常用于推测未知语音检材与已知语音样本的同源性,通过计算检材语音与样本语音同源假设条件下观察到的检材语音声学特征,与检材语音和样本语音同源假设条件下观察到的检材语音声学特征的概率比值,来量化评估证据对两种假设的支持力度。似然比LR的表达式为:
式中,HSS代表同源假设,即假设检材与样本同源;HDS代表不同源假设,即检材与样本不同源;P代表概率,E代表证据,即检材的声学特征。LR值大于1,表明证据支持同源假设;LR值小于1,表明证据支持非同源假设;LR的值与1的相对距离越远,证据的强度就越大,证据所包含的信息就越有效[12]。
3 材料和方法
3.1 语音数据
本文使用的是来自90位成年男性电话语音数据库。该数据库包含两次非同期录音,第一次与第二次的录音时间相隔在两周以上。录音时,两位发音人分别位于不同的录音室,各自佩戴一领夹式麦克(森海塞尔Sennheiser MKE 2 P-C),然后通过固定电话进行通话。两个麦克分别与外置声卡(Roland UA-25EX)和计算机相连,通过软件Cooledit Pro 2.1录音。录音被储存为16位的PCM格式,采样频率为44.1kHz。发音人为东北地区大学生,年龄在18~23岁之间,普通话较好。两次录音均为汉语普通话,交流内容是核对产品报价单的信息。两份传真件内容相同,只是部分内容模糊,两位发音人的任务就是通过电话交流对产品报价单的模糊部分进行信息核对。关于数据库采集的细节,参见文献[13]。
3.2 语音标注
数据库共包含90人的180段录音,第一次和录音中每个人的纯语音长度平均约为230s,第二次录音中每个人的纯语音长度平均约为150s。使用软件Praat语音软件(version 6.0.18)对每段录音中的擦音/s/进行人工手动标注。图1为0~8kHz频带范围内擦音/s/的宽带语音图谱。
图1 普通话发音/si/的宽带语音图谱
标注的/s/大多来自“si”“san”“se”“su”等音节。作为舌尖前音,/s/在发音时极易受到后面音节的影响,因此我们仅选择其稳定段进行标注。180段语音中共标注出3975个/s/音段,其中第一次发音标注语音段2160个,每人平均24个;第二次发音标注语音段1815个,每人平均20个。
3.3 LPC倒谱特征提取
将标注的全部擦音/s/进行切分后,提取其LPC倒谱特征。线性预测的思想是语音中的每个采样值可以通过几个过去时间采样值的线性组合来逼近。因此,通过利用语音信号中相邻的采样值之间存在相关性的特点,使实际语音抽样与线性预测抽样值之间的误差在某个准则下达到最小值,可以得到反映语音信号特征的预测系数[14]。线性预测的计算公式如下:
式中,p是预测器的阶数,u(n)是激励序列,G是u(n)的增益。线性预测分析用来确定预测系数{a(k)|k=1,…,p},经过自相关及LPC分析后,使用Levinson-Durbin递推算法解出LPC系数。一般来讲,使用8~12阶的LPC预测器就能较好地捕捉语音特征,参考Rose案件报告中的参数选择[15],本实验中我们选取的是8阶。
LPC倒谱特征是线性预测系数在倒谱域的表示,在线性预测系数基础上求倒谱,就得到LPC倒谱系数。它能较彻底地去除语音信号产生过程的激励信息,并反映声道的模型特征,只需十几个倒谱系数就可以较好地描述语音的共振峰特性[16]。此外,LPC倒谱特征的模型参数相对简单,计算量小,具有较好优势。
3.4 似然比计算及系统评价
首先将同一人前后两次录音中擦音/s/的LPC倒谱特征参数进行比较,这样就产生了90个同一话者自身的比较对。其次,就不同说话人之间,将每一位说话人的擦音/s/的LPC倒谱特征参数与其他所有人依次进行两两比较,即全交叉验证比较,这样就产生了90*(90-1)/2=4005个不同话者之间的比较对。
似然比计算采用的是多变量核密度似然比(MVLR)计算公式[17-18]。得到每次比较的LR值及其概率累计分布后,识别测试的结果通过Tippett图(见图2)、等误率(EER)、对数似然比代价函数(Cllr)进行评价。在Tippett图中,横轴是以10为底的对数似然比(log10LR),纵轴是同一话者和不同话者比较所占的比例,即概率累计分布。向右的曲线代表同一话者的比较,向左的曲线代表不同话者的比较。两线交叉点对应的概率代表等误率。两条曲线分得越开,交叉点越低,识别的效果越好。
对数似然比代价函数Cllr(Log likelihood ratio cost)[19]作为准确性评估参数,是进行似然比框架下法庭说话人识别的标准评价指标。其表达式见公式(3):
式中,Ns和Nd分别是同一话者和不同话者测试对的数量,LRs和LRd分别是同一话者和不同话者测试对比较的似然比。左侧的值代表同一话者自身比较的识别性能,可用SS Cllr表示;右侧的值代表不同话者之间的识别性能,可用DS Cllr表示。Cllr值是系统的整体表现。Cllr值小于1,说明系统是有效的。Cllr值越小,系统的准确性越好。
4 结果与讨论
4.1 不同语音信号频率范围对系统识别性能的影响
为了研究不同语音信号频率范围对系统识别性能的影响,我们首先将全部90人的语音样本的采样率从44.1kHz分别降为8kHz和16kHz,分别提取0~4kHz、0~8kHz和2k~7kHz频带范围内的LPC倒谱特征进行说话人识别测试,结果见表1。
表1 3种频带范围内LPC倒谱特征的说话人识别结果(校准后)
表1中,Cllr值反映的是系统识别的整体性能,SS Cllr值反映的是同一说话人自身比较的识别性能,DS Cllr值反映的是不同说话人之间的识别性能。该统计结果表明,总体上擦音/s/的LPC倒谱特征具有一定的话者区分价值,但是性能并不很高,整体的Cllr值在0.6~0.7之间,差异不大。这说明,作为单一识别参数,利用擦音/s/的LPC倒谱特征进行说话人识别的效果有限。但是,不同频带对于系统识别的影响还是存在的,这与预期一致。比较而言,2k~7kHz频率范围时的识别效果较好,与0~4kHz的频带情况相比,系统的Cllr值从0.734下降到0.63,系统性能提升了14.2%。这说明2k~7kHz的频率范围能够更好反映擦音/s/的个体信息,2kHz以下的低频部分可能存在冗余信息,因此边界限制[20]有助于识别性能提升。该结果与文献[15]的测试结果一致。
两种条件下识别的具体情况,详见图2~4。图中,向右上开的曲线表示同一话者比较,向右下降的曲线表示不同话者比较。虚线和实线分别代表同一系统校准前和校准后的结果。在法庭说话人识别中,校准是一个标准步骤,特别是对于检材语音与样本语音条件失配情况下,系统经校准后性能会更佳。
4.2 数据库大小对系统识别性能的影响
图2 0~4kHz频带范围内利用LPCC进行说话人识别的Tippett图
图3 0~8kHz频带范围内利用LPCC进行说话人识别的Tippett图
图4 2k~7kHz频带范围内利用LPCC进行说话人识别的Tippett图
选择多大规模的参考人群数据库对于法庭说话人识别也很重要。为了探究数据库大小对擦音/s/的LPC倒谱特征识别性能的影响,我们采用同样方法,分3组对30人、60人和90人的数据库规模进行了说话人识别性测试,结果见表2。
表2 不同规模数据库在3种信号频带范围内的LPC倒谱特征识别的Cllr值
测试的结果表明,数据库的大小对识别的性能有影响。各个频率范围内的趋势基本相同,即随着数据库人数的增加,系统识别的难度增加,因此识别性能也随之下降。总体上,30人的数据库识别效果最好,特别是频带范围为0~8kHz时,Cllr值为0.536,是所有测试中最低的。但是,系统表现并不稳定,主要表现在0~4kHz频带条件下30人的数据库识别效果最差,Cllr值为0.827。理论上,语音数据库越大,越具代表性,统计建模越精准。而司法检验实践中,基于数据库成本和时效问题的综合考虑,选择相对合理的数据库规模是重要的现实问题。
3种频带范围的测试结果,详见图5~7。
图5 语音信号频率范围设置为0~4kHz时不同大小数据库的Tippett图
图6 语音信号频率范围设置为0~8kHz时不同大小数据库的Tippett图
图7 语音信号频率范围设置为2k~7kHz时不同大小数据库的Tippett图
5 结论
本文使用基于似然比证据强度评估方法和90位男性的非同时语音样本数据库,对汉语普通话擦音/s/的LPC倒谱特征在不同语音信号频率范围内、不同数据库规模条件下的说话人识别特性进行测试比较和效果评价。研究结果表明,擦音/s/的LPC倒谱特征具有一定的话者区分价值,但是性能并不很高,如果仅作为单一参数进行说话人识别,其性能效果有限,需要与其他参数特征结合使用。此外,不同频带对系统识别效果有一定影响,而边界限制有助于提升识别性能。数据库大小对识别性能也有影响,系统识别难度随数据库人数增加而下降,但是系统表现并不稳定。究竟多大数据库规模最为合理还需进一步研究。