APP下载

基于听觉模型的法庭语音证据特征量化

2018-03-06王华朋

中国刑警学院学报 2018年1期
关键词:基底膜耳蜗滤波器

王华朋

(1 中国刑事警察学院声像资料检验技术系 辽宁 沈阳 110035;2 证据科学教育部重点实验室(中国政法大学) 北京 100000)

1 引言

目前,随着司法制度的健全和完善,对证据的检验结果已经由鉴定结论更改为鉴定意见,这虽然是对证据使用的一次巨大进步,但是,这并不意味着更改一下名称,证据就具有了科学性。越来越多的学者开始关注证据的科学性[1-4],科学证据逐渐成为司法审判中关注的焦点之一。科学证据的基本要求包括,检验过程和检验方法是科学的,结果是客观的、可重复的,证据强度是可量化的[5]。本文以语言证据的检验过程中遇到的相关问题,探究语音听觉量化分析的方法。

在法庭语音证据检验中,主要包括听觉检验和声学检验[6]。其中,听觉检验主要依靠鉴定人员的双耳来进行,得出的结果也是基于鉴定人员的主观判断,即使是半定量的听觉分析,也是通过人耳对音高、嗓音品质、方言等听觉特征的相似性进行打分来进行[7],一直以来,缺少对语音的听觉特征进行全面的量化分析。

听觉系统是高度精密又具有高度复杂性的生理系统,其很多卓越的声音分析能力远远超过了自动说话人识别系统[8]。在噪声的环境下,人耳听觉识别的准确率比任何自动识别系统更具有可靠性、便捷性[9]。听觉系统具有很强的声音识别能力和抗噪声能力[10],能在复杂的背景声中捕捉感兴趣的目标语音,如鸡尾酒会效应。研究人类的听觉生理系统的特性具有重大的意义。

人耳对声音的感知主要是通过耳蜗,耳蜗的作用是把传到耳蜗的机械振动转变成听神经纤维的神经冲动。耳蜗中能够辨别分析声音最重要的部分是基底膜[11],它的振动使位于上面的毛细胞受到刺激,引起耳蜗内发生各种过渡性的电变化,最后引起位于毛细胞底部的传入神经纤维产生动作电位。观察表明,行波(Traveling Wave)是基底膜的振动方式,即内淋巴的振动首先是靠近卵形窗处引起基底膜的振动,此振动波再以行波的形式沿基底膜向耳蜗的顶部传播,振动频率愈低的行波传播越远,最大行波振幅出现在基底膜顶部,最大振幅出现后,行波很快消失,不再传播;与低频声音振动相反,高频率的声音引起的基底膜振动,只局限于卵形窗附近。

不同频率的声音引起基底膜以不同的形式进行振动,被认为是耳蜗能区分不同声音频率的基础。越靠近基底膜底部,共振频率愈高,越靠近基底膜顶部,共振频率越低。因此,基底膜具有对人耳声音进行频率分析的功能,能够将不同的频率成分对应到基底膜不同的位置,频率的强度转化为基底膜振幅的幅度。由于Gammatone滤波器能够模拟耳蜗基底膜的分频特性,对人类的听觉感知特征进行量化,是把听觉从主观判断转化为量化结果的有效方法。同时,该滤波器在噪声环境中具有优越的性能,能够对声学检验中声谱图进行听觉方面的补充。

2 描述人耳听觉特性的Gammatone滤波器

Gammatone滤波器能够用于描述人耳听觉频响特性,建立类耳蜗的听觉模型,该滤波器时域表达形式为:

四阶的Gammatone滤波器带宽可以用下式表示,滤波器的带宽随着中心频率的变大而增加。

其中,ERB表示的是等效矩形带宽(Equivalent Rectangular Bandwidth),是人耳耳蜗听觉带宽的心理声学测度。此外,ERB 决定了每个滤波器脉冲响应的衰减速度。等效矩形带宽ERB 与频率f可以近似地

对Gammatone滤波器时域表达式进行傅里叶变换可以得到频响特性。Gammatone滤波器有N个单独滤波器组成,一般取N=64,表示该滤波器由64个互相交叠的子滤波器组成,每个子滤波器的中心频率fi在ERB域以相同的间隔分布。整个滤波器的带宽设置为从50Hz到采样频率的一半。不同的中心频率的Gammatone滤波器的响应也不同。Gammatone滤波器与Mel滤波器有点类似,它们都是中心频率间隔越来越大,滤波器的带宽也越来越宽,如图1所示。

图1 子滤波器频响曲线(仅显示4的整数倍)

3 Gammatone谱与声谱图的区别

Gammatone谱与声谱图类似,都是对声音进行分帧之后,进行FFT变换后获得的,不同的是Gammatone谱是在进行FFT变换之前通过Gammatone滤波器。图2是同一段音频的Gammatone谱与声谱图。

图2 声谱图与Gammatone谱对比图

对比声谱图和Gammatone谱可以看出,Gammatone谱在低频区具有更好的细节分辨率,对于高于4KHz的能量,Gammatone谱显示能力有限。Gmmatone谱中具有与声谱图中的共振峰对应的特征,其走势和弯转方向也相同。可以推断,人耳对于0~5kHz的声音更敏感,对频率越低的声音具有越精细的分辨率。这与实际案件中经常遇到的语音证据的频响范围一致,因此,具有广泛的应用价值。同时,在图2中的无语声区可以看出,噪声已经得到很好的抑制,这与人耳天然的抗噪声特性相符。图3是在强噪声环境中声谱图与Gammatone谱图。在强噪声环境中,声谱图高频特征已经淹没在噪声中,而Gammatone谱能提供更多的细节特征,这说明在有噪声的语音证据中,Gammatone谱优势更突出。

图3 噪声环境下声谱与Gammatone谱对比图

4 Gammatone谱自身变化性与话者之间的差异

通过语音证据对说话人身份进行鉴别,所用到的特征或特征图谱要具有较小的自身变化性和较大的话者之间的变化性。图4是录制的同一个男性话者在不同时间的语音文件,两次录音的Gammatone特征具有很高的相似性,话者自身的变化性较小。

图4 同一个人Gammatone谱

图5 不同人Gammatone谱

图5是3个不同说话人说相同语音内容的Gammatone谱图,可以看出,三者之间具有很大的不同,图谱重要特征的斜率和弯转方向也具有很大的不同,可以用来鉴别说话人身份,其鉴别方法可以参考使用声谱图检验的方法。

本文测量了3个不同的说话人和同一个说话人的5次发音,特征选择的音节是“八”中的元音/a/的4个典型特征,测量特征点所在的滤波器中心频率的大小,得到如表1、表2所示的结果。根据其测量值的方差可见,不同人的测量结果标准差较大,而相同人的测量结果分布非常稳定,测量结果标准差较小。因此,Gammatone谱话者自身的变化性远小于话者之间的差异,是一种适合区分说话人的图谱类型。

表1 不同人元音/a/特征点的频率

表2 同一个人元音/a/特征点的频率(5次发音)

5 结论

从Gammatone谱和声谱图的比对结果分析,Gammatone谱具有良好的低频分辨能力和抗噪声能力,并且具有较小的自身变化性和较大的话者之间的变化性,符合司法证据检验的鉴别规则,是较好的区分说话人身份的特征。该特征不仅能对声谱图检验进行有力的补充,并且可以进行量化分析,用于自动说话人识别,从而量化听觉特征,变主观判断为数据支撑的客观判断,从而为证据的科学化检验打下基础。

[1]Enzinger E, Morrison G S, Ochoa F. A demonstration of theapplication of the new paradigm for the evaluation of forensicevidence under conditions reflecting those of a real forensicvoice-comparison case[J]. Science & Justice,2016(1):42-57.

[2]Rose P. Where the science ends and the law begins:likelihood ratio-based forensic voice comparison in a $150 m illion telephone fraud[J]. International Journal of Speech Language and the Law,2013(2):277-324.

[3]Morrison G S. Distinguishing between forensic science and forensic pseudoscience:Testing of validity and reliability,and approaches to forensic voice comparison[J]. Science & Jus tice,2014(3):245-256.

[4]Rose P, Morrison G S. A response to the UK Position Statement on forensic speaker comparison[J]. International Journal of Speech Language and the Law,2009(1):139-163.

[5]王华朋,许锋.论法庭证据评估体系的发展[J].证据科学,2014(22):56-63.

[6]王华朋,李宁,许峰,等.基于元音共振峰特征的法庭说话人识别[J].中国刑警学院学报,2014(2):43-45.

[7]崔景旭.视听资料检验[M].北京:中国人民公安大学出版社,2008:86-89.

[8]曹巧玲,余浚沣,赵晓波.音节音联在语音鉴别中的应用研究[J].中国刑警学院学报,2012(2):45-47.

[9]熊冰峰,曾以成,谢小娟.一种改进的听觉特征参数应用于说话人识别[J].计算机应用,2016(s1):82-85.

[10]王聪,张巧丽,赵地,等.大脑听觉系统建模研究进展[J].计算机科学,2016(s2):1-5.

[11]陈世雄,宫琴,金慧君.用Gammatone滤波器组仿真人耳基底膜的特性[J].清华大学学报(自然科学版),2008(6):1044-1048.

[12]张晓丹,黄丽霞,张雪英.关于在噪声环境下语音识别优化研究[J].计算机仿真,2016(8):172-176.

猜你喜欢

基底膜耳蜗滤波器
新生小鼠耳蜗基底膜的取材培养技术*
耳蜗微音器电位临床操作要点
从滤波器理解卷积
开关电源EMI滤波器的应用方法探讨
一种微带交指滤波器的仿真
豚鼠耳蜗基底膜响应特性的实验测试与分析
基于螺旋型耳蜗的数值分析
基于TMS320C6678的SAR方位向预滤波器的并行实现
磁共振对感音神经性耳聋人工耳蜗术前诊断的价值
考虑蜗孔尺寸的人耳耳蜗有限元模型研究