APP下载

长时共振峰特性在普通话与方言之间的应用探究
——以山西交城方言为例

2017-11-03贾丽文杨俊杰

山西警察学院学报 2017年3期
关键词:尖峰共振普通话

□贾丽文,杨俊杰

(山西警察学院, 山西 太原 030021)

【刑事侦查与技术】

长时共振峰特性在普通话与方言之间的应用探究
——以山西交城方言为例

□贾丽文,杨俊杰

(山西警察学院, 山西 太原 030021)

文章以山西交城方言为例,探究长时共振峰特性在方言与普通话之间进行语音同一性检验的价值;以普通话和山西交城方言为语料,4位男性和4位女性长时共振峰均值特征、长时共振峰分布特征、长时共振峰FFT功率谱特征、长时共振峰线性预测谱LPC特征共四方面的长时共振峰特性进行比较,得出长时共振峰特性在普通话和山西交城方言之间进行语音同一性检验的鉴定价值不高的结论。因此,在使用过程中不可单独作为认定同一的价值特征,长时共振峰线性预测谱LPC特征不可用于交城方言和普通话之间的语音同一性检验。

长时共振峰特性;话者识别;方言;普通话

共振峰是语音同一性检验中非常重要的应用特性之一,在个体语音同一性认定中扮演着关键的角色。2005年,Nolan 与 Grigoras[1]在一起语音同一性检验案件中首次使用长时共振峰分布测量法,用分析语段中全部元音信息代替了传统的分析目标元音共振峰频率,并证实该方法能够很好地区分不同个体的语音,可以用来进行语音同一性检验。随后,长时共振峰特性引起了学者们的广泛关注和探讨。Jessen、Moos[2]、曹洪林[3]等学者分别使用长时共振峰分布测量法就英语、德语、汉语等语种进行语音同一性检验的探究,均得出肯定性结论。长时共振峰特性不仅反应了说话人的声道特性和言语习惯,而且反映了声道谐波共振和整体共鸣的特点。在进行分析的过程中,不受语料内容的影响,省时高效,而且不同鉴定人之间的测量结果差异性较小,被认为是一种更优良的分析方法。

在语音同一性检验中,往往会遭遇检材和样本语种不同的情形。尤其在中国,方言种类繁多,不同方言各具特点。鉴定人熟识各类方言的特点可谓难之又难。实践中,常常要聘请专门的方言专家进行讲解,费时费力。长时共振峰特性不受语料内容影响的这一特点,为听不懂方言内容还能够进行语音同一性鉴定提供了可能。Jessen的研究发现,长时共振峰分布特征在不同语言之间的差异性较小,Xu Yixue[4]207-211研究了话者汉语、英语、韩语三种语言的长时共振峰分布特征,发现人间差异大于个体变异。本文将以山西交城方言为例,探讨长时共振峰均值特性、长时共振峰分布特性、长时共振峰FFT功率谱特性、长时共振峰线性预测谱(LPC)特性四方面的长时共振峰特性,在普通话与方言之间进行语音同一性检验的意义。

一、实验方法

(一)发音人

发音人共8人,其中男性发音人4人,女性发音人4人。年龄在20-23岁。发音人能够说标准的普通话与标准的山西交城方言(下文均简称方言)。

(二)语料

录音材料分为普通话的短文朗读和方言的短文朗读。两个短文内容均包含有该种语言出现的全部元音音节,故两个短文的文段内容不同。

(三)录音

在司法录音检验实验室,使用麦克风进行录音,采样频率为 11kHz,精度为 16 位。录音软件为VS-99语音工作站。

使用Wavesurfer 软件提取整段语音剪切后的共振峰, 如图1所示。剪切前后的时长对比见表1。

(四)声学测量与分析

图1 长时共振峰分布提取图(图中由下至上依次为第一、 二、 三、四共振峰)

表1 短文剪切前后时长对比表

(单位:秒;M1-M4为4位男性,W1-W4为四位女性)

长时共振峰均值、长时共振峰分布提取的参数设置:采用宽带语图,提取四条共振峰,窗口类型为哈明窗,下采样频率为 10000Hz,LPC 阶数为 12。 使用EXCEL对提取到的各条共振峰数据进行统计分析。

长时共振峰FFT功率谱、长时共振峰线性预测谱(LPC)的参数设置:选择剪切后的全部语音,窗口类型为哈明窗,采样点数为512,LPC阶数为12。

二、实验内容与结果

(一)长时共振峰均值特性

图2 8位发音者长时共振峰均值统计图(横坐标:8位发音者;纵坐标:频率值;表中,由下到上为第一、二、三、四共振峰的均值;黑色:普通话;灰色:方言)

8位发音者长时共振峰均值的统计结果见图2。由图可见,除M2外,大部分发音者其普通话语音和方言语音的长时共振峰的均值无显著差异。在所有发音者中,其普通话和方言之间的第一共振峰长时均值基本保持一致。四位发音者(M2、W2、W3、W4)中,其方言的第三、四共振峰长时均值较普通话的有一定程度的提升。女性发音者的长时共振峰均值高于男性,同一性别中,不同话者的长时共振峰均值的差异并不显著。

(二)长时共振峰分布特性

8位发音者长时共振峰分布特性的统计结果见图3。 单图中由左到右,分别表示第一、二、三、四共振峰的长时分布形态。8位发音者长时第一至第四共振峰的分布频率范围见表2。

由图表可见,对男性而言,话者普通话和方言长时第一至第四共振峰的分布频率范围基本吻合,长时共振峰分布形态差异甚微。长时第二、三共振峰的形态在普通话和方言之间吻合良好;长时第一、四共振峰的分布形态在普通话和方言之间略有差异。普通话长时第一共振峰尖峰区域所在的频率范围普遍低于方言,在形态上呈现出方言的尖峰较普通话的向右移动。长时第四共振峰的分布形态分两种情况:对于第四共振峰只有一个尖峰,则其普通话和方言的吻合程度良好(见M1);对于第四共振峰有两个尖峰,则其普通话和方言的分布形态呈现轴对称,如:普通话中第一尖峰低第二尖峰高,则方言中第一尖峰高第二尖峰低(见M2、M3、M4)。不同话者之间,长时共振峰分布形态特性的差异较为显著,表现在:1.不同话者在第三、四共振峰的分布频率范围差异显著。不同人长时第三共振峰的分布形态虽然相似度高,但是频率的分布范围相差较大,尖峰出现的频率差异较大。2.第一、四共振峰的分布形态差异显著。虽不同话者长时第一共振峰的分布形态均表现为,先出现一个尖峰之后为平缓阶段,但不同话者的尖峰的陡峭程度和平缓阶段的长短均有差异。3.不同话者长时第四共振峰的分布形态有一个尖峰和两个尖峰的差异。在有两个尖峰的情况下,不同话者的尖峰的陡峭程度差异较大,如:M2的尖峰十分陡峭,但M4的尖峰十分平缓。

表2 8位发音者长时第一至第四共振峰的分布频率范围

(单位:Hz;F1、F2、F3、F4为第一、二、三、四共振峰)

图3 8位发音者长时共振峰分布特性统计图(组图自上而下为8位发音者,上四位男性,下四位女性。单图横坐标:频率范围(Hz),统计步长为25Hz;纵坐标:频数;黑色:普通话;灰色:方言)

对女性而言,话者普通话和方言长时第一至第四共振峰的分布频率范围略有差异,长时共振峰分布形态差异显著。女性长时共振峰的频率分布范围要大于男性。话者普通话和方言长时第二共振峰的频率分布范围和分布形态在四位话者中吻合良好,但不同话者之间的差异甚微。话者普通话和方言长时第一、三、四共振峰的频率分布范围除W4外,均差异显著;该三条共振峰的分布形态在普通话和方言之间的差异显著,无明显规律可循。女性较男性而言所呈现出的巨大差异是否由带宽引起,笔者在不同带宽下提取共振峰,并未见显著变化。可见,该差异与带宽设置并无关联。

(三)长时共振峰FFT功率谱特性

图4 8位发音者长时共振峰FFT功率谱特性统计图(组图自上而下左为男性M1、M2、M3、M4;右为女性W1、W2、W3、W4。横坐标:频率(Hz);纵坐标:幅度(dB)。黑色:普通话;红色:方言)

8位发音者长时共振峰FFT功率谱特性的统计结果见图4。由图可见,对男性而言,长时共振峰FFT功率谱呈现出两种情况:一种为普通话和方言的长时共振峰FFT功率谱完好吻合;另一种为方言的长时共振峰FFT功率谱要高于普通话,但线形样态保持一致,即在话者使用方言发音的语音能量要整体高于其使用普通话。不同话者长时共振峰FFT功率谱的差异显著。

对女性而言,方言的长时共振峰FFT功率谱均要高于普通话,即女性在使用方言发音时能量要普遍高于普通话。不同话者长时共振峰FFT功率谱的差异甚微。

(四)长时共振峰线性预测谱(LPC)特性

8位发音者长时共振峰线性预测谱(LPC)特性的统计结果见图5。由图可见,除W4外,话者普通话和方言的长时共振峰LPC谱的差异显著,无论是频谱形态,还是峰谷的数值均有差异。W4普通话和方言的长时共振峰LPC谱的形态、峰谷数值基本吻合。

图5 长时共振峰线性预测谱(LPC)特性统计图(组图自上而下左为男性M1、M2、M3、M4;右为女性W1、W2、W3、W4。单图横坐标:频率(Hz);纵坐标:幅度(dB)。黑色:普通话;红色:方言)

三、分析与讨论

首先,通过实验可以发现,话者在使用方言时的语音能量要高于使用普通话,且女性更为明显。具体表现为,话者在使用方言时的长时共振峰均值和FFT功率谱会有所提升。这种提升是否在山西交城方言中普遍存在,有待扩大样本进一步的研究。

其次,同一话者普通话与方言的长时共振峰特性各有不同。1. 长时共振峰均值在普通话和方言中的差异较小,且女性略高于男性。这是由于女性发音者的声道长度要短于男性,女性的共振峰频率更高。2. 长时共振峰分布特性在男性话者中的吻合程度良好,女性吻合程度则较差。女性长时共振峰分布的频率范围大于男性,这与Xu Yixue[4]207-211对同一话者不同语言的研究结论相一致。男性长时第二、三共振峰的分布形态在普通话和方言之间是吻合的;长时第一、四共振峰的分布形态呈现不同规律。这与Xu Yixue[4]207-211研究所发现的长时第一共振峰的分布形态在不同语种间高度吻合的结论有所差异。对于女性而言,长时第二共振峰的分布形态在普通话和方言之间是吻合的,其余共振峰则差异显著。3. 长时共振峰FFT频谱特性在方言和普通话中表现出相互吻合或者方言略高的特点。4.长时共振峰LPC频谱特性在普通话和方言之间的差异性较大。LPC频谱被认为是FFT频谱的包络图,但在该研究中,长时共振峰FFT频谱特性与长时共振峰LPC频谱特性所得出的结论却背道而驰。“LPC 算法是一种声道模拟方法,其忽略了声源的影响,其谱包络和真实的频谱有一定的差异”,“LPC 主要缺点是对共振峰合并现象无能为力,对于相邻两个共振峰的极点紧紧地靠在一起,从而频谱包络只呈现出一个局部极大值,而不是两个极大值,对于峰值检测器认为此处只存在一个共振峰”[5]或许可以给出一定的解释,但该差异的根本原因还需进一步探究。

再次,长时共振峰特性在普通话与方言之间进行语音同一性检验的可行性研判:第一,长时共振峰特性在区分不同话者普通话和方言之间的鉴定价值不高。1.同一话者长时共振峰均值在普通话和方言中相对吻合,女性大多表现出方言略高于普通话,但是不同话者的区分度不强。2.长时共振峰分布特性,对男性而言,表现出人间差异大于个体变异,可以应用于话者个体识别;但对女性而言,人间差异不足以大于个体变异,不可用于话者个体识别。这与Xu Yixue[4]207-211的研究结论:即无论性别,长时共振峰分布特性均表现出人间差异大于个体变异,有所相同亦有所差别。3.长时共振峰FFT功率谱,在男性中表现出不同个体的差异性显著,可以进行区分,但在部分女性中则差异甚微,无法区分。长时FFT功率谱虽然非常真实表现出话者语音谐波的振幅能量,可以反映明显稳定的个体特征,但其频谱数据较多,图形观察繁琐,因此使用起来诸多不便。4.长时共振峰线性预测谱LPC频谱特性在普通话和交城方言间无明显规律,不可用于语音同一性检验。第二,鉴于长时共振峰分布特性中,长时共振峰均值特性、长时共振峰分布特性、长时共振峰FFT功率谱特性呈现一定规律性但并不显著,女性更甚,因此,在使用的过程中不可单独作为认定同一的价值特征,需要结合其他特征共同使用。第三,通过实验表明,在实际案件中,应当尽量收集语言相同的样本材料,减少使用普通话和方言进行鉴定的情形。

最后,本文的录音内容均来自实验室录制,语音质量优良。在声纹鉴定实践中,受限于语音录制环境和条件的影响,可能遭遇新的问题。本文的语料均来源于青少年,对其他年龄层的考察尚有缺失。

四、结论

长时共振峰分布特性在话者方言和普通话中呈现一定的规律但不显著。不宜单独作为语音同一性检验的特征,需结合其他特征综合使用。

对于普通话和方言之间:

第一,长时共振峰均值特性基本吻合,但不同话者的区分度不强。

第二,长时共振峰分布特性在男性中表现为人间差异大于个体变异,可用于语音同一性检验;女性则不可。

第三,长时共振峰FFT功率谱在男性中差异显著,可用于语音同一性检验;女性则不可。

第四,长时共振峰线性预测谱LPC频谱特性无明显规律,不可用于语音同一性检验。

[1]Nolan F,Grigoras C.A case for formant analysis in forensic speaker identification[J].International Journal of Speech Language & the Law,2005,12(12):143-173.

[2]Moos A.Long-Term Formant Distribution (LTF) based on German spontaneous and read speech[C].In proceeding of IAFPA,Lausanne,2008:5-6.

[3]曹洪林,孔江平.长时共振峰分布特征在声纹鉴定中的应用[J].中国司法鉴定, 2013(1):62-67.

[4]Xu Y,Kong J.Vocal tract characteristic on long-term formant distribution[C]//Computer Science and Network Technology (ICCSNT),2012 2nd International Conference on.2012:207-211

[5]庄 琳.利用长时平均FFT功率谱进行话者识别[J].山西警官高等专科学校学报, 2011, 23(1):80-82.

ApplicationResearchofLong-termFormantSpecialtybetweenMandarinandDialect——Take Dialect in Jiaocheng, Shanxi as Example

JIA Li-wen, YANG Jun-jie
(ShanxiPoliceCollege,Taiyuan030021,China)

The article takes Shanxi Jiaocheng dialect as an example to explore the value of the long-time formant features in testing the identity of Chinese mandarin and Shanxi Jiaocheng dialect. Based on Chinese Mandarin speech and Shanxi Jiaocheng dialect speech, four long-time formant features (long-time formant mean value, long-time formant distribution, long-time formant FFT, long-time formant LPC) of four male speakers and four female speakers were calculated and analyzed. It is concluded that the value of formant feature is not valuable in testing the identity of Chinese mandarin and Shanxi Jiaocheng dialect. Therefore, it can not be used alone in forensic speaker identification. Long-time formant LPC can not be used in the speaker identification testing between Chinese mandarin and Shanxi Jiaocheng dialect.

Long-time formant feature; speaker identification; dialect; mandarin

2017-03-10

贾丽文(1988-),女,山西太原人,硕士,山西警察学院教师;杨俊杰(1973-),男,山西襄汾人,博士,山西警察学院副教授。

D918.9

A

1671-685X(2017)03-0100-05

(责任编辑:黄美珍)

猜你喜欢

尖峰共振普通话
尖峰石阵
安然 与时代同频共振
选硬人打硬仗——紫阳县党建与脱贫同频共振
西澳大利亚——尖峰石阵
我教爸爸说普通话
CTA 中纺院+ 化纤联盟 强强联合 科技共振
如果古人也说普通话
改革是决心和动力的共振
17
尖峰之年:NASA地球科学探测进入高潮