APP下载

汉语青年发音人的嗓音声学分析

2021-07-05金蒙于勇孙洋李美莹冉启斌

天中学刊 2021年3期
关键词:基频嗓音声学

金蒙,于勇,孙洋,李美莹,冉启斌

汉语青年发音人的嗓音声学分析

金蒙1,于勇1,孙洋1,李美莹1,冉启斌2

(1. 天津中德应用技术大学 应用外国语与国际教育学院,天津 300000; 2. 南开大学 文学院,天津 300071)

以冲浪科技开源的258名中国青年发音人的234 617个汉语语句语音文件为语料,使用Praat软件,以整个句子为范围提取基频微扰(jitter)和振幅微扰(shimmer)数据进行嗓音声学分析,可以看到,男性基频微扰均值2.367%,振幅微扰均值11.905%;女性基频微扰均值1.968%,振幅微扰均值9.394%,男性的基频微扰和振幅微扰均高于女性。单因素方差分析显示,基频微扰和振幅微扰在性别上存在显著差异。

基频;微扰;振幅微扰;嗓音声学分析;性别差异

对嗓音的声学参数分析主要用于辅助判断发音人声带及其附属器官的生物学病理特征,为医学诊断和治疗提供依据。嗓音声学分析也可以对发音人的音质进行评估,为发声训练等提升音质的活动提供参考标准。目前已有不少研究对嗓音的声学参数进行分析研究。黄昭鸣和万萍使用自行研发的嗓音病理合成器运用基频(0)、基频微扰(jitter)、振幅微扰(shimmer)、声门噪声能量、声门谱斜率、共振峰频率微扰6个参数对嗓音进行评估[1]。于萍、Giovanni Antoine则通过检测基频、音强(intensity)、基频微扰、信噪比(signal-to-noise ratio,SNR)、Lyapunov系数、口腔气流量(OAF)、音域(Range)、最大发声时间(MPT)、发/pa/音时的声门下压(estimated subglottic pressure,ESGP)等参数,建立嗓音的有效参数评估模式[2]。在国外的研究中,测量的参数包括基频、基频微扰、振幅微扰、谐噪比(HNR)等以及声门下压力(Glottic downforce)、口腔气流量、音域和最大发声时间等。Eixeira分别对jitter和shimmer的参数值进行了测量,并将不同测量方式对jitter和shimmer参数值准确度的影响进行了比较[3]。从总体上看,基频微扰和振幅微扰是嗓音声学分析的重要参数。因此对基频微扰和振幅微扰参数进行分析研究,是对发音人进行嗓音声学分析的重要内容。虽然目前在嗓音声学分析方面已有不少研究成果,但在较大样本数量的嗓音声学分析方面和对比分析一般自然语料中男性、女性的基频微扰和振幅微扰数据方面,以及探讨嗓音声学分析的语言学意义方面,研究还不太多。基于此,本研究我们使用冲浪科技采集的出生地为全国30个地区的258名青年人的234617个普通话语句语料,利用Praat软件对这些语料进行嗓音声学分析,展示其基频微扰和振幅微扰的表现。

一、研究对象与方法

(一)研究对象

本实验基于冲浪科技500小时中文普通话数据语料开源的部分语料进行研究。该语料包含来自30个省市和自治区的258例正常成年人的嗓音样本,其中男性111人,女性147人。所有发音人年龄在17~38岁之间,平均年龄21.9岁,具体见表1。因此本研究分析的发音对象认定为青年人是合适的。

表1 258名发音人年龄分布

冲浪科技开源的语料样本所采用的录音设备分别为安卓手机和苹果手机,本研究分析的语料均为安卓手机采集。发音人在室内安静环境下进行录音,采样率16 kHz,存储字节16位。语料主要内容为自然话语的句子,如“你要是说实话我肯定不冤枉你啊”“我就想知道其中有没有他而已”等。每名发音人的语句语料各不相同,语句数量为800~1000个不等。发音人均以正常语速发音。

(二)研究方法

本研究使用Praat软件进行语料的标注和数据提取:使用自行编写的Praat脚本量生成Pitch文件,将句子中首次出现基频的位置设为起点,最后一次出现基频的位置设为终点;使用脚本批量出具每句话起点和终点之间的嗓音分析报告。嗓音声学分析按照计算方法的不同,提供了jitter和shimmer若干种相关参数。本研究分析采用jitter(local)和shimmer(local)两个参数。

二、基频微扰数据分析

(一)基频微扰数值的计算

基频微扰是进行嗓音声学分析的主要参数之一,它表现的是声带振动中不规律性变化的程度。基频微扰在听感上反映为声音的嘶哑及粗糙程度。基频微扰与嗓音音质密切相关,基频微扰的数值越大表明声带振动越不规律,声音也就越为嘶哑和粗糙。

按照计算方法的不同,通常基频微扰具体分为若干种相关的参数,例如绝对基频微扰(jitta)、局部或相对基频微扰(jitt)、基频相对平均扰动(rap)、五点周期扰动商(ppq5)等。本研究一律使用jitter(local)参数(可省写为jitt或jitter)。jitt参数表述音高连续周期中的平均绝对差异,单位为百分比。jitt由公式

计算得出,其中T为抽取的声门周期长度,为抽取的声门周期数量[3]1190–1199。

(二)分析结果

我们使用Praat脚本批量提取发音语料中的基频微扰值(jitt),每个句子提取1个基频微扰值。所有语料共提取到jitt数据234 617个,其中男性jitt值117 465个,女性jitt值117 152个。男性和女性的数据分布都存在一些极端值,其中男性的数据更分散一些;男性的jitt值总体比女性高。

我们对所有数据进行了统计分析,得到的jitt均值为2.168,中位数为2.101,标准差为0.594。我们又分性别对男性和女性的数据进行了统计分析,结果表明男性和女性的数据样本相差很小:其中男性jitt均值为2.367,中位数为2.294,标准差为0.621;女性jitt均值为1.968,中位数为1.919,标准差为0.490。男性无论平均值、中位数还是标准差都高于女性。分析结果表明还表明:男性的四分位距为0.742,男性jitt值的四分位浮动范围为1.426~2.91;女性的四分位距为0.633,女性jitt的四分位浮动范围为1.335~2.601。

为检测男、女性jitt值之间的差异是否具有显著性,我们又分性别进行了单因素方差分析。结果显示男、女性别对jitt值的影响差异具有统计学意义((1, 234 615)=29 886.820,<0.05),可见男性的jitt值显著高于女性的jitt值。

(三)讨论

关于jitter是否存在性别上的差异及其所确定的一般参考值,国内外文献结论并不一致。王双乐利用计算机语音频谱技术(USSA)对正常人的嗓音进行了声学参数测量,其研究表明同一年龄组女性的jitter值要大于男性,青年人的jitter值存在性别差异[4]。雷科等使用Dr.Speech软件采样分析,认为jitter值在青年组有性别差异[5]。杨青应用计算机语言分析系统进行测量,结果显示发舒适音和真声最低音的jitter值存在性别差异(<0.05)[6]。叶志腾通过Praat对成年人男女jitter值进行测量,认为jitter值男女性别无统计学差异[7]。Brockmann等人认为小声发音时男性的jitter值比女性高,但声量适中或大声说话时男女的jitter值接近[8]。Finger等人将青年女性作为研究对象,研究结果显示呈正态分布的样本数据可以用来确定声学参数的正常参考值,同时与之前国内外研究进行对比,发现各声学参数测量结果接近[9]。本研究的分析则看到jitter值存在性别差异,青年男性的jitter值高于青年女性。

我们将上述文献研究结果进行梳理对比,整理结果见表2。我们所筛选的数据为青年人(20~40岁)在自然舒适状态下正常语速发音所测量的jitter值。

表2 青年人发音基频微扰值研究结果对比

由表2可以看出,在受试的发音语料一致的情况下,叶志腾与Brockmann在性别是否对jitter值产生影响这一观点上结论正好相反。这里两者所提取参数的方式不一样,前者采用的是jitta参数,而后者采用的是jitt参数。这可能反映了jitter是否存在性别差异与具体采用的计算方式有关。

本研究在与Brockmann和Finger的研究成果进行比较时,可以看到同样使用的是Praat软件,采用的是jitt参数,而受试发音语料和样本数量不同,最后的jitter值也存在较大差异。关于受试的发音语料,表2中数据来源的语料都是持续稳态元音,如〔i〕〔æ〕〔a〕等,尚未见到文献研究中有成句的语料分析。本研究所分析的语料为自然话语的句子,切合人们实际的发音状态与语音质量。

另外,本研究所得出的jitter均值浮动范围男性为2.367±0.621(`x±s);女性为1.968±0.490(`x±s)。本研究得到的数值往往大于以往研究的数据。除了测量软件、提取参数的方式、样本数量等因素以外,导致结果不同的最大因素应该是被试的发音语料。以往研究采用的语料主要为单个的典型元音(/a/、/æ/、/i/等),发单个的典型元音时声带的振动通常会更加规则。而本研究采用的语料为正常语句语料,其中有单元音、复合元音,也有不太典型的元音,例如汉语普通话中有带有较多摩擦的所谓舌尖元音(如/ɿ/、/ʅ/等)、辅音中的响音(如/m/、/n/等)以及大量辅音。可以理解的是,这些复杂多样的语料自然会增加声带振动的不规则性。这应该是本研究测量得到的jitt值与以往研究不相同并往往大于以往数据的主要原因。此外,本研究结果显示男性jitt值总体大于女性,这反映的不是男性和女性发单一元音时的情况,而是男性和女性在正常语句发音时的情况。

三、振幅微扰数据分析

(一)振幅微扰的计算

振幅微扰是进行嗓音声学分析的参数之一,它描述的是声带振动时相邻周期之间振幅的微小变化,主要反映嗓音的嘶哑程度。它与基频微扰一样,是反映声带振动稳定性的有效指标,其数值越大,说明在发音过程中声学信号出现的不规则变化越多。

振幅微扰分析与基频微扰一样,按照不同的计算方法分为多种相关的参数。Praat中提供了shimmer(local)、shimmer(local,dB)、shimmer(apq3)、shimmer(apq5)、shimmer(apq11)、shimmer(dda)6种参数,本研究分析采用shim(local)值(省写为shim或shimmer),它计算的是连续周期振幅之间的平均绝对差异,单位为%。shim由公式

计算得出,其中A为抽取的振幅,为抽取的基频周期数量。

(二)结果

我们使用Praat脚本批量提取发音语料中的振幅微扰值(shim),每个句子提取1个振幅微扰值。所有语料共提取到shim数据235 709个,其中男性shim值118 012个,女性shim值117 697个。男性和女性的数据分布都存在一些极端值,其中男性的数据相对更分散;男性的shim值总体比女性高。

我们对所有数据进行了统计分析,得到的shim均值为10.651,中位数为10.477,标准差为2.559。我们也分性别对男性和女性的数据进行了统计分析,结果表明男性和女性的数据样本相差不太大:男性shim均值为11.905,中位数为11.772,标准差为2.367;女性shim均值为9.393,中位数为9.236,标准差为2.981。男性无论在平均值、中位数还是标准差上都比女性高。另外统计分析,男性的四分位距为3.214,男性shim值的四分位浮动范围为8.691~15.119;女性的四分位距为2.813,女性shim的四分位浮动范围为6.581~12.207。

为检测男、女性shim值之间的差异是否具有显著性,我们又分性别进行了单因素方差分析。结果显示男、女性别对shim值的影响差异具有统计学意义((1, 235707)=74774.649,可见男性的shim值显著高于女性的shim值。

(三)讨论

然而,由于检测仪器和计算方法的不同,不同研究所获得的青年发音人的shimmer值也有所差异。王双乐应用计算机语音频谱技术(USSA)对正常人的嗓音进行了声学参数测量,其研究结果表明同一年龄组男性的shimmer值要大于女性,青年人的shimmer值存在性别差异。雷科等使用Dr.Speech软件采样分析,研究结果表明shimmer值在青年组有性别差异,且青年女性的shimmer 值要大于男性。杨青应用计算机语言分析系统进行测量,结果显示无论是发舒适音、真声最低音、真声最高音还是假声最高音,shimmer值不存在性别差异(>0.05)。叶志腾通过Praat对青年男女shimmer值进行测量,分析shimmer参数值的性别比(=0.026<0.05),认为shimmer值男女性别存在统计学差异。Brockmann等人认为小声发音或声量适中时男性的shimmer值比女性低。Finger等人将青年女性作为研究对象,研究结果显示呈正态分布的样本数据可以用来确定声学参数的正常参考值,同时与之前国内外研究进行对比,发现各声学参数测量结果接近。本研究的分析则看到shimmer值存在性别差异,青年男性的shimmer值高于青年女性。

我们将上述文献研究结果进行梳理对比,整理结果见表3。我们所筛选的数据为青年人(20~40岁)在自然舒适状态下正常语速发音所测量的shimmer值。

表3 青年人发音振幅微扰值(Shimmer)研究结果对比

从表3可以看到,不同数据来源所使用的测量软件存在差异,测量的具体shimmer参数也略有差异(例如Brockmann等人采用的测量单位为dB)。这可能造成测量结果的不同。而造成本研究数据在很大程度上大于以往结果的原因,与前面我们分析jitter数据时一样,主要应该在于发音语料的不同。以往研究的发音语料大多为/i/、/æ/、/ɑ/等单元音;而本研究的语料为普通话的实际语句。不难理解,单一/ɑ/、/i/等元音发音只占所有语音单位很小的一部分,实际语句中的发音包含有其他元音、响音甚至振幅规则性较差的辅音。这些规则性较差的语音单位显然会增大发音时的振幅微扰。我们认为,在嗓音声学分析中,发音语料采用实际话语中的汉语语句应该能够更全面地反映嗓音的实际表现。

四、结语

本研究使用Praat软件对冲浪科技开源的258名中国青年发音人的汉语语句声音样本进行了嗓音声学分析。与以往大多数研究不同,本研究所使用的语料为汉语普通话的自然语句,得到的结果在数据上与以往研究存在一定差异。对语言实际使用中的各种单位,例如词汇、短语、句子等,而不是单一的元音进行嗓音声学分析,应该能够更全面、更准确地揭示语言各方面的微观表现,并进而对语言学的一些重要问题提供新的认识。例如冉启斌通过测量中国境内8种语言各1200个词的jitter和shimmer数据,看到北方语言的jitter数据明显高于南方语言,而shimmer数据则不存在这种差异,并判断由jitter体现出来的嗓音差异应该与北方和南方悬殊很大的湿度差别具有关联,而这一现象很可能揭示了汉语历史上声调先产生于南方,从而逐渐向北方过渡[10]。这使得嗓音的微观声学分析具有了更多语言学的意义。

应该说明的是,本研究使用的258名汉语发音人语料是冲浪科技开源的,其语料的主要用途是应用于语音识别的人机对话研究。人机对话研究对样本的年龄差异要求不高,因此该语料的发音人以青年为主。从语言学研究的角度来看该语料在年龄的分布上不太均衡,中、老年等其他年龄段的嗓音表现需要另行研究。另外,对本研究语料的分析考察还可以更加细化,例如可以详细考察语句中各个单元音的jitter和shimmer表现,并以这种语流语料的结果与以往研究进行对比。这些方面将作为以后进一步研究的课题。

[1] 黄昭鸣,万萍.嗓音声学参数与嗓音音质的相关研究[J].临床耳鼻咽喉头颈外科杂志,2008(6):251–255.

[2] 于萍,Giovanni Antoine.嗓音的客观多参数分析与主观听觉分析相关性的研究[J].听力学及言语疾病杂志,2003(3):161–164.

[3] João Paulo Teixeira,André Gonçalves.Accuracy of Jitter and Shimmer Measurements[J].Procedia Technology,2014(16):1190–1199.

[4] 王双乐,周涛,何佳莉,等.成人嗓音计算机检测及分析[J].临床耳鼻咽喉科杂志,1998(10):448–450.

[5] 雷科,杨旭,沈建中,等.成人嗓音声学参数正常参考值的研究[J].临床耳鼻咽喉科杂志,2000(6):255–257.

[6] 杨青.嗓音的声学检测结果与定量分析[J].临床工程,2008(3):104–105.

[7] 叶志腾.应用Praat软件分析成人嗓音声学参数[D].福建:福建医科大学第一临床学院,2009:1–29.

[8] M Brockmann,C Storck,PN Carding,MJ Drinnan.Voice Loudness and Gender Effects on Jitter and Shimmer in Healthy Adults[J].Journal of Speech Language & Hearing Research,2008(5):1152–1160.

[9] leila Susana Finger,Carla Aparecida Cielo,Karine Schwarz.Acoustic vocal measures in women without voice complaints and with normal larynxes[J].Brazilian Journal of Otorhinolaryngology,2009(3):432–440.

[10] 冉启斌.嗓音的南北差异与汉语声调产生的地域先后[J].语言研究,2020(4):46–53.

H018.4

A

1006–5261(2021)03–0138–06

2021-01-25

国家社科基金重大项目(19ZDA300);南开大学中央高校基本科研业务费专项资金项目(63202924)

金蒙(1990― ),女,湖北随州人,助教,硕士;冉启斌(1977― ),男,重庆巫溪人,教授,博士。

〔责任编辑 杨宁〕

猜你喜欢

基频嗓音声学
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
桥面铺装层对中小跨径桥梁基频影响分析
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
2019年美国秋季嗓音论坛纪实
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
黄绮珊:我的嗓音为什么是这样?
“世界嗓音日”——中央音乐学院嗓音研究中心在行动