Swadesh核心词嗓音声学分析报告<br/>——以跨语言/国别平行音频为语料

Swadesh核心词嗓音声学分析报告
——以跨语言/国别平行音频为语料

2022-12-13黄玮穆汉许可冉启斌梁煜珠

语文学刊 2022年5期

○ 黄玮穆汉许可冉启斌梁煜珠

(南开大学汉语言文化学院，天津 300350；南开大学文学院，天津 300071)

一、引言

嗓音的一项重要功能是传递说话人的信息[1]。嗓音作为语音的载体，既包含语言本身的信息，也包含性别、年龄、动机等生理、心理上的副语言信息[2-3]。对嗓音的声学参数进行分析有助于诊断发音人的声带及其附属器官的健康状况，对发音人的音质进行评估，为发声训练提供参考标准等[4]。此外，嗓音参数体现出的嗓音控制能力在语言演化中与声调的产生和声调数量的多少有着较为密切的联系。通常认为嗓音控制能力越好的地区越容易产生声调语言，也越容易有更多数量的声调[5-7]。

国内外对嗓音参数的研究较为充分，常见的嗓音参数包括基频(F0)、基频微扰(Jitter)、振幅微扰(Shimmer)、信噪比(Signal-to-noise ratio)、谐噪比(Harmonics-to-noise ratio)、声门下压(Subglottic pressure)等，总体来看，Jitter和Shimmer是较为常见的两个嗓音参数之一，许多研究者基于Jitter和Shimmer对发音人的嗓音进行研究。对Jitter和Shimmer进行研究是对发音人进行嗓音声学分析的重要内容[4]。

影响Jitter和Shimmer的因素有很多，包括发音人的性别、年龄、性激素水平等[9-10]，也包括发音人所发语音的元音、音高等[11]，同时Jitter和Shimmer还受到环境湿度等因素的影响[12]。其中，性别是争议比较大的因素之一，主要争议在于男性和女性之间谁的Jitter、Shimmer值更大，以及这种差异是否具有统计学上的显著性。

有学者使用Dr.speech软件检测了40名嗓音正常的男性和40名嗓音正常的女性在发长元音[ɑ:]时的嗓音参数，结果显示，Jitter和Shimmer在正常成人男女性之间无显著差异。文章认为没有显著差异的原因在于Jitter、Shimmer与声带振动的特性密切相关，而并非与声带的振动频率相关[13]。有学者考察了20名正常女性发元音[a i u]时的嗓音参数，并将实验结果与前人研究中的男性数据做了差异显著性检验，指出正常男女发音人在Jitter和Shimmer上具有显著差异，女性的Jitter比男性更大，但Shimmer比男性更小[14]。有学者对1200例正常中国人按性别、年龄分组后使用Dr.Speech软件检测发元音[ɛ]时的嗓音参数，指出女性的Jitter显著大于男性，而男女性的Shimmer不具有显著差异。文章认为这与女性嗓音比男性音调高而音量小有关[10]。另外还有学者考察了以普通话为母语的50名男性儿童和50名女性儿童在持续发[ɑ i u m]时的嗓音参数，指出女性的Jitter和Shimmer均要比男性大[11]。

与之不同，也有研究表明男性的Jitter和Shimmer均显著大于女性。有学者使用Praat软件测量了258名中国青年发音人普通话句子语料中的嗓音参数，指出男性的Jitter和Shimmer均要显著大于女性[4](下文称为“研究A”)。有学者考察了40个汉语方言语档各182个词语录音的嗓音参数，指出性别的影响较为重要，男性的Jitter和Shimmer显著比女性大[7](下文称为“研究B”)。另外还有学者考察了15名男性和18名女性赣语大通片母语者在元音[ai u y]中的嗓音参数，结果也表明男性的Jitter和Shimmer要显著大于女性[15]。

可见，性别对Jitter和Shimmer的影响还没有定论。前人研究中截然不同的结果可能是由发音人的语言背景不同、发音内容不同、提取参数的软件不同等因素导致的，这一问题还有进一步探究的空间。另外，上述研究中几乎都是相同母语背景的发音人，跨母语背景的嗓音参数分析还较为少见。在语料的发音内容上，最为常见的是以持续元音为发音内容。研究A首次使用汉语普通话的句子作为语料进行分析[4]，研究B尝试使用汉语方言中的182个常用词语进行分析[7]。使用Swadesh核心词作为发音内容对Jitter和Shimmer进行分析的还比较少。

因此，本文将使用来自69个不同国家的发音人的Swadesh207核心词录音为语料，通过Praat软件采用与相关研究相同的参数提取方法对发音人的Jitter和Shimmer进行检测和数据分析[4、6、7]，以促进对跨国别/语言的Swadesh207核心词语料中发音人嗓音表现的认识。

二、材料与方法

(一)语料来源

本文所用的语料来自北京语言大学语言资源高精尖创新中心开源公布的“全球语言文化资源采录展示系统”。该资源集展示了70余个国家语言的有声材料，每个国家包括1名发音人的Swadesh207核心词、123个句子和若干长篇语料等。在我们下载时(2019年年底、2020年年初)该资源集包括71个国家的资源，经过筛选实际可用的材料为69个国家。这些国家的语言涉及阿尔泰语系、高加索语系、汉藏语系、南岛语系、南亚语系、闪含语系、突厥语系以及印欧语系等，其中印欧语系的语言偏多，此外还包括日语、韩语等系属不明的语言。这69个国家中有男性29人，女性40人，国家名称如表1所示。

表1 发音人信息表

本文进行嗓音分析使用的语料是69名发音人的207核心词录音(下文简称“语料”)，使用这些语料主要出于三方面的原因：首先，与既有的研究相比，本文语料的发音人来自69个不同的国家，有着不同的母语背景，这使得发音人的语言背景更加多元；其次，在录音内容上，69名发音人的发音内容均是Swadesh207核心词(个别发音人存在词语缺失的情况)，内容统一，语料平行，且核心词在各个语言中都比较基础和稳定，有助于在近似的基础上进行嗓音分析；最后，语料均是在北京语言大学录制的，在一定程度上将环境相对湿度对嗓音的影响降到了最低，且录音由专业人员操作，录音音质有所保障。

8.牛呼吸道合胞体病毒感染。剖检可见肺出现弥漫性水肿或气肿，间质性肺炎灶，并见大小不等的肝变区；继发细菌性支气管肺炎时，肺前腹侧区域呈现暗红色、坚实、有纤维素覆盖和实变。

(二)参数提取

在进行嗓音参数提取之前，我们使用Praat软件对语料中每个词的起点和终点进行了人工标注，这项工作由有经验的标注者完成。标注完成以后，使用Praat脚本对基频微扰和振幅微扰数据进行提取。Praat中提供的基频微扰和振幅微扰算法较多，如jitter有jitter(local)、jitter(local，absolute)、jitter(rap)、jitter(ppq5)等，shimmer有shimmer(local)、shimmer(local, dB)、shimmer(apq3)、shimmer(apq5)等。本文采用的是jitter(local)和shimmer(local)两个参数(简称“Jitt”、“Shim”)。几种算法的异同以及Jitt和Shim的计算公式已有研究做过介绍[7、16]，此处不再赘述。Jitt和Shim的提取是在Praat中使用脚本自动完成的。

(三)数据分析

Jitt和Shim提取完成后，剔除部分不可用的数据，如有的录音文件只能提取出Jitt而提取不出Shim，则将该条录音的数据删除。最后将有效的数据导入到SPSS26.0软件中进行分析。需要说明的是，由于Jitt和Shim的原始数值较小，为便于观察和报告，我们将原始数值分别放大了100倍，这对数据的分布特征并不造成实质性的影响。在分别分析Jitt和Shim的情况之前，我们首先对Jitt和Shim做了总体的相关性分析，结果显示Jitt与Shim呈显著中度正相关(Spearman，r=0.58，p<0.001)。本文中Jitt和Shim的相关性略大于研究B报告的结果(r=0.503，p<0.01)[7]，但是要小于两项前人研究中报告的结果(r=0.92，p<0.05；r=0.709，p<0.001)[11、15]，总的来看，本文的结果在可接受的范围之内。下面分别报告基频微扰与振幅微扰的情况。

三、基频微扰

语料中共有14 268条有效的Jitt数据，其中男性5 794条，女性8 474条。分别对男性和女性的Jitt数据进行K-S检验(Kolmogorov-Smirnova test)，结果显示，男性、女性的Jitt均不呈正态分布(ps<0.001)。总体来看，Jitt均值为2.292，中位数为2.113，标准差为0.990，这三项数据分别比研究A报告的数据大0.124、0.012和0.396，表明本文语料中的Jitt值更大，数据分布的离散程度也更高。下面分别对男性和女性的Jitt进行分析。

图1所示为男性和女性Jitt分布的小提琴图。小提琴图的原理和箱线图相似，但能更好地反映数据分布的情况。图1中横实线代表中位数，下虚线表示第一四分位数(下四分位数)，上虚线表示第三四分位数(上四分位数)，上须和下须顶端分别代表最大值和最小值，“琴身”的胖瘦显示该数值出现的频率，数据越集中，图形越胖。从图1可见，男女性Jitt的分布主体在1以上4以下，其中男性的中位数、上下四分位数均比女性大。

图1 Jitt分布小提琴图

从统计的具体数值可以看出，男性Jitt的均值为2.578，中位数为2.386，标准差为1.103，女性Jitt的均值为2.096，中位数为1.949，标准差为0.852。可见男性的三项数据均比女性要大，男性的Jitt要大于女性，且男性Jitt的分布离散程度也要大于女性。同时，非参数检验的结果也显示，这种差异具有统计学上的显著性(Mann-Whitney Test，p<0.001)，即本文中的语料支持男性的Jitt要显著大于女性的观点。此外，男性Jitt的四分位距(上下四分位数差值的二分之一)为0.664，四分位浮动范围为1.805～3.132，女性Jitt的四分位距为0.531，四分位浮动范围为1.482～2.544，再一次表明男性Jitt的分布分散程度更高，即男性声带振动在频率上的不稳定性与不规律性比女性更大。为便于与前人的相关研究(研究A和研究B)报告的数据对照比较，我们将Jitt的相关数据整理如表2所示。

表2 Jitt数据对照表

从表2可见本文语料中男、女Jitt的均值、中位数和标准差均要大于研究A和研究B报告的结果，即本文的Jitt值更大，同时在数据的总体分布上也更为分散。但需要注意的是，从四分位距来看，本文的数值要小于研究A的结果。四分位距虽然也能在一定程度上反映数据的分散程度，但其反映的只是数据从小到大排列后中间50%范围内(即图1中两条虚线之间)数据的分布宽度，不考虑前25%和最后25%的数据，因而能够较好削弱离群值的影响。从表2来看，三项研究中女性Jitt的四分位距和标准差均小于男性，即总体上女性Jitt的分布会比男性更集中，这既可能表明女性群体内部之间嗓音表现的个体差异比男性群体内部之间的个体差异要小，也可能表明女性在嗓音的控制能力上比男性更好。因为本文中的语料为207核心词，而非某个具体的元音，所以在某些词上可能存在女性的Jitt总比男性小的情况，这就表明女性的嗓音控制能力更好。在29名男性发音人中，可能存在某些发音人的Jitt总是会比其他男性发音人大，这就是男性群体内部之间个体差异更大的表现。不过，想要得到具体原因，仍有待进一步研究。由于研究A的发音人数量远多于本文，收集到的数据量也更大(234 617个Jitt数据)，而研究B的发音人数量和数据量(10 443个Jitt数据)稍少于本文，数据量越多则能代表中间50%数据宽度的数值可能越分散，这或许是本文的四分位距大于研究B但小于研究A的原因。

根据中心极限定理(Central limit theorem)和统计学的一般经验，当n≥30时，样本分布近似服从正态分布[17]，因而本文中Jitt数值的分布基本满足单样本T检验(Single sample t test)的适用条件。我们将本文男性、女性的Jitt数据分别与研究A和研究B的数据进行了比较，检验结果显示，本文男性、女性的Jitt显著大于研究A的Jitt(t=14.543，t=13.824，ps<0.001)，同时也显著大于研究B的Jitt(t=35.598，t=30.672，ps<0.001)。总之，跨国别、跨语言发音人的基频微扰总体上要显著大于汉语母语者。下面分析振幅微扰的情况。

四、振幅微扰

与Jitt一样，语料中共有14268条有效的Shim数据，其中男性5794条，女性8474条。分别对男性、女性的Shim数据进行K-S检验(Kolmogorov-Smirnova test)，结果显示，男性、女性的Shim均不呈正态分布(ps<0.001)。总体来看，Shim的均值为9.239，中位数为8.787，标准差为2.999，这三项数据中，均值和中位数分别比研究A小1.412和1.690，但是标准差要大0.440，即本文语料的Shim总体上不及研究A的大，但是标准差更大，数据的分布上更为分散。下面分别对男性、女性的Shim数据进行分析。

图2所示为男性、女性的Shim分布小提琴图。从图中可见，男性Shim的中位数、上下四分位数均要稍大于女性，男性Shim的极值比女性更大，数据分布范围也更广。从统计的具体数值来看，男性Shim的均值为10.185，中位数为9.716，标准差为3.214，女性Shim的均值为8.592，中位数为8.230，标准差为2.655。可见男性的三项数据均比女性要大，男性的Shim大于女性，且男性Shim的分布离散程度也要大于女性。同时，非参数检验的结果也显示，这种差异具有统计学上的显著性(Mann-Whitney Test，p<0.001)，即本文中的语料支持男性的Shim要显著大于女性的观点。此外，男性Shim的四分位距为1.905，四分位浮动范围为8.002～11.811，女性Shim的四分位距为1.631，四分位浮动范围为6.787～10.049，再一次表明男性Shim的分布分散程度更高，即男性声带振动在振幅上的不稳定性与不规律性比女性更大。为便于与相关研究结果对照比较，同样将Shim的数据整理如表3所示。

图2 Shim分布小提琴图

表3 Shim数据对照表

从表3可见，本文语料中男性、女性Shim的均值和中位数均比研究B的结果要大，但比研究A的要小，这与Jitt的情况有所不同。从标准差来看也与Jitt不同，本文语料男性Shim的标准差是最大的，但女性Shim的标准差比研究A的要小。四分位距的情况与Jitt相同，本文的数值要小于研究A的结果，原因可能在于其发音人比本文更多，样本容量更大，Shim数据的中间50%跨度更大。结合Jitt来看，在这三项研究中，四分位距数值主要受到发音人数量以及嗓音参数数据量的影响，发音人越多、数据量越大则四分位距会越大。

我们同样使用单样本T检验(single sample t test)将本文男性、女性的Shim数据分别与研究A和研究B的数据进行了比较，结果显示，本文男性、女性的Shim显著小于研究A的结果(t=-40.744，t=-27.782，ps<0.001)，同时，男性、女性的Shim显著大于研究B的结果(t=47.912，t=43.908，ps<0.001)。总之，跨国别、跨语言发音人的振幅微扰显著小于大样本普通话发音人的数据，但显著大于汉语方言发音人的数据。

五、结语

本文使用Praat软件对来自69个不同国家的29名男性和40名女性发音人的Swadesh207核心词录音样本进行了嗓音参数检测，使用统计学方法进行了分析，并将结果与研究A和研究B报告的结果进行了对比。分析结果显示，基频微扰和振幅微扰在男性和女性之间存在显著的差异，并且是男性的基频微扰和振幅微扰大于女性，这与上文提及的认为二者在性别之间没有显著差异或女性比男性大的研究观点有所不同，但与研究A和研究B等认为男性显著大于女性的研究结论一致。本文语料的发音人母语背景较以往研究更为多元，实验结果应该更为可靠。男性的基频微扰与振幅微扰大于女性，这一结果应该是由于男、女生理差异造成的。成年男性的声带往往比女性的声带长，女性比男性的声带约短三分之一[18]，因而女性对声带的控制能力应该会强于男性，基频微扰和振幅微扰比男性更小。

本文男性、女性的基频微扰均要显著大于研究A和研究B报告的结果，但是振幅微扰却显著小于研究A的结果，可见基频微扰与振幅微扰的表现并不完全一致，其中原因有待进一步研究。应该看到，这三项研究中的发音人和语料都是不同的。研究A的发音人达到258名，并且发音内容是普通话语句；研究B的发音人是40名，发音内容是汉语方言中的182个词语；而本文中的发言人是69名，发音内容是Swadesh207核心词在不同国家的语言中的发音。所以，影响对比结果的因素应该既包括发音人的母语背景、发音人的数量，也包括发音的内容等。本文出于从多元母语背景的语料来综合考察不同性别嗓音表现的目的，而未将69名发音人单独分析，在以后的研究中可以更加细化。另外，由于嘎裂声、鼻音等发声习惯的差异，说不同语言或方言的人可能会有不同的嗓音表现[19]，并且发不同的元音可能也会有不同的嗓音表现[20]，所以在跨语言词语语料的嗓音分析中，应当充分考虑不同语言的语音结构、元辅音比例等因素的影响。但本文的目的在于考察多母语背景发音人嗓音在性别上的表现，为嗓音参数的性别差异提供跨语言Swadesh207核心词语料的数据，为嗓音病理、语言研究等提供跨语言语料的参考，因而未对上述因素做细致考察。