普通话态度语音韵律特征研究

2021-09-14卢琰

牡丹江教育学院学报 2021年7期

卢琰

(西安外国语大学欧洲学院，西安 710128)

一、引言

声音是人类在交际过程中传递情感信息的重要载体，话语语音的韵律特征往往能真实地反映说话人的心理和情感状态。情绪与态度(或社会情感)同属人类的情感，却在产生和发展的认知过程上表现的不尽相同。与情绪相比，态度在人与人的交际过程中往往能反映说话人的意图，体现对话双方的社会关系，从而对双方的交际互动产生影响(Scherer 1993:316-336)。没有被正确识别的态度语音往往会产生交际隔阂，甚至造成交际失败。因而学习者如果能掌握一些目标语常用态度的韵律表达方法，这将对提高其跨文化交际能力大有裨益。此外，在人工智能领域，态度语音韵律特征的分析与提取对于实现和谐、自然的智能人机交互，对于提高合成语音的自然度和真实度，以及智能语音识别的质量都有着至关重要的现实意义。

目前国内外对于态度语音研究方向主要集中在态度语音的声学表现(如：Martins-Baltar 1977; Fujisaki & Hirose 1993；Gu et al 2011)、跨语言跨文化感知(如：Shochi et al 2009；Mac 2010；Lu et al 2012)和第二语言态度语音韵律的教学(如：Mejvaldová 2000; Shochi et al 2010;Pettorino et al 2012)。在充分考虑到态度语音在交际中，尤其是跨文化交际中的必要性的基础上，笔者将从语言研究的视角出发，对19种普通话交际态度语音的韵律特征进行研究，并尝试通过统计方法按照态度语音在基频、强度和时长上的表现对其分类，考察不同类别的态度语音在韵律上的特点。

二、普通话态度语音语料库

本文选取了19种汉语常见态度表达作为研究对象。为避免由不同说话人对态度概念的理解和表现的差异而造成的韵律参数取值的不同，以及后期统计计算中由此产生的偏差，本文态度语音的录制由一名女性指定说话人完成。说话人在录音前对所有态度概念和使用情境进行理解和记忆，并对指定文本进行多次模仿训练，以保证在录音时对指定的发音样本能够准确熟练地表达各种态度类型。录音在实验室环境下进行，所选用的文本按照其长度分为四种类型：单音节词、双音节词、四音节词组和九音节单句。所有文本均不含有暗示任何情感和态度的字词，并在各种态度状态下表达不会产生歧义。

表1 文本语料和态度名称及其英文缩写

三、态度语音样本韵律参数的提取

Lin & Fon (2012) 和 Li et al (2011) 在各自的研究中证实言语的情感表现功能主要通过全句语调的基频曲拱变化来体现。另外，Mac (2012) 在其博士论文中提到句首和句末音节的基频特征相比句中音节在越南语态度语音表现上的标记性更强。在参考上述研究成果的基础上，本文将从全句和句子首、尾音节两个层面考察19种普通话态度语音的韵律特征，具体分析在不同态度下语音样本在基频、音节时长和强度方面的表现(Scherer & Ellgring 2007；Ohala,1994；Di Cristo 2013:89)。

在提取声学参数之前，每一条语音刺激均由研究人员在音段层面进行手动标注之后，运行Praat软件完成大部分韵律参数的自动提取。提取的语音样本韵律参数包括：全句基频均值(基频域)、基频标准差、强度均值和全句时长；句子最高和最低基频值(用于计算基频范围)；句子首尾音节的基频均值(首尾音节基频域)和时长。所有基频值被转化成半音(semitone)，强度以分贝为单位(dB)，时长(毫秒)取其对数值(Ross et al 1986)。

此外，还有两个参数的值是在已提取数值的基础上计算而来：基频范围(半音)，即句子的最大基频值与最小基频值的差(Lin & Fon 2012)；基频斜率(半音/秒)，表示基频变化的方向和斜率，是末尾音节基频均值与句首音节基频均值的差除以全句时长的商(Ross et al 1986)。表2列出了语音分析中各韵律参数的名称、英文缩写及单位。

表2 用于态度语音声学特征分析的韵律参数列表

随后，在Excel表格中计算出19种态度的各韵律参数平均值，并运用于后面的统计分析，以考察各交际态度的韵律特征。

四、统计分析及结果

(一)以主成分分析为基础的层次聚类分析

将主成分分析(principle component analysis，简称PCA)与自下而上的层次聚类分析(agglomerative hierarchical cluster analysis)结合，能够在对个体分类的过程中减少噪声干扰(Husson et al 2010)，因此，本文将PCA作为聚类分析的预处理步骤，即首先对19种态度的10个韵律参数平均值运行PCA，继而在此结果上进行层次聚类分析。整个分析由SPSS软件对标准化后的样本数据进行自动运算完成。

抽取出的两个主成分的累计方差贡献率为81.96%。经旋转处理后(此处为最大方差的正交旋转法)，第一主成分的主要贡献者是除基频斜率之外的基频参数，以及全句强度域和末尾音节时长；第二主成分的贡献者是全句时长、首音节时长和基频斜率。

随后，本文以19种态度语音分别在第一、二主成分上的因子得分为变量用SPSS软件对数据进行了层次聚类分析，用Ward离差平方和法计算类别之间的距离，欧氏平方距离为组内个体之间的距离。最终，19种态度语音被分成五个类别。

为了更直观的观察五个态度类别与两个主成分的关系，以及19种态度语音在这两个维度上的分布，本文将聚类分析的结果绘制成图1。图中菱形图标代表19种态度；态度英文标签下方的数字表示态度所属的组别；维度1(横轴)和维度2(纵轴)分表代表PCA中的前两个主成分。

图1 19种态度语音在PCA前两个主成分上的分布

由图1可知，大部分态度标签沿横轴分布，跨度较大。其中“惊喜”(POS-S)、“惊愕”(NEG-S)和“吃惊”(NEU-S)位于横轴的最右端，因此在第一主成分上拥有最大值。与此相反，“妥协”(RESI)、“失望”(DISA)和“自信”(CONF)则具有最小值。“儿向”(IDS)位于纵轴的最上端，在第二主成分上有最大值，“亲密”(INTI)位于纵轴最下端，因此具有最小值。个别态度标签在图中位置几乎重合，如：“惊喜”(POS-S)与“惊愕”(NEG-S)，“妥协”(RESI)与“失望”(DISA)，“引诱”(SEDU)与“礼貌”(POLI)，“权威”(AUTH)与“陈述”(DECL)。这说明这些态度语音相互间在韵律特征方面有很强的相似性，这一结果在一定程度上解释了这几对态度语音在感知实验中出现的混淆关系。

此外，5组态度语音在图中沿横轴和纵轴分布，这也反映了它们在基频、强度和时长方面的主要特征。

1)第一组：“欣赏”(ADMI)“儿向”(IDS)“蔑视”(CONT)和“怀疑”(DOUB)在基频、强度和时长方面均具有较高值；

2)第二组：“权威”(AUTH)“陈述”(DECL)“妥协”(RESI)和“失望”(DISA)在基频、强度和时长方面均具有较小值；

3)第三组：“确信”(OBVI)“引诱”(SEDU)“礼貌”(POLI)和“自信”(CONF)在基频和强度方面的特征与第二组相似，但在时长方面与之有明显差异，总体时长较长；

4)第四组：“讽刺”(IRON)和“亲密”(INTI)与其他态度语音相比时长最短；

5)第五组：“惊喜”(POS-S)“惊愕”(NEG-S)、“吃惊”(NEU-S)“询问”(QUES)和“发怒”(IRRI)在基频和强度方面表现突出，拥有最大值，与第一组较为相似，却在时长上数值较小。

(二)态度语音类别之间的差异

接下来，本文对比各态度语音类别在各韵律参数上的平均值来具体观察五个类别的主要韵律特征及各类别之间的异同。对比分析结果如图2所示。

1.各态度语音类别的基频特征

首先，第一组(“欣赏”“儿向”“蔑视”和“怀疑”)和第五组(“惊喜”“惊愕”“吃惊”“询问”和“发怒”)在基频特征方面均有较高基频值，其中第五组各态度语音的基频范围、全句基频域、首尾音节的基频均值均高于其他四个小组，说明该类别的态度语音不但整体调域较高，而且语调幅距较大；第一组态度语音的基频标准差相比其他组数值较大，说明该组态度语音的基频变化差异明显。与第一和第五组相反，第二组(“权威”“陈述”“妥协”和“失望”)和第三组(“确信”“引诱”“礼貌”和“自信”)的态度语音在除基频斜率之外的所有基频变量上的取值均小于其他三组。

其次,各组基频斜率均为负值说明各态度语音句首基频值高于句末,全句语调整体成下降趋势。第四组态度语音(“讽刺”和“亲密”)的基频斜率最大，这主要是因为这两种态度语音在时间上用时最短(见图2)。

图2 五个态度语音类别在10个韵律参数上的平均值。每个条柱下方的数字为组别编号；上方的数字为该类别的平均值。

2.各态度语音类别的时长特征

总体来看，第一组态度语音无论在全句时长还是首尾音节时长均为小组中最大值，虽然与第五组的基频特征相似，但是在全句时长和句首时长特征上与第五组形成差异。第二组和第四组的态度语音表达整体上用时最短，二者的区分主要体现在基频特征上。第三组和第五组在时长上的取值居中，但第五组态度语音在各基频变量上的数值均大于第三组。

3.各态度语音类别的强度特征

经过对比发现，各态度语音类别在音强表现无明显差异。

五、结论与展望

本文对指定说话人、指定文本的普通话样本在19种不同态度下的基频、时间、能量特征参数进行了统计分析，目的在于将19种态度语音分类并找出各个类别的主要韵律特征以及不同类别之间的区别。

以主成分分析为基础的层次聚类分析将19种态度语音聚类为五组，但这五个组从根本上来自两大主类(图1)，其区分的主要依据是态度语音的基频特征(图2)。第一主类的态度语音具有较高的音高水平(如“惊喜”“欣赏”)、较大的音高跨度(如“惊愕”“怀疑”)以及明显的音高变化(如“惊讶”“蔑视”)；而第二主类的态度语音的音高水平和跨度以及音高变化则相对较小(如“陈述”“礼貌”“失望”“妥协”“权威”)。这一发现验证了有关情感韵律与基频之间的密切关联的猜想(Bolinger 1964、1978; Ohala 1983)。根据这一猜想，那些表现支配、权威、信任、攻击、保护和断言的语音往往基频较低，而表现不屑、友好、不信任、不确定和无礼的语音往往基频较高。这一猜想后来得到一些学者的进一步印证，如Caelen-Haumont (1991)和Kehrein (2002)在各自的研究中证实：基频值越高，说话人表达的“意外”之意越是明显。此外，态度语音在声学上依据基频特征的两分法分类与感知实验中态度语音在听感上的分类极为相似(卢琰，等，2013)，从而体现了基频特征对于态度语音解码的重要性，同时也解释了部分态度语音在听感上的混淆，如“礼貌”“明确”“自信”与“陈述”，“失望”与“妥协”，以及“惊喜”“惊愕”“惊讶”“怀疑”和“提问”之间的混淆。

总体上，我们可将五个态度类别的韵律特征尤其是在基频和时长上的特征做如下概括：

“欣赏”“儿向”“蔑视”和“怀疑”的韵律特征表现在全句和首尾音节时间上的延长，并在所有基频参数上均具有较大值。

“权威”“陈述”“妥协”和“失望”的韵律特征主要是时长小，基频值较小。

“确信”“引诱”“礼貌”和“自信”在基频特征方面整体上与上一组相似，但语速更慢。

“讽刺”和“亲密”最明显的特征是时长小，语速快，因而整句基频斜率大。

“惊喜”“惊愕”“吃惊”“询问”和“发怒”在韵律上最显著的表现是全句语调幅距大，句子和首尾音节调域高，末尾音节时延长。

同时，在态度类别内部，个别态度语音在基频和时长上具有明显区别性特征：“儿向”语速最慢(Fernald & Mazzie 1991)，“亲密”用时最短；“惊喜”“吃惊”和“惊愕”凭借其较高的基频值与其他态度区分开(Caelen-Haumont 1991; Kehrein 2002)，而“失望”和“妥协”则在所有态度语音中基频值最小；“自信”与同组(第三组)其他态度语音相比基频值较小且时长更长。