听话者对说话者嗓音中语言学信息和副语言学信息的加工

2021-04-16余可可周亚聪刘秉怡蔡涵涵王瑞明

心理研究 2021年1期

余可可周亚聪刘秉怡蔡涵涵王瑞明

（1 广东省心理健康与认知科学重点实验室／教育部脑认知与教育科学重点实验室、华南师范大学心理学院／心理应用研究中心，广州 510631； 2 黄河科技学院心理健康教育中心，郑州 450063）

1 引言

在日常的人际沟通中，个体常常需要在说话者（speaker／talker）和听话者（listener）之间进行转换。当其作为听话者时，往往需要加工说话者嗓音（voice）中承载的多重信息来保持良好的沟通。这里的多重信息就包括了：说话者的身份信息（identity information），即说话者是谁；情绪信息（emotional information），即说话者的情绪状态；语言学信息（linguistic information），即与语音和语义有关的信息。说话者的身份信息和情绪信息又被统称为副语言学信息（paralinguistic information）（Belin，Fecteau，＆Bedard，2004； Scott，2019）。那么，听话者在加工说话者的嗓音时，嗓音中的多重信息是否存在相互作用？如果存在相互作用，其认知机制又是如何？这些问题对于进一步揭示嗓音感知和言语理解的认知加工机制都有重要意义。本文将围绕这两个主要问题进行系统的回顾与梳理，并对未来的研究方向提出展望。

2 语言学信息和副语言学信息加工的“独立观”与“整合观”

说话者的嗓音包含了语言学和副语言学等方面的多重信息。先前研究对嗓音中多重信息的加工持有两种不同的观点，即“独立观”和“整合观”。

“独立观”认为，听话者对说话者嗓音中语言学信息和副语言学信息的加工是相互独立的（Halle，1985； Licklider，1952； Laver ＆ Trudgill，1979）。早期的临床研究发现，感觉性失语症（receptive aphasia）患者虽然能识别说话者的身份，但其语言理解能力受损（Assal，Aubert，＆ Buttet，1981）；声音失认症（phonagnosia）患者则相反，可以理解语言内容，但不能识别说话者的身份（Garrido et al.，2009； Van Lancker，Kreiman，＆ Cummings，1989）。这种嗓音身份识别和语言理解的功能分离为独立观提供了有力的证据。近年的一些脑机制研究发现，嗓音中的身份信息偏向于在右前颞上回加工，情绪信息偏向于在右颞叶和右侧下前额叶皮层加工，语言学信息偏向于在左颞上回加工（Belin，Fecteau，＆ Bedard，2004； Feng，Gan，Wang，Wong，＆ Chandrasekaran，2017； McGettigan ＆Scott，2012； Seydell-Greenwald，Chambers，Ferrara，＆ Newport，2020）。这些结果说明，不同信息加工的神经基础可能是分离的，为“独立观”提供了脑机制方面的证据。

与“独立观”不同，“整合观”认为，听话者对说话者嗓音中语言学信息和副语言学信息的加工是相互作用的。一方面，语言学信息影响副语言学信息，尤其是身份信息的加工。“语言熟悉效应”（Language Familarity Effect，LFE）是这方面很好的研究证据。这一效应指的是，相比不熟悉语言的说话者，听话者能更好地识别出熟悉语言说话者的身份信息。先前已有许多研究证实了这一效应（Thompson，1987；Perrachione，Del Tufo，＆ Gabrieli，2011）。另一方面，副语言学信息，尤其是身份信息，也会反过来影响语言学信息的加工。先前研究发现的“单一嗓音优势效应”为这一方面的影响提供了证据。这一效应指的是，在词汇识别任务中，相较不同说话者所说的词汇，听话者能更准确地识别同一说话者所说的词汇（Craik ＆ Kirsner 1974； Goldinger，1996）。除此以外，还有一些脑机制研究也支持了这一观点。这些研究认为，语言学信息和副语言学信息加工的神经基础是整合的（例如，双侧颞上回）（Kreitewolf，Gaudrain，＆ Von Kriegstein，2014； Perrachione，Pierrehumbert，＆ Wong，2009； Zhang et al.，2016）。

虽然“独立观”和“整合观”都得到了先前多方面实验证据的支持，但近年来随着研究的进一步发展，研究者还是更多地支持“整合观”的观点，尤其关注语言学信息和副语言学信息之间的相互作用。

3 语言学信息与身份信息的相互作用

语言学信息与身份信息的相互作用是近年来的一个热点问题。研究者主要从两个角度对这一问题进行探讨，一是语言学信息如何影响身份信息的加工（即说话者身份的识别），二是身份信息如何影响语言学信息的加工。

3.1 语言学信息对身份信息加工的影响

在语言学信息影响身份信息加工方面，先前研究基于LFE （即对母语说话者身份的识别显著优于对陌生语言说话者身份的识别）做了许多探讨。早期关于这方面的研究主要验证了这一效应的普遍存在性。无论母语和陌生语言在语音上是有些相似的（例如，英语和德语，Winters，Levi，＆ Pisoni，2008；英语和荷兰语，Johnson et al.，2018）还是非常不同的（例如，英语和汉语，Perrachione et al.，2011；西班牙语和汉语，Perea et al.，2014），听话者都表现出了明显的LFE。此外，这一效应也存在于一语和二语中（Xie ＆ Myers，2015； Orena，Polka，＆Theodore，2019）。例如，英-韩双语被试对英语（一语）说话者身份的识别优于对韩语（二语）说话者身份的识别（Bregman ＆ Creel，2014）。在此基础上，研究者进一步利用这一效应探讨了语言学信息影响身份信息加工的机制。语言学信息实际上是非常丰富的，主要可以分为语音（phonological）和语义（semantic）两个层面（McLanguahlin et al.，2019）。那么，到底是哪个层面的语言学信息作用于身份信息的加工呢？

部分研究认为，语音层面的语言学信息（下文简称语音信息）能够促进身份信息的加工。Perrachione 等人（2011）通过比较诵读困难（dyslexic，加工母语的语音存在困难）组和控制组对母语（英语）和陌生语言（汉语）说话者身份的识别，发现控制组表现出了明显的LFE，而诵读困难组没有表现出LFE。另外，在识别母语的说话者身份时，控制组的表现优于诵读困难组，但在识别陌生语言的说话者身份时，两组没有显著差异。这一结果表明，母语的语音信息有助于识别母语说话者的身份信息。Fleming 等人（2014）采用了一种特殊的语音材料——倒播（time-reversed）句来考察听话者对说话者身份信息的识别。倒播句是在正常录制的句子（简称正播句）基础上进行翻转后生成的，仅保留正播句中的一些语音信息，例如平均基频和一些音位的镜像共振峰特征。实验结果发现，听话者识别母语倒播句的说话者身份优于识别陌生语言倒播句的说话者身份，说明母语倒播句仅保留的语音信息也有助于母语说话者身份信息的识别。对于普通的听话者来说，母语的语音信息是一种熟悉的语音信息。这种熟悉的语音信息对身份信息加工的促进作用也在其它一些研究中得到进一步的验证。例如来自婴儿的研究发现，虽然婴儿还不能理解母语语音的意义，但是他们在识别说话者的身份时同样也表现出了LFE（Johnson，Westrek，Nazzi，＆ Culter，2011；Fecher ＆ Johnson，2019）。另外还有研究发现，当听话者对陌生语言的语音变得熟悉时，即使不能理解陌生语言的语义，也能提升对陌生语言说话者身份的识别（Orena，Theodore，＆ Polka，2015）。

另有部分研究认为，语义层面的语言学信息（以下简称语义信息）能够促进身份信息的加工。Perrachione 和 Wong（2007）比较了英语训练前后，中英双语者对汉语（一语）和英语（二语）说话者身份信息的识别。结果显示，在训练前，双语者对说话者身份信息的识别表现出了明显的LFE。但在训练后，双语者对汉语和英语说话者身份信息的识别是相似的。这一结果说明，二语语义信息的习得有助于双语者对二语说话者身份信息的识别。Perrachione，Dougherty，McLaughlin 和 Lember（2015）在实验中发现，听话者对正播句表现出了LFE，但对倒播句并没有表现出 LFE。他们认为，Fleming 等人（2014）研究中使用的倒播句只保留了嗓音的物理声学信息，并没有保留语音信息。根据他们对倒播句的解释，这一结果反映了母语正播句中的语义信息对母语说话者身份信息加工的促进作用。除了基于LFE 的研究外，Goggin，Thompson，Strube 和 Simental（1991）的早期研究还发现了语篇中的语义信息对说话者身份信息识别的作用。

Perrachione（2019）近来提出“语音熟悉假说”（phonetic familiarity hypothesis）和“语言学加工假说”（linguistic processing hypothesis）来解释语言学信息在身份信息识别中的作用。“语音熟悉假说”认为，熟悉的语音信息有助于识别说话者的身份信息。“语言学加工假说”则强调在语音信息基础上，语义信息对说话者身份信息识别的作用。虽然这两个假说都有相关研究证据的支持，但语音信息和语义信息对身份信息加工的影响仍是一个具有争议的问题。不同研究在实验任务和材料上的差异都有可能影响语言学信息在身份信息加工中的作用机制（Levi，2018）。

在实验任务方面，先前研究主要使用了嗓音序列（voice line-up）（Goggin et al.，1999； Johnson，Bruggeman，＆ Cutler，2018； Philippon，Cherryman，Bull，＆ Vrij，2007）、嗓音辨认（voice identification）（Orena et al.，2015； Perrachione et al.，2015； Zarate，Tian，Woods，＆ Poeppel，2015）和嗓音区分（voice discrimination）（e.g.，Levi ＆Schwartz，2013； Neuhoff，Schott，Kropf，＆Neuhoff，2014； Winters et al.，2008）等多种任务。嗓音序列任务要求实验参与者先听一个目标嗓音，然后从一系列语音刺激中选出和目标嗓音身份一致的语音刺激。嗓音辨认任务要求实验参与者先通过语音刺激学习多个说话者的嗓音身份，然后再进行测试，判断每个语音刺激的嗓音身份。嗓音区分任务要求实验参与者先听两个语音刺激，然后判断这两个语音刺激是否来自同一个说话者。从这些任务的具体要求可以看出，它们对于记忆和认知负荷可能有不同的要求。嗓音区分任务基本只需要利用短时记忆，对两个语音的嗓音特征进行比较。嗓音序列任务需要长时记忆记住目标嗓音，再提取目标嗓音的特征，并对多个语音的嗓音特征进行比较。嗓音辨认任务需要长时记忆记住目标嗓音及其相对应的身份（标签），再提取不同语音的嗓音身份。可是研究者在不同的实验任务中都是既有发现LFE 的，也有未发现 LFE 的（Levi，2018）。由此来看，实验任务可能和其他因素一起共同作用于语言学信息对身份信息的加工。

在实验材料方面，先前研究使用的语音材料在语音相似性、涉及的语言水平和实验操纵上有所不同。对于语音相似（例如上文提到的英语和德语，Winters et al.，2008）和语音不相似的两种语言的语音材料（例如上文提到的英语和汉语，Perrachione et al.，2011），先前研究都发现了 LFE （Winters et al.，2008； Perrachione et al.，2011）。可见，两种语言的语音相似性可能不是影响LFE 的主要原因。不同语言水平的语音材料有词语（Zarate et al.，2015； Levi ＆ Schwartz，2013）、句子（Fecher ＆Johnson，2018； Perrachione ＆ Wong，2007）和语篇（Goggin et al.，1991； Neuhoff et al.，2014）。这些不同水平的语音材料在语言学信息的丰富性上存在差异（语篇＞句子＞词语）。但是，先前研究在不同水平的语音材料中既有发现LFE 的，也有未发现LFE 的（Levi，2018）。进一步的分析发现，这些研究所使用的实验任务也有所不同。因此，语言学信息的丰富性可能和实验任务一起共同作用于语言学信息对身份信息的加工。另外对于不同操纵的语音材料，先前研究除了使用普通材料外，还使用了符合拼读规则的无意义词语／音节（Levi ＆ Schwartz，2013；Zarate et al.，2015）和倒播句（Fleming et al.，2014； Perrachione et al.，2015）等特殊材料，通过比较特殊材料和普通材料来探测语言学信息对身份信息的加工。但是，相关的研究结果也不一致，有些研究在无意义词语／音节或倒播句上发现了LFE，有些研究却没有（Levi，2018）。通过分析相关的研究发现，不同的研究在实验任务上也存在差异。这也提示，不同操纵的语音材料也可能和实验任务一起共同调节语言学信息对身份信息的加工。

基于以上的分析，我们认为，语音和语义等不同层面的语言学信息均会影响身份信息的加工，但其在身份信息加工中的具体作用可能还受到实验任务和语音材料的共同调节。

3.2 身份信息对语言学信息加工的影响

早期研究发现的“单一嗓音优势效应”（Craik ＆Kirsner 1974； Goldinger，1996）是反映身份信息影响语言学信息加工的经典效应。这一效应主要体现了身份信息的一致性对口语词汇识别的积极影响，或者说，身份信息变化（identity variation）对口语词汇识别的消极影响。例如，多个说话者的语音材料可能会在一定程度上降低语音和／或语义对口语词汇识别的启动效应，或是阻碍口语词汇识别中语音和／或语义的通达（Creel ＆ Tumlin，2009； Lee ＆Zhang，2014，2017； Luce ＆ Lyons，1998）。但是，也有研究发现，身份信息变化的语音材料是有助于口语词汇识别乃至语音学习的。相比单一说话者，听话者在多个说话者的条件下识别口语词汇时，受到干扰词的影响更小（Creel，Aslin，＆ Tanenhaus，2008； Dufour ＆ Nguyen，2016）。当学习者基于语音-概念的联结学习语音时，相比单一说话者的条件，学习者在多个说话者的条件下受到干扰词的影响更小（Creel et al.，2008）。多个说话者的语音材料比单一说话者的语音材料更有助于学习者对陌生语言的言语感知甚至是言语产出（Thomson，2012；Thomson ＆ Derwing，2014）。可是除此以外，还有一些研究实际上并未发现身份信息变化对语言学信息加工，尤其是口语词汇识别中语义通达的明显影响（Kittredge，Davis，＆ Blumstein，2006； Schacter＆ Church，1992）。多个说话者的语音材料也未必会促进学习者对陌生语言的语音学习（Dong，Clayards，Brown，＆ Wonnacott，2019； Wiener，Chan，＆ Ito，2019）。

从这些研究来看，身份信息变化是否影响语言学信息的加工似乎是一个具有争议的问题。通过分析先前的研究发现，身份信息在口语词汇识别中的作用可能与研究范式所要求的加工深度有关。大部分相关的研究通常采用语音和语义两种启动范式。相比语义启动范式（例如，king-queen），语音启动范式（例如，queen-queen）对启动词和目标词的加工深度要求可能更浅。先前研究显示，当加工深度较浅时，身份信息的变化更可能发挥作用（Goldinger，1996； Lee ＆ Zhang，2017）。这也说明，身份信息可能更多地是与语音信息产生联结的。这似乎也解释了为什么多个说话者的语音材料反而有助于减少干扰词的影响（Creel et al.，2008）。在单一说话者条件下，语音之间的差异只在于语音信息，而在多个说话者条件下，语音之间的差异除了在于语音信息外，还在于身份信息。多个说话者比单一说话者的语音材料的差异更大，从而有助于口语词汇的识别和减少其他干扰词的影响。

对于语音学习，在单一说话者的语音材料下，学习者只需要通过单一说话者建立语音声学特征的表征。但在多个说话者的语音材料下，学习者可能需要通过一个说话者标准化（talker normalization）的过程来建立语音声学特征的表征（Nusbaum ＆ Magnuson，1997； Zhang ＆ Chen，2016）。这个说话者标准化的过程可能会使得学习者的语音学习能够更加一般化（generalization），从而对语音学习表现出促进作用（Creel et al.，2008； Thomson，2012；Thomson ＆ Derwing，2014）。另外，身份信息变化对语音学习的影响可能还与学习的具体内容有关。例如，多个说话者的语音材料可能促进汉语普通话1 声（阴平）的学习，但对汉语普通话其它声调的学习没有明显的促进作用（Wiener et al.，2019）。

身份信息除了在一致性上存在差别之外，在熟悉性上也存在差别。身份信息的熟悉性首先会影响其本身的加工机制（Kreiman ＆ Sidtis，2011；Stevenage，2018； van Lancker ＆ Kreiman，1987）。例如，熟悉嗓音的加工可能更多地在右颞上沟的前部，而不熟悉嗓音的加工可能更多地在右颞上沟的后部（Schall，Kiebel，Maess，＆ von Kriegstein，2015； von Kriegstein，Eger，Kleinschmidt，＆ Giraud，2003）。除此之外，身份信息的熟悉性也会影响语言学信息的加工。许多研究表明，熟悉的嗓音能够促进言语理解（Domingo，Holmes，＆ Johnsrude，2019； Nygaard ＆ Pisoni，1998； Johnsrude et al.，2013）。例如，熟悉朋友或配偶的嗓音能够促进听话者对词语的复述（Domingo et al.，2019）。

另外，身份信息还有自己和他人的区别。先前研究发现，听话者对自己和他人嗓音的加工也是存在差异的（Pinheiro，Rezaii，Rauber，＆ Niznikiewicz，2016； Rosa，Lassonde，Pinard，Keenan，＆ Belin，2008）。听话者在听到嗓音后的100ms 内，即可分辨出自己和他人的嗓音，并且自己和他人嗓音所引发的 N1 波幅存在差异（Baess，Widmann，Roye，Schröger，＆ Jacobsen，2009； Ford et al.，2001）。近来有研究进一步显示，自己和他人的嗓音会影响听话者在不同阶段对词语的加工（Pinheiro et al.，2016）。在加工早期（N1 和 P2），自己说的中性词相比他人说的中性词，引发更大波幅的N1，自己说的积极词相比他人说的积极词，引发更大波幅的P2。在加工晚期（晚期正波，late positive potential，LPP），自己说的积极词和消极词都比他人说的积极词和消极词引发更大波幅的LPP。这一研究反映了自我和他人嗓音对语言学信息加工的影响。

综上，身份信息的一致性（单一说话者vs.多个说话者）、熟悉性（熟悉vs.不熟悉）以及自己还是他人的嗓音都会影响语言学信息的加工。

4 语言学信息与情绪信息的相互作用

嗓音与面孔相似，能够表达非语言（nonverbal）的情绪信息（例如，开心、生气、愤怒）。嗓音中的这种情绪信息通常在嗓音呈现后的200ms 即可被探测到，并且不同的情绪信息加工在200ms 左右就会表现出 P2 波幅的差异（黄贤军＆张伟欣，2014；Capilla，Belin，＆ Gross，2011； Jiang ＆ Pell，2015）。不同的情绪信息加工在脑机制上也存在差异（Grandjean，2020； Schirmer ＆ Adolphs，2017）。积极的情绪信息相比中性信息，在嗓音加工脑区（颞叶中部），尤其是右侧的相关脑区有更大的激活（Brück，Kreifelts，Kaza，Lotze，＆ Wildgruber，2011； Mothes-Lasch，Mentzel，Miltner，＆ Straube，2011）。不同情绪信息的加工在嗓音加工脑区、内侧前额叶皮质和颞上回后部等脑区也有着不同的脑激活模式（Klasen，Kenworthy，Mathiak，Kircher，＆Mathiak，2011；Peelen，Atkinson，＆ Vuilleumier，2010）。另外，情绪信息的两个维度——效价（valence）和唤醒（arousal）的加工在脑机制上也有所差异（Bestelmeyer，Kotz，＆ Belin，2017；Pinheiro，Barros，Dias，＆ Kotz，2017）。与效价维度相比，唤醒维度的加工主要在嗓音加工脑区有更大的激活。而与唤醒维度相比，效价维度的加工在除了双侧的一些嗓音加工脑区之外，还有海马，前、中扣带回，内侧眶额叶和额上回等脑区都有更大的激活（Bestelmeyer，Kotz，＆ Belin，2017）。

虽然与语言学信息和身份信息的研究相比，语言学信息和情绪信息的研究相对较少，但目前的研究证据基本表明，语言学信息和情绪信息的加工也是存在相互作用的（江爱世，陈煦海，杨玉芳，2009； Lin，Ding，＆ Zhang，2020； Pell，Jaywant，Monetta，＆ Kotz，2011）。例如，嗓音中单独的情绪信息加工会引发右半球正向的ERP 成分，但当情绪信息伴有语义信息变化时，引发的是全脑负向的ERP 成分（Paulmann ＆ Kotz，2008）。这一研究反映了语言学信息对情绪信息加工的影响。此外，也有研究发现，使用难过情绪说的中性词（语义上是中性的，例如桌子）比使用中性情绪说的中性词在其呈现后的200ms 左右会引发更大波幅的P2。听话者也会倾向于将使用难过情绪说的中性词评定为更消极（Schirmer，Chen，Ching，Tan，＆ Hong，2013）。还有研究提示，嗓音中的情绪信息会影响单词的识别（郑志伟，黄贤军，张钦，2013；郭晶晶，王敏帆，方丹，2019；Olano et al.，2020）。这些研究都说明了情绪信息，尤其是不同效价的情绪信息会影响语言学信息的加工。

5 小结与展望

听话者对说话者嗓音中语言学信息和副语言学信息（身份信息、情绪信息）的正确感知是维持良好人际沟通的重要基础。从目前的研究证据来看，这些信息的加工在脑机制上既有分离，也有整合。更重要的是，越来越多的研究证据表明，当听话者在加工说话者的嗓音时，说话者嗓音中的语言学信息与身份信息、语言学信息与情绪信息都存在着相互作用，这种相互作用我们可以用一个图来表示（见图1）。身份信息的加工会受到多方面语言学信息的影响，包括语音信息和语义信息；语言学信息的加工也会受到多方面身份信息的影响，包括身份信息的一致性、熟悉性以及自己和他人的嗓音。情绪信息的加工会受到语言学信息，尤其是语义信息的影响；语言学信息的加工也会受到不同效价情绪信息的影响。

图1 语言学信息与副语言学信息（身份信息、情绪信息）相互作用机制

虽然目前对于语言学信息和副语言学信息的相互作用已积累了大量的研究证据，但这其中大部分的证据主要来自行为层面的发现，主要揭示了语言学信息和副语言学信息相互作用的认知机制。而这种相互作用的神经生理机制和脑机制，还有待未来研究再做进一步的探究。此外，本文主要关注的是语言学信息和副语言学信息的相互作用。但实际上，不同的副语言学信息，即身份信息和情绪信息之间同样也可能存在相互作用（如图1 所示）。例如，听话者可以更好地加工熟悉的说话者嗓音中的情绪信息（愤怒和开心）（Stoop et al.，2020）。这也提示，听话者加工说话者嗓音的过程更可能是语言学信息、身份信息和情绪信息三者之间的交互作用。那么，这三种信息之间的交互作用机制究竟如何？实验任务和语音材料的不同是否会调节这三种信息的交互作用机制？这些都是未来研究需要进一步探讨的重要问题。最后，听话者存在个体差异，不同听话者对说话者嗓音中语言学信息和副语言学信息的加工，可能受到说话者自身多方面因素的影响，例如音高感知能力、认知控制能力和语言经验（Darcy，Mora，＆Daidone，2016； Theodore ＆ Flanagan，2020； Xie＆ Myers，2015； Yu et al.，2019）。未来研究还需进一步考虑，听话者的个体差异如何调节语言学信息和副语言学信息的交互作用机制。