语言理解中的语音预期效应研究进展*

2024-04-01南京师范大学徐晓东李桃慧

外语教学理论与实践 2024年1期

南京师范大学徐晓东李桃慧

提要：语言交流中,人们能在读到或听到句子的某些内容之前,就已经根据常识以及语境线索预测到了与之相关的语义、句法和语音信息。很多研究报告了稳定的语义和句法预期,但对语音预期是否存在争议较大。为此,本文综述了近十年来,心理语言学领域对语音预期效应的实验研究。文章介绍了母语和外语领域的语音预期研究,并探讨了语音预期的时间进程以及语音预期与语义预期的关系问题。文章分析了语音预期效应的解释机制及其潜在影响因素。

1. 引言

预期是个体利用现有经验对即将出现的事件产生预判的能力,广泛存在于日常生活中以帮助人们规避风险(Clark, 2013)。预期加工在人类的言语交际中同样发挥着重要作用。言语交际中的预期指的是当人们理解句子时,会在读到或听到某些内容之前,已经根据常识以及语境线索预先激活了与之相关的语言信息,这种预激活会发生在语言的语义、语音等各个层面(Pickering &Gambi, 2018)。例如,大多数英语母语者在听到“The day was breezy so the boy went outside to fly a”这个句子时,能够预测到潜在目标词“kite”的语义(flyable)、句法(noun)、语音(/kait/)等特征。因此,当他们之后听到“kite”一词时,便会因为已经提前激活的语言信息而降低加工难度,从而提高句子理解的效率。从这个角度来看,预期对于非母语者来说可能更为关键,因为预激活的语义、语音等信息能在某种程度上减轻外语交流过程中的认知负荷,从而降低外语理解的难度;外语句子理解之所以比母语句子理解更为困难,很可能是因为在外语语境下人们的预期效率更低(Ito &Pickering, 2021)。

在心理语言学领域,关于语义和句法的预期性研究已持续多年,并取得较为一致的结论(Altmann &Kamide, 1999;李琳等,2017;陈庆荣等,2010)。然而,语音预期问题近年才引起关注,且相关结论也不尽一致——一些实验发现存在语音预期效应,而另一些则未发现显著的效应(尤其是在外语语境下)。本文从母语和外语两个角度出发,回顾了近期利用事件相关电位(ERP)和眼动技术探究语音预期问题的研究进展,并从不同的理论视角对现有结果进行阐释,探析语音预期效应的本质,总结造成语音预期效应受限的潜在因素,并在此基础上提出语音预期问题未来的研究方向。

2. 母语中的语音预期研究

目前语音预期研究主要集中在母语方面,围绕着“语音预期是否存在”、“语音预期的时间进程”以及“语音预期与语义预期的对比”这三个关键问题展开。如表1所示,这些研究所得出的结果相当复杂。

表1. 母语中的语音预期研究

1) 是否存在语音预期?

对于是否存在语音预期这一问题,美国加州大学圣地亚哥分校的Delong 教授团队(Delong et al., 2005)率先利用英语中的冠词搭配规则进行了ERP实验。他们让英语母语者逐词阅读具有高预期度的句子(如“The day was breezy so the boy went outside to fly”),句尾关键短语分为符合预期(a kite)和不符合预期(an airplane)两种情况。ERP结果显示,冠词的可预期度与冠词所诱发的N400的大小呈负相关关系——冠词的可预期度越低,所诱发的N400越大(1)N400是一个与语义加工密切相关的ERP成分,在目标刺激出现后400毫秒左右最为明显。一般认为N400与语义信息的提取或整合的难度有关,难度越大,N400波幅越大。。由于冠词本身并不能区分语义,似乎有理由相信这一效应主要源自于冠词所搭配名词的语音特征。因此,该结果表明母语者可以预期语境中潜在目标词的语音信息,至少能预期名词开头的音素是元音还是辅音。这一结果引发了大量的跟踪研究,有的支持了这一结论(如Delong et al., (2012)中的青年人群体; Martin et al., 2013),有的则没有(如Delong et al., (2012)中的老年人群体;Nieuwland et al., 2018; Ito et al., 2017)。事实上,冠词处出现的N400效应除了难以重复外,其本身也并不一定是由名词语音信息的预激活所致。研究表明人们对经常出现的词组十分敏感,词组的频率越高加工处理的速度就越快,而这种频率效应不应简单地还原到构成词组的单个词上(Arnon &Snider, 2010)。因为常见的词组或固定搭配一般都会被储存在心理词典中,所以被试也许是根据语境预先激活了心理词典中相应的冠-名组合,而非预测到了名词的语音特征(Ito at el., 2016)。

鉴于使用冠词搭配规则来探究语音预期问题上的含糊性,相关违例范式(related anomaly paradigm)成为近几年来语音预期研究中的新方法。其操作方式是将句中具有高预期度的目标词(如“The student is going to the library to borrow abook”中的“book”)分别替换为与之语音相关的干扰词(hook)或无关词(sofa),以此观察被试在各个词汇上的不同ERP反应。语音干扰词与无关词均为不符合语境的词汇,所以当出现在句中时应诱发比目标词更强的N400效应。然而相关研究显示,目标词与语音干扰词均诱发了比无关词更小的N400反应(Delong et al., 2019; Ito et al., 2016)。此结果表明,由于目标词和语音干扰词的语音重叠,被预先激活的目标词的语音信息降低了语音干扰词出现时的加工难度。因此,母语句子理解过程中词汇的语音信息是可以被预期的。

2) 语音预期的时间进程

虽然ERP技术可以用于探测语音预期是否存在,但由于它的数据采集点一般位于目标词上,所以无法直接展示语音预期的时间进程。因此,有研究者(Ito et al., 2018)开始采用眼动视觉情境范式(visual world paradigm)来探究英语母语者“语音预期的时间进程”,因为在此范式下被试的眼睛注视轨迹能够完整地呈现其根据听力材料的内容而进行信息检索的全部过程。在实验中,被试一边听高预期度的句子,一边观看电脑屏幕上的图片,其中包括与句中目标词匹配的图、与语音干扰词匹配的图以及无关图。实验结果显示,被试在听到目标词前500毫秒左右便已经开始出现对语音干扰图的注视偏好。由于语音干扰图与语境无关,这表明目标词的语音信息在其出现之前的500毫秒左右已经被激活,并影响了被试的阅读。然而在相同范式下,Ito和Sakai(2021)却并未发现语音预期效应。这可能是因为在Ito和Sakai(2012)的实验中,目标词和语音干扰词的语音信息重叠度较低(例如“魚/sakana/”和“桜/sakura/”),不足以激发被试在语音干扰图上表现出注视偏好。

3) 语音预期与语义预期的对比

为了对语言预期机制有更加系统的认识,研究者分别采用ERP和眼动方法对语音预期和语义预期进行了对比研究。在ERP研究中,他们同时操纵了目标词的预期程度以及词语呈现的时间间隔(SOA: 长间隔700 ms vs. 短间隔500 ms),发现无论在长间隔还是短间隔条件下都存在语义预期效应,即语义干扰词所诱发的N400效应明显比无关词小;然而语音预期效应相对应的N400减弱现象只在长间隔且预期度极高(93.5%)的语境中才出现(Ito et al., 2016)。这说明语音预期比语义预期受到了更为严格的限制,不但需要更多的加工时间,而且对句子的预期度也有更高的要求。与ERP研究结果一致,采用眼动视觉情境范式的研究发现,在目标词出现之前,只有语义干扰图的注视比例明显比无关图高,语音干扰图与无关图的注视比例没有显著差异(Ito &Husband, 2017)。这说明语音预期效应的确不如语义预期效应强。后续研究进一步显示,语音预期与语义预期之间的强度差异不受句子结构的影响: 无论在对比焦点结构(not... but rather...)中,还是在带有插入语的修复结构(... uh I mean...)中,句子理解中的预期总是以语义驱动为主(Karimi et al., 2019)。然而,也有研究者对语音预期的局限性提出了质疑(Delong et al., 2019),由于在同样每秒呈现两个单词的速率下,语义干扰词与语音干扰词呈现出了相似的N400减弱现象,他们认为语音预期与语义预期遵循相似的时间进程,并没有受到额外的限制。导致这些不一致结果的原因,有待于进一步研究。

3. 外语中的语音预期研究

相较于母语语音预期研究,目前探究外语语音预期的研究不但数量极少,且仍停留在考察“非母语者是否可以进行语音预期”这一问题上。如表2所示,现有的实验研究均未能在外语语境下发现明显的语音预激活证据。

表2. 外语中的语音预期研究

1) 二语者是否可以进行语音预期?

在使用冠词搭配规则探究语音预期的研究中,语境中不符合预期的冠词并没有在英语二语者(母语为西班牙语)中诱发明显的N400效应(Martin et al., 2013)。这表明二语者并不能基于语境预激活词汇的语音信息,至少不能预测到名词开头的音素是元音还是辅音。为了探究阅读时间的影响,使用相关违例范式的研究设置了500 ms与700 ms两种间隔条件,结果发现这两种条件下英语二语者在语音干扰词和无关词上引发的N400波幅均没有差别(Ito et al., 2017a)。这表明即使在时间相对充足的情况下,非母语者仍然不能进行语音预期。

然而,上述两项研究存在一个共同问题——实验句中的关键词在语境中的预期度并不高(65%与61%),语音预期效应的缺失很可能与句子较低的预期度有关。为了验证这一假设,后续眼动研究(Ito et al., 2018)进一步提高了实验句的预期度(89%),以此观察英语二语者(母语为日语)的语音预期情况能否得到改善。然而结果显示,在目标词出现之前,二语者对语音干扰图和无关图的注视比例并没有明显差异。此结果进一步证实,即使句子预期度非常高,二语者也无法提前激活词汇的语音信息。另外,最近一项针对专业同声传译译员的眼动研究(Amos et al., 2022)同样没有发现外语语境下的语音预激活证据,说明即使是极高水平的二语者也无法预期语音信息。

2) 二语者无法预期语音信息的可能原因

目前来看,二语者无法预测语音信息的原因可能有两个。第一,二语者在进行语言预期的过程中受到了母语词汇表征的干扰。双语词汇通达理论中存在选择性加工和非选择性加工两种观点,其中非选择性加工观认为双语词汇的通达总是伴随着非目标语言的同步激活(Costa et al., 2000)。基于此,当人们根据外语语境预测目标词的语音信息时,可能会同时激活母语对应词的语音信息,母语语音信息的激活会延迟或阻碍外语语音信息的通达,从而减弱外语的语音预期效应(王芙蓉、王敏,2020)。然而这种解释也受到了质疑。在上述针对日-英双语者的实验中(Ito et al., 2018),除了设置有外语语音(英语)干扰图,还另外设置了母语语音(日语)干扰图。结果显示,被试并没有在母语语音干扰图上显示出注视偏好,即没有证据表明外语预期过程中母语的对应信息会被激活。

第二,母语与外语之间的差异阻碍了外语语音预期的进程。具体来说,如果外语中某些独特的语法特征是母语中缺失的,那么二语者由于受到资源限制的影响,在利用这些规则进行句子理解时就会比较困难(Bobb et al., 2015)。因此,上述冠词实验之所以没有在不符合预期的冠词处发现N400效应,很可能是因为西-英双语者对于英语中的冠词搭配规则并不敏感。

4. 语音预期效应的解释机制

虽然目前尚不存在语言预期的专有理论模型,但的确有研究者提出了语言预期加工机制,试图对语言预期加工的生成机制和过程进行阐释。其中有较大影响力的是基于联想的预期机制(prediction-by-association mechanism)以及基于产出的预期机制(prediction-by-production mechanism)。

1) 联想预期机制

基于联想的预期机制认为启动(priming)是预期过程中固有的一部分(Huettig, 2015; Kukona et al., 2011)。具体来说,当人们理解句子时,会自动激活与语境中各个词汇有所关联的信息,这种激活会扩散到语言知识的各个层面,从而形成对后文内容的预测。例如,当人们阅读到“The student is going to the library to borrow a”中的“library”时,会自动激活包括目标词“book”在内的一组相关概念。从联想预期机制的角度来看,语音信息的预激活是较难实现的。因为在可预期的语境中常见与目标词语义相关的词汇,却少有与目标词存在语音关联的词汇。虽然有眼动研究发现,当把语境中与目标词(如book)存在关联的词汇(library)单独提取出来作为听觉刺激时,被试仍然对语音干扰图(hook)表现出明显的兴趣,表明语音预期可以通过语境词汇的联想实现(Kukona, 2020);但是这种预期效应并不是直接通过语音启动实现的,而是必须经过语义联想的中介(library-book-hook)才能产生。这就解释了为何语音预期效应总是不如语义预期效应强。

2) 产出预期机制

基于产出的预期机制认为人们对句子内容的预测是通过语言产出系统完成的(Pickering &Garrod, 2013)。具体来说,人们在理解句子时会即时对目前可及的内容进行内隐的模仿(covert imitation),也就是把说话者输入的话语当作是自己输出的,然后再利用语言产出系统把未尽的话语根据自己的预测补充完整。在此过程中,理解者不仅会考虑整个语境传达的信息,还会同时考虑其他的非语言因素,比如与说话者共享的背景知识等。因此,对于可预测到的信息而言,产出预期是比联想预期更加准确的一种预期机制;但另一方面,产出预期也比联想预期更加消耗时间与资源。由于产出预期机制认为预期加工与语言产出一致,遵循先激活语义、再激活句法、最后激活语音信息的层次顺序(Levelt et al., 1999),所以当预期时间与认知资源不充分时,预期就会在其中一个阶段发生中断。而语音信息的预激活由于处在整个预期加工过程的最后阶段,尤其容易中断。这就解释了为何母语情境中语音预期效应不稳定(Delong et al., 2005; Nieuwland et al., 2018),外语情境中甚至无法发现语音的预期效应(Martin et al. 2013; Ito et al. 2018),以及为何语音预期比语义预期更容易受时间限制(Ito et al., 2016)。

目前,不少研究已经证实了语言产出系统在预测加工过程中的参与性(Mani &Huettig, 2012)。其中最直接的证据是当理解者在默读高预期度的句子时,若语言产出系统被其他任务所占用(如要求不断发出“嗒嗒嗒”的声音),便无法对不符合预期的词汇产生N400反应;但若没有语言产出任务,则会出现(Martin et al., 2018)。此结果强有力地说明了语言产出系统在预期加工中的必要性。然而,部分研究结果也与此不符。例如,Drake和Corley(2015)发现,在语言产出任务中,具有高预期度的语境并不能够促进对目标词语音相关项的命名,说明语言产出系统可能并没有参与预期加工。

虽然目前有大量研究关注联想预期与产出预期,但这些研究只分别针对其中一种加工机制开展探索。Pickering和Gambi(2018)认为人们的预期加工过程同时包括联想预期和产出预期,并基于此提出了一种双重加工预期模型: 预期由联想加工开始,这个过程是自动的,但效率较低;语言产出系统在联想的基础上继续进行预期,这个过程的效率更高,但因受到时间与资源的限制,并不能一直发挥作用。尽管这两种预期加工机制仍需进一步检验,它们的确为现有实验结果提供了相对合理的解释。

5. 影响语音预期的潜在因素

综合语音预期的实验结果以及语言预期理论机制的内容来看,相较于稳定的语义预期,语音预期的情况比较复杂,在同样情境下语音信息是否可以被预期尚存较大争议。具体来说,语音预期容易受到语境的限制程度、句子理解时间以及实验程序设置等诸多因素的制约。由于语言熟练度的干扰,外语语音预期比母语语音预期的难度更大。

1) 语境限制程度

研究发现在中、高预期度的语境中均存在对语义信息的预期,而稳定的语音预期效应只出现在预期度极高的语境中(Ito et al., 2016),这说明语音预期更加受到关键词所在语境的制约。从联想预期机制的解释来看,可预期的语境中往往存在个别与目标词语义相关的词汇,却不会有任何一个词汇能直接通过语音启动激活目标词的语音信息。这表明只有当理解者可以通过语境明确预测到特定的目标词是什么的时候,其语音特征才会被预激活。然而在日常生活中我们听到的大部分语句的预期度都是比较低的,除非在特殊语境中的个别词汇才具备较高的预期性(Luke &Christianson, 2016)。因此在日常的言语交际中,语音预期由于受到语境限制性的制约,发生的概率比较低。

2) 句子理解时间

在对Delong等(2005)进行的一系列重复实验中,只有将原实验中的词语时间间隔从500 ms调整为700 ms时发现了语音预期效应(Martin et al., 2013);相关违例实验也发现词语呈现的时间间隔会明显影响语音预期效应的强弱(Ito et al., 2016),这表明语音信息的预激活会受到处理时间的限制。究其原因,一方面是因为预期活动本身就高度依赖于时间因素: 语言刺激呈现速度越慢,语境的促进作用就越明显,预期加工进而就更容易产生(Wlotko &Federmeier, 2015);另一方面,此现象可以从产出预期机制的角度加以阐释。与联想预期的自动化与即时性不同,产出预期是一个需要耗费时间和资源的非必然过程。由于语音信息的预激活处于整个预期加工过程的最后一个环节,所以当句子理解时间不足以使语言产出系统完全发挥作用时,语音预期进程容易中断。

3) 实验程序设置

为了排除无关因素的干扰,心理语言学实验一般会对实验环境和实验材料进行严格的控制,其与自然条件下的阅读或聆听任务有较大差异,因此实验结果很有可能跟特定的测试环境有关。例如,使用冠词搭配规则探究“语音预期是否存在”的研究之所以难以取得一致结果,很可能就与各个实验中填充句的设置比例有关。在没有设置填充句的实验中,被试更容易意识到研究问题与冠词相关,所以对冠词是否符合预期变得非常敏感,从而预激活了名词的语音信息(Delong et al., 2005; Martin et al., 2013);而在填充句数量是实验句两倍的实验中,较多无关句分散了被试对关键句的注意,他们对不携带语义信息的冠词变得不再敏感,从而没有发现语音预期效应(Ito et al., 2017)。这说明某些方面的语音预期需要依赖特定的实验条件才能发生,这在自然语言环境下并不常见。

4) 语言熟练程度

对于二语者来说,除了上述因素之外,还另外受到语言熟练度的制约。即使是高水平二语者,其语言熟练度也难以达到母语水平,因此二语者通常需要花费更多时间和资源来激活语境中的词汇信息以获取句义(Ito &Pickering, 2021)。而任何语言预期均须建立在理解前文语境的基础之上,所以二语者在目标词预期的速度和准确度上均不如母语者。依照前文所述,目标词语音信息的预激活尤其依赖于时间因素以及目标词的预期度,因此二语者往往不能像母语者一样进行明确的语音预期。除了语言理解之外,二语产出也比母语产出更加耗时(Ivanova &Costa, 2008)。根据产出预期机制,如果语言产出系统受到时间制约,预期过程便不能顺利通达到语音层面,因此二语者很难成功预激活目标词的语音信息。

6. 总结与展望

*本文对采用ERP和眼动技术探究语音预期问题的实验研究进行了综述,发现母语者可以在句子理解过程中预激活潜在目标词的语音信息,但这种语音预期并非必然发生,而且发生的时间与强度也比语义预期更晚、更弱。这是因为语音预期更容易受到句子的预期度、句子理解时间以及实验程序设置等诸多因素的影响。二语者则因为母语迁移与语言熟练度的制约,受限程度更强,至今未发现支持外语语音预期效应的证据。而联想预期机制与产出预期机制可以为语音预期效应的这种受限性与复杂性提供相对合理的阐释。为了更加深刻地认识语音预期效应的本质,未来研究可以从以下几个方面进行拓展。

首先,促进语言预期理论的进一步发展。目前有关语音预期问题的研究主要停留在现象层面,比如探讨“是否存在语音预期”以及“语音预期何时开始”等,对其背后的认知机制的关注不够。未来应加强这方面的探讨。例如,在实验设置阶段就考虑联想预期机制的作用。在过往研究中,实验语境里往往存在与目标词有语义关联的词汇,却几乎没有与目标词语音相关的词汇,所以观察到语义预期效应比语音预期效应强很多的现象并不意外。通过操控语境词汇与目标词的语义关联和语音关联,未来研究不但可以考证联想机制在语言预期中发挥的作用,也可进一步验证产出预期理论中关于“先语义后语音”的假设,以此推动建立语言预期的理论模型。

第二,关注语音预期的超音段层面研究。目前,语音预期相关研究基本上只针对音段特征(segment)展开,而对声调、重音、语调等超音段特征(suprasegment)的预期情况关注甚少。超音段特征是语言理解中不容忽视的信息,和音段特征一样可以区分意义。比如汉语中,同样是音段/ma/,当其声调为阳平(妈)、阴平(麻)、上声(马)和去声(骂)时语义皆有不同。相关研究显示,声调信息在声调语言的口语词汇识别过程中甚至发挥着与音段信息同等重要的作用(Wang et al., 2017)。因此,今后的研究可以关注声调等超音段特征是否也能被预期,以及其与音段特征的预期机制有何异同。

第三,采用更适合研究预期问题的技术手段。现有的语音预期研究仍以ERP技术为主,然而由于ERP实验只采集关键词呈现之后所出现的处理效应,所以存在两个弊端: 一是其实验数据只能表明语音预期是否存在,无法显示语音信息预激活的时间进程;二是其无法回避“N400等ERP效应所反映的究竟是预期作用还是整合作用”的质疑。因此,未来研究应更多考虑采用诸如眼动视觉情境范式这样具备高生态效度的研究方法。视觉情景范式将接近日常生活的听觉刺激与生动的视觉情境跨通道结合,极大提高了实验的生态效度,其不仅能够区分预期效应和整合效应,还能够展示预期效应的时间进程。

最后,拓宽语言研究对象。目前探讨语音预期加工问题的研究几乎全部以英语为研究对象,这影响研究结论的推广。后续研究应拓宽语言范围,考察语音预期在不同语言中的表现。更为重要的是,即使不考虑语言的差异性,英语作为拼音文字的代表,并不适合用作语音预期研究的典型材料。一方面是因为在拼音文字中拼写(orthography)与语音的关联十分紧密,所以无法确认现有的实验结果究竟指向的是拼写预期效应还是语音预期效应。例如在相关违例范式中,目标词(如book)与语音干扰词(hook)不仅语音上重叠,字形也十分相似,所以无法确定所观察到的效应是由语音重叠或字形重叠造成的。从这个角度来看,汉语可能是探究语音预期更为适合的实验材料。汉语不仅可以避免字形相似的干扰,而且可以实现目标词与语音干扰词在语音上完全重叠(如“雨”和“羽”),因此能观察到更为纯粹的语音效应。