塞辅音范畴通达的时间进程：来自语境效应的证据 *

2020-06-12刘文理李芷溢王晓文周详

心理与行为研究 2020年2期

刘文理李芷溢王晓文周详

(1南开大学周恩来政府管理学院社会心理学系，天津300350)(2天津市应用社会科学实验教学示范中心，天津300350)

1 前言

音位在语言学中定义为能够区别意义的最小语音单位。语音学根据音位的发音特征或声学特征进一步将音位描写为由一组区别特征构成的范畴，由此“区别特征−音位范畴”构成了一个层级关系。人们感知音位时是否也存在从区别特征到音位范畴这样的加工层次呢？一些理论模型认为言语知觉包括声学特征分析、特征整合和音位范畴知觉几个阶段（Massaro, 1989; McClelland &Elman, 1986）。这些理论模型得到了一些实验证据的支持。利用选择性适应范式或语境范式，研究者发现言语知觉可能包括了听觉加工（auditory processing）和语音编码（phonetic coding）两个阶段，其中听觉加工阶段对各种声学特征进行分析，语音编码阶段负责音位范畴的通达（Garrison& Sawusch, 1986; Samuel, 1986; Samuel & Kat, 1996;Tartter & Eimas, 1975）。

尽管理论模型和实验证据都认为言语知觉存在听觉加工和音位范畴通达阶段，但较少有行为实验直接考察音位范畴通达的时间进程。只有少数研究考察了音位范畴知觉中语境效应的时间进程。在语境效应范式中，常用的语境刺激包括言语语境和非言语语境，言语语境主要考察语音信息激活对目标刺激识别的影响，对应语音加工阶段；非言语语境主要考察声学信息激活对目标刺激识别的影响，对应听觉加工阶段。Holt 和Lotto（2002）在两个实验中考察了言语语境效应的时间进程。一个实验的语境和目标刺激间的ISI（inter-stimulus interval）分别是50、100、150、200 和400 ms，语境刺激加工时长（从语境刺激呈现到目标刺激呈现的时间间隔）大于等于150 ms。实验结果发现，语境效应在50 ms-ISI 时就已出现，随着ISI 提高逐渐下降，但即使ISI 为400 ms，语境效应仍然显著。另一个实验的ISI 分别是25、50、100、175、275 和400 ms，语境刺激加工时长大于等于275 ms；实验结果发现，语境效应可延续至275 ms，只有400 ms-ISI 的语境效应不显著。Lotto，Sullivan 和Holt（2003）考察了非言语语境效应的时间进程。语境刺激和目标刺激间ISI 分别是25、50、100、175、275 和400 ms，语境刺激加工时长大于等于275 ms；结果发现，语境效应可延续至175 ms-ISI，275 ms 和400 ms 条件下的语境效应不显著。综上，言语和非言语语境效应在ISI 为25 ms 或50 ms 时出现，加上语境刺激时长，该效应可在刺激加工后150 ms 出现；非言语声音的语境效应可延续至175 ms-ISI，而言语声音的语境效应可延续至约300 ms-ISI。因而非言语声音的听觉加工效应延续的时间更短，言语声音的语音加工效应延续的时间更长。这些研究结果为音位范畴知觉中听觉加工和语音加工的时间进程提供了一些间接证据。

除行为实验之外，近年来脑机制研究也直接探讨了音位范畴知觉的时间进程。Chang 等（2010）记录了被试听一个合成的/ba/-/da/-/ga/刺激连续体时的局部场电位。结果发现110～150 ms 之间的皮层激活模式最有区分性，被试的神经反应模式与/ba/-/da/-/ga/连续体的范畴知觉模式具有非常好的对应。Khalighinejad，Cruzatto da Silva 和Mesgarani（2017）记录了被试听连续句子时的脑电信号，结果发现不同的音位范畴（塞音、擦音等）诱发了不同的脑电波形，其中90～150 ms 的脑电位能够最好地区分不同音位范畴。Brodbeck，Hong 和Simon（2018）记录了被试听连续句子时的脑磁图激活，结果发现音位范畴信息的通达发生于声音输入后114 ms 左右。综上，脑机制研究发现音位范畴通达约发生于刺激呈现后90～150 ms 的时段内。

综合行为实验和脑机制研究的结果，音位范畴通达的时间进程仍然缺乏一致的研究结论。行为实验仅仅为音位范畴通达的时间进程提供了一些间接证据，脑机制研究得出了音位范畴通达的时间范围。此外行为实验存在一些其它的局限，如，语境刺激的加工时长通常都超过了150 ms（Holt & Lotto, 2002; Lotto et al., 2003），但是脑机制研究发现音位范畴通达可能发生于150 ms 以内（Chang et al., 2010; Khalighinejad et al., 2017）。因而150 ms 以上的加工时间可能掩盖了音位范畴通达的时间进程。鉴于此，本研究将采用时长更短的语境刺激和更短的ISI，以语境效应范式直接考察塞辅音知觉中音位范畴通达的时间进程。塞辅音又称爆破音，发音时气流通路完全闭塞，闭塞后突然解除障碍发出噪音即为爆破音，是辅音中一种常见的类型。辅音感知实验经常以该类型辅音作为实验材料。

本研究的目标刺激是汉语塞辅音对比连续体/ta/-/ka/序列。该塞音对比连续体可通过变化第三共振峰（F3）的起始频率合成（Holt, 2005, 2006;Lotto & Kluender, 1998）。语境刺激主要是音节/ta/和/ka/的塞音段，不同于以往实验以完整音节作为语境刺激，塞音段时长更短，更适合考察塞辅音音位范畴知觉的时间进程。当前研究合成/ta/和/ka/时采用的共振峰过渡段时长为80 ms，该过渡段包含塞音/t/和/k/识别的主要线索（Li, Menon, &Allen, 2010），因此截取前80 ms 塞音段作为简短的语境刺激。除了以塞音段充当言语语境，另以塞音段的声学模拟音充当非言语语境，言语语境主要考察塞辅音知觉中语音加工阶段的时间进程，非言语语境考察塞辅音知觉中听觉加工阶段的时间进程。此外，实验也考察了完整的/ta/和/ka/音节及其声学模拟音所产生的语境效应，以与塞音段语境效应互相印证，因为以往实验主要以完整音节作为语境刺激，塞音段是否可以产生与音节类似的语境效应也值得探讨。

整个研究包括三个实验。实验1 考察非言语刺激的语境效应。非言语刺激激活对应于听觉加工阶段，如果该信息激活产生了语境效应，后面的实验将通过考察该语境效应的时间进程探讨塞音段听觉加工阶段的时间进程。实验2 考察言语刺激的语境效应，言语语境中的信息激活对应于语音加工阶段，如果该信息激活产生了语境效应，后面实验将通过考察该语境效应的时间进程探讨塞音段语音加工阶段的时间进程。实验3 通过变化语境和目标刺激之间的ISI，系统考察前两个实验中听觉和语音语境效应的时间进程，以揭示塞辅音知觉中音位范畴通达的时间进程。

2 实验1：非言语刺激的语境效应

实验1 的语境刺激是/ta/和/ka/塞音段的声学模拟音，以及/ta/和/ka/音节的声学模拟音，目标刺激是塞辅音/ta/-/ka/连续体，以考察塞音声学信息激活所产生的语境效应。实验1 和实验2 都选择100 ms作为语境刺激和目标刺激之间的时间间隔，加上塞音段80 ms 的时长，语境刺激的最短加工时间为180 ms，以往实验发现180 ms 时长条件下言语和非言语刺激的语境效应都显著（Holt & Lotto, 2002;Lotto et al., 2003）。

2.1 方法

2.1.1 被试

被试为22 名南开大学本科生（女生16 人），母语为汉语，平均年龄21.6 岁。被试视力或矫正视力正常，听力正常。实验后给予适量报酬。

2.1.2 刺激

语境刺激是/ta/和/ka/前80 ms 塞音段的声学模拟音，以及/ta/和/ka/音节的声学模拟音，分别以调频正弦波对塞音段和音节的共振峰轨迹进行模拟，对4 个共振峰的频率轨迹和强度都进行了模拟，构成塞音段模拟音和音节模拟音两种语境条件。目标刺激是由10 个刺激组成的/ta/–/ka/连续体，通过变化F3 起始频率由Klatt 合成器合成，刺激时长250 ms。F3 起始频率以100 Hz 为步长从1800 Hz 变化到2700 Hz 构成连续体上的10 个刺激。最初80 ms 共振峰过渡段之后，F3 频率达到2450 Hz 的稳态值。目标刺激其他声学参数完全相同。

将4 个语境刺激分别与/ta/-/ka/连续体上10 个目标音节进行拼接，共构成40 个刺激项目，塞音段模拟音和音节模拟音语境各有20 个刺激。拼接时语境刺激在前，中间有100 ms 的无声段，后跟目标刺激。

2.1.3 程序

每个被试都完成塞音段模拟音和音节模拟音语境两个实验条件，实验顺序在被试间进行了平衡。两个实验条件下的刺激呈现次数及实验程序完全一致。被试首先完成20 个练习项目。正式识别任务中，每个实验条件下20 个刺激，每个刺激呈现10 次以构成测试项目，被试识别目标刺激是/ta/还是/ka/。每个实验条件下的两种语境条件分别在两个block 里呈现，block 的呈现顺序在被试之间进行了平衡。声音刺激按随机顺序呈现，被试反应后间隔2 s 呈现下一个刺激。

2.2 结果分析

两种模拟音语境条件下被试在/ta/-/ka/连续体各个刺激上平均的/ka/反应比率见图1。从图中可见，目标辅音连续体的F3 起始频率效应明显，随着频率升高，被试/ka/反应比率快速下降，表现出范畴知觉模式；而塞音段和音节模拟音条件下/ta/和/ka/语境的识别曲线都没有明显的差别。首先对塞音段模拟音条件下的数据进行2（语境）×10（目标刺激）重复测量的方差分析，仅目标刺激主效应显著，F(9, 189)=71.05，p＜0.001，η=0.77；语境主效应以及语境和目标刺激之间的交互作用不显著。音节模拟音条件下2（语境）×10（目标刺激）重复测量的方差分析也表明仅目标刺激主效应显著，F(9, 189)=63.59，p＜0.001，η=0.75；语境主效应以及语境和目标刺激之间的交互作用不显著。

图 1 塞音段模拟音和音节模拟音条件下被试在/ta/-/ka/连续体各刺激上平均的/ka/反应百分比

2.3 讨论

实验1 结果分析表明音节和塞音段正弦波模拟音都没有表现出显著的语境效应，即包含/ta/和/ka/音节或塞音段所有突显声学特征的模拟音对目标刺激识别没有影响。以往实验表明，非言语声音充当语境时，被试识别目标刺激时可产生对比语境效应。如，纯音语境条件下，频率与/ta/的F3 起始频率相同的纯音语境导致被试有更多的/ka/反应，频率与/ka/的F3 起始频率相同的纯音语境导致被试有更多的/ta/反应，产生了对比语境效应（Holt, 2005, 2006; Lotto & Kluender, 1998）。但是当前模拟/ta/和/ka/音节或塞音段所有声学线索的非言语声音并没有产生显著的语境效应，一种可能的解释是包含所有声学线索的模拟音中F3 部分本身强度要弱于F1 和F2 部分，F3 线索的作用可能受到其它共振峰线索的抑制。因而相比呈现完整的声学线索，呈现单独的F3 线索反而更能产生相应的语境效应。由于塞音完整声学线索所产生的语境效应不显著，因此后面的实验没有对该效应的时间进程进行考察。实验2 采用言语刺激作为语境，以与实验1 相同的ISI 考察塞音段语音信息激活所产生的语境效应。

3 实验2：言语刺激的语境效应

实验2 的语境刺激是/ta/和/ka/塞音段，以及/ta/和/ka/音节，目标刺激同实验1，以考察塞音语音信息激活所产生的语境效应。语音信息激活对应于语音加工阶段，如果该语境效应显著，后面的实验将通过考察该语境效应的时间进程探讨塞音语音加工阶段的时间进程，即塞音范畴通达的时间进程。

3.1 方法

3.1.1 被试

被试为20 名南开大学本科生（女生15 人），母语为汉语，平均年龄21.2 岁。被试视力或矫正视力正常，听力正常。实验后给予适量报酬。

3.1.2 刺激

语境刺激包括音节语境和塞音段语境。音节语境是目标刺激连续体上两个端点刺激/ta/和/ka/，塞音段语境由两个端点刺激/ta/和/ka/的前80 ms 音段构成。目标刺激同实验1。将4 个语境刺激和/ta/-/ka/连续体上的10 个目标音节进行拼接，共构成40 个刺激项目，塞音段语境和音节语境各有20 个刺激。语境刺激和目标音节间ISI 为100 ms。

3.1.3 程序

每个被试完成塞音段和音节语境两个实验条件，实验顺序在被试间进行了平衡。每个实验条件下被试首先完成20 个项目的练习，之后进行200 个项目的正式测试。两个实验条件下的实验程序同实验1。

3.2 结果分析

塞音段语境和音节语境条件下被试在/ta/-/ka/连续体各个刺激上平均的/ka/反应比率见图2。从图中可见，塞音段和音节条件下/ta/和/ka/语境的识别曲线都存在明显的差异，表现出对比语境效应，即/ta/语境下，被试有更多的/ka/反应；/ka/语境下，被试有更多的/ta/反应。首先对塞音段语境条件下的数据进行了2（语境）×10（目标刺激）重复测量的方差分析。分析表明语境主效应显著，F(1, 19)=8.40，p＜0.01，η=0.31，/ka/的塞音段作为语境刺激时被试有更少的/ka/反应。目标刺激主效应显著，F(9,171)=143.35，p ＜0.001，η=0.88，随着刺激F3 起始频率提高，被试的/ka/反应比率快速下降。语境和目标刺激之间交互作用显著，F(9, 171)=15.80，p＜0.001，η=0.45。简单效应分析表明目标刺激5、6、7 语境效应显著，被试在/ka/语境下相比在/ta/语境下有更少的/ka/反应：刺激5，F(1, 19)=36.23，p＜0.001，η=0.66；刺激6，F(1, 19)=15.32，p=0.001，η=0.45；刺激7，F(1, 19)=34.45，p＜0.001，η=0.64。

图 2 塞音段语境和音节语境条件下被试在/ta/-/ka/连续体各刺激上平均的/ka/反应百分比

音节语境条件下2（语境）×10（目标刺激）重复测量的方差分析表明语境主效应显著，F(1,19)=10.44，p＜0.01，η=0.36，/ta/音节作为语境刺激时被试有更多的/ka/反应。目标刺激主效应显著，F(9, 171)=148.77，p＜0.001，η=0.89，随着刺激F3 起始频率提高，被试/ka/反应比率快速下降。语境和目标刺激之间交互作用显著，F(9, 171)=24.87，p＜0.001，η=0.40。简单效应分析表明目标刺激5、6、7 语境效应显著，被试在/ka/语境下相比在/ta/语境下有更少的/ka/反应：刺激5，F(1,19)=29.82，p＜0.001，η=0.61；刺激6，F(1,19)=26.34，p＜0.001，η=0.58；刺激7，F(1,19)=25.28，p＜0.001，η=0.57。

3.3 讨论

实验2 结果发现，塞音段语境和音节语境下被试都表现出对比语境效应：/ka/及其塞音段语境下，被试有更少的/ka/反应；而在/ta/及其塞音段语境下，被试有更多的/ka/反应，特别是目标刺激连续体中间的模糊刺激。相比连续体两端的清晰刺激，连续体中间的模糊刺激更容易受到语境刺激的影响，表现出语境效应，这与以往语境效应研究的结果一致（Holt & Lotto, 2002; Lotto & Kluender,1998; Lotto et al., 2003）。另外音节语境的结果也与早期英语研究一致，研究者认为对比语境效应主要发生在音位范畴加工阶段（Garrison & Sawusch,1986; Sawusch & Nusbaum, 1983），即语境刺激音位范畴激活对目标刺激识别产生了对比效应。塞音段语境产生了与音节语境相同的语境效应，塞音段语境加工时间为180 ms，这表明180 ms 时长条件下塞音段的音位范畴已经激活，并对目标刺激识别产生了与音节语境相同的对比语境效应。

实验2 的结果与实验1 存在明显的对比，实验1 塞音段声学模拟音没有表现出明显的语境效应，实验2 塞音段表现出显著的语境效应，表明180 ms 的加工时间内塞音段音位范畴已经通达，影响到目标刺激识别。因此实验3 以塞音段为语境刺激，采用更短的ISI，并逐渐变化ISI 时长，探讨塞音段音位范畴激活的时间进程，不再考察声学模拟音效应的时间进程。

4 实验3：塞音音位范畴通达的时间进程

实验3 语境刺激是/ta/和/ka/音节的塞音段，目标刺激同实验1 和2，ISI 以10 ms 为步长从20 ms增加到90 ms，构成8 个实验组，详细考察塞音音位范畴通达的时间进程。

4.1 方法

4.1.1 被试

被试是南开大学本科生或研究生，母语为汉语，各实验组被试情况如下：20 ms-ISI，22 名（男生10 人），平均年龄20.8 岁；30 ms-ISI，22 名（男生9 人），平均年龄21.2 岁；40 ms-ISI，20 名（男生10 人），平均年龄21.7 岁；50 ms-ISI，21 名（男生8 人），平均年龄20.6 岁；60 ms-ISI，22 名（男生8 人），平均年龄20.3 岁；70 ms-ISI，24 名（男生9 人），平均年龄21.9 岁；80 ms-ISI，20 名（男生6 人），平均年龄20.2 岁；90 ms-ISI，20 名（男生7 人），平均年龄20.5 岁。各组被试视力或矫正视力正常，听力正常。实验后给予适量报酬。

4.1.2 刺激

实验3 语境刺激是/ta/和/ka/前80 ms 塞音段，目标刺激是/ta/-/ka/连续体上的10 个刺激。

4.1.3 程序

实验程序同实验1 和2，每组被试完成/ta/和/ka/塞音段两种语境的测试，测试顺序在被试间进行了平衡。每个被试完成20 个项目的练习和200 个项目的正式测试。

4.2 结果分析

综合10 个目标刺激，各ISI 组被试在两种语境下平均的/ka/反应百分比见图3。从图3 可以看到，20 ms-ISI 和30 ms-ISI 条件下被试没有表现出明显的语境效应，/ta/和/ka/语境下被试的/ka/反应比率类似；从40 ms-ISI 开始，被试开始表现出语境效应。对各ISI 组数据分别进行2（语境）×10（目标刺激）重复测量的方差分析，分析结果见表1。结果分析发现20 ms-ISI 和30 ms-ISI 条件下塞音段语境没有表现出显著的语境效应；40 ms-ISI 和50 ms-ISI 条件下语境主效应不显著，但是语境和目标刺激存在显著的交互作用，中间一些模糊的目标刺激语境效应显著，表现出对比语境效应；60 ms-ISI 条件下语境主效应边缘显著。70 ms-ISI、80 ms-ISI 和90 ms-ISI 条件下语境主效应显著，连续体上更多刺激表现出对比语境效应。

图 3 被试在各ISI 组不同语境条件下平均的/ka/反应百分比

表1 各ISI 组方差分析结果

4.3 讨论

实验3 结果分析表明100 ms（20 ms-ISI）和110 ms（30 ms-ISI）加工时间内塞音音位范畴没有表现出明显的激活，塞音段语境对目标刺激识别没有影响，虽然20 ms-ISI 条件下语境和目标刺激交互作用显著，但仅在一个目标刺激上有边缘显著的差异。这个时间范围内塞音范畴的声学特征已经激活，从结果分析来看，声学特征激活对目标刺激识别没有特别明显的影响。这与实验1 声学模拟音的结果一致，再次表明塞音段声学特征的激活对于目标刺激识别没有显著的影响。120 ms（40 ms-ISI）和130 ms（50 ms-ISI）加工时间内中间的模糊刺激开始表现出显著的对比语境效应，效应模式与实验2 塞音段语境的结果一致，表明这个时间范围内塞音段音位范畴开始激活，并对目标刺激识别产生了影响。140 ms（60 ms-ISI）加工时间内语境主效应边缘显著，150～170 ms（70 ms-ISI～90 ms-ISI）加工时间内语境主效应显著，表明塞音音位范畴激活对目标刺激识别的影响更加明显。

5 总讨论

音位范畴知觉的过程一直是言语知觉领域研究者感兴趣的问题，以往研究者采用选择性适应任务或语境效应范式对此进行探讨，结果发现非言语刺激和言语刺激都可以影响到目标刺激识别，产生适应效应或语境效应，研究者由此推测音位范畴知觉存在早期对声学特征进行加工的听觉阶段和后期对音位范畴进行加工的语音阶段（Garrison & Sawusch, 1986; Samuel, 1986; Samuel &Kat, 1996）。以往研究缺乏对这些加工阶段时间进程的系统考察，所谓早期加工和后期加工阶段更多的是一种推测。少数研究考察了听觉语境和语音语境引起的语境效应的时间进程，但是因为语境加工时长通常超过了音位范畴通达的时间（Holt& Lotto, 2002; Lotto et al., 2003），难以为音位范畴通达的时间进程提供直接的证据。当前实验以塞−元音节前80 ms 塞音段为语境刺激，语境刺激和目标刺激的间隔从20 ms 开始，以10 ms 为步长逐渐增加到100 ms，即语境刺激加工时间从100 ms 逐渐增加到180 ms，对塞音范畴通达的时间进程进行了详细考察。实验结果发现100 ms 和110 ms 加工时间内塞音段感知处于听觉加工阶段，其作为语境刺激对目标刺激识别没有产生显著的影响。从120 ms 开始，塞音段作为语境开始对目标刺激的识别产生对比语境效应，一直到180 ms 加工时间内，塞音段的对比语境效应越来越明显。这表明塞音段的音位范畴在120 ms 左右开始激活，听者对塞音段的感知从听觉加工阶段过渡到语音加工阶段，塞音段音位范畴激活对目标刺激识别的影响越来越明显。当前研究不仅表明音段感知存在听觉加工阶段和语音加工阶段，且从行为实验的角度为塞辅音从听觉加工阶段过渡到语音加工阶段的时间进程提供了直接证据。

当前实验结果与脑机制研究的结果也有较好的对应。一些脑机制研究发现音位范畴通达约发生于刺激加工90～150 ms 时段内（Chang et al.,2010; Khalighinejad et al., 2017），另有研究发现音位范畴通达发生于声音进入耳朵后114 ms 左右（Brodbeck et al., 2018），这与当前行为实验发现的120 ms 左右有很好的对应，因而本研究行为实验的结果可以与脑机制研究的结果互相印证。

一些视觉范畴再认的研究表明视觉范畴通达发生于120 ms 以后（Contini, Wardle, & Carlson,2017; Wu, Crouzet, Thorpe, & Fabre-Thorpe, 2015）。这似乎表明视觉和听觉通道的加工以及范畴通达的过程存在类似之处。大量研究表明视觉加工存在层次性，从初级阶段的特征加工到高级阶段的形状识别，存在从低到高的多个加工层次。言语知觉研究也发现音位范畴通达存在初级听觉加工和后期语音加工阶段，脑机制的研究也支持这个结论（Liebenthal et al., 2010; Turkeltaub & Coslett,2010）：音位范畴在听觉皮层内的加工表现出层次性，颞横回对构成音位的各种声学特征进行早期分析；而颞上回的中前部或后部区域对更高层级的音位范畴信息敏感，对言语刺激表现出更强的激活。本研究进一步揭示了音位范畴知觉的时间进程，经过皮层下区域的加工和传导后，音位范畴中的声学特征首先在初级听觉皮层得以加工激活，这发生于110 ms 以内；之后次级听觉皮层负责音位范畴的激活和通达，这发生于120 ms 左右。这些时间进程的研究结果不仅为言语知觉存在不同的加工阶段提供了证据，更有助于揭示言语知觉的内在过程。

本研究所使用的音位范畴是塞辅音，其他音位范畴，特别是声学特征差别更大的元音范畴通达的时间进程也是值得探讨的问题。一些启动实验发现元音范畴声学特征的启动效应在刺激加工时长为50～100 ms 时最显著，语音特征的启动效应在加工时长为100～150 ms 时更显著（刘文理,周详, 乐国安, 2014; Wallace & Blumstein, 2009）。另有脑机制研究发现元音范畴的音位通达发生于刺激加工150 ms 以后（Bidelman, Moreno, & Alain,2013），这与辅音范畴通达的时间进程不完全一致。因此不同类型音位范畴通达的时间进程是否存在差异是将来研究的一个方向。