θ 频段(4~8 Hz)的活动反映了汉语口语产生中音节信息的加工*
2020-10-20蒋宇宸张清芳
蒋宇宸 蔡 笑 张清芳
(中国人民大学心理学系,北京 100872)
1 引言
口语产生是指将思想通过发音器官进行表达的过程(张清芳,杨玉芳,2003b),通常经历概念化(conceptualization)、言语组织(formulation)以及发音运动(articulation)三个阶段。首先,讲话者需要在概念层面明确自己想要表达的内容,其次,对特定的概念信息进行组织并建立相应的发音运动程序,包括词条选择(lexical selection),词素音位编码(morphophonological encoding),音 韵 编 码(phonological encoding)以及语音编码(phonetic encoding)。最后,通过声带运动将发音目标以声音的形式输出(Levelt,Roelofs,&Meyer,1999;Roelofs,1997)。音韵编码阶段的加工单元是口语产生研究的争论焦点之一。
1.1 口语产生中音韵编码单元的跨语言差异
研究表明印欧语系中音素是音韵编码阶段首先被提取的加工单元。Dell (1986)发现在字母语言中发生的语误现象主要为音素遗漏或音素替换。采用内隐启动范式,研究者发现连续命名首音素相同的目标词(例如cible-cintre-cerf),其反应时快于首音素不同的条件,出现了首音素促进效应(Alario,Perre,Castel,&Ziegler,2007;Damian &Bowers,2003;Jacobs &Dell,2014;Meyer,1991)。采用形容词-名词命名任务,Damian 与Dumay (2007)发现被试命名首音素相同的词对(例如green goat)快于首音素不同的词对(例如green rug)。另外,利用图词干扰范式(Damian &Martin,1999)与掩蔽启动范式(Forster &Davis,1991;Schiller,2008),研究者都发现了首音素促进效应。
然而,研究表明汉语口语产生中的音韵编码单元是音节而非音素。汉语中的语误现象主要为音节交换错误(Chen,2000)。Chen,Chen 和Dell (2002)采用内隐启动范式,发现音节同质条件比音节异质条件的命名反应时更短,但音素同质条件与音素异质条件之间无显著差异。利用掩蔽启动范式(Chen,O’Seaghdha,&Chen,2016)和图词干扰范式(张清芳,杨玉芳,2005),研究者发现了相同模式的结果。岳源和张清芳(2015)结合图词干扰范式与不同的实验任务(即时命名,延时命名,延时命名与发音抑制相结合),发现音节促进效应发生在音韵编码阶段,并且该促进作用是一个稳定可靠的效应(Cohend
=0.85 >0.8) (Cohen,1988)。上述研究结果一致地表明音节是汉语口语词汇产生中音韵编码阶段最先被提取的单元。根据跨语言研究的不同结果,O’Seaghdha,Chen 和Chen (2010)提出了有关音韵编码的合适单元假说(proximate units principle)。合适编码单元(proximate units)指的是激活词汇词素之后首先被加工的音韵编码单元,最先选择的单元存在语言上的差异:印欧语系如英语或荷兰语中最先选择的单元是音素,而在汉语中则为音节。在印欧语系中,讲话者在选择音素后,结合节律信息进行音节化过程,从心理音节表中提取音节准备发音运动程序。汉语口语产生中讲话者在选择音节后进一步分解为音素或音段信息(音韵编码),准备发音运动程序(语音编码),最后进行发音,输出口语产生的结果(发音运动) (同见Roelofs,2015)。
音韵编码单元的跨语言差异与不同语言各自的特点密切相关。在汉语中,音节是受具体语言的语义和结构制约的最小自然发音单位,对口语产生具有重要意义(张清芳,2005)。一方面,汉语的音节数量远远低于其他字母语言(张清芳,杨玉芳,2005),另一方面,汉语的音节边界相对清晰,不存在字母语言中重新音节化的现象。因此,对汉语而言,更加经济高效的加工方式是将词条的音节信息储存在长时记忆中,并在音韵编码的早期进行直接提取。而在印欧语系中,音节的数量巨大,在发音过程中存在大量重新音节化的现象(Levelt et al.,1999),因此,讲话者在音韵编码阶段首先提取的加工单元是音素。
研究者采用事件相关电位(event-related potential,ERP)技术对该问题进行了研究。Qu,Damian 和Kazanina (2012)采用首音素重复范式(如首音素重复的“黄盒子”和首音素不重复的“绿盒子”),在图画呈现后的200~300 ms 之间发现了首音素重复效应,表明音素信息在音韵编码阶段也会被激活(同见Yu,Mo,&Mo,2014)。利用图图干扰范式和延迟图画命名任务,Wang,Wong,Wang 与Chen (2017)发现音节效应发生在目标图呈现后的200~400 ms (音韵编码)以及400~600 ms (语音编码);采用掩蔽启动范式,Zhang 和Damian (2019)发现在目标图呈现后的300~400 ms (音韵编码),音节相关条件诱发了更小的ERP 波幅。虽然ERP 能够区分不同实验效应的时间进程,但上述研究都忽视了口语产生过程中的神经振荡活动(neural oscillations)。传统的ERP 分析是对相同实验条件下的神经信号进行叠加平均(Rugg &Coles,1995)。然而,脑电信号在经过多次叠加后,会减弱甚至消除非相位锁定的神经振荡活动(Bidelman,2015)。本研究拟采用脑电时频分析探索汉语母语者音韵编码加工过程中神经振荡的特点,特别关注的是对应于音节和音素效应的神经振荡。
1.2 θ 频段(4~8 Hz)神经振荡与音节加工之间的关系
神经振荡被认为是大脑神经元的节律性反应,包括了delta (δ,<4 Hz),theta (θ,4~8 Hz),alpha (α,8~13 Hz),beta (β,13~30 Hz),gamma (γ,>30 Hz)等频段(Ward,2003)。研究表明神经振荡与个体的注意、记忆、决策等认知过程有着密切的联系(Fell&Axmacher,2011;Jensen,Kaiser,&Lachaux,2007;Klimesch,2012;Siegel,Donner,&Engel,2012)。人类的语言活动同样会引发特定频段的神经振荡(Giraud &Poeppel,2012;Lewis,Wang,&Bastiaansen,2015)。例如,当被试加工存在句法错误的材料时,大脑β 频段的神经振荡能量会显著降低(Bastiaansen,Magyari,&Hagoort,2009)。
针对语音信息加工的认知神经机制,不对称时间采样理论(asymmetric sampling in time,AST)提出大脑的听觉腹侧通路(颞上回STG—颞上沟STS—颞下沟ITS)将按照刺激的声学属性进一步分化成两条平行的加工通路,分别负责提取音节和音素水平的信息 (Poeppel,2003)。一段连续语流中所包含的音节信息在时程上的变化速率相对音素而言是比较缓慢的,而大脑低频的θ 活动则表征了对音节的加工(Doelling,Arnal,Ghitza,&Poeppel,2014;Howard &Poeppel,2012;Luo &Poppel,2007;Peelle,Gross,&Davis,2013)。虽然大脑神经元的放电频率和语音信号自身的音节变化频率不是简单的直接对应关系,但这仍然提示我们θ 频段的神经振荡活动与音节的加工紧密相关。
第一,大脑θ 活动的相位信息表征了对音节的追踪(Ghinst et al.,2016;Gross et al.,2013;Molinaro,Lizarazu,Lallier,Bourguignon,&Carreiras,2016)。在Pefkou,Arnal,Fontolan 和Giraud (2017)的实验中,研究者首先对人们自然状态下产生的实验材料(句子)音频进行包络分析,得到该声音信号中所包含的音节总数,再将其除以自身的总持续时间,计算出这段音频的音节速率,最后通过对材料进行时程上的压缩,以获得不同音节速率的实验刺激。进入正式实验后,主试在记录被试脑电信号的同时,向被试播放不同音节速率的句子。回归分析结果发现,个体的θ 相位一致性随着音节速率的升高而降低,也就是说,当句子的播放速度越快,被试越难追踪其中的音节信息时,大脑θ 活动的相位一致性就越差。此外,研究发现当被试接受连续的音节序列(syllable sequences)刺激时,θ 神经振荡的相位一致性会提高(Power,Mead,Barnes,&Goswami,2012)。
第二,大脑θ 活动的能量信息反映了对音节的识别。在一项跨语言的研究中,Peña 和 Melloni(2012)采用日语,西班牙语,意大利语三种不同语言的口语句子作为实验材料考察西班牙语母语者和意大利语母语者语言理解的动态过程。结果发现不管是哪种母语类型的被试,当听到正序播放的句子时,θ 频段神经振荡的能量显著高于逆序播放句子的条件。并且,当被试听非本国语的材料时,对比正序播放和逆序播放两种实验条件,θ 频段的能量活动表现出加工本国语言材料时相同的模式。正序播放和逆序播放的材料虽然保持了基本声学属性的高度一致,但倒放的材料会造成严重的语音扭曲(phonological distortions),导致个体无法理解材料的意义(Binder et al.,2000;Gross et al.,2013;Saur et al.,2010)。Peña 和Melloni (2012)指出,实验材料在时程上的反向破坏了各个单词原有的语音结构,造成个体难以切分单词的音节,从而使个体θ 频段的神经振荡活动变弱。在一项关于汉语的研究中,当研究者向被试播放音节刺激时,正放的条件相比于倒放的条件同样诱发了更强的θ 频段能量活动(Ding,Melloni,Zhang,Tian,&Poeppel,2015)。
综上,行为和ERP 研究均表明音节在汉语口语产生过程中扮演了重要角色,语言知觉或理解的研究表明θ 频段的神经活动与音节加工密切相关。目前尚未有研究考察汉语口语产生中的音节启动效应是否与特定频段的神经振荡活动相关,而脑电时频分析有助于我们更深入地了解汉语口语产生过程中对于音节的加工机制。本研究中我们采用掩蔽启动范式,操纵启动词和目标图名称之间的语音相关关系(音节相关-音节无关,音素相关-音素无关),要求被试完成图画命名任务,同时记录其脑电信号,最后对EEG 数据进行时频分析,考察音节效应和音素效应发生时的神经振荡。在掩蔽启动范式中,启动词的呈现时间非常短(50 ms 左右),被试对启动刺激的加工通常是阈下的,该范式排除了个体命名策略等无关因素对实验结果的影响(Chen et al.,2016;You,Zhang,&Verdonschot,2012)。由于θ频段和音节的加工存在密切联系(Ghinst et al.,2016;Gross et al.,2013;Power et al.,2012;Peña &Melloni,2012),我们预期会发现显著的音节启动效应,但不会发现显著的音素启动效应,相应地,θ频段的能量仅在音节相关和无关条件中会存在显著差异。
2 方法
2.1 被试
23 名大学生和研究生(11 名男生,平均年龄22岁)。所有被试均为右利手,无任何精神疾病病史,母语为汉语,讲标准普通话,视力或矫正视力正常。在参加实验之前被试阅读知情同意书并签字,实验之后获得一定报酬。
2.2 材料
64 幅由黑白线条组成的图片,选自张清芳和杨玉芳(2003a)建立的汉语图片库,其中用于正式实验的图片60 幅,练习试次图片4 幅。每张图片的名称为双音节名词,第一个字分别与4 种实验条件匹配。例如,图片名称为“鼻子” (/bi2zi5/),音节相关条件的启动字为“彼” (/bi3/),与图片名称音节完全相同但声调不同;音素相关条件的启动字为“柏”(/bai3/),与图片名称的首音素相同,声调不同。音节相关与音素相关的条件下启动词的词频(Cai &Brysbaert,2010)没有显著差异(t
=0.027,p
=0.978)。音节相关条件与音素相关条件的启动字在随机打乱后重新与图片进行匹配形成音节无关条件与音素无关条件。检查后,两种无关条件下的启动字与目标图名称之间不存在语音相关。4 种实验条件下启动词和图片名称之间不存在语义和正字法相关。2.3 设计
研究采用2×2×2 被试内设计,自变量包括相关类型(音节,音素)、相关条件(相关,无关)和重复次数(第一次,第二次)。每幅图片与4 种不同类型启动字匹配,因此每组测试中包括了240 个试次。每组测试重复两次,因此每个被试共完成480 个试次。每个被试在每组测试中的试次呈现顺序都是不同的,通过伪随机的方式呈现,保证相同的图片之间至少间隔5 个试次,图片名称首音素相同的试次不会连续出现。
2.4 实验仪器
E-prime 2.0 编写实验程序,PST SRBOX 反应盒,麦克风与计算机。实验图片均通过计算机呈现在屏幕中央,被试的反应通过反应盒连接的麦克风记录。实验材料的呈现和被试的反应时由电脑控制与收集。主试记录被试是否进行正确反应。采用国际通用10-20 系统的64 导脑电帽,NeuroScan 系统记录被试的脑电信号。
2.5 程序
实验分为3 个阶段,学习阶段、测试阶段和正式实验阶段。在学习阶段,屏幕中央会依次呈现每幅图片及其对应的名称2 s。主试告知被试接下来正式实验中会出现这些图片并要求被试记住图片的内容及其对应的名称。在测试阶段,呈现图片要求被试说出图片名称,当被试对所有图片都能正确命名时,方可进入正式实验。所有材料都是日常生活中常见的且命名一致性较高的图片,所有被试均能顺利完成对图片名称的学习。
正式实验中每个试次的流程如下(见图1):首先呈现500 ms 的注视点(“+”),然后是500 ms 的前掩蔽(@@),接着会呈现49 ms 的启动词,随后是20 ms的后掩蔽(@@),掩蔽消失后,屏幕中央会呈现目标图片。被试需要在2000 ms 内又快又准地对图片进行命名,做出反应的同时图片会立刻消失,间隔1000 ms后开始下一次测试。正式实验之前有4 次练习使被试熟悉实验任务。所有的图片刺激均标准化为统一大小,启动字为28 号宋体,掩蔽刺激(@@)为36 号宋体。完成对所有试次的命名需要100 分钟。
2.6 脑电记录与分析
图1 掩蔽启动范式实验流程
在线记录以左侧乳突作为参考电极,离线分析时重参考为双侧乳突。同时记录双眼的水平眼电(HEOG)和左眼的垂直眼电(VEOG)。电极与头皮之间的阻抗均小于5 kΩ,滤波带通为0.05~70 Hz,信号采样率为500 Hz。
预处理采用EEGLAB 工具包进行(Delorme &Makeig,2004)。首先,对于信号采集时与头部接触不良或已损坏的电极(数量未超过总电极数的5%),采用EEGLAB 中自带函数进行坏导替换,通过“球面插值算法” (spherical interpolation),利用被替换导联周围电极的数据,对信号重新估计后进行替换(Perrin,Pernier,Bertrand,&Echallier,1989;Pivik et al.,1993)。第二,对数据进行0.1~30 Hz 的滤波以及独立成分分析(independent component analysis,ICA)。ICA 基于盲源信号分离技术,基本思路是将多通道观察的信号按照统计独立的原则分解为若干成分(ICs)。ICA 对脑电信号中由于眨眼,肌肉运动引发的伪迹有较高的识别度(Makeig,Bell,Jung,&Sejnowski,1995)。眼电伪迹的判断标准为:成分排序靠前,成分的头部活动集中在前额区,能量活动随频率升高缓慢衰减,单试次能量大。肌电伪迹的判断标准为:成分的头部活动分散在外侧的局部地区,能量活动随频率升高而升高,单试次能量较大。按上述标准对每个成分依次进行检查,并结合EEGLAB 识别伪迹成分的插件ADJUST,对伪迹进行排除。第三,按图片出现前1000 ms 以及出现后1500 ms 对脑电信号进行分段,在排除波幅超过 ±100 μV 的试次以及肉眼确认后,将数据保存。
利用Fieldtrip 工具包对数据进行时频分析,采用小波变换的方法(Oostenveld,Fries,Maris,&Schoffelen,2011)。单试次总时长为2500 ms,时间分辨率为10 ms;分析频段范围为3~30 Hz,频率分辨率为1 Hz。小波周期以线性方式递增,最低频率处周期为3,最高频率处周期为8 (同样的标准见Li,Shao,Xia,&Xu,2019)。随后将不同周期的正弦小波与脑电时域信号进行卷积,进而获得不同频率范围内各个时间点脑电信号的神经振荡能量值(Goupillaud,Grossmann,&Morlet,1984)。分析过程中首先对单个试次的活动能量进行估计,再完成多试次之间的平均。以刺激出现前300~100 ms 作为基线,采用分贝量尺对能量活动进行校正:dB=10× log10 (基线后能量/基线平均能量)。简明起见,事件相关频谱扰动(event-related spectral perturbation,ERSP)呈现的频率范围为4~20 Hz。
根据电极点分布的空间位置,研究选取了6 个兴趣区(regions of interest,ROI)并对每个兴趣区内的神经振荡能量进行平均,分别为:左前区(F3,FC3,FC5),中前区(Fz,FCz,Cz),右前区(F4,FC4,FC6),左后区(P5,P3,PO3),中后区(CPz,Pz,POz)与右后区(P6,P4,PO4)。采用2(相关类型:音节,音素) × 2(相关条件:相关,无关) × 2(重复:第一次,第二次) × 6(兴趣区:左前,中前,右前,左后,中后,右后)重复测量方差分析,统计结果非球形性时利用Greenhouse-Geisser 法对p
值进行校正。在比较音节相关和无关条件,音素相关和无关条件的差异是否显著时,我们采用了基于簇的置换检验(cluster-based permutation test)对数据进行统计分析,该方法能够有效地对多重比较下的p
值进行校正(Maris &Oostenveld,2007)。进行置换检验的时间窗口为刺激出现后的600 ms,步长为10 ms,共6 个兴趣区,对感兴趣的每两个实验条件之间的数据(时间×频率×电极)进行重复测量t
检验,p
值小于0.05 且在时间和空间位置上邻近的数据点将被合并为同一个簇。随后,计算每个簇内t
值的和以确定簇水平(cluster level)的统计信息,通过蒙特卡洛法(Monte Carlo method)进行统计显著性检验,随机抽样的次数为1000 次。3 结果
3.1 行为结果
删除两个错误率大于10%以及两个反应时均值在3 个标准差之外的项目。删除设备未记录到的数据(2.5%)以及命名错误的数据(1.8%)。删除反应时小于200 ms 以及大于1500 ms 的数据,包含偏离平均值3 个标准差之外的数据在内,占总试次的2.3%。图2 所示为不同实验条件变化下命名反应时的均值和95%置信区间(confidence interval,CI)。
图2 不同条件下命名反应时
3.2 时频分析结果
一名被试由于信号伪迹过大未纳入后续分析。删除反应时小于 500 ms (5.1%),大于 1500 ms(1.0%)以及伪迹较大的试次(5.3%)。我们根据相关研究确定了 6 个连续的时间窗口:0~100 ms,100~200 ms,200~300 ms,300~400 ms,400~500 ms,500~600 ms (类似的窗口划分见Qu et al.,2012;Zhang &Damian,2019),每个时间窗口内θ 能量活动方差分析的结果见表1。
表1 以相关条件、相关类型、重复次数以及兴趣区为自变量θ 能量活动在0~600 ms 时间窗内的方差分析
针对音节效应和音素效应所进行的基于簇的置换检验结果显示,第一次重复时,右前兴趣区(F4,FC4,FC6)音节相关条件比音节无关条件在刺激出现后的270~460 ms 之间诱发了更低的θ 频段能量活动(p
=0.01,4~8 Hz);左前兴趣区(F3,FC3,FC5)音素相关条件比音素无关条件在刺激出现后的340~390 ms 诱发了更高的θ 频段能量活动(边缘显著,p
=0.052,4~8 Hz)。第二次重复时,各个兴趣区的音节效应,音素效应均不显著。在3~30 Hz 之间其他的频段(δ,α,β)的能量活动上,感兴趣的实验条件之间差异不显著(见表2)。图3a 与3b 分别呈现了不同重复次数下音节效应与音素效应的ERSP。4 讨论
本研究采用掩蔽启动范式考察了汉语口语产生中音节与音素的加工过程与θ 频段能量活动之间的关系。行为结果发现个体在音节相关条件下对图片的命名快于音节无关条件,而在音素相关条件下命名反应时慢于音素无关条件。脑电时频分析结果表明,在图片出现后的270~460 ms,θ 频段的能量活动在音节相关与音节无关条件之间差异显著,表现为音节相关条件下个体θ 频段的能量更低,音素相关条件与音素无关条件相比无显著差异。研究结果表明,汉语口语产生过程中,θ 频段的活动反映了个体对音节信息的加工。
表2 0~600 ms 之间各频段能量活动的音节效应与音素效应
图3 a FC4 点音节相关和无关条件的事件相关频谱扰动
图3 b FC3 点音素相关和无关条件的事件相关频谱扰动
在行为层面,与Zhang 和Wang (2014)的研究结果一致,由于试次重复带来的练习效应不仅总体降低了第二次命名的反应时,也使得实验关注的效应消失了。重要的是,在第一次命名时,本研究成功重复了以往利用内隐启动范式(Chen et al.,2002),图词干扰范式(岳源,张清芳,2015)以及掩蔽启动范式(Chen et al.,2016)发现的音节促进效应;同时,我们发现个体在音素相关条件下命名潜伏期更长,表现出音素抑制效应(Chen et al.,2016)。需要注意的是,在以往针对字母语言的研究中,呈现首音素相关的启动刺激会降低个体对目标刺激的命名反应时(Alario et al.,2007;Damian &Bowers,2003;Damian &Martin,1999;Forster &Davis,1991;Schiller,2008)。这提示我们字母语言和汉语的口语产生过程是不同的,具体而言,字母语言需要在音韵编码阶段通过加工刺激的重音、音素等信息确定其音节结构(Levelt et al.,1999);而汉语的音节数量少,音节边界清晰,不存在重新音节化的特点,这使得汉语母语者在音韵编码阶段可以直接提取刺激的音节信息(O’Seaghdha et al.,2010)。结合本研究的反应时结果来看,个体表现出的音节促进效应表明汉语口语产生中音节能够作为独立的信息表征单元,在音节相关条件下通过提前加工目标刺激的音节信息降低了命名反应时;而音素抑制效应很有可能是相同首音素的音节协同激活(co-activation)造成的竞争导致的。在音素相关条件下,由于启动刺激与目标刺激的首音素是相同的,部分重合的信息可能导致以该音素开头的音节都得到了激活,致使个体在提取目标词的音节信息时,受到了来自其他音节信息的干扰,延长了命名反应时(后文将结合θ 频段的神经振荡活动对音素抑制效应的竞争机制展开具体讨论)。类似的,在一项针对汉语的听觉词汇判断任务中,Sereno 和Lee (2015)同样发现了音素抑制效应。尽管如此,相比于音节促进效应而言,我们认为本研究的音素抑制效应是较为微弱的:个体在第二次测试时没有表现出显著的音节促进效应和音素抑制效应,但相关类型与相关条件的两因素交互作用依旧是显著的,个体在音节相关条件下命名反应时更快,而音素条件之间差异并不显著。这至少说明再次命名时,被试的行为表现更倾向于音节促进效应,而非音素抑制效应(见图2)。
在神经层面,我们发现θ 频段的神经振荡活动在相关类型与相关条件之间存在交互作用:音节相关条件相比于音节无关条件,个体θ 频段的能量更低。更重要的是,音节效应发生在刺激出现后大约270~460 ms,与以往图片命名ERP 研究中音节效应的时间窗口一致(Cai,Yin,&Zhang,2020;Dell’acqua et al.,2010;Wang et al.,2017;Yu et al.,2014;Zhu,Damian,&Zhang,2015)。根据元分析的结果(Indefrey &Levelt,2004),个体通常在看到图片之后的250 ms 进入音韵编码阶段,此时汉语母语者需要提取目标词的音节信息并为后续加工做准备。θ 频段的能量在音节相关条件下比无关条件下更低,这存在两种可能的解释。第一,音节重复导致相同音节所引起的能量活动下降。GrillSpector,Henson 和Martin (2006)指出,个体在加工重复的刺激时神经元活动会减弱,而这种去激活反应表现为神经振荡能量的降低。Gruber 和Müller (2002)在客体识别的任务中发现,在图片呈现后的220~350 ms,重复的刺激比非重复的刺激诱发了更低的γ 频段神经振荡能量。采用任务切换范式,研究者发现当被试完成的任务前后保持一致时(重复条件),相比不一致(非重复条件),β 与γ 的能量显著下降(Gruber,Giabbiconi,Trujillobarreto,&Müller,2006)。刺激的重复加工引起神经振荡能量减弱这一结果在面孔识别的研究中也得到了重复(Engell &Mccarthy,2014)。Brookes 等(2005)利用功能磁共振(functional magnetic resonance imaging,fMRI)的技术,发现由重复引起的神经振荡能量下降与皮层血氧依赖水平(blood oxygenation level dependent,BOLD)的衰减密切相关。本研究中,音节相关条件下启动词的音节与目标图名称首字的音节完全一致,这种语音上的相似性极有可能引起“重复效应”,造成θ 频段能量活动的降低。第二,两种条件下认知加工负荷的差异引起了能量的变化。来自工作记忆的研究证据表明,对于认知加工负荷较重的任务,神经元释放的能量相对较高,而认知加工负荷较轻的任务,神经元释放的能量则相对较低(Roux &Uhlhaas,2014)。在音节相关条件下,由于对目标图名称的音节信息进行了提前加工,当被试看到目标刺激并提取相应的音节进行音韵编码时,认知加工的负荷是相对较低的。相反,音节无关条件下,被试无法通过启动刺激直接提取目标图片的音节信息,认知加工负荷相对较高。因此,对比音节无关条件,θ 神经振荡活动的能量在音节相关条件下会更弱,这与行为反应时的模式一致:被试在音节相关条件下认知负荷更低,命名更快。
需要指出的是,在言语知觉过程中,研究者比较自然的语音材料和逆序播放的声音刺激时,他们发现了在自然的语音材料知觉过程中引发了更高的θ 频段能量活动,这与本研究发现的模式不一致。这是由于比较条件的不同引起的:Peña 和Melloni (2012)以及Ding 等(2015)的研究发现在言语知觉过程中,当被试听逆序播放的材料时,相比于正序播放的条件,θ 频段的活动能量更低。研究者认为逆序播放破坏了语言本身正常的语音结构,人们不能识别材料中的音节,相应皮层的神经元活动处于抑制状态,其神经振荡的能量相对较低。在正序播放材料的情况下,被试能够顺利地加工材料的音节信息,相应皮层的神经活动处于兴奋状态,其神经振荡的能量相对较高。我们研究中比较的是音节相关与无关,是两类兴奋状态下的比较,而言语知觉研究中比较的是兴奋状态和非兴奋状态,因此产生了不同的模式。
与音节效应相比,在340~390 ms 的时间窗内,我们发现了音素相关条件与音素无关的能量差异(边缘显著水平),表现为第一次重复时音素相关条件下θ 频段能量活动高于音素无关条件,其能量活动模式与音节相关条件下不同。当启动词和目标图名称存在音素相关时,二者享有相同的首音素(启动词:柏/bai3/,目标图:鼻子/bi2//zi5/),在加工过程中首音素的重叠激活了以该音素开头的所有音节(如:/ba/,/bang/等),对目标音节的产生造成了竞争,表现为θ 频段的能量活动在音素相关条件与音素无关条件对比时更强。这与Chen 等(2016)的发现一致,他们采用与本研究完全相同的实验设计和任务,发现音素相关与无关条件相比出现了微弱的抑制效应。
在汉语口语词汇产生中,音节效应θ 频段能量变化的时间早于音素效应,与已有研究中相关效应的时间进程一致,从能量变化的角度为“音节是音韵编码的合适单元”提供了证据。例如,Feng,Yue和Zhang (2019)采用图画-词汇干扰任务,操纵了干扰词与目标图名称之间的相关关系,发现音节相关效应出现在图画呈现后的320 ms 左右,音素相关效应在368 ms 左右,这两类效应均发生于音韵编码阶段。在Zhang 和Damian (2019)的研究中,除了发生在300~400 ms 的音节效应,研究者还探测到了音素效应:在目标图呈现后的500~600 ms,音素相关条件比音素无关条件诱发了更小的ERP 波幅。
虽然目前没有研究者利用脑电技术直接对比印欧语母语者音素效应与音节效应的时间进程,但研究者对于音节频率效应(syllable frequency effect)的研究也许能提供部分的证据。音节频率效应是指个体在语言产生过程中对使用频次较高的音节加工速度更快,反应时更短,该效应与音节水平的加工密切相关(Levelt et al.,1999)。利用ERP 反应锁时(response locked)的分析方法,Burki,Cheneval 和Laganaro (2015)发现音节频率效应出现在被试出声命名前的180~150 ms 之间,该时间窗正好对应口语产生的语音编码阶段。Dell’Acqua 等(2010)通过对比意大利母语者口语产生过程中的语义效应和语音效应,发现首音素重合引发的促进效应发生在刺激出现后的250~400 ms 之间,即音韵编码阶段(Indefrey &Levelt,2004)。以上的两个研究在脑电时间进程上为字母语言先加工音素后加工音节提供了间接证据。相比而言,我们发现的汉语口语词汇产生中能量变化上的先后关系为音节效应在前,音素效应在后。汉语和印欧语系中音节和音素的提取在时间进程上表现出完全相反的模式。上述对比表明不同的语言,音韵编码中首先提取的单元不同,与“合适单元假说”的跨语言假设一致(O’Seaghdha et al.,2010)。
音节相关条件缩短图画命名时间,引起θ 频段能量的减弱,而音素相关条件可能会延长图画命名时间,引起θ 频段能量的增强。本研究和言语知觉的结果都表明无论是语言理解任务还是语言产生任务,θ 频段的能量活动与音节的加工相关。尽管如此,研究中微弱的处于边缘显著水平的音素效应提示θ 频段的能量活动可能和语音加工相关。第二次重复时在反应时上音节和音素效应都消失,这与已有的研究一致(Chen et al.,2016),本研究的时频结果与反应时结果一致,表明人类的大脑能够迅速对加工过的刺激作出反应。下一步的研究中可以采用英语作为目标语言考察在行为结果上出现显著的音素效应时,θ 频段的能量活动是否在相关条件和无关条件下存在差异,进行跨语言之间的对比,深入考察θ 频段的能量活动的认知涵义。
需要注意的是,虽然传统的ERP 分析方法在时间进程上区分了音节和音素的加工顺序,但ERP的幅值在不同研究中表现出了完全相反的模式:与Zhang 和Damian (2019)的结果不同,Dell’Acqua 等(2010)发现语音相关条件比语音无关条件诱发了被试更大的ERP 波幅。与语义违反的“N400 效应”存在矛盾的实验结果类似(van Petten &Luka,2012),ERP 波形方向和波幅大小在实验间的不一致使研究者很难进一步解释语言加工的脑机制。即使ERP的结果表现出较高的跨实验一致性,由于差异波并不与特定的认知加工过程对应,我们仍然无法将条件之间不同的ERP 模式完全归因于口语产生过程中加工机制的不同。例如,在Wang 等(2017)的研究中,音节相关条件在刺激属性上重叠度相对较大(剪刀/jian3dao1/—键盘/jian4pan2/),音素相关条件在刺激属性上重叠度相对较小(西瓜/xi 1gua1/—信封/xin4feng1/),被试进行图片命名时,完全有可能在阈下水平探测到了不同实验条件之间重叠度的差异,因此音节相关条件与音节无关条件对比时差异更大,而音素相关条件与音素无关条件对比时差异更小,甚至消失。虽然本研究在实验条件的设置上与前人研究类似,但时频分析是对不同时间点,不同频率区间能量大小的计算,这一指标直接反映了不同活动速率的神经元激活/抑制情况(Cohen,2017)。对于本研究而言,我们没有发现3~30 Hz 区间内其他频段的能量活动在音节相关条件与音素相关条件之间存在显著差异,表明音节相关和音素相关两种条件之间存在的重叠度差异并没有混淆实验的主要结果。而且,相比音节无关条件,个体在音节相关条件下θ 频段的活动能量更低;但对音素而言,相关条件下θ 频段的活动能量有升高的趋势。这种实验条件之间相反的神经振荡模式反映的是个体在口语产生过程中对音节和音素的加工存在不同的认知神经机制。
综上,我们认为汉语口语产生中θ 频段的活动反映了对音节的加工,从频段能量变化的角度为音节是汉语口语词汇产生中音韵编码的单元提供了支持证据。我们的研究也表明人类的语言理解和语言产生过程在神经振荡上引发了相同的能量活动变化。未来还需结合不同的实验范式,进一步探索汉语口语产生中各个频段能量活动的认知意义。