视听跨通道言语知觉的McGurk效应:证据与模型
2023-04-19洪珊瑚曾飚
洪珊瑚,曾飚
(1.泉州幼儿师范高等专科学校 外语旅游学院,福建 泉州 362000;2.英国南威尔士大学 心理系,庞特普里德 翠佛瑞 CF371DL)
视听言语知觉是指在面对面的言语交流过程中,将来自听觉和视觉感觉通道的信息有效地融合为统一、连贯和稳定,进而感知和识别语音信号的知觉[1]。比如,在嘈杂的餐厅里,听话人借助谈话对象的口唇、下巴或头部动作等视觉信息,获取对方讲话内容。但是,当听话人看到的视觉信息与听到的语音信息不相匹配时,可能导致听话人“误听”(auditory illusion),将说话人的语音信号感知为不同于视觉或听觉语音的第三语音。1976年,英国心理学家McGurk和MacDonald报告该现象,被称为“麦格克效应”(McGurk effect/ illusion)[2]。他们在实验中给被试呈现两种不一致的视频和音频语音组合刺激:一组是音频发出的音节为/ba/,视频唇部发音动作为/ga/;另一组的音频为/ga/,视频发音动作为/ba/。结果显示:前一种刺激组合,绝大多数被试听到的是音节/da/,不同于/ba/或/ga/,即“融合反应”(fusion);后一组中,多数被试听到的是/bagba/ 或 /gaba/ ,即“组合反应”(combination)。这一现象揭示了视觉信息对听觉言语感知的强烈影响,说明日常言语交流不仅仅是听觉现象,还是视听跨通道信息的整合加工。也就是说,出现McGurk效应,意味着发生视听整合,因而McGurk效应的发生率常用于评估视听整合强弱的指标。
1976年以后,McGurk效应广泛应用于多感觉通道言语知觉研究,作为探究视听言语整合机制的实验工具[3-4]。为理解和解释这一“误听”现象,本研究从证据与模型两大方面回顾McGurk效应47年研究中较为突出的实证成果,并对McGurk效应的未来研究提出建议。
一、证据
(一)行为证据
1.来自眼动技术的行为证据 关于影响McGurk效应的视觉线索,许多研究者通过使用眼动技术进行探究。Gurler 等发现,McGurk效应易感者注视嘴部的时间比注视其他区域的时间更长,且注视嘴部的时长与McGurk效应的发生率呈正相关[5],说明诱发McGurk效应的视觉线索与嘴部的动作信息(即唇读信息)相关。另有研究发现,如果被试在听觉噪音条件下增加对嘴部的注视时间,会导致McGurk 效应发生率的增加;反之,则会降低McGurk 效应的发生率[6]。最近一项眼动研究结果与以上研究相吻合[7]。另外,一项跨语言研究发现,英语母语者的McGurk效应发生率比日语母语者高,他们注视嘴部区域的时间比日语母语者更长[8],这结果进一步表明,影响McGurk效应的视觉信息可能来自嘴部区域。然而,嘴部区域可能不是唯一能引起McGurk效应的视野加工区域。Paré等研究通过操控注视点位置发现,无论是嘴部、眼睛,还是额头,只要注视点在脸部即可引发McGurk效应[9]。Wilson[10]和Luo[11]等的研究亦支持这一观点。由此可见,除嘴部外,其他面部位置如下巴、眼、眉、额,甚至颈部或整个头部的动作皆可能提供有效的视觉信息。对于导致McGurk效应的视觉区域研究间差异的原因可能与研究范式或分析方法不同有关,比如自由注视状态或控制注视点,以及是红外捕捉还是粘附人眼角膜的感应线圈[12];亦可能与兴趣区(region of interest)划分不同相关,比如嘴部、口鼻或整个脸部区域。此外,实验所采用的任务性质或范式亦可能影响McGurk效应的发生率,如在双重任务条件下,被试注视嘴部,甚至面部区域的时间比单一任务条件下的少,McGurk效应发生率更低[13]。
由此可见,McGurk效应的眼动研究不应仅关注嘴部区域的观察,而应扩大观察兴趣区,以进一步了解嘴部以外其他区域的视觉信息对其影响作用。后续的研究还应考虑任务性质和分析方法等问题,因为这些因素可能影响实验结果。总的来说,对刺激注视的时间和空间位置与 McGurk 效应发生率之间关系的解释有待未来研究提供更充分的证据。
2.来自语音识别任务的行为证据 (1)感知觉因素。该因素包括刺激的视听语音信号质量和特征及感知者个体特征等。语音信号的视觉和听觉质量是影响McGurk效应的重要因素之一。其一,刺激的听觉环境或听觉语音信号质量。McGurk效应在听觉音强低(40dB)比在音强高(70dB)的条件下表现得更加显著[14]。如果听觉信号加入噪音干扰,可能导致McGurk效应发生率的增加[7,15]。这说明在听觉信息质量被弱化的情况下听者会主动使用视觉信息弥补听觉信息的不足,因而不匹配的视觉信息会误导听者,使听者感知出与听觉信息不同的结果而引发McGurk效应。Ganesh 等研究发现,加入听觉噪音会增加“融合反应”[16],也证明在不利的听觉环境下,听者可能对感觉通道进行系统评估而作出对视觉信息的加权,导致McGurk效应发生率的增加。其二,刺激的视觉信息质量。研究表明,通过对刺激视觉信号进行技术处理,如降低视觉分辨率[7]、像素化处理[17]、马赛克处理[18]等以降低视觉清晰度,或者通过破坏刺激视频脸部质量,如切分面孔[19]、倒置面孔的嘴部[20]、倒置整个面孔[17]、删除嘴部区域[21]等以增加感知者对面部信息加工的难度,甚至通过降低视频播放速度或降低刺激视听呈现的同步性[22]等,这些操作会降低McGurk效应的发生率。然而,视觉信息的颜色变化[23]或听觉信息的音调和音高变化[24]几乎不对McGurk效应造成影响。
语音信号的社会属性也会影响McGurk效应。如语音信号为非母语口音时,被试可能更多地借助视觉信息进行语音识别,从而导致McGurk效应发生率的增加(母语口音33.63% vs.非母语口音44.03%[25])。一项跨语言研究发现,如果发音者使用非母语口音,尽管其面孔为感知者所熟悉,仍然需要感知者花费更长时间对语音作出识别,McGurk效应发生率更高[26];当刺激发音人的声音与性别不相匹配时,McGurk效应仍会发生[27]。这说明视觉信息的社会属性,如熟悉度、性别等,并不能抑制McGurk效应的发生。有趣的是,价值驱动下的视觉信息却可能影响McGurk效应[11]。这些研究结果表明,McGurk效应具有稳固性。
感知者的个体特征(包括视听感知觉、唇读以及视听整合等能力)亦可影响McGurk效应。听障患者或听觉退化者的听觉感知能力明显较差。当他们对不一致视听语音刺激作出反应时,更易受视觉信息影响而引发McGurk效应。比如,植入人工耳蜗(cochlear implantation,CI)的儿童感知McGurk效应的几率比同龄听力正常儿童更高[28];老年人的听觉普遍比视觉退化快,因而依赖视觉信息的程度比年轻人大,导致McGurk效应发生率更高[29-30]。相反地,弱视个体的McGurk效应发生率则低于正常视力者。不过,对弱视在5岁之前得到控制的儿童来说,其感知McGurk效应的程度接近正常儿童[31];使用单眼视觉者比使用双眼者的McGurk效应显著减弱[32]。最近一项研究发现,通过模糊视频讲话人的眼睛以迫使ASD儿童延长注视讲话人嘴部的时间,可以提高其McGurk效应的发生率[33],这说明个体对McGurk效应易感性(susceptibility to the McGurk effect,MGS)可能与从视觉信号中提取发音位置信息的能力,即与唇读能力相关[34]。接受8~13年专业音乐训练的音乐家,比没有受训的普通人更不易感知到McGurk效应[35],这可能受个体对某一感觉通道偏好的影响所致。以上这些证据说明McGurk效应受个体对视听信息依赖程度的调制。
视听整合能力也是个体感知特征之一,它指的是将所输入的视觉信息与听觉信息结合进行言语理解的能力。自闭症谱系障碍 (ASD) 儿童的McGurk效应发生率比发育正常儿童少[36],这可能因其视听整合能力存在缺陷所致。然而,有研究表明,ASD儿童的视听整合能力会随年龄增长而逐渐提高[37],至16岁时,他们的视听整合能力可接近正常水平[38]。
(2)非感知觉因素。影响McGurk效应的非感知觉因素包括认知、发展、语言和文化等。注意和心理预期属于认知因素。来自语音识别任务的行为证据表明听觉和视觉信息的早期整合发生在前注意阶段,当任务负荷不高时,视听整合可能自动发生[39];当任务负荷较重时,视听整合则涉及注意的参与,进而改变视听信息整合结果,影响McGurk效应。当感知者注意力受干扰时,McGurk效应的发生率减少[40],这显然是感知者未能集中注意力于视听信息加工而减少视觉信息的影响,导致“误听”机率降低;相反,通过引导ASD儿童将注意力集中于口眼部位,McGurk效应的发生率得到提高[33]。另有研究表明,一般性的注意分配即可影响McGurk效应[13]。Barutchu等用儿童日常注意力测验三分量表发现,与视空间注意和听觉持续注意相比,视听双重注意指数得高分的儿童感知到更强的McGurk效应,说明该效应不仅受注意分配的调制,而且可能与有效融合感官信息所需的注意类型相关[38]。
感知者对视听信息的心理预期亦可影响McGurk效应。感知者对刺激语音的本族或非本族面孔和口音的心理预期会影响视听语音识别,延长反应时,引发McGurk效应[26]。同样,实验指导语亦可能驱使感知者对“误听”有所预期,从而产生不同类型的McGurk效应。如Colin等[15]研究发现,McGurk效应在多项选择指导语下比在自由反应指导语下更加显著,而且“组合型”反应多于“融合型”反应。
此外,McGurk效应亦受发展因素的影响,这可能与感知者的唇读能力有关。经典McGurk效应实验(1976) 发现,成人被试受视觉信息影响明显高于学龄前儿童和小学生。另有研究表明,儿童(12 周岁前)的McGurk 效应发生率比成人低[41]。跨语言比较研究也得出相似结论,无论中国或英国被试,成人受视觉信息的影响比儿童(8~9岁)更大[42]。究其原因,可从该实验获得的结果得到解答——视觉效应与唇读能力呈显著正相关。然而,随年龄的增长,儿童使用视觉信息进行视听言语识别的频率会增加。Sekiyama等[43]研究发现,英、日两组6岁儿童受视觉信息的影响较弱,但6~8岁的英语母语儿童对视觉信息的使用随年龄的增长而增加。Barutchu等[37]发现,7~13岁儿童的McGurk效应发生率表现出发展的趋势。另有研究发现,6岁以上的日本CI深度聋儿感知McGurk效应的情况多于6岁以下的同类儿童[28],再次说明儿童视觉信息的使用呈发展趋势。然而,有研究显示,不同年龄段的中国儿童在自然听力环境下的视听单音节加工,感知McGurk效应的强弱程度非常接近[44],该结果似乎仅支持McGurk效应的稳固性,而没有支持前面3个研究所发现的发展趋势的结论。
最后,McGurk效应可能受语言和文化背景的影响。在跨语言的视听语音识别任务中,英语母语被试的McGurk效应发生率显著高于日语和汉语母语被试[45-46]。然而,Magnotti等在一次大样本量的实验中发现,中国(162人)和美国(145人)2组被试的McGurk效应虽然比率非常接近(48%和44%),但却存在巨大的个体差异(0%~100%)和刺激间差异 (15%~83 %)[47]。这是否说明,除个体和刺激因素外,其差异还与分析计算方法或实验的样本量相关?这些问题有待解答。
(二)脑神经科学证据
1. McGurk效应视听信息加工的空间位置 许多脑神经科学证据显示,McGurk效应视听整合的重要脑区位于颞上沟(the superior temporal sulcus,STS)[48-49]。另有结合EEG和fMRI技术的研究发现,与未能感知McGurk效应的被试相比,感知到McGurk效应的被试在STS脑区有更强的激活情况,不一致的视听信息输入在大脑后颞上沟(posterior STS)区域产生冲突并进行整合[50],这与早期的研究结果一致。另外,有研究证明,颞上皮层的激活与唇读相关[51],而唇读能力又与McGurk效应的发生率呈显著正相关[52],这似乎说明以上的脑神经科学证据与有关ASD人群的行为证据相吻合。然而,Bernstein等认为,STS区并非皮层激活的主要脑区,McGurk视听信息的整合加工涉及更加广阔的区域,即从左侧角回(AG)/缘上回(SMG)至颞中回(MTG)区域[53]。这显然需要今后的研究扩大脑区观察范围,以寻找更多证据支持。
另有研究认为,与McGurk效应相关的脑区是额下回(inferior frontal gyrus,IFG)或左额下沟(left inferior frontal sulcus,LIFS) ,可能与视听不一致冲突过程有关。Proverbial等的EEG研究发现,大脑右侧颞上回( STG )和额下回(IFG)区域都参与对McGurk刺激的加工[54]。早期的MEG实验证据表明,McGurk效应发生时,IFG区域的神经震荡增强[55]。近期的一项研究发现,发生McGurk效应时,IFG的激活程度比没有发生McGurk效应时更强[56]。另有类似发现,刺激在视听不一致条件下的IFG[48]或LIFS[57]区域激活程度比视听一致条件下更强烈。由此可见,额下皮层可能与McGurk效应不一致冲突过程有关,且在解决冲突过程中可能存在不同的激活模式。
老年人感知McGurk效应时,大脑功能激活模式与年轻人存在显著差异。年轻人在初级感觉皮层,即颞上回、钙裂及左中央后回,表现出比老年人更强的激活;老年人在额背区域(包括额中回和额上回)及顶叶背侧区域表现出比年轻人更强的激活[58]。这说明老年人在初级感觉皮层功能不足的情况下,可能更多地借助执行、注意及监测过程功能的脑区进行补偿性加工,反映McGurk效应神经基础的年龄差异。此外,老年人的McGurk效应受听觉阈值的调制,即McGurk效应的发生率随听觉阈值的下降而减少,这与其听觉和运动区域之间的功能连通性降低有关。Schulte等的“神经功能连接”实验发现,静息时,老年人的McGurk效应与运动和听觉区域间的功能耦合呈负相关,背侧注意网络与感觉运动及初级运动皮层间、凸显性网络与视觉皮层间的神经功能连通性,均随老年人的听力下降而降低[30],这从另一个角度反映了老龄化引起的听力损失者感知McGurk效应的神经机制。这种“功能连接”的分析方法为该领域的未来研究开启了一个全新的视角。
2.McGurk效应视听信息加工的时间过程 McGurk效应的视听信息加工过程并非一蹴而就,而是分阶段进行的[59-60]。首先,视听整合可能发生在大脑加工刺激的早期阶段。Calvert等使用fMRI研究发现,视听整合发生在神经通道早期的前词汇阶段[61]。Bernstein等[53]使用EEG研究发现,视听整合加工的早期时间为<100 ms,表现在缘上回、角回、额下回和背外侧前额叶皮层(dorsolateral prefrontal cortex)区域同时激活的反应过程;在160~220 ms时,大脑左侧缘上回和角回区域又有突发性激活现象,晚期的激活是否可以被视为与不一致信息冲突的解决过程相关,仍有待进一步考证。有研究表明,视听整合发生的最早阶段在听觉成分P50和M50上[62]。Beauchamp等[49]在使用TMS干扰STS脑区的激活时发现,TMS的干扰作用只限于听觉信息启动(onset)前100 ms和启动后(offset)100 ms这个狭小的时间窗口有效。在EEG研究中,N1成分主要由早期的听觉刺激加工造成的,是事件相关电位(ERP)的第一负波。Alsius等在单一任务中观察到,早期听觉成分N1和P2在视听刺激条件下达到峰值的时间早于纯听条件[63];另一项EEG研究发现,N1波幅在发生McGurk 效应时比在没有发生McGurk效应时更小[64],这些均说明早期阶段视觉信息对听觉加工的抑制作用。
大脑对视听不一致冲突的处理可能发生在视听整合启动后的较晚阶段。Kaiser等[55]研究发现,代表加工晚期的Gamma频段活动在左额下皮层区域达到峰值的时间为320 ms,说明视听不一致信息冲突和处理可能发生在此阶段。Lange等[65]研究发现,与视听一致刺激相比,视听不一致刺激的Beta频段在刺激呈现后的500至800 ms显示出更强的抑制,提示可能发生视听不一致冲突,且大脑正在尝试解决。由此可见,视听不一致冲突的解决过程可能发生在视听加工的晚期阶段。
综上,McGurk 效应视听信息加工的脑区与颞上皮层和额下皮层有关,其视听信息加工过程的空间位置可能涉及更广,加工的时间过程可分为早期的视听整合过程和晚期的视听不一致冲突处理过程。这2个加工阶段是个连续体还是相对独立的?目前还未能提供有力的证据。未来研究,一方面可扩大脑区激活的观察范围,以进一步评估除STS和IFG脑区外的其他视听加工涉及的脑区在McGurk效应中的作用;另一方面可采用诸如Schulte等(2020)使用的“神经功能连接”分析方法,以进一步考察视听信息加工的动态过程,加深对该效应认知神经机制的理解。
二、模型
(一)早期理论模型
早期听觉理论认为,言语感知是分析听到语音刺激特征,并将之与储存于大脑的刺激模板进行匹配,若匹配成功,意味着成功地感知刺激[66]。言语感知运动理论(the Motor Theory of Speech Perception)则认为,语音感知具有生理基础,感知的对象是具有口唇、舌、下巴运动等物理特征的 “发音动作”[67]。这种表征在感知者大脑中的 “发音动作” 可被视为一种相对稳定的运动指令(invariant motor commands),这些运动指令通过与语言相关的机制,指示发音器官做动作。 该理论既描述了McGurk效应本身,又解释了涉及视听言语知觉的信息源[5],因而被许多研究者所接受,亦是后续研究的理论基础。
(二)新兴计算模型
1.模糊逻辑感知模型 (the Fuzzy Logical Model of Perception,FLMP) 该模型主张将听觉和视觉刺激结合起来,独立评估不同信息源,并以最优化方式对多个信息源进行整合[68],通过模糊识别矩阵,考察视听信息在言语感知的整合过程中解决加工效率问题。Massaro等对该模型提出4个假设[69]。其研究发现,听觉和视觉的信息源对听觉或视觉单通道及视听跨通道条件下的语音识别具有强烈的影响,听觉和视觉的加工效率在视听跨通道状态下不是累加的。换言之,当听觉信息源趋于中性或不明确时,视觉信息源对视听言语感知的影响最大,反之亦然。这个计算模型显然有助于人们了解言语感知单通道的信息来源和影响视听整合的信息源,并以评估参数解释视听整合过程。此外,Stein等[70]增加超级叠加、叠加和亚叠加3种视听信息的累加模式进行计算发现,当视听双通道信息都比较弱时,视听信息整合的收益最大。该模型的计算结果与神经科学证据相吻合,具有一定的可操作性和有效性,但存在不足的是,数据采集因耗时长而降低计算效率。
2.差异噪声编码模型 (the Noisy Encoding of Disparity Model,NED) 该模型认为,不同个体受视觉信息的影响程度不同,因此感知McGurk 效应的强度也不同。同样,有的刺激比其他刺激更容易诱发McGurk 效应[71]。该模型包含3个参数:(1)刺激差异(stimulus disparity,D), 即视听不一致刺激引发McGurk效应强度的大小 ,D值越大,越容易导致McGurk效应;(2)感知噪声(sensory noise,σ),即个体表征视听信息时的清晰度和准确度,σ值越大,被试越容易产生McGurk效应;(3)区别阀限(disparity threshold,T),代表个体感知McGurk效应的概率,如果T值低于一定的标准,意味着会发生McGurk效应。在此模型中,D代表刺激差异,σ 和T 代表个体差异。该模型的主要特点是把刺激差异和个体差异区分开来,直接比较不同个体的McGurk效应发生率。其优势是可以预测个体感知陌生刺激时的McGurk 效应发生率及分离McGurk 刺激间变异。可见,该模型可以很好地解释个体间和刺激间变异的问题。
3.因果推断模型(causal inference in multisensory speech perception,CIMS) 该模型认为,个体面对来自感觉通道的信息时,首先进行因果推理,即先判断来自不同通道的信息是否同源,然后分配权重,给出是否整合的指令,最后执行指令,即产生或不产生McGurk效应[72]。该模型尝试解决在多个谈话情境里,听者如何对多个听觉刺激和视觉刺激来源进行匹配,以避免将谈话者甲的听觉信息与谈话者乙的视觉信息混淆而产生错配。这一因果推理过程有助于理解McGurk 效应的神经基础和机制。最近,Magnotti等以CIMS模型为框架探讨McGurk效应音节和句子感知之间的关系[4],其实验结果再次证明该模型不仅可以用于解释McGurk效应,而且可以解释日常言语感知。
4.分层预测编码模型(Hierarchical Predictive Coding Model,HPC) 该模型的原理是把连续输入的视听言语信息置于预测编码框架中处理,建立第二共振峰(second formant)和唇形(lip aperture)(即听觉信息和视觉信息)的动态变化二维空间,通过评估跨感觉通道,动态预测其在McGurk效应视听言语整合中的作用。它包括3个加工层次:感觉单位、对刺激的动态进行编码及对多感觉通道的识别。动态预测机制在不一致视听输入的感知中起着决定性的作用[73],解释产生McGurk效应 “融合型”和“组合型”误听的机制。
5.线性动态并行交互模型(the Linear Dynamic Parallel Interactive Model,LDPI) 该模型用于描述视听信息的交互作用导致感知能力的变化。视听信息包括3个听觉和视觉信息输入及这些视听语音音素类别的内部表征,可用于解释McGurk效应易感性的个体差异问题。Altieri等[74]尝试使用LDPI模型模拟临床人群的McGurk效应,他们采用抑制和促进的方法考查视听整合的认知机制,同时,通过系统操纵抑制参数值,对自闭症被试的个体数据进行建模,结果发现被试对McGurk效应的感知能力表现出显著的个体变异性。该模型的优点是数据采集时间快(比FLMP模型快1/3倍[71]),可提高对幼儿或临床群体的研究效率。
此外,Kumar等[75]最近提出一个计算模型—— 神经生物学的真实模型(neurobiologically realistic model,NBR),认为控制大规模的大脑网络动态的生物、物理机制是个体感知变异的基础。该模型主要用于捕捉视听跨通道言语感知中观察到的个体间变异的神经机制。
以上新兴的计算模型具有定量计算特点,可利用不同的参数值通过建模方法来描述视听信息整合过程,每一个计算模型可能偏向于对某一言语加工过程或某些影响因素的解释。它们不仅为McGurk效应发生的机制提供不同维度的解释,而且很大程度上提高了视听言语感知的研究效率。
三、 总结与展望
(1) McGurk效应的界定。笔者倾向于较宽松的观点,即被试报告的感知结果只要与实际听觉刺激不同,即可视为发生了McGurk效应,不局限于感知融合型或组合型音节。有研究建议使用符合元分析标准的研究范式,包括标准化刺激(建立开放数据库)、填充试次及统计结果的完整报告(包括均值标准差等)[12]。这为未来研究打开思路,有利于研究间的比较和标准化数据的积累。
(2)不同语音类型。McGurk效应需要考虑信息整合过程中的语言因素。比如,法语母语者的误听类型更多是“组合型”[15],与以英语母语者的McGurk效应经典报告中的“融合型”恰好相反;视觉信息的参与可改善听觉声调的识别[76-77];普通话声调没有受视听不一致性的影响[78]。因此,未来研究可尝试用声调或其他超音段音位刺激探讨McGurk效应的普遍性。这对声调语言母语者,特别是对特殊儿童的语言早期训练具有重要的指导意义。
(3)计算模型。McGurk效应受个体差异的影响。比如ASD特殊儿童、文化背景和认知策略不同,其受视觉信息影响的程度不同。未来研究可考虑结合计算模型(如NED模型等)对McGurk效应的个体差异进行测量。另外,大脑神经成像技术可确定McGurk效应的相关脑区及时空反应模式,提供的指标可用计算模型进行参数拟合,这种数据建模的方法极大地提高了McGurk效应的研究效率,更好地揭示McGurk效应的不同阶段和群体的神经机制。
(4)特殊人群。目前,McGurk效应的发展研究比较集中于儿童与成人、学龄前与学龄后儿童的对比,缺少对语前幼儿的研究,这不利于对先天性听障或自闭症等临床儿童的最早期发音和唇读技能训练。今后应加强针对语前幼儿、特殊儿童及临床人群的研究。