语言理解的具身观：基于第二代认知科学的视角

2013-04-11陈巍张静

绍兴文理学院学报(哲学社会科学) 2013年1期

陈巍张静

(1.绍兴文理学院教育学院；2.浙江农业商贸职业学院，浙江绍兴，312000)

语言理解是人类拥有的一种非常神奇的能力，在我们的生活中有着重要的作用。就是现在，当你阅读这句话时，你就正处于语言理解的过程之中。我们很容易把自己的语言理解能力视作理所当然，然而，大量的证据表明，语言的理解包含了复杂的心理过程。故长期以来，语言理解一直是认知心理学所关注的热点问题。在以计算机隐喻为核心假设的传统认知心理学观念的引导下，语言理解被认为是建构被描述情境的心理表征，以Kintsch的情境模型为典型代表[1]。该模型假设认知可以被当作一系列独立于大脑和世界的抽象规则和表征来研究[2]。然而，随着计算机隐喻困境的加深，具身认知(embodied cognition)观念的提出，第二代认知科学的兴起，认知心理学开始在具身视域下重新审视语言理解，语言理解的具身观应运而生。语言理解的具身观源起于于具身认知，其根本观点是语言根植于知觉和运动，语言理解就是对语言所描述的情境建构心理模拟，这种模拟是以理解者的身体、情绪和社会的经验为基础的，因此语言理解实质上对语言所指代的情境的心理上的经验重演[3]。根据语言理解的具身观，语言理解不应是独立于理解者身体之外的一种信息加工过程，语言理解是具身化的，即语言理解与理解者的感知觉、身体之间存在密切的联系。

一、具身认知的兴起与发展

在认知科学的经验研究中，人们对认知和智能的观念经历了两次革命性的转变，形成了两代认知科学。基于表征计算范式的认知研究被成为“第一代认知科学”，以确定心智的身体基础、身体在认知和社会活动中的首要作用为标志的“第二代认知科学”[4]。具身认知观是第一代认知科学和第二代认知科学相区别的重要特征。从Dreyfus的《计算机不能做什么》到渡边慧的《“人工智能”的挫折与补救》，直至Newell和Simon坦陈他们的程序是非通用的。不具备主观性的机器与具备主观性的人是完全不一样的。因为机器可能具有目标，但不可能具有价值。人是执照非特定、情感性的价值系统做出评价的，而机器只能按照特定的表来做出评价[5]。李其维教授指出“以计算机隐喻为核心假设的传统认知心理学以及联结注意心理学均不能克服离身心智的根本缺陷，当代认知心理学正面临着新的范型转换。以具身性和情境性为重要特征的第二代认知科学将日益收到重视。”[6]近十年来，“具身”(embodied)几乎已成为认知科学所有领域中最重要的概念之一。在哲学[7]、心理学[8]、神经科学[9]、语言学[10]、计算机学[11]中人们越来越多地谈到“具身”的概念。

所谓具身，Varela等认为，“具身”强调认知依赖于出自具有各种感觉运动(sensorimotor)能力身体的主体经验的种类[12]；Thelen认为，认知源于身体和世界的相互作用之中。认知依赖于主体的各种出自于具有特殊知觉和运动能力身体的经验[13]；Lakoff认为，理性源自我们的大脑、身体和身体经验的本性，我们需要身体来进行推理，要理解理性，我们必须理解我们的视觉系统、运动系统以及一般的神经绑定(binding)机制的细节[14]；Wilson在《具身认知的六个观点》中将具身认知的主张归纳为：认知是情境的、认知是具有时间压力的、认知工作在环境中进行、环境是认知系统的一部分、认知是行动的以及离线的认知是基于身体的[15]。尽管理解的角度有所不同，各位学者对具身认知所持的观点也各有侧重且又有所重叠，但它们都贯穿了这样两点：第一，人是在世存在的，人最初的活动是和环境浑然在一起的。第二，在认知发展中，知觉和身体活动是首要的[16]。

具身认知理论的蓬勃发展源于计算机隐喻困境的加深，也得益于认知神经科学的迅速发展。神经科学的新发现——镜像神经元也为具身认知提供了某种佐证。镜像神经元是存在于鸟类、灵长类动物和人类大脑中的一种特殊的神经元系统[17-20]。意大利帕尔马大学神经科学中心的Gallese和Rizzolatti等研究人员在观察恒河猴运动皮层神经元放电现象时意外地发现了这类具有镜像功能的特殊神经元：猴脑腹外侧运动前皮质的这类神经元无论在猴子自己做出动作还是在看到实验人员做出相同动作时均会被激活[21]。科学家将这类像镜子一样，能直接在大脑中重现被观察对象所执行动作的神经元命名为镜像神经元。Gallese据此提出了认知的具身模仿论：无论是身体意识还是社会理解的基本形式，都有一个共同的功能性机制作为其基础。影响我们对空间中运动的身体进行无意识建模的神经结构同样与我们觉知世界所包含的主动身体和对象有关[22]。

二、语言理解的具身观

语言理解的具身观兴起于第二代认知科学具身认知的影响下，有别于传统认知心理学“概念源于网络中结点之间的联系模式，语言符号能够通过被转换为另一种语言符号而得以理解”的观点[23]，语言理解的具身观强调身体、经验在理解中的作用。语言理解的具身观认同情境模型理论关于理解一篇文章应该被认为是建构所谓的情境模型或心理模型的观点，但具身观更多的是强调对事件所描述状态的心理表征[3]。其根本观点是语言根植于知觉和运动，语言理解就是对语言所描述的情境建构心理模拟。语言理解涉及动作、知觉以及情绪等身体体验与语言的交互作用。理解概念表征唤醒的不仅仅是结点，同时还有个体的经验。

(一)语言理解具身观之理论假设

当前主要的语言理解具身观理论包括Lakoff和Johnson的认知语言学分析、Barasalou的知觉符号系统理论(Perceptual Symbol Systems)、Glenberg的索引假设(The Index Hypothesis,IH)、Zwaan的浸入式体验者框架(The Immersed Experiencer Frame,IEF)、Feldman和Narayanan的语言神经理论(The Neural Theory of Language,NTL)以及Gibbs的具身假设(Embodiment Premise)。

以Lakoff为代表的认知语言学研究推翻了传统“概念是抽象的，是非具身的”观点。认知语言学认为，隐喻具有普遍性，隐喻是人类认知过程中的重要的、基本的方式之一。语言中概念意义的获得和概念体系的结构不是凭空产生的，从发生的过程看，它们源于人们最初的身体经验的隐喻投射[24]。

知觉符号理论认为外界刺激引起选择性意识经验的知觉状态和无意识的神经表征，这些痕迹通过选择性注意被抽取出来并储存在长时记忆中。长时记忆里储存着由具有模式性(multimodal)、类似性(analogical)的知觉符号所构成的仿真器(simulators)。在以后的激活中，这种知觉记忆作为代表外界事物的符号进入符号操作过程。大量知觉符号集中起来就组成了认知表征。因此，认知本质上是知觉性的，它与知觉在神经水平上享有共同的系统。对刺激的心理表征就是知觉经验的遗留物。据此，语言理解即是建构所述事件的知觉模拟[25,26]。

索引假设认为，语言理解像理解环境一样，是连续的概念化的变化，而概念化指的是可能的动作方式，心理模型是用功能承受性来建构的，强调经验成分对理解的重要作用[27,28]。索引假设将语言理解分成映射、提取与整合三个阶段，无论是映射、提取还是整合都与个体的知觉、经验以及特定的身体类型有着密切的关系，语言理解的过程是在身体的和生物的基础上进行，而不是在逻辑或数学中找到的形式化的限制上进行的[3]。

浸入式体验者框架的基本观点与索引假设一致，即认为语言理解本质上是具身的，所不同的是，IH着眼于句子理解，只讨论了情境模型的建构，而IEF则扩展到了语篇理解，使情境模型的建立、更新与提取形成一个周而复始的连续过程。并且IEF创造性地概括出，理解是以语言输入为线索，通过整合和序列追踪现实经验痕迹，对所描述的事件的身临其境的经历。对理解者而言，语言是一套线索设备以使其建构起对所描述的情境的一种经验的模拟，理解者是所描述的情境的一位浸入式的经历者[29]。

与索引假设和浸入式经历者框架针对语言理解的理论相比，语言神经理论是一个宏大的综合体系。NTL以神经科学研究成果为基础，运用了结构化的联结主义(Structured Connectionism)的观点，试图通过建立语言过程的计算机模拟模型来模拟人脑的神经元计算(neural computation)过程，从而揭示语言的神经实质。NTL提出了一动作理解为基础的语言理论，主要讨论众多的脑区(包括情绪和社会认知)是怎样在语言的理解和学习中共同起作用的[30]。

Gibbs的具身假设认为，人们对于自身身体运动的主观感受形成了语言和思想的一部分，认知是身体与自然和文化环境相互作用时产生的，所以必须根据人与环境的动态交往来研究，认知不应该被认为是纯粹内在的、符号的、计算的和非具身的[31]。

一如对于具身认知的认识，对于语言理解的具身观，不同的学者亦有不一样的表述与侧重，然究其本质，语言理解的具身观认为语言理解中意义主要涉及知觉的、运动的、社会的和情感的知识，这些知识规定了语言的内容。意义取决于个体在实际环境中其身体有这些经验，面对语言输入，个体重新演练这些经验，并运用它们产生有意义的语言输出[3]。

(二)语言理解具身观之实证研究

日新月异飞速发展的认知神经科学研究手段在于语言理解具身观的蓬勃发展过程中功不可没。Hauk等通过fMRI发现，当要求被试不出声阅读表征动作的单词，如“踢”“捡”“舔”，被试的运动皮层和前运动皮层会被激活。即，除传统的语言区域之外，理解“踢”会激活控制足部运动的运动皮层和前运动皮层，而理解“捡”则会激活控制手部运动的对应大脑皮层等等。这一发现与具身观点相一致，当词汇所表征的过程受躯体特定区域的组织时，激活模式即生成，有关手动、腿动或嘴动的单词加工会使前运动皮质的不同部位激活,早期实验发现这些部位负责执行手、腿与嘴部的动作。这一发现意味着，理解语言和做出语言所表征的动作之间可能存在着某种联系[32]。

Buccino等的实验也得到了类似的结论。他们采用TMS记录被试在阅读表征运动的句子时大脑运动区域的变化情况。结果表明，描述手部运动的句子会引起手部所对应运动区域动作电位的变化，而描述足部运动的句子会引起足部所对应运动区域动作电位的变化。使用一个特定受动器(比如手)对句子进行加工会干扰使用相同的受动器对句子作出反应。因此，当理解一个有关手运动的句子时，大脑肯定会句子所描述的手的动作进行编程，这时就会出现资源竞争，从而减慢了手的动作的生成。尽管模拟有关手动的句子表面上看会干扰手的动作生成，但当句子所描述的动作与需要生成的动作相吻合时这种干扰就会变小[33]。这一研究同样说明，理解句子的过程包含的不仅仅是对句子的语义进行分析，身体在语言理解的过程中也参与其中。

Glenberg等通过研究运动系统与语言理解间的交互作用来说明语言理解的具身性。Glenberg和Kaschak[34]通过要求被试阅读蕴含物体运动方向的句子(例如，“你把笔记本递给了Courtney”意味着远离身体的动作；“Courtney把笔记本递给你”意味着靠近身体的动作)，要求判断句子是否合理。结果表明，当按钮靠近身体时，被试对包含靠近身体动作句子的判断速度快于包含远离身体动作句子的判断；反之，当按钮远离身体时，被试对包含远离身体动作句子的判断速度快于包含靠近身体动作句子的判断。这一结果为语言理解过程涉及相关动作神经系统模仿的理论提供了支持。

Kaschak等则通过研究知觉系统与语言理解来阐释语言理解的具身性。Kaschak等[35]开展的研究。要求被试对描述特定运动方向的句子(例如，“或者火车向你靠近”)是否合理进行判断，同时向被试呈现描述与句子描述特定运动方向匹配或者不匹配的视频内容。结果表明，视频播放内容会显著影响被试理解句子的速度。当被判断句子所描述的方向与被试所观看视频内容的运动方向一致时，反应时更短，反之反应时更长。

此外，近年来还兴起了一种研究语言理解与情绪模仿之间关系的研究。Havas等[36]等通过控制被试的面部表情要求被试对句子(例如，“校长报出了你的名字，你很自豪地走上了讲台”或“你的主管皱着眉头递给你一个封好的信封”)所描述内容是开心的(pleasent)还是不开心的(unpleasent)进行判断。结果发现，不同的面部表情会对判断结果产生影响。笑的表情会促进对开心句子的判断速度；而不笑的表情则会促进对不开心句子的判断速度。可见，情绪模仿会对语言理解产生影响，意即，理解与情绪有关的语言时可能会需要主体情绪状态的模拟。

综上所述，我们对当前语言理解具身观的研究进展概括如下，个体的知觉会对理解描述物体的句子产生影响[37]；身体的动作会对理解描述动作的句子产生影响[34]；面部表情的控制会对理解描述情绪的句子产生影响[36]；句子所蕴含的语境也会对理解产生影响[38]。语言理解是一种模仿的过程，这一过程会唤醒我们在知觉、运动、情绪等过程中所使用的神经系统[39]。理解语言，至少部分，是让身体进入语言所描述的适当的情境[40]。无论是动作层面、知觉层面亦或是情感层面，不管是行为研究还是神经科学技术的使用，上述研究均试图说明语言理解和理解者身体层面的紧密联系，为语言理解的具身观提供实验证据。

三、小结与展望

语言理解的具身观源起于具身认知运动，以具身认知为理论基础，同时其研究结果又为具身认知提供新的应用范例。较之传统的语言理解观点无法得以具体阐释等弊端，语言理解的具身观得到了来自神经科学、行为研究等不同研究方法的支持，同时也在知觉具身、动作具身以及情感具身等方面取得了大量的实验成果。根据李福印对第八届国际认知语言学大会论文所做的分析，语言理解的具身性(Embodiment)正成为当代国外认知语言学研究的热点[41]。语言理解具身观的蓬勃发展是我们无可否认的事实。然而，这一新兴假设仍需面对如下几大挑战：(1)语言理解的具身观基于具身认知的隐喻假设之上，隐喻究竟是什么，对于隐喻问题的进一步深入探讨迫在眉睫；(2)语言理解的具身观能够解释一些现象，然而是否语言理解的全程都是具身的，亦或具身仅仅只是某个特定阶段的表征方式；(3)当前语言理解具身观的证据主要源于知觉具身、运动具身与情感具身，那么是否还有新的具身方式的存在呢？总而言之，具身观对于语言理解的最终解释力，仍有赖于进一步的探索与发现。