脸和心：我们能否通过模拟表情通达他心

2022-12-31陈巍

华南师范大学学报（社会科学版） 2022年6期

关键词：皮层情绪运动

陈巍

(1. 绍兴文理学院心理学系，绍兴 312000；2. 中国人民大学哲学与认知科学交叉平台，北京100080)

用最美妙的外表把人们的耳目欺骗，奸诈的心必须罩上虚伪的笑脸。

——莎士比亚，《麦克白》

一、面部表情识别的“邓肯谜咒”

在莎士比亚的经典悲剧《麦克白》的第一幕中，当邓肯国王提出关于面孔不可理解的主张时，他刚刚被曾是自己“绝对信任的绅士”考德出卖。麦克白随后踏着邓肯的台词声走进聚光灯，并开始散布他对苏格兰王位的“黑色和深层的欲望”。显然，邓肯很难读懂别人的心思。不过，用他留下的一句谜咒来关照几个世纪以来盘踞心灵哲学史上“十二个难题”之一的他心问题(problem of other minds)最恰当不过——“这世上还没有一种方法，可以从一个人的脸上探察他的居心”[1]。

面部在揭示人类心理状态方面具有特殊功能，表达和识别面部表情的能力对社会交往至关重要。早在达尔文时代，面部表情(facial expression)作为读心重要窗口的科学观念就已经得到了检视。在1872年出版的开创性著作《人和动物的情感表达》中，达尔文对理解情绪的进化根源进行了深入探索。书中除了论证动物和人类在情感表达上的进化连续性，还强调人类表达情感的原则同样适用于其他动物，从而有助于我们解释它们的功能意义。达尔文特别感兴趣于情感借助面部表达的方式以及它们在结构和强度上的动态变化。书中通过翔实、细致入微的照片充分记录了面部表情的复杂性。上述工作有力地论证了“面部承载着我们如何表达情绪的关键信息”这一观点，面部肌肉运动模式可以被解释为一种特定情感的特征并且具有交际价值[2]。随后，对非人灵长类动物的比较研究普遍采用了这种方法，以更好地理解特定面部表情的进化起源及其可能的功能。

近20年来，关于面部表情如何产生、控制的理论无疑受益于神经科学研究证据的不断积累。对面部运动模式及其神经支配的神经解剖学证据，以及对正常和病理条件下神经控制的认识，不仅提供了面部表情的神经生物学信息及其交流价值，还澄清了运动对情感的控制是如何与感知和理解情感能力紧密相连的。大量文献认为，人类识别和分享情感的潜在机制之一是自动模仿(automatic mimicry)，它被定义为无意识或自动地模仿语言、动作、手势，尤其是面部表情。具体来说，自动模仿和同步他人面部动作的倾向被认为是日常互动的核心，在母亲和婴儿之间的早期交流形式中就已初露端倪[3]。

我们究竟可以从面部表情中获得多少关于他人心理状态的知识？通过自动模拟他人面部表情是否真的可以破解“邓肯谜咒”(Curse of Duncan)？本文将围绕上述问题，整合来自心灵哲学、现象学、认知神经科学与社会认知心理学的前沿进展，批判性地反思“脸”与“心”之间的复杂关系，并尝试为他心直接感知提供一种构成性的解释框架。

二、面部表情模拟与读心：从同感概念史出发

当代认知科学中对他心的分析部分沿袭了心灵哲学中他心问题的认识论和实效论(pragmatics)立场，淡化了对他心是否存在的怀疑论追问。他心问题转变为经验科学意义上的读心(mindreading)问题，它专指我们如何将心理状态归因于他人。心理状态包括感觉、情绪、信念、欲望、意图和决定。看到纳达尔在法网半决赛上逆转击败对手时，我们会想：“他太想赢得自己的第22座大满贯奖杯了，必胜的信念让他今晚表现得有点疯狂”，这就是读心。这种归因可以是自动化、无意识的或者现象学意义上前反思的(pre-reflective)特征(Dr Lightman在《别对我撒谎》中对罪犯的微表情分析)，也可以有意识地、以相当深思熟虑的方式进行(福尔摩斯抽丝剥茧地分析嫌疑犯的作案动机)。

人类互相读心有着相当古老的历史源流，其萌芽大致可以追溯至约60万年前[4]。进化生物学家Tomasello称我们互相解读和分享意图的能力是创造人类社会的进化步骤。就其核心而言，读心是一种进化的认知能力，它使群体生活成为可能，为合作、利他主义和侦测人群中的骗子奠定了基础[5]。面部表情及其模拟在读心中起到的重要作用可以在现代哲学史与心理学史上对同感概念的起源中得以廓清。

1879年，哲学家Robert Vischer在《论形式的光学感：对美学的贡献》一文中作为技术术语第一次使用了德语“Einfühlung”[6]。不久之后，Theodor Lipps采纳了这个术语来解释人们如何体验审美对象以及如何了解他人的心理状态，从而将其引入读心领域，用来指称我们将他人理解为具有心灵的生物的基本能力。(1)国内心理学界一般将empathy翻译成共情，但按照后文中的考证，这种译法没有很好地反映该概念在哲学史上的本意。本文接受国内现象学界的译法，将其翻译成同感。Lipps认为，知识有三种不同的领域——关于外部对象的知识、自我知识和关于他人的知识。他认为这些领域的知识具有三种不同的认知能力，即感知、内省(introspection)和同感[7]。因此，Lipps坚持认为我们应当将同感看作一种自成一体的知识形态。具有原创意义的是，它不能通过某种类比推理(analogical inference)来解释或被还原成某种类比推理[8]697-698。

Lipps将同感视为心理学的核心概念，对他来说，Einfühlung的字面意思是“感觉进入”(feeling into)——指一种基于自然本能的内在模仿或内在共鸣的过程，它使我们模仿在物理和社会对象中感知到的动作和表情。我们之所以把别人的感受当成自己的感受，是因为我们把自己的感受投射到别人身上。以类似的方式，我们体验审美对象的属性，就像我们体验自己一样。因为根据Lipps的说法，审美对象引起我们的反应，就像我们通过面部的表情和身体的动作引起的反应一样，我们把这些内在的主观品质投射到他们身上[8]697-698。

延伸到读心上，Lipps自始至终都在强调面部表情的作用，他认为姿势和表情展现了我们的情绪状态，并且表情与所表达之物之间的关系是特殊且唯一的。这与烟表现火的方式很不同[8]713-714。个体可能体验到烟与火往往相伴随，但不管这两者是如何经常性地同时发生，它们之间的关系与面部表情和情绪之间的关系仍是不同的。烟本身不会呈现或表达火，火也并未体现在烟中，而愤怒则体现在面部表情中。当我们感知到他人的面部表情时，我们立刻统觉到表达出来的情绪，例如快乐或恐惧。按照Lipps的观点，快乐和恐惧是不能被感知到的，因为它们并不存在于外部世界，我们只有通过自我经验才能直接了解这些情绪；换言之，我们能够经验地通达到的情绪只有我们自己的情绪。尽管我们将快乐或恐惧的脸理解为一个统一现象，但是后面的分析将表明被感知到的格式塔(Gestalt)和被一同统觉到的情绪有两种不同的来源。视觉格式塔从外部世界到“我”这里，而感受到的情绪来自“我”自身。因此，被感知到的脸相对于我而言具有了心理学的意义，因为我将我自身投射到它上面[8]719-720。但这又是如何发生的呢？

Lipps认为同感的本能(instinct of empathy)包含两个组成部分，一个是指向模仿的驱力(drive)，另一个则是指向表达的驱力[8]713。例如，过去我快乐过。在那个时候，我具有一种本能的倾向来表达快乐。我做出的面部表情并不在我的快乐之后或者之上，而是作为感受的不可分割的部分。现在当我在别的地方看到面部表情时，我具有一种本能的倾向去模仿或复制它，并且这种倾向会唤起过去与之密切相连的同样的感受。当我重新经历这种感受时，它就会与我正在感知的面部表情相连并且被投射至其上[7]。简而言之，当我看到一张快乐的面庞，我会复制快乐的面部表情，这会在我身上唤起快乐的情感，并且这种感受到的快乐与当下被感知到的面部表情一同被给予，然后被归属于他人。由此，人际理解成为可能[8]717-719。

重要的是，我们不仅将心理学意义投射到我们所看到的面部表情上，还倾向于相信他人确实具有心理生活，且这不仅是我们强加上去的东西。按照Lipps的看法，之所以如此，是因为这是一个无法被进一步解释的事实，它只能被看作理所当然被给予的[8]710。

Lipps模型的一种含义在于，我对他人的同感理解具有很严格的限制，只有当我曾经有过同样的情感状态，被模仿的表情才能够在我身上唤起与他人的情感状态类似的情感状态[8]713-714。因此，我只能同感地理解那些自己曾经有过的他人经验；换句话说，我们无法认识任何他人身上的新东西、任何我尚不熟悉的东西、任何我自己不曾放置在那的东西。毫无意外，Lipps不断提到他异个体乃是自我的复制品，也就是同感的自我对象化的结果。特别是在他的著作《伦理基础问题》(DieethischenGrundfragen)中，Lipps特别清晰地阐述了这个观点，他写道：

另一个心理学意义上的个体是以自己为模版，由自身建构的。他的内部存在源自我的内部存在。他人个体(或自我)是对我自身进行投射、反思、辐射的产物——或者说是我在自己内部经验到，通过对某种外部物理现象的感性感知——投射到这种感性现象，这是一种特殊的自我复制[9]。

虽然经常受到批评，但Lipps对Einfühlung的描述甫一提出，就引发了心理学家的热切欢迎。精神分析运动的创始人弗洛伊德声称，自己已经深受Lipps的影响，将和现象学传统的哲学家一起拥抱Einfuhlung概念，并认为其可以替代基于类比推理的心理归因解释[10]。

1909年，当美国心理学家Edward Titchener将Einfühlung翻译为“同感”(empathy)时[11]，他用的正是Lipps的概念。在《思维过程的基础心理学》一书中，他引入了英语术语empathy，尝试用希腊语empatheia直译Einfühlung。这个单词由“里面in”意思的前缀“em”和有“感觉feeling”意思的“pathos”二者结合而成，词的意思是“进入那个人的感受或体验深处”。Titchener对同感的定义随着时间的推移而改变，但当他第一次引入该术语时，他脑海中似乎有与Lipps描述的相同过程：

我不仅看到了庄重、谦虚、骄傲、礼貌和威严，而且在我的心灵肌肉中感受到或付诸行动。我认为，这是一个同感的简单例子，如果我们可以把这个词作为Einfühlung来描述的话[11]。

随后，同感的概念很快就广为心理学家们采纳和运用。对同感概念史的考察，不仅让我们发现同感概念中蕴含了模拟解释尤其是面部表情模拟的解释，而且这种解释对于读心的意义完全不同于以心智理论为代表的类比推理承诺的那样。进一步来说，揭示同感概念中的面部表情模拟解释也不单纯只具有历史价值。这种观点的影响力老而弥坚，拥有一大批当代拥护者。

三、具身模拟：产生与识别面部表情的镜像机制

(一)面部表情的反向模拟论

在当代，心理学家、神经科学家和哲学家好奇于他人面部运动的视觉体验如何转化为他人情绪的视觉体验；其中又涉及怎样的认知机制及其神经实现；这种机制是否需要某种形式的中介机制，能够将视觉模式——如面部表情——转化为其他(被观察)个体所感受到的情绪。迄今为止，围绕上述问题学术界并没有形成一致意见[12-15]。

诸多读心理论都试图破解这些问题。根据理论论(theory theory)的观点，要通过一个潜在的机制对面部表情进行深入的视觉分析。在这种情况下，面部表情识别将被推理过程所利用，其基础是知识和信念系统[16]，即心智理论(theory of mind, ToM)[17]。然而，一方面，实验证据表明，新生儿和婴儿模仿他人的面部表情，并对其传达的情绪做出相应的反应，这似乎超出了类比推理所预设的理性原则；另一方面，在成熟的心智理论能力发展之前，他们对负面表情的反应是回避和恐惧[18]，这表明理解他人情绪的潜在过程更可能是基于早期的预设机制，而不是高级认知技能[19]。

正是在与理论论的对抗中，Lipps对模拟在同感中扮演角色的强调又在当代心灵哲学中迎来复兴，其中最具代表性的继承者即是读心模拟论(simulation theory)。就面部模拟而言，我们要如何解释这种基本的“读心”，即我们将某人的面部表情识别为表达了特定情绪的能力。心灵哲学家，也是模拟论的主要支持者，提出了反向模拟模型(reverse simulation model)[20]。已有研究表明，一些所谓的基本情绪(basic emotion)，包括生气、厌恶和恐惧等面部表情是跨文化和普遍的[21]。即使是先天盲人，也会做出表达上述基本情绪的面部微表情(micro expressions)，尽管他们从未见过任何面孔。这一事实有力支持了基本情绪表达是先天的这一设想[22]。有研究发现，我们会不自觉地模仿他人的面部、声音和姿势表达，甚至表现面部表情的图片也会隐蔽和细微地激活观察者自己的面部肌肉去模仿被呈现的面部表情。此外，有实质性的证据表明，一个人面部肌肉的变化，不管是自觉的还是不自觉的，都会产生相应的情绪状态变化[3]。

基于这些证据，反向模拟论旨在表明：当观察者看到一个目标对象的面部表情时，他会不自觉地模仿其观察到的面部表情。在观察者自身面部肌肉中产生的相应变化会激活传入神经通道以产生相应的情绪，随后这种情绪根据它的情绪类型被归类，最后被归于那个面部被观察到的对象[20]。

(二)镜像神经元与面部自动模仿的镜像机制

来自神经科学的实验证据和病理研究为反向模拟论提供了大量证据。20世纪中后期，在猕猴大脑运动皮层中发现了镜像神经元(mirror neurons)，这些神经元在执行行为和观察他人行为时都会产生激活。特别是与手和嘴的动作产生有关的F5区中的镜像神经元功能，支持对一个动作目标的内隐理解。随后，在人类大脑中也发现了类似的对感知和执行动作都产生激活的镜像系统(mirror system)或镜像机制(mirror mechanism)[23]。对人类的研究发现，运动前区和顶叶区最有可能是猴脑F5区的人类同源区[24]。镜像神经元和镜像机制的发现，在脑与神经层面揭示了直接通达他人行为意义的可能性。对他人行为目的的理解并不完全依赖于传统读心理论论或类比推理预设的外显命题态度(propositional attitudes)，因为运动结果和运动意图是运动系统功能“词汇”(vocabulary)的一部分[25]。在许多情况下，我们不会外显地将意图归因于他人，而只是通过运动模拟的方法来侦测它们，即在不运动的情况下激活部分运动系统。

人类行为镜像机制的发现不禁让研究者联想到这样一种假设：镜像神经元可能只是更大冰山的一角，因为类似的功能机制原则上也适用于情绪和感觉领域[26]。随后的大量经验证据证实了这一假设。其他镜像机制与我们分享他人情绪和感觉的能力有关：当这些情绪和感觉被他人识别时，参与情绪和感觉的主观体验的神经结构也同样被激活[27]。当看到某人表达某种特定的情绪(如厌恶)或经历某种特定的感觉(如触摸、疼痛)时，会分别激活某些内脏运动(如前脑岛)和感觉运动(次级触觉皮层、腹侧前运动皮层)等脑区。其他皮层区域是专门为自己而不是为他人的情绪而激活的，或者是为自己的触觉而激活的，但实际上在观察别人被触摸时就不激活了。所有这些将镜像机制限定为相同功能机制的表达，称之为具身模拟(embodied simulation)[26]。

具身模拟理论借助了具身认知(embodied cognition)概念，心理状态或过程因其身体形式(bodily format)而体现具身性[26]。心理表征的身体形式限制了这种心理表征所能表征的对象，这是由于人体的特定属性的身体限制所决定的(例如，人类没有尾巴，无法通过模拟狗摇尾巴的行为来理解其意图)。类似的约束既适用于个人行为、情感或感觉的表征，也适用于他人的行为、情感或感觉的表征。因此，具身模拟是心理状态和过程的复用(reuse)，涉及具有身体形式的表征。感觉运动系统最初是为了引导我们与世界的互动而进化的，一旦与共享的最终运动通路解耦，并与其他皮层区域动态地重新连接，就可以为新获得的认知技能服务，比如理解他人。我们和他人的行为、情绪和感觉的体验总是发生在一个以“我们”为中心的维度内[28]。

受镜像神经元研究与具身模拟论的启发，Carr等人发现，对情绪性面部表情的被动感知和有意模仿会激活一系列重叠的大脑结构，包括腹侧前运动皮层、脑岛和杏仁核[29]。然而，相对于感知而言，自动模仿伴随着与情绪加工有关脑区的更大激活，特别是杏仁核和前脑岛，还有初级运动皮层。同样，Hennenlotter等人发现[30]，自发(voluntary)产生和感知微笑会激活右前运动皮层和下额皮层以及右顶叶和左前脑岛。上述研究结果进一步证明了情绪加工受到自动模仿的影响。

在观察面部表情的过程中，前运动区的强烈激活(不伴随着自动模仿)也需要讨论。这一发现被解释为证明了“仿佛循环”(as-if loop)的存在，即感知激活了产生面部表情的程序[31]。仿佛循环的加工也被称为离线模拟[32]。已有研究发现，感知加自动模仿往往比单独的感知对微笑产生更强烈的情感反应，这意味着运动自动模仿似乎在如何模拟微笑及其意义方面起着重要作用[33]。

四、运动系统中的面部模仿和共享神经基础

具身模拟理论认为，识别他人的情绪需要视觉分析和“感觉运动模拟”(sensorimotor simulation)，即对观察到的面部表情或动作的感觉运动程序进行无意识、隐蔽的模仿和自动激活[13，34]。这表明人类与一种神经机制“联网”(cable)，这种神经机制让他们可以与他人产生共鸣[27，35]，反过来又会激活相互关联的系统(包括边缘系统)，使观察者能够重演(re-enact)他人的情感状态，最终实现对他人情感的理解[15]。在识别他人面部表情的过程中，通常引用四种主要证据来支持具身模拟机制，并搭建出一个面部反馈与感觉运动模拟模型。

(一)运动系统参与面部表情模仿

结合运动皮层的功能性磁共振成像(fMRI)和面部肌肉的肌电图(EMG)记录的研究报告发现，观看一个面部表情会激活运动系统的部分，这些部分也参与执行该面部表情[31，36]。观察者使用可见或不可见的面部肌肉组织来匹配另一个人的面部表情，例如，微笑的感知者经常自动模仿这些微笑。肌电图记录显示，当人们看到微笑时，他们的颧骨肌会收缩，通常在刺激开始后的500毫秒内[37]。观察者会自动模仿动态动画中的虚拟人物所表达的微笑[38]，在互动的现场环境中也是如此[39]。自动模仿微笑会明显干扰同时产生不协调的面部表情，如愤怒[40]。Schilbach等人的一项研究同时收集了fMRI和EMG数据。其研究结果表明，在感知微笑的过程中发生了自动模仿，这伴随着运动系统的神经活动，特别是在左下腹前回[41]。与以前的研究结果一致，这项研究也牵涉内侧颞叶对观察到的情绪表达的自动模仿。此外，中脑背侧也很活跃，这可以被解释为由眼睛直接注视引起的唤醒信号。

(二)面部表情产生障碍患者识别面部表情的缺陷

对先天性或后天性面部表情产生障碍患者的研究报告显示，他们在识别面部表情方面有困难。一些研究报告表明，患有莫比乌斯综合征(Moebius Syndrome,MBS)的人(一种极其罕见的先天性非进展性疾病)面部瘫痪，在面部表情识别实验中的得分低于平均水平[42-43]。在帕金森病[44]和亨廷顿病[45]中也有面部表情产生和识别障碍共同出现的情况。此外，体感、运动和(或)前运动皮层受损的病人在识别面部表情方面也表现出类似的缺陷[35]。

(三)对运动皮层的实验操纵影响面部表情识别

根据具身模拟假设，脑成像研究发现，伴随着面部表情的产生和对面部表情的观察，大脑活动有相当多的重叠，这种神经重叠包括运动和体感皮层。已有神经病理学研究发现，处理和整合来自自己面部和身体的体感反馈的体感皮层受到损害，将导致识别面部表情的准确性降低[46]。此外，涉及面部表情识别任务的表现可以通过对观察者运动系统正常状态的实验操纵来调节，如同时进行的运动任务或对运动皮层进行TMS(经颅磁刺激)抑制[15，34]。TMS使用一个磁场发生器或“线圈”，放置在接受手术的患者或参与实验的被试头部上方。利用电磁感应，线圈在大脑区域引起小电流，产生“虚拟损伤”。“虚拟损伤”的作用是通过强而短的磁脉冲在短时间内抑制一个脑区(通常只有皮层区)。研究者使用TMS发现，暂时抑制运动和体感区即抑制参与模拟的皮层运动区和体感区活动后，被试面部模仿减少，且对面部表情识别的准确率下降[47]。由于运动区和体感区在情绪表达时被激活，它们在被动观察面部表情时也被激活，而它们的抑制或损伤导致面部表情识别受损，这些证据都强烈表明运动区和体感区在情绪识别中也发挥了重要作用。

(四)通过干预面部表情产生的实验操纵影响面部表情识别

最后一类证据与面部模仿机制严格相关。通过笔或筷子[48]、口罩[49]、硬化凝胶[15]、肉毒杆菌(Botox)[50]等各种实验设计，证明不同操纵对识别他人面部表情会产生不同程度的困难[42-43,51]。

已有研究者开展了评估面部模仿和内隐情绪之间因果关系的研究，他们使用肉毒杆菌毒素来抑制面部模仿表达愤怒[30]。被试被引导模仿静态照片中的愤怒和悲伤的面部表情。在模仿愤怒的任务中，与没有注射肉毒杆菌的对照组相比，眉毛接受过肉毒杆菌注射的被试在边缘系统中表现出的激活明显减少。愤怒的结果将面部模仿与情绪联系起来，因为禁用面部肌肉组织会减少情绪的激活。当与愤怒相关的肌肉模式被阻断时，与愤怒相关的部分表达功能就会丧失，从而使情绪的体验不那么强烈。Lee等人的发现与该实验结果一致，特别是与微笑相关的情绪体验减弱效应最为明显。在该研究中，被试模仿了表达微笑的面部表情，以及其他没有情绪效价的面部表情。被试越是努力模仿观察到的微笑表情，他们的纹状体和杏仁核的激活程度就越大[41]。

(五)面部反馈与感觉运动模拟模型

正如面部反馈理论(facial feedback theory)所预期的，面部模仿可能伴随着相应情绪的自我报告，被称为情绪传染(emotional contagion)[52]。然而，就具身模拟在传入反馈时对于感知到的微笑所发挥的作用而言，感知者不一定要经历情绪状态的有意识变化——这种模拟常常出现无意识的影响。因此，关于模仿会内隐地产生情绪影响的研究结果也很重要。

Wood等人提出的对他人面部表情的感觉运动模拟模型，进一步深入阐释了具身模拟在大脑中的发生细节[15]。该模型包括不同的加工阶段，这些阶段是平行发生的，其运作方式如下。当观察者接触到一个面部表情时，用于面部及面部表情视觉分析的视外区和感觉运动皮层(即前运动皮层、初级运动皮层和体感区)都被激活。这种分布式的神经活动可能会伴随在亚阈值水平上对观察到的面部表情的再现，即“面部自动模仿”(观察到情绪表达时引起的面部肌肉自发、自动和无意识的激活)。然后，再次激活将扩散到其他大脑区域，如边缘系统和参与情绪处理的区域，以及控制与躯体面部活动相关的有机体的自律反应。这整个过程将引发第一人称的情绪体验，涉及认知、行为和生理变化，直至更高层次的认知系统。该模型预测，模拟可以通过塑造视觉感知的构建来向视觉皮层提供逆向反馈，可能会产生关于情绪表达强度的更准确的视觉表征[15]。

这一整套证据进一步拓展了具身模拟的观点：当面部反馈与内部模拟一致时，模拟机制可能会最佳地工作。因此，干扰面部模仿可能会出现与感觉运动活动模式不一致的信号，并导致识别准确性的下降[15，53]。

五、具身模拟之殇：面部模拟是识别表情的充要条件吗？

在过去的20年里，一些研究者认为高效(即快速和准确)的面部表情识别不能仅仅通过视觉分析来实现，而是需要一个运动模拟的过程。然而，这些不同的发现还可以有其他解释。在观察面部表情的过程中，运动系统的激活可能来自观察者对他人面部表情的单纯反应(例如，情绪传染或发出移情信号的方式)，这种激活可以出现在被识别成特定情绪的实例之后[54]；它也可能是“视觉—运动”转换的结果，服务于面部表情识别以外的其他目的，如工作记忆编码[55]或借助模仿促进附属目标实现[56]。

干扰观察者的运动系统可能会影响某些任务中的面部表情识别表现，这一证据清楚地表明运动和视觉系统在功能上是相通的。然而，这些研究结果若想证明“运动系统对于高效的面部表情识别是必要的”这一结论则面临两个主要问题。第一，这些结果并不意味着运动系统和视觉系统在功能上与面部表情识别有关。应用于某一区域的TMS可能对其投射到的其他区域产生历时空的影响[57]。例如，运动皮层投射到参与生物运动感知的视觉皮层，以支持对自己身体运动的控制[58]；参与身体部位感知的视觉皮层在移动这些身体部位时，即使在没有视觉反馈的情况下，活动也会增加[59]。因此，应用于运动系统的TMS可能会对面部表情识别产生功能影响，并通过调节与之自然相连的视知觉系统来支持对自身运动的控制。第二，更重要的是，一个系统(如运动系统)的信息可能影响另一个系统(如视觉系统)计算的证据，但并不能证明前者是后者有效运作的必要条件。例如，关于嘴唇运动的视觉信息影响听觉言语感知的发现并不意味着听觉言语感知需要视觉系统[60]。同样，听觉信息影响面部表情识别效率的结果也被解释为可用的听觉或语境信息可以影响面部表情识别的证据，但并不是说听觉系统对于高效的面部表情识别至关重要[61]。因此，尽管TMS和行为运动干扰的影响提供了关于知觉和运动相互作用的有趣信息，但这种影响很可能来自高效面部表情识别所必需的认知和神经机制的集合之外。因此，上面报告的行为、fMRI和TMS结果对于区分知觉和运动观点并不关键，因为两种观点都可以同样用来解释“干扰运动系统可以调节面部表情识别的效率”这一发现。

值得注意的是，已有研究报告面部表情产生和识别缺陷共同出现的证据价值同样存在不确定性。这种共同缺陷出现情况表明，面部表情的产生和感知能力之间存在一种相关关系，但并不意味着两者之间就是因果关系。鉴于大多数帕金森病患者和亨廷顿病患者都有广泛的脑部病变，并患有视知觉或执行功能障碍等认知障碍[44-45]，所以上述关联的因果关系难以直接确立，这也可能是独立导致面部表情识别表现不佳的原因。与这种可能性相一致的是，Adolphs等人在对108名脑部局灶性病变患者的研究中，发现识别面部表情的能力与运动损伤(损害)之间没有关联[46]。

同样，莫比乌斯综合征通常不仅影响个人的感觉运动系统，还影响他们的视觉、知觉、认知和社交能力[42]。因此，目前还不清楚在这些案例中观察到的面部表情识别缺陷是产生障碍的直接后果，还是其他受损但功能独立的过程所导致的结果。例如，Bate等人的一项研究发现，在六名患有MBS的被试中，有五人在三项面部表情识别任务中至少有一项出现障碍[42]。这一发现初看起来像是支持以具身模拟为代表的面部表情的运动认知理论，然而，这五名患者在识别面部身份和(或)评估低水平视觉、物体识别的测试中也有障碍，表明面部表情识别障碍不能明确与面部瘫痪相关。Vannuscorps等人评估11名MBS患者在五个具有挑战性的面部表情识别实验中的表现，结果发现，在一个或几个实验任务中，几个MBS患者未能像对照组被试那样有效识别面部表情。但对上述识别困难必须谨慎解释，因为这些MBS的表现是与对照组(受过高等教育的年轻成年人)相比的，后者在其中几个实验上的表现均比以前公布的基线要高[62]。这一发现表明，虽然一些MBS患者在某些任务中识别面部表情有困难，但这种缺陷的关联却很难解释，因为在参与测试的MBS患者中，运动、视觉和知觉的缺陷同时出现。这使得研究很难明确地确认这些困难的真正起源。该研究甚至还发现其中两个MBS患者有下述特点：在这些任务中的表现与在其他面部相关的视觉任务(面部识别)和情感识别任务(发声情感识别)中的表现一样好，并且他们执行这些任务的方式在质量上与对照组相似。

六、“脸”与“心”的关系再发现

几个世纪以来，关于面部表情如何揭示他心的问题，已经从莎士比亚的剧本和达尔文的思考延伸到了社会认知神经科学实验室。如果将推理视为一种读心的手段，即根据人物的外表(人物向世界展示的“面孔”)，建立关于人物心灵的陈述(如面部表情、手势、姿势和行动)，那么模拟则涉及寓居在一个角色的视角，并创造一个与该角色行为相匹配的心理状态。这两个过程的目标是相同的——用邓肯的话说，就是将“心”与“脸”相匹配。但这两个过程的方向是不同的，推理是从“脸”转移到“心”，模拟则是从“心”迁跃到“脸”；推理需要应用关于世界的知识，而模拟则需要具身的运动。莎士比亚使用这两种艺术、两种构建方法来塑造他笔下的人物，而心理学家、哲学家与神经科学家则需要利用这两种解释继续破解“邓肯谜咒”。

通过梳理同感概念史和具身模拟理论引发的争议，我们不难发现，面部模拟对于理解他心的研究是一项汇聚了哲学智慧、心理学史脉络以及神经科学证据的庞大计划。目前，该计划还有如下工作亟待推进。

首先，深入反思面部表情识别的具身模拟效应的不稳定性甚至不可重复性的原因，从矛盾的证据中开辟新的论域和议题。虽然在本文第五部分我们细数了许多质疑面部表情识别需要具身模拟假设的证据，但同样有证据显示这些研究之所以没有发现面部表情识别的轻度或细微缺陷，是因为它们主要依赖于无时间的图片标记任务[51]。此外，以往研究结果仍遗留了一种可能性，即当任务更具挑战性时，例如，当面部表情更复杂、必须快速解释、只有部分信息可用时,或者当任务需要微妙的类别内判别时(如区分假笑和真笑)[3，63]，具身模拟可能有助于提高面部表情识别效率。这意味着，通过执行特别敏感的表情识别任务，研究者有可能更清楚地观察到模拟缺陷对于表情识别的影响。近期，Lomoriello等人设计了一个敏感的面部情绪识别测试，来衡量MBS组在面部表情识别上的障碍。他们在对三种特定情绪类别(悲伤、恐惧和厌恶)的不同情绪表达强度的平均评分的分组分析中，确认了MBS组被试的模拟缺陷[64]。

其次，积极寻求哲学本体论上的新进路，从新的提问方式出发探索新的实验证据。当前，在他心直接感知领域内兴起的“构成性议题”(constitution thesis)重新解释了具身模拟的意义。该议题同时拒绝了两种关于面部运动与情绪表达之间的因果性解释：一种是达尔文式的解释，认为情绪反应紧随情绪体验产生(快乐的体验引起嘴角上扬的表情)；另一种是William James式取向，认为情绪反应产生了情绪体验(嘴角上扬的表情引发了快乐的体验)[27，65]。情绪的构成性解释将情绪这样的心理状态视为由表达行为(expressive behavior)部分构成的。一些情绪的身体或面部表达是我们实现该情绪的物理载体的一部分。因此，去掉这个载体的一个方面就失去了情绪本身的一部分——就像去掉汽车发动机的火花塞就失去了它实现运动的能力——情绪的体验也就相应地改变了。当然，这一证据并不表明情绪在本体论上同一于它们的行为表达。情绪的内部神经、生理和现象部分仍然没有被它们的行为表达或支撑它们的亚个人的“情感程序”(subpersonal “affect programs”)所穷尽。例如，当我真正感到快乐并露出开怀的笑容时，我的快乐并不简单地体现在我可被公开观察到笑容的物理特征中，也不仅仅体现在使我能够做出这种笑容的复杂神经和生理过程中，这两种成分都是实现我的快乐所需要的[66]。其中，这一过程的外部部分是公开可见的，从而为我们通过具身模拟直通他心提供了本体论承诺。当然，这些内部和外部成分如何在实现情感过程中整合它们各自的功能是一个开放的经验问题，有待未来进一步的探索。

最后，回溯基本情绪理论与情绪建构论之争，为面部肌肉运动模拟识别情绪的可能性提供新的视角。情绪建构论(theory of constructed emotion)认为，面部情绪的表达与识别受到自上而下的高情境文化的影响。已有研究发现，中国被试主要通过眼睛来表达情绪，而美国被试则通过眉毛和嘴巴来表达[67]。与美国被试相比，中国被试很少表达“兴趣—兴奋”和“厌恶—排斥”的面部表情。与欧美被试相比，中国被试的“愤怒—生气”的面部表情更容易被识别。中国人在兴奋或失望的时候会更加矜持和冷静[68]。面部表情代表了情绪的复杂内部表征，展示了受不同文化影响的情绪信号。例如，美国文化是强烈的个人主义，而中国文化是温和的集体主义[69]。集体主义文化下强调中庸和“我们”的关系依存性，如“人不知而不愠，不亦君子乎”(《论语》)。君子应该能够控制情绪，保持自重，“泰山崩于前而色不变”是中国文化中君子人格的特征之一。因此，欧美被试很可能通过眉毛和嘴巴的移动，用明确和偶然的面部表情来表达情绪；受中庸和集体主义文化影响，中国被试倾向于用内隐和控制性的面部表情来表达情绪，尤其是在表达兴奋和反感的时候。如果面部运动对于情绪的表达作用有限，情绪的识别需要情境因素的高阶调控，那么模拟面部运动识别情绪的可靠性将面临质疑。近期Cowen等使用“深度神经网络”的机器学习技术分析了来自144个国家的600 万个视频片段，包含上千个情境下的16种面部表情。分析发现，虽然每种面部表情与系列情境存在独特的关联性，但表达情绪反应的 70% 的表情是跨文化共享的[70]，这意味着模拟面部肌肉运动是否可以识别表情仍然有待系统的科学检验。