基于视频的学习过程分析：为什么？如何做？*

2017-09-23肖思汉德利马

华东师范大学学报（教育科学版） 2017年5期

关键词：卢克马特手势

肖思汉 [美]德利马

(1. 华东师范大学课程与教学研究所，上海 200062；2. 伯克利加州大学教育学院，美国加利福尼亚州 94720)

基于视频的学习过程分析：为什么？如何做？*

肖思汉1[美]德利马2

(1. 华东师范大学课程与教学研究所，上海 200062；2. 伯克利加州大学教育学院，美国加利福尼亚州 94720)

经过40多年的发展，基于视频的实证研究已经成为教育研究——尤其是对学习过程的研究——的主流取径之一。然而，对于为什么要运用视频，如何对视频进行分析，学界仍然见解不一。本文在梳理相关历史和理论的基础上，通过两个案例呈现视频分析的三个重要维度，即个人的身体、社会的身体、身体与物件的互动。本文指出，这三个维度根本性地影响着我们对课堂互动、学习过程、教学机制的分析、理解与阐释，而视频数据在其中起到了不可或缺的作用。最后，本文强调，为了发掘视频研究的潜力，教育工作者需要从理论视角上扭转“语言中心论”的偏见，探索教师对自己课堂的评价权，并且尊重课堂生活世界中的“日用行常”。

课堂视频；课堂话语；课堂互动；视频分析；互动分析

19世纪末，英国摄影师埃德沃德·迈布里奇(Eadweard J. Muybridge)发明了运动图像，使视频作为一种新的信息载体，第一次进入人类生活。时至今日，视频已经与我们的日常生活须臾难分。在社会科学研究领域，作为重要的数据来源，视频仍然服务于当初诞生时的基本目的：对现象进行更细致的观察。

经过40多年的发展，基于视频的实证研究已经成为教育研究的主流取径之一。视频分析有何独特的价值？它能为我们带来怎样的新视角、新发现、新理论？它在具体操作上究竟如何进行？本文梳理了相关历史和理论，并尝试从两个案例入手，呈现视频研究的取向、方法与价值。

一、历史背景

1872年，斯坦福大学创办人、美国实业家利兰·斯坦福聘请英国摄影师迈布里奇解决一个“棘手”的问题：马在奔跑时，是否有四个蹄子同时离地的时候。迈布里奇运用多个相机快速摄影的技术，拍摄马在短时段内的运动图像，捕捉到了四个马蹄同时离地的影像。1879年，迈布里奇发明了“动物实验镜”(zoopraxiscope)，这个可以播放运动图像的投影仪被认为是第一个播放视频的机器(Solnit, 2003)。至此，视频作为一种新的信息媒介，进入了我们的生活。

在社会科学界，人类学最早发现了视频作为数据来源的潜力。从1930年代开始，玛格丽特·米德与格雷戈里·贝特森这对人类学家夫妇就用摄像机记录巴厘岛、新几内亚等地区民众与社会的日常生活，包括养育、进食、祭祀等各个方面(Erickson，2011)。1954年，行为科学高级研究中心在斯坦福大学成立，视频分析成为一种机构化、日常化的学术研究方法。1960年代，常人方法学(ethnomethodology)在洛杉矶加州大学诞生，这一方法论强调从微观生活的日用行常之间挖掘社会的宏大结构与规则，它进一步肯定了视频之于社会科学研究的巨大价值(Heritage，1984)。

在教育研究界，视频分析是在1970年代登上学术舞台的。1974年，美国国家教育研究所召开了一次研讨会，其中的一个名为“文化情境中的教学：作为语言过程”的分论坛吸引了学界的关注。1977年，研究所资助了十项课题，明确支持通过记录课堂的日常教学过程来探索教育问题的方法，这十项课题的主持人大多运用了视频采集与分析的方法，他们也成为了在教育研究中运用视频分析的奠基人，如哈佛大学的Courtney Cazden，洛杉矶加州大学的Fredrick Erickson，圣地亚哥加州大学的Hugh Mehan等(Green，1983)。

随着这些研究者的开拓性工作，加之1990年代以来摄像设备的数码化、便携化、低成本化，以及影像拍摄过程的规范化，越来越多的教育研究将视频作为主要的数据来源，以分析微观、实时、具象的学习过程。Jordan与Henderson(1995)发表的《互动分析》一文，集学习科学众多顶尖研究者共同撰写的《学习科学中的视频研究》一书(Goldman, Barron, Pea, & Derry，2006)，以及Derry等(2010)发表的《在学习科学中开展视频研究：取样、分析、技术与伦理指南》论文，都昭示着视频分析成为教育研究中探索学习过程的主流方法。

二、理论背景：看什么？为什么？

当利兰·斯坦福第一次见到运动的视频图像时，他预料这项发明的价值将仅限于科学研究(Solnit，2003)。当然，他预料错了，视频早已进入到我们日常生活的每一个角落。但是，斯坦福推动这项技术的最初缘由——慢速地观看某一现象——仍然是科学研究中运用视频的关键原因。相比肉眼的观看(如课堂观察)，视频能实现三种全新的观看方式：重复地观看、慢速地观看、多人观看。

然而，我们为什么需要这样的观看方式？这样的方式能看到什么肉眼看不到的现象？问题似乎可以因而转变为：什么是必须用重复、慢速、多人的观看方式才能看清楚的？我们认为，就教育研究而言，视频能让我们“看见”三个重要的维度，即个人的身体、社会的身体以及身体与物件之间的互动。

(一)个人的身体

社会科学的“身体转向”为具身认知提供了越来越充足的证据。学习不是纯粹的认知，而是一种有身体参与的活动。相对于肉眼观察，基于视频的观察能让我们更加清楚地看见个人的身体是如何参与并影响学习过程的。具体来说，个人的身体与物质世界直接相连。倘若我们仅仅关注学习过程中的言语行为，那么诸如眼神、手势等身体动作所反映出的认知活动，就会被完全忽略。通过观察身体如何接纳不同的视角(Dancygier & Sweetser，2012)、管理周身的空间(Kita & Özyürek，2003)、与物质环境交互(Goodwin，2007)、将新的概念融入已有的具身经验(DeLiema & Steen，2014)、通过隐喻的形式表达观念(Cienki & Müller，2008)等等，我们可以更深入地理解思维与学习是如何分布在一个学习者的“本土结构”(local configuration)中的。只有当我们承认了身体的运作原本就属于学习过程的一部分时，我们才能对教学设计做更全面的考量，例如教师如何通过肢体语言影响学生的学习、学生的身体动作如何影响教师的形成性评价、学生对自己身体的觉察与控制如何促进其学业成就，等等(Goldin-Meadow & Alibali，2013)。

(二)社会的身体①

学习不仅仅是单个人的具身认知，也是多个人在某一情境中共同的具身认知。因此，身体不仅是个人的，也是社会的。学习归根结底发生在社会互动之中，并且是参与者在这一互动情境中的文化建构过程。倘若个人的认知过程是具身的，那么嵌于社会互动之中的认知和学习也必然是具身的。

Mauss(1973)的研究对“社会的身体”有开创性的影响。通过观察和比较法国人和英国人使用身体的方式(如进食、走路等)之差异，他提出了“身体的技术”的理论，认为人对身体的使用和控制反映了他们的历史经验、社会地位与文化传统。梅洛-庞蒂提出了“身体间性”(intercorporeality)的概念，他指出人在世界上的存在不可避免地与“和他人的身体相遇”紧密关联，而我们的社会交往也不可避免地处在身体的交往之中(如点头、握手、眼神接触)(Merleau-Ponty，1968)。因此，对身体的使用或明或暗地包含着对他人身体之存在的认识和协调。这与巴赫金所说的“引用性”(citationality)和常人方法学所说的话语的“接受者设计”(recipient design)有异曲同工之妙，即都认为语言和身体具有内在的社会性(Bakhtin，1982；Goodwin & Heritage，1990)。

(三)身体与物件

除了身体本身之外，视频还记录了人与其所处情境中的物件互动的过程，而这一过程同样深刻地影响着学习过程，影响着观察者对学习过程的理解与阐释。后现代主义有关“事物”的理论(thing theory)和拉图尔的行动者网络理论(actor-network theory, ANT)，都把“物件”提到与人平等的地位。拉图尔用“行动者”(actant)这一概念来指称一切在实时的情境中影响社会互动的元素，它不仅仅限于人(human actant)，而可以是其他任何事物，近到白板、纸张、桌椅，远到某一政策或文化观念(non-human actant)。只要这一元素影响(act upon)了此时此地的社会互动，它就是一个行动者(Latour，2005)。拉图尔指出，为了识别出这些行动者，我们需要细致地跟踪事物在情境中的状态，并观察它们对社会互动造成影响的微观过程(Latour，1996a)。很显然，这种跟踪和观察需要我们反复观看视频数据。对实时的情境进行肉眼的观察，将会遗漏很多有潜在价值的细节，从而使我们意识不到行动者的存在及其意义。

三、如何进行基于视频的学习过程分析？

本节将通过两个研究案例，展示上文所述的三个分析维度，即个人的身体、社会的身体、身体与物件。我们希望通过案例的呈现与分析，论证这三个维度对于学习过程分析的重要性，同时强调视频这一数据源不可或缺。我们将首先介绍这些案例所处的研究课题背景，以便让读者对案例的整体情境有所了解。随后，我们将分别描述这两个案例，并阐述其中值得“重复、慢速、多人观看”的现象。在每个案例的结尾，我们将分别对其中的“分析焦点”(focus of analysis)进行总结。

第一个案例将呈现“个人的身体”的维度，它来自David DeLiema的研究课题(DeLiema & Steen，2014)。这一课题招募了20名选修传播学课程的大学生(10名女性，10名男性)，随机分配至两个实验情境中：具身情境和非具身情境。本文关注的是具身情境中的一名参与者，他听到实验者念出一段有关网络分组交换(packet switching)的文章，并需要即时地用手势呈现他对所念文字的理解。我们在本文所用的数据源是一段约15秒的视频。

第二个案例将呈现“社会的身体”和“身体与物件”的维度，它来自肖思汉的研究课题(Xiao，2015)。这一课题的数据来自美国西南地区某小学的六年级科学课堂，包括48名学生(27名女性，21名男性，平均年龄11.4岁)和1名女性科学教师。在一个学年的时段内，肖思汉与这名科学教师一起设计学习材料、学习活动与教学策略，并用一台摄像机拍摄教学过程。本文关注的是其中的天文学单元中的一节课：“太阳为什么这么热”。我们在本文所用的数据源是一段约90秒的视频。

(一)案例一：“当数据包进入路由器”

在认知科学“身体转向”的背景下(Barsalou，1999；Gibbs Jr，2005)，心理学家和教育研究者开始运用视频来记录身体——尤其是手势——在学习过程中的角色。在一个具体情境中，手势的发生与变换太过短暂迅速，又有太多细微的差别，肉眼不可能捕捉到其全部的复杂性。如果没有视频，研究者无法意识到身体对学习的影响，而具身的学习科学就会是一个无法发展起来的领域。更重要的是，我们现在已经知道，思维、语言和手势都源自于同样的认知行为系统(Chu & Kita，2016)，那么倘若没有视频，我们将错过有关学生思维的形成与发展的重要信息，从而阻碍我们对学习的深入理解。

在这些理论的基础上，我们将用一个既简单又复杂的手势来展示个人的身体是如何驱动学习过程的。说其简单，是因为它只有一个单一的动作；说其复杂，是因为这一动作关联到认知与学习的许多层面。如前所述，这一手势来自David DeLiema对大学生进行具身认知研究的数据。在研究情境中，一名学生听到研究者读出一句话：“当数据包进入路由器时，路由器就会将反馈信号传回第一台电脑，确认数据包已经到达。”与此同时，该学生需要用手势将这句话表达出来(图1.1-1.8)。在这个手势中，研究者或教师能够观察到哪些有助于理解学习过程的信息？这些信息又将如何帮助我们设计更好的教学？

图1 一名学生用手势表达数据包传递的过程

第一，我们可以看到视角。作为一种对现实的表征，人的手势隐含着视角：角色视角(character viewpoint)，即手势者的身体就是被表征物本身；观察者视角(observer viewpoint)，即手势者在有距离地(即身外)观察物体(即其身体)的动作。在以上的案例中，这名学生首先让他的整个身体“成为”了路由器，抓住了某个并没有被身体表征的数据包(1.1-1.4)。随后，他的右手又“成为”了反馈信号，离开左手所表征的路由器，而他的主要身体在反馈信号和路由器之外，观察这一现象。视角是一个非常复杂的现象(Dancygier & Sweetser，2012；Parrill，2009；Stec，2012)。研究表明，与观察者视角相比，采用角色视角能够促进对数学概念的理解(Gerofsky，2010)。也就是说，从概念系统(例如正弦函数、摩擦力、二氧化碳)本身的视角来体会某一知识(如牛顿第一定律、光合作用)能够促进学习，科学教师专业发展和社区学习的实证研究都支持这一观点(Kohn，2013；Ochs, Gonzales, & Jacoby，1996)。更宽泛地说，对任何复杂系统的学习都涉及到“钻进去”与“跳出来”的过程(Ackermann，1996)。在我们的案例中，这名学生在“成为系统中的一个元件”的视角和“有距离地观察系统的运作”的视角之间转换，而这种角色视角和观察者视角的结合和变换，恰恰是人类的认知系统对外部世界建构模型的方式。

第二，我们可以看到空间。手势必然在某个特定的空间内发生，例如在身体的左边、中间或者右边。手势也必然会在这一特定空间内移动。在以上的案例中，学生抓住数据包，从身体的右边移动到左边，然后在同样的空间轨迹里，把反馈信号传回原处。这一简单的手势中隐含着这名学生的空间认知。空间推理被广泛认为是STEM(科学、技术、工程、数学)学习的核心认知能力(Kell, Lubinski, Benbow, & Steiger，2013)，而手势为空间推理能力发展的研究提供了一个绝佳的途径(Emmorey & Casey，2001；Kita & Özyürek，2003；O’Meara & Báez，2011)。DeLiema等人(2016)的研究表明，视角与空间推理常常为学习者带来彼此冲突的认知负荷，而能够在早期认知发展中调和这一冲突的学习者占据着更有利的地位。在以上的案例中，这名学生虽然转换了具身表征的视角，但仍然维持了空间位置的一贯性(例如隐含在手势之外的“第一台电脑”的位置)。我们可以据此论证，这名学生在空间认知上具有正常的能力。

第三，我们可以分析概念的混合(conceptual blending)。由于手势与身体紧密相连，它为人类利用身体的直觉移动来理解复杂或抽象的概念提供了工具。在学习科学领域，研究者利用参与式模拟(participatory simulation)来帮助学习者运用身体理解概念(Colella，2000；Enyedy, Danish, Delacruz, & Kumar，2012；Nemirovsky, Tierney, & Wright，1998)。这些模拟使问题解决过程中的认知表征变得“可见”(Alibali, et al., 1999；Schwartz & Black，1996)。在以上的案例中，这名学生的手势混合了两个概念系统中的物体运用：物理世界中的抓取和移动；以及利用这种抓取和移动来表征信息世界中的光纤信号传递。这种利用具身的隐喻(可视为一种“嫁接”)来促进表征和思维的方式，就是认知科学所研究的“概念混合”(Fauconnier & Turner，1996)。学习者怎样将先前的具身经验(如挥舞手臂、摆动头部、抓取物体等)与特定的语言和物质资源混合起来，将极大地影响学习过程，而这种混合也将经由课堂互动而变得更加稳定(Enyedy, Danish, & DeLiema，2015)。在以上的案例中，作为语言资源的“数据包”“路由器”“反馈信号”等词汇以及将它们联结在一起的语法，和学生利用简单手势所表征的移动过程，跟这个手势所界定出的虚拟物理空间(如第一台电脑在路由器的右边)混合在一起，非常高效地形成了一个模拟的复杂系统。

第四，我们可以分析符号领域的整合。作为手势的载体，人的身体不能与外部环境割裂开，也不能与这个人的身体与外部环境互动的过往经验割裂开。互动研究界用“环境联结手势”(environmentally coupled gesture)来表示那些将手势与外在的符号领域联结起来的行为(Goodwin，2007)。在以上的案例中，这名学生所做手势的每一个环节都和之前的手势轨迹相整合。例如，只有当数据包有从右向左的运动轨迹，才会有反馈信号从左向右的运动轨迹，尽管前一个轨迹在后一个轨迹进行时已经不可见了。手势也可以与语言的符号领域相整合，这对教师而言是一个很有效的教学资源，因为他们可以将新的概念(即语言符号)与新的数学表征(即图像符号，包括手势)(Alibali, et al., 2014)整合在一起。此外，不同符号领域可能呈现不同的信息，就像一个学生的手势和他说的话之间出现不一致，而这便很可能是一个潜在的有效教学机会(Alibali & Goldin-Meadow，1993)。因此，教师需要对手势符号和其他符号领域的整合情况保有敏感(Cook, et al., 2016)。

最后，我们可以分析手势的压缩。手势可以将一些非常复杂的观念捕捉和压缩为简单的符号表征。例如，Becvar，Hollan和Hutchins(2005)在实验教学中用五个手指的“爪子”手势来表征分子的概念，并在长时间的教学中持续地使用这种表征，让全班学生在学习中有一个共同的参照符号，促进了他们对这一难点概念的理解。在以上的案例中，这名学生在其后的实验过程中，还做了另外一个手势(2.1-2.6)，复制但压缩了之前的手势(1.1-1.8)。Kirsh(2012)将这种行为称为“标记”(marking)，即用简单的符号标记更为复杂的符号，从而提高认知效率。

(二)案例一的启示

总而言之，我们可以从一个简单的手势中提炼出一系列的分析维度，例如视角、空间、概念混合、符号整合、压缩等，这些分析维度都有助于我们理解思维和学习的复杂过程与机制。目前，手势研究还是一个非常新的领域，现有的研究发现还不足以为“教师应该如何运用手势促进教学”或者“学生应该如何运用手势促进自己的学习”提供明确的操作指南。即使有这样的操作指南存在，在某个特定的复杂课堂情境中，它的有效性也值得怀疑。然而，这并不代表我们可以忽略手势的作用。认识到身体是人类认知不可分割的一部分，研究者和教师都应该更加关注身体在学习过程中的影响机制。身体怎样改变学习者的视角与经验？身体怎样在特定的空间内组织学习活动？身体怎样混合学习者在不同时空习得的先前知识与经验？身体怎样将外部世界的表征通过具身的符号系统联结在一起？身体如何将这些符号系统压缩成更简洁的形式，从而促进思维与学习的效率？即使面对看似简单的行为，如果我们拥有这些问题意识，都能够看到很多之前看不到的现象，发现很多之前无法发觉的规律。在以上的案例中，我们可以思考一系列有意义的问题，例如：这名学生在角色视角和观察者视角之间的转换，意味着什么？对他理解信息系统的复杂性有什么影响？如果把实验者念出的那句话当做一份学习材料(如教材上的一个关键信息、教师在课堂上试图让学生重点理解的一个知识点)，我们可以怎样组织这句话的结构(如改变从句的顺序)，或者加入怎样的词汇(如“进入”“抓取”“扔出”)，以便学生更好地通过身体来表征这一知识？这个信息系统中的元素(如数据包、路由器、反馈信号、电脑)可以怎样被组织到一个更统一的空间里？我们还能设计怎样的学习环境(如增强现实)，以便学生更加具身地理解类似的复杂知识？在概念混合和符号压缩的过程中，教师可以起到怎样的辅助作用(例如通过自己的手势加以引导)(Flood & Abrahamson，2015)？利用基于视频的分析方法，我们可以精细地研究这些问题，从而将形成性评价、学习环境设计、教学设计乃至认知过程的理论研究推进到一个更为微观与根本的层面，最终促进学生的学习过程。

(三)案例二：“太阳为什么这么热”

案例二来自于肖思汉在美国某小学六年级科学课堂所做的微观互动民族志研究。在天文学单元，教师提出了一个主导问题：“太阳为什么这么热”。学生在课下各自收集相关信息，并在全班讨论的环节中汇报自己的发现。教师试图引导他们一起写出一段话，作为该问题的答案，并达成全班的一致同意。本案例关注下图中央站立着的教师，以及三个学生的互动：下图右侧最靠近白板的男生马特，下图左下方坐在靠后的椅子上，双手握着铅笔的男生乔，和下图右侧双手放在笔记本电脑上的男生卢克。在本文聚焦的片段里，马特首先发表了自己的观点，他认为太阳之所以这么热，是由于热的空气被重力拉到其核心。乔和卢克都质疑这一观点，认为太阳热的原因是由于核聚变。在90秒钟的时间内，马特从坚持己见变为了同意后者的观点。这其间发生了什么事情？这些事情对于我们理解课堂互动和学习过程有什么意义？基于视频的互动分析可以回应这些问题。

图2 案例二的六年级科学课堂情境

我们首先关注马特最初的观点和乔与卢克最初的质疑。以下的转录呈现了这段互动，包括英文原文和中文意译②，以及视频影像的截图。

图3

马特：呃，基本上，重力……由于重力将所有东西拉到一起，就像「手指张开，向下抓」往中心拉，你可以这么说，呃，所有的东西，就像氦气和……很多气体，就像这样，就是这样……这就让它变得很热，

卢克：被压缩了。「微微抬头」

图4

图5

图6

马特：[看着卢克，见图3]被拉到中心「张开又合上五指，见图4、图5、图6」所以它这么热，因为你想想，所有热的东西都被拉到一个中心，就像你到一个建筑里……

图7

图8

教师：这就是……

乔：不是，但是日冕「举起右手」

卢克：那也可能……

乔：日冕比太阳……

卢克：并不必然要热「张开双臂，见图7」，

乔：热多了「右手指向白板，见图8」

图9

卢克：当气体碰撞的时候。

马特：对「望向乔，见图9」，这……日冕更热这是因为……

教师：等等，你们不能全都同时说话。

从转录文本可见，马特与其他两位学生的争论焦点主要在“何为太阳热的原因”。马特认为原因在于重力把本来已经很热的气体拉到了太阳的中心，所以太阳就变得更加热。乔用“日冕比太阳(的核心)更热”这一证据来驳斥这一说法，因为倘若按照马特的思路，太阳的热度就应该从核心向外递减，那么就无法解释为什么日冕会更热。在此基础上，卢克进一步指出，气体本身并不必然是热的，但在被重力拉向中心的过程中，发生了碰撞，这才是太阳之所以这么热的原因。

在以上的互动中，有三个细节值得我们关注：

第一，马特的观点表达不仅仅在语言层面，也在身体层面。当他说“重力把气体拉向中心”时，他的双手也在同时做出牵拉与分合的动作。作为互动研究者，我们不能假定他的手势次于他的语言，处于辅助表达的位置，而应该将二者置于平等的地位。

第二，将语言和身体平等看待，有助于我们发现和理解“社会的身体”。当卢克质疑马特时，他同样也用手臂做出了“张开”的动作，如果我们仅仅将手势视为语言的附属品，那么我们就无法理解这一手势的意义。其实，这一张开双臂的手势可以被视为是在“引用”(cite)马特的观点，它在表征的是处于太阳外围、还没有被重力拉入中心的气体，卢克用同样的手势表明自己的观点建立在马特的基础上。但是，卢克并没有引用“合上”的手势，这是因为他并不认为“拉入中心”这一动作本身是太阳热的原因。虽然他的话语被多人对话插得支离破碎，但我们仍然可以从他的身体——尤其是他的身体与马特的身体之间的互动，即“社会的身体”——理解当时的情境和意义。

第三，乔对马特的质疑也不仅仅在语言层面，也在物件层面。当他说“日冕比太阳热多了”的时候，我们很容易将其理解为一种不同观点的表达。那么，为什么马特并没有质疑这一观点，而是试图解释其原因(“日冕更热这是因为……”)呢？最可能的假设是，在当时的情境里，“日冕更热”已经是一个共识。如果看不到身体，这一假设就无从考证。其实，在这一片段之前，他们已经讨论过太阳各层(如核心、色球层、过渡区)的温度，并全部记在了白板上，而乔的右手正是指向白板上的这一内容。因此，当我们把语言(“日冕比太阳热多了”)、身体(手的指向)和物件(白板)同时纳入到分析之中，我们就能理解这句话并非在表达不同的观点，而是在引用已有的证据。

在教师插入对话、试图对多人插话的情况进行干预时，马特继续发言，以下的转录呈现了接下来的课堂互动。

图10

教师：等等，你们不能全都同时说话。所以……

马特：日冕更热是因为……

教师：不，你的意思是……

马特：这是中心，所以它是全部的……「将两手扣在一起，见图10」

图11

图12

教师：等等，马特，让我把这个记下来，然后我们可以补充。所以重力把气体拉到……「指向白板，见图11」

马特：中心。

教师：内层的……

马特：核心。

教师：核心。

马特：这就是为什么它会热。

教师：核心，拉到核心，这就是为什么……「在白板上写字，见图12」

在以上的互动中，马特再次重申了自己的观点。同样，这一观点的重申不仅在语言层面(“日冕更热是因为全部的「很热的气体」都「被拉到」中心”)，也在身体层面(图10)。也就是说，他并没有因为乔和卢克的质疑而改变自己的观点。从教师的语言(连续的联结—补充型对话)和身体(把马特的观点记录到白板上，即“证据的载体”)上，我们也可以看到她对马特观点的倾向。

随后，卢克重新进入对话。在以下的转录(视频为28秒)中，我们将看到，无论马特还是教师，都认可了卢克的观点，改变了自己的看法。在这么短的时间内，究竟发生了什么呢？

图13

图14

图15

图16

图17

教师：核心，拉到核心……

艾丽斯：我的意思是，发生了什么……

教师：这就是为什么……

卢克：「看着笔记本电脑屏幕」所以重力将气体「马特转头看向卢克，见图13」拉到一起，「马特向右转动眼球，看着卢克面前的屏幕，见图14」而气体并不必然「马特转回眼球，看向卢克，见图15」是热的，虽然它已经是有些热了，非常热。

图18

马特：但是，等等，它们在一起，对。

卢克：然后它拉着……因为重力，所有的气体都落入中心，然后在中心，当它们全都碰撞在一起，就产生了核……核反应。

教师：好的，所以它就导致了……

卢克：嗯，有些气体……

教师：所以它就导致了那个聚合。「用手拍白板，见图18」

卢克：(碰)在一起，是的。

图19

图20

教师：好的。

卢克：然后它就导致……

马特：它……它导致了爆炸。

卢克：是的，然后这个爆炸就是它这么热的原因。「张开手臂又闭合，见图19；然后用左手扳动笔记本电脑屏幕边缘，试图合上屏幕，见图20」

教师：好的。「望向白板，准备写」

为了理解以上互动中“说服”与“被说服”的微观过程及其机制，我们对参与互动的关键的三方(教师、马特、卢克)分别进行分析。

我们首先来分析教师被说服的证据，这一证据反映出语言、身体和物件之间的复杂互动和共时(synchronization)(Goodwin & Goodwin，1996)。在整段互动初始，卢克第一次插话(“被压缩了”)时，教师完全没有望向他(图3)。当卢克继续发言时，教师的眼神扫向他(图7)，但迅速移向了首先提出质疑的乔(图8)，然后又移向了试图反驳的马特(图9和图10)。在语言上，教师仅仅是从班级管理的角度说“你们不能全都同时说话”，而完全没有回应卢克的观点本身。随后，当卢克再次插入对话，并说了两段很长的话时，教师对他做出了直接的肯定回应(“好的，所以”)。然后，教师用手掌指向白板上已有的内容，望向卢克，并说“所以它就导致了”，这是在用语言和身体同时“引用”已有的证据，从而进一步肯定了卢克的观点。最后，教师继续两次作出肯定回应(“好的”“好的”)，并转向白板，准备记下卢克的观点，这一举动正式、公开地确立了卢克观点的合法性。

同样，马特被说服的证据也蕴藏在他的语言和身体之中。和教师一样，马特原本并没有关注卢克的发言：他的眼神扫过卢克(图7)，停留在提出质疑的乔身上(图8)，当他用手势进行争论时，他的眼神也一直望向乔(图9和图10)，证明他的争论所指向的听众是乔，而不是卢克(或教师)。然而，当马特听到了教师对卢克观点的肯定，并看到她引用了白板上的已有证据(图18)后，他望向了卢克(图19)，并一直听完了后者的发言(图20)。在语言层面，他原本还试图反驳(“等等，但是”)，但紧接着就做出了让步(“对”)，并重复了卢克的观点(“它导致了爆炸”)，从而认可了这一不同的观点，改变了自己的原有看法。

那么，教师和马特为什么会在这么短的时间内改变看法呢？如果没有视频数据，没有对“社会的身体”和“身体与物件”的敏感，我们对这一说服过程就将失去很关键的一层理解：我们将会遗漏这段互动中的另一个主角，它对“说服”所起到的作用不亚于——甚至还要超出——乔和卢克的角色。这个主角就是卢克面前那台笔记本电脑，也就是拉图尔的行动者网络理论所提出的“行动者”(Latour, 1996b；2005)。在卢克第二次插入对话之前和之后，他的电脑屏幕上的内容是不一样的(图16和图17)。我们可以合理地猜测，他当时正在用电脑查找相关信息，而第二次插话时的电脑屏幕上的内容，大致就是他说出来的内容。卢克的语言可以进一步印证这一猜测。“所以”这一连接词，在课堂话语中通常具备“指向乃至先前话语”的功能(O’Connor & Michaels，1996)，并且标记接下来的一段较长的话语(Bolden，2009)。在这段对话中，所有的“所以”都可以就此理解，唯独卢克第二次插入的话，以“所以”开头，但却没有重复先前的话语，也没有特定的指向，那么我们可以更加合理地猜测，这个“所以”所指向的就是电脑所查找出来的相关内容。当卢克开始插话时，马特望向他(图13)，然后立即顺着卢克的眼神望向了电脑屏幕(图14)，然后又望向卢克(图15)。在马特眼神转向的这短短两秒钟内，我们可以看到电脑这一行动者的“现身”：它开始借由卢克的身体发出声音、表达观点。在这个课堂情境中，网络信息的权威性超过了马特、卢克、乔、教师，乃至在场的其他任何人，而马特意识到了这一点。这便是这一“说服”与“被说服”的过程之关键：不是卢克说服了马特，而是笔记本电脑——作为借由卢克发声的“行动者”——说服了马特。

(四)案例二的启示

以上的分析基于具身的视角，探索了四位课堂互动参与者的“说服”与“被说服”的微观过程。从这种以一秒、一帧、一个动作为单位的分析中，我们可以看到身与身、身体与物件的互动是如何影响课堂讨论的进程，进而影响学生的学习过程的。倘若没有视频，我们就无法看到这些关键的互动。

长久以来，社会科学将互动中的身体和物件视为语言的附属。这种“语言中心论”的视角极大地阻碍了我们对人类互动之复杂机制的深入理解。Goodwin(1979)通过极其微观地观察与描述餐桌上的一句交谈，呈现了眼神在日常语言生产中的关键——甚至是先决的——作用。Hutchins(1996)通过细致地观察一艘船上的船员工作，论证了他们关于航海的知识(认知层面)是如何分布在他们的身体(身体层面)和船身环境(物件层面)里的。在我们的案例里，教师与学生在共同学习“太阳为什么这么热”的知识时，他们的知识生成与发展的过程也并非仅在各自的脑子里，或者仅在语言交谈的层面，而是同时在他们的身体之间的共时协调，以及在他们与周遭物件和环境的互动之中。如果失去了这些信息，或者不以这样的视角重新加以审视，我们就很容易把这两分钟的师生互动视为无比简单、无比寻常、没有研究价值的数据，也就无法回答这一课堂互动究竟是“怎样发生的”，无法理解教师、马特、乔、卢克四人之间如此复杂而精细的争论过程，也更无法基于这种理解深入探究课堂教学与学习过程的机制。

四、结论与展望

在上文的论述中，我们简要回顾了社会科学与教育研究中运用视频分析的历史，并指出视频能让我们在个人的身体、社会的身体、身体与物件的互动等三个重要的层面上“看见”之前看不见的现象，进而探究原本习以为常或无法理解的课堂互动和学习机制。我们用两个案例详细阐明，在具体的研究课题里，这三个层面根本性地影响了我们的视角、分析与阐释，而视频数据在其中起到了不可或缺的作用。

对教育研究而言，基于视频的学习过程分析蕴藏着巨大的潜力。我们认为，要发掘这种潜力，教育工作者需要在三个维度上继续前行。

第一，从理论视角上扭转“语言中心论”的偏见。这种偏见不但会影响数据分析，也会影响数据采集。例如，在拍摄课堂视频时，持有“语言中心论”的拍摄者往往会只关注课堂上“说了什么”，而镜头的移动与缩放也只和说话的人有关(比如对每一个说话的人——尤其是教师——进行面部特写)。这样的课堂视频充其量只是教师教学过程的粗糙记录，而远远满足不了学习过程分析的要求(Erickson & Wilson，1982)。这种偏见同样体现在课堂视频的转录之中，例如仅仅转录文字，或者将身体置于语言的附属位置(Bezemer & Mavers，2011；Ochs，1979)。在如今由关注“教”到关注“学”的课堂转型过程中，我们需要关注课堂互动的各方，而不仅是教师；我们也需要关注课堂互动的所有层面，而不仅是语言层面。只有从具身的视角看待互动，我们才能更深入地探索学习的机制，进而才能设计更有效的课程与教学。

第二，探索教师对自己课堂的评价权。长期以来，由于缺乏“证据”意识，以及获取“确凿”证据的手段，课堂评价往往依赖于教学经验更为丰富的教师，而这种评价往往也出自评价者——作为“局外人”的个人或专业背景，而与课堂本身的历史、文化、社会情境有所割裂。尽管基于量表的观察可以提供一些证据，但它经过了观察者的二次处理，而课堂本身已经无法重复。视频虽然也经过了拍摄者的二次处理，但它尽可能地还原了课堂本身的情境和过程，而且可以反复、多人观看。Sherin和她的团队在教师专业发展中探索“视频俱乐部”的模式，邀请教师观看和评论自己的课堂视频。研究表明，通过集体观看和讨论课堂视频，这些教师逐渐关注到自身以外的其他现象，如学生的言行、共享知识的生成、物件的摆设、规范与文化的影响，等等(Sherin & Han，2004；Sherin & van Es，2009)。更关键的是，作为“局内人”的教师对自己的课堂情境有更深入的理解，因此他们的评价更有效度，也更能够为他们自己的教学改进和专业发展提供有针对性的帮助。

第三，尊重课堂生活世界中的“日用行常”。Cazden在其经典著作《课堂话语》一书的开篇就写道：“课堂是人类环境中最拥挤的一种”(Cazden，2001，p. 2)。但是，它同时也是我们最习以为常的一种，因为每个人都或多或少、或远或近地拥有身处课堂之中的经历。在社会科学传统宏大叙事的轰鸣声中，课堂上的一言一语、一举一动往往被视为琐碎、无序、庸常的杂乱现象。经历了“语言学转向”和“身体的转向”后，社会科学界开始认识到日常生活的重要性。常人方法学、交往民族志、微观互动民族志等方法论取向为教育研究——尤其是学习过程机制的研究——提供了许多新的方向和问题(Erickson，2004；Koschmann, Stahl, & Zemel，2007)，而它们无不需要我们尊重课堂上看似寻常的现象、事件与情境。只有从课堂生活世界中的“日用行常”入手，尊重一点一滴的证据，积累对课堂复杂互动的理解，我们才能推动更宏大、更广阔的教育变革。

Ackermann, E. (1996). Perspective-taking and object construction: Two keys to learning. In Y. Kafai & M. Resnick (Eds.).Constructionisminpractice(pp. 25-35). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.

Alibali, M. W., & Goldin-Meadow, S. (1993). Gesture-speech mismatch and mechanisms of learning: What the hands reveal about a child’s state of mind.Cognitivepsychology, 25, 468-523.

Alibali, M. W., Bassok, M., Solomon, K. O., Syc, S. E., & Goldin-Meadow, S. (1999). Illuminating mental representations through speech and gesture.PsychologicalScience, 10(4), 327-333.

Alibali, M. W., Nathan, M. J., Wolfgram, M. S., Church, R. B., Jacobs, S. A., Johnson Martinez, C., & Knuth, E. J. (2014). How teachers link ideas in mathematics instruction using speech and gesture: A corpus analysis.CognitionandInstruction, 32(1), 65-100.

Bakhtin, M. (1982).Thedialogicimagination:Fouressays. Austin, TX: University of Texas Press.

Barsalou, L. W. (1999). Perceptions of perceptual symbols.Behavioralandbrainsciences, 22(4), 637-660.

Becvar, L. A., Hollan, J., & Hutchins, E. (2005). Hands as molecules: Representational gestures used for developing theory in a scientific laboratory.Semiotica, (156), 89-112.

Bezemer, J., & Mavers, D. (2011). Multimodal transcription as academic practice: A social semiotic perspective.InternationalJournalofSocialResearchMethodology, 14(3), 191-206.

Bolden, G. B. (2009). Implementing incipient actions: The discourse marker “so” in English conversation.JournalofPragmatics, 41(5), 974-998.

Cazden, C. B. (2001).Classroomdiscourse:Thelanguageofteachingandlearning. Portsmouth, NH: Heinemann.

Chu, M., & Kita, S. (2016). Co-thought and co-speech gestures are generated by the same action generation process.JournalofExperimentalPsychology:Learning,Memory,andCognition, 42(2), 257-270.

Cienki, A., &Mu?ller, C. (2008). Metaphor, gesture, and thought. In R. W. J. Gibbs. (Eds.).TheCambridgeHandbookofMetaphorandThought(pp. 483-501). Cambridge, UK: Cambridge University Press.

Colella, V. (2000). Participatory simulations: Building collaborative understanding through immersive dynamic modeling.TheJournaloftheLearningSciences, 9(4), 471-500.

Cook, S. W., Friedman, H. S., Duggan, K. A., Cui, J., &Popescu, V. (2016). Hand gesture and mathematics learning: Lessons from an avatar.Cognitivescience, 41, 518-535.

Dancygier, B., & Sweetser, E. (2012).Viewpointinlanguage:Amultimodalperspective. Chicago, IL: Cambridge University Press.

DeLiema, D., & Steen, F. F. (2014). Thinking with the body: conceptual integration through gesture in multiviewpoint model construction. In M. Borkent, B. Dancygier, Hinnell, J. (Eds.).LanguageandtheCreativeMind(pp. 275-294). Stanford, CA: CSLI Publications.

DeLiema, D., Saleh, A., Lee, C., Enyedy, N., Danish, J. A., Illum, R., Dahn, M., Humburg, M., & Mahoney, C. (2016). Blending play and inquiry in augmented reality: A comparison of playing a video game to playing within a participatory model. In C-K. Looi, J. Polman, U. Cress, & P. Reimann (Eds.).ProceedingsoftheInternationalConferenceoftheLearningSciences(pp. 450-457). Singapore: International Society of the Learning Sciences.

Derry, S. J., Pea, R. D., Barron, B., Engle, R. A., Erickson, F., Goldman, R., … Sherin, B. L. (2010). Conducting video research in the learning sciences: Guidance on selection, analysis, technology, and ethics.JournaloftheLearningSciences, 19(1), 3-53.

Emmorey, K., & Casey, S. (2001). Gesture, thought, and spatial language.Gesture, 1, 35-50.

Enyedy, N., Danish, J. A., Delacruz, G., & Kumar, M. (2012). Learning physics through play in an augmented reality environment.InternationalJournalofComputer-SupportedCollaborativeLearning, 7(3), 347-378.

Enyedy, N., Danish, J. A., & DeLiema, D. (2015). Constructing liminal blends in a collaborative augmented-reality learning environment.InternationalJournalofComputer-SupportedCollaborativeLearning, 10(1), 7-34.

Erickson, F. (2004).Talkandsocialtheory:Ecologiesofspeakingandlisteningineverydaylife. Malden, MA: Polity Press.

Erickson, F. (2011). Uses of video in social research: A brief history.InternationalJournalofSocialResearchMethodology, 14(3), 179-189.

Erickson, F. & Wilson, J. (1982).Sightsandsourcesoflifeinschools:Aresourceguidetofilmandvideotapeforresearchandeducation. East Lansing, MI: Institute for Research on Teaching.

Fauconnier, G., & Turner, M. (1996). Blending as a central process of grammar. In E. Goldberg Adele (Ed.).Conceptualstructure,discourse,andlanguage(pp. 113-130). Stanford, CA: CSLI Publications.

Flood, V. J., Abrahamson, D. (2015, April).Refiningmathematicalmeaningsthroughmultimodalrevoicinginteractions:Thecaseof“faster.” Paper presented at the annualmeeting of the American Educational Research Association (Special Interest Group:Semiotics in Education: Signs, Meanings, Multimodality). Chicago: IL, April 16-20.

Gerofsky, S. (2010). Mathematical learning and gesture: Character viewpoint and observer viewpoint in students’ gestured graphs of functions.Gesture, 10(2), 321-343.

Gibbs Jr, R. W. (2005).Embodimentandcognitivescience. New York, NY: Cambridge University Press.

Goldin-Meadow, S., & Alibali, M. W. (2013). Gesture’s role in speaking, learning, and creating language.AnnualReviewofPsychology, 64(1), 257-283.

Goldman, R., Barron, B., Pea, R., & Derry, S. (2007).Videoresearchinthelearningsciences. Mahwah, NJ: Lawrence Erlbaum.

Goodwin, C. (2007). Environmentally coupled gestures. In S. Duncan, J. Cassell, & E. Levy (Eds.).Gestureandthedynamicdimensionoflanguage(pp. 195-212). Amsterdam, The Netherlands: John Benjamins.

Goodwin, C. (1979). The interactive construction of a sentence in natural conversation. In G. Psathas (Ed.).EverydayLanguage:StudiesinEthnomethodology(pp. 97-121). New York, NY: Irvington Publishers.

Goodwin, C., & Goodwin, M. H. (1996). Seeing as situated activity: Formulating planes. In Y. Engeström & D. Middleton. (Eds.).Cognitionandcommunicationatwork(pp. 61-95). New York, NY: Cambridge University Press.

Goodwin, C., & Heritage, J. (1990). Conversation analysis.AnnualReviewofAnthropology, 19(1), 283-307.

Green, J. L. (1983). Research on teaching as a linguistic process: A state of the art.ReviewofResearchinEducation, 10(1), 151-252.

Heritage, J. (1984).GarfinkelandEthnomethodology. Cambridge, UK: Polity Press.

Hutchins, E. (1996). Learning to navigate. In S. Chaiklin& J. Lave. (Eds.).Understandingpractice:Perspectivesonactivityandcontext(pp. 35-63). Cambridge, MA: Cambridge University Press.

Jefferson, G. (1984). Transcript notation. In J. M. Atkinson & J. Heritage. (Eds.).StructuresofSocialAction:StudiesinConversationAnalysis(pp. ix-xvi). New York, NY: Cambridge University Press.

Jordan, B., & Henderson, A. (1995). Interaction analysis: Foundations and practice.JournaloftheLearningSciences, 4(1), 39-103.

Kell, H. J., Lubinski, D., Benbow, C. P., & Steiger, J. H. (2013). Creativity and technical innovation spatial ability’s unique role.Psychologicalscience, 24(9), 1831-1836.

Kirsh, D. (2012). How marking in dance constitutes thinking with the body.Versus:QuadernidiStudiSemiotici, 113-115, 179-210.

Kita, S., &?zyürek, A. (2003). What does cross-linguistic variation in semantic coordination of speech and gesture reveal? Evidence for an interface representation of spatial thinking and speaking.JournalofMemoryandlanguage, 48(1), 16-32.

Kohn, E. (2013.)Howforeststhink:Towardananthropologybeyondthehuman. Berkeley: University of California Press.

Koschmann, T., Stahl, G., & Zemel, A. (2007). The video analyst’s manifesto (or the implications of Garfinkel’s policies for the development of a program of video analytic research within the learning sciences). In R. Goldman, R. Pea, B. Barron & S. Derry. (Eds.). Video research in the learning sciences (pp. 133-143). Mahwah, NJ: Lawrence Erlbaum Associates.

Latour, B. (1996a). On actor-network theory: A few clarifications.SozialeWelt, 47(4), 369-381.

Latour, B. (1996b).On interobjectivity.Mind,CultureandActivity, 3(4),228-245.

Latour, B. (2005).Reassemblingthesocial:Anintroductiontoactor-network-theory. New York, NY: Oxford University Press.

Mauss, M. (1973). Techniques of the body.EconomyandSociety, 2(1), 70-88.

Merleau-Ponty, M. (1968).Thevisibleandtheinvisible. Evanston, IL: Northwestern University Press.

Nemirovsky, R., Tierney, C., & Wright, T. (1998). Body motion and graphing.Cognitionandinstruction, 16(2), 119-172.

Ochs, E. (1979). Transcription as theory. In E. Ochs & B. B. Schiefelin (Eds.)Developmentalpragmatics(pp. 43-72). New York, NY: Academic Press.

Ochs, E., Gonzales, P., & Jacoby, S. (1996). “When I come down I’m in the domain state”: Grammar and graphic representation in the interpretive activity of physicists. In E. Ochs, E. A. Schegloff, & S. A. Thompson (Eds.).Interactionandgrammar(pp. 328-369). New York, NY: Cambridge University Press.

O’Connor, M. C., & Michaels, S. (1996). Shifting participant frameworks: Orchestrating thinking practices in group discussion. In D. Hicks (Ed.).Discourse,Learning,andSchooling(pp. 63-103). New York, NY: Cambridge University Press.

O’Meara, C., &Báez, G. P. (2011). Spatial frames of reference in Mesoamerican languages.LanguageSciences, 33(6), 837-852.

Parrill, F. (2009). Dual viewpoint gestures.Gesture, 9(3), 271-289.

Schwartz, D. L., & Black, J. B. (1996). Shuttling between depictive models and abstract rules: Induction and fallback.Cognitivescience, 20(4), 457-497.

Sherin, M. G., & Han, S. Y. (2004). Teacher learning in the context of a video club.TeachingandTeacherEducation，20(2), 163-183.

Sherin, M., & van Es, E. A. (2009). Effects of video club participation on teachers’ professional vision.JournalofTeacherEducation, 60(1), 20-37.

Solnit, R. (2003).Riverofshadows:EadweardMuybridgeandthetechnologicalwildwest. New York, NY: Viking Penguin.

Stec, K. (2012). Meaningful shifts: A review of viewpoint markers in co-speech gesture and sign language.Gesture, 12(3), 327-360.

Xiao, S. (2015).Children’suseofinscriptionsinargumentationaboutsocioscientificissues(Unpublished doctoral dissertation). University of California, Los Angeles, CA.

注释：

① 我们感谢乔治亚大学的刘畅博士对“社会的身体”和“身体与物件”这两节的指点。有关这两点的更多论述与应用，可参阅其博士论文：Liu, C. (2017).LivingTogether:TheBodilyLifeofPreschoolsinChinaandtheUnitedStates(Unpublished doctoral dissertation).Athens, GA: The University of Georgia.

②需要特别说明的是，由于我们在此使用的是话语分析领域通用的杰弗森符号系统(Jefferson，1984)来进行话语转录，因此，在英文原文中，会出现符号(比如圆括号)嵌用的现象；在中文译文中，也使用了“直角引号”(「」)等符号，这都是杰弗森符号系统的规定用法。

(责任编辑童想文)

10.16382/j.cnki.1000-5560.2017.05.005

国家社会科学基金“十三五”规划教育学青年课题“重塑科学课堂教学模式实证研究——以课堂争论为载体”(CHA160206) 。