计算思维该如何评？*<br/>——基于国内外14种评价工具的比较分析

计算思维该如何评？*
——基于国内外14种评价工具的比较分析

2020-07-17惠恭健兰小芳钱逸舟

远程教育杂志 2020年4期

惠恭健兰小芳钱逸舟

（江南大学教育信息化研究中心，江苏无锡214122）

一、研究背景

自2006年美国卡内基·梅隆大学周以真教授提出计算思维概念以来，计算思维便逐渐进入公众视野，并引起了研究者的广泛关注。在信息时代，计算思维如同阅读、写作和算术一样，成为信息社会中学生解析问题的一项基本能力。[1]计算思维的快速发展，也得到世界各国的高度重视。美国2011年修订的《CSTA K-12 计算机科学标准》、英国2013年开展的“新课程计划”、澳大利亚2015年制定的“新课程方案”，都将计算思维作为新信息技术课程的重要内容。我国早在2010年发布的《九校联盟（C9）计算机基础教学发展战略联合声明》中就强调，要把培养学生计算思维作为计算机基础教学的一项重要的、长期的和复杂的核心任务。[2]2018年，由教育部印发的《普通高中信息技术课程标准（2017年版）》中，也将计算思维作为信息技术学科培养的核心素养之一。[3]可见，对学生计算思维的培养是时代所需。

从文献调研来看，目前，我国关于计算思维的研究还比较有限。相比之下，国外对计算思维研究开展得较早，也较为深入。早在20 世纪90年代，西摩·帕尔特（Seymour Papert）教授就曾发表文章，表达运用计算思维来帮助构建具有“阐释性”几何理论的可能。[4]经过多年的发展，国外关于计算思维的研究已经非常丰富，涉及到计算思维的教学问题、促进计算思维教育工具的使用以及计算思维评价等多个方面。[5]在计算思维的研究中，重视计算思维的培养是很重要的一个研究主题，而对学习者计算思维发展变化的关注，也是当前研究所不可忽视的内容。关注学习者思维方式的变化过程、观察与分析思维外显行为的过程，即为计算思维的评价过程。评价对于衡量学生计算思维水平以及判断计算思维教育的成效至关重要，应该被学界广泛关注与深入研究，但我国的计算思维评价研究却仍然偏薄弱。[6]

基于此，我们以评价为切入点，筛选出14 种（国外13 种，国内1 种）典型的评价工具，从评价模式、内容、标准等方面分析优势与不足，以期为我国计算思维评价提供一些借鉴。

二、研究设计

研究选用Web of Science-SSCI、SpringerLink、IEEE Xplore 和ACM Digital Library 等目前国际比较权威的社会科学引文索引，在一定程度上保证了研究数据的权威性。具体文献调研与研究，分以下四个步骤展开：

第一，采用关键词为“computational thinking”AND（“assessment”OR“measurement”OR“evaluate”）的策略在不同数据库中进行检索。之所以选择这一检索策略，是基于关键词是论文的核心浓缩这一考虑，通常情况下文献的核心内容会在关键词中有所体现。为了保证检索结果的全面性，避免重要文献被遗漏，我们在以上数据库检索的基础上，将谷歌学术搜索作为补充。

第二，为了确保研究对象的有效性与代表性，本研究遵循以下几个规则，对检索文献进行初步筛选：（1）文献属于实证类研究且与教育相关；（2）文献与计算思维相关且包含评价部分；（3）评价工具是对计算思维技能的评价，而不是对教学过程进行的评价；（4）排除文献综述与理论框架构建类文献；（5）剔除不同数据库间的重复文献。基于以上规则进行筛选后，共获得56 篇相关文献。

第三，对筛选后的文献进行深入阅读，将文献中提及的其他计算思维评价工具以及相关参考文献，以“滚雪球”的方式进行第二轮检索，并按照步骤二的原则进行筛选，得到补充性文献27 篇。

第四，按照计算思维评价工具的评价类型，对所有文献进行分组，最终得到39 篇相关文献，包含14种国内外较为知名的计算思维评价工具。这些工具具有很高的信效度，并呈现以下特点：（1）评价工具受关注度高。在不同学者的研究文献中被反复提及，且被改编应用于不同研究中。（2）评价工具经过多次迭代完善。研究人员在开发评价工具之后，其后续研究会继续对它们进行迭代完善，使得评价工具能够更加客观地测量出学习者计算思维能力水平。这也是我们最终确定以这14 种典型的计算思维评价工具，作为分析对象所依据的原则所在。

三、计算思维评价工具的分类

计算思维是运用计算机科学基本概念去求解问题、设计系统和理解人类行为的思考方式，[7]其培养目标主要是对人的思维完整性与逻辑性进行训练，并建立一种看待与解决问题的新视角。[8]目前，关于计算思维的培养，大多是以编程任务、游戏设计或学科课程等形式进行的。因为培养形式的不同，计算思维的评价方式也存在差异。本研究通过“滚雪球”的方式以及依据一定的筛选条件，共筛选出14 种典型的国内外计算思维评价工具，根据评价形式将其分为基于试题的评价、基于量表的评价、基于编程任务的评价与基于系统环境的评价四种类型（如表1所示）。

表1 计算思维评价工具信息汇总

其中，基于试题的评价工具主要是以试卷测试题的形式，客观地测量学习者的计算思维能力水平；基于量表的评价工具主要以量表的形式，来测量学习者对计算思维能力的主观认知；基于编程任务的评价工具则将评价结合到编程任务中，通过要求学习者完成相应的编程任务，来对其计算思维能力进行评价；而基于系统环境的评价工具则需要依托系统环境，通过自动收集学习者的学习过程性数据，来对学习者的计算思维能力进行评价，最终系统会根据学习者的学习情况，自动生成评价反馈报告。

（一）基于试题的评价

1.计算思维测试（CTt）

CTt（Computational Thinking test）是由西班牙学者罗曼·冈萨雷斯（Romaán-Gonzaález）所开发的学习者计算思维发展水平评价工具。这一工具包含28个测试项目，每个项目均以“迷宫”或“画布”的形式显示。通过这种方式可以测量学习者对基本的计算概念（if 条件、if/else 条件、while 条件、循环/固定循环、简单函数、带参数的函数等）的掌握情况，以及使用编程来解决相关问题的能力。测试总时长为45 分钟，每个项目准确完成得1 分，总分数为28 分。由于该工具所设计的测试项目均为封闭性题目，并未包含开放式的复杂题项。因此，无法在“应用”与“同化”水平上测量出学生的计算思维能力，只能在“识别”与“理解”水平上进行测试。[23]所以，CTt 比较适用于计算思维能力的前测，也就是学生的初始计算思维能力水平测试。

2.贝布拉斯挑战赛测试（Bebras Tasks）

Bebras Tasks 侧重于测量学习者利用计算思维解决生活实际问题的能力。该工具与其它计算思维评价工具的产生略有不同，它源于2003年立陶宛举办的“贝布拉斯国际信息学与计算素养竞赛”（The Bebras International Contest on Informatics and Computer Literacy）。该竞赛的目的是促进全世界中小学生对计算机科学兴趣的发展，现已发展成为一项国际计算思维挑战赛。从英国历年举办的Bebras Tasks 计算机思维挑战赛的测试题库中可以看出，专家们所设计出的不同难度等级任务，主要是为了测量学习者对五个计算思维能力（算法思维、抽象、分解、概括与评估）的掌握程度。[24]竞赛中的项目由60 几个国家的计算机教育专家共同设计。因此，Bebras Tasks 的可靠性与有效性被认为是很高的。

另外，每年各国的竞赛项目都会作为公共资源进行免费共享，这为学者开发相关的计算思维评价工具，提供了很好的资源支持。例如，中国台湾地区学者郭维琛等在探讨“计算思维棋盘游戏对学生计算思维能力与行为模式影响”的研究中，便选用了20 道Bebras 挑战赛测试题目，来对学生的计算思维能力进行测评，并测得计算思维棋盘游戏可以加深学生的互动，提高学生高层次的思维能力。[25]韩国学者吉耶能（Jiyae Noh）等在“机器人编程对小学生计算思维和创造力影响”的研究中，使用了澳大利亚Bebras Tasks 计算思维挑战赛的测试题目，对学生进行前测与后测，以比较学生在编程前后计算思维能力的变化。[26]

3.基于可视化编程创作的计算测试（VBCCT）

VBCCT（Visual Blocks Creative Computing Test）是西班牙学者塞兹·洛佩斯（Sáez-López）在测量西班牙五所小学107 名学生的计算思维能力时所使用的评价工具。该研究进行了为期两年的实验，主要评估在小学课堂中可视化编程语言Scratch 的使用效果。VBCCT 包含40 个项目的测试，涉及到计算概念与计算实践等两方面的内容。其中，计算概念包含序列、循环、条件语句、并行执行、事件处理等要素；计算实践则主要是指学生在教育环境中进行的计算机动画、游戏和创作等活动。从塞兹的实验结果来看，在小学教育中使用可视化编程语言Scratch，可以显著提高学生的计算思维能力。

4.基于机器人程序设计课程的测试（Robotics Program tool）

Robotics Program tool 是美国学者威瑟斯庞（Witherspoon）等人针对机器人程序设计课程所开发的评价学习者计算思维知识与技能的工具。它包含三个独立版本（“A 版”“B 版”“C 版”）的测试题目，每个版本均包含17 个测试题，学习者将会被随机分配到其中一个版本，进行计算思维的在线测试。每个版本对于计算思维的评价，都包含两方面内容：一是学习者在非机器人环境中对计算思维概念的理解；二是学习者将计算思维概念迁移到不同场景的能力。总体而言，参与机器人程序设计课程前后，学生的成绩有显著提升。

（二）基于量表的评价

1.计算思维评价量表（CTS）

CTS（Computational Thinking Scales）是由土耳其学者柯尔克玛兹（Korkmaz）等人设计开发的计算思维评价量表。该工具是由29 个题项组成的李克特五点量表，主要从创造力、算法思维、协作、批判性思维、问题解决等五个方面，来测量学习者的计算思维能力水平。柯尔克玛兹利用CTS 对1306 名本科在校生、本科毕业生以及研究生等不同教育背景的学生进行测试，并通过探索性因素分析、验证性因素分析、项目显著性分析、内部一致性系数等方法，对量表进行了信度和效度检验。结果表明，该量表是一种有效、可靠的计算思维评价工具。

目前，这一评价工具在学界获得了较高的认可度，并在计算思维评价中被不同学者广泛借鉴。例如，加拿大学者多勒克（Doleck）等人基于CTS 量表构建了结构模型，将计算思维的五方面能力与学生学习成绩、年龄、性别进行关联，并使用偏最小二乘法，评估计算思维与学习者学业成绩之间的联系；[27]中国学者李幸等人将CTS 量表改编后，作为单组实验的评价工具，对学生计算思维五方面的能力进行前后测，以观察基于设计的STEM+C 教学模式，对学生计算思维能力的提升作用。[28]

2.计算思维自我效能感评价量表（CTSES）

CTSES（Computational Thinking Self -Efficacy Scale）是一种计算思维自我效能感量表，由土耳其学者库库尔（Kukul）等人开发。自我效能感是学习者对于自身能够实现目标的能力的感知。计算思维自我效能感量表就是用于测量学习者对其是否能够掌握，或在多大程度上掌握计算思维技能的自我评估。[29]

在量表的开发过程中，首先要确定量表的测量内容，也就是确定测量学习者对哪些计算思维能力的感知。研究人员经过探索性因素分析，确定了4 个测量因子，分别为推理、抽象、分解和概括。随后，根据测量因子，编制成一份由4 个因素和18 个项目组成的中学生计算思维自我效能感量表。最终，对该量表进行验证性因素分析与信效度分析。结果表明，量表的有效性与可靠性都是可接受的，可以用于预测学习者对自身计算思维能力水平的认知。

（三）基于编程任务的评价

1.计算思维发展模型（PECT）

PECT（Progression of Early Computational Thinking）是由美国学者塞特（Seiter）等人提出的计算思维发展模型。该模型是一个在Scratch 编程环境中，用于理解与评估小学生初阶计算思维能力的框架。PECT 假设每个学生都具有潜在的计算思维能力，且体现在学生完成特定编程任务的设计与执行程序过程中。它由证据变量、设计模式变量、计算思维概念变量三个基本部分组成。

为了评价学习者在编程中的计算思维能力水平，PECT 将学习者的编程过程转换成13 个证据变量（即可直接测量的变量）、6 个设计模式变量（即分析学习者的编码设计模式）以及5 个计算思维概念变量（根据计算机科学教师协会“Computer Science Teachers Association，CSTA”提出的计算思维操作性定义，[30]来测量学习者对计算思维概念的理解）。最终根据每个变量的得分，将学习者的计算思维能力划分为基础、发展与熟练三个层次。

2.计算思维三维整合框架（TDIA）

TDIA（Three-Dimensional Integrated Assessment）是由中国学者钟柏昌等人开发的计算思维评价框架。该框架将方向性、开放性和形成性三个维度整合到有效评价活动中，并由此设计了六个任务：（1）封闭式正向任务；（2）半开放式正向任务；（3）封闭式反向任务；（4）半开放式反向任务；（5）具有创造性设计报告的开放任务；（6）不具有创造性设计报告的开放任务。TDIA 框架对计算思维的评价，便是依据这六个不同编程任务具体展开。其中，“任务1-4”主要衡量学习者测试、调试、循环、并行、模块化等技能，“任务5”与“任务6”主要衡量学习者的设计规划技能以及创造力与表达力。

概而言之，TDIA 框架是评价学习者在Alice 编程环境中，完成六个不同编程项目所涉及的计算概念、实践和观点，其评价类型分为形成性评价与总结性评价。形成性评价是对学习者的反思报告与创意设计报告的评价，总结性评价是对编程项目的评价。已有研究结果表明，半开放式任务与开放式任务比封闭式任务更加有效，学习者的自我反思报告对学习诊断与指导有所帮助。从内容上看，TDIA 框架丰富了计算思维的评价任务，拓展了评价任务设计的理论基础。[31]

3.精灵评价工具（The Fairy Assessment）

The Fairy Assessment 是美国加州大学基于Alice 编程程序开发的一款评价工具。[32]Alice 是一款免费的教育软件，支持创建具有3D 图形效果的交互式动画故事，允许用户通过拖放编程以及Java 等语言编程来控制3D 角色。[33]The Fairy Assessment 对学习者的评价，需要在Alice 编程环境中完成。其中设计了三个不同难度级别的独立评价任务（不同任务间的评价互相不影响），用于测量学习者算法思维、抽象与建模等各方面的能力。

任务1 主要是测量学习者的程序理解力，即学习者通过算法、抽象、建模来理解程序的能力。任务2 不仅要测量学习者的程序理解力，同时还需要测量学习者的设计能力以及问题解决能力。因此，学习者需要确定程序为什么不能正确执行，并通过算法思维来制定问题解决方案。任务3 则主要测量学习者的程序理解力与设计能力。最终，由两位编码人员对学习者每项任务的解决方案，给出“0-10 等级”的评分。满分为30 分，根据学习者所获得的总分，来评估他们上述三方面的能力。

（四）基于系统环境的评价

1.计算思维基础课程评价系统（FACT’s Systems of Assessments）

FACT（Foundations for Advancing Computational Thinking）是美国学者格罗弗（Grover）等人开发的培养学生计算思维基础的课程。该课程强调学生在“做中学”，旨在培养和激励中学生通过设计算法来解决问题的能力。FACT’s Systems of Assessments 是FACT 课程的评价系统，是基于Scratch 编程环境的评价，包含形成性测验、总结性测试、开放性编程作业与迁移测试等。[34]

其中，形成性测验贯穿于整个课程，由多组选择题组成，旨在为学习者提供激励性的反馈与解释，帮助学生更好地理解计算概念。总结性测试即课程最终的在线测试，由多组选择题与开放式问题组成，部分题目选自2012年以色列国家考试的测验题目，[35-36]旨在通过考察学习者对算法、变量、条件、循环等计算概念的掌握情况，以及学习者的代码追踪和调试技能，来评估学习者的计算思维能力。另外，FACT 课程还要求学习者与合作伙伴共同完成一个开放性项目，作为总结性评价的一部分。在完成项目的过程中，培养学习者的解决问题、协作、计划、交流、展示和反思等能力。

2.计算思维实时评价系统（REACT）

REACT（Real Time Evaluation and Assessment of Computational Thinking）是由美国学者科赫（Koh）等人开发的计算思维实时评价系统。该系统主要基于维果斯基的最近发展区理论，以及计算思维模式分析（CTPA）[37]的方式，来测量学习者的计算思维能力。它深入挖掘、实时分析了学习者的编程学习行为数据，并将分析结果记录在数据库中，从而帮助教师在教学过程中，快速洞察学习者对计算思维知识的掌握情况。该系统具体的分析原理是从编程代码中提取语义，来判断学习者具体的计算思维模式（CTP）类型，并以图表的形式，将计算思维模式的形成过程可视化呈现。简而言之，REACT 是一种旨在提高和发展学习者计算思维技能，并自动提供实时图形反馈的形成性评价工具。

3.忍者代码自动评价系统（NCV）

NCV（Ninja Code Village）是由日本学者大田（Ota）等人设计的，一种支持Scratch 可视化编程语言的学习环境。该环境内置了Scratch 项目中常用的60 多种示例函数，作为计算思维训练的学习材料。另外，开发者设计了一个计算思维评价框架，嵌入在NCV 环境中，并对所测量的计算思维概念，给出“0-4 级”的评价标准，用于测量学习者对计算概念的掌握水平。NCV 的主要目标是培养学习者计算思维的抽象、建模与分解能力，以及将实际问题或任务要求转换成计算机程序的能力；其基本的运行逻辑是通过自动分析学习者项目中所使用的函数，并依据评价框架，对学习者的计算思维概念（条件语句、循环、数据、事件与并行性等）进行自动评价。这一学习环境的未来定位是：通过分析学习行为记录，自动为学习者与教师提供科学的反馈，帮助教师解决在编程教育中存在的问题，成为计算思维教育的智能教学系统。

4.Scratch 代码自动评价系统（Dr.Scratch）

Dr.Scratch 是一个免费的开源Web 应用程序，可以帮助教师自动分析学习者的Scratch 编程项目。西班牙学者莫雷诺·莱昂（Moreno-León）等人就曾利用Dr.Scratch，从抽象与问题分解、逻辑思维、并行、同步、流量控制、用户交互和数据等计算思维概念的构成要素出发，对学习者的编程学习展开形成性评价。[38-39]Dr.Scratch 的具体运行思路是：通过自动分析学习者的编程代码，对测量的每个计算思维概念，给出“0-3 级”的评分标准，并以此来判定学习者在编程中的计算思维能力水平。最终，Dr.Scratch 会将分析结果生成一份报告反馈给学习者，反馈报告中给出了帮助学习者提升计算思维技能的建议和指南，学习者可以据此来改进和完善其编程代码，从而提高自身的编程能力。

5.计算思维模拟与建模评价系统（CTSiM）

CTSiM（Computational Thinking using Simulation and Modeling）是由美国学者巴苏（Basu）等人开发的面向中学生的开放式计算思维科学学习环境。[40-41]CTSiM 通过模拟与建模的方式，培养学习者探索、假设与解决真实复杂问题的能力，从而促进学习者掌握科学知识与计算思维技能。开发者先设计帮助学习者建模的自适应框架，并结合计算思维原理与科学课程，在科学领域的知识中设置相关脚手架以及为学习者提供反馈与策略，旨在帮助学习者更有效地构建与测试模型。[42]在CTSiM 环境中，对学习者计算思维能力的评估，一方面，是通过前后测试来评价学习者在计算思维知识方面的收获；另一方面，是要求学习者在指定问题场景中进行算法构建，评估学习者计算思维实践的能力，以及对编程结构（如，条件、循环和变量等）的理解。

四、计算思维评价工具的比较与应用

由于教育目的、教学内容以及研究者所选用研究方法的差异，在计算思维教学过程中，实施的评价内容与方式也会有所不同。鉴于计算思维本身的复杂性，单独使用任何一种测评工具，对学习者计算思维能力发展的理解都会有偏差。[43]也就是说，没有一种计算思维评价工具可适用于所有的教育情境。因此，计算思维评价工具的选择，要综合考虑教学方式、教学内容、教学对象等诸多方面的因素。

本研究所选择、分析的14 种计算思维评价工具，在评价方式、评价类型、评价环境等方面各不相同且各有所长，很难遴选出最优的计算思维评价工具。但通过比较分析，仍能发现不同评价工具在使用中的相对优势（如表2所示）。

表2 不同类型计算思维评价工具的比较

（一）评价工具的应用场景

1.试题类评价工具的选用

基于试题的评价工具，多数以选择题或填空题的形式呈现，这类工具主要用于测量中小学生对计算思维概念的掌握情况以及实践应用情况。它可在中小学信息技术课堂中，结合对计算思维的培养过程进行测量使用。此类评价工具以题测形式，来客观测量学习者的计算思维能力水平，其对评价环境的要求限制较少，因此，比较易于迁移使用。另外，由于试题类评价工具操作便利且易于分析，所以，在计算思维的评价中使用频率最高。但其对测试题目的设计要求相对较高，需要基于相关的理论与评价标准加以设计，并在实践中迭代完善。

其中，Bebras Tasks 就是由来自全球60 多个国家的计算机教育专家共同开发的，其开发过程严谨且资源免费共享，对研究者的专业背景没有严苛的要求，可直接根据研究需求对其进行改编应用。另外，此评价工具是以问题解决方式，来测量学习者的计算思维能力迁移水平。例如，Bebras Tasks 在很大程度上都是通过拟物或故事化、情境化的方式来设计问题，这保证了没有任何编程经验的学习者都可以参加测试，并可以有效测量出学习者在算法思维、抽象、分解、概括、评估等五方面的计算思维能力水平。

我国学者傅骞等人在“基于图形化工具的编程教学促进初中生计算思维发展”的实证研究中，将英国2015年与2016年的《Bebras 国际计算思维挑战赛试题册》，改编成计算思维试题卷（A、B 卷），作为评价工具在前后测量中使用，以此来测量学习者的计算思维能力变化。[44]除了作为计算思维评价工具，Bebras Tasks 还可以作为一项趣味性任务，来培养学习者的计算思维。而CTt 作为计算思维的诊断工具，有其特有的优点，比如，它可以对集体进行预测试，从而帮助筛选出计算思维能力强或在计算思维教育中有特殊需求的个体。[45]此类工具，可应用于计算思维能力水平的前后测量。

2.量表类评价工具的选用

基于量表的评价，主要关注学习者计算思维认知与态度等情况的测量，是一种由学习者进行自我汇报的主观评价。由于此类评价工具是对学习者主观态度的评价，因此，评价工具本身并不存在测量的难度问题，适用于不同年级、不同学习阶段的学习者测量。总体来说，相较于其他形式的评价工具，量表在评价形式与计量方式方面更加简单易操作。但此类工具同时也存在主观性较强的问题，因此，最好能搭配其它类型的评价工具一同使用。

由柯尔克玛兹（Korkmaz）等人设计开发的CTS量表，主要侧重于测量学习者在计算思维培养过程中的创造力、算法思维、协作能力、批判性思维与问题解决能力等方面的变化；同时，可配合不同的培养手段，对学习者的计算思维进行测量。目前，该量表被较多的研究所改编与使用。

此外，CTSES 量表主要侧重于对学习者计算思维自我效能感的测量，可作为一种诊断工具，提前预测学习者对自己能否掌握计算思维能力的信心，即计算思维自我效能感，以协助教师掌握学习者的计算思维能力基础，从而有针对性地确定培养方案。此类工具，可应用于对计算思维观点态度的前后测量。

3.编程任务类评价工具的选用

基于编程任务的评价，是以任务的形式来促进学习者计算思维的培养，并根据任务过程中学习者计算思维技能的表现作出评价的工具。目前在中小学课程的实施中，编程教育通常是与信息技术课程（计算机课程）相结合的，为此，一些研究人员开始逐渐关注编程的教学方法与教学策略。[46]编程教育与计算思维密切相关，结合编程任务对计算思维进行评价，也在成为一种新的评价视角。

编程任务一般是在“Scratch”与“Alice”等基于块的可视化编程环境中实施，这些环境通常是免费、有趣、简单易用且具有图形吸引力的，因此，更能激发学习者的学习兴趣与积极性。较之基于试题与量表的评价，基于编程任务的评价为学者提供了更大的开发空间；不仅能对学习者的计算思维能力展开有效评估，还在很大程度上丰富了计算思维的评价方式。但此类工具也需要尽可能多地记录学习者的学习过程细节，因此，其分析工作量较大且分析难度也较高。例如，TDIA 评价工具，主要是基于Alice 编程环境设计的六个编程任务，来测量学习者在封闭式任务、半开放式任务与开放式任务中对计算思维概念的理解，以及对计算思维实践的掌握。这为计算思维评价，提供了一种新的设计思路。

而PECT 评价工具是将学习者在Scratch 编程环境中进行的编程任务，转换成可直观测量的变量，并通过这些变量来衡量学习者的计算思维能力。PECT 评价工具所设计的评价标准，可用于对开放式、非结构化的任务进行人工分析评判。[47]此类评价工具，需要结合编程任务情境进行测量使用。

4.系统环境类评价工具的选用

基于系统环境的评价，主要是借助计算思维培养系统，自动收集与分析学习者的编程过程性数据，并以此来评估学习者计算思维能力的方式。此类评价工具，需要依托系统环境对计算思维能力进行评估。研究设计者通常会提前将与计算思维相关的内容嵌入到系统环境中，学习者在系统环境中进行学习、完成任务，并提交作品，最终系统会依据学习者学习产生的行为数据，自动生成可视化的评价结果或给出评价得分。此类评价内容一般由研究设计者依据计算思维培养内容进行自主选择，不具有统一性。[48]

系统环境类评价主要以过程性评价为主，具有自动化与实时性的特点，不仅能够帮助教师自动跟踪学习者的学习进度，还能为学习者提供实时且具有针对性的学习反馈，从而促进学习者计算思维能力的提升。但此类评价工具对技术的要求较高，需要能自动分析学习过程行为数据并生成反馈报告。例如，REACT 系统可以实时分析学习者的编程学习行为数据，进而从编程代码中提取语义，来评估学习者的计算思维模式，并自动将分析结果反馈给学习者。

此外，基于系统环境的评价较之于其它三种类型，在系统开发方面对技术要求会更高。但其评价内容与评价方式也会更加丰富，且评价系统通常能进行自动分析并给予实时反馈，这对提升计算思维评价的科学性与有效性，具有非常重要的意义。此类评价工具，需要借助系统环境进行自动评价反馈。

5.其它类型评价工具的选用

基于试题类、量表类、编程任务类以及系统环境类的评价工具，主要是以测试、做任务以及编程等形式，通过量化方式来收集学习者的行为数据并进行整理分析，从而对学习者计算思维能力水平进行客观评价的。但量化评价有其局限性，通过数据有时无法很好地解释现象背后的原因，从而无法深入了解在计算思维培养过程中的细节问题。而质性评价则能够对量化评价进行很有效的补充，从而更加全面地分析与评价学习者的计算思维能力。例如，布仁南（Brennan）与雷斯尼克（Resnick）提出的“基于作品的访谈”，就是这一评价方式的典型代表。[49]

研究者通过采访学习者完成作品的过程信息，对学习者的计算思维能力水平进行评估。其中，访谈内容包括：（1）作品制作基础，即学习者在进行作品制作之前，拥有哪些类似的制作经验；（2）作品制作过程，包括学习者对作品的构思想法、制作过程以及如何克服过程中遇到的困难等；（3）作品交流分享，即学习者之间就如何制作作品进行经验分享与交流；（4）反思与期待，包括学习者对如何改进、完善作品的思考以及对与技术相关的哪些环节产生兴趣。最终，研究者会通过提取访谈过程中的细节信息以及关键词，来分析与评估学习者计算思维概念、实践与观念等三个维度的思维变化过程。

基于作品的访谈评价方式，能够从学习者的言语信息、语气语调以及情绪状态中，评估出学习者计算思维能力的变化。但这种评价方式也存在一定问题，例如，访谈较为耗时，一次访谈通常需要1-2 小时，时间成本较高；特别是对于低年级学习者群体而言，受访对象较容易出现表达不清晰等情况，从而使得评价产生偏差。因此，基于作品的访谈的评价方式，在日常计算思维培养的教学中较少使用，但当量化评价结果无法很好地解释现象背后的原因时，质性评价的介入，可以在一定程度上对其进行补充。

（二）评价工具的选用原则

计算思维评价工具是由不同国家的学者所开发的，其势必会受到社会文化、教育背景以及技术规范等多方面的影响。即使是目前应用较为广泛的评价工具，在对其进行跨国度借鉴的过程中，也需要非常严谨的转译与修改。例如，Bebras Tasks 虽然包含不同语言版本的设计，但大多是面向欧美国家的，我国计算思维评价在借鉴过程中，仍需要对这一工具进行转译。另外，不同国家的题目设计情境，跟其文化背景紧密相连，所以，在参考相关工具时也需要做出一定的修改，以便进行文化适应。

为了将土耳其学者柯尔克玛兹（Korkmaz）等人开发的量表CTS 引入到我国计算思维评价中，我国学者白雪梅等人对该量表进行了相应转换与修改，并在实践中验证了其有效性与适用性，从而为我国中小学计算思维的培养、评价以及相关研究提供了一个科学的工具。[50]目前，计算思维评价工具大多是由欧美等国家学者开发的，所以我们在借鉴与参考这些工具的过程中，需要充分考虑不同国家之间的文化差异，以做出必要的修改与验证，从而保证评价工具的适切性与有效性。

五、对国内计算思维评价工具的开发建议

随着计算思维逐渐被K-12 教育广泛认同，目前学界对计算思维的焦点已经转移到“如何促进计算思维的发展”以及“如何评价计算思维”等更为实际的问题上。如果缺乏对评价的关注，那么，计算思维将很难成功进入到K-12 课程中。[51]对计算思维的评价，不仅可以通过各种技术手段反映出学习者计算思维能力的变化过程，而且兼有为计算思维培养提供指导与反馈的作用。因此，对计算思维评价工具的开发是不可或缺的，同时，也是当前计算思维教育的当务之急。本研究在借鉴不同类别计算思维评价工具的基础上，提出以下关于国内开发计算思维评价工具的一些建议：

（一）组建专业团队，迭代评价工具

思维测量不同于知识测量，思维不仅抽象而且复杂，因此，对思维的测量向来是困难的，而计算思维作为新兴的学科思维，对其进行测量更加困难。[52]同时，这也是一个长期系统的过程，测量工具的开发，不应只由计算机教师进行，应该是由计算机学科专家、教育心理学家以及思维学家等形成工具开发团队，并配合一线教师，根据不同学段学习者计算思维的表现形式、发展规律以及培养目标等展开设计。最终，工具开发完成之后还需要在实际课堂中进行实践，并不断迭代与完善评价工具。

（二）构建理论框架，遵循评价原则

计算思维评价工具的开发需要一定的理论指导，这是评价工具科学性与有效性的重要保证。因此，强化计算思维评价工具的理论研究，构建相应的理论框架，是保证评价工具有效开发的前提条件。当前，学界比较知名的计算思维评价的理论框架，是由布仁南（Brennan）等人提出的三维评价框架。该框架认为评价可以从计算思维概念（序列、循环、并行、事件、条件、运算符与数据）、实践（增量与迭代、测试与调试、再利用与再创作、抽象与模块化）与观点（表达、交流与提问）三个方面来展开。从现有的研究来看，三维评价框架能较为全面地指导研究人员对学习者的计算思维理论知识、应用实践以及观点视角等方面作出评价，从而更加准确地评估学习者计算思维能力的发展情况。TDIA 评价工具就是在此框架基础上进行设计开发的。

计算思维偏向于抽象的问题解决思维方式，而评价工具的开发则需要客观、有效地将学习者问题解决过程转化成可测量的形式，以便评估学习者的计算思维能力变化。因此，计算思维评价工具要根据问题解决的三个阶段进行设计，即提出问题、形成解决方案、执行并验证方案。评价工具的开发，需要遵循以下原则：（1）概念化或关系化问题，将问题以概念形式表征出来或者通过关系图以及表格等形式，理清问题中各元素的关系；（2）计算化或编程化解决方案，将问题解决方案按照计算思维方式，拆解成计算机可以识别的程序或语言；（3）仿真化或可视化评价结果，使计算机执行的结果像人的思维的结果一样，并以可视化的方式呈现出来。[53]

（三）丰富评价指标，完善评价体系

为了能更加精准、有效地测量学习者的计算思维能力变化，学者们开发了种类丰富的计算思维评价工具。虽然不同评价工具的形式存在差异，但其评价内容与评价维度却大同小异。总体而言，可以归纳为对计算思维概念、实践与观点，即对计算思维知识、能力、认知三个维度的评价。每个维度的评价均可以细分为若干具体可测量的评价指标。例如，计算思维概念维度的评价可细分为序列、循环、条件、变量、运算符与数据等指标；计算思维实践维度的评价可细分为抽象、自动化、算法思维、问题分解、测试与调试、规划与设计等指标；计算思维观点维度的评价则可以从对编程的态度、信心、自我效能感、自我表达、交流与提问等指标展开。

当前，大多数计算思维评价工具，侧重于对计算思维概念与实践维度的评价，而对计算思维观点维度的评价相对较少。[54]未来计算思维评价工具的开发，可以适当增加对观点这一维度的测量，以保证计算思维评价的完整性，从而形成一个更为全面的评价系统，以有效测量学习者计算思维能力的发展。

（四）综合评价形式，提倡混合测量

当前，已有计算思维评价工具形式较为丰富，但多数是通过收集学习数据来进行的量化评价。其中，对计算思维概念的评价，通常是以试题的形式来对学习者进行前测与后测，以评估学习者对计算思维概念的理解程度；对计算思维实践的评价，则多数以编程任务的形式进行测量；而对计算思维观点的评价，多数以量表的形式，来判断学习者对计算思维的自我认知情况。但计算思维的复杂性，决定了任何单一的评价工具都很难对其作出全面的评价。已有的研究也表明，尚没有一种计算思维评价工具，能从计算思维概念、实践与观点三个维度有效地测量学习者计算思维的发展。[55]这对计算思维工具的开发，既是一个挑战，也是一个契机。未来，计算思维评价工具的开发，需要综合多种工具形式，来对学习者计算思维进行全面测量。即需要通过将问题解决、编程分析、试题测量、访谈观察等方法结合起来，并嵌入评价工具或评价系统中，以此来实现对学习者计算思维概念、实践与观点等维度的综合考察。

六、结语

计算思维评价是计算思维培养的重要环节之一，对计算思维理解的不同，其评价方式也会存在差异。单一形式的评价工具，对计算思维的评价虽然“各有所长”，但很难保证评价的完整性与全面性。因此，在计算思维培养的过程中，教师需要根据具体的培养内容，选择适合的评价工具。我们深入分析了14 种典型的国内外计算思维评价工具，对目前K-12阶段计算思维评价活动的开展，具有重要的现实指导意义。计算思维评价工具是需要在实践中不断更新和完善的，不管是一线教师还是计算思维研究者，都可以基于试题、基于量表、基于编程任务、基于系统环境等不同的评价类型，单独使用或综合运用，以促进学习者计算思维的发展。

考虑到国外计算思维工具开发环境和技术规范与我国存在差异，引入的过程往往面临较高的文化适应成本。我国学者可以依据计算思维的理论框架，以及遵循相应的开发原则，来组建专业的开发团队，确定科学的评价指标，从而自主开发本土化的计算思维评价工具，为推进我国计算思维教育的发展贡献智慧。