国外教师数据素养测评研究及启示

2020-02-15刘淑君

开放教育研究 2020年1期

李艳刘淑君

(浙江大学教育学院，浙江杭州 310028)

一、引言

随着人工智能和大数据技术教育应用的日益普及，一线教师可获得的教育数据呈几何指数增长，这些数据只有被科学地处理和分析后才能对教育教学产生积极影响 (Means et al．，2010；何克抗，2014)。教育部门和相关专家倡导教师要从基于经验的决策转向数据驱动的决策，并坚信这种转变会提高教育教学质量(Ingram et al．，2004)。在这一背景下，教师数据素养的议题受到教育界的广泛关注。

教育研究关注的“数据”指“系统地收集起来的有关学校某方面的信息”，既包括教学测评定量数据，也包括课堂观察、访谈、人口统计学等类型的定性或定量数据(Mandinach & Gummer，2016a；Schildkamp et al．，2017)。管理者、学生、家长和教师等角色不同，数据素养的内涵也不同。本研究关注的是教师群体的数据素养。从广义上讲，“数据素养”指“使用数据指导决策的能力”(Data Quality Campaign，2014；Kippers et al.，2018；Mandinach & Gummer，2013)。不过，在很长时间内，学术界对教师数据素养的概念并没有达成共识，也没有形成明确的定义。2016年，美国学者曼迪那契(Mandinach)提出了教师数据素养(Data Literacy for Teachers/Teaching，简称DLFT)的概念，并将其界定为“教师通过收集、分析和解释所有类型的数据(包括测评、学校环境、行为、纵向等数据类型)帮助确定教学步骤，从而将信息转化为可操作的教学知识及实践的能力”(Mandinach & Gummer，2016a)。

随着智能教学系统在各级各类学校的广泛应用，我国一线教师已日渐熟悉教学场景出现的不同来源、不同类型的教育数据。不过，如何有效挖掘和利用教学场景出现的教育数据对大多数中国教师而言还是巨大的挑战(祝智庭等，2017)。教师数据素养亟待提升，否则将无法充分挖掘教育数据的价值并应用于教育教学决策。地区和学校亟需借助科学测评工具了解教师的数据素养状况，探索多样化的培养路径，这也对该领域的学术研究提出了新要求。

国内文献调研显示，截至2019年11月，中国知网上以“教师数据素养”为主题的论文有五十余篇，研究内容集中在以下三方面：1)对教师数据素养内涵和能力结构的理论探讨(刘雅馨等，2018；阮士桂等，2016；张进良等，2015)。这类研究既是我国在该领域研究的起点，也是引用率较高的热点。2)对国外相关研究成果的引介。我国研究者近年比较重视借鉴国外教师数据素养的研究成果，但相关介绍比较笼统，缺乏对具体的测评形式与内容的细致梳理(李青等，2016；王萍等，2016；王正青等，2018；李新等，2019)。3)对师生数据素养的调研。有研究者设计了数据素养问卷调查，还在高校范围内开展调研并对结果进行统计分析(郝媛玲等，2016；李青等，2018；隆茜，2015)。然而，此类问卷多是师生通用的，没有强调“教师”的数据使用特点，问卷对象的模糊化必然影响调研结果的可靠性。

迄今为止，我国还没有研发出被广泛认可、信效度较高的测评教师数据素养的工具。国内教师数据素养研究刚刚兴起，测评方面的研究还不够成熟。在此背景下，本研究拟系统介绍国外教师数据素养测评的研究成果与实践案例，以期对国内该领域的研究和实践提供借鉴和启示。

二、文献概述

本研究以Web of Science核心合集为样本数据库，以“teacher data literacy”“data literacy + teacher education”“data based decision making + teacher professional development”“teacher data use + survey”等为主题词搜索，截至2019年11月，通过浏览文献标题、摘要和正文内容筛选到相关度高的 49篇文献，然后采用滚雪球方法追踪所选文献的参考文献，获得期刊论文41篇，调研报告8篇，专著2本。总计获取的外文文献的100篇。

图1 “教师数据素养”文献国别分布

从国别分布看，教师数据素养的研究者集中在欧美发达国家，其中美国超过百分之六十，占比最高，荷兰紧随其后，超过百分之二十。相对而言，比利时、加拿大、新西兰等国家在该领域的研究还刚起步，研究成果比较分散；亚洲、非洲国家在该领域的研究还有待突破(见图1)。通过深入分析文献，我们发现国外教师数据素养研究聚焦在以下三方面：

(一)对教师数据素养的能力框架、培养方式及价值意义的理论探讨

经过十余年发展，美国曼迪那契等人将教师、数据、教学等关键点结合起来，建立了教师数据素养能力评价体系，其中包含了确定问题、使用数据、将数据转换为信息、将信息转换为决策和评估结果等五个维度，每个维度都可分解为具体技能，共53种。比如，“确定问题”维度包含阐明教育的某个问题、理解学生隐私等五项技能；“使用数据”维度囊括了使用多种数据来源、了解如何生成数据、使用形成性和终结性评估等27种技能，是该能力框架的主体部分。从“确定问题”到“评估结果”，五个维度之间有逻辑关系，构成一个数据探究程序(Gummer & Mandinach，2015；Mandinach & Gummer，2016a)。这一能力评价框架是该领域的研究成果，得到广泛认可。另外，研究者还深入研讨教师数据素养教育的路径，充分肯定了岗前教育和在职培训对提升教师数据素养的意义(Mandinach & Gummer，2016b；Mandinach et al．，2011；Mandinach & Jimerson，2016)。

(二)对教师数据使用实践的调研分析

有学者通过问卷、访谈、测试等方式评估教师数据使用能力、态度、信念等；也有学者关注影响教师数据使用的因素，调查教师数据探究行为，归纳影响教师数据使用的因子模型(Schildkamp & Poortman，2015；Schildkamp et al．，2017)；还有学者关注教师数据决策实践与学生成绩之间的关系，通过实验研究数据驱动的教学决策与学生数学、阅读成绩之间的关系(Van der Scheer & Visscher，2018；Van Geel et al.，2016)。

(三)有关教师数据素养培养的实证研究

国外学者围绕师范生和在职教师数据素养培养策略开展了多项实证研究。荷兰学者研发的教师数据探究小组(Bolhuis et al．，2019；Ebbeler et al．2017)、美国里夫斯(Reeves)等人提出的数据素养教育与师范课程整合、实施在线课程等策略都呈现了较好的效果，也为之后的研究奠定了基础(Reeves & Chiang，2018，2019；Reeves & Honig，2015)。

概括而言，筛选出的100种文献中有30篇涉及测评工具，其中探讨教师数据素养测评工具的文献2篇，分别是美国韦曼(Wayman)等学者编撰的教师数据使用问卷调查和美国“西部教育”(WestEd)公司编纂的情境访谈工具(Wayman et al．，2016；WestEd，2018)；其余28篇文献属于教师数据素养测评及培养实证研究。教师数据素养测评工具的开发和应用是为了满足研究实践的需要，是研究课题的有机组成部分(Ebbeler et al．，2016；Ebbeler et al．，2017；McNaughton et al．，2012)。本文接下来将详细介绍有代表性的教师数据素养测评工具及研究案例，以期对我国该领域研究及实践有所启示。

三、国外教师数据素养测评工具及研究案例

国外教师数据素养测评工具主要有问卷调查、知识测试、情境访谈三种类型。

借助问卷调查开展的相关研究中，大多数研究者沿用或修订已有问卷以保证足够的信效度，只有少数研究者独立开发问卷工具(O’Brien et al．，2019；Piro et al．，2014；Van Geel et al．，2017)。尽管学术界还没有在调查工具上达成共识，但通过文献追踪可以发现，一些引用率较高的调查问卷，如多项研究的调查工具都建立在美国学者韦曼(Wayman)等人开发的教师数据使用调查基础上(Reeves & Honig，2015；Wayman et al．，2012；Wayman et al．，2017；Wayman et al．，2009；Wayman et al．，2016)。另外，美国学者杜恩(Dunn)等针对教师数据决策观念、知识和效能等设计了三位一体的调查工具，被广泛地应用在相关研究中(Dunn et al．，2013；Reeves & Chiang，2018；Reeves et al．，2016)。

最早的知识测试工具由荷兰学者艾波拉(Ebbeler)等人开发，主要由开放式问题组成，目前只在荷兰应用(Bolhuis et al．，2019；Ebbeler et al．，2017；Kippers et al．，2018)。

情境访谈的测评形式起源于美国，最早由米恩斯(Means)等人开发，并将其应用到教师数据素养的调研中(Means et al．，2009；Means et al．，2011)。曼迪那契团队也曾致力于情境访谈的工具研发(WestEd，2018)。下文将介绍这三种类型的测评工具及相关研究案例。

(一)问卷调查

在已有研究中，问卷调查是较常见的数据素养测评方式。值得注意的是，教师数据素养评估的内容往往作为教师数据使用调查的子量表出现。研究者常借此对教师数据使用的行为、信念或技能进行一般性了解(Ebbeler et al．，2017；Moore & Shaw，2017；Wayman et al．，2017；Wayman et al．，2016)。

韦曼等人于2009年开发的教师数据使用调查问卷被应用在多项研究中，信效度已得到较好的验证(Moore & Shaw，2017；Wayman et al．，2012；Wayman et al．，2009)。该调查问卷没有公开发表，最初主要用在韦曼及其同事的研究中。为了支持学校向数据决策文化转型，美国教育部、教育科学委员会等机构2016年组织专家研发教师数据使用问卷调查工具。韦曼等学者在2009版调查问卷的基础上，借鉴最新研究成果，开发了教师数据使用量表并公开发表，美国区域教育实验室网站可免费下载该问卷及其使用手册(Wayman et al．，2016)。教师数据使用行为模型是该量表研发的理论基础。在这一模型中，教师数据使用行为处于中心地位，既反映教师个体知识和实践的发展变化，又可以促进学生学习。数据使用能力、数据态度、合作状况以及组织支持等都能影响教师的数据使用行为(见图2)。

图2 教师数据使用行为模型(Wayman et al．，2016)

与这一理论模型相照应，该调查问卷包括五份子量表，分别调查教师数据使用行为和其他四种影响因素。其中，“数据使用能力”和“数据态度”子量表可反映教师数据素养状况(见表一)。该问卷依据李克特四点量表设计，教师从“非常反对”“反对”“同意”“非常同意”中选择。该问卷设计了针对教师、管理者、教辅人员等角色版本。不过，除题干的称呼和问法略有差异，各版本调查内容基本相同。

表一数据使用调查量表中的子量表样例 (Wayman et al．，2016)

研究者曾用该量表调研了美国纳什维尔市五所公立中学， 70名教师、5名管理者和12名教学辅助人员完成了三个版本的调查表。调查结果显示，在教师数据能力自我评价上，教师平均得分稍高于管理者和教辅人员。同时，在数据态度上，教师的平均得分略低于管理人员和教辅人员。这表明，尽管教师对自身数据技能自信，但管理者和教辅人员态度更积极。该研究的目的是利用调查结果支持学校发展，因此学校代表和地区教育管理者根据调查结果，提出了后续的行动计划(Wayman et al．，2017)。

为方便统计，每个选项被赋予1到4的分值。子量表平均得分可以用来评估教师群体数据使用的表现；研究者还可以比较调研结果，既能比较各子量表均值，也可以比较教师、管理者和教辅人员的量表均值，还可以依据人口统计学变量进行比较(Wayman et al．，2016)。

另外，美国学者杜恩等人为了调查教师的数据素养，针对数据决策关注度、知识和效能感维度设计了调查工具(Dunn et al．，2013)。数据决策关注度反映教师对数据决策的态度和满意度等，数据决策知识反映教师的数据技能，数据决策效能指教师对自己成功参与数据决策的信念。三个维度互相影响、互相作用，三位一体，能综合反映教师数据素养状况。以杜恩教师数据素养问卷“知识”维度测试题为例，它包括“数据解释和评价能力”和“教学决策能力”两部分(见表二)，三位专家检验问卷并对内容效度达成共识。研究者用这套调查问卷评估美国西北部某州1500多名教师的数据素养。结果表明，教师数据知识在两个维度上分别达到25%和30%的得分率，处于较低水平；从关注度上看，教师对数据决策有抵触心理，兴趣不高，但在实践中从事有关数据决策的具体工作，也关心数据决策对学生产生的影响(Dunn et al．，2013)。

值得注意的是，问卷调查评测也存在局限，比如，问卷调查收集的多是教师的感知类数据，被调查者能否实事求是地回答问题、是否会揣测调查者的意图从而违心地回答问题等都会影响调查结果的有效性。这些问题或许会通过沟通和管理程序最小化，但不能彻底消除。

表二 “知识”维度测试题样例(Dunn et al．，2013)

(二)知识测试

研究表明，要深入调查教师数据素养，只收集教师的感知或态度数据是不够的(Marsh，2012)。为了增强调查结果的科学性，荷兰学者开发了针对教师数据素养的知识测试，且被应用在多项教师数据素养研究中。

艾波拉等(2017)开展了旨在提升中学教师数据素养的准实验研究，实验组是9所中学的教师，对照组是另外42所中学的教师。课题组指导教师小组遵循数据决策八步骤模型对教育问题进行合作探究。为了检验实验效果，艾波拉及同事以数据决策八步骤模型(见图3)为参照框架设计了知识测试。该测试为纸笔测试，包括12道开放题，每道题都与教师数据素养的能力结构、数据决策的八个步骤对应，作答时间限30分钟(Ebbeler et al．，2017)。

在数据决策模型中，学校的数据决策过程被归纳为由八个步骤构成的探究循环，从“界定问题”开始到“评价”结束，然后继续下一轮探究。不过，这不是单线循环(见图3)，如果教育者在第6步的“解释和结论”发现最初的假设不正确，就需要返回第2步重新“形成假设”。另外，如果第8步“评价”发现问题没有得到解决，还需返回到第7步，再次“实施改进措施”。

图3 数据决策的八步骤模型(Schildkamp & Ehren，2013)

该模型是数据使用的探究循环，与该团队界定的教师数据素养的能力结构相对应。该课题组认为，教师数据素养由设定目标、收集数据、分析数据、解释数据和采取教学行动等五个维度的能力组成，数据决策模型的每个步骤都可以体现某一维度的能力。比如，“界定问题”和“形成假设”两个步骤体现的是“设定目标”维度的能力，“界定问题”“收集数据”和“评价”体现的是“收集数据”维度的能力。值得注意的是，数据决策步骤和数据素养之间属于多点对应关系。如“界定问题”步骤既能体现“设定目标”能力，也可体现“收集数据”能力；“评价”步骤既可以体现“收集数据”能力，也可体现“分析数据”和“解释”数据能力(见表三)。也就是说，完成数据决策的八个步骤，需要综合运用五个维度的数据能力。表三列举了这套知识测试的纲要，每一行都标明了题项与数据决策步骤及能力维度间的对应关系。为了检验这套知识测试的可靠性，两位研究人员对相同的测试卷进行编码评分，二者的一致性系数达到92%。前后测数据分析显示，教师数据素养培训实验项目效果一般(Ebbeler et al．，2017)。

表三数据素养、数据决策步骤和知识测试题的关系 (Ebbeler et al．，2017)

荷兰库伊伯斯(Kippers)等人对由教师、校领导、数据教练组成的数据探究小组进行了长达一年的培训，并使用这套知识测试对参与教师数据素养进行前后测。数据分析结果呈现中到大的效应值，但是后测均值11.2分，还没有达到满分25分的一半，提升空间还很大。该研究进一步分析了教师数据素养的各项能力(设定目的、收集数据、分析数据、解释数据和采取教学行动)分别发展到何种程度，并总结参与者的收获和困惑(Kippers et al．，2018)。

该工具不仅可以用于教师数据素养集体测试，还可以用于个案研究。荷兰博尔赫斯(Bolhuis)等学者在某师范学院实施一项案例研究。该学院的五名教师组成数据探究小组，合作研究学生辍学问题。课题组成员对数据小组参与者进行跟踪，着力研究参加数据探究小组活动如何影响教师的数据素养。考虑到研究对象是大学老师，研究者对这套知识测试进行了必要修订后才将其应用于测评。在参加数据探究小组活动后，教师数据素养成绩均值从8.7上升到14.3，提高较明显。然而，五名教师数据素养发展不平衡。结合调查、访谈数据分析发现，教师在“解释数据”“将结论转化为改进措施”和“评价”方面收获最大，在“界定问题”和“收集数据”方面收获较少。另外，参与者数据素养的提升状况和他们的起始水平密切相关(Bolhuis et al．，2019)。

知识测试类工具的优势在于，研究者可以对教师的数据素养进行量化测评，便于比较和等级评定。相对于问卷调查，此类工具的评测结果更客观和可靠。然而，就该套知识测试而言，尽管研究者在题目中努力设置情境，让题目内容和学科、年段紧密结合，但没有一个整体情境统帅所有题项，问题与问题之间相互独立，缺乏关联。其测试任务离真实工作情境还有一定距离，能否准确反映教师真实的数据素养有待商榷。

(三)情境访谈

除了问卷调查和知识测试外，国外研究者还开发了针对教师数据素养的另一种测评工具——情境访谈(Means et al．，2011；WestEd，2018)。情境访谈工具包括模拟情境、一套数据文件和一组问题。访谈人员依据情境访谈内容展开调查。通过对访谈结果进行数据分析，研究者综合评估教师数据素养。为全方位调查教师的数据素养，研究者通常会设计多个情境，以便覆盖足够多的数据知识和技能。就对评估结果分析方法而言，有的情境访谈工具支持对访谈结果进行编码评分和量化分析；有的没有评分量表，研究者只能大致评估和了解教师的数据素养。下面我们对两种情境访谈工具分别举例说明。

米恩斯等人曾开发了一套情境访谈工具，并将其应用在教师数据素养调查中。该课题组邀请了包括曼迪那契在内的专家组参与研发。专家组首先确定了使用数据决策的基本程序：问题提出、数据定位、数据理解、数据解释和数据使用；接着明确了教师执行这些程序所需要的技能；最后对涉及这些技能的工作情景和问题设计进行头脑风暴。在此基础上，课题组开发了一套包括7种情境在内的访谈工具(见表四)，每种情境访谈都包括模拟情境、一套数据文件和一组问题。相关评估专家和数学教育专家审查了该工具的可信度、准确性以及与数据素养能力指标的一致性(Means et al．，2009；Means et al．，2011)。

分析访谈数据时，研究者要对客观题和访谈文本分别进行量化评分和质性编码，以便全面呈现教师与学生数据交互方式，进而评估教师数据素养。

课题组用该情境访谈工具对美国10个地区30所中小学教师实施数据素养调查，共52名教师和72个小组(每个小组包括2名教师和1名校领导)参与访谈，230余人参与了这项探索性研究。为了控制访谈时间，7种访谈情境被组合成两种访谈方案，第一种方案由前4种情境组成，第二种方案由后3种情境组成，两个方案涉及的数据技能和概念基本平衡。研究结果显示，大多数教师在数据定位、数据使用等任务中表现较好，但在数据理解、数据解释等挑战性任务中表现欠佳。与个人访谈相比，小组访谈的平均成绩更高，受访者更容易对数据作出合理解释，并呈现出多元数据技能(Means et al．，2011)。

美国“西部教育”(WestEd)公司2018年依托数据素养评估项目也开发了一套情境访谈工具。“西部教育”是旧金山的一家非盈利性组织，它将“促进卓越、实现公平和改善儿童、青少年和成人的学习”作为自身使命，在学术界影响较大。作为数据决策领域的先锋，曼迪那契教授在西部教育担任数据决策倡议主任。她的团队界定了教师数据素养涵盖的53项具体技能及5种情感倾向特征，这些具体技能分别归属于五个技能维度，即确定问题、使用数据、将数据转换为信息、将信息转换为决策以及评估结果等，这五个技能维度又构成数据探究循环(Mandinach & Gummer，2016a)。

曼迪那契教授以这些理论研究成果为基础，带领课题组成员开发了形成性评估、终结性评估、早期预警指标和工作场所决策等四种情境。形成性评估情境关注日常短期数据；终结性评估围绕期末测评数据构建；早期预警情境针对学生毕业风险指标建立数据文件和问题，以便对毕业困难生及早定位并采取措施；工作场所决策则要求教师借助各种教育数据选择未来的任职场所(见表五)。

表四美国教育部组织研发的情境访谈工具及其考查的技能和概念(Means et al．，2011)

表五美国“西部教育”开发的情境访谈工具(WestEd，2018)

表五呈现了四个情境的内容概要及所包含的考察目标。当然，每种情境都考查数据素养的部分技能(见表六)，比如,表六的第2行列举了各种情境对“确定问题”维度技能的考查情况。根据曼迪那契的能力评价体系，“确定问题”维度包括5项技能。四种数据情境分别考查了其中的2项、5项、4项、2项技能，这一维度的技能在四种情境中共考查了13次。

该情境访谈工具提供了每个问题的最佳反应范式，但是没有提供量规，也没有将题目和具体技能精准对应起来，因而研究者不能对访谈结果进行量化评分，只能依据情境访谈工具中的技能列表和参考答案，粗略评估教师的数据技能和态度表现。与2011版的情境访谈工具相比，这套工具不仅覆盖学生的各种测评数据，还包括人口统计学、教育政策等数据，数据类型更广泛。该套情境访谈工具也反映了教师数据素养的最新研究成果。遗憾的是，在可获取的文献中还没有见到这套工具的应用情况。

情境访谈可以提供一个模拟工作情境，让教师呈现比较真实的数据使用能力和态度。相对于问卷调查和知识测试，这种测评方式需花费较多的人力和时间，调研成本较高。

表六美国“西部教育”情境访谈工具对数据素养技能的考查(WestEd，2018)

四、总结与比较

综上所述，问卷调查、知识测试与情景访谈等测评工具尽管形式各异，但都在着力寻求教师具备数据素养的表现证据，以此推断和评估教师的数据素养水平，基本上遵循了证据中心的测评设计模式。证据中心设计模式将评估视为基于证据的推理，即通过观察被试在特定情境中所说、所做等表现，来推断他们的认知和能力层次(Mislevy et al．，2003)。该测试设计模式不仅被广泛应用在测评设计中，还常用来检验测评工具的有效性。证据中心测试的设计框架包括学生、证据、任务、组合和呈现等五个模型，也可以理解为测试设计的五个要素。学生模型，指测评设计者希望测量的知识、技能和态度；证据模型包括证据规则和测量模型，前者指导评分过程，后者指导对分数的解读；任务模型规定了学生的表现形式，比如选择题、论文写作等；组合模型是解释学生、证据和任务三个要素如何有机组合形成测试的；呈现模型主要用来描述任务的呈现方式，比如纸笔测试、计算机辅助测试等(Mislevy & Haertel，2006)。图4呈现了五个要素之间的相互作用及关系。可以看到，这一设计框架的核心是学生、证据和任务，它们之间相互影响，共同组成测试的主体部分。为了更深入地理解教师素养测评工具的特点，下文借助证据中心设计框架，从开发过程、测评效度、应用程度等方面对不同种类的测评工具进行总结和比较。

图4 证据中心测试模式的设计框架 (Mislevy & Haertel，2006)

(一)从开发过程看，建构教师数据素养能力评价体系是关键环节

从证据中心测试设计框架的视角看，测评工具的客观选择题、开放问答题、情境分析题都属于任务设计，笔试、访谈、网络调查等是呈现模式规定的内容，它们的形式和内容取决于学生模型和证据模型，即可测量的教师数据素养包括哪些知识、能力和态度以及如何拟定评分和解释规则，这都与教师数据素养能力评价体系的建构有关。我们可以理解为，建构教师数据素养能力评价体系是测评的中心环节，直接决定测试的有效性。

文献调研发现，现有的各种测评工具没有遵循统一的教师数据素养评价指标。比如，艾波拉等人编制的知识测试以设定目标、收集数据、分析数据、解释数据、采取教学行动等五个维度的数据能力为基础(Ebbeler et al．，2017)；曼迪那契等人则依托该课题组的教师数据素养的能力评价体系编制访谈问题(WestEd，2018)；韦曼等人(2016)编制的调查问卷宣称以教师数据使用行为模型为理论基础，但没有为教师数据知识、技能部分确定评价指标、解释规则。这反映出，学术界在教师数据素养的概念和能力结构方面还没有完全达成共识，各种测评工具依据的学生模型和证据模型各不相同，这就导致不同的测评结果很难进行比较和对话。因此，确定教师数据素养的能力评价体系是开发测评工具的前提和关键环节，能力评价体系的成熟度也影响着测评工具和调查研究的有效性。

(二)从测评效度看，知识测试和情境访谈优于问卷调查

测评效度指测评工具可测得教师数据素养的程度。证据中心的测评设计模式重在收集关于学生能力的证据(表现或作品)，借此推断和评估学生能力。从这一角度看，测评过程可收集和使用的学生证据是否可靠和丰富，直接影响测评工具的效度(Mislevy & Haertel，2006)。

问卷调查需要被调查者对数据素养技能或态度进行自我评价，比如美国韦曼等(2016)开发的问卷需要教师评价自己“利用数据诊断学生学习需求”“根据数据调整教学”“利用数据设定学习目标”等的能力。然而，脱离工作情境的自我评价很多时候是模糊的、带有主观色彩的，很难观察或收集到被调查者的知识、能力或态度的证据。问卷调查的统计结果可以体现教师数据使用倾向、能力概况，但很难准确测评教师在真实工作情境中的数据决策能力。

荷兰学者艾波拉开发的知识测试题目都是开放题，且与设定目标、收集数据、解释数据、分析数据、采取教学行动等数据素养的能力维度精准对应，研究者还尝试设置简单的工作情境，比如让教师分析某校近三年各学科不合格率的图表，借此测评教师的数据解释能力(Ebbeler et al．，2017)。教师必须分析、判断数据，并以书面回应的形式展现自己的数据素养。曼迪那契等人开发的情境访谈工具覆盖了教师数据素养的53项具体技能及5种情感倾向，还列出每种情境所测评的具体技能及最佳反应范式。与知识测试不同，研究者设置了整体的工作场景，比如在形成性评估场景中(见表五)，研究者设置了“教师拿到阅读成绩报告后如何分析成绩并调整教学”的工作场景，在其中嵌入成绩分析、目标制定、教学调整等问题。教师需要将数据使用能力与教学法、学科内容知识结合起来，才能完成这些题目。另外，面对面访谈也让研究者观察到教师的思考过程、技能熟练程度及态度价值观，从而更科学地测评教师的技能水平。综上所述，知识测试和情境访谈能提供被试知识技能更可靠和丰富的证据，在测评效度上优于问卷调查。

(三)从应用程度看，问卷调查的使用频次和应用范围占绝对优势

在以往研究中，问卷调查的使用频率和范围都占绝对优势。图5表明，几乎每个国家的研究都会采用问卷调查，只有特定国家的个别研究会应用知识测试和情境访谈。美国“西部教育”公司开发的情境访谈工具，目前在学术界没有发现其应用证据，还有待更多的研究验证其信效度(WestEd，2018)。问卷调查的应用程度占优势，原因有二：首先，从研究积累看，已有调查问卷种类繁多，可以给研究者提供较多的借鉴。研究者沿用或修订已有问卷工具，能在与前人研究结果的对比中进行自我评价和反思。相对来说，知识测试和情境访谈工具还处于萌芽阶段，可供借鉴的成果不多。其次，从任务设计和呈现方面看，问卷调查基本以选择题出现，且多是单一任务，便于测评管理和统计分析。问卷调查还可以借助计算机和互联网技术，实施大规模的数据采集。比如，加拿大学者安德森等(Anderson et al.,2010)为了研究教育者的数据使用情况及其影响因素，通过电子邮件对某地区4491名教师与280名校长开展问卷调查。知识测试往往面向特定教师群体，并安排在特定时间和空间；情境访谈不管采用面对面，还是语音、视频的形式，一次只能访谈一位教师或一组教师。这两种测评工具很难完成大样本的数据采集任务。

图5 测评工具的国别使用分布

三种测评工具各有千秋，研究者应根据研究需要选择合适。有研究者将问卷调查、访谈法和知识测试等工具结合使用，以增强教师数据素养调查的客观性和可靠性(Bolhuis et al．，2019；Ebbeler et al．，2017)。同时，国外教师数据素养测评的研究和实践也处在动态发展中。测评工具不是固定不变的，会随该领域理论研究的深入而不断迭代更新。

五、思考与启示

智能时代的标志是人工智能、大数据等新兴技术的广泛应用，教育也不例外。随着各种智能教学系统和APP进入课堂，后台生成的海量数据如果得到合理的收集、清洗和利用，可以帮助教师开展更精准和科学的教育教学决策。因此，教师数据素养话题日益受到国内研究者和实践者的关注。中国知网中以“教师数据素养”为主题的文献2016年后迅速增长，然而，截至2019年10月，涉及教师数据素养调研工具的文献不多，已有研究虽然有涉及调研工具开发，但其评价指标的科学性还有待验证(卢诗华，2018；郝媛玲等，2016；李青等，2018；隆茜，2015)。我国教师数据素养测评的研究和实践尚处起步阶段。如前文所言，证据中心的测评设计框架可以为我们提供操作蓝图，其中，学生模型、证据模型、任务模型和呈现模型等构成了教师数据素养测评研究的基本环节，每个环节的推进都是一项系统工程，需要各个利益相关者的配合和努力。该框架以及国外教师数据素养测评的研究成果可以给我国该领域研究和实践提供启示。下文从评价体系建构、测评任务设计和测评实施等三方面阐释。

(一)评价体系建构：要发挥教师专业标准和研究课题的助推作用

评价体系的建构是测评工具开发的前提和基础，也是证据中心测评设计模式的中心环节，建议国内研究从以下两方面入手，推动教师数据素养评价体系的建构。

首先，将数据素养要求纳入《教师专业标准》。《教师专业标准》是教师队伍建设的基本依据，具有引领和导向作用。美国利用教师资格认证标准促进数据素养发展的工作已进入实践层面(王萍等，2016)。国内2012年颁布的中小幼等阶段的《教师专业标准》尽管提到了评估素养的内容，但都没有明确对数据素养的要求(中华人民共和国教育部，2012)。将教师数据素养纳入《教师专业标准》，可以推动教师招聘考试、职称评定考核对教师数据素养的关注，引发教师数据素养评价指标及测评工具研究。这一倡议也将研究领域的挑战推向政策层面，期待借助社会力量共同建构教师数据素养的能力结构和评价指标，促进教师数据素养测评设计中的“学生模型”逐渐形成稳定的结构，尽快在学术界达成共识。

其次，发挥研究课题引领作用。目前国内已有学者尝试建构本土教师数据素养能力结构及评价指标(李青，赵欢欢，2018；刘雅馨等，2018；阮士桂，郑燕林，2016)，但这些评价指标体系的建构基本上依赖于个别学者的思考和推断，能否囊括教师在真实教学场景中所需要的数据知识、技能乃至情感态度有待验证，因此很难被学术界广泛认可并应用于实践。国外教师数据素养测评研究往往依托国家和区域层面的重要课题，因此研究的系统性和权威性得到保证。我们建议，相关科研管理部门应启动教师数据素养重大课题研究，鼓励更多的科研单位和研究者投入该领域的研究工作。我们可以借鉴美国曼迪纳契课题组建构教师数据素养能力评价体系的过程，组织国内数据素养与教学评价专家协作研讨，在回顾已有文献、国家政策文件、标准中对教师数据素养的能力描述或要求的基础上，拟定能力指标，最后邀请一线教育者审阅修订(Mandinach & Gummer，2016a)。这样的建构过程将超越个体思维，吸纳集体智慧，更容易在业内达成共识，得到认可。

(二)测评任务设计：要强调任务的真实性和多样性

证据中心的测试设计理论认为，任务设计应“引发能形成各种证据的学生行为”(Mislevy & Haertel，2006；Mislevy et al．，2003)。从国外教师数据素养测评工具发展历程看，任务设计经历了从良构到劣构、从单一任务到综合任务的演进过程，并越来越强调任务的真实性。我国在测评任务设计方面可以得到两点启发。

首先，关注真实性任务的设计。教师数据素养是在真实的教育实践中形成、发展起来的，因此只有在真实的任务中，教师才能呈现出自己的数据知识、技能和态度。举个反例，杜恩的知识测试要考查“测验效度”概念，让教师从四个选项中选择最符合的一项(见表二)。这道题缺少具体情境，不能算真实的任务，只能测得教师的识记或理解力，离真实情境中的技能还有距离。真实性任务的设计可以采用两种形式：一，从真实的生活中提取情境和任务，对测试进行仿真情境创设和任务设计；二，让教师或教师团队在真实情境中完成相关任务，解决真实问题。这两种设计形式都要求研究人员走出象牙塔，在对学校教育的观察、与教师的交流及共同生活中去提取、设计和更新测评的真实性任务。

其次，注重测评任务的多样性。单一任务的测评很难有效测评教师数据素养，未来研究可以采用选择题、问答、综合情境任务等多样化测评任务，以适应不同环境和群体的教师数据素养测评，或者对不同的数据源进行互相验证。值得注意的是，我们也可以设置计算机支持的复杂性协作任务，以便对教师数据素养提供综合性评估。另外，在借鉴国外评测研究成果时，要考虑我国教师数据使用的工作情境、可用数据库、可获得的数据类型等，进而研发具有本土适应性的多元化测评工具。

(三)测评实施：要寻求测评对象、测评目的和测评工具的最佳匹配

在教师数据素养测评工作中，测评实施是联系理论和实践的重要一环，涉及任务呈现、测评管理等内容，我们要努力寻求测评对象、测评目的和测评工具的最佳匹配，实现测评效果和效率的最大化。

首先，针对不同的测评对象和目的，我们要选择最匹配的测评工具。调查问卷、知识测试、情境访谈等测评形式各有特点，评估者需要根据人力、物力等客观条件及测评目的灵活选用。比如，在师范教育中，与数据素养相关的课程考核更适合使用知识测试的形式；如果要了解教师工作坊成员的数据素养状况，可以采用情境访谈式测评。如果要调研多个地区若干所学校的教师数据素养状况，问卷调查比较合适。当然，在多数情形下，不同种类的测评任务也可以综合运用，不仅增加测评结果的可靠性，还可以从不同角度了解教师数据使用的知识、技能、态度、情感倾向等。测评工具的选择取决于测评目的、课题计划等，需要我们慎重决定。

其次，测评实施者也需要接受专业培训。教师数据素养测评实施的某些环节需要较高的专业素养，比如知识测试的评分、开展情境访谈等。如果测评实施者不是课题组成员或相关专家，那么测试员最好接受专业训练，以保证调研结果的可靠性。为了促进测评工具从实验室向实践推广，我们建议，相关部门在完成测评工具的研发和信效度验证后，还要以工作坊或在线课程的形式培训一批测评管理员，以便测评工具和结果得到科学的应用及分析。

最后，教师数据素养的测评应与教师专业发展紧密结合。国外教师数据素养测评工具的开发大多是教师素养培养项目的一部分，其目的往往是验证教师数据素养培养项目的有效性(Ebbeler et al．，2016；Ebbeler et al．，2017；McNaughton et al．，2012)，有的情境访谈工具本身就可以作为教师专业培训的资源加以使用(Means et al．，2011；WestEd，2018)。我国的教师数据素养测评研究与实践也不应是终极目的，其测评结果应服务于教师数据素养教育方案和培训课程开发，是达成教师数据素养提升的必要手段。

21世纪的教学挑战之一就是不断变化的数据环境。作为数据决策的重要实施者，教师的数据素养测评与培养工作迫在眉睫(Dunlap & Piro，2016)。学校的海量教育数据只有得到有效的处理和分析才能发挥其独特的教育价值，促进科学决策的形成。教师数据素养测评应积极借鉴国外研究成果，立足本国国情，选择适合自己的研究和实践道路，才能研发出具有本土特色的教师数据素养测评工具，探索符合教师成长规律的培养路径，让本领域的理论研究和实践探索真正地服务于教和学，促进师生共同成长。