科学探究过程的计算机模拟测试：趋势进展与实践启示

2023-02-08□田伟骆方

中国远程教育 2023年2期

□ 田伟骆方

科学探究和实验是学生学习科学的重要方式，其对培养学生的创新精神和实践能力具有重要意义。当前，世界各国针对科学探究和实验能力的评价方法变革成为研究趋势之一，旨在促进评价与课程和教学深度融合，形成培养学生创新精神和实践能力的育人合力。新时代我国对科学探究和实验的教学与评价创新也提出了更高要求，“加强科学教育和实验教学”“健全实验教学评价机制”“充分运用人工智能与大数据等领域前沿技术方法开展人机交互测试”“创新评价工具”等成为新的国家政策诉求和改革着力点（教育部,2019,2021;中共中央等,2019,2020）。近年来，信息技术的发展创生出数字化科学探究学习和评价环境，现实和虚拟空间融合赋予了科学探究能力评价以全新的特征。本文主要讨论计算机模拟测试方法作为一种新的评价方法的必然性、理论趋势、实践进展及其构建思路和应用途径。

一、传统科学探究能力评价方法：现状与问题

培养学生的多种高阶能力是科学探究教学的主要目标。这些高阶能力包括学生提出科学问题的能力，收集和处理信息的能力，分析问题和解决问题的能力，交流与合作的能力，以及创造性、批判性思维和想象力等（教育部,2022,pp.4-7）。对这些高阶能力进行科学、有效的评价是促进评价与课程和教学形成内在统一的必然要求。然而，传统的纸笔测试和表现性测试方法无法全面、准确地对这些高阶能力进行评价，导致科学探究教学的窄化和异化。

（一）纸笔测试缺乏科学探究过程与高阶能力的推论证据

当前，纸笔测试是我国科学探究教学中广泛使用的主导性评价方法，即使用标准化的选择题和问答题等题型间接推论学生的科学探究能力。例如，通过创设真实情境和问题构建一种具体情境下的问题解决“活动”来评价学生的科学探究能力（何美惠等,2020）。纸笔测试是一种用于大规模测试的标准方法，它不仅具有良好的测量学特性，而且可以提高评价的效率和可操作性（李锋,2019）。然而，当它用于评价高阶的、复杂的科学探究能力时，却无法收集学生开展科学探究和进行高阶思维的推论证据，从而造成片面推论。具体原因包括以下两个方面。

一方面，纸笔测试与科学作为一门实践性学科的特性并不契合，设计和执行调查等科学实践无法在静态的纸笔测试工具中展现。使用纸笔测试工具，只能采集到相对单一的最终结果分数，但同一结果分数背后可能潜藏着多样化的科学探究策略或路径。一些学生可能直接找到并使用最佳策略，另外一些学生可能探索很多不同的策略才成功完成任务，还有一些学生虽然使用相同的策略，但其花在探索任务上的时间和进行有效探索的程度不同。因此，学生与真实情境之间经过复杂交互而产生的科学探究过程，对于纸笔测试方法来说是一个“黑箱”，难以被观测和评价。

另一方面，纸笔测试的功能局限在考查陈述性知识方面，难以对科学探究过程中的多种高阶能力进行有效评价。学生在真实情境中遇到的科学问题通常是结构不良的，必须综合运用批判性思维、创造性思维以及合作解决问题能力等多种高阶能力进行探究。然而在纸笔测试中，命题人员注重为学生创设简练的测试情境，通常使用选择题引出一些具有明确目标和结构良好的问题，这些情境和问题过度简化了科学探究的本质特征并且限制了学生的自主探索空间，因此不能展现科学探究课程对多种高阶能力的要求。

（二）表现性测试方法的突破及其实施的实践和理论问题

表现性测试是另一种大规模测试科学探究能力的方法，这种方法通常使用综合性和实践性科学探究任务，在学生完成任务的过程中评价他们进行科学推理和解决问题的能力（Harmon,1999;宋歌,2017）。表现性测试作为纸笔测试的替代性方案得到广泛使用，尤其是在大规模的NAEP和TIMSS科学教育评价项目中。测试者呈现一些结构不良的真实问题，要求学生使用提供的材料或实验器材动手操作解决问题。学生记录自己的思维过程和作答结果并交给评分者进行评分，测试者最终基于结果分数对学生的科学探究能力做出判断。显然，表现性测试以“在真实情境中的表现”为核心依据测量科学探究过程和高阶认知技能（宋歌,2017;周文叶等,2021），尤其注重让学生经历像科学家一样的科学探究过程进行意义建构和科学论证（宋歌,2017）。

然而，表现性测试不仅施测程序复杂，而且测试工具的信度和效度具有天然缺陷。一、表现性测试需要使用统一的实验材料和器材，配备标准化的工具箱，使得其在大规模测评项目中的可操作性较低（宋歌,2017）。二、表现性测试工具存在信度和效度方面的测量技术问题（Stecher et al.,2000）。例如，表现性测试中每个任务不仅涉及的知识领域具有独特性，而且对学生科学探究过程的记录要求等也有很多不同，这种异质性可能导致学生在不同测试任务上的表现存在很大差异，进而限制了将其科学探究能力表现推广到更一般的情境中（Shavelson et al.,1991）。

二、新时期科学探究能力评价：理论趋势与实践进展

从20世纪90年代开始，已有研究（Shavelson et al.,1991）表明计算机模拟测试方法可以作为表现性测试的一种替代方法。近年，随着信息技术、虚拟科学探究教学、大规模科学教育评价以及大数据技术等的飞速发展，计算机模拟测试方法发展成为大规模表现性测试的一种科学工具（Clarke-Midura et al.,2011;Quellmalz&Pellegrino,2009）。

（一）利用真实情境和动态仿真系统构建全面的概念评价框架

计算机模拟测试方法通常可以分为三类，科学现象的模拟、虚拟实验室和多用户虚拟环境（李菲茗等,2020），它们都以信息技术为基础创设真实情境和开发动态的仿真科学系统（OECD,2010;Perdue et al.,2019;Winick et al.,2008）。学生可以在计算机上操作科学系统开展调查研究，进而根据交互反馈信息或数据回答科学问题。例如，模拟科学家（SimScientists）项目使用生态学家建立的种群动态模型模拟草原生态系统，系统通过计算机动画的方式展现生物体之间的相互关系和草原生态系统20年的变化情况。学生可以运行这种计算机模拟系统生成图表和数据表，进而解释数据和回答问题（Buckley&Quellmalz,2013）。可见，动态仿真科学系统可以促进学生经历像科学家一样的科学探究过程，即学生通过自主探究寻找科学问题的研究证据并进行论证和意义构建。因此，以计算机模拟测试方法为工具，可以构建与传统测试方法截然不同的概念评价框架（见图1），全面和准确地将学生的科学探究能力测量出来。

图1 计算机模拟测试方法的概念评价框架

比较而言，计算机模拟测试方法的概念评价框架具有四个方面的显著优势。

一是情境更加真实和仿真，符合现实世界复杂、综合的本源特征，这是开发非常规问题解决任务和创设更加自主的探索空间的基础。科学现象的模拟和虚拟实验室是一种2D的计算机模拟测试方法，它们的情境多是一些常规性的和高度简化的情境，学生使用相对简单的程序性知识和遵循一套明确的程序来探究和解决问题。以PISA2015年的一道“泽尔罐”样题为例，题目要求学生在气温为4℃的条件下，通过改变沙层的厚度和湿度来探究泽尔罐最大的食物保鲜量（OECD,2017）。分析可见，其中的科学探究问题、任务和程序是明确的，可以构成一个结构良好的封闭问题情境。学生遵循相对明确的程序，承受较低的认知负荷就可以解决问题。多用户虚拟环境是一种3D计算机模拟测试方法，借此可以创建图形化的虚拟情境和沉浸式的体验。多个用户可以同时登录并创建自己的虚拟化身，每个用户可以借由自己的化身使用文本和虚拟手势与其他用户的化身进行交流，也可以使用数字化的工具（如查看图片或操作在线显微镜工具）与计算机代理进行交互。多用户虚拟环境中的情境是一种高度复杂和不确定的科学现象，学生在这种模拟真实现实世界的情境中具有更大的自主探索和合作探究空间。由于没有清晰的问题解决路径，学生在科学探究过程中可能经历一些不可预期的、非常规的或不熟悉的问题解决过程，从而引出更多推理过程或问题解决策略（Clarke-Midura et al.,2011）。

二是利用计算机过程数据追踪技术采集学生进行复杂科学探究活动的行为过程，使得科学探究能力的评价证据变得丰富。教育评价活动本身的复杂性要求评价者在推论过程中综合使用多种评价证据。有研究者将数字评价环境下采集到的数据分为结果数据和过程数据（Rupp et al.,2012）。采集科学探究过程数据（如科学探究的设计和执行过程）是计算机模拟测试方法超越传统测试方法的重要特征，这为综合采用多源评价证据进行科学探究能力的推论提供了科学基础（Wilson&Bertenthal,2006）。过程数据主要来自计算机环境下学生与其他学生和/或计算机环境之间交互的过程。例如，学生收集数据活动的数据流。过程数据是带有时间标记的、由事件组成的行为序列数据，通常也被称为日志文件、跟踪数据或证据跟踪文件，其中常见的科学探究行为过程包括敲击键盘、移动鼠标、点击鼠标以及做出反应等（Li et al.,2018）。由于每个学生都会产生大量个性化的科学探究过程数据，导致过程数据成为一种庞杂的、无结构的大数据，其挖掘和分析比传统的结果数据更加复杂。尽管如此，过程数据中蕴含的复杂认知规律对于精准估计科学探究能力和构建教育教学模型具有重要价值。当前，过程数据挖掘是一个新兴研究领域，研究处于初步发展阶段并取得了一些进展。

三是拓展了评价内容，并促进评价重心转向高阶科学探究能力。计算机模拟测试方法强调非常规问题解决和科学探究过程，使得评价内容从传统的陈述性知识拓展到程序性知识、认识论知识以及评价和设计科学探究、科学地解释数据和证据、问题解决能力、合作解决问题能力等各项高阶能力（Evagorou et al.,2009;Li et al.,2018;OECD,2017;Quellmalz et al.,2013;Quellmalz et al.,2012;von Davier et al.,2017）。例如，有一个测试情境是在南极洲建立可持续研究中心。题目要求学生向南极洲的研究中心委员会描述自己的可持续能源计划建议或对其他人提出的方案是否满足设计限制条件进行评判，这一题目的评价目标侧重的是科学探究中的交流与合作（Quellmalz et al.,2012）。学生还可以在多用户虚拟环境中共同合作进行问题解决，如以2～4人为一组合作找出河城居民生病的原因（Ketelhut,2007;王建明等,2011）。

四是计算机模拟测试方法具有很好的信度和效度。传统测试方法不能有效评价学生设计和开展科学探究的能力。计算机模拟测试方法作为一种革新方法，是否可以有效测量学生开展科学探究的能力也得到关注。例如，采用专家访谈、认知实验和统计分析方法的各项研究表明，相比静态测试方法，计算机模拟测试方法作为一种动态交互测试方法可以更加有效地测量学生开展科学探究的能力（Quellmalz et al.,2013）。在虚拟表现评价项目中，数据表明计算机模拟测试工具的克隆巴赫α系数为0.88，可见当它用于测量科学探究时是可信的（Scalise&Clarke-Midura,2018）。

（二）挖掘隐含的科学探究过程信息和规律构建教育教学模型

计算机模拟测试方法是一种信息技术赋能的动态评价方法，过程数据是其赋能的一个重要表现。在技术环境下，学生解决非常规问题的过程是其进行自主探究的过程，过程中会产生大量行为过程数据。而且，过程数据之中蕴含着有关学生的认知、元认知、动机和情感状态的信息（Goldhammer&Zehner,2017）。充分挖掘这些隐含的科学探究过程信息和规律有助于构建教育教学模型，为教学和学习提供形成性反馈信息。科学探究过程数据挖掘和分析是一个新兴跨学科前沿研究领域。总结现有研究的方向和内容可见该领域的研究还处于初级发展阶段，初步形成了以过程数据为中心的教育教学模型研究图景（见图2）。

图2 科学探究过程数据挖掘的研究图景

挖掘和分析过程数据可以帮助教师、研究者和教育政策制定者深入理解学生科学探究表现差异背后的教育教学过程和机制，从而制定相应的支持政策。科学探究过程数据挖掘的研究图景可以分为三个方面。

一是使用理论驱动和数据驱动结合的方法界定科学探究过程指标（Eichmann et al.,2020），把行为序列和认知、元认知策略等联系起来，为挖掘过程数据和构建教育教学模型提供理论基础。研究者基于学科理论研究界定科学探究过程指标，把行为序列简化为一系列单一统计指标。例如，科学探究策略（控制变量或交互）、科学探究中的探索行为（行为、试验、人机交互和科学探究的次数等）以及花费在每个题目或任务上的总时间都是常见的过程指标（Teig et al.,2020）。使用数据驱动的方法提取行为序列的子序列或全序列作为过程指标（Eichmann et al.,2020;He&von Davier,2015;Tang et al.,2020）。单一统计指标可能会忽略行为的组合或序列信息，导致重要信息丢失，以至于出现完全不同的行为序列却得到相似的统计指标，而提取行为序列或其子序列则可以避免这一问题。例如，研究者使用n-gram方法将解决复杂问题行为分解成小的子序列，进而通过分析子序列的频次和成功解决复杂问题之间的关系来确定相关的行为模式（He&von Davier,2015）。除了子序列指标以外，还可以提取完整的行为序列以深入理解行为特征与探究成功之间的关系（Eichmann et al.,2020）。

二是基于过程指标分析影响科学探究结果或能力的关键过程指标。研究者（Goldhammer&Zehner,2017）认为过程数据会对结果分数产生影响，使得影响机制成为研究方向之一。例如，一些研究者（Han et al.,2019）使用随机森林方法得到了对问题解决结果具有重要预测作用的过程特征。另一些研究者（Scalise&Clarke-Midura,2018）将传统的多维项目反应理论和贝叶斯方法结合起来同时分析过程指标和结果数据，更加科学和准确地评价学生的科学探究能力。还有一些研究者（Baker et al.,2016）使用沉浸式虚拟环境（虚拟表现评价）下的过程数据构建了一个科学探究模型以预测学生是否能够成功开展科学探究。

三是基于混合模型构建影响科学探究过程的教育教学模型。一方面科学探究过程的分类成为研究主题之一。例如，研究者将控制变量策略的使用水平分为完全没有使用控制变量策略、部分使用控制变量策略和完全使用控制变量策略，并使用潜类别模型把学生分为熟练的探索者、中级探索者、低表现探索者、快速学习者、新兴探索者和不持久的探索者（Greiff et al.,2018）。另一方面，基于背景数据融入教育教学变量研究影响科学探究过程发展的教育教学机制。例如，研究者基于PISA2015年计算机模拟测试中的科学探究过程数据，使用科学探究策略、科学探究的探索行为、学生花在每个任务上的时间以及任务作答的准确性四类过程和结果指标，将所有学生分为策略型、处于发展初期型和未卷入型三种，并使用人口学特征变量（性别、社会经济地位、家庭使用的语言）和态度变量（学生对科学的喜爱、自我效能和考试焦虑）对学生的科学探究过程类别进行预测，获得了有关科学探究过程形成的教育教学模型（Teig et al.,2020）。

（三）构建与课程、教学和学习深度融合的新型评价生态系统

评价是教育系统的组成部分之一。使用计算机模拟测试方法构建新型评价生态系统，加强评价与课程、教学和学习的深度融合，从而促进学生的个性化学习，这是计算机模拟测试方法的重要价值和功能。当前，评价与课程、教学以及学习深度融合通常有两种主要路径，即大规模科学教育评价和嵌入式课堂评价（见图3），它们分别代表终结性评价和形成性评价。核心素养、课程标准和过程数据挖掘是增强终结性评价和形成性评价的重要支柱，从而有效支持复杂科学知识和科学探究技能的个性化学习。

图3 计算机模拟测试方法与课程、教学以及学习深度融合的两种主要路径

一方面，依据核心素养和国家课程标准制定科学探究能力的评价指标，并在大规模科学教育评价中采用计算机模拟测试方法是促进课程和教学改革的重要抓手。科学探究是科学学科的核心特色，科学家主要使用科学实践的方式解决复杂的现实问题。因此，促进学生像科学家一样通过科学实践思考和解决问题也是当代科学课程的重要目标。经合组织认为学生有必要理解科学研究的特性并将其迁移到现实世界的真实情境中以解决问题（OECD,1999）。改革评价方法从而有效评价学生在真实情境中开展科学探究的能力是PISA测试的价值追求。经过多年的不断发展，经合组织提出了以科学探究为中心的评价标准：科学地解释现象、评价和设计科学探究以及科学地解释数据和证据，而且将计算机模拟测试方法作为当前的主要评价方法（OECD,2010,2017）。例如，在2015年经合组织公布的试题中，PISA测试的情境材料不仅包括简短的文本以及文本和表格、图形的组合，还有动画和模拟类的动态刺激材料，在动态的科学探究过程中评价学生的科学探究能力。2019年，美国的NAEP测试以国家课程标准、科学素养基准、国际测试框架以及各州课程标准为共同基础提出了科学素养测试框架，其中使用科学探究的四项测试标准包括：①设计或评价科学调查；②使用合适的工具和技术开展科学调查；③识别数据的模式与/或将数据模式和理论模型联系起来；④使用经验证据验证或批判解释和预测的结论（Perdue et al.,2019）。为了全面和准确评价学生使用科学探究的能力，NAEP还从正式测试样本中抽取部分样本独立进行动手表现或计算机交互任务测试。综上所述，使用计算机模拟测试方法全面和准确地评价学生的科学探究能力，深入了解学生在界定研究问题、制订数据收集计划、执行计划以及应对不可预知的挑战等方面的高阶能力，是有效增强评价与课程和教学的深度融合的关键过程和方法。

另一方面，以虚拟科学探究学习环境为主体，嵌入计算机模拟测试工具和过程数据分析方法，构建“归纳分析+实时反馈+辅导帮助”的新型课堂评价系统是促进个性化学习的主要表征。美国West-ED、哈佛大学、科罗拉多大学博尔德分校等机构以国家课程标准为基准，开发了模拟科学家、虚拟表现评价（virtual performance assessment）以及PhET模拟等科学探究学习和评价系统，均以计算机模拟测试为其理论基础。例如，“模拟科学家”项目开发了一组符合国家和州科学课程标准的科学探究模拟学习环境，其中嵌有形成性和终结性评价系统。学生可以开展科学观察、科学实验、数据解释和科学预测活动，形成性评价系统可以实时归纳分析学生的错误类型并提供反馈提示和辅导，从而帮助其矫正错误概念或前概念。学习管理系统还会呈现学生学习进展情况，指出每位学生在每项知识内容和科学探究学习目标上是表现较好、正在进步还是需要帮助。单元学习结束之后，学生还会进入终结性评价系统，将所学知识和技能迁移到新情境下应用，系统以基础以下、基础水平、成熟和高级划分学生的能力水平，并为教师和学生提供能力反馈报告（Quellmalz et al.,2020）。为了促进个性化学习，研究者还使用科学探究过程的高级分析技术进行学习分析。例如，研究者使用文本回放标签法、序列模式挖掘法对复杂的科学探究过程进行自动化评分；使用自然语言处理技术对科学解释进行自动评分并预测学生的科学探究能力。科学探究能力自动化评分可以为学生实时提供自适应的、个性化的反馈和支架从而提升学生的科学探究能力（Li et al.,2018）。

三、新时期科学探究能力评价：构建思路与应用途径

计算机模拟测试是一种信息技术赋能的动态评价方法，也是以教育测量、计算机技术、科学教育和大数据为基础形成的交叉研究领域，还是一种与课程、教学和学习深度融合的新型评价生态系统。计算机模拟测试方法可以为教育教学决策提供科学、全面、可靠、有效和实时的评价依据，显著改进了结果评价并强化了过程评价。计算机模拟测试方法在我国虽被广泛关注和初步研究，但还没有实际应用。鉴于其意义和价值，讨论计算机模拟测试工具的构建思路，对于着力改进课堂评价与科学学科国家义务教育质量监测具有启示意义。

（一）构建计算机模拟测试工具的理论思考

我国目前有关计算机模拟测试方法的研究主要是介绍国际上使用的测试工具及其开发的概念框架——证据中心设计（李菲茗等,2020）。由于计算机模拟测试方法具有学科交叉、形态多样和测试工具构建复杂等特点，在开发测试工具的过程中除了要遵循标准的流程和规范，还要正确处理设计、开发和解释的关键理论问题，作好各种评价和推论决策。

一是正确认识信息技术和科学探究能力评价之间的主次关系。计算机模拟测试方法的本质特征是“信息技术+科学探究能力评价”，这一交叉学科的核心问题是使用信息技术解决科学探究能力评价的科学性、准确性和有效性问题。因此，开发测试工具时应该以科学探究能力为中心进行设计和解释，否则就不能构成具有实质意义的评价问题，导致测试工具难以用于实际的教学实践活动，不能提供有效的教育教学建议。加强科学探究能力的中心地位可以从三个方面着力。首先，通过对科学探究能力进行操作性定义来构建精细的测评维度。科学探究能力是复杂、多维和综合性的，通过领域分析和领域建模清晰定义科学探究活动必需的知识、技能和能力是开发测试工具的首要步骤。例如，一些研究者关注科学探究作为一种问题解决过程——形成假设、设计和开展调查、解释数据和交流结果（Gobert et al.,2013），另一些研究者则关注科学探究作为一种合作解决问题的过程——分享资源/观点，协商观点，调节问题解决活动并保持积极沟通（von Davier et al.,2017）。其次，明确测评维度的外部可观测行为证据以开发科学探究任务来收集有效数据。例如，研究者将合作科学探究能力具体化为33种可观测行为，精细指导科学探究任务设计和开发（von Davier et al.,2017）。在真实情境中，科学探究任务的复杂性使得解决问题需要综合运用多种科学知识、技能和能力，测评维度与外部可观测行为证据之间的映射关系不仅可以加强科学探究任务设计的目标性、精准性，不致毫无目的地在计算机模拟和游戏中增加复杂的刺激特征（Behrens,2009），而且可以构建准确的测量模型以推论学生的科学探究能力。最后，使用精细的测评维度可以指导过程数据的采集标准、解释机制和应用规则构建。过程数据是学生完成科学探究任务的内在心理过程写照和能力推论的直接证据。测评维度与过程数据之间的映射关系可以加强理论驱动的过程数据采集、过程指标提取和合适测量模型的选择。

二是根据应用场景和评价目标选择合适的计算机模拟测试类型。科学现象的模拟、虚拟实验室和多用户虚拟环境在情境真实程度、探究任务复杂程度、学生沉浸体验和应用场景上有着显著差异，在实践应用中选择合适的计算机模拟测试类型非常重要。当前，鉴于科学课程改革的内在要求，课堂评价和大规模科学教育评价都有创设虚拟情境和复杂科学探究任务的需求，使得多用户虚拟环境成为迫切的现实诉求。然而，由于评价目标、技术条件和现实问题的约束，多用户虚拟环境并不适用于大规模高利害相关的科学教育评价。例如，多用户虚拟环境由于本身的高度开放性和自主性，导致在有限的测试时间内无法使用大量的题目，因此难以满足知识、技能和能力要有足够代表性和覆盖面这一要求。总的来看，国际科学教育评价项目主要使用科学现象模拟和虚拟实验室（OECD,2010,2017;Perdue et al.,2019）。多用户虚拟环境更适合在课堂学习和评价中广泛使用，真实且复杂的情境和任务、自主的探索空间以及沉浸式的体验都有利于增强评价与课程、教学和学习的深度融合。

三是选择合适的统计模型综合多源证据以推论学生的科学探究能力。传统测试方法只能采集高度结构化的结果数据，借助传统的经典测验理论和项目反应理论即可准确分析这种单一类型的数据。然而，科学探究过程数据作为科学探究能力的直接证据，无法借由传统的教育测量模型进行分析。过程数据是无结构的大数据，分析时不仅需要拓展传统的教育测量模型，还要开发机器学习模型。例如，有研究者将传统的多维项目反应理论模型和贝叶斯网络结合，提出了混合模型mIRT-Bayes，用于分析虚拟表现评价中的结果数据和过程数据。经过改进的测量模型可以提高科学探究能力估计的信度（Scalise&Clarke-Midura,2018）。还有研究者提出了新的贝叶斯网络、人工神经网络和知识追踪模型，用以分析科学探究过程数据（Quellmalz et al.,2009）。

（二）改进课堂评价与科学学科国家义务教育质量监测

从有关课堂教学和评价改革政策的新变化可见，当前使用人工智能、大数据等现代信息技术创新评价工具成为我国教育改革中的重要实践需求（教育部,2019,2021;中共中央等,2019,2020）。借鉴国际上计算机模拟测试方法的实践进展，可以着力构建评价与课程、教学和学习深度融合，结果数据和过程数据深度融合，以及各种不同学科领域深度融合的新型科学探究能力评价生态系统，从而改进课堂评价与科学学科国家义务教育质量监测。

一是借鉴国际科学教育评价项目的成熟经验改进科学学科国家义务教育质量监测。总的来看，国际科学教育评价项目的计算机模拟测试方法经历了两个发展阶段。第一阶段为早期探索和理论研究阶段（2006—2009年），目标是检验大规模实施计算机模拟测试方法的可行性，并系统研究测试工具的信度、效度和测量等价性等理论问题。PISA测试项目是其中的先行者，早在2006年就开展相关试验和研究（OECD,2010）。美国各州和全国的测试项目也在探索使用计算机模拟测试方法（Quellmalz&Pellegrino,2009）。2009年，修订之后的美国NAEP科学素养测试框架提出使用计算机交互任务评价学生开展探究和调查的技能（Winick et al.,2008）。第二阶段为测试工具的实践应用和升级阶段（2010年至今）。例如，2015年，OECD正式使用计算机模拟测试方法评价学生的科学素养。还有一些研究者使用更加复杂的虚拟表现评价测量美国各州和国家科学教育课程标准所要求的科学探究过程（Clarke-Midura et al.,2011）。目前，计算机模拟测试工具的价值得到了普遍认可。例如，拓展了可以调查的科学现象范围（如展现过慢/过快、肉眼不可见的危险的科学现象）（OECD,2010）；测试题型更加丰富，信息技术可以创生出各种信息技术增强题型（如使用下拉菜单进行选择、选择地图中的某个地点、使用鼠标拖放进行排序）。计算机模拟测试方法在大规模教育评价中的应用分为两种典型的路径模式：“静态单元+动态单元+全部样本”（PISA测试模式）和“动手操作任务+计算机交互任务+部分学生样本”（NAEP测试模式）。结合计算机模拟测试工具开发的难度、学生的接受程度以及计算机和网络硬件的普及程度等各种情况，我国现阶段改进科学学科国家义务教育质量监测可以NAEP测试模式为主，独立实施计算机模拟测试并报告结果，逐步构建深度融合的新型教育评价生态系统。

二是结合中共中央和国务院的政策要求，使用计算机模拟测试方法加强评价与课堂学习的深度融合。2019年6月，中共中央、国务院提出精准分析学情、差异化教学和个别化指导的教学改革方向（中共中央等,2019）。随着我国信息技术支撑的科学探究学习环境的发展成熟，将计算机模拟测试工具嵌入其中即可构建课程、教学、学习和评价深度融合的学习和评价系统。通过构建“归纳分析+实时反馈+辅导帮助”的学习诊断和干预路径，充分结合高级教育数据挖掘方法还可更加高效地开展差异化教学和个别化指导，从而加强和改进科学探究和实验教学。

四、结语

使用计算机模拟测试方法评价学生的科学探究能力是新时期的理论趋势和实践进展。当前，虽然该研究领域还处于初级阶段，国内的相关研究较少，但是可以看到其对教育评价改革的重要价值。一方面，利用信息技术创建真实情境和探究任务可以改变教育评价的本质并提升评价工具的结构效度；另一方面，挖掘和使用大量过程数据可以强化过程评价和形成性评价。未来，持续的理论研究和实践应用对于加强和改进计算机模拟测试方法至关重要。例如，在计算机模拟测试方法中加入更多的合作解决问题、科学探究策略、虚拟现实情境等要素以促进对更加复杂的科学探究过程和要素进行评价；使用机器学习方法开展过程数据的深入研究；在科学探究学习系统中使用自动评分技术实现学习和评价无缝衔接和整合。