合作问题解决能力测量:真实性与过程性评价视角
2022-05-16袁建林刘红云
袁建林 刘红云
[摘 要] 合作问题解决能力是一种复杂的高阶技能,其有效测量面临困境。文章遵循真实性与过程性评价理念,尝试建构全新教育测验形式,探索合作问题解决能力有效测量的方法与过程。首先,基于真实性评价理念建构真实任务情境,开发具有真实性、交互性、动态性的测验任务。其次,获取学生在测验任务中的过程性表现,从过程数据中提取有意义的行为模式作为观测指标,以此形成合作问题解决能力的测量证据。再次,鉴于“两人交互”的合作形式和三种观测指标并存的项目结构,应用两维度Rasch模型进行测验分析和估计学生能力。模型拟合结果显示测验项目的MNSQ值处于0.87~1.34之间,项目的整体分离度为0.981,大部分项目的区分度大于0.3,学生能力分布符合一般实际,表明测量模型拟合较好,测验项目质量较高。研究结果说明基于真实任务与过程性测验表现测量合作问题解决能力是一种可行的途径,这种新测验形式对复杂技能的有效测量具有重要借鉴意义。
[关键词] 合作问题解决能力; 测量; 真实性评价; 过程性评价
[中图分类号] G434 [文献标志码] A
[作者简介] 袁建林(1983—),男,湖南邵阳人。副教授,博士,主要从事教育测量与评价、技术支持的复杂能力测评研究。E-mail:jianlinyuan@hnu.edu.cn。刘红云为通讯作者,E-amil:hyliu@bnu.edu.cn。
一、引 言
源于核心素养研究热潮,如何科学有效地测量核心素养这类复杂技能是教育领域备受关注的问题,也是教育测量所面临的难题和挑战[1-2]。合作问题解决能力(Collaborative Problem Solving)是一种重要的核心素养,大型国际测评项目PISA2015和ATC21S(Assessment & Teaching of 21st Century Skills)采用不同方法开展了大规模测评实践[3],以促进合作问题解决能力科学有效测量的进展,驱动教育测量理念、方法与技术的系统性革新,对教育测评的发展具有深远影响。但从测量的科学性与有效性来看,两个项目都存在一定局限,需要更深入研究。在国内,合作问题解决能力测量的实践研究缺乏,有关复杂能力测量方法与过程的讨论也不多。本研究着眼于“真实性”与“过程性”测评理念解构合作问题解决能力的测量方法与过程,以期解决现有测量方法所存在的问题,促进复杂能力测量的发展。
二、已有研究与问题
伴随经济与社会的全球化、网络化,分工协作是当代社会生产生活的基本组织形式和人际交往准则,与此相适应,能有效参与合作、解决现实问题成为21世纪公民必备的能力与素养。在教育领域,合作问题解决一般被认为是一种核心素养或者21世纪技能,PISA2015和ATC21S都对其内涵进行了详细的界定。综合多方讨论,合作问题解决能力是指“为达成共同任务目标,个体参与合作小组问题解决过程的能力”[4]。对其内涵的理解基本达成共识:合作问题解决是一种个人能力,而不是合作小组的共同能力;这种能力体现在个体参与小组问题解决活动过程中,为了完成共同任务,合作小组成员需要交流各自信息、讨论问题解决方案、协同各自行为,最终达成共同任务目标[4]。因此,合作问题解决能力是一种涉及社会交互的个体层面能力,也是一类高度抽象、结构复杂的高阶技能。
从教育测量的视角来看,复杂构念的有效测量,首先需要对其进行详细界定,提出与复杂理论构念“等同”的测评框架。PISA2015和ATC21S都提出了具有广泛公信力的测评框架[5],具体框架内容存在较大差别但也具有共性,基本思路是将抽象的能力进一步具体化、細化,形成可观察、可测量的指标体系。以ATC21S提出的测评框架为例,其遵从复杂概念解构还原的基本范式,通过逐层分解,将合作问题解决能力具体化为18种元素,所形成的框架见表1。
关于合作问题解决能力的测量方法,PISA2015和ATC21S所探索的两种原创性方法最具代表性。PISA2015采用“人—机”交互的测验形式,被测学生与代理(Agent)之间通过对话完成问题解决过程。代理指的是任务情境中设计的具有一定智能的虚拟人物,模拟被测学生的搭档。其测量的基本原理是:精心设计对话流程与路径,在对话过程中嵌入一系列问题且提供相应选项,被测学生选择相应选项完成对话进而促进问题解决进程的发展,学生对问题的作答被用于推论其合作问题解决能力,其实质是巧妙利用学生与代理之间的“问—答”对话从而将交互性的动态测验转化成标准化的单项选择测验[3]。国内有研究通过对合作问题解决过程行为和被试输入语言进行结构化编码,应用会话管理技术进行人机对话,尝试突破PISA2015的结构化测验流程[6]。ATC21S采用“人—人”交互的测验形式,由两位学生组成合作小组完成共同任务、达成共同目标。其测量的基本过程是:基于信息不对称机制设计任务,学生通过对话交流信息、讨论解决方案、执行相关操作达成共同任务目标,测试系统实时记录两位学生的关键操作行为和对话内容并形成过程数据,从过程数据中提取关键行为或行为模式作为合作问题解决能力框架中元素的观测指标,然后基于这些观测指标推论学生的问题解决能力。
对于两种测量形式的优劣,学者们持有不同的看法。有研究者认为“人—机”交互测验为参与测试的学生提供了等同的小组构成,能够确保被试受到等同刺激,但预先设定的“人—机”对话路径与流程限制了交互的开放性,缺乏现实场景中对话的真实性,“人—机”合作不能等同于真实世界的合作[7-8]。Griffin等认为“人—人”交互测验模式是真实的人与人之间的合作,具有现实合作场景中的开放性、真实性,与“人—机”交互模式相比具有更高的测验效度[8]。但ATC21S为合作小组的两位学生定义了相同的试题,采用传统Rasch模型估计学生的能力,两位学生之间的交流合作违背了测量模型个体独立性假设[4]。此外,“人—人”交互测验产生的过程数据包含丰富的信息,有利于合作问题解决能力这类复杂技能抽取多样化的测量证据。总体上,“人—机”交互提供等同刺激,避免了“人—人”交互的非独立性问题,不需要对交流语言进行处理,适用于PISA这类大规模标准化测验的需求。“人—人”交互是真实的人与人之间的合作,从测验形式来看更具现实世界合作的真实性与开放性,因而测验可能更真实有效。
教育测评形式与方法的变革根源于测评思想与理念的发展。PISA2015和ATC21S关于合作问题解决能力的新测验形式超越了传统标准化纸笔考试,其突破性的进步除了技术便捷性的助催,变革的本质根源于教育测评自我反思与批判所衍生的新评价思想与理念。具体来说,是真实性评价与过程性评价理念在教育测评实践中的运用。真实性评价倡导创设具有现实意义的真实问题情境、采用多样化评估方式,改变过度关注事实性知识再认和回忆的评价形态,从而实现对有现实价值的高层次思维能力的评价[9]。真实性评价的灵魂在于“真实性”。一方面评价任务与评价情境要具有真实性。Wiggins认为真实性评价在于考查学生在有价值的任务上的表现[10],所谓有价值的任务是指构建的任务情境与现实社会生活相同或相似,即真实性任务。另一方面,真实性评价强调测评的内容具有现实意义和价值,其核心是要考查学生整合已有知识、技能、态度、个体倾向等特质应用于有意义的现实问题情境中的能力[11],也就是在真实任务与情境中解决问题的能力。过程性评价发轫于对终结性评价的批判,主张采取目标与过程并重的价值取向,对学习过程、学习结果以及相关非智力因素进行全面评价[12],其出发点是倡导评价要关注学习过程。近年来随着技术的发展及在教育测评中的应用,衍生出游戏化测验、嵌入式测验等具有交互性、动态性的过程性测验形式[13],其核心是基于学生完成任务的过程性表现而不仅仅是“作答结果”进行测评,此为过程性评价的另一层内涵。通过对两种新测评理念与思想的阐释,可以看出PISA2015和ATC21S关于合作问题解决能力的测量具备真实性和过程性特征。首先,“人—机”交互与“人—人”交互测验都需要构建真实性情境、开发真实性测评任务。其次,所测评的合作问题解决能力是真实问题情境中的能力,具有现实意义和价值。再次,两种测验形式都具有动态性、过程性特征,学生需要与同伴或代理交流信息、讨论解决方案、执行问题解决步骤等,测验进程是动态发展的过程,关注完成任务的过程而不是结果。
综合来看,PISA2015和ATC21S采用全新测验形式测量合作问题解决能力是新测评理念引领与新方法技术应用双重驱动的结果。对于两种测验形式的优劣,从真实性评价和过程性评价的角度来看,“人—人”交互测验是真实的人与人之间的合作,更具有人类社会合作交互的开放性与非预见性,更符合真实性与过程性测评理念,因此本研究将采用“人—人”交互的测验形式。然而,对于这类真实的“人—人”交互式测验,如何设计與开发测验任务?如何获取学生完成测验任务的过程?如何从学生完成任务的过程中抽取指标推论学生的潜在能力?如何基于这种真实性的交互式测验确保合作问题解决能力的测量更加科学有效?对于这些基本问题的回答,需要实践层面的经验与证据。本研究着眼于合作问题解决能力的测量,尝试从真实性与过程性评价视角解构这类复杂测验的实施流程,以期为复杂技能的有效测量、新型交互性测验的实施提供经验与借鉴。
三、真实性测验任务设计
由于合作问题解决能力的复杂性,设计与开发测验任务是合作问题解决能力有效测量的首要难题。遵循真实性评价理念,我们尝试构建基于信息技术的真实性测验任务,以期能有效诱发被试合作性地参与问题解决,实现对合作问题解决能力的有效测量。真实性测验任务设计主要包括“合作”的诱发机制设计、任务原型设计和任务表现形式设计三方面。
(一)合作问题解决能力的诱发机制
在传统纸笔测验中,测验试题是诱发被试能力反应的刺激因素,试题与被测能力存在内容关联性,试题设计主要从学习范围之内进行内容抽样。合作问题解决是一种复杂的高阶技能,难以基于传统纸笔测验中的试题诱发学生合作性的解决问题,需要设计新颖的刺激形式达到有效测量的目标。合作问题解决主要包括合作与问题解决两个维度,对于问题解决,传统“提问题”的形式能有效诱发问题解决过程,而对于合作的诱发,教育测验中缺少较为成熟的机制。
在ATC21S和PISA关于合作问题解决的测评研究中,合作的诱发机制在于让学生们参与解决同一个问题,达到共同目标,但具体方式有所区别。PISA“人—机”交互的合作由虚拟的“代理人”提问、学生作答的形式完成。ATC21S“人—人”交互的合作采用“信息不对称”的诱发机制,主要包括以下两方面:一是让两位学生解决同一问题,达到共同目标;二是在任务开始之初为两位学生分配不同的资源、工具,让学生获得不同信息,需要学生充分利用各自掌握的信息与资源交互协作才能完成任务、达到共同目标。“信息不对称”的合作诱发机制更接近现实中合作情境,构建的合作任务更具有真实性,更符合本研究真实性评价的初衷,因此我们采用该形式设计测验任务。
(二)真实性任务原型设计
所谓任务原型,是指测验任务所包含的问题情境、问题结构。合作问题解决能力的真实性测评以真实性任务为基础,真实性任务需要真实性问题情境。真实情境是源于现实世界、贴近学生经验的生活场景[14],它缺乏传统测验试题所具有的学科化问题结构,需要学生综合应用自身知识、技能和经验探明现实生活场景的问题解决过程,而不是简单的学科知识应用。
合作问题解决能力真实性测验任务情境创设主要考虑以下因素。一是任务情境要能够诱发学生参与合作,主要通过“信息不对称”机制达到该目标。二是问题情境源于学生学习与生活中的真实性体验,主要包括学科有关问题情境和学科无关问题情境。学科有关问题情境源于学科学习的现实场景,解决该类任务主要以学科知识为支撑;学科无关问题情境源于真实的生活场景,是学生真实生活中会遇到现实问题,解决该类问题需要综合应用自身知识、技能与经验。基于已有测验任务改编和重新设计,本研究共设计开发了五个任务。以“装水”任务为例,表2详细描述了其设计原理。图1是“装水”任务完成开发的界面截图。
(三)任务表现形式设计
在基于计算机的表现性测验中,技术的便捷性使得建构丰富的问题情境成为可能,同时也会产生多种类型的测验表现,比如学生交流讨论中的言语行为,单击、拖拽等操作行为,也有可能是任务完成后的成果与产品。对于这些类型迥异、意义繁杂的表现形式,需要在任务设计时加以规定、规范,确保测验表现形式结构化、系统化,为数据分析和抽取测量证据提供基础。
测验表现的结构性规范设计在于对任务活动过程进行统一界定,重点关注学生在任务情境中的行为过程,以及任务活动所引起问题情境的状态变化。本研究以“事件”对问题情境中的活动以及有关问题情境的状態进行统一规范。事件是指学生在任务活动中的行为和问题情境状态的更新,结合其发生的时间顺序可以反映学生的行为过程和问题情境状态的变化过程。例如,“装水”任务中,学生A打开水龙头接水是一个行为事件;接水以后,水杯中的水会变成3L,该事件属于问题情境状态的变化。表3是对“装水”任务问题情境的结构性界定,包含该任务部分需要捕获的关键事件。所谓关键事件,是指对于揭示学生问题解决过程有重要意义的事件,而不是与问题解决无关紧要的事件。比如,学生在任务界面中随意单击鼠标,该事件对于揭示问题解决过程意义有限,不是关键事件。关键事件包含两类,共同事件和独立事件。共同事件是指在所有任务中都会出现的事件,比如任务的开始和结束、学生的对话。单独事件是指在该任务中特有而在其他任务中不会发生的事件。
关键事件对于复杂技能的过程性测量具有重要意义。学生在问题情境中的行为与活动过程是一个连续的整体,难以整体性记录。通过界定关键事件将连续行为过程进行离散化表达,从而能实现对连续行为过程进行离散化记录。从任务活动的整体来看,如果将所有反映学生问题解决过程的操作行为和问题情境状态的变化都以事件的形式进行离散,则能完整反映学生的测验过程表现。同时,通过对关键事件进行结构化设计,使得学生在任务情境中的活动过程具有统一结构,尽管学生在不同任务情境中的活动过程千差万别,但统一的结构使得我们能对不同学生活动过程所产生的记录进行挖掘和解释更为便捷,这为大规模的标准化测量证据抽取提供基础。
四、过程性测验表现中抽取测量证据
从测验表现来看,本研究获取的是学生完成任务的行为表现过程,形成过程流数据。这类数据形式多样,蕴含信息丰富,但是单点数据缺乏解释力,难以直接应用测量模型推论学生能力。也就是说,过程流数据不是推论学生能力的直接证据,需要先从过程流数据中抽取推论合作问题解决能力的证据。如何从过程流数据抽取测量证据、设计观测指标需要深入探讨。
(一)测验过程流数据
在任务设计过程中,每个任务定义了若干关键事件。学生完成任务时,操作任务情境中的相关元素将会触发关键事件,系统依据关键事件发生的时间顺序、遵从统一的格式将学生触发的关键事件实时记录到数据库中,形成过程流数据。图2是某个小组的两位学生完成“装水”任务时所记录的过程流数据的一部分。过程流数据记录了学生从进入任务到完成任务之间的所有行为事件,包括对话、操作行为以及问题情境状态的改变等。
从数据特点来看,过程流是离散事件在时间上的连续,真实而全面地反映了学生完成任务的过程,而不仅仅是操作任务的结果。从测验的角度来看,学生的具体测验表现为关键事件流,即行为过程流。这种测验表现与传统测验直接获得学生对于试题的作答结果有巨大不同。首先,过程流数据只是对学生完成任务过程的详细记录,难以直接用于评判学生能力,需要从中提取测量证据,才能对学生的合作问题解决能力进行有效推论。其次,过程流数据中绝大多数单个关键事件对于推论学生能力缺乏意义,需要深入挖掘行为模式蕴含的信息及其测量意义。比如,单独考察学生的某一次发言或某一个操作行为,难以形成有意义的测量证据,需要结合该事件的前后多次行为事件才能提取有意义的测量证据。再次,过程流数据真实反映了学生完成任务的完整过程,蕴含着学生问题解决的策略与路径,蕴含着学生情感、动机、态度等变化,这有利于获取合作问题解决这类复杂能力的多元化测量证据。
(二)基于过程数据抽取测量证据的原理
教育测量是基于证据进行推理的过程[15],建构测量证据是复杂测验工作的核心。证据与推论有关。所谓测量证据,是指能直接增加或者降低对潜在构念水平判断的依据。合作问题解决能力的测量证据,是指能对合作问题解决能力水平高低进行直接推论的依据。本测验获取的数据是操作与言语行为的过程数据,难以直接基于过程流数据对合作问题解决能力进行有效推论,需要建构桥接合作问题解决能力与过程流数据之间的测量证据链条。
对于合作问题解决能力这类抽象的复杂技能,尽管权威的大型测验项目明确了其概念与具体维度的内涵,取得一定说服力和广泛认可。然而,这种界定是一般理论意义上的描述,是跨越不同任务情境的理论抽象。在具体测验工作中,需要结合具体任务情境对合作问题解决能力各维度进行具体化,明确其在具体任务中的实质意义。从测量的角度来看,就是依据复杂技能的理论内涵对其进行操作化界定,将理论意义上的复杂技能的组成元素具体化为任务情境中的操作行为模式,并将学生在操作行为模式上的表现视为合作问题解决能力的观测指标,以此形成合作问题解决能力的测量证据。因此,证据链条的建构过程转化为在过程数据中寻找映射构念元素的有意义行为模式的过程。所谓有意义的行为模式,是指学生在某特定行为模式上的表现对于评判学生能力水平能提供有用信息,能直接依据它增加或者降低对学生能力水平的判断,即测量证据。
本研究采用ATC21S的测评框架,见表1,其三级维度包含18种元素,ATC21S对每种元素都有相应的内涵界定。但这个界定是对构念元素一般意义上的理论说明,需要对构念元素进行操作性界定。也就是在不同的任务中寻找与构念元素关联的有意义行为模式,将学生在该行为模式上的表现视为构念元素的观测指标。观测指标类似传统测验中的试题,是推论学生合作问题解决能力水平的直接依据。表4是“装水”任务中“行动”元素的观测指标设计。在测评框架中,“行动”的内涵是指“在环境中的活跃度”,这是对“行动”一般意义上的理论阐释。在观察指标设计中,需要对其进行操作性界定,在这里界定为“发送消息和操作行为的数量”。“抽取方法”是指在过程流数据中提取该行为模式的具体方法过程,用于之后编写评分程序。表现水平主要分为等级计分和计数值两种输出,计数值需要结合学生整体表现情况和专家意见设定截断值,转化为等级水平性质的数据。
(三)两人交互测验形式下的测验项目设计
“信息不对称”的合作诱发机制使得测验项目的设计面临两难选择:一方面,“信息不对称”的机制导致两位学生所受到的“刺激”不完全等同,合作过程中的任务分工不同导致测验表现也有差别;另一方面,为了等同地测量个体能力,需要相同的测验项目以确保对参与合作的两位学生进行公平、可比较的测量。
综合考虑该特殊情况与测量模型的应用,本研究为参与合作的两位学生设计了三类项目:共同项目、独立项目、小组项目。共同项目是指,在两位学生的行为过程流中,能够映射某构念元素的相同行为模式,且这种行为模式的发生在两位学生的任务完成过程中具有必然性,可以理解为两位学生测试了相同的题目。独立项目是指,从两位学生的行为过程流中定义的相对独特的行为模式,可以理解为两位学生测试了不同的试题。小组项目是指,反映两位学生共同作用结果的指标。例如,是否达成任务目标可以作为衡量小组合作的指标,该指标凝结着两位学生作用的结果。
依据测验项目设计的原理和方法,本研究基于小丑机器人、植物生长、平衡木和装水四个任务分别为学生A和学生B定义了17个共同项目,8个小组项目,学生A的独立项目12个,学生B的独立项目11个。总体上,学生A和学生B所设计的测验项目数量基本相同,每位学生在合作问题解决的每个维度上都有一定数量的测验项目,确保测验内容的有效性。
(四)过程流数据评分及项目初步检验
完成测验项目的设计之后,需要依据测验项目的定义对每一个被试的行为过程流数据进行评分。本研究基于R语言编写自动化评分程序,程序的算法根据测验项目定义中的抽取方法。最后利用自动化程序完成对过程流数据的评分。
测验项目设计取决于研究者主观经验与个人理解,项目设计是否科学、能否有效测量合作问题解决能力,自动评分程序是否可靠,需要进行外部验证。一是测验项目专家验证。测验项目设计完成后,邀请5位专家对所有测验项目进行评审,从项目的有效性、公平性等方面综合评判所设计的项目是否合理。37个项目被完全评为“合理”,其他36个项目依据专家意见进行了修改。二是开展测验项目评分者信度验证。自动化评分完成之后,选取两位对本项目非常熟悉的教育测评领域的研究人员作为评分者,两位评分者和自动化评分程序分项目独立地对30位学生的过程流数据进行评分,然后计算评分者之间、评分者与评分程序之间的Kappa一致性。结果表明评分者之间、评分者与评分程序之间在大部分项目上的Kappa系数大于0.4以上,说明评分者之间、人工评分和算法程序评分之间有较高的一致性,自动化评分程序具有较高的可靠性。
五、测验分析与结果
测验系统开发完成之后,在北京、浙江、湖南、江西各选1所学校进行实测,测试对象为15岁左右的初三学生。完成数据清理和筛选之后,共有434人(217个小组)构成测验分析的样本。
(一)项目结构与模型选择
从测量的角度看,测验形式与项目结构共同决定测量模型的使用。“两人交互”测验形式中,被试完成任务的过程是一个相互影响的过程,测验形成的数据被称为二元体数据(Dyadic Data)。这种测验形式违背了被试之间独立性假设,传统测量模型难以直接应用。针对二元体数据的建模问题,已有研究提出多维度IRT模型、多水平模型等多种建模思路[16]。本研究设计有三类项目,为了充分利用所获得的测量证据,同时避免传统IRT建模的被试局部独立性假设问题,依据多维度IRT模型对“二元体”数据进行建模的思想,选用了项目内两维度Rasch模型作为测验数据的分析模型,具体思路如图3所示。学生A和学生B被视为模型的两个维度,分别为学生A和学生B的合作问题解决能力。CA1、CA2…是学生A的共同项目,DA1、DA2…是学生A的独立项目;CB1、CB2…为学生B的共同项目,DB1、DB2…为学生B的独立项目;G1、G2…是小组项目,同时附着于学生A和学生B。
(二)测验分析结果
采用Conquest软件基于项目内两维度Rasch模型对测验项目进行了两轮分析。第一轮分析结果表明,大部分测验项目的测量学指标表现较好,只有部分个人层面项目的区分度较低,结合个人项目与小组任务目标达成的相关分析,剔除了部分个人项目,最后包含个人层面项目36个、小组层面项目8个,再进行第二轮分析。结果表明模型拟合较好。测验项目的整体分离度为0.981,项目分离信度较高。模型的两个维度信度分别为0.886和0.891,说明模型对于两位学生的分离信度较高。两维度相关为0.561,说明两位学生之间具有较强相互依赖性。
表5为测验项目拟合结果。从中可以看出,所有项目的MNSQ值处于0.87~1.34之间,平均值1.0,说明项目的拟合情况较好。项目难度值处于-2.0~1.516之间,平均难度为-0.107,总体来说,项目稍显容易。此外,基于CTT方法计算项目区分度,项目的区分度处于0.25~0.66之间,大部分项目的区分度基本满足要求。
此外,Conqest软件估计了每位学生的合作问题解决能力,能力量尺范围为-2~2,被试在能力值0附近分布较多,以0为中心,被试向两端分布越趋减少,这与一般教育测验中学生能力的正态分布假设比较符合,反映了本测验符合一般實际情况。
六、结 语
对于合作问题解决能力这类复杂技能,传统教育测量范式面临功效瓶颈,探索复杂技能的新测量方法与手段是当前教育测评的前沿课题。本研究遵从真实性与过程性评价视角,探索基于真实任务中的过程性测验表现测量合作问题解决能力,取得较好成效。从合作问题解决能力测量角度来看,本研究采用“两人交互”的测验形式更具有真实性,设计了不同于以往研究的项目结构、应用多维度IRT测量模型具有创新性,对破解被试独立性问题提供新的思路;测验结果表明,这种新测验设计具有较高测量学质量。从教育测量发展视角来看,本研究阐明了这种新型测验形式的两大核心问题——真实性任务设计和过程性测验表现中测量证据抽取,表明基于真实任务的过程性测验表现测量复杂技能是一种可行途径,对核心素养这类复杂技能的测量研究具有重要参考价值。当然,本研究作为一种新测验形式的探索,并不完善,还有很多问题需要更深入的研究。
[参考文献]
[1] 袁建林,刘红云. 核心素养测量:理论依据与实践指向[J]. 教育研究,2017,38(7):21-28.
[2] 孙宏志,解月光,张于. 核心素养指向下高阶思维发展的表现性评价设计[J]. 电化教育研究,2021,42(9):91-98.
[3] 袁建林,刘红云. 合作问题解决能力的测评:PISA2015和ATC21S的测量原理透视[J]. 外国教育研究,2016,43(12):45-56.
[4] 袁建林. 基于行为过程表现测量合作问题解决能力的研究[D]. 北京:北京师范大学,2018.
[5] 檀慧玲,李文燕,万兴睿. 国际教育评价项目合作问题解决能力测评:指标框架、评价标准及技术分析[J]. 电化教育研究,2018, 39(9):123-128.
[6] 吴忭,王戈,胡艺龄,等. 基于会话代理的协作问题解决能力测评工具设计与效果验证[J]. 远程教育杂志,2019,37(6):91-99.
[7] SIDDIQ F, SCHERER R. Revealing the processes of students' interaction with a novel collaborative problem solving task: an in-depth analysis of think-aloud protocols[J]. Computers in human behavior, 2017(76):509-525.
[8] GRIFFIN P, CARE E. Assessment and teaching of 21st century skills: methods and approach[M]. Netherlands: Springer, 2015: 156-158.
[9] 杨向东. “真实性评价”之辨[J]. 全球教育展望,2015,44(5):36-49.
[10] WIGGINS G. The case for authentic assessment[J]. Practical assessment, research & evaluation,1990,2(2):1-3.
[11] DARLING-HAMMOND L, SNYDER J. Authentic assessment of teaching in context[J]. Teaching and teacher education,2000,16(5):523-545.
[12] 高凌飚. 過程性评价的理念和功能[J]. 华南师范大学学报(社会科学版),2004(6):102-106.
[13] BENNETT R E. Educational assessment: what to watch in a rapidly changing world[J]. Educational measurement: issues and practice,2018,37(4):7-15.
[14] 杨向东. 指向学科核心素养的考试命题[J]. 全球教育展望,2018,47(10):39-51.
[15] MISLEVY R J, ALMOND R G, LUKAS J F. A brief introduction to evidence-centered design[R]. Princeton: Educational Testing Service, 2003.
[16] ALEXANDROWICZ R W. Analyzing dyadic data with IRT models[M]// STEMMLER M, VON EYE A, WIEDERMANN W. Dependent data in social sciences research. Switzerland: Springer, 2015:173-202.