面向学生过程表现的协作问题解决能力评估研究

2022-07-18吴斓余胜泉骈扬刘阳

中国电化教育 2022年7期

吴斓余胜泉骈扬刘阳

摘要：立德树人，促进学生全面发展是新时代教育评价改革的宗旨，践行全面发展评价观基于学生全学习过程数据，为此需要借助信息技术实现对过程行为数据的自动采集和分析，提高评估的效率和准确性。该研究以协作问题解决能力为评估对象，探索信息技术创新评估工具的实践路径。在“评估三角”理论的指导下，首先从协作问题解决能力“多维-交互”的本质出发构建三维能力评估框架；其次，依托PSAA平台设计和开发基于过程数据流的协作问题解决能力自动化评估系统，实现集触发行为、采集行为、编码行为、推断能力和报告结果于一体的评估流程，并设计了对过程行为数据特别是会话内容质性特征的自动编码模型；最后，以B市140名初中生为实验对象验证了该评估系统的有效性、有用性和易用性。未来还需不断融合新理论和新技术改进和创新测评方法和工具，助推面向学生过程表现的核心素养评估的落地。

关键词：协作问题解决能力评估；人人协作；过程数据流

中图分类号：G434 文献标识码：A

* 本文受北京市教育科学“十四五”规划优先关注课题“人工智能教育应用体系构建研究”（课题编号：3020-0058）资助。

2020年10月，中共中央、国务院印发《深化新时代教育评价改革总体方案》明确指出新时代教育評价改革方向，要以立德树人为主线，扭转不科学的教育评价导向，关注学生全面发展[1]。2021年7月，教育部等多部门联合印发《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》，其中强调要利用大数据、人工智能等新一代信息技术创新评价工具，尤其在评价手段、内容等方面作出明确指示，包括开发能够记录学生学习过程表现，支撑学生德智体美劳全要素评价的工具[2]。

破除“五唯”，立足全面发展评价观，其背后的逻辑思路是将评价工作融入育人的每个环节，全方位记录不同场景下学生日常行为表现，基于过程数据的分析与挖掘评估学生各项能力的发展状况。由于数据来源丰富，数据量庞大且结构复杂，对评价技术也提出较高要求。因此，需要以信息技术为支撑实现评价工具的数字化和智能化，实现自动采集过程行为数据、实时分析数据和产生可视化评估报告等[3]，是新时代教育评价改革的重要突破口。

本研究将以协作问题解决能力作为研究对象，探索如何借助信息技术创新育人评价工具。首先，协作问题解决能力（Collaborative Problem Solving， CPS）是人类学习、工作和生活中不可或缺的一项重要技能，被世界各国列入21世纪学生核心素养框架中[4]。为此，有必要开展常态化、大规模的评估，有效测量学生此项能力发展水平，支持教师进行针对性反馈与干预，助力学生协作问题解决能力水平的提升[5]。其次，PISA（Programme for International Student Assessment，以下简称 PISA）和ATC21S（Assessment and Teaching of 21st Century Skills，以下简称 ATC21S）率先于2015年发起面向全球中学生的大规模测评项目，正式推动基于计算机的协作问题解决能力评估实践。随着实践深入，一些影响评估过程和结果的关键问题亟待解决，包括如何在多维度上输出结果以表征能力的复杂结构、如何降低协作过程中同伴对被试真实水平产生影响、以及如何实现对过程行为数据（特别是协作会话质性特征）的自动编码等等[6][7]。

基于此，本研究试图探索基于过程数据流的协作问题解决能力自动化评估方法，实现从个体在测评系统中产生的过程行为数据（点击流数据和会话数据）中自动抽取评估证据，结合该能力的复杂结构在多维度上输出个体的能力表现，并采取措施控制同伴对个体的影响，保证评估结果的科学性和有效性。该研究是助推全面发展评价观落地，创新育人评价工具方面的一个典型实践案例，为后续实现面向学生过程表现的德智体美劳全要素的评价提供了可借鉴的实践经验。

（一）协作问题解决能力

协作问题解决能力是个体与同伴协作解决复杂问题过程中所展现的能力[8]，是一个由多种子技能组成的复杂技能集[9]，包括认知的、社会的、动机情感等多方面技能[10]。因此，该能力具有复杂性和多维性特征[11]。大多数研究将协作问题解决能力作为认知性和社会性两方面技能的交互结果。最早由O’Neil等人于2003年确定了协作问题解决能力评估框架的两大维度——“问题解决”（Problem Solving）和“协作”（Collaboration），其中“问题解决”维度包括内容理解、问题解决策略和自我调节，“协作”维度包括适应能力、协调能力、决策能力、人际交往能力、领导力和沟通能力[12]，该框架为后续一系列研究奠定理论基础。PISA2015项目通过四种问题解决技能（Problem-Solving Proficiency）（探究和理解、表征和系统化、计划和执行、监控和反思）与三种协作技能（Collaboration Proficiency）（建立和维持共识、采取合适的行动解决问题、建立和维持团队的组织形式）的交叉，生成4*3矩阵形式的协作问题解决能力评估框架。ATC21S项目也将协作问题解决能力划分为“社交技能”（Social Skills）和“认知技能”（Cognitive Skills）[13]，其中“社交技能”包括参与、观点获取和社会调节；“认知技能”包括任务调节、学习与知识建构。

目前为止，协作问题解决能力评估框架主要以“认知-社会”二维结构为主，近年来随着对学生非认知表现的关注，不少研究指出动机情感、自我调节等会影响个体的协作问题解决能力[14][15]，因此该能力的评估框架有待进一步拓展。由于该能力具有复杂结构，如果只生成单一维度的能力值会过分窄化评估信息[16]，不利于指导教育教学，而且协作问题解决过程中，各能力维度之间可能存在交互作用[17]，因此，在评估协作问题解决能力时需要综合考虑“多维-交互”特点，这为评估工作带来一定的挑战性。

（二）基于过程数据流的协作问题解决能力评估

基于计算机的测评方式能够创设丰富的协作型任务情境，以非侵入方式采集学生自然状态下的过程行为表现，并以过程数据流的形式存储在日志文件中，支持面向学生过程表现的核心素养和关键能力的评估[18][19]，因而在教育评估领域内备受关注。根据协作同伴的类型不同，基于计算机的协作问题解决能力评估主要包括两种形式——人机协作和人人协作，分别以PISA2015和ATC21S两大项目为典型代表。国内有学者已从合作方式、对话交流类型、合作证据等方面进行了对比和阐述[20]，本研究主要聚焦于两种评估形式中采用的基于过程数据流的评估方法。

人机协作中的同伴是基于脚本的计算机代理，学生与计算机代理的交流过程是预先定义的，以PISA2015项目为例，每次任务包括多道试题，为完成每道试题，学生需要与代理进行多轮会话，每个话轮以单选题形式呈现，学生需选出自己认为最适合的选项，代理则根据学生选择结果提供不同回复。测试系统包括“会话区”和“任务区”，“会话区”记录学生每轮会话的选择结果，“任务区”会记录学生的点击行为，例如是否点击了正确的链接，拖拽图标的先后顺序等。评估系统会事先确定编码规则，将每一轮会话的不同选项和“任务区”的点击行为进行组合，关联到不同的评估指标以及获得相应的分值，根据学生在“会话区”和“任务区”的作答结果，自动获取关联的评估指标及分数，学生完成测试后系统自动统计所有评估指标的总分，最后线下基于心理测量模型估计能力值[21]。人机协作的评估方法通过事先定义会话内容以及每一轮会话关联的评估指标，实现基于学生的过程表现自动化累积不同评估指标的得分，便于操作和支持大规模应用。此外，基于脚本定义虚拟同伴的性格特点，能够有效控制评估过程和消除同伴对个体表现的影响[22]。但不足之处是由于技术所限，虚拟同伴还无法真正替代真实的人类伙伴，难以保证获得的是个体在真实情境中的表现，进而影响评估结果的准确性。

人人协作中的同伴是真实的人，这种评估方式更接近真实生活，但难以控制，协作过程中会涌现大量丰富的过程行为数据，尤其是在线会话类数据，机器难以理解会话内容，使得从过程数据流中抽取评估证据存在较大困难。以ATC21S项目为例，测试系统包括“会话区”和“任务区”，“会话区”实时记录学生与同伴在线交流的消息，以文本形式存储在日志文件中，“任务区”中以“行为事件”形式记录学生各类操作行为，包括输入、点击、拖拽、移动、悬停等，以事件的形式存储在日志文件中。基于预先设计的编码规则，系统将不同类型的事件转化为具有评估意义的行为指标，并基于事件发生的次数或时长等为行为指标赋予分值，最后将行为指标关联到不同的评估指标上，这些行为指标就好比传统测试中的试题，每个行为指标基于编码规则得到分值，类似于学生在每道测试题上的得分，最后也是在线下利用心理测量模型估计能力值。由于ATC21S项目是跨国性测评，需要进行不同国家语言的转换，因此没有考虑会话内容的分析，导致大量有价值的评估证据流失。此外，在小组构成方面较为单一，该项目采取的是两两协作的方式，学生自始至终和同一位同伴完成四个不同的评估任务，协作情境具有一定的局限性，难以平衡不同类型同伴对个体表现的影响[23][24]。

目前，面向大规模的评估工具主要以记录学生在测评系统中产生的点击流数据和会话数据为主。要实现基于计算机的自动化评估包括三个关键环节：创设协作任务情境触发个体产生表征能力的行为数据，从过程性数据中抽取评估证据以及基于心理测量模型估计能力值。由于人机协作和人人协作各自的测试结构不同，导致基于过程数据流的评估思路完全不同。人机协作需要预先定义会话路径，以及每轮会话和任务作答结果关联的评估指标，而人人协作则需要预先在系统中进行数据埋点以实时记录个体的过程行为表现，基于预先定义的编码规则从过程数据流中抽取行为指标，并关联不同的评估指标。但是，PISA2015和ATC21S项目没有完全实现基于过程数据流的自动化评估，其中基于心理测量模型估计个体能力值是在线下完成的，这样容易导致评估周期拉长，评估结果反馈延时，不利于支持教师及时改进教学和促使学生自我反思。因此，需要减少评估流程中的人工干预，实现数据的自动化采集和分析。

本研究将探究人人协作评估模式下，基于过程数据流的协作问题解决能力自动化评估方法。打通评估过程中的数据流回路，串起“线上数据编码”和“线下估计能力值”的环节，打造“测试-报告-改进”一体化评估系统，提高评估效率和实现及时反馈。此外，在线会话内容中蕴含着大量能够表征个体团队意识、认知水平的评估证据，如果在评估过程中增加会话内容的分析能够极大提高评估结果的科学性和准确性。本研究将结合我国学生的协作特点增加对会话数据质性特征的分析，以期提高评估结果的科学性和准确性，更加全面细致地反映个体的过程表现。

为保证评估流程的科学性和有效性，本研究依赖能力评估的基础——“评估三角”（Assessment Triangle），该理论强调“基于证据进行推理”。三角形的三个顶点分别代表能力评估的三个核心环节——认知、观察和解释（Cognition， Observation， Interpretation）。“认知”即明確能力评估框架；“观察”即在特定情境中获取表征个体能力水平的外显行为；“解释”即基于心理测量模型或统计方法推断个体能力水平 [25][26]。

基于“评估三角”理论，本研究设计了基于过程数据流的协作问题解决能力自动化评估框架。如图1所示，首先，构建协作问题解决能力评估框架，明确评估对象；接着，基于能力评估框架设计评估任务，在评估系统中进行数据埋点，确保能够采集个体在任务过程中产生的一系列行为表现[27]；在评估过程中实时采集个体产生的点击流数据和会话数据；然后，基于预先定义的证据编码规则，从原始数据中抽取具有等级意义的评估指标；最后，基于心理测量模型推断个体能力值，以可视化报告形式输出评估结果。下面从评估框架、系统设计、评估方法三个方面介绍如何实现基于过程数据流的协作问题解决能力自动化评估。

（一）三维能力评估框架的构建

相关研究表明协作问题解决能力是一个复杂技能集，是认知、社会等多种子技能交互的结果[28]，需要从多个维度刻画协作问题解决能力。协作问题解决过程包括问题情境和协作情境[29]，个体在问题情境中进行计划、探索和完成任务，在协作情境中与同伴进行沟通交流，学习科学中将“同伴交互”分为认知导向的交互（如方案协商、群体知识建构）社会导向的交互（如人际关系构建、团队凝聚力形成）[30]，通过这种认知-社会性交互，个体还需不断进行反思和调节[31]，而这依赖于个体具备的元认知属性的技能。大量研究表明，个体的元认知水平在问题解决和协作学习过程中都发挥着重要作用，还会影响同伴的行为表现[32]，因此，本研究假定协作问题解决能力具有三个子维度——认知维度、社会维度和元认知维度。

基于社会认知理论[33]，社会建构主义理论[34]，群体认知模型[35]，情境认知理论[36]和联通主义理论[37]等，在ATC21S项目评估指标体系的基础上，自上而下构建了三维协作问题解决能力评估框架，每个维度下关联若干行为指标，然后自下而上基于数据对理论假设进行验证，并鉴别出相关度较高的行为指标不断改进评估框架，本研究采用了探索性结构方程模型等统计方法经历多次迭代，对评估框架改进的最终结果如表1所示，为从过程数据流中抽取具有评估意义的行为指标提供了解释性框架[38]，由于考虑到协作问题解决能力的交互特征，个体在展示某些行为时，需要不同类型子指标之间的相互配合，因此有些行为指标横跨多个维度，这一结论也符合协作问题解决能力的本质特征，即该能力是多个维度交互的结果[39]，不同维度之间具有补偿性和关联性。

其中认知维度代表个体在解决问题过程中的认知投入程度，如查找资料、阅读资料、分析规律、指出错误等，以及参与的认知导向的同伴交互，如和同伴分任务属性、确定目标、协商问题解决方案等。社会维度表征个体参与社会导向的同伴交互活动中的行为表现，如响应同伴、鼓励同伴、保持交流等。元认知维度借鉴Zimmerman提出的SRL模型[40]，包括个体在认知-社会交互活动中进行监控、反思并做出进行调节，如规划未来行动计划、了解同伴状况、进行适应性支持等。另外，某些行为指标同时关联了两个或三个维度，例如“提示资料线索”关联认知和元认知两个维度，“构建共享问题空间”关联认知、社会和元认知三个维度。

（二）自动化评估系统的设计

评估系统的设计要保证个体与同伴产生实质性的协作，有效触发个体产生能够表征其能力水平的行为表现，采取一定措施控制同伴对其产生影响，尽可能地获取个体的真实表现，下面从测试结构、测试界面和协作支架三个方面介绍本研究的自动化评估系统的设计。

1.测试结构

为解决人人协作评估形式面临的一大挑战——如何削弱同伴等外界因素对个体外在表现的影响，该系统借鉴了Hao等人提出的方法——多团队循环式设计（A Multiteam Round Robin-like Design）的理念[41]，即个体需要与不同同伴参与完成不同任务，综合这些任务中个体的表现来评价其能力水平，以平衡外界不同因素对个体行为表现的影响。如下页图2所示，每个个体需要连续完成四个测评任务，每个任务的同伴都不相同。在小组成员数量方面，基于相关研究，为了既能保持有效的协作又能产生复杂的交互，将小组的人数控制在2—4人左右[42][43]，每次任务的协作同伴数量随机，最后基于个体在四次任务中的所有表现评估其能力水平，通过这种跨任务评估的方式可以平衡同伴对个体真实表现带来的影响。其中每个任务可能包括一个或多道试题。

2.测试界面

测试系统的整体界面包括任务区、会话区和资料中心。 “任务区”负责创设问题情境，提供任务说明、试题、作答时间和指定本题负责提交答案的同学等。其中试题类型较多，有选择题、填空题、主观题和一些交互操作类试题。系统会记录个体在该区域产生的所有点击行为，如拖动图标、向上或向下滚动页面、点击按钮。

“会话区”支持测试者与同伴实时在线交流，创设了协作情境，测试者可以发送文本消息和表情符号，还可浏览历史聊天消息。此外，会话区会根据作题进度自动发送系统消息（如提示作答规则等）。系统可以实时记录个体在“会话区”的所有会话行为和点击行为，如发送的一条消息、向上或向下滚动窗口浏览历史聊天記录。

点击测试系统中的“资料中心”图标可以进入查看各种资料，“资料中心”提供了问题解决的相关线索，包括与任务相关或不相关资料，考察个体对问题的理解是否正确，该系统会记录个体在“资料中心”所有的点击行为，如进入或退出资料中心、打开或关闭某个资料。

3.协作支架

在线协作的环境中，由于测试者无法实时了解同伴的真实状况，为了确保协作过程实质性发生，需要添加协作支架，以触发测试者与同伴产生协作意愿。本研究基于Vera等人研究[44]设计三种协作支架——资料不对称、任务信息不对称和投票机制，如表2所示。

（三）一体化评估方法的实现

为实现自动化评估方法，系统集触发个体行为、采集行为、编码行为、推断能力和输出评估结果于一体，贯通整个评估流程的数据回路。下面以任务《拍摄人工智能电影》为例详细阐述自动化评估方法的实现流程。该任务选择与生活相关的场景，对于学科知识不作要求，在资料中心会提供相关资料和线索帮助解决问题，该任务包括五个小任务，如表3所示。

以第4题为例，试题背景是某电影公司要拍摄一部电影，想请大家判断应该选择哪个剧本可能会取得较高的票房。任务界面显示为一道组合题，学生既要选择正确的剧本，又要阐述选择的理由，理由需要在最下面的交互场景中进行探究才能归纳得到。这道题使用的协作支架是“资料不对称”，同一组内不同成员的“资料中心”中剧本不同，因此需要相互交流剧本内容。

1.采集行为

为了实现行为数据的自动化采集和存储，系统提前在任务区、会话区和资料中心进行了数据埋点。因此，可以记录个体所有的点击行为和会话行为。每条记录包括小组序号、姓名、帐号、时间、行为的具体内容、任务名称和行为类型。行为类型包括“点击行为”（Click）和“会话行为”（Chat）。

2.编码行为

系统采集的行为数据以非结构化数据为主，难以直接用来估计学生的能力水平，需要进行编码转化为具有评估意义、单位统一、带有数值的行为指标。

其中“点击行为”根据预先定义的规则自动编码和记分，以“资料中心”中的“点击行为”为例，如果个体点击的资料与任务相关，则关联的行为指标“努力查找资料”得1分。

为了实现对会话数据的质性特征的分析，本研究邀请了两位心理学和教育学领域的专家共同对准实验中采集的近两万条会话数据进行质性分析，结合中国学生的交流特点，总结出高识别度的关键字、词语和句式，关联不同的行为指标，基于正则表达式实现对会话内容的自动编码，目前机器识别准确度约70%。

最后统计个体完成连续四个任务在不同行为指标上的得分情况，如图3所示，这些数据为连续型数据，不具有等级意义，不能直接输入到心理测量模型中，还需进一步转化为具有等级意义的行为指标。

借鑒ATC21S项目采用的阈值法，基于线下行为指标数据的分析，根据频次分布情况划分成五个等级，分别用0、1、2、3和4依次表示，从而将行为指标转化为具有等级意义的题项。结果如图4所示，根据每个行为指标设定的阈值区间将每个行为指标上的得分转化具有等级意义的数值。

3.推断能力

多维项目反应理论（Multidimensional Item Response Theory，简称MIRT）可以拟合数据的多维结构[45]，能够精确报告个体在多维度上的表现水平[46]。考虑到协作问题解决能力的各维度之间具有交互作用，本研究采用MIRT的补偿模型，即各个维度之间是通过线性组合的形式来决定某个行为指标上的表现。将如图4所示中具有等级意义的数值作为输入，运用多维等级反应模型（Multidimensional Graded Response Model，简称MGRM）分别估计个体在认知、社会和元认知维度上的得分来表征其协作问题解决能力水平。在MGRM中，被试得t分的概率被定义为被试得t分及以上的概率减去被试得t+1分及以上的概率[47]，即：

4.输出结果

基于M G R M输出的值一般在- 3到3之间，不利于师生理解，因此需要进一步转换，并基于过程行为数据的分析以可视化形式展示协作问题解决能力评估结果，为学生提供一些细节性反馈，促进学生反思和改进。

如下页图5所示是某位学生的协作问题解决能力评估报告，首先根据学生在不同维度上的初始能力值，划分不同的能力段位，根据能力正态分布曲线以-0.43和0.43为界限，将每个维度输出的原始能力值划分0、1和2三个等级，学生的协作问题解决能力掌握模式有“000-222”共27种，根据不同掌握模式设定不同的能力等级，采用段位的形式来表示，如黑铁、青铜、王者等；接着，将初始能力值转换为以150为均值，50为标准差的分数，以表格形式展示个体得分、平台均分和最高分，并以雷达图和箱形图可视化个体在平台测试群体中的位置，表格中除了展示个体在协作问题解决能力不同维度上的分数，还根据不同维度的能力表现，提供一些个性化改进建议，以促使学生进一步反思并有意识地提升自己。

（一）系统的开发和实现

该系统的设计与开发依托北京师范大学未来教育高精尖创新中心自主研发的PSAA（Problem Solving Ability Assessment，简称PSAA）平台。该平台包括教师端和学生端，教师端支持教师自主出题、发布测试和查看评估报告，学生端支持学生参与测试和查看评估报告。实现流程如图6所示，首先教师编辑试题、发布测试和随机分组，然后学生进入平台开始测评，连续完成四个任务后系统基于过程数据流自动生成能力报告，从而实现了自动化评估和实时反馈，减少了人工分析数据的负担，提高评估效率。

（二）实验过程和效果验证

本研究选取了B市某中学的140名初中学生参与测试，一共完成四个不同评估任务，每次测试的时间约45分钟左右，为了创设多样化协作情境，每位学生参与每次测试的同伴都是随机分配且不重复，小组构成方面比较丰富，性别方面有同性别组和混合性别组之分，小组人数方面有2人一组、3人一组和4人一组，每个任务采用的协作支架也不相同，最大限度丰富协作情境，以平衡同伴对个体表现的影响。

1.评估系统的有效性验证

为了验证三维协作问题解决能力评估框架的科学性，本研究利用R语言的MIRT程序包，分析所有学生完成四个任务后在不同行为指标上的表现数据，采用MGRM分别对20个行为指标的三维能力评估模型进行拟合度检验，估计方法是“MHRM”，该方法适用于多维结构的模型[48]，具体拟合指标如下页表4所示，其中主要指标都达到良好标准，比较拟合指数（CFI）和 Tucker-Lewis系数（TLI）均大于0.95，表示模型拟合良好，且数值越大模型越佳；近似均方根误差（RMSEA）和标准均方根残差（SRMSR）均小于0.08，表示模型拟合合理，且数值越小模型越佳[49]。

为进一步验证本研究开发的评估系统的有效性，本研究对比评估系统的结果与专家评估结果的相关性，以说明评估的结构效度[50]。由于班主任老师最了解学生在真实生活中的表现，因此邀请了使用评估系统的140名学生的班主任老师基于他们的日常表现对其协作问题解决能力的认知、社会和元认知三个维度进行评分，用“低、中、高”三个等级来表示，分别对应0、1和2。接着以-0.43和0.43为界限将该系统输出的学生在三个维度上的能力值划分为“低、中、高”三个等级，也用0、1和2表示。为了检验系统的评估结果与班主任老师评分结果之间的相关性，在SPSS26.0中进行了Spearman秩相关分析，结果显示：在认知维度（ρ=0.571，P=<0.001），社会维度（ρ=0.580，P=<0.001）和元认知维度（ρ=0.595，P=<0.001）上，该系统的评估结果与班主任老师的评分结果存在正相关关系，表明该老师评估出能力高的学生，通过该系统测试的能力水平也高，進一步证明了评估系统的有效性。

2.评估系统的有用性和易用性验证

为了验证评估系统的有用性与易用性，本研究改编Chu等人的科技接受度量表[51]，开发了关于该评估系统的调查问卷，共19个题项，分为三个部分：评估工具的体验（5题）、评估工具的感受（9题）和评估工具的满意度（5题），问卷采用李克特五点量表，每题的最高分为5分，最低分为1分，三个部分的Cronbach’s α系数分别是0.92、0.93和0.96，具有良好的信度。结果表明学生觉得该评估系统体验感强（Mean=4.229，SD=0.956），使用感受好（Mean=4.049，SD=1.004），对系统的满意度较高（Mean=4.193，SD=1.083）。

此外，本研究采用了半结构化访谈的方式对学生开展深入访谈，共计30名学生参与访谈，访谈主题包括“平台的使用感受、平台功能设计的体验以及评估工具对自身的帮助”，每个主题的访谈文本的词云图如图7所示。从访谈的内容看，学生对平台的使用感受和体验比较好，他们都表示喜欢使用这个平台，也愿意推荐给其他同学使用；更重要的是，学生通过参与这种人人协作的测试形式可以体会到与人协作的优势、会促进思考如何提升与人协作的方法和技巧，对提升协作问题解决能力有促进作用，如“这个评估系统能够促进同学间的交流，锻炼团队协作能力”，“我觉得这种在线交流方式非常新颖，有助于提升自己的信息搜索、使用和总结能力，非常愿意推荐给其他同学使用”等等。此外，学生对于平台功能设计方面也提出了一些改进意见，如“有时候同伴打字慢可能会影响在线沟通的效果，我觉得可以在会话区添加一些快捷回复，这样可以加快回复速度”。这些意见对于未来评估系统的完善和发展具有参考价值，后续会结合意见进一步完善和优化评估系统的各项功能。

本研究提出了一个基于过程数据流的协作问题解决能力自动化评估框架，对于后续实现面向学生过程表现的核心素养的评估具有一定的借鉴意义。更重要的是，由于协作问题解决能力评估缺少本土化研究，本研究考虑了中国学生的协作特点设计了自动化评估系统，对于培养我国学生的协作问题解决能力具有重要的实践价值。具体来说，主要贡献有以下两个方面：（1）突破已有的“认知-社会”二维结构框架。从该能力本质出发，新增元认知子维度，构建了三维协作问题解决能力评估框架，描述了不同子维度之间的交互关系，表征该能力的“多维-交互”特征，并利用多维项目反应模型推断学生在各子维度上的表现水平。（2）设计并实现集触发行为、采集行为、编码行为、推断能力和输出结果于一体的自动化评估系统。需要特别强调的是该系统解决了两个关键问题：一是在小组构成方面采取多团队循环设计的方式，从而平衡了同伴对个体产生的影响；二是纳入对会话数据质性特征的分析，丰富了评估证据和评估结果，提高了评估的科学性和准确性。而且从实验验证的结果也可以看到该评估系统具有较好的有效性和易用性，为利用信息技术创新评估工具，破解能力评估过程中面临的困难与挑战提供解决思路。

在本研究中，机器识别会话数据质性特征的准确度不高，后续还需尝试新的方法，基于自然语言处理技术和机器学习方法探索会话数据质性特征的自动化分类模型，以提高机器识别协作会话中关键证据的准确性。此外，随着移动智能终端和物联网技术的普及，可以获取协作问题解决过程中的多模态数据，如脑电数据、眼动数据、面部表情等，这些数据类型和结构不同，对于自动化分类技术提出更高要求。而先前构建的理论模型以及一些传统的心理测量模型和统计方法可能并不适合直接用于多模态数据的分析[52]，需要自底向上基于数据挖掘的结果不断补充和验证评估模型与方法，未来要将数据驱动方法（如机器学习、数据挖掘）和理论驱动方法（如心理测验学、统计学、认知科学）进行混合[53]，根据评估过程中产生的不同类型数据，融合新理论和新技术进行测评方法和工具的改进与创新，全面助推面向学生过程表现的核心素养评估的落地。

参考文献：

[1] 新华网.中共中央、国务院印发《深化新时代教育评价改革总体方案》[EB/OL].http：//www.xinhuanet.com//mrdx/2020-10/14/ c_139439004.htm，2020-10-14.

[2] 教育部等六部门.关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见[EB/OL].http：//www.moe.gov.cn/srcsite/A16/ s3342/202107/t20210720_545783.html，2021-07-01.

[3] Teig N，Scherer R，Kj rnsli M.Identifying patterns of students’ performance on simulated inquiry tasks using PISA 2015 log-file data [J].Journal of Research in Science Teaching，2020，57（9）：1400-1429.

[4] 郑旭东，马云飞等.协作问题解决：人工智能时代必备的高阶能力[J].现代教育技术，2021，31（3）：12-19.

[5] 张生，王雪，齐媛.评他能力：人工智能时代学生必备的高阶思维能力[J].中国电化教育，2021，（11）：24-31.

[6][16][41] Hao J，Liu L，et al.Psychometric Considerations and a General Scoring Strategy for Assessments of Collaborative Problem Solving [J]. ETS Research Report Series，2019，（1）：1-17.

[7] Rojas M，Nussbaum M，et al.Assessing collaborative problemsolving skills among elementary school students [J].Computers & Education，2021，（175）：104313.

[8][13][23] Care E，Griffin P，McGaw B.Assessment and teaching of 21st century skills [M].Dordrecht：Springer，2012.

[9][11] Scoular C，Care E，Hesse F W.Designs for Operationalizing Collaborative Problem Solving for Automated Assessment [J].Journal of Educational Measurement，2017（54）：12-35.

[10] Kyllonen P C，Zhu M，Davier A A.Innovative assessment of collaboration [M].New York：Springer，2017.

[12] O’Neil H F，Chuang S，Chung G K W K.Issues in the computerbased assessment of collaborative problem solving [J].Assessment in Education：Principles，Policy & Practice，2003，10（3）：361-373.

[14][18] Stoeffler K，Rosen Y，et al.Gamified performance assessment of collaborative problem solving skills [J].Computers in Human Behavior，2020，（104）：106036.

[15] Liu S，Liu M.The impact of learner metacognition and goal orientation on problem-solving in a serious game environment [J].Computers in Human Behavior，2020，102（1）：151-165.

[17][29] 吳忭，王戈等.基于会话代理的协作问题解决能力测评工具设计与效果验证[J].远程教育杂志，2019，37（6）：91-99.

[19] Gobert J D，Sao Pedro M，et al.From Log Files to Assessment Metrics：Measuring Students’ Science Inquiry Skills Using Educational Data Mining [J].Journal of the Learning Sciences，2013，22（4）：521-563.

[20] 袁建林.基于行為过程表现测量合作问题解决能力的研究[D].北京：北京师范大学，2017.

[21] OECD.PISA 2015：Draft collaborative problem solving framework [EB/OL].http：//www.oecd.org/pisa/pisaproducts/Draft%20PISA%20 2015%20Collaborative%20Problem%20Solving%20Framework%20. pdf，2014-07-07.

[22][30] Dowell N，Poquet O.SCIP：Combining Group Communication and Interpersonal Positioning to Identify Emergent Roles in Scaled Digital Environments [J].Computers in Human Behavior，2021，（1）：106709.

[24] Griffin P，Care E.Assessment and Teaching of 21st Century Skills [M]. Dordrech：Springer，2015.

[25] NRC.Knowing what students know：The science and design of educational assessment [M].Washington，DC：National Academies Press，2001.

[26] Shavelson R J.On the measurement of competency [J].Empirical Research in Vocational Education and Training，2010，2（1）：41-63.

[27] McClelland D C.Testing for competence rather than for “intelligence” [J]. American Psychologist，1973，28（1）：1-14.

[28][39] Hao J，Liu L，von Davier A，et al.Assessing collaborative problem solving with simulation based tasks [A].Lindwall O，Ha kkinen P，Koschman T，et al.Exploring the Material Conditions of Learning [C].Gothenburg：The International Society of the Learning Sciences，2015.544-547.

[31] Dowell N，Lin Y，et al.Exploring the Relationship between Emergent Sociocognitive Roles，Collaborative Problem-Solving Skills，and Outcomes：A Group Communication Analysis [J].Journal of Learning Analytics，2020，7（1）：38-57.

[32] Hurme T R，Palonen T，Jrvel S.Metacognition in joint discussion： an analysis of the patterns of interaction and the metacognitive content of the networked discussions in mathematics [J].Metacognition & Learning，2006，1（2）：181-200.

[33] Bandura A.Social cognitive theory of mass communication [J].Media psychology，2001，3（3）：265-299.

[34] Vygotsky L S.Mind in society [M].Cambridge：Harvard University Press，1978.

[35] Stahl G.Group cognition in computer-assisted collaborative learning [J]. Journal of Computer Assisted Learning，2005，21（2）：79-90.

[36] Lave J，Wenger E.Situated learning：Legitimate peripheral participation [M]. Cambridge：Cambridge University Press，1991.

[37] Siemens G.Connectivism：Learning theory for the digital age [J]. International Journal of Instructional Technology and Distance Learning，2005，2（1）：1-9.

[38] Zoanetti N P.Interactive computer based assessment tasks：How problem-solving process data can inform instruction [J].Australasian Journal of Educational Technology，2010，26（5）：585-606.

[40] Zimmerman B J，Martinez-Pons M.Student differences in self-regulated learning：Relating grade，sex，and giftedness to self-efficacy and strategy use [J].Journal of Educational Psychology，1990，（82）：51-59.

[42] 赵建华.Web环境下智能协作学习系统构建的理论与方法[D].广州：华南师范大学，2002.

[43] Pedaste M，Leijen .Does group size affect students’ inquiry and collaboration in using computer‐based asymmetric collaborative simulations [A].Herzog M A，Kubincová Z，Han P，et al.Advances in Web-Based Learning-ICWL2019 [C].Switzerland：Springer Nature，2019.143-154.

[44] Hagemann V，Kluge A.Complex problem solving in teams：the impact of collective orientation on team process demands [J].Frontiers in psychology，2017，（8）：1730.

[45] 曾平飞，余娜等.多维Rasch模型在维度分数报告中的应用——对带宽-保真度困境的解决[J].心理发展与教育，2012，28（3）：329-336.

[46] 刘慧.小学高年级学生阅读能力的认知诊断研究——基于层级多维项目反应理论模[D].北京：北京师范大学，2014.

[47] 杜文久，肖涵敏.多维项目反应理论等级反应模型[J].心理学报，2012，44（10）：1402-1407.

[48][49] Chalmers R P.mirt：A multidimensional item response theory package for the R environment [J].Journal of statistical Software，2012，48（1）：1-29.

[50] 戴海崎，张锋等.心理与教育测量[M].广州：暨南大学出版社，1999.

[51] Chu H C，Hwang G J，et al.A two-tier test approach to developing location-aware mobile learning systems for natural science courses [J]. Computers & Education，2010，55（4）：1618-1627.

[52] Xu H，Fang G，Ying Z.A latent topic model with Markov transition for process data [J].British Journal of Mathematical and Statistical Psychology，2020，（73）：474-505.

[53] Von Davier A A.Computational psychometrics in support of collaborative educational assessments [J].Journal of Educational Measurement，2017，54（1）：3-11.

作者簡介：

吴斓：讲师，博士，研究方向为数据驱动的能力评估、证据导向的STEM教育。

余胜泉：教授，博士，研究方向为人工智能教育应用、教育大数据、移动教育与泛在学习、区域性教育信息化。

骈扬：在读博士，研究方向为人工智能教育应用。

刘阳：硕士，研究方向为教育大数据、学习分析。

Research on Students’ Process Behavior Data-based Collaborative Problem Solving Ability Assessment

Wu Lan1， Yu Shengquan2， Pian Yang2， Liu Yang2（1.School of Teacher Education， Nanjing University of Information Science & Technology， Nanjing 210044， Jiangsu； 2.Advanced Innovation Center for Future Education， Beijing Normal University， Beijing 102206）

Abstract： It is the purpose of educational evaluation reform in the new era to foster talents through virtue and promote students’all-round development， which relies on student’s entire learning process performance. Therefore， in order to improve the efficiency and accuracy of evaluation， it is necessary to realize automatic collection and analysis of process behavior data with information technology. In this study， we explore the practical path of innovating the assessment of collaborative problem solving ability. Firstly， under the guidance of “Assessment Triangle” theory， a three-dimensional ability assessment framework is constructed from the nature of “multi-dimension and interactivity”； Secondly， based on the PSAA platform， we design and develop the automated assessment system of collaborative problem solving based on process stream data， which realizes the integration of triggering behavior， collecting behavior， coding behavior， inferring ability and reporting the results into one system. Specifically， this system achieves the automatic coding of the qualitative characteristics on discourse data； Finally， a quasi-experiment in city B with 140 junior high school students is conducted to verify the validity， usefulness and ease of use of this assessment system. In the future， it is necessary to continuously innovate assessment methods and tools by integrating new theories and technologies， and thus to boost the implementation of core competency assessment rapidly based on students’ process behavior data.

Keywords： computer-based collaborative problem solving ability assessment； human-to-human approach； process data streaming

收稿日期：2021年12月9日

责任编辑：赵云建

中国电化教育

2022年7期

面向学生过程表现的协作问题解决能力评估研究

杂志排行

中国电化教育的其它文章