APP下载

学生坚毅力测评:理论模型、表现性评价工具与数据指标

2023-07-23郭利明郑勤华齐欣

中国电化教育 2023年7期
关键词:表现性评价

郭利明 郑勤华 齐欣

摘要:坚毅力是学生综合素质中必备的优秀品质之一,也是我国未来人才培养的核心目标之一,对其开展测评具有重要的现实意义。然而,现有坚毅力测评理论框架的相对宽泛,以及传统主观测评方法的自我局限已不适宜多模态数据支持的测评趋向。为进一步解决这些问题,该研究结合扎根理论、Delphi法构建了包含坚毅力的行为性、情感性、认知性等3个一级指标,专注性、坚持性、积极情感、消极情感、目标意识、自我监控等6个二级指标的学生坚毅力测评理论模型,并以此为框架设计了面向科学探究活动场景的学生坚毅力测评的表现性评价工具。结合理论模型与测评工具,研究对学生坚毅力测评具体指标的数据表征进行了设计与说明。该研究将能够为未来基于多模态数据融合计算的学生坚毅力测评提供理论与工具支持。

关键词:坚毅力;坚毅力测评;表现性评价;科学探究活动;数据指标;多模态数据

中图分类号:G434 文献标识码:A

本文系国家自然科学基金面上项目“基于多模态数据融合计算的中小学生坚毅力测评技术与溯源研究(项目编号:62277004)”阶段性研究成果。

一、研究背景

2020年10月,中共中央、国务院印发《深化新时代教育评价改革总体方案》明确提出要强调“能力为重”“完善学生综合素质评价体系”“增强综合素质”[1]。这充分表明当前学生综合素质的发展及其重要性已经上升为一个前所未有的高度。进一步地,无论是国家政策导向,还是学术研究实践,坚毅力都已经被明确列入学生综合素质的构成要素中[2][3]。因此,可以说,坚毅力的重要性自然也就不言而喻,并且正变得日益明显。2016年,《中国学生发展核心素养框架》提出要求学生具有能不畏困难、坚持不懈的探索精神,具有坚韧乐观、抗挫性等积极的心理品质[4]。2022年3月,教育部发布的《义务教育课程方案(2022版)》(以下简称《课程方案(2022版)》)又将要培养有担当,具有坚毅勇敢品质的学生作为义务教育的培养目标之一[5]。这说明在以“立德树人”为根本任务、培养德智体美劳全面发展的社会主义建设者和接班人的教育目标指引下,包含自强不息、攻坚克难、努力奋斗属性的坚毅力逐渐成为我国未来人才培养的核心目标。

坚毅力(Grit)最早由美国学者Angela Duckworth提出,认为坚毅力是个体追求长期目标所保持的激情(Passion)与坚持(Perseverance)[6]。随后,她的团队设计、开发了坚毅力测评量表(Original Grit Scale,Grit-O)对个体的坚毅力水平进行测量,并且在国内外得到了广泛的应用。然而,不可忽略的事实是,完全依靠传统的自我报告法测量个体的坚毅力水平会因为社会称许性等各方缘由而导致度量准确度不高、测评客观性不足以及测评结果难应用等诸多现实问题。所幸,当前智能技术的发展,尤其是多模态学习分析技术的兴起有望解决这些现实问题,因为多模态数据能够较为全面、客观、准确地描述或解释同一对象[7]。并且,多模态学习分析技术在数据采集、数据智能处理以及结果应用上都提供了新的测评机遇,不仅能够突破依靠自我报告法所带来的坚毅力测评现实问题,而且是对我国新时代教育评价改革要求的客观回应。

此外,基于信息技术的表现性评价正成为《课程方案(2022版)》中具有独特育人功能的实践活动的重要关切[8]。作为回应,《义务教育科学课程标准(2022版)》(以下简称《科学课程标准(2022版)》)提出加强探究实践,强化过程评价,关注学生在探究和实践过程中的真实表现与思维活动[9]。因此,从测评场景来看,表现性评价的推进,使得探究实践活动逐渐成为坚毅力测评的重要场景,支持测评往纵深方向发展。因为表现性评价在探究实践活动中的应用能够关注到学生在探究和实践过程中的关于坚毅力的真实表现与思维活动,对坚毅力的测评与培养具有重要作用。

整体而言,测评学生个体坚毅力水平具有重要的现实意义。然而,当下如何基于多模态数据开展学生坚毅力测评尚有诸多空白。基于此,本研究立足多模态数据支持的测评,构建学生坚毅力测评的理论模型,开发评价学生坚毅力的表现性评价工具,设计学生坚毅力测评的多模态数据表征,以期为未来基于多模态数据融合计算的学生坚毅力测评提供理论、工具支持。

二、文献综述

(一)坚毅力的内涵及外延研究

在2007年,美国心理学家Angela Duckworth首次提出坚毅力,将其概括为对长期目标的激情和坚持[10];在2014年,Duckworth将坚毅力表述为追求长期目标时保持持续激情和努力工作的倾向[11];在2016年,Duckworth出版专著明确指出坚毅力是一种二元复合的品质,包括激情和坚持两部分[12]。由此可见,坚毅力是由激情和坚持两部分要素构成(也称兴趣稳定性和努力持续性),出现在个体追求长期目标的过程中。坚毅力概念一经提出,便迅速成为国内外学术研究、政策制定、实践应用所关注的热点话题。

有研究在Duckworth所提坚毅力内涵的基础上进行了一定程度的拓展与更新,是对坚毅力内涵及构成要素的继承与发展。比如,美国教育部将坚毅力定义为个体面对挑战和挫折时,利用相互影响的心理资源坚持不懈地完成目标,并提出了一个框架,包括坚持不懈完成目标(Perseverance to Accomplish Goals)、学术思维方式(Academic Mindsets)、努力控制(Effortful Control)及策略与战术(Strategies and Tactics)等要素[13]。经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)認为坚毅力是指个体坚持不懈做任务直到完成,具体行为表现为突破阻碍,坚持完成目标,是属于任务表现能力下的一项子能力[14]。刘妍等人[15]将不同情境中表征坚毅力属性的术语(如责任心、勇气、坚韧、坚持、持续力、学习投入、课程留存率和完成率等)统一概括为“学习毅力”,并认为其是指学习者长期对目标的坚持和激情的保持,不惧怕困难和挑战,保持坚持的行为倾向,以及坚持不懈的态度和性格,包括个体特征、关系特征、学习环境与媒体技术特征以及语境特征等要素。此外,还有学者重新聚焦目标导向性,认为坚毅力是个体制定并追求目标驱动的长期目标以及在遇到困难和挑战的过程中有效调整短期目标与目标实现策略的一种主要的非认知能力[16]。

虽然坚毅力的理论建构在心理测量领域得到了基本的认可,但是对坚毅力的几个基本问题的质疑与批判一直存在,其中最典型的就是坚毅力的理论因素结构问题,引起了廣泛的关注。如Credé等人[17]采用元分析方法对88个代表66807个个人的独立样本的584个效应量进行分析,得出的结果表明:坚毅力的高阶结构没有得到证实。Fosnacht等人[18]采用验证性因子分析方法对38所大学本科生的坚毅力数据进行了分析,发现坚毅力的二维结构理论模型拟合不充分,证实了之前研究的结论。换言之,当前坚毅力的高阶结构划分是有问题的,有必要进行批判性地重构。

(二)坚毅力的测评工具设计与应用

坚毅力提出之后,Duckworth相对应开发出了能够采用自我报告法(自评与他评)进行坚毅力测评的工具——原始坚毅力测评量表(Original Grit Scale,Grit-O)[19]。该测评量表采用李克特五点量表进行设计(选项从1分到5分,表示从完全不像我到非常像我),分别针对努力持续性和兴趣稳定性两个要素设计了6道题,其中兴趣稳定性维度采用反向计分,量表得分由各项题目得分相加,最后换算成为1—5分制的坚毅力指数。而后,Duckworth针对Grit-O进行了简化,形成了简版的坚毅力测评量表(Short Grit Scale,Grit-S)[20]。Grit-S工具在原来的基础上,对努力持续性和兴趣稳定性两个维度的测评各删除了2道题目,实践表明Grit-S工具的信效度与Grit-O工具基本一致。

在测评坚毅力的工具中,Grit-S工具是应用最广泛的,但并不是唯一工具。存在一些其他量表能够对坚毅力开展测评,并进行了实践。比如,OECD在2012年的PISA测试中,针对学生问题解决时的坚毅力开发了相对应的量表,共5道题[21]。2019年,OECD又在青少年社会与情感能力的测评中,针对坚毅力开发了相应的量表[22]。Tyumeneva等人[23]在Grit-S工具的基础上,基于项目反应分析和因子验证分析,开发了俄罗斯版本的坚毅力测评量表,与Grit-S工具相比,增加了三个测评项目。我国学者谢娜等人[24]基于Grit-O工具,采用验证性因子分析修订形成了中文版12条目坚毅量表(12 Item Grit Scale),并选取440名成年人进行测验验证了其信效度。在此基础之上,宋莉莉等人[25]又检验了该量表在我国青少年群体中的信效度。因此,自坚毅力提出伊始,在后续十几年的国内外研究中,研究者们基本采用自我报告的方法(更多是采用Duckworth开发的Grit-S工具)测评坚毅力以及开展相关研究。

然而,运用自我报告法调查得出来的坚毅力结果及其预测作用并非都得到了学界的一致认可。有研究者认为,Duckworth及其同事利用Grit-S工具收集的主观经验数据对坚毅力能够预测个体成功、学业表现提供了有限的支持,这从源头否定了利用Grit-S工具开展对坚毅力测评的可靠性[26]。还有研究者认为是性格(如责任心、自我控制等)预测了学生学业成就,而非学生的坚毅力,坚毅力在预测学生学业成就方面几乎没有显著或遗传上的作用,根本原因在于坚毅力的内隐机制尚未可知[27]。这也间接说明坚毅力对学业成就等方面的作用存在着一种未知的潜在机制[28],导致人们会质疑人为主观方法测评得出来的结果。总而言之,当前坚毅力测评客观性不足已经成为现实问题。

综上所述,一方面,在心理测量领域学生坚毅力由努力持续性和兴趣稳定性两个内容要素构成。但是,批判质疑的声音依旧不断,引起国内外研究者的重视。从多模态数据支持的测评角度来看,现有的两个内容要素依旧宽泛,离可操作性还有较大的距离。尽管有研究者对坚毅力的要素构成进行了拆解与补充,但还是难以直接应用于多模态数据支持的测评中。因此,就多模态数据支持的测评而言,学生坚毅力测评的理论框架有必要在已有研究基础之上进行延伸与重构。另一方面,目前学生坚毅力测评的工具与方法应用广泛,为坚毅力的测评及其预测作用提供了较好地支持。然而,目前鲜有多模态数据支持的坚毅力测评研究。测评主要通过量表实现,学生在测评过程中难免会受社会称许性影响,不能得到较为客观的测评结果。因此,就多模态数据支持的测评而言,学生坚毅力测评的工具也有必要重新设计,进而采集多模态数据。整体而言,本研究将重点回答以下三个问题:

第一,学生坚毅力测评的理论模型是什么?第二,评价学生坚毅力的表现性评价工具如何设计?

第三,表征学生坚毅力测评理论模型的数据指标是什么?

三、学生坚毅力测评的理论模型构建

(一)初始理论模型构建

1.研究方法

本研究借鉴扎根理论的基本思想与方法,以2007年1月为起始点,收集15年间有关坚毅力研究的国内外权威期刊文献或报告,通过质性分析对文献进行编码,进而构建初始理论模型。

2.文献检索与筛选

为精准获取到国内外有关坚毅力研究的高质量原始文献资料,本研究以“TI=(grit*)”为检索式在Web of Science核心合集中进行精确检索,时间限定在2007年至2022年,语言为英语,共检索到英文文献1239篇;以“坚毅”为主题词在CNKI北大核心和CSSCI来源期刊中进行检索,时间为2007年至2022年,共检索到中文文献26篇。

基于修订后的纳入标准①:非重复出现、必须为期刊论文、研究必须清晰表达对坚毅力的内涵及其特征的描述、研究主题与坚毅力的测量紧密相关,本研究在1239篇英文文献中选入文献58篇,在26篇中文文献中选入文献24篇,并采用“滚雪球”的方式对纳入文献的参考文献进行了检索和阅读。为纳入更多符合标准的文献,这次也纳入了权威的教育研究报告,最终共计得到文献84篇。在英文文献资料正式分析之前,本研究先将与坚毅力的内涵及其特征的描述内容翻译成了中文,再导入NVivo 11软件中进行编码分析。

3.数据编码与模型构建

将24篇中文文献及翻译好的关于坚毅力内涵及其特征描述的文档导入质性分析软件NVivo 11中进行编码分析,編码工作由研究者一人完成。通过开放式、关联式以及核心式编码方式,本研究最后得到学生坚毅力测评的层级结构编码统计表(如下页表1所示)。

基于以上步骤,本研究构建了学生坚毅力测评的初始理论模型(如表2所示)。

(二)模型修订

本研究采用Delphi法,编制了专家函询问卷(包括各级指标重要程度、咨询内容熟悉程度、打分依据等),通过邮件、微信等在线方式邀请了15位专家(心理测量领域、教育技术领域以及一线教学实践领域各5位)进行意见征询。在每一轮次意见征询中,本研究均计算专家积极系数(P)、专家意见权威程度系数(Cr)、专家意见集中程度(用指标重要程度算术平均值M表示)、专家意见协调程度(用变异系数CV表示)。对于指标的入选,本研究以指标的重要性评分算术平均值M>3.50、变异系数CV<0.25为标准[29];对于指标的增加、修改、合并,本研究以专家的合理性质性意见为依据。

1.第一轮专家意见征询结果分析

经数据统计分析,第一轮次P的值为100%,Cr的均值为0.84>0.70,说明专家组的评分符合要求,咨询的结果可靠性较高;3个一级指标M的范围为4.40—4.73,CV的范围为0.12—0.14,7个二级指标M的范围为3.73—5.00,CV的范围为0.00—0.20,这说明所有一、二级指标均达到标准,故不删除。然而,结合专家的质性意见,一些指标需要合并以及需要增加新指标,同时一些指标在内涵表述上模糊不清。具体修改情况为:“A3 坚毅的心理投入性”改为“坚毅的认知性”;“B2 持续坚持”改为“坚持性”;“B3 自我控制、B6 认知调节、B7 策略使用”合并成一个指标,改为“自我监控”,放在一级指标“A3 坚毅的认知性”维度下;在“坚毅的情感性”维度下增加“中性情感”指标,在“坚毅的认知性”维度下增加“努力意识”指标。与此同时,本研究对相应指标内涵的模糊性进行了修改,比如,“A1 坚毅的行为性”内涵改为“制定并追求目标实现在行为上所体现的持续努力程度”;“A2 坚毅的情感性”内涵改为“制定并追求目标实现在情感上所体现的积极程度”等。

2.第二轮专家意见征询结果分析

经数据统计分析,第二轮次P的值也为100%,Cr的均值也为0.84>0.70,说明咨询的结果可靠性较高;3个一级指标M的范围为4.53—4.87,CV的范围为0.07—0.11,7个二级指标M的范围为3.47—4.93,CV的范围为0.05—0.26,说明所有一级指标均达到标准,故不删除。但是,发现二级指标“B4 中性情感”不符合要求,并且专家意见也建议删除,因此本研究删除该指标。结合专家的质性意见,部分指标名称需要修改,同时部分指标在内涵表述上需要进一步强化。具体修改情况为:“B6 努力意识”改为“目标意识”,突出坚毅的目标导向。此外,本研究对部分指标内涵的模糊性作了修改,比如,“A3 坚毅的认知性”内涵改为“制定并追求目标实现在认知上所体现的目标意识和自我监控程度”;“B3 积极情感”内涵改为“制定并追求目标实现过程中的积极情感,如开心、惊奇等”;“B5 消极情感”内涵改为“制定并追求目标实现过程中的消极情感,如沮丧、厌倦等”等。

经过两轮Delphi,指标项M逐渐变大,CV逐渐缩小,专家质性意见趋于一致,不涉及完全颠覆性的修改。因此,本研究得到修订后的学生坚毅力测评理论模型(如表3所示)。

进一步地,基于以上本研究将坚毅力定义为:学生在学习、生活的一定过程中制定并追求目标实现策略性地保持持续努力、情感积极度以及心理努力的一种能力,具有行为、情感以及认知3个属性特征。

四、学生坚毅力测评的表现性评价工具设计

如上所述,随着表现性评价的推进,探究实践活动逐渐成为坚毅力测评的重要场景。因此,本研究在理论模型的指导下,设计面向科学探究活动场景的学生坚毅力表现性评价工具,采集表征学生坚毅力的多模态数据,最终实现对学生坚毅力的相对客观化与智能化测评。

(一)设计思路

借鉴以往研究基于在线的能力测评思路[30][31],本着学评融合的新理念[32][33],本研究遵循“明确测评目标-标定测评形式-设计测评框架-研发测评任务-设计数据埋点-制定评价规则”的步骤对评价学生坚毅力的表现性评价工具进行设计,如图1所示。

明确测评目标。本研究测评工具的设计旨在获取表征学生坚毅力的多模态数据,进而测评学生的坚毅力水平。

标定测评形式。考虑到未来研究对象的规模以及规模化数据采集带来的成本问题,本研究放弃纯线下数据采集的方式,转而设计线上线下相结合的方式。需要指出的是,“线下”指的是家庭环境场景,而非大众认为的线下科技馆,这主要是考虑到城乡差异性。因此,学生坚毅力测评形式也定为线上线下相结合的方式。

设计测评框架。本研究以前期设计的学生坚毅力测评理论模型为测评指导框架,指导测评任务以及数据采集的设计。

研发测评任务。本研究在严格对照《科学课程标准(2022版)》的最新要求下,设计面向科学探究活动情境的线上线下探究实验任务,以此作为学生坚毅力测评的任务。加入在家庭环境场景下的线下操作是因为科学探究活动的一些操作项需要家长辅助拍摄进行上传,以采集数据。本研究旨在通过获取学生参与探究实验任务中的主客观数据来全面描绘学生学习、生活一定过程中的坚毅力发展状况。

设计数据埋点。考虑工具的在线化,本研究以学生坚毅力测评理论模型为依据设计诸如登录、播放视频、选择答案、点击下一页、返回上一页、上传图片、上传视频、提交等在线行为操作埋点。

制定评价规则。评价规则是测评的基础。只有明确的评价规则才能将所采集的数据转化为具有实际意义的量化数值。本研究针对采集的数据制定了不同的评分标准,有些是直接赋予分值,有些则是通过算法进行计算,最后归一化得到。

(二)工具设计

基于以上思路,本研究整合中国科学技术馆的现有活动资源,以“逐梦月球探月主题活动之思月”(任务内容主要是探究影响月球上陨石坑大小的因素)这一科学探究活动任务为例(对象为四年学生),设计表现性评价工具。该测评工具贯彻学评融合理念,初始设计由“学习视频+学习任务单”两部分组成,具有内容生活化、情境代入性、材料可易得等典型特征。

所谓“学习视频”,就是工具设计者将相应探究任务的知识点(与日常生活、科学技术等密切相关)录制成15分钟左右的微视频传至测评平台,供学生开展探究任务之前观看。对于本测评工具而言,教师会录制探究实验视频,重点讲解“陨石的质量对陨石坑大小的影响(重量的影响)”这一探究实验,让学生掌握“控制单一变量法”。

“学习任务清单”是指工具设计者创建特定生活化的情境,引导学生进行角色扮演与代入完成相应任务,包括单选题、多选题、简答题(自我反思等)等题型以及图片上传、视频上传等操作。其中,动手实验操作题要求学生与家长在家中利用身边可用、易得的材料共同完成科学实验,并拍摄完整的探究视频进行上传。对于本测评工具而言,要求学生在看完视频之后依据特定情境完成探究任务,实现对“控制单一变量法”的迁移应用。

面向科学探究活动场景的学生坚毅力测评工具在线界面如下页图2所示。

首先,测评工具展示的是导语,如下页图2(a),主要包括测评目的、测评要求等基础性信息,让学生与家长对整个测评有一个大概的了解;然后,展示的是视频学习资源页面,如下页图2(b),学生可以反复观看视频资源;最后,展示的是“学习任务单”页面,如下页图2(c)、(d),学生需要依据要求完成测试、实验操作(2个实验)等多种类型的任务。与以往此类型工具不同之处在于,除了普通的测试以外,还要求学生与家长在线下一起动手(学生动手做,家长辅助拍摄)进行科学实验,并将学生表现性行为拍摄成完整的视频进行上传。在整个测评的过程中可以采集学生参与任务的文本、视频、图像、日志等表征坚毅力的多模态数据。

(三)工具修订

针对工具的科学性,本研究依托中国科学技术馆合作学校邀请了科学课程教师进行了评估。教师认为内容上符合科学性,并对部分题目的呈现方式做了更改。针对工具的可靠性,本研究邀请了10位心理测量方向的研究生进行了审查。审查结果表明工具整体上能够测评学生的坚毅力,并提出了进一步的优化方案。

此外,本研究选取约150名四年学生于2022年9月23日至9月30日对该工具进行了试测。试测过程中,学生和家长反馈工具在实验操作环节上有些复杂,重复做两个类似的实验浪费时间,没有太大意义。试测结束之后,本研究咨询了坚毅力测评专家对该工具的意见。专家认为工具缺少一個重要的测评角度——目标信息。结合本研究对坚毅力内涵的定义,目标信息的了解确实没有体现。因此,基于以上不同人群对象的意见反馈,本研究对测评工具进行了修订。

测评工具的修订主要体现在删除了原有工具中的第二个实验,进一步精简了测评题目,优化了题目的呈现方式。比如,测评最后一题为自我反思,试测阶段时设计为让学生在线输入250字左右;而修订之后让学生写在格子纸张上,字数为50—100字,并拍照进行上传。之所以这样修改是考虑到四年级学生在线输入过多字数会有一定的困难。另外,在测评工具的导语之后增加了目标信息。因此,修订后的测评工具主要以“目标信息+学习视频+学习任务单”的形式呈现,如图3所示。

五、学生坚毅力测评的数据指标设计

学生坚毅力如何计算还依赖于理论模型底层指标的具体数据指标。针对这一问题,本研究结合理论模型对测评工具的数据采集以及底层指标的数据表征进行了设计与说明。数据采集要求及底层指标的数据特征如表4所示。

具体而言,每一个二级指标的具体数据指标分别如下所述。

(一)专注性

本研究采用头部姿态和系统行为日志两类数据共同表征“专注性”指标。在学习的过程中,学生头部朝向可以在很大程度上反映学生注意力的关注点,故检测头部朝向就能大致判断出视线方向和关注点[34]。一般而言,通过判断一个学生的抬头(Pitch)与摇头(Yaw)这一头部姿态情况,即可判断专注性[35]。因此,本研究研究采用Pitch值与Yaw值作为学生头部姿态评估的特征,进而判断学生的专注性。此外,学生在线完成任务的过程中,行为特征也能够表征其专注性。依据研究设计的活动任务,本研究选取首次观看视频时完整播放视频、整体任务完成的效率(完成题数与完成整个任务时间的比值)作为本研究场景中专注性的行为特征。

(二)坚持性

本研究采用自我反思报告和系统行为日志两类数据共同表征“坚持性”指标。针对自我反思报告,本研究采用文本中体现“坚持”的句子关键词特征进行表示,如“依旧坚持”“不放弃”“没有半途而废”等。此外,有研究认为在线环境中,登录时间间隔规律是表征学生是否坚持的行为指标[36]。因此,本研究也采用登录时间间隔规律来表征“坚持性”指标。登录时间间隔规律通过计算学生登录间隔时间(分)的标准差来进行测量。再者,本研究还采用实验操作试题时长这一行为特征来衡量学生的坚持性。因为本研究中坚持性的含义有一个侧重点是学生在制定并追求目标实现过程中尽管有困难,但依旧能够坚持完成。研究设计的实验操作对学生来讲存在一定的难度,所以实验操作的时长能够反映学生在遇到困难但依旧坚持完成的特点。

(三)积极情感与消极情感

有研究指出基于面部表情数据识别的学习情感与使用自我报告数据识别的学习情感具有很高的一致性(76.6%)[37]。因此,本研究采用学生面部表情数据与自我反思报告数据共同表征“积极情感、消极情感”指标。本研究采用Ekman提出的人类基本情感作为情感识别的框架[38],即情感具体分为惊奇/惊讶(Surprise)、开心/高兴(Happiness)、恐惧/害怕(Fear)、悲伤(Sadness)、愤怒/生气(Anger)、厌倦(Disgust),其中惊奇/惊讶、开心/高兴为积极情感,恐惧/害怕、悲伤、愤怒/生气、厌倦为消极情感。针对面部表情,本研究采用Open Face中内含18种与6类基本情感相关的AU(Action Units)作为情感识别的重要特征(AU01、AU02、AU04、AU05、AU06、AU07、AU09、AU10、AU12、AU14、AU15、AU17、AU20、AU23、AU25、 AU26、AU28、AU45出现频率的均值、标准差,出现强度的均值、最大值、最小值与标准差),进而输出情感类型。进一步地,本研究将视频中学生惊奇/惊讶、开心/高兴情感出现持续的时长作为积极情感的数据指标,将恐惧/害怕、悲伤、愤怒/生气、厌倦情感出现持续的时长作为消极情感的数据指标。针对自我反思报告,本研究采用情感词典识别出文本的情感倾向,因此积极情感倾向值和消极情感倾向值将作为文本情感识别的特征值。

(四)目标意识

本研究采用目标信息题项答案和自我反思报告两类数据共同表征“目标意识”指标。针对目标信息题项答案,本研究设计了4个不同倾向的答案,因此采用选择的文本倾向答案分值作为该类数据的特征。针对自我反思报告类数据,本研究采用文本中体现“制定目标”的句子关键词特征(如有目标、有制定目标等)、文本中体现“目标始终保持一致”的句子关键词特征进行表征(如目标和开始始终保持一致、目标始终保持一致等)。

(五)自我监控

本研究采用自我反思报告和系统行为日志两类数据共同表征“自我监控”指标。针对自我反思报告类数据,本研究采用“灵活应对困难”的句子特征、“情感调节”的句子特征进行表征,具体依据研究场景设置三类自我监控水平:高、中、低,采用人工标注特征的方式进行识别。系统行为日志在某种程度上也能够反映学生在制定并追求目标实现过程中对自身持续努力行为、情感的监控,比如反复观看视频、反复回到前一任务等。这些行为体现了学生在应对困惑、困难等目标实现阻碍时的一些可能性举措。因此,本研究采用查看学习视频的次数、返回上一页的次数表征学生自我监控的行为特征。

六、结语

在以“立德树人”为根本任务、培养德智体美劳全面发展的社会主义建设者和接班人的教育目标指引下,坚毅力是学生综合素质中必备的优秀品质之一,也是我国未来人才培养的核心目标之一,对其开展测评具有重要的现实意义。当下,从多模态数据支持的测评视角来看,现有坚毅力测评理论框架已不适宜,并且传统的自我报告法测评也导致诸多现实问题。为了进一步解决上述问题,本研究重构了学生坚毅力测评的理论框架,开發了面向科学探究活动场景的学生坚毅力测评的表现性评价工具,设计了理论模型的数据映射指标。实践是检验真理的唯一标准。重构的学生坚毅力测评理论模型以及新设计的评价学生坚毅力的表现性评价工具到底在多大程度上能够解决实践中的坚毅力测评问题,这是一个值得深度研究的科学命题,包括学生坚毅力指标如何赋权?学生坚毅力多模态数据如何融合计算?学生坚毅力如何计算等等。未来,研究将应用这一表现性评价工具采集大规模学生的多模态数据,围绕多模态数据融合计算,开展对学生坚毅力的智能化测评与发展的长期追踪溯源,期望能为同类测评提供解决方案,助力破解教育评价改革的“卡脖子”问题。

参考文献:

[1] 国务院.中共中央 国务院印发《深化新时代教育评价改革总体方案》[EB/OL].http://www.gov.cn/gongbao/content/2020/content_5554488. htm,2023-01-14.

[2] 教育部.教育部关于加强和改进普通高中学生综合素质评价的意见[EB/OL].http://www.moe.gov.cn/srcsite/A06/s3732/201808/ t20180807_344612.html,2023-05-07.

[3] 柴唤友,陈丽等.学生综合评价研究新趋向:从综合素质、核心素养到综合素养[J].中国电化教育,2022,(3):36-43.

[4] 林崇德.构建中国化的学生发展核心素养[J].北京师范大学学报(社会科学版),2017,259(1):66-73.

[5][8] 教育部.教育部关于印发义务教育课程方案和课程标准(2022年版)的通知[EB/OL].http://www.moe.gov.cn/srcsite/A26/s8001/202204/ W020220420582343217634.pdf,2023-01-14.

[6][10][19] Duckworth A,Peterson C,et al.Grit:perseverance and passion for longterm goals [J].Journal of personality and social psychology,2007,92(6):1087-1101.

[7] 钟薇,李若晨等.学习分析技术发展趋向——多模态数据环境下的研究与探索[J].中国远程教育,2018,(11):41-49+79-80.

[9] 教育部.义务教育科学课程标准(2022年版)[EB/OL].http://202.112.81.11/ cache/7/03/www.moe.gov.cn/d687eeb749a3219b2e8b00c03021eee0/ W020220420582355009892.pdf,2023-01-14.

[11] Von Culin K R,Tsukayama E,et al.Unpacking grit:Motivational correlates of perseverance and passion for long-term goals [J].The Journal of Positive Psychology,2014,9(4):306-312.

[12][22] Duckworth A.Grit:The power of passion and perseverance [M]. New York:Scribner,2016.

[13] Shechtman N,Debarger A H,et al. Promoting grit,tenacity,and perseverance:Critical factors for success in the 21st century [R]. Washington:US Department of Education,Department of Educational Technology,2013.1-107.

[14] 高星原,陈红燕等.任务能力:中国青少年社会与情感能力测评分报告之一[J].华东师范大学学报(教育科学版),2021,39(9):33-46.

[15] 刘妍,管秀等.我们真的了解学习毅力吗 :基于扎根理论刻画教师视角的可塑模型研究[J].全球教育展望,2022,51(2):39-58.

[16] Jordan S L,Ferris G R,et al.Toward a work motivation conceptualization of grit in organizations [J].Group & Organization Management,2019,44(2):320-360.

[17] Credé M,Tynan M C,et al.Much ado about grit:A meta-analytic synthesis of the grit literature [J].Journal of Personality and social Psychology,2017,113(3):1-21.

[18] Fosnacht K,Copridge K,et al.How valid is grit in the postsecondary context A construct and concurrent validity analysis [J].Research in Higher Education,2019,60(6):803-822.

[20] Duckworth A,Quinn P D.Development and validation of the Short Grit Scale (GRIT-S) [J].Journal of personality assessment,2009,91(2):166-174.

[21] OECD.OECD Program for International Student Assessment 2012[EB/OL].https://nces.ed.gov/surveys/pisa/pdf/MS12_StQ_FormA_ ENG_USA_final.pdf,2023-01-14.

[23] Tyumeneva Y,Kuzmina J,et al.IRT analysis and validation of the Grit Scale:A Russian investigation [J].National Research University of Higher School Higher School,2014,(24):1-33.

[24] 谢娜,王臻等.12项坚毅量表(12-Item Grit Scale)的中文修订[J].中国健康心理学杂志,2017,25(6):893-896.

[25] 宋莉莉,邱瑀等.12條目坚毅量表中文版在青少年群体中的信效度检验[J].中国健康心理学杂志,2021,29(9):1354-1359.

[26] Credé M.What shall we do about grit A critical review of what we know and what we dont know [J].Educational Researcher,2018,47(9):606-611.

[27] Rimfeld K,Kovas Y,et al.True grit and genetics:Predicting academic achievement from personality [J].Journal of personality and social psychology,2016,111(5):780-789.

[28] Lam K K L,Zhou M.Examining the relationship between grit and academic achievement within K‐12 and higher education:A systematic review [J].Psychology in the Schools,2019,56(10):1654-1686.

[29] 沈绮云,欧阳河等.产教融合目标达成度评价指标体系构建——基于德尔菲法和层次分析法的研究[J].高教探索,2021,(12):104-109.

[30] Wu H K,Kuo C Y,et al.What makes an item more difficult Effects of modality and type of visual information in a computerbased assessment of scientific inquiry abilities [J].Computers & Education,2015,(85):35-48.

[31] Galla B M,Plummer B D,et al.The Academic Diligence Task(ADT):Assessing individual differences in effort on tedious but important schoolwork [J]. Contemporary educational psychology,2014,39(4):314-325.

[32] 张生,王雪等.人工智能赋能教育评价:“学评融合”新理念及核心要素[J].中国远程教育,2021,(2):1-8+16+76.

[33] 张生,郄卓妍等.学评融合理念下的中小学生评价反思能力研究[J].中国远程教育,2022,(4):18-26+76.

[34] 武法提,赖松等.联合面部线索与眼动特征的在线学习专注度识别[J].中国电化教育,2022,(11):37-44.

[35] 钟马驰,张俊朗等.基于人脸检测和模糊综合评判的在线教育专注度研究[J].计算机科学,2020,47(S2):196-203.

[36] Jo I H,Kim D,et al.Constructing proxy variables to measure adult learners time management strategies in LMS [J].Journal of Educational Technology & Society,2015,18(3):214-225.

[37] Harley J M,Bouchet F,et al.A multi-componential analysis of emotions during complex learning with an intelligent multi-agent system [J].Computers in Human Behavior,2015,(48):615-625.

[38] Ekman P,Friesen W V.Facial Action Coding System (FACS):A Technique for the Measurement of Facial Actions [J].Rivista Di Psichiatria,1978,47(2):126-38.

作者简介:

郭利明:在读博士,研究方向为在线学习分析、教育大数据。

郑勤华:教授,博士,博士生导师,研究方向为在线教育、人工智能教育、教育大数据、学习分析。

齐欣:研究员,硕士,研究方向为科学教育。

Students Grits Assessment: Theoretical Model, Performance Assessment Tools and Data Indicators

Guo Liming1, Zheng Qinhua1, Qi Xin2

(1.The Research Center of Distance Education, Beijing Normal University, Beijing 100875; 2.The Center of Exhibition and Education, China Science and Technology Museum, Beijing 100101)

Abstract: Grit is one of students essential qualities and one of the core objectives of future talent training in China, so it is important to assess it. However, the relatively broad theoretical framework of the existing grit assessment and the self-limitation of the traditional subjective assessment methods are no longer suitable for the trend of the assessment supported by multimodal data. To further address these issues, the study combined Grounded Theory and Delphi to construct a theoretical model for measuring studentsgrits that contains three primary indicators, including behavioral, emotional, and cognitive indicators, and six secondary indicators, including concentration, persistence, positive emotion, negative emotion, goal awareness, and self-monitoring. Furthermore, the study used the theoretical model as a framework to design a performance assessment tool for measuring students grits in scientific inquiry activity scenarios. Combining the theoretical model and the assessment tool, the study designed and explained the data feature of the specific indicators of students grits assessment. The study will be able to provide theoretical and instrumental support for studentsgrits assessment based on multimodal data fusion and computation in the future.

Keywords: grits; grits assessment; performance assessment; scientific inquiry activities; data indicators; multimodal data

責任编辑:赵云建

① 郑勤华为本文通讯作者。

① 参照Dyb 等人在《Empirical studies of agile software development: A systematic review》一文中提出的样本选择需要考虑严谨性、可信度以及相关性等三个主要问题进行修订。

猜你喜欢

表现性评价
学得愉快 玩得精彩
高中历史课堂教学表现性评价初探
搭建孩子自我表现的舞台
初中思想品德学生表现性评价研究
表现性评价在“营销策划”课程教学中的应用
浅析中职学生考试、考核评价策略
数学表现性评价在初中数学教学中的应用研究
数学教学中如何进行“表现性评价”
表现性评价的理论探究与实践探索