从静态走向动态:美国中小学生学业进步测评创新与运行支持
2022-11-22王正青但金凤
王正青,但金凤
(西南大学教育学部国际与比较教育研究所,重庆 400715)
学生学业进步测评是对学生学业进展概况的测度,也是对学生学业目标实现程度的检视。通过以动态发展视角观测学生学业成长过程及过程性问题,以学业测评数据可视化呈现学生学业进步趋势,可理性判断各类别、各层次学生实际学习成效,系统分析学校和教师对学生学业进步的实质影响,并以此作为学校教学体系优化和学业困难群体帮扶的依据参考。[1]美国极其重视学生学业数据的动态监测,构建了学生学业进步测评的具体模式以及运行支持体系,既兼顾宏观层面的数据驱动学生学业进步总的情况,同时也聚焦微观层面学业进步测评理念与实施方式创新。美国中小学生学业进步测评机制凸显了用教育数据说话、用教育数据决策、用教育数据管理的教育数据量化思维和数据整合思维,有助于实现美国中小学生学业监管动态化、学业评价多元化和学业帮扶精准化。
一、美国中小学生学业进步测评创新的内外动因
学生学业进步测评有别于传统考试测验,其最大特点就是将静态考试分数诠释为动态发展趋势。美国各州基于州纵向数据系统(State Longitudinal Data System)的建立与实施,实现了教育数据的常规收集与统计比较,提供了完整的学业发展数据记录,也为有效使用学生学业进步测评数据,推动早期学业预警干预等教育数据驱动实践奠定了基石。
(一)美国中小学生学业进步测评创新的内在价值
学生学业进步测评是教育教学评估中的一个重要事项。其中,学业成绩是指具体的考试分数或字母成绩等级,传达了某个具体时间点学生所知道的和所能完成的事情。但是,当孤立看待某个时间点的学生考试分数时,只是以静态数字浅层描绘学生此次考试结果,不能完全反映学生真实的学业发展情况,诸如突飞猛进、正常进步抑或严重下滑等。[2]美国“数据质量运动”(Data Quality Campaign)强调,学业进步测评凸显了动态特征,它是运用一段时间内的学生个人学业数据评判该生学业进展,不同测评方式将基于不同的特定度量规则和数据分析方法,以达到学业进步测评目的。例如与去年相比,学生到底学到了多少?与表现相似的学龄人相比,学生进步了多少?学校的教学模式是否真的对学生有效?等等。[3]美国华盛顿州、弗吉尼亚州和科罗拉多州的教育专家也提出类似观点,认为学生学业进步测评是基于州、地区、学校和课堂等多维度标准,考查学生个体或群体在两个或两个以上时间点内所表现出的学业变化趋势和行为表现反应,包括在实现个性化学业目标及在高等教育和职业准备等方面取得的进展。[4]
当前,美国中小学生学业进步测评方式主要有5类,包括增益分数(gain-score)测评、增值(value-added)测评、成长标准(growth-tostandard)测评、价值表(value-table)测评以及学生成长百分数(student growth percentile)测评,分别共计3个州、9个州、10个州、12个州和23个州采用上述不同的学业进步测评。[5]
(二)美国中小学生学业进步测评创新的外部促动
在美国,教育数据应用开创了教育创新发展新纪元。一是中小学生学业进步测评创新有助于提升学业评价的客观性和全面性。美国卓越教育联盟(Alliance for Excellent Education)首席执行官德博拉·德莱斯利(Deborah Delisle)认为,全方位、全流程、全范围的学生学业发展数据捕捉能够为家长、教育工作者和学校领导提供关于学生如何学习的信息[6],尤其便于教育工作者全面把控不同年级、科目和学生的发展势态,进而消弭先入为主的学业评价偏见和坐而论道的学业评价模式。
二是学生学业进步测评能够有效反映学校整体教学质量,推动教师问责。美国中小学生学业进步测评以全体学生为测评对象,因此衡量学生学业发展概况实际上也间接评估了学校整体教学水平和业务水平高低,映射出学校教学模式和课堂教育管理的科学性及有效性程度,并为落实教师绩效问责提供相关、适切和透明的可参考数据。
三是学生学业进步测评可促进教育数据的有效使用,为实现教育数据驱动定制化学习服务奠定基础。美国中小学教师依托学生学业进步测评数据,可分析学生学业发展轨迹与进步速率,进而主动挖掘学生发展潜力,以此设定统一学业标准与个体学业预期。在此基础上,教师也可对学生的行为习惯、家庭背景、出勤概率、人口统计等其他教育数据资源进行统整分析,厘清学生真实特质,确定学业困难领域,从而据此整合调适教学进度,精准帮扶停滞不前的学生群体,最终助力学生学业成绩提升。[7]
二、美国中小学生学业进步测评创新的表现样式
美国5种中小学生学业进步测评创新模式,在测评宗旨、统计方式、分析规则以及学生数据类型等方面具有一定差异。
(一)成长百分数测评:以学段同龄人比较为增长依据
学生成长百分数测评强调学生不仅要与同一学科和同一年级的其他学生进行比较,而且还应与全州同学段该学科领域有相似得分历史和成绩特征的学生群体进行对比。[8]当前,美国夏威夷州、科罗拉多州、内华达州、马萨诸塞州、犹他州、罗得岛州、亚利桑那州、新罕布什尔州和佐治亚州等地都运用了这一测评办法。美国学生成长百分数测评注重量化学生一年或一年以上的学业进步情况,要求用数字1~99表示成长百分数维度,并将其划分为3个等级,低于34%为低增长,35%~65%之间为典型增长,65%~99%之间为高增长。[9]例如,某学生的学业成长百分数为20%,表明该生学业进步较为缓慢,即在同一年级同一科目中表现出的学业增长率仅超过了20%学段同龄人。换言之,全州80%的同类学生在该年度取得了比该生更大的学业进步。通常情况下,表现出低增长的学生很难保持目前已有学业水平,典型增长的学生则通常会保持或提高成绩,高增长学生将会取得更大的学业进步。2011年和2013年,马萨诸塞州和华盛顿州相继推出了学生成长百分数测评,以此证明学校是如何为相同学业起点学生服务的。尽管成长百分数测评机制只能得到一个较为笼统的学业测评结果,无法说明学校整体进展概况,其测评结果后续的应用价值有限,但成长百分数测评是基于横向比较进而发现学生学业进步程度,而非拘泥于同一班级或年级学生间的纵向对比,因此在测评指向上具有创新性。而且,成长百分数测评数据结果指向清楚,便于教师、家长和学生理解。[10]如一名学生可能在年级上表现出色,但与学段同龄人相比学业进步甚微。相反,一名学生在年级整体学业表现中可能排名落后,但相对于学段同龄人而言却取得了不容小觑的学业进步。
(二)增值测评:以学生预期增长为考量核心
增值测评也称为“教育工作者影响模型”(educator impact models),旨在通过多个数据点评估学校教育工作者对学生学业成绩的影响。增值测评在一定程度上考虑了影响学生学业成就的潜在背景因素,包括学生过去的学业表现以及家庭状况等。尤其是在制定预期分数过程中,学校须考查学生近几年考试成绩及全州前几年具有相似成绩特征的学生群体,继而估算该生拟将达到的分数预期。最后,再将实际增长分数与预期增长分数相比,进而表明学业增长高于、低于或接近预期,并将比较结果归因于学校教育工作者,以揭示学校和教师在助力学生学业成绩达到既定学业预期方面所取得的成效。[11]因此,增值测评回答了以下两个问题:一是学生学业成绩变化是否符合进步预期?二是实际增长与预期增长相较还具有多大差距?正是因为增值测评考虑了除分数之外的学生特征,因此与其他测评方式相比显得更为公平客观。但关于学生预期分数制定过程中多因素考量的繁琐不易,由此也造成了增值测评的实施困境。美国俄亥俄州、佛罗里达州、宾夕法尼亚州和威斯康星州等正广泛使用这一测评办法。如威斯康星州公共教育局(Department of Public Instruction)确立了增值测评三步骤:一是参考学生上学年学业类和非学业类教育数据,并综合学段同龄人成绩数据进行考量,继而确立学业预期增长分数;二是在获得第二个测试分数基础上,明确学生所得实际分数与既定预期差距;三是分析与解释对比结果。一般而言,若学生的实际分数高于预测分数,则称之为“高附加值”,也即意味着该生比相同的学生群体获得了更大的学业进步。
(三)成长标准测评:以检验学生学业标准差距为基础
美国学生学业成长标准测评也称之为“在轨测评”(on-track),或“熟练模型测评”(growth to proficiency models),即显示学生是否正朝着达到熟练程度及以上标准的学业方向发展,证明学生当前学业表现与年级标准学业目标之间的距离,然后根据学生学业进步速度估算学生达到学业水平基准的时间,推算和预测学生在特定期限达到理想学业目标状态的未来轨迹和实现概率。[12]从2009年起,美国科罗拉多州就开始倡导使用学生学业标准测评,州教育厅和各类中小学将于每年11月1日之前,开始着手计算学生各科成绩与州学业评估标准之间的差距,继而依托学生取得的学业进步研判达到州标准的概率及速率,并在这个基础上实现早期学业预警与干预,确保学生能够在规定时限内顺利达到既定学业标准。[13]成长标准测评为美国学生追求高学业水平指明了方向,并促使教育工作者对标准水平之下的学生群体给予更多关注。然而,成长标准测评模式也面临棘手问题:一是学生的学业起点存在差异,达到既定学业标准的时限和速率自然大相径庭,学业起点高的学生达到学业标准的概率大,时间短,因此关于学业成长标准测评结果须谨慎解释;二是成长标准测评过程中学生的学业表现结果好坏取决于各州前期设定的学业基准高低,无疑主观性过强;三是成长标准测评实施实质上是在不考虑学生其他特征因素的前提下,默认学生会在学习过程中不断取得学业进步,并最终达到拟定的学业预期,而这一假设是否科学合理有待商榷。
(四)增益分数测评:以考查学生成绩分数变化为手段
美国中小学生增益分数测评旨在测量既定时段内学生学业成绩的变动情况。例如,从学年开始到学年结束,或从一次年度考试到下一次年度考试之间学生学业变化。具体计算方式是学生两次学业成绩分数相减,获得的分数变化就是增益分数。此外,增益分数测评也可作为班级总体学业水平高低的衡量手段,通过对整个班级的增益分值进行平均计算,并将该平均值与同一年级其他班级的增益平均值进行比较,平均收益差值可作为教师教学贡献和班级学业水平差异的参考依据。美国得克萨斯州教育厅是增益分数测评模式的使用典型,其增益分数也称为“得克萨斯增长指数”(Texas Growth Index),增长指数的数值越高,表明学生学业进步越快。[14]究其实质,增益分数测评具有两方面显著优势。首先,与其他测评方式相比,增益分数测评操作最为简单,教育工作者进行增益分数测评时,不需要依赖数据统计专家或信息技术人员便可轻松完成。其次,测评结果通俗易懂,大众对增益分数的理解容易形成普遍共识。然而,增益分数测评局限性突出:一是只对学生学业成绩分数变化进行基本计算,并未考虑学生最初的学业水平,因此对学生的学业进步标识显得“简单粗暴”;二是增益分数测评存在解释上的困难,学生的学习内容会因年级变化而发生质的转变。另外,高分学生的进步空间更为有限。这会造成该类学生的增益分数通常较低,但低增益得分并不能简单归咎于低进步率,抑或将其直观解释为该生过去一年未认真学习,这无疑显得过于极端。[15]
(五)价值表测评:以划分学生学业水平等级为特征
价值表测评是州根据一系列分数区间,例如1-12分,13-24分等,制定不同的学业水平等级,然后再依据学生的考试成绩将其分为不同表现层次,并记录学生在不同学业位置之间的变动情况。如某学生的学业成绩从去年的基础以下水平上升到了今年的基础水平,那么就可确定该生取得了学业进步。当前,美国明尼苏达州、弗吉尼亚州、内布拉斯加州等正在使用这种模式。其中,明尼苏达州的价值表测评是根据学生多次考试成绩比较,并综合分析学业目标、出勤率、毕业率等因素,最终将全体学生学业表现划分为了“精通”和“即将精通”两个较为宏观的学业等级水平。弗吉尼亚州价值表测评则是基于学生上学年的学习标准(standards of learning)测试分数与本年度学习标准分数变化,继而将学生学业进步动态分为4个层次,包括基础水平之下、基本达标水平、熟练水平和高级水平,并用蓝色、黄色、绿色和灰色分别代表学生增长了3个、2个、1个表现等级,以及保持相同学业等级水平。[16]简言之,价值表测评是在不公开学生具体考试分数和不进行学业成绩排名的前提下,也能够对中小学生学业进步变化进行有效评测和合理考量,确保州教育管理人员和教育工作者对学生的学业进步情况一目了然。但是,价值表测评所设定的学业等级区间只能笼统揭示学生学业进步动态,缺少了学业数据计算的精准性和清晰性,从而造成价值表测评结果模棱两可与含混不清。
三、美国中小学生学业进步测评创新的运行支持
美国中小学生学业进步测评模式创新得到了联邦及各州的教育政策支持,并通过倡导技术保障、社会协同、教师问责等形式,推动了美国学生学业进步测评创新机制的有效运行。
(一)政策倡导:引领美国学生学业进步测评模式改革
在2015年美国通过《每个学生都成功法案》(Every Student Success Act)前,美国各州K-12公共学校问责制度几乎完全取决于单个时间点的学生学业成绩水平考核。[17]《每个学生都成功法案》的出台鼓励全美确立学生成绩衡量标准。至此,各州开始广泛纳入学业增长指标,并将学生学业进步考量结果作为学校问责机制的重要组成部分。除联邦政策外,各州也基于文本指南倡导构建学生学业进步测评机制。例如,科罗拉多州教育责任法中要求制定关于全州数学和英语语言艺术的增长评估举措,以检验学生是否在规定时间内取得足够进展以达到指定学业目标。怀俄明州在《怀俄明州教育责任法案》(Wyoming Accountability in Education Act)中,也明确要求州教育厅在学校质量报告中陈述学生学业进步和大学入学准备等基本情况。[18]
在阐释学生学业进步测评方式及问责方面,密歇根州在关于学生学业进步测评方面的指南文件中,详细介绍了学区进行学生学业进步测评的具体方式,以确保全州学业进步测评模式的公平性、透明性和适切性。2013年,弗吉尼亚州议会法案第672章首先阐释了学生学业进步的含义,并强调州教育厅应肯定学生学业进步测评作用,确立学业进展衡量标准,并要求向州议会提交关于批准学生学业进步测评指标及其用途的详细报告,使学业进步测评结果成为学校教学质量认可和教师绩效评鉴的参考。[19]
(二)技术支持:保障学生学业进步测评系统有效运行
技术支持是美国联邦及各州实现学生学业进步测评的重要保障。在技术驱动方面,一是实现了技术理论指导。美国出台了学生学业进步测评技术指南,系统阐释实施学业进步评估的具体操作步骤。例如,密歇根州教育厅在2019年就推出了学生成长百分数测评技术操作指南,说明了有关电子表格工具使用和学生平均成长百分数计算等方面的25步具体操作细则,包括学业进展数据导入、统计运行、分析计算与结果显示等流程环节。[20]华盛顿州也发布了《2013年学生成长百分比方法技术概览和简要报告》(A Technical Overview of the Student Growth Percentile Methodology and Brief Report of 2013 Results),描述了学生成长百分数测评细节。[21]二是提供技术援助实践支持。美国多个州成立了纵向成长技术咨询小组(Technical Advisory Panel for Longitudinal Growth),助力州教育厅等组织机构实现学业进步测评模型开发。例如,科罗拉多州纵向成长技术咨询小组就为州教育厅和国家教育评估改进中心(National Center for the Improvement of Educational Assessment)研发学生学业进步测评模型提供了技术支撑。[22]概言之,美国中小学生学业进步测评技术支持以理论指导与实践帮扶相结合,有助于教育工作者顺利突破学生学业进步测评技术瓶颈,确保学业进步测评机制有效落实。
(三)多元协同:推动学生学业进步测评体系纵深发展
学生学业进步测评的运行与实践需要获得社会各领域组织的积极协同与广泛参与。首先社会组织协同维护高质量教育评估机制。美国促进学生成功协会(Collaborative for Student Success)执行董事吉姆·考恩(Jim Cowen)指出,“学生学业进步测评数据对于指导疫情之后学校教学工作恢复,以及践行各州教育公平承诺至关重要”[23]。因此,该协会通过致力于推行高质量、高标准的教育教学评估体系和问责机制,积极推动美国中小学生学业进步测评体系的纵深发展。
其次,多种成员代表共同成立学生学业进步测评专业团队。佛罗里达州组建的学生成长执行委员会(Student Growth Implementation Committee)最初是由从教师、家长、学校管理员、地区领导者、商业代表等250多名志愿者群体中挑选出的27名成员组成。学生成长执行委员会旨在对全州学生学业进步测评体系建设与实施提供指导意见和反馈建议。该委员会推出的数据模型已于2011年6月被州教育厅完全采纳为佛罗里达州综合评估测试(Florida Comprehensive Assessment Test)的增值模型。[24]宾夕法尼亚州也拟构建一支由教育部门人员和利益相关者构成的专家小组,以着力实现学业进步测评模式的推广与解释,进而确保本州中小学能够描绘出更加系统完整的学生学业发展轨迹与学业成长图式。
(四)绩效评估:倒逼学生学业进步测评改革措施落地
大数据时代背景下,美国联邦及各州将学生的学业进步表现与教师教学质量评估进行有效联结,把学生学业进步数据作为教学成效的重要考量因素,有助于倒逼学生学业进步测评改革,同时也为支持教师专业发展和自我提升提供依据。2010年,田纳西州教育厅将增值评估系统(Tennessee Value-Added Assessment System)中产生的学生学业进步数据纳入全州教育工作者评估体系,并使这一指标占比达到了35%。2012年12月,美国阿拉斯加州教育与早期发展委员会(State Board of Education &Early Development)也通过了关于学校管理者和教师的评估规定,强调将学生学业进步测评中的优秀、良好、合格或不合格等学业成果表现作为教师教学质量评估因素之一。2015-2017学年间,阿拉斯加州学生学业进步测评数据占教育工作者评估考量比重的20%,2017-2018学年,占比上调15%,2018-2019学年,该比重已经高达50%。[25]科罗拉多州也确立了教育工作者绩效测评的6个质量指标,包括以内容知识、课堂环境、学习便利性、实践反思和领导力5个指标来衡量教育工作者的专业实践,第6个则是以学生学业进步为判定依据,并占整体评估比重的50%。[26]
四、美国中小学生学业进步测评创新的积极影响
美国中小学生学业进步测评机制与运行实践,对美国中小学教育教学决策改革、学业评价体系优化以及家校关系转型等方面产生了重要影响。
一是扩展了学业评价的教育功能。美国中小学生学业进步测评崇尚“成长”理念与“进步”原则,形成了以客观性和动态性为统摄的、可信赖的学生学业进步评估体系和实践机制,消除了单一价值倾向的评估独断。鉴于增值测评、成长百分数测评、成长标准测评、增益分数测评、价值表测评模式各有千秋,美国有10个州采用了综合测评模式。其中,有5个州倾向于将成长标准测评与成长百分数测评进行配对[27],以此消弭单一测评方式的缺陷与隐患。与此同时,学生学业进步测评结果也对美国中小学教育问责产生了重要影响。目前,美国除加利福尼亚和堪萨斯两个州外,其余48个州和华盛顿特区都已经将学生成长进步指标纳入小学和初中教育问责制度,甚至有20个州已承诺将这一指标纳入高中问责体系。[28]
二是优化了教学决策的调整机制。奥巴马时期教育部长阿恩·邓肯(Arne Duncan)曾强调,“学生的教育数据信息绘制了教育改革路线图,它告诉我们在哪儿,需要去哪儿,以及谁是最危险的”[29]。美国中小学学业进步数据监测使教育工作者更加关注学生学业分数背后的努力与付出程度,并能够从多个维度去挖掘和发现学生的进步与成长。在此基础上,美国教育管理者、决策者和学校教师将以更宽广的视野、科学统筹,超前规划,确保教育教学决策能够同中小学教育发展实际要求相适应,同美国中小学生的学业期待相契合,同联邦和各州的教育实力相匹配。据统计,2019年美国就有86%的教师依靠教育数据构建教学计划,88%的教师基于教育数据确定学生学习目标。[30]
三是强化了家校协同的育人效应。数据质量运动总裁兼首席执行官詹妮弗·埃尔旺格(Jennifer Ellwanger)认为,后疫情时代,除州和地区领导人需要依据教育数据来了解如何帮助学生弥补学习损失外,学生家长也需要获得学生学业进步测评数据信息,以便共同助力孩子走向成功。[31]2020年,美国哈里斯民意调查(Harris Poll)对1725名5岁至17岁学生家长进行了在线测验,结果显示,65%的学生家长希望获得学生学业进步测评数据信息。[32]美国家长认为,成长与进步是检验学校教学质量的基础,家长会依据孩子的学业进步情况判断学校对学生学习的支持和贡献,进而改变他们对该校的看法与认识。除向家长及时提供学生学业数据外,美国中小学教育工作者也会依据教育数据信息与家长进行循证交流。这将“学生—教师”二元主体转变为“学生—家长—教师”三维主体交互的关系链条。