APP下载

国际视阈下教育发展增值评价模型的比较研究*

2023-02-14张晨雨刘玉莹高清慧

远程教育杂志 2023年1期
关键词:测量评价学校

朱 珂 张晨雨 刘玉莹 高清慧

(河南师范大学 教育学部 教育信息技术学院,河南新乡 453007)

一、引言

为深入贯彻 《深化新时代教育评价改革总体方案》的精神,教育部等六部门于2021 年3 月制定了《义务教育质量评价指南》,强调要“注重结果评价与增值评价相结合”(教育部,2021)。 增值评价作为一种发展性的教育评价模式,其目的在于研究各种“投入”,借助复杂的增值模型,分析学生学业成绩变化幅度,将其作为教师绩效考核实践、学校效能评估和区域教育发展的主要评价维度之一(Steedle,2012)。教育增值评价强调成长和进步幅度,促使学校、教师关注的重心从优质生源转向教育本质; 也驱动着区域教育发展的重心从基本均衡转向高位均衡。 其摒弃了传统以横向成绩比较为导向的评价方式, 强化对评价对象纵向成长幅度的比较, 以促进教育评价机制的转型与优化。 评价体系的转型重构过程必然在评价模型的演进中留下痕迹, 增值模型的演进是在增值评价的演进逻辑内进行的。 对增值模型发展逻辑的解读, 也是对教育发展增值评价演进的透视和探查。目前,关于增值模型的研究主要分为模型概述相关的理论研究和模型构建、协变量选择、复杂模型改进等实证研究。

然而,现有模型的复杂性和多样性阻碍了增值评价的推广和应用,复杂的模型使得评估人员难以比较不同模型测算的结果(方海光,等,2022)。 虽然涉及增值模型的文献众多,然而梳理增值模型衍变历程的文献却较少。 增值模型的分类和实践应用场景的研究相对薄弱,尤其缺乏增值模型数据测量设计 类 型 的 对 比 研 究 (Everson,2017;Koedel,et al.,2015)。 增值评价能否顺利实施的关键在于对增值评价模型的选择与应用, 基于数据测量设计方式选择科学合理的增值评价模型, 来确保评价的有用性和易用性, 以深化对评价结果和反馈策略的认知,进而提高教育质量,实现教育公平。 基于此,本研究从增值模型的发展历程, 经典增值模型的内涵、使用场景、优势与不足,增值评价模型的实践技术应用等方面进行探讨, 以期厘清增值模型的发展脉络,为增值评价模型的理论研究与实践应用提供借鉴。

二、国际增值模型发展历程

增值模型嬗变发展总体上受增值评价发展的影响, 但归根结底是受教育实践中统计技术发展水平的影响。随着对增值评价实证研究的不断深入,为更好地拟合增值数据,探索更优的增值模型,在早期模型的基础上, 国际上出现了各种增值模型的变式(Levy,et al.,2019)。 由于目前增值模型数量繁多、种类复杂,在增值评价实践过程中,评价者通常因难以比较不同增值模型的分析结果, 而降低对评价结果的信度,导致难以实现增值模型的大规模推广应用。虽然, 国内外已有学者从不同视角对增值模型进行了界定,但尚缺乏对模型发展历程的研究。增值模型发展阶段的系统分析有助于厘清其发展脉络,为此,本研究以增值评价、增值模型的发展为主体,以统计技术的发展水平为辅助指标, 将教育增值模型发展历程分为增值模型萌芽阶段、增值模型兴起阶段、增值模型发展阶段、增值模型成熟阶段四个阶段,如图1 所示。 教育增值模型发展历程的四个阶段分别对应增值理念的起源、 以多水平模型为基础的增值模型演变、增值模型在评价系统中的实践应用、精细化增值模型的实证研究这四个具体的发展主题。

图1 增值模型发展历程

(一)增值模型萌芽阶段

19 世纪60 年代到20 世纪60 年代, 增值模型的发展处在萌芽阶段。 “增值”这一专有名词来自经济学,指的是通过衡量实际产量和预期产量的差值来判断“增值”是否存在。 由于预测产量通常会对未来某一时期的产量设定一个期望值,再根据生产区的实际情况加以对比, 当实际产量超过预期值时,就会产生“增值”的涵义。 1862 年,英国引入了“按成绩付款”的理念,并且教师的工资根据学生考试成绩而定。 因此,在评价学校效能的研究中,学生学业成绩作为最重要的一项因素被纳入到学校中教师绩效的衡量标准中。 教育发展增值评价的思想源于1966 年美国著名的 《科尔曼报告》(Coleman Report),该报告得出了一个重要结论,认为学校的作用在于帮助学生克服由出身不平等带来的障碍,因此, 应以学生自身的努力程度来科学评估学生发展。 随即便引发了一场关于如何评价学校效能的热潮,也为之后各种增值评价分析方法的产生提供了思路。 在此阶段,“增值”的概念从经济学领域逐渐被引入到教育领域, 并引发了教育者的关注。由此, 越来越多的教育者开始探讨增值评价的内涵,并且借鉴简单的统计学模型,作为早期增值模型的支撑。

(二)增值模型兴起阶段

20 世纪70 年代到80 年代,随着统计技术发展水平的不断提高, 增值评价亟须建立科学有效的评价体系及规范评估方法, 以丰富基于证据的教育研究,推动教育决策科学化。 20 世纪70 年代初,对教师和学校效能增值评价的讨论和研究不断深入。1972 年,林德里(Lindly)和史密斯(Smith)提出多水平模型(Multilevel Modeling),但其实践应用受到统计技术限制。在开发多水平模型之前,普通最小二乘(OLS) 回归等方法通常被用于分析多层次教育数据。 随着统计技术发展水平的提高和多水平模型进一步发展与完善, 多水平模型被广泛用于增值模型中纵向数据的重复测量分析中。例如,在学业成绩影响因素的研究中, 多水平模型多用于分析在两个或多个分析级别测量的定量数据。具体而言,在基本的两层线性模型中, 将第一层学生数据嵌套在第二层学校数据中, 即将来自两个分析水平的变量都包含在完整的模型中。理论上,可以为每个层级指定单独的方程,它们可以通过随机截距和随机斜率链接,其中随机效应可以合并到层次结构的不同级别。 1988年,美国统计学家布里克(Bryk)等人基于多水平模型构建并进一步完善了多层线性模型(Hierarchical Liner Modeling,HLM)(张雷,等,2005)。 早期的多层次模型的公式和应用侧重于两个层次的分析和连续的结果, 后来基本模型逐渐扩展到包括三个或更多层次的分析以及各种不同的增值结果类型。 在此阶段, 教育评价定量研究中分类变量的普遍存在使得多层次增值模型在学校、 教师效能的纵向数据分析中变得至关重要。

(三)增值模型发展阶段

20 世纪90 年代到20 世纪末,由于统计方法的改进和相关数据源的完善, 研究人员开始使用更加复杂先进的增值模型, 并在学校效能研究方面取得了重大进展。在教育问责制的背景下,增值模型从关注统计学层面上的技术改进, 逐渐发展为将模型嵌入教育评价系统, 从而开发出适用于大规模实践推广的增值评价系统。 1992 年,桑德斯等人(Sanders,et al.,1998) 基于亨德森混合模式法(Henderson’s Mixed-Model Methodology), 开发了田纳西州增值评估系统(Tennessee Value-Added Assessment System,TVAAS),这一系统开启了国际视阈下增值性评价研究的浪潮。1993 年,在统计分析系统公司(Statistical Analysis System,SAS)的支持下,美国最知名、使用最广泛的增值模型——“教育增值评估系统”(Education Value -Added Assessment System,EVAAS) 在TVAAS 的基础上被开发出来,并将增值结果应用于教育问责系统中。 EVAAS 的核心是多变量随机效应模型(Multivariate Random Effects Model),该模型不仅允许学校效应随着时间的推移而累积, 即学校对学生学业增长的总影响可以根据学生在每个学校的时间比例来划分,而且允许使用不完整的数据,可以减少样本选择偏差, 从而提供更为精确的估计和更窄的置信区间。同年,劳登布什等人(Raudenbush,et al.,1993)开发交叉分类模型(Cross-Classified Models),用于评估学校效能和教师绩效考核。 随着相关学者相继提出残差模型(Residual model)、分层混合效应模型(The Layered Mixed Effects Model,LMEM),增值模型逐步发展出嵌套数据处理、 协变量分析与效能问责等表征, 为教育领域内增值系统的广泛应用提供了有力的技术支撑, 为增值理念逐渐引领教育评价的价值解读蓄势。在此阶段,增值评价的理念已广泛应用于教育实践, 增值模型发展促使一些经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)成员国,包括美国、英国和澳大利亚实施了可操作的教师和学校评估系统。 同时越来越多的国家和地区在制定教育政策和学校质量评估标准时, 将增值评价结果作为实施教育问责制的核心内容(边玉芳,等,2013)。

(四)增值模型成熟阶段

21 世纪以来,随着相关政策法案的推行,增值评价逐渐成为美国基础教育阶段的主流评价模式,各种增值模型在实践中得到进一步的发展, 增值模型日趋成熟。

一方面,研究者通过大量的实证研究,并在以往经典模型的基础上,考虑增值模型的多因素变量和地区差异, 更加关注增值模型的有效性与误差校正,依据实际情况开发出更为精细化的模型。 2001年,马尔可夫(Markov)提出马尔可夫链模型(Markov Chain Model), 该模型可用来分析等级型教育成果(邓森碧, 等,2012)。 2004 年, 麦卡弗里等人(Mc-Caffrey,et al.,2004) 使用广义线性混合模型对纵向数据中重复测量结果间的相关性进行建模,提出通用多元纵向混合模型(Multilevel Longitudinal Mixed Models)。同年,美国学者特克维(Tekwe,et al.,2004)等人在前人基础上对分层混合效应模型(LMEM)、简单混合效果模型 (The Simple Fixed Effects Models,SFEM)、矫正多层线性混合模型(Adjusted Hierarchical Linear Mixed Models,AHLMM) 和非矫正多层线性混合模型 (Unadjusted Hierarchical Linear Mixed Models,UHLMM) 这四种增值模型进行实证比较研究。 从可行性的角度,特克维等人建议在教育实践中使用最简单的SFEM 模型来评价学校效能。 2004 年,麦卡弗里提出持续效能模型(Variable Persistence Model), 该模型使用最大似然法评估教师效能。 持续效能模型假定教师效应持续减弱,通过分析跨年度、跨学科和跨群组数据,将之前教师影响的持久性作为重要影响因素,测量教师对学生学业水平的影响程度,用于教师绩效考核。 继而,布里格斯(Briggs)等人将该模型引入到学校效能评估中, 与田纳西州多变量随机效应模型MRM 的优势相同,但不同之处在于该模型加入学生或学校特征变量,增加模型的灵活性(McCaffrey,et al.,2004)。2009 年,贝特伯纳(Betebenner)提出了学生成长百分 等 级 (Student Growth Percentile,SGP) 模 型(Castellano,et al.,2013)。 SGP 模型由于最早被应用于科罗拉多州,因此又常被称为“科罗拉多模型”,该模型使用分位数回归方法,通过测量学习者在学业成绩水平相近的学生群体中相对位置的变化,来评估学生的增值,具有较大的灵活性,广泛应用于美国学校和教师的增值评价。

另一方面,增值评价的结果不再仅仅把增值模型统计结果作为唯一标准,根据国家自身现状和增值评价的不同目的,逐渐把增值结果和其他发展理念相结合。 2010 年,美国田纳西州基于增值评价理念,结合田纳西州TVAAS 增值评价系统和教师评估与专业发展框架 (Framework for Evaluation and Professional Growth)开发TEAM(Tennessee Educator Acceleration Model)模式,该模式是一种能够对包括教师在内的所有学校工作人员进行评价的综合模式。 2018 年,《每一个学生都成功法案》(The Every Student Succeeds Act,ESSA)正式在美国实施,该法案中提出的“达标+成长”的理念与之前《一个都不能少法案》(No Child Left Behind Act,NCLB)中“达标”的理念相比更为科学完善。 在ESSA 的实施过程中,增值评价逐渐成为美国各州对学生学业成就评价和对教师、学校和学区进行教育评价和问责的重要组成部分。

从国内来看, 增值评价理念传入我国的时间虽然较晚,但近年来,随着增值评价的深入研究与实践应用, 我国学者相继提出更适合我国国情的本土化增值模型。 如温州市教育评估院王旭东(2017)提出简约式阶梯型增值评价模型, 该模型通过三阶梯等第评价指标动态评估学校效能。 徐路明(2021)在贝特伯纳的百分等级模型基础上, 将复杂的分位数回归方法替换为更为简单的百分等级方法, 提出简易式百分等级成长模型, 该模型与百分等级模型相比更易理解,便于操作、适于推广。 炕留一等人(2022)基于评价三角理论和循证评价理念提出教师网络研修协作效果增值性评价模型, 通过分析教师网络研修协作的过程性证据, 评价网络环境下教师协作研修的增值效果,助力教师自身成长。石艳等人(2022)基于中国教育追踪调查(China Education Panel Survey,CEPS) 初中生数据全国代表性样本和云南省某县2020 年初中学生的行政数据,使用跨学科固定效应增值模型教学效能差异进行了实证研究。 胡志桥等人(2022)采用简洁的田纳西多因变量模型对299所学校进行施测和增值评价分析, 构建了中小学生学业水平增值评价模型, 对不同区域间的学校效能进行研究。

三、国际经典增值模型的比较分析

随着统计技术的不断发展,增值模型经历了萌芽、兴起、发展和成熟的过程。 增值模型的演进思路大多是通过假设影响因素来增加参数量,即增加模型的复杂度来提高模型的表达能力,或是研究者对源数据采集及处理等方面采取不同的处理方式,使不同增值模型的变式相继出现,增值模型的种类和数量也不断得到扩展。 增值模型并不仅依赖于统计技术的自我迭代, 还始终与教育实践的外部环境、内部要素紧密耦合。 在教育实践中,增值评价中分析数据的主要工具为增值模型,不同的增值模型适用于不同的场景(炕留一,等,2022)。 数据是增值模型的基础,模型的应用离不开数据的采集,增值模型的选用需要考虑适用的数据类型。 因此,数据的测量设计方式直接关系到研究者对模型的选取与应用。

(一)数据测量设计方式

增值模型均依托学生成绩数据的测量设计,根据测量设计类型的不同, 增值模型可以分为横截面测量模型和纵向测量模型两大类 (Kim,et al.,2013),如图2 所示。 其中,针对同一年份,不同学生群体的测量设计方式被称为横截面测量 (组间测量);针对不同年份,同一学生群体的跟踪测量方式被称为纵向测量(重复测量)。

图2 增值测量设计

在横截面测量模型中, 增值分数是根据学生成绩的“真实”平均分数和线性回归的“预测”平均分数间的差异(即残差)来计算的(Klein,et al.,2007)。 使用横截面测量的增值模型需要额外的数据, 如学生初始成绩, 以控制学生除一般背景之外的初始状态所造成的影响; 而纵向设计则使用随着时间推移跟踪收集的测试分数,因此纵向测量又被称为“学生跟踪测量”(Reap,et al.,1972)。 目前,基础教育中的增值模型大多是基于多年的纵向数据展开, 而纵向数据集极易受到学生流动或年级重复等因素的影响。此外, 使用横断面设计来测量增值比纵向设计的成本更低,实施起来更可行(Steedle,2012)。

(二)模型对比分析

以相关增值模型为支撑, 可以直观表征数据分析结果。为此,本研究依据横截面测量和纵向测量两大维度,从模型的数据来源、学生群体、缺失数据处理、实践应用、模型特征五个方面,阐述十种常用模型的内在机理,如表1 所示。

编号 类型 模型名称 数据来源模型 学生群体缺失数据处理实践应用 模型特征3 纵向测量残差模型Residual Model单组测量结果同一群体缺失数据的学生被排除在分析之外亚利桑那州建立2 年成绩线性回归方程,计算该学生预期成绩与实际成绩间“残差”,以确定其增值(Tekwe,et al.,2004)4 纵向测量交叉分类模型Cross-Classified多组测量结果多个群体使用预估分数补全缺失的学生数据主要用于研究衡量不同年份教师的影响,而非单一年份的影响(Raudenbush,et al.,2004)5 纵向测量多变量随机效应模型Multivariate Random Effects Model,MRM多组测量结果多个群体使用预估分数补全缺失的学生数据教育增值评估系统EVAAS即教育增值评估系统(EVAAS)模型,注重学校效应分析,学生成绩由一个垂直连接的标准化成绩测试分数序列表示(SAS,2021)6 纵向测量单变响应模型Univariate Response Model,URM多组测量结果同一群体缺失数据的学生被排除在分析之外教育增值评估系统EVAAS通过测量学生的预测分数和实际分数之间的差异来判断学生是否实现了成长预期(SAS,2021)7横截面测量轨道模型Trajectory Model多组测量结果多个群体缺失数据的学生被排除在分析之外主要用于研究根据最初两年的增分幅度,确定未来每年的进步值,衡量是否达到预期进步的依据(Reap,et al.,1972)8横截面测量基于OLS线性回归的残差模型Difference in Residuals Model: OLS Linear -based多组测量结果多个群体缺失数据的学生被排除在分析之外高等教育将当前的平均考试分数分别与新生和高年级学生的平均入学成绩进行回归(Ballou,et al.,2004)9横截面测量基于HLM的残差模型Difference in Residuals Model:HLM-based多组测量结果多个群体软件操作时可处理可不处理高等教育对学生相关数据分析,可以表示当前考试分数和进入考试分数间的关系(Ballou,et al.,2004)10横截面测量基于HLM的残差分析模型HLM-based Residual Analysis Model多组测量结果多个群体软件操作时可处理可不处理高等教育该模型在控制学生入学的初始分数后,根据预测值与实际分数的差值,来判断增值(Ballou,et al.,2004)

(三)模型选取机理

基础教育阶段的增值评价通常选择纵向测量模型,采用分析同一学生和同一科目的多年纵向数据,进行重复测量。 横截面测量模型主要应用于高等教育增值评价中, 其测量数据通常选取新入学的学生成绩和毕业生成绩进行分析。 无论在基础教育还是高等教育中,评价者分析任意一个增值评价数据集,均需从众多模型中选择“最优”的模型。 但是哪个模型是最适合的, 是否存在理论符合但实施困难或者模型过于简单等情况, 尤其是模型选择过程中所带来的不确定性, 在很大程度上影响增值模型的实际使用效果。 因此,在增值模型选择时,评价者可以基于模型选择标准函数, 从各种模型中为给定的数据集找到最合适的分析模型,具体公式如下。

模型选择标准=f(模型偏差、方差、复杂性)

其中,n 为样本量;d 为自由度。 首先,在使用同一数据集对各种增值模型进行一系列分析后, 用结果产生每个模型的选择标准值;然后,比较模型选择标准值, 以找到最适合特定数据集和评价背景的增值模型;最后,根据模型选择标准函数,在“选择标准值越小,模型就越好”的原则下选择“最优”模型。 但模型并不能保证结果的准确和无偏差, 因为在模型之外还有许多其他的偏倚和误差因素可能影响结果,如缺失数据处理、学生流动性以及增值分数的跨年度波动等。本质上,增值模型依托于不同的统计分析方法,每种模型都有其自身的适用条件、优势与局限,因此在不同因素的影响下,其不可避免地会产生误差。在特定的教育实践场景下,只有选择最优的统计模型,才能得到相对较为科学的分析结果。无论哪种增值模型都有其适用的场景, 教育决策者应根据使用目的和参考成绩框架来解释评价标准, 再选用不同的增值模型。此外,基于增值模型的评价结果不应作为教育有效性的唯一指标, 也不应据此做出高风险的教育决策。

四、国际增值评价模式实践应用

自1966 年美国的《科尔曼报告》发布以来,增值评价的理念在国际上得到广泛的普及。 随着增值评价的推广应用,国际上出现了多种增值评价模式,例如,美国俄亥俄州的教育增值评价模式(EVAAS)、英国兰开夏郡学校效能增值评价 (Lancashire Value Added Project,LVAP)等。 增值评价模式的实践应用是实施学校效能评价和促进学校教学质量的重要依据和保障, 为促进学生学业发展和提高学校教育教学质量提供支持。在国际视阈下,美国的增值评价体系相对较为完善, 同时其增值评价模式实践应用也最为成熟。 因此,本研究以美国使用范围最广的EVAAS 增值评估系统为例, 呈现增值评价的一般过程,解析增值模型的内在机理,探讨增值模型的实践应用场景。

(一)增值评价过程

EVAAS 教育增值评价系统是目前美国使用较广泛、科学论证较多、平台建设相对完善的数据处理分析系统(Sanders,et al.,1998)。威廉·桑德斯等人于1984 年首次提出使用增值分数来评估学校和教师的效能,被称为“田纳西州增值评价模式”。后来美国《教育改进法案》(Education Improvement Act,EIA)将田纳西州增值评估系统TVAAS 作为其中的一部分。为了配合美国整个教育系统的使用,桑德斯团队和SAS 公司在TVASS 的基础上对其进行了改进,并将其发展为应用最广泛的教育增值评估系统EVAAS(Rose,et al.,2012)。 本研究从数据来源和管理、模型分析及指标阐释、结果可视化呈现、实践应用推广四个角度进一步阐述增值评价的一般过程, 如图3 所示。

图3 增值评价过程

1.数据来源

教育领域增值模型的选择是根据所分析的数据类型以及所使用的增值测量系统和各地区政策目标的差异而有所不同(Liu,2011)。 基础教育领域使用的大多数增值模型是基于多年来与同一学生和同一科目有关的纵向数据而开发的。 这些增值模型通常在学年末比较学生该年度和前一年的标准化测试分数的差值,以此评估学生在此学年的进步,并将结果作为衡量教师和学校有效性的标准 (Ballou,et al.,2004;Brooks,et al.,2004)。 因此,在许多国家的基础教育中, 学生通常每年都要参加一个或多个标准化的成绩测试。

EVAAS 采用纵向数据测量设计的方法来衡量学生成长以及学校对学生增值的净效应, 一般分析连续三年以上的数据,不需要对学生的性别、种族等变量加以控制。EVAAS 不需要收集学生的人口统计学信息,具有较大的灵活性。 其通过提供两种数据,即关于学生群体的成长数据和针对学生个体的预测数据(增值数据和预测数据),来帮助教育者做出指导性决策,以确保每位学生都能取得学业进步。 E VAAS 由数据分析公司——SAS 公司开发,能够随时间推移跟踪学生的成绩变化,提供学习诊断信息,以确定学生的各种需求,帮助促进他们的成长和发展。在数据管理方面,SAS 公司提供统一的教育数据管理框架和自动化流程,从数据收集、聚合到数据验证及清理。 另外,EVAAS 缺失的学生数据可以通过使用观察到的分数对未观察到的分数进行预测得到,从而最大限度地减少由于缺失观察值造成的数据损失。 总之,EVAAS 可以减少样本选择偏差,进而提供更精确的估计值和更窄的置信区间(Lockwood,et al.,2007)。

2.模型分析

基于纵向测量设计的增值模型使用随着时间推移收集的同一群体的测试分数来衡量增值的。EVAAS 允许学校效应随着时间的推移而积累,其结果由各种学校背景变量和学生背景变量累积而成。该模型不仅要关注学生在目前就读的学校中某一科目、年级的成绩如何,还要关注学生在之前学校中获得的知识和技能的积累。 在收集多层次学生、教师和学校数据后,EVAAS 便运用专门的增益模型和预测模型来计算学生群体学业成绩的增值(Audrey,et al.,2020)。 在此基础上,计算学校、学区、教师对学生增值的净效应,并以此作为对教师、学校、学区表现进行评价、评定的依据。 增值模型衡量的是一组学生的增长率,并将其归因于地区、学校或教师的水平(Leckie,et al.,2019;Leckie,et al.,2022)。 增值模型将该群体的增长与预期的增长量进行比较,并以此提供关于是否有统计证据表明该群体的学生超过、达到或没有达到预期的信息。 例如,EVAAS提供了两种一般类型的增值模型:多变量响应模型(Multivariate Response Model,MRM) 和单变量响应模型(Univariate Response Model,URM),每种模型都包括地区、 学校和教师级别的报告(SAS,2021),如表2 所示。

表2 中所示的模型是在EVAAS 中使用的基本统计模型。 在多变量响应模型中,该模型对学校、教师或学生等进行评估时,允许使用不完整的数据,缺失的记录可以通过使用观察到的分数对未观察到的分数进行预测来估计(Rose,et al.,2012)。 EVAAS 不需要控制学生的初始成绩或其他协变量, 如社会经济地位、人口特征或其他影响学生成绩的因素,因为MRM 假设该学生前几年的分数充分包含了其特点。在单变量响应模型中, 增长的衡量标准是与每个地区、 学校或教师相关的学生观察到的分数和预测分数间的差异函数(Vosters,et al.,2018)。 增值模型衡量的是一组学生正在创造的增长率, 并将其归因于地区、学校或教师的水平。增值指标将一组学生的增长与预期的增长量进行了比较。因此,定义预期增长量是非常重要的。从数学上讲,“预期”增长通常被设定为零,作为地区、学校或教师的平均成绩。例如,积极效果代表了学生取得了超过预期的进步; 而消极效果则代表学生没有取得预期的进步。因此,如果每个学生都获得了他们的预测分数,一个地区、学校或教师很可能会得到一个接近于零的增值指标。 负值或零值并不意味着“零增长”,仅代表未达到或刚好达到预期成长。 此外,统计误差的产生是必然的,统计模型计算时必须要考虑“标准误差”,使评估结果更精确、更细致。

表2 MRM 模型与URM 模型

3.结果呈现

为了便于将复杂的统计模型计算的增值结果向教育工作者及公众展示,EVAAS 在官方网站上通过可视化的呈现形式,介绍该系统增值评价的原理、操作流程及报告解读。 该系统将获取到的原始数据转换为可计量数据表,以实现增值数据的可视化映射,依据不同数据类型和目的生成增值报告、诊断报告、表现诊断报告、总结性报告、学生报告、学生预测报告(EVAAS,2022)。教育工作者可以通过可视滑动条和过滤透镜等功能实现动态查询, 在可视化全局视图中,根据自身需要处理数据,将视觉编码与交互操作迭代进行,动态实时地反馈和更新过滤结果,以帮助教育工作者或学生及家长快速获得所需增值评价结果。

在结果报告中,EVAAS 使用颜色编码及散点图、热力图等不同形式来解读增值数据,可以更直观地呈现学生在成就方面取得的进步或学生群体成就与增值的关系。从概念上讲,成就信息表示学生在单一时间点的学业成绩;而增值信息即成长信息,表示学生的学业进步程度。成就和增值须一起考虑,才能科学研判学生的实际学习情况。 如散点图报告通过提供学生的成就和增值的信息, 有助于学校和学区直观地了解学生的表现, 进一步呈现该校所在地区的教育实践和政策的影响,如图4 所示。在增值报告中,系统通过多种颜色表明不同增值指标,蓝色表示学生显著超过预期增值,绿色表示学生超过增值,浅绿色表示学生达到预期增值, 红色表示学生远远未达到预期增值。 教育工作者根据学生所处颜色区域不同,判断学生达到预期增值的程度,以及时反馈调整,提高教育质量。

图4 成就与增值关系图

4.实践推广

自1998 年EVAAS 通过同行评议投入使用以来,这一模式已在美国北卡罗来纳州、得克萨斯州、路易斯安那州和宾夕法尼亚州等多个州实现全范围推广,并产生了广泛影响。 如EVAAS 在宾夕法尼亚州实践应用, 称为宾夕法尼亚州增值评价模式(Pennsylvania Value - Added Assessment System,PVAAS);在达拉斯学区的实践应用,称为达拉斯学区增值评价模式 (Dallas Value-Added Assessment System,DVAAS); 在宾夕法尼亚州范围内各大学区使用宾州教育增值评价体系 (Pennsylvania Value-Added Assessment System,PVAAS)等。这些增值评价模式均是以EVAAS 为基础进一步发展而来,在其范围内辅助衡量基础教育阶段学生的进步幅度, 并以此作为评判教师、学校、与学区效能的重要依据。

其中, 达拉斯学区的增值模型包含学生成绩和学校层面等多种因素。与EVAAS 不同,DVAAS 主要关注学生学业水平方面的纵向差异。 该模型从上一阶段的学生成长得分为基准, 考虑到学生个体的因素,如种族、性别、语言能力和社会经济地位等因素,对分数做第一次调整;再考虑学校层面的因素,如学生的流动性、拥挤程度、整体社会经济地位和少数民族百分比,对分数做第二次调整。对教师和学校的影响是根据所有调整后的学生分数的平均值来估计的。 佛罗里达州于1999 年根据增值理念制定“A+计划”, 并在EVAAS 的基础上开发 “A+学校评估系统”。 该系统主要基于对学生年度学习成果的测量,通过对3~10 年级的学生进行阅读和数学测试,并跟踪学生每年的学业表现,从A~F 六个等级对学校进行教育绩效排名。 佛罗里达州把“A+学校评估系统”的增值结果作为影响教育决策和评判所需要改进具体领域的依据。

(二)增值评价结果

EVAAS 评价结果报告中的教育可视化呈现和分析解决方案为教育工作者提供了强大的工具,用于反思实践并规划学生的未来需求和目标。基于此,EVAAS 为学校、教师、政策制定者、学生家庭等提供及时的反馈信息, 以便于他们能够根据可靠的学生增值数据采取适当的措施。

1.助推政策制定者科学决策

EVAAS 为教育领导者在公平学习机会、教育工作者支持和学校改进规划方面的决策提供可参考的数据信息,帮助政策制定者根据教育机会、教育成果和学生需求的差距, 进行教育资源分配(Smith,et al.,2022)。 例如,EVAAS 为政策制定者提供交互式报告,包括教师、学校和地区层面的学生成长;不同学生群体的学业增值结果趋势; 学生目前是否达到预期学术基准的成长轨迹。因此,该系统可以帮助决策者在学校和学区之间交叉共享教育信息; 同时可以帮助政策制定者考察那些为解决特定学生、 学校和学区需求的教育政策所提供的反馈数据, 了解教育政策和计划的影响, 根据区域学生的学习成果来评估已制定的教育政策和计划, 评估特定学生群体中的计划有效性,以便为学生、学校和学区做出更明智的决策,促进地区和学校之间的教育公平(OECD,2022)。

2.辅助学校改进教育规划

EVAAS 可以实现跨数据源关联信息,追踪学生在区域学校之间的进步和提升, 并使用基础统计模型来预测学校表现。 EVAAS 根据准确、实时的数据获取增值信息,提供直观的增值数据仪表板,呈现包含对教师和家长有价值的学业成绩衡量标准的报告。 学校通过增值评价结果为学生寻求更合适的教育,具体而言,可以通过查看学生的成绩轨迹,选择真正的“有风险”的学生,预测到最有可能需要额外辅导的学生, 以及时提供相应的教学服务支持。 另外, 该系统还为学校提供学生通过期末考试可能性的百分比。 增值评价结果可以客观准确地衡量学生的进步,确定不同学生群体的发展趋势,为学校改进计划和策略提供信息。

3.助力教师进行教学干预

EVAAS 可以帮助教师在学生学习前了解他们的学业水平和背景,根据课程、学情和教学策略做出相应决策,以满足所有学生的学习需求。该系统可以提供学习者预警信息,识别有风险的学生,为教师提供有效规划和差异化教学的信息。 教师依据增值评价结果预先发现哪些学生未达到预期成果, 以便及时进行教育干预。将增值结果应用到教师评价,除了增值结果的量性评价, 还可以与质性评价相结合(Bacher-Hicks,et al.,2019)。 例如,美国最新的教师评估模式TEAM (Tennessee Educator Acceleration Model),将质性评价与量性评价相结合,以此满足美国教育问责制对教师提出的绩效要求。 其中,50%是基于学生学业成绩的增值及其他标准化测验成绩的量化数据; 另外50%是基于课堂观察和专业报告的质性数据(NCCTQ,2012)。该模式将教师课堂观察表现及学生学业成绩等因素加入到评价体系内, 结合量化评价和质性评价,生成系列化评价报告,以供学校、教师及教育决策者参考。

4.增强家校联合纽带关系

EVAAS 提供家校联合的机会,以便更好地向家长传达学生的进步。 借助增值结果,家长可以查看学生过去在多个评估、 成绩和科目中的学业成绩,了解学生目前达到未来学业基准的轨迹。EVAAS 为家长会提供有关学生成绩的客观信息,以确定学生需要个性化支持、教师或家庭干预的领域,以帮助学生发挥潜力。 在此基础上,将增值评价的结果应用于家校联系制度,形成基于家校共育的结果反馈机制,可有效加强家校之间的沟通与交流。 具体而言,学校和教师通过增值评价反馈机制可以及时了解学生的家庭背景和校外情况,家长可以及时向学校反馈学生的综合信息, 协同做好学生培养(Liu,et al.,2020)。 除此之外,在座谈会、家长会等形式中还可以根据增值结果,结合学生和家长的意见和建议,及时解决在教育中出现的问题,不断优化家庭教育环境。

五、总结与展望

本研究聚焦增值模型发展历程, 将目前增值评价中的常用模型根据测量设计类型, 进行分类及对比分析,从经典模型“教育增值评估系统”展开,探讨了其在学校、教师、政策制定者、家庭方面的增值结果应用。 然而,增值模型的构建与实施,除了丰富完善统计技术, 还需关注增值评价在实施中面临的挑战。 在数智时代,增值模型的发展要以教育元宇宙、区块链、数字孪生、人工智能等技术赋能,推动增值评价的改革创新;要以跨时空、跨模态数据融合循证实施,丰富增值评价的全域数据链;要从多维目标实现内容扩充,提升增值评价的综合性;要针对不同主体,制定差异化的增值评价标准,实现更为公平的教育评价新范式。

(一)技术赋能,推动增值评价的改革创新

从评价技术上看,人工智能、区块链、虚拟现实等智能技术是构建新时代数字社会的重要基石,也是促进教育发展的重要途径。近年来,数字技术和人工智能等技术的融合发展进一步推动教育领域的数字化发展,教育元宇宙也应运而生(朱珂,等,2022)。与传统的教育教学相比, 教育元宇宙的核心是以数字技术为基础、以人为核心、以协同共享为特征的教育教学新生态(兰国帅,等,2022)。 教育元宇宙依托大数据、区块链等技术,破解教育数据采集难、不全面、不连续等问题,实现智能教学评价。 借助大数据的数据采集处理与价值发现、 区块链技术的时间戳与共识协议、人工智能的智能处理等功能,实现综合性、发展性的智能增值评价。如大连“必由学”提供的大规模教育数据分析服务, 其研制专业化的教育发展评价工具,包括教育增值评价系统、教师效能评价系统、义务教育发展质量评价系统等,实现了常态化监测、 智能化分析、 动态生成多种类型增值分析报告,为教师绩效考核提供数据支撑,为区域学校等提供教育质量评价解决方案。 其提供的增值模型的数据集可以与5G、IoT 技术收集的多维度环境数据融合创生,借助智能感知技术,如图像识别、语音识别等,采集和储存学生的动态表情、动作行为等多源数据,学生成长状况和学习成果进行关联重组、精确分析,与增值模型统计结果决策相融合,对增值评价结果进行优化。可见,智能技术赋能的优势将使增值评价的形式和内容得到极大丰富, 增值评价的准确性和时效性得到提高。

(二)循证实施,丰富增值评价的全域数据链

从证据来源上看, 当前增值评价数据来源较为单一,这就导致在全域空间的监督环境中,教育增值评价并不能得到有效实施。 大数据与厚数据的整合可以进一步赋能基于循证的增值评价, 其通过对学习过程链条和教与学关系数据的融合分析, 能够更精准、更科学地开展增值评价,促进形成证据驱动的增值评价新范式(牟智佳, 等,2022)。 如郑州市从2012 年起一直坚持用“增值”的评价方法评价学校教育质量的“绩效”,根据逐年监测数据辅助教育质量管理与监控, 郑州市教育局可以清晰了解到全市高中教育发展存在的问题,帮助每一所学校基于“绩效”证据反思学校教育教学存在的问题,引导学校踏上循证性发展之路。 基于循证的增值评价是循证教育理念在增值评价方面的改革探索, 强调基于多维证据构建全域数据链,为增值评价提供数据保证。基于循证的增值评价需要教师数据、学生数据、师生交互数据等进行融合分析, 实现时域和空域下的全链路、智能化升级,根据教学过程动态监测教学行为、学生行为,进行数据重组、数据归并、数据建模,产生多维度评价结果。因此,需要将不同情境下的教学行为和师生心理数据进行匹配重组, 形成基于全域数据的教学闭环链路, 为后续进行增值评价的精确计算提供分析依据。这些数据的存储方式、类型都有差异,基于跨时空、跨模态数据的汇聚与融合可以为增值评价的科学性和客观性提供强有力的支撑(Rose,et al.,2012)。 将多维场域中采集的数据进行融合分析,可实现全链路智能化升级,依托整个教学过程数据链,对教学进行分类多维评价。 因此,可以将多源证据进行采集汇聚,实现关联证据的全量整合,形成基于数据的评价闭环链路, 为增值评价提供分析全域数据链。

(三)内容扩充,提升增值评价的综合性

从评价内容上看,目前增值评价的指标较为单一,主要以学生学业成绩作为主要数据来源,忽视了对诸如思想道德、艺术、社会研究和体育实践等科目的评价(谢小蓉,等,2021)。 由美国顶尖私立高中组成的联盟(Mastery Transcript Consortium,MTC)提出的MTC 综合素质评价模型, 通过从学术能力、领导力及沟通能力等八个维度采集学习者学习过程全链路中的结构与非结构数据,结合量化和质性分析, 生成学习者个体全方位立体综合分析报告(MTC,2022)。 我国在《关于全面提高义务教育质量深化义务教育教学改革的意见》提出“坚持‘五育’并举, 全面发展素质教育” 教育理念 (教育部,2020)。 综合性增值评价是在综合素质测评中运用增值评价的理念和方法, 即以一定阶段内学生、教师、 学校效能三个方面的综合指标的增值为标准,对学生进行评价。 温州乐清市自2016 年引入增值评价系统,由学业成绩、学生发展指数和学校影响指数三个方面共18 个指标的数据, 多维度分析教育教学质量及其背后的影响因素,这种综合增值评价方式关注了非学业因素,为学校综合施策、提升质量提供更加科学的数据支撑。 在智能技术的支持下, 除采集传统的基于纸笔的测验成绩数据外,增值评价还可以借助脑机接口、动作捕获等技术采集到学习者的多模态数据。 脉冲神经网络等技术将收集到的教学数据进行快速的计算与分析,形成一个全方位、立体化、多层次的综合性增值评价结果。 在评价学校和教师时,不能把评估增值结果作为评价学校和教师的唯一标准,单纯以学生分数的增值指标来衡量学校或教师的效能是远远不够的。 因此,综合性增值评价除了包括情感、态度、价值观等多维教育目标,还应考虑多元化评价内容,以共同完善学校评价体系。

(四)建立标准,实现增值评价的差异化

从评价标准上看, 统一的增值评价标准忽略了不同的学校的起点水平和学生的“最近发展区”等其他考虑变量的影响。 各地区各学校的评测指标应一致,并以此作为评价学生进步的统一标准。由于教育本身是非线性发展的, 在增值评价过程中可能会出现不连续性、非线性等特点。而且学生个体间认知水平和知识接受能力也会存在一定的差异, 需要全面考虑到学习障碍的学生或学习困难的学生等不同人群的认知能力(王小根,等,2021)。 截至2022 年,辽宁省使用增值评价系统已连续三次开展省级层面的基础教育质量监测工作(每次周期为3 年),对评价内容和关键性指标进行分析诊断, 形成各级增值评价起点报告、差异分析报告等,从而为提出差异化的教育教学改进策略提供准确的依据。 增值评价的主体多样性和需求多样性决定了增值评价不应只采用唯一的评价标准。 因此, 当前亟须融合差异化的理念, 尽可能根据不同的主体和教育类型特点制定差异化的增值标准, 以明确不同群体和教育阶段相应的增值评价内容与指标,准确分析“高水平、低增值”的学生和学校。教育部门可在云计算、区块链等新技术的支持下, 形成各个区域不同阶段学生的成长轨迹(Jan,et al.,2021),或参照同一水平层面的均值评估学校的增值情况,建立相应的评价标准,以实现差异化的增值评价,提升评价的公正性。

猜你喜欢

测量评价学校
SBR改性沥青的稳定性评价
把握四个“三” 测量变简单
滑动摩擦力的测量和计算
滑动摩擦力的测量与计算
学校推介
测量
基于Moodle的学习评价
奇妙学校
保加利亚转轨20年评价
多维度巧设听课评价表 促进听评课的务实有效