教学质量增值评价常见模型与实践应用思考

2020-09-23王旭东

考试研究 2020年5期

王旭东

教学质量评价是目前教育评价改革的难点问题。教育行政部门对学校进行教学质量评价和考核，学校对教师进行教学质量评价，都是行之有效且不可回避的行政手段。探索科学有效的教学质量评价方式，注重发展性评价，是当前教育质量评价研究的重点与难点。

目前，教学质量评价指标数据主要来源于分数、排名和等第。根据评价指标来源，笔者梳理出五类九种常见的增值评价模型，并对增值评价模型的选用和实践应用提出观点。

一、教学质量增值评价的意义

常见的教学质量评价侧重考试成绩水平评价，关注成绩在团体中所处的位置，关注成绩是否达到了预期的目标。小学和初中阶段通常采用平均分评价，高中阶段通常采取升学率评价。水平评价模式特别有利于少数生源质量和办学条件有优势的学校，不利于乡镇农村学校和薄弱学校。考试成绩水平评价使用不当，会引发学校之间抢夺优质生源、校内举办重点班等违规行为。

20世纪90年代以来，学校绩效增值评价在英国、美国等发达国家逐步推广实施。近几年随着国内大规模教育质量监测的开展，上海、苏州和温州等地在教育质量监测中引入了增值评价。2020年6月30日中共中央全面深化改革委员会第十四次会议审议通过了《深化新时代教育评价改革总体方案》，明确提出“改进结果评价，强化过程评价，探索增值评价，健全综合评价，着力破除唯分数、唯升学，唯文凭、唯论文、唯帽子的顽瘴痼疾，建立科学的、符合时代要求的教育评价制度和机制”。一些县域教育行政领导和校长已经认识到增值评价的意义，并在实践中积极探索增值评价的方法。由于评价技术的局限，区县和学校的增值评价方法通常都比较简单；但是，能把增值评价和水平评价结合起来做绩效考核，已经是一个很大的进步。

相对水平评价，区域层面的增值评价是一种基于教学质量水平进步的发展性评价。增值评价考虑到了学校依靠自身力量难以控制的客观因素，如学生入学成绩、学生个人及家庭背景等，能更加客观公正地反映学校教育教学的效能。我国基础教育学校发展不均衡，城乡之间、学校之间往往有明显差异，普及增值评价比较适合我国基础教育的国情。

区域层面实施学校教学质量增值评价，可以有效地遏制学校对优秀生源的争夺，激发学校实施评价改革、课程改革、教学改革以提升教育质量的积极性和主动性，激励农村薄弱学校的全面发展，推进学校内部教育资源的均衡配置。学校层面实施教师教学质量增值评价，能激发教师工作积极性，引导教师面向全体学生，提高教学质量，促进教育目标实现。

二、教学质量增值评价模型

（一）基于名次的增值评价模型

1.基于总体平均分名次的增值评价模型

按学校或班级总平均分高低排序，依据学校或班级名次变化做增值评价。这种增值评价方法虽然比较简单，信度效度较低，但很多地区和学校一直在使用。

主要问题有三:一是有些学校或班级平均分相差很微弱，统计学差异不强，学业成绩几乎一样，结果因为“相差0.01分”分出名次，实际区分意义不大，现实表现是校长和教师不服气。二是有些学校或班级学业成绩有明显进步或退步，但由于所处群体原因，排名上没有变化，成绩变化得不到恰如其分的评价。三是由于学校层次性和差异性明显，原来排名在前的优质学校和排名在后的薄弱学校其名次很难变化；还有一些小规模学校因为总体学生人数较少，当人数发生变化时，导致名次变化偶然性；如果学校分班不均衡，也会发生相似变化。

2.基于个体平均分名次的增值评价模型

每次考试，先按每个学生分数由高到低排序，然后将各学校（或班级）所有学生的名次求平均值，计算出学校（或班级）学生名次平均值N，按ΔN=N1-N2计算增值，把第一次名次平均值与第二次名次平均值求差。这个差值为正数，代表进步，差值为负值，代表退步。正数差值越大，代表进步程度越大，负数差值越大，代表退步程度越大。例如甲增值为2，乙增值为3，丁增值为10，说明甲人均进步2个名次，乙人均进步3名次，丁人均进步10个名次；乙学生人均进步名次略优于甲，丁学生人均进步名次显著优于甲、乙。

这种增值评价原理简单，使用方便，而且能够反映出增值的程度大小。但如果区域或学校学生数发生较大变化，则可能影响评价结果。

3.基于个体百分等级的增值评价模型

百分等级是测量学中应用广泛的表示测试分数的方法之一。测试分数的百分等级是指在常模样本中低于这个分数的人数的百分比，反映个体在常模群体中所处的位置；百分等级越低，个体所处的位置越低。百分等级80表示在常模样本中有80%的人比这个分数要低。

先把所有学生的原始分由高到低排序，再按PR=100-（100R-50/N）转换成百分等级；其中R是原始分数排列序数，N是指样本总人数，然后计算各学校（或班级）所有学生百分等级的平均值，该平均值代表该学校（或班级）的百分等级；第二次成绩百分等级数值减去第一次百分等级数值就是增值，增值正负代表进步或退步，增值数据大小反映进步或退步的程度。

这种增值评价原理简单，只需进行百分等第转化，使用也方便，能够反映出增值的程度大小。因为用100以内的数值表示成绩，所以评价结果不受区域或学校学生数变化的影响。基于名次增值评价的三种模型中，百分等级的增值评价模型比较优越。

（二）基于等第的增值评价模型

4.均量值增值评价

根据学生升学考试成绩各等第人数比例结构计算出均量值，当年均量值与往年均量值的差就是均量值增值。增值正负代表进步或退步，增值数据大小反映进步或退步的程度。

计算过程分三步。第一步:先按学生成绩高低分成ABCDE若干等第，计算各学校（或各班级）ABCDE各等第人数占该学校（或各班级）人数的百分比。多数地方和学校通常分为5个等第，数据分别代表优秀、中上、中等、中下和后进学生百分比。第二步:根据均量值公式M=k1A+k2B+k3C+k4D-k5E计算每次考试的学校（或各班级）均量值M。公式中ABCDE为第一步计算的等第百分比，各等第前面的系数 k1、k2、k3、k4、k5为权重值，数据大小反映重视程度和评价导向，通常依据实践经验和行政意见确定系数大小；也有地方和学校E前面系数为正。最常见的经验公式为M=8A+4B+2C+D-4E，该公式A前面数值为8，赋值权重最大，表示非常重视优秀生的比例；这里E的系数为负值，目的是采用“倒扣方式”引导学校和教师重视后进生。第三步:按ΔM=M2-M1计算出均量值的增值。均量值为正数而且数据较大，代表进步越大，反之表示退步较大。对于一个区域或学校总体而言，均量值是一个固定值，略有标准分平均值的意义。

均量值评价的优点在于计算简单，导向性明确。可以做总分增值评价，也可以做学科增值评价，还可以跨学科进行比较。目前，很多区县和学校使用这种模型。基于这种均量值评价，学校和教师会特别关注等第边缘生的进步，但容易忽略等第晋级可能性小的学生，具有较浓的升学味道。

采取这种均量值增值评价，要注意三个事项:一是等第层级设置要合理，二是要各等第人数占比要科学，三是权重系数要有导向性。高中增值评价的等第设置可以参考当地高考录取批次:如果高校录取分4个批次，则可用ABCE分别代表一本、本科、专科和落榜生，各等第比率划线可以参考当地高校录取情况，公式可以修改为M=4A+2B+1C-2E。初中增值评价等第设置可以参考义务教育阶段国家教育质量监测，设置优秀A、良好B、达标P和待达标E四个层次，比率则可以参考当地教育质量监测结果；也可以按高中录取批次设置重点高中A、普通高中B、职高D和落榜E四个层次，比率则可以参考当地高中录取情况。建议初中公式为M=4A+2B+1D-4E。小学增值评价可以参考义务教育阶段国家教育质量监测，设置优良A、合格P和待达标E三个层次，比率可以参考当地教育质量监测结果。建议小学公式为M=4A+P-4E。如果区域学生人数特别多而且考试区分度较大，建议把学生均匀分为5个层次，A代表前20%，B代表中上20%，C代表中等20%，D代表中下20%，E代表后20%；公式修改为M=5A+4B+2C-1D-5E。学校对教师教学质量的考核，各等第比例要参考学校历年数据和教学质量提升的目标。

总体建议为:减少层级，降低A的权重，显著凸显后进生-E评价的权重，引导学校和教师树立“面向全体”的教育观，认同“后进生转化的价值等同于优秀生培养”，特别要关注后进生的发展。

（三）基于分数的增值评价模型

5.简易增值评价模型

先把学生原始分转化成z标准分，再把z标准分转化成T标准分，求得各学校或各班级T标准分的平均分，然后用ΔT=T2-T1计算出各学校或各班级的增值。在国家和省级质量监测中T=500+100Z。由于教育管理者和一线教师习惯百分制数据，温州地区在高中采取T=60+20z，区域T平均分为60，与高考难度值相当；初中采取T=70+15z，区域T平均分为70，与中考平均分相当；小学阶段通常采取T=80+10z，区域T平均分为80。

这种简易增值评价不需要专业数据处理技术，利用EXCEL软件处理就可完成。可以做群体动态评价，也可以做学生个体动态评价，还可以跨学科进行比较。基于标准分的简易增值评价模型，不仅适用于学业成绩增值评价，还可适用于学生品德行为、身心健康、师生关系、教师教学等监测指标。

义务教育阶段考试大都是标准参照考试和达标性考试，难度低，区分度低，成绩曲线呈负偏态分布，经过正态标准化处理，很容易出现高分段和低分段系数偏差较大的情况。高中阶段的考试通常为选拔性考试，难度大，区分度大，成绩曲线大都呈正态分布，经过正态标准化处理，误差较小。所以，从数据转化角度来看，该评价模型比较适合高中，不适合小学和初中；但是高中必须面临升学评价，只采取标准分做为唯一指标，显得评价不够全面性。

6.田纳西州增值评价模型

田纳西州增值评价系统（TVAAS）根据学生多年成绩动态变化做追踪评价，是当前国际最成熟和完整的增值评价系统之一。先利用项目反应理论（IRT）和多元回归分析（Multiple Regression）等先进统计分析技术获得两次考试分数转化关系，再将学生前一次考试分数转化成预期分，然后把后一次考试分减去前一次考试的预期分，计算出每一个学生的增值，再统计各学校的平均增值。如果后一次考试分数高于预期分，则表示进步，否则代表退步；增值数据的大小反映进步或退步的程度。

本文选用ATmega128L作为主处理器。ATmega128L是基于AVR RISC结构的8 bit低功耗CMOS微处理器，数据吞吐率高达1 MIPS/MHz，可缓解系统在功耗和处理器之间的矛盾。芯片自带128kB的可编程Flash，在本应用中无需外扩存储器。ATmega128L有丰富的接口资源(如SPI，USART，TWI，ADC等)，为本应用提供了重要支持[5-6]。

田纳西州增值评价模型历经几十年的研究和实践，相比简易增值评价模型更为科学可靠。但其结果的有效性有赖于满足若干先决条件，要对学生做多年跟踪测评，而且对于数据和统计方法有较高专业技术要求，增值评价计算出的数据结果背后的教育过程因素和相关专业术语不易被一线教育管理者和教师理解。目前在国家和省市级大规模质量监测中较多采用，区县和学校层面少有这种增值评价。简易增值评价模型在科学性上不如田纳西州增值评价模型完美，但在实践操作性、教师接受性上有明显优势。

（四）基于名次和等第的增值评价模型

7.基于名次和等第人数比率增值评价

把学生高一入学成绩名次情况及其高考升学等第情况综合起来做增值评价，称之为基于名次和等第的增值评价。

第一步区域建模。把前三届学生中考成绩（或高一入学成绩）做高低排序，按同样标准划分成几个批段（或等第）；例如前100名为第一个批段，101-200名为第2批段，201-400名为第3批段，401-600名为第4批段……，再计算各批段学生高考各批次上线比率，例如第1段学生的一本上线率A1%，本科上线率A2%，专科上线率A3%；第2段学生的一本上线B1%，本科上线率B2%，专科上线率B3%；第3段学生的一本上线C1%，本科上线率C2%，专科上线率C3%……；最后求出各批段学生高考各批次上线比率平均值（既平均上线率），例如三年的第1段学生一本平均上线率A1%，本科平均上线率A2%，专科平均上线率A3%；第2段学生的一本平均上线B1%，本科平均上线率B2%，专科平均上线率B3%；第3段学生的一本平均上线C1%，本科平均上线率C2%，专科平均上线率C3%……。第二步计算各学校预期人数。把最新一届高一学生按同样标准划为几个批段，分别计算各学校各批段人数，再按各批段学生高考各批次平均上线率，计算出各学校各批次预期上线人数；例如预期一本人数N'1，本科N'2，专科N'3。第三步计算学校增值。三年后，分别统计高考各批次实际上线人数，一本 N1，本科 N2，专科 N3，再依据均量值评价理念，按 ΔN=k1（N1-N'1）+k2（N2-N'2）+k3（N3-N'3）计算各学校增值，k1、k2、k3为权重值。

采取出口成绩与入口成绩比较，可比性很强；采取分批段、分批次数据计算，评价结果比较公正公平，而且信、效度高。学校可以把各批次预期人数作为学校教学质量目标，目标具体清晰，具有导向功能。这种增值评价比较适合高中，不适合义务教育阶段；适合区县对高中学校的教育质量增值评价，不适合学校对班级的评价。

（五）基于分数和等第的增值评价模型

8.基于分数和等第的简易增值评价模型

评价指标主要由后进率、平均分和优秀率构成。区域先按学校的平均分、优秀率和后进率各自排名，把各学校三个指标的名次求平均值，定义为学校教学质量名次平均值N。再按ΔN=N1-N2，将上次的名次平均值减去本次平均值即为增值。

与基于学校总体平均分名次的增值评价模型类似，具有共性的不足，但是评价指标有三个，不再是单一总分排名，指标结构比较合理，评价导向相对全面。简易增值评价模型可以看成阶梯型增值评价模型的最原始版本。

9.基于分数和等第的阶梯型增值评价模型

指标由后进率、T标准分和优秀率构成。各指标按增值情况分为进步、稳定和退步三个阶梯；通常，指标数值变化在某一个阀值内，定义为“稳定”，赋分1分；优于等于阀值，定义为“进步”，赋分3分；劣于阀值，定义为“退步”，赋分0分。将三个指标增值赋分合计成学校总体增值分，用来做增值性评价，评估学校学业成绩动态变化及绩效。

例如:某县有10所初中，2337名学生，校际差异明显。优秀率为全县前20%，后进率为全县后20%；T标准分阈值为正负0.5，优秀率和后进率阈值都为正负3%。增值评价数据如表1。

由表 1 可知，学校 1、2、3、4、5 的增值分特别大，表明进步特别大，应该给予表彰；学校6、7基本稳定，学校8、9、10的增值分等于低于1分，应该督学问责。这种增值评价模型还具有诊断功能，能诊断出进步退步的原因；例如学校5后进率没有进步，学校7的T标准分退步明显，如果把总分和各学科增值数据放在一起，诊断性更加明显。

该模型的指标由后进率、标准分和优秀率构成，定性定量相结合，具有一定的科学性；指标清晰，突出关键指标；计算简单，操作性强。等第划线、阀值确定、阶梯赋分和绩效评定都比较灵活。如果指标阈值做一些调整，可以用于学校对教师教学质量的增值评价。

表1 某县各学校增值性评价量表

三、教学质量增值评价的应用

（一）增值评价内容要全面化

学校教育的目的是培养德智体美劳全面发展的社会主义接班人，不是狭隘的“育分”。要破除“唯分数”“唯升学”，除了对教学成绩做增值评价，也要做学生品德表现、身心健康、兴趣爱好和学业负担等指标的增值评价，引导学校和教师树立科学、全面的教育质量观。尤其要将学业负担纳入学校教育质量增值评价，有利于倡导学校教育教学行为要 “减负高效”。

（二）增值评价指标要结构化

学业成绩是一个复杂的整体性概念，不建议用单一指标来评价。单一指标评价明显会加重 “唯升学”现象，容易导致学校和教师把资源过分倾向优生，忽略后进生教育。所以，既要考虑全体学生的整体水平增值评价，也要考虑优秀生和后进生增值评价。北京市教育督导与教育质量评价中心研究结果与国际项目结论都表明，基于增值性评价的学校增值分与合格率、优秀率和得分率的关系的变化一致。所以，建议采用后进率、T标准分和优秀率组合起来做增值评价。

（三）后进生评价权重要显著化

很多地方和学校过度重视优秀生评价，“唯升学”评价严重。面向全体学生，关爱后进学生，这不仅仅是学校教育的义务，也是教师师德的表现。应加大后进生增值评价的权重，引导学校和教师重视后进生转化，淡化升学教育，从而提高整体教育质量。

（四）评价模型应用要本土化

基于等第的增值评价模型、基于名次和等第的增值评价模型比较适合高中，基于分数的增值评价模型比较适合小学，基于名次的增值评价模型、基于分数和等第的增值评价模型适合小学、初中和高中。相比之下，笔者建议优先选择基于分数和等第的阶梯型增值评价模型。

增值评价模型、指标及其权重都具有强大的导向性。有什么样的评价指标和评价方法，就会有产生一系列相应的教育教学行为。不同学段可以采用不同增值评价模型，即使采取一种增值评价模型，不同年级指标的定义和权重也可以不一样。涉及等第指标的增值评价，要科学设置等第层级和划分标准，既要考虑评价模型的科学性，更要考虑实践的可操作性，也要考虑指标的可接受性。评价的目的不是简单地给学校和教师排名排序，而是要引导学校和教师开展正确的教育教学行为；不被学校和教师理解接纳的增值评价，是低效的评价。如果区域学校很多，应依据办学水平或学校规模进行分类分组，遵循同类可比原则。

区县对学校、学校对教师的教育质量做增值评价，是教育评价发展的必然，符合我国基础教育的国情，也是积极响应新时代教育评价改革的行动。基于本土实际，大胆探索教育质量增值评价，建立本土化、校本化教育质量增值模型，是教育质量监测和教育评价工作者的重要责任。