教师效能的有效评价：路在何方？

2018-03-16刘铁川王闪闪尤晨晨

中小学心理健康教育 2018年7期

刘铁川王闪闪尤晨晨

〔摘要〕由于传统的教师评价方法忽略了学生的起点及背景因素对学习成果的影响，增值评价引起了国内外教育工作者的广泛重视。然而，在研究和實践中增值评价方法的局限也日益明显，尤其美国统计协会关于增值评价使用的声明引起了普遍关注。本文结合近年来国内外增值评价研究的最新观点，分析了使用增值评价模型评价教师效能时的优势与不足，并给出了实践应用时的一些建议。

〔关键词〕教师效能；增值评价；高利害；问责制

〔中图分类号〕G451.1 〔文献标识码〕A 〔文章编号〕1671-2684（2018）07-0011-05

一、引言

传统教师评价方式极少考虑学生基线水平，过分依赖于平均分、优秀率、及格率、排名、上线率等单一的、终结性的指标。然而，很多影响学生最终学业成就的因素不受教师或学校控制，如家庭背景、社会经济地位等。因此，传统的教师评价方式极易挫伤教师的教学积极性，误导教师忽略学习基础差的学生，造成学校之间抢夺生源等恶劣影响。

事实上学生成绩是学生个人、学校、教育政策系统等多个层次上的多种因素相互作用的结果。增值评价模型（Value-Added Models，VAM）可准确区分不同层面、不同因素对学生学业发展所起的作用，并得出各个因素所做的贡献[1]，因此在近年来的教育效能研究中引起广泛重视。目前增值性评价的主要统计方法有概要统计模型（描述统计分析）、多元线性回归分析（将学生或学校层面的各种影响因素纳入到统计模型中加以分析）和多水平分析模型（通常将学生水平作为第一层，学校水平作为第二层）。虽然统计方法不同，但基本思路都是：增值=输出值-输入值。这里的输入和输出指的都是标准化测试成绩，对所有的学校和学生使用相同的程序，再使用复杂的统计模型得出教师的增值分数。VAM中纳入了更多的影响学业成就的因素，使用较复杂的量化模型来分析教师对学生的标准化测验成绩，因此比其他评价方式得到的结果更具客观性和权威性[2]。

英美国家率先引入增值评价模型来评价教师效能，由威廉·桑德斯（William L.Sanders）教授及其团队创立的田纳西州增值评价系统（Ten-nessee Value-Added Assessment System，TVAAS）是最早的也是目前发展比较完善、应用广泛的增值评价系统。紧随美国之后，1967年的“普洛登报告”使教育公平问题受到高度重视，这是英国增值评价的起点。国际上关于教师增值性评价在广度和深度上进行了大量的模型理论探讨和实证研究，在合理利用其优势的同时也在逐步完善和修正它的不足之处，而且越来越重视它在教师评价中的地位。在“力争上游”（Race to the Top）教改计划“再投资法案”（Reinvestment Act）“教师奖励基金”（Teacher Incentive Fund）等政策的支持下，更多的学校把VAM纳入到教师评价框架中。经济合作与发展组织（OECD）主导的教育系统国际指标项目（INES）也考虑将“增值”评价方法纳入到国际教育指标系统，以增强国际间学校效能的比较指标的效度，并于2008 年出版了专题报告《测量学习成果的改进：评价学校增值的最佳实践》，拟在成员国范围内推广教育增值评价方法。

国内关于教师增值性评价的研究起步较晚，进展缓慢，理论研究不多，大多是对国外教师增值性评价研究现状的述评[3]。我国2001年起陆续有学者研究田纳西增值评价体系、增值在国外的应用及对我国的启示等。2009年后，相关的实证研究增多，从大量相关研究中足以看出我国学者对增值评价的研究热情和增值评价在我国应用的趋势。比较有代表性的有王家美等人以江西省上饶市30所高级中学语文学科的评估为例做的增值评估的实证研究[4]；熊志权和杨煌（2016）以珠海市香洲区4年的实践为例，进行了增值评价的背景意义、实践效果以及研究困惑的研究；彭湃就教育效能实证研究的前沿方法进行了系统的研究[5]。

增值评价方法的发展，尤其是评价教师效能的使用，已经在教育领域引起了广泛的关注并且成为了研究热点。边玉芳称增值评价为一种绿色升学率理念下的发展性学校评价模式。2000年我国香港特区政府开始以增值评价法为基础建立香港学校增值资料系统（School Value Added Information System，SVAIS），每年为学校的发展提供年度研究报告。刘娟等人指出，基于增值评价的理念开展学校效能评价，对于推进绿色评价模式发展，科学、客观地评价学校教育教学成效具有重要意义[6]。VAM的优势得到了普遍认同，然而其用于高利害决策时的局限很多教育工作者并未有深刻认识。

二、应用增值评价面临的问题

本研究主要围绕美国统计协会（ASA）声明的内容进行展开论述，通过介绍国内外VAM的最新研究现状，细致分析其存在的局限，并给出教师效能评价中使用VAM时的一些建议，期待能引起相应教育研究与实践工作者的重视。

ASA声明内容主要体现在以下几个方面。

（1）ASA支持用以提升教育质量的数据、统计模型和实验设计的明智使用。

（2）VAMs是复杂的统计模型，需要高水平的统计专业人员来发展这个模型和解释他们的结果。

（3）使用VAMs估计方法应附有精确的方法、假设的讨论及模型局限性，尤其是将VAMs使用在相关性特别高的高利害目的中时。

（4）应该在质量改进方面看待VAMs。VAMs能够把归因于该评估系统的效应同归因于个别教师、教师资格教育或者学校的效应区分出来。大部分的VAM研究发现在测验分数中教师占这些变异的1%～14%，而在系统水平条件下教学质量有很大提升空间。如果仅通过他们的VAMs分数排名，教师可能意外地降低教学质量。

（一）增值评价的误差分析

1.使用时达不到理想条件

VAM的典型做法是使用回归模型的形式预测来自不同背景（包括先前的测验分数）的学生的标准测验得分或者增长，在模型中包括教过这个学生的教师。如果一名教师的学生相对于其他有相似起点的学生有更高的成就增长，那么该教师就有一个高的增值得分。

在理想条件下，VAM所使用的测试内容应该在广度和深度上完整测量学生成就。然而，在实践中没有测验满足这个严格的标准。增值评价最终能否改善或者破坏教师评价效果取决于VAM指标能否精确识别个别教师对学生学习的影响并因此提供教师效能的可靠测量。在技术和实施方面，VAM能够做到这一点必须满足几个条件。

（1）反映出学生成绩的测验能够很好地测量学生的学习，学生的实际成就沿着一个垂直量表，能够全面表现出测量相等时间间隔的可能成就。

（2）校内或校际间学生随机分配给教师，即分配给一名教师的学生群体的学习条件及特征和分配给其他教师的没有本质区别。

（3）用来测量增长的这段时期教师是惟一影响学生学习的因素。

当然，这样的假设不成立，测量学习增长的误差的程度和把他们归因于一个特定教师的程度取决于他们多大程度上违反了这些条件以及统计方法多大程度上能够补救这些问题。一个学生一段时期给定一个科目的学生成绩除了和个别教师有关外，还和很多因素都有关系：学校因素，例如班级规模、所选课程、教学时间、可用的专家、导师、书籍、计算机、实验室和其他资源；之前的教师和学校，其他现在的教师之间专业学习和协同计划的机会；同伴文化和成绩；家庭因素，例如父母协助家庭作业、保障饮食和住宿的能力、身体或者精神上的支持或虐待等；个体学生需要、健康和出勤率。鉴于所有这些对学习影响的因素，教师在学生成就变化中只占很小的比例也不足为奇了，一般估计低于10%。

2.模型调整不足引起的误差

ASA指出从班级差异水平计算VAM分数，在回归模型中通过背景变量是无法解释的。这些班级差异水平可能是来自不包括在模型中的其他因素（例如，班级规模、教授特殊需求學生或者有接受课外辅导的学生）。作为教师贡献的一种测量，VAM分数的效度取决于采用的特定的回归模型多大程度上能够调整那些产生系统影响的其他因素、偏差和教师的VAM分数。例如，天才学生或者在测验分数中表现收益更少的残疾人，如果模型不能准确地考虑到他们的情况，可能导致有偏差的VAM分数。

即使使用连续几年的数据计算并且在最好的条件下建模，VAM分数本身还是有很大的标准误，从而使排名不稳定。一方面结合连续几年的VAM可以减少VAM得分的标准误。另一方面，当一个模型系统地低估那些工作在特定的环境或者服务特定类型学生的教师效能时，多年的数据对引起的问题并不起作用，因为系统低估将会出现在每一年的数据中。

3.随机误差

随机误差意味着增值测量随时间的不同而产生的不稳定性。例如，假期前的分数不能预测学生假期后的分数（假期是否学习）。如果VAM偏差很大或者不可靠，可能导致错误的人事决策和资源分配，可能阻止有教师择业意向的人进入这个行业。尽管从统计学家的观点来看VAM测量有可接受的属性，对从业人员而言其复杂的计算和固有的变化性能够降低表面效度。以Corcoran 为代表的悲观主义论认为，VAM测量缺乏透明度并且不精确，所以关于VAM测量显著提高教学效能和专业质量的潜能显然是被夸大了。信度是指研究的方法、条件和结果的可重复性、可验证性。一些偶然误差，例如标准化考试测量误差、学生考试期间生病、某一年分配给教师的生源差别大等可以解释教师增值的不稳定。研究发现，学校增值在不同学科间一致性程度较低，基于同一届学生计算的学校增值在不同年份中缺乏稳定性。

（二）问责制下的增值评价

1.滥用的后果

Margaret Wu在针对把学生的测验分数和教师问责联系起来这种现象明确指出了统计滥用的后果。他指出教师问责制不能通过学生测验分数来建立，因为推断是猜想而不是证据，而且推断总是有误差的。即使控制了学生的社会经济地位，仍然有学校控制之外的其他因素。对于一个有学习困难的学生，即使它的误差很小，但是用于评价教师也是无效的，因为与教师表现关系不大。单独使用统计推断不能用作任何高利害决策，因为测量得到的是团体效应而不是个体效应，且统计推断并不意味着采用大量的例子，而是在缺乏其他证据的时候来提供支持的证据。

2.用于决策还是筛选

VAM可能是表现得相对有用的指标，能够分离出非常高或非常低表现的教师。校长可以充分利用这种信息作为一个早期预警信号或者在极端情况下作为解雇的理由。然而对大量教师来说，VAM作为工作绩效指标的使用又是另外一件事情。鉴于VAM固有的不稳定性，在高利害系统使用VAM需要保守的设计，比如惩罚和奖励只针对那些明显非常高或非常低的表现，以及统计一个不确定性的可接受的低水平。一个满足这些保守标准的VAM系统最后只用在极端的案例中，而对大部分的教师只能提供很小的反馈。这就引出一个问题：除了能够识别出最差的教师外，VAM还能为校长和其他教育工作者做什么[7]？

三、质量改进和增值模型

（一）加强公众对增值评价的统计数据的了解

对于VAM分数是怎么来的，为什么能够用来评价教师对学生成绩增长的贡献，我们要让被评价的教师理解这种评价方式。可以通过开发和改进用于教育的统计模型，在设计实验和解释统计结果中提供指导，应用专业知识帮助指导存在不确定性时的判断。VAM是复杂的统计模型，需要高水平的统计专业知识，尤其是当VAM成为高利害问责制的一部分时需要使用良好的统计实践进行解释，包括模型假设，模型与数据的吻合程度如何，模型各方面估计的灵敏性以及报告估计精度的方法，如置信区间或标准误等。当然不能完全单纯依赖于统计数据，VAM分数在统计特性上足够良好不代表就是完美的，我们也要结合使用其他工具。

（二）结合使用其他评价工具

增值使用的一个重大转变是作为一个“筛选过程”。增值测量可以用来最初识别表现有问题的教师，但是最后决定表现则应该是基于收集的其他信息（例如课堂观察）。筛选方法能够避免数据缺失问题和解决教育者对增值测量的其他担忧，比如增值可以作为防止无度和可提高信度的制衡系统的一部分[8]。教师增值可能不能完全考虑学生追踪数据（学生转入和转出班级），这样结果就更不稳定。因此可以把教师作为教师团队中的一员来评价，即合作教学的增值评价方法，因其包含更多的学生信息而避免了数据追踪问题，能够减少系统和随机误差，还可促进每一个团队内的教师之间的合作和协调。另外还可以结合使用学校校长观察和同行评议[9]，或者选择能得到及时的反馈信息从而有助于提高教学质量的课堂观察。

（三）增值评价学校等级和学生层次的应用建议

大部分的增值研究关注小学，对中学和高中教师有一定的挑战性[10]，因为在小学阶段都是同一名教师参与学生大部分的学习时间，因此，更容易把阅读和数学成绩归因于该教师。蒂莫西·罗杰斯通过研究指出，中学教育中应用到的增值测量技术与用来测量高等教育增值的比较增值法（CVA）类似，并且高等教育增值测量需要更加复杂的技术。张文静等人用增值法做了教师变量对小学四年级数学成绩的影响的研究[11]；杜屏和杨中超基于我国西部五省农村初级中学学校效能调研数据的实证分析，在分析学校效能差异基础上进一步提出了学校是通过学校生源质量、教育教学水平、办学基本条件共同作用的[12]；吕菲（2014）和杜庆（2015）对增值评价法在高职教师专业发展中的应用做了一个理论的分析；谷明非（2014）对本科生学业成绩增值评价的可行性分析中发现，将增值评价应用于本科生学业成绩评价的可行性比中小学评价的可行性小得多。当在学校间比较标准测验的学生表现时要考虑到学习内容，增值的概念在高等教育研究者和学校间存在颇多争议，尽管学校对学生学习有重大责任，但是也受学校控制之外的学生动机、学业投入、大学准备度和职业抱负的影响。当增值排名的结果对学校有一个深远的影响时，我们提醒利益相关者谨慎解释增值分数以及学生学习和学校效能之间的关系[13]。

国内许多学校班级之间存在明显的分层现象，如普通班、重点班、特优班等，那么增值性评价是否同样适用？标准化考试中的“天花板效应”即高分群体增值不明显，这就可能引导教师更关注那些低分群体。这也有助于生源较差的學校找到自信，只是如何对高起点的学校进行增值评价又成了一个问题。

（四）妥善解释增值分数结果

原则上每一名教师每一年有一个真实的增值分数，但是我们从未看过“真”分数，而是在合理分数范围内的单一估计。合理增值分数的范围——置信区间——能使得许多教师的分数区间或者排名大大重叠。因此，我们不能轻易识别许多教师真实的增值分数。当基于增值对教师进行分类时可能出现两种解释性的错误：对在某种百分比之上但是却被错误地归类为之下的教师的“假识别”（false identifications）；对实际上在某种百分比之下但是被错误归类为之上的“假非识别（false non-identifications）”。错误识别教师为阈值之下对教师是有风险的，但是不能识别真正的无效教师对学生是有风险的。通过以下程序可以鉴定真实的增值分数对分类的潜在错误的贡献有多不确定。首先，指定你愿意忍受的错误程度，你希望识别的教师群体；然后确定误识别的分数；最后，指定这一年和下一年增值分数之间的相关[14]。大多数现实世界中的设置，不确定的程度将导致相当大的教师错误分类比例。

我们需要进一步了解包括增值测量技术性能的大量信息，比如这些测量如何应用于实践，包括学生对教师的分配、更激励性的数据收集的目标和结合其他测量等。是否和怎样使用VAM取决于实际情况，如政策灵活性和选择的反响、信息的相关性、测验知识和技巧的重要性以及VAM的花费、系统计算增值和收集其他信息的能力等[15]。

四、总结

我们不能集中关注VAM的已知缺陷而认可其他教师评价的方法，没有评价工具是完美的，每一种评价体系都是各种不完美的测量组合而成。对于教师表现的测量，挑战在于如何提取并结合从其他工具得到的信息[16]。我国学者胡咏梅也看到了美国教师评价的新趋势，对相对评价、增值评价与课堂观察评价的融合进行了分析[17]。尽管结合多种测量工具会使测验结果信效度更高，但是考虑到涉及的方法越多，程序越繁琐，因此，应当谨慎选择测评工具。因为要分离出影响学生学业成绩的教师层面的因素并且原始分数要转化为标准测验分数才具有可比性，所以本土化教育增值评价的研究趋势涉及两个方面的统计技术，一是多层线性模型，二是等值技术。

最后，增值评价在我国不管用于高利害目的还是低风险目的，都没有相应的法律条文明确它的使用。教育研究者对VAM的重视，教育和评估项目信效度的法律义务需要教育决策者进行进一步研究。与此同时，社会科学工作者也应该拿出更多关于VAM信效度和它的潜在使用的有说服力的证据。对于公共决策者，实施高利害决策的建议是不成熟的。不管它在法律上是否是站得住脚的，VAM作为一个工具对教育改革都有相当大的局限性[18]。总之，我们的最终目的不是评价，而是要提高教学质量。

参考文献

[1]边玉芳，王烨晖. 增值评价：学校办学质量评估的一种有效途径[J]. 教育学报，2013（1）：43-48.

[2]American Statistical Association. ASA statement on using value-added models for educational assessment[M]. Alexandria：VA，2014.

[3]边玉芳，孙丽萍. 教师增值性评价的进展及在我国应用的建议[J]. 教师教育研究，2015（1）：014.

[4]王家美，戴海琦，周延.教育增值评估的实证研究——以江西省上饶市 30 所高级中学语文学科的评估为例[J]. 中国考试，2009（9）：3-9.

[5]彭湃，胡咏梅. 学校增值的一致性与稳定性——基于多水平追踪数据的实证研究[J]. 教育研究，2015， 36（7）：73-80.

[6]刘娟，高振华，卢志舟，马春环，李鹏，增值评价在学校效能评价中的应用[J].教育测量与评价，2015（10）：18-22.

[7]Corcoran S，Goldhaber D.Value added and its uses：Where you stand depends on where you sit[J]. Education，2013， 8（3）：418-434.

[8]Harris D N，Herrington C D. Editors Introduction：The Use of Teacher Value-Added Measures in Schools New Evidence，Unanswered Questions，and Future Prospects[J]. Educational Researcher，2015， 44（2）：71-76.

[9]Harris D N. Clear away the smoke and mirrors of value-added[J]. Phi Delta Kappan，2010， 91（8）：66-69.

[10]Harris D，Anderson A.Does value-added work better in elementary than in secondary grades？[M]Washington，DC：Carnegie Knowledge Network，2013.

[11]张文静，辛涛，康春花.教师变量对小学四年级数学成绩的影响：一个增值性研究[J]. 教育学报，2010（2）：69-76.

[12]杜屏，杨中超.农村初级中学学校效能的增值性评价——基于我国西部五省调研数据的实证分析[J]. 北京师范大学学报：社会科学版，2011（6）：91-97.

[13]Liu O L. Value-added assessment in higher education：A comparison of two methods[J]. Higher Education，2011， 61（4）：445-461.

[14]Raudenbush S W，Jean M. How should educators interpret value-added scores？What We Know Series：Value-Added Methods and Applications. Knowledge Brief 1[J]. Carnegie Foundation for the Advancement of Teaching，2012.

[15]Loeb S. How can value-added measures be used for teacher improvement？What We Know Series：Value-Added Methods and Applications. Knowledge Brief 13[J]. Carnegie Foundation for the Advancement of Teaching，2013.

[16]Ballou D，Springer M G. Using Student Test Scores to Measure Teacher Performance Some Problems in the Design and Implementation of Evaluation Systems[J]. Educational Researcher，2015， 44（2）：77-86.

[17]胡詠梅，施世珊. 相对评价，增值评价与课堂观察评价的融合——美国教师评价的新趋势[J]. 比较教育研究，2014（8）：008.

[18]Pullin D. Legal Issues in the Use of Student Test Scores and Value-added Models（VAM）to Determine Educational Quality[J]. education policy analysis archives，2013， 21（6）：06.

（作者单位：1.赣南师范大学教育科学学院，赣州，341000；2.南昌大学体育与教育学院，南昌，330000）