基于学生成绩的教师教学质量及其经济价值＊

2022-03-03雷万鹏马红梅

华东师范大学学报（教育科学版） 2022年3期

雷万鹏马红梅

（华中师范大学教育学院，湖北省基础教育研究中心，武汉 430079）

一、研究问题与相关文献

“教师是教育发展的第一资源”。提高教师队伍的教学质量是一项具有巨大潜在经济价值的工作（Hanushek，2014）。Hanushek （2011b）的研究结果显示，若将一名教学质量位于50分位的中等水平教师（an average teacher）替换为69分位的“好教师”（good teacher），一个20人规模的班级学生的收入将增加一万多美元。若将末位5%-8%的教师的教学质量提升到均值水平，美国学生在PISA考试中的数学和科学成绩排名可以位居世界前列，其经济价值约100万亿美元（Hanushek，2011a）。Chetty，Friedman和Rockoff （2014b）基于一个大型城区680多万师生匹配数据的研究发现，将教学质量末位5%的教师替换为中等水平的教师后，学生上大学和上好大学的概率会更高，全班所有学生在28岁时共增收25万美元。

让优秀教师“下得去、留得住、教得好”是全球教育政策实践共同关注的议题（Hanushek，Rivkin，2006；Rivkin，Hanushek和Kain，2005）。就“教得好”而言，常见的做法是利用经济手段激励教师（Cowan，Goldhaber，2018；Duflo，Dupas和Kremer，2011，2015；Pham，Nguyen和Springer，2020；Shifrer，Turley和Heard，2017；薛海平和王蓉，2016）。各国普遍采用学生成绩评价教师教学质量，根据学生成绩可以构造出很多不同指向的指标，如均分、优秀率、分位距、标准差、变异系数等，而将这些指标作为考核教师的依据必将导致教师迥异的教学行为（Chang等，2020；Loyalka等，2019；常芳等，2018）。美国曾用学生标准化考试达标率评估教师，导致部分教师在统考前劝阻后进生参加考试（Jacob，Levitt，2003）；我国中小学常用班级均分、优秀率等指标考核教师，由此引发教师选择性忽视基础较差的学生，导致教学过程的不公平（雷万鹏，马红梅，2019）。

如何评价教师教学质量是一个争议较大的问题。学者们尝试多种方法将学生成绩与教师特征进行关联，以探究什么样的教师可以更好地促进学生成长，但学界尚未就“何为优秀教师”达成共识。在此背景下，残差分解（error component analysis）技术为科学评价教师教学质量和绩效评价提供新的路径（Goldhaber，Brewer和Anderson，1999）。利用学生成绩残差评价教师教学质量的基本原理是：尽可能控制个体特征、家庭背景、教师特征和学校特征等影响学生成绩的因素，学生成绩的预测值与班级均值之间的差值可归因于教师教学质量差异，有的学者称之为“教师效能”（teacher effectiveness）①。

有关学生成绩残差预测技术，教育学领域多采用多层线性模型来预测学生成绩，在此基础上构造和分解学生成绩残差（Blazar，2015；Milanowski，2004；Muñoz，Prather和Stronge，2011；Stronge等，2007；Subedi，Reese和Powell，2015；梁文艳，杜育红，2011），经济学领域倾向于将增值理念嵌入到固定效应模型中，通过残差分解方法探讨教师教学质量（Chetty，Friedman和Rockoff，2014a，2014b；Hanushek，Rivkin，2010a，2010b；Rothstein，2010）。然而，利用以上两种方法评估教师教学质量往往忽视了同一学生各科成绩间的相互影响。学科间的相互影响可能通过以下两种机制发挥作用：①各科成绩之间正相关，这种情况可能反映了学生智力水平、思维品质和学习策略等不可观测的个体特征对不同学科成绩的一致性影响；也可能反映了通识技能与专门技能间的相互促进，如解答数学题的前提是具备基本的阅读理解能力，而理解带有数理推理性质的文字材料时需要具备数学知识和技能；②各科成绩之间负相关，学生用于学习的总时间是既定的，用于不同科目学习的时间具有竞争性，面临资源稀释问题；同时，现实生活中学生偏科现象也较普遍，这也可能导致不同科目的学习时间投入此消彼长。

忽视学科间的影响可能导致较大的遗漏变量偏误，解决此问题的方法有：①在截面增值模型中控制其他科目成绩（Hanushek，Piopiunik和Wiederhold，2019）；或利用追踪数据计算学业增值水平，即纵向增值模型。相对而言，采用前一种方法的优势更明显：因为研究者可以很容易地在同一时点收集学生不同学科的成绩，而后一种方法需要在不同时点收集同一学科的成绩，难度较大且成本较高；②在控制其他学科成绩的基础上，利用误差相关模型（correlated random effect，以下简称“CRE”）进行分析。

二、数据和方法

（一）数据和样本

本研究所用数据由课题组在湖北和广东两省22个县区采集。课题组采用多阶段整群抽样方法调查了74所学校的645名教师和4 200名学生。被抽样的87个班级的所有学生参与问卷填写和纸笔测试，被抽样班级的部分任课教师参与了教师问卷的填写。在数据处理过程中，我们根据教师任教的主要学科确定其学科归属，同时兼任多门课程的教师以其主授科目为准，且每名教师只与一个班级对应。本次调研的语文、数学和英语三科教师样本分别为181人、153人和159人，其他学科教师149名，后者因没有对应的学生学科成绩而没有纳入分析过程。能与班级匹配的教师样本共237个，在班级匹配基础上，语文、数学、英语三科的任课教师人数分别为75人、70人和69人。根据有效答题信息来筛选，最终纳入分析流程的语文、数学、英语教师人数分别是42人、40人和38人。

参加调研和测试的学生分别是2 230名小学5年级学生和1 920名初中8年级的学生，因试卷内容不同，原始分数不具有可比性，语文成绩（C）、数学成绩（M）、英语成绩（E）经过了两次转换。笔者先分学段将各科成绩的原始标准化为均值为0、标准差为1的Z分数，然后按照国内计分习惯将其转换为服从均值是70、标准差是10的分布。

在预测学生成绩的完整模型中（公式3—公式5），控制变量Z包括学生性别、所在年级、监护人是否陪读、是否受到校园欺凌、父母受教育水平和职业及其外出务工类型等变量；T包括教师受教育年限、教龄及其在本校的工龄、职称、编制、幸福感和职业归属感；H包括学校区位、办学类型、学校所在地区是否曾经是贫困县等变量。

（二）分析方法

在获得学生s个学科成绩（As）及各科任课教师特征（Ts）信息的情况下，将其转置成“学生—学科”伪面板数据，并利用固定效应模型消除学生不随学科而变的不可观测特征的影响，得到“学生内学科间估计”（within-student-across-subject estimate）。不过，“学生—学科”固定效应隐含了一个强假设：自变量X对所有学科的影响完全一致，但实际上X在学科间可能存在异质性。CRE放松了X对各学科的影响相同这个强假设，但它本质上是固定效应模型的一个特例（Ashenfelter，Zimmerman，1997），这种方法在国内教育研究中尚未得到充分应用。

本研究涉及学生的语文成绩（C）、数学成绩（M）和英语成绩（E），因此，s =1,2,3时，分别对应C，M，E。如公式1所示，第i个学生第s个科目的成绩As受到其他两个科目（As′和As′′）的影响，学生个人特征Z、任课教师特征T及他们所在学校的特征H是控制变量的向量。与多数教育生产函数研究不同的是，公式1中的误差项包括学生个体效应δ和随机误差项ε两部分。前文已述，标准的固定效应模型允许δ与解释变量相关，Z和H中不随学科而变的变量（如学生性别、学校整体办学质量等）最终被差分后销项，但固定效应模型没有处理学科独有的变量在不同学科间的异质性及其相互作用问题。

公式2将公式1中学生个体效应δ进行拆分，允许各变量对三个学科的影响不同，但学校特征不随学科而变（subject-invariant），H向量无需拆解，在公式2中没有对应的项。公式2中产生了同一学生的三个学科间共有的残差项ωi。ωi较好地解决了学科间相互影响的问题。而三个学科各自独有的（subject-specific）误差项可以合并到公式1的误差项中，笔者将这两部分记为（详见公式3—公式5）。

为更直观地理解CRE的完整模型，笔者将公式2带入公式1，将语文（AC）、数学（AM）和英语（AE）三个学科的方程分别列出。需要说明的是，学生各学科成绩与教师任教学科之间需满足匹配关系，如不用语文教师和英语教师的特征解释学生数学成绩（AM），因此，在将公式2合并到公式1而得到公式4时去掉了，如公式4所示，在解释数学（AM）成绩的差异时，学生的语文成绩（AC）和英语成绩（AE）均得到了控制，即CRE所得结果在学生其他两科成绩既定的情况下考察第三个科目成绩波动情况，可以通过似无相关回归得到。

后文分析均都立足于CRE所得结果。根据公式3、公式4和公式5，笔者分别对语文、数学和英语三个学科的方程求解后得到各科成绩的预测值，通过对照各班各科成绩均值可以得到残差值②，最后以班级为单位对进行加总平均得到的。被视为任课教师教学对他所教班级每个学生的学业发展水平的贡献。还可以被用作结果变量进一步探讨教师对哪些学生的学业成长影响较大，如哪些学生的学业增值更可能低于预期水平？成绩增值水平高的学生由具备哪些特征的教师所教？而作为教师教学绩效指示器也可以进行换算或排序，还可以将其作为结果变量进一步甄别哪些因素影响教师的教学质量等。

综上所述，残差的构造和分解过程是分析教师效应的关键，也是基于学生成绩评估教师教学质量的核心步骤（雷万鹏，马红梅和黄华明, 2021）。而且，这种方法不仅适用于评价教师对学生认知能力发展的影响，也可以考察教师对学生情感、态度等非认知能力方面的影响。

三、研究结果

（一）教师教学质量的差异

表1报告了基于CRE结果的各学科间相互影响，从中可以看出，各科成绩之间显著正相关。从学生学业发展的角度看，不同学科的学习间能相互促进（Graham，Kiuhara和MacKay，2020）；若用学生成绩评判教师工作业绩，则教师的教学效果中有一部分来自同事的正外部性（Opper，2019），即不同学科教师的教学具有协同性（Koedel，2009；Yuan，2015）。公式3、公式4、公式5的误差负相关，公式3和公式4的误差相关系数是-0.282，公式3和公式5的误差相关系数是-0.307，公式4和公式5的误差相关系数是-0.333，Breusch-Pagan检验卡方值是460.630（p＜0.001）。这说明，以学生成绩作为因变量的研究需要将其他学科的成绩作为控制变量。

表1 各科成绩间相互影响

笔者先计算每个学生的成绩预测值及其与班级成绩均值之间的差值，然后在班级层面加总平均得到。即教师教学对全班学生学业增值的贡献（Goldhaber，Brewer 和 Anderson, 1999：pp. 200-203；梁文艳和杜育红，2011：pp. 112, 116-117），也就是本文界定的“教学质量”（详见表2）。基于上述残差分解过程得到的结果，笔者得到以下几个结论：

第一，班级均分这个常用的指标对教师教学质量的预测存在较大偏差。笔者将所有小于零和等于零的归为低效教师，而大于零的被视为高效教师，发现有大量增值水平高的高效教师所教班级的原始成绩均分远低于样本均值，同时有大量增值水平低的低效教师所教班级的原始成绩均分高于样本均值。在田野调查中，这两类情况正是校长或教育管理部门认为不合理的现象：很多教师或学校工作做得很出色，将学生培养到远远超出本应达到的预期水平（即图1、图2和图3中纵轴上“0”值以下的绿色实心圆点），但得不到现有评价方式的认可，挫伤了教师的工作积极性。换言之，前一种情况涉及的教师没有得到公正评价，而后一种情况涉及的那部分教师享受了本不该享有的制度红利（即图1、图2和图3中纵轴上“0”值以上的红色空心圆点），而这部分“租”源自当前教师评价制度不完善。

图1 语文教师的教学质量差异

图2 数学教师的教学质量差异

图3 英语教师的教学质量差异

第二，基于CRE方法的教师教学质量评价准确度较高，此结论与Hanushek和Rivkin（2010b）的研究结论基本一致。表3是参照有效样本的标准差（见表2）将进行效应量折算的结果。其中，等于均值时，教师教学质量被视为中等水平、10分位是低质量教师、60分位代表中等偏上的教师、69分位和84分位分别表示高于均值半个标准差的“好教师”和均值以上一个标准差的“优秀教师”（highperforming great/excellent teacher）。例如，将教学质量处于中等水平的教师替换为一个优秀教师，他教的学生语文、数学和英语成绩整体上提高0.36-0.59个标准差；将其替换为一个69分位的“好教师”，全班学生三科成绩将提高0.16-0.33个标准差。Wöessmann（2016）的研究结果显示，学生一年的学习成果相当于在上一年的基础上增值0.25-0.30个标准差。因此，就本研究的样本而言，将教学质量平均水平教师所教班级交给一名“好教师”，该班学生的学业增值程度约相当于学生多学一年的知识。Chetty,Friedman和Rockoff （2014a）利用760多万条师生匹配记录的分析发现，当一名高增值水平的“好教师”调离学校时，优质师资流失的不良后果立刻会显现，学生学业水平急剧下滑；而一名低增值水平的教师离职后，他任教的班级后续几年的成绩逐步提高。

表2 学生成绩与教师教学质量

表3 教师教学质量的差异

除了各科教师教学质量的均值（表3第1列）外，笔者还参考了Hanushek（2011a，2011b）用到的几个分位数（受表宽限制，笔者省略了所有分位点上的比较结果，再将更详细的结果投射到图4上）。

笔者计算了中等水平教师、最优秀教师和最低质量教师的教学效应量差异，结果显示，最优秀教师比最末端的教师教学质量高2.4-2.9个标准差；排位末端10%的教师的教学质量若能达到均值水平，全班学生的整体进步相当于两年多的学习收获。需要指出的是，这种极值置换分析需保持谨慎，那些教得了好学生的优秀教师不一定教得好后进生。

（二）教师教学质量的经济价值

Hanushek（2010a）曾对美国教师教学质量的经济价值做了推算，推算过程中用到了以下假设：知识有30%耗损率且成绩高于均值一个标准差的学生毕业后年收入高10%-15%。由于国内尚无类似的可参照标准，笔者按照Hanushek（2010a）的假设对我国教师教学质量的经济价值进行了大致估算。假设学生大学毕业后22岁起参加工作直到60岁退休，那么，由末位10%的低质量教师所教且规模为33人③的8年级班级换成一位中等水平的教师教后，全班学生终身收入增值至少是27万元。图5呈现了Hanushek（2010b）提到的几个关键分位数对应的教师教学质量之经济价值。若将最差的教师提升到最优水平，全班学生总增收至少43万元；若将班级规模设定为本研究中最大的64人，低质量教师给全班学生造成的终身经济损失至少52万。

图4：教师教学质量高于中位数水平时所产生的经济价值

图5：教师教学质量高于中位数水平时所产生的经济价值

如表4所示，假设一名教学质量处于69分位的“好教师”任教一个班额49人的班级且每年只教一个班，在教师任教的职业生涯期内（假设教师22岁从教，60岁退休），该教师一生为受教于他的所有学生带来的收入增值比一名中等水平教师高425万元以上。教师“教得好”可以释放巨大的经济能量。

表4 教师教学质量的经济价值（万元）

四、结语

笔者在实地调研过程中深感教师教学质量评价方法改进的紧迫性，本文借鉴教师绩效评估的新理念，采用误差相关模型预测学生成绩，利用残差分解技术探讨了教师教学质量评价的新思路。在剔除学生个人及家庭、学校和教师特征等因素的影响后，每个学生的成绩预测值与班级均值的差额被视为任课教师对学生个人学业的影响。如果此残差值为正，学生的实际成绩高于预期水平；如果此残差值为负，学生的实际成绩低于预期水平。将全班学生的成绩预测值与班级均分间的残差值加总平均到班级层面即教师对全体学生学业发展的贡献。班级层面残差值为正，则该教师总体上实现了“有效教学”，而班级层面残差值为负或零则表示教师教学水平较低。

研究结果显示，教师教学水平的个体间差异较大，最优秀教师比最差教师的教学效能高2个标准差以上；69分位的“好教师”比平均水平的教师给学生带来的学业成长值约高0.2-0.3个标准差，相当于学生多学一年的学习所获；一名教学质量前16%的优秀教师比平均水平教师的学业增值贡献高0.4-0.5个标准差，相当于学生一年半的学习所获。文章按照Hanushek提出的方法对教师教学质量的经济价值做了测算，结果显示，“好教师”整个职业生涯给所有教过的学生带来的收入增值至少高425多万元。高水平教师的社会经济价值巨大，这进一步表明提高教师质量是发展公平而有质量教育的重要支撑，也凸显了科学评价教师质量和绩效的重要性。