破解教育生产“黑箱”：教育生产函数研究的评述与展望＊

2020-09-17李波黄斌

华东师范大学学报（教育科学版） 2020年9期

李波黄斌

（南京财经大学公共管理学院，南京 210023）

一、研究背景与问题

近五年来，教育学领域正在掀起一股实证研究浪潮，我国教育实证研究正处于一个由量变到质变的转折点。以华东师范大学举办的“全国教育实证研究论坛”为标志的教育实证大会，经过五年的持续组织和推进，为教育实证研究学者营造了良好的交流平台，极大地促进了我国教育科学事业的发展。当前我国教育领域对实证研究的重要性已基本达成共识，教育研究范式逐步转型。但诸多问题也相伴而生，如研究方法的误用、研究设计和步骤不严谨、重参数估计而轻统计检验、估计结果报告错误、简单套用和移植已有研究、调换数据的重新验算和重复发表等问题亟待解决。本文以教育生产函数实证研究为研究对象，通过对比近五年和以往国内外实证研究，探寻近五年教育生产函数实证研究取得的进步及存在的问题，并对我国未来教育生产函数实证研究进行展望。

教育学将人类教育活动作为主要研究内容，经济学是研究稀缺资源配置的学科。在教育经济学出现以前，经济学和教育学鲜有关联和互动。教育生产函数是将经济学和教育学相融合的完美典范，其依据微观经济学的厂商理论，通过建立生产函数来研究各种投入要素对教育产出的影响。教育生产函数是教育经济学这一学科研究的重点问题，更是破解教育生产“黑箱”的有力工具。Cohn & Geske（1990）在其撰写的《教育经济学》教材中指出：“合理地估计和解释教育生产函数也许是经济学家为教育所作的最重要贡献”。最早的教育生产函数研究可追溯至1966 年科尔曼报告。1966 年科尔曼（Coleman）基于美国4000 所学校64 万名学生的大规模调查，向美国国会递交了《关于教育机会平等性的报告》（又称科尔曼报告）。报告发现影响学生成绩最关键的因素不是学校质量、师资水平、学校设备等学校投入，而是与学生家庭背景相关的家庭投入。科尔曼报告对以往学术界广泛认同的，学校对学生学业成绩起决定性作用的认知形成了重大冲击，引发了学术界激烈讨论。后续汉纳谢克（Hanushek）、克鲁格（Krueger）等众多学者，通过教育生产函数寻找学生学业成绩的决定因素，并涌现出了大量的研究成果。

本文根据中国知网和Web of Science 对近五年来教育生产函数相关领域研究成果进行可视化分析，所检索数据库包括中文社会科学引文索引（Chinese Social Sciences Citation Index，CSSCI）、社会科学引文索引（Social Science Citation Index，SSCI）、中文和英文权威期刊①。

由于教育生产函数关注各种教育投入对教育产出的影响，仅以“教育生产函数”为主题进行检索，会遗漏大量既有研究成果。本文以“教育生产函数”“家庭投入”“学校投入”“课外补习”“父母参与”“学校资源”“教师工资”“班级规模”“学业成绩”和“实证研究”等主题进行中英文检索，结果如图1 所示。剔除重复和不相关文献发现2015—2019 年共有SSCI 论文3321 篇，英文权威论文356 篇；CSSCI论文768 篇，中文权威论文227 篇。近五年，英文论文数量保持相对平稳，SSCI 和英文权威论文年均发文量为664 和71 篇。中文论文数量呈现小幅上涨趋势，CSSCI 和中文权威论文由2015 年的139 和37 篇，上升至2019 年172 和57 篇。近五年中文实证论文发文量的上升，体现了国内教育学领域学者对实证研究的逐渐重视，全国教育实证研究论坛对我国教育研究范式的转型发挥了积极的推动作用。

图1 2015—2019 年教育生产函数实证研究趋势图

通过Web of Science 对近五年英文期刊国家的发文量进行分析，如图2 所示。近五年在SSCI 和英文权威期刊发表中，美国在教育生产函数研究领域处于世界领先地位，在SSCI 和英文权威论文数量上分别为1756 篇和140 篇，具有绝对优势。德国、澳大利亚、中国和英国属于第二梯队，SSCI 论文分别为186、180、168 和165 篇；英文权威论文分别为38、40、25 和33 篇。加拿大、荷兰、西班牙和意大利属于第三梯度，发文数量相对较少。通过知网对近五年中文期刊的论文资助基金项目分析发现，在CSSCI 和中文权威期刊中，获得国家社会科学基金项目资助的论文分别为91 篇和31 篇；获得全国教育科学规划课题资助的论文分别为76 篇和18 篇；获得国家自然科学基金资助的论文分别为68 篇和37 篇。总体上，我国教育生产函数实证研究在近五年CSSCI 和中文权威期刊发文量上呈现稳步上升态势，国家级基金资助项目比例逐渐提高。

图2 2015—2019 年教育生产函数英文论文主要发表国家

二、教育生产函数的类型

教育生产函数与经济学中的生产函数类似，将教育系统类比成企业，把家庭背景、家庭货币投入、家庭时间投入、学校经费投入、学校资源、师资水平、班级规模等看作教育投入，把学生学业成绩、认知能力、非认知能力、升学率、受教育年限等看作教育产出。一般类型的教育生产函数形式可以表示为：Yi ja=f(Xija(F,S,I),eija)。其中Yi ja为学生i在j家庭a 年龄段时的教育产出，一般多以学生学业成绩来衡量。eija为函数残差项，包括所有不可观测变量和遗漏变量。Xija(F,S,I)表示学生i在j家庭a 年龄段时的所有家庭、学校和学生个体特征（例如遗传禀赋）的投入组合。本文结合教育生产函数的一般类型，并参考Todd &Wolpin（2007）和其他学者相关研究，将已有文献中所涉及的教育生产函数大致分为如下三个类型。

（一）单期投入型教育生产函数

单期投入型教育生产函数（Contemporaneous Education Production Function）如式（1）所示，将教育投入和产出看作一个单期过程，数据层面上反映为横截面数据。式中i为学生个体代码，j为家庭代码，a 为学生个体所处年龄段。Xi ja为学生i在家庭j年龄为a 时的个体、家庭和学校可观测投入组合。Yi ja为个体i在j家庭a 年龄段时学业成绩。eija为残差项，包括所有遗漏变量、可观测和不可观测的前期投入、遗传基因禀赋和测量误差。为了得到 ∂1的一致估计量，单期投入型教育生产函数必须满足eija与所有投入要素Xi ja不相关，即满足相互独立假设。

（二）多期投入型教育生产函数

多期投入型教育生产函数（Cumulative Education Production Function）如式（2）所示。其在单期投入型教育生产函数式（1）基础上进行扩展，加上投入要素的多期滞后项。多期投入型教育生产函数假设教育产出的获得是一个累积过程，由现在和过去教育投入与孩子基因遗传禀赋（生命孕育时决定）相结合产生的认知结果。同样，为了得到各期 ∂1、 ∂2···∂a的一致估计量，eija必须与各期投入要素Xi ja、Xi ja−1···Xi j1不相关，即满足相互独立假设。

（三）增值型教育生产函数

当数据包含前期教育产出而不包含前期教育投入时，常使用增值型教育生产函数（Value−added Education Production Function）估计教育投入对教育产出的影响。增值型教育生产函数认为学业成绩与当期学校和家庭教育投入有关，同时与前期（基线）学业成绩相关。前期学业成绩会影响当期教育投入，如果方程不控制前期学业成绩，模型将存在遗漏变量偏误。增值型教育生产函数基本形式如式（3）所示。

为了确定增值型模型隐含的假设和限制条件，在式（3）两端同时减去 γYija−1，整理后得到式（4）。

在式中，ei ja−γeija−1满足

为了得到教育投入对教育产出的一致估计，增值型教育生产函数需要满足如下假设。第一，各期教育投入系数随着时间推移，对产出的影响呈现下降趋势，且这种下降率对各类教育投入相同，即对于所有j均存在 ∂j=γ∂j−1；第二，遗漏的教育投入（当期和前期）与已包含教育投入、基期考试成绩无关；第三，先天禀赋的效应系数下降速率对各类教育投入相等，即 βa=γβa−1；第四， εija必须序列相关，并且序列相关程度与投入效应的下降率相匹配，才能得到 εija−γεija−1独立同分布。如果这一条件不能满足，则基期学业成绩Yi ja−1将与其自身测量误差相关。

三、家庭投入型教育生产函数

家庭因素对学生教育产出具有重要影响，大量研究均已证实弱势家庭学生的人力资本具有先天劣势（Coleman et al.，1966）。尽管世界各国出台了一系列旨在促进入学机制公平、缩小区域间学校质量差异、补偿贫困家庭学生学费等一系列法律和政策，但学生学业成绩和家庭背景高度正相关的状况尚未改变（Holmlund et al.，2011）。究竟哪些家庭投入真正对学生教育产出具有显著影响？本文将现有家庭投入型教育生产函数实证研究成果归纳为家庭背景、家庭货币投入和家庭时间投入三大类，分析各类投入存在的内生性偏估，就国内外相关研究进行综述，并重点分析五年来我国相关研究存在的问题。

（一）家庭背景与学生教育产出

1. 内生性偏估

家庭背景对学生教育产出的研究，实证研究最关键的是如何解决内生性偏估。关于家庭收入对学生教育产出影响的内生性问题。第一，遗漏变量问题。家庭收入可能是家庭其他有利特征（父母学历、父母职业、父母社会关系、父母能力等）的外在表现，无法观测的家庭因素可能会引起家庭收入对学生教育产出的过高估计（Upward−biased）（Duncan et al.，1998）。第二，关联问题。Dahl & Lochner（2012）认为传统的家庭收入与学生教育产出的实证研究，不能从其他无法衡量的家庭情况变化中单独识别出家庭收入变化带来的影响。例如家庭收入增加可能会因为与之关联的其他家庭环境恶化（例如家庭收入增加可能是父母兼职或外出打工，导致父母陪伴子女的时间减少）而阻碍教育产出获得。

关于父母学历对学生教育产出影响的内生性问题。高学历父母一般具有更高的能力，通过遗传使子女同样具有较高能力，并最终影响子女教育产出。如果不解决模型的内生性问题，普通回归结果不仅是父母受教育水平对子女教育产出的影响，还包括诸如父母能力对子女教育产出的影响。目前研究中，主要有三种方法来解决上述内生性问题，分别为“双胞胎数据+组内差分”“领养数据+OLS”和“普通数据+IV”。

第一，基于“双胞胎数据+组内差分”解决内生性问题。双胞胎数据多来自同卵双胞胎而非异卵双胞胎。该方法将双胞胎相同的不可观测先天能力和成长环境剔除，用父母学历差值对双胞胎教育产出差值进行回归。在这一过程中，只有父母学历不同和子女教育产出不同的双胞胎才能真正进入回归，如式（6）所示： ∆Yic为i家庭同卵双胞胎教育产出差值， ∆XiP为i家庭同卵双胞胎父母学历差值， ∆µci为i家庭同卵双胞胎随机扰动项差值，则 δ1为估计的父母学历对子女教育产出的影响系数。

第二，基于领养数据解决内生性问题。将养父母学历对领养子女教育产出回归，可以有效将父母能力等先天不可观测变量剔除。领养数据应确保领养过程随机。如果领养过程非随机，领养父母和亲生父母之间相关信息可能高度相关，回归结果难以剔除选择效应，如式（7）所示：Yiac为领养学生i的教育产出，Xiap为领养父母受教育水平， µaic为领养学生随机扰动项，则 δ1为父母学历对子女教育产出的影响。

第三，基于工具变量法解决内生性问题。部分研究采用教育改革作为工具变量来解决模型内生性问题，如式（8）和式（9）的两阶段最小二乘法方程。式（8）为第一阶段，REFip j为与父母相关的工具变量，Xip

j为父母学历， α1为工具变量对父母学历影响。式（9）为第二阶段，将第一阶段Xip j拟合值代入第二阶段，得到父母学历对学生教育产出的因果估计，系数为 δ1IV。

2. 国外实证研究综述

当前已有大量实证研究探讨了家庭背景与学生教育产出之间的关系（Coleman et al.，1966；Ermisch& Francesconi，2001；Dahl & Lochner，2012）。家庭背景包括家庭收入、父母学历和父母职业等。关于家庭收入的研究，Belley & Lochner（2007）发现家庭收入与高中学业完成率无因果关系，但对高等教育入学率有显著正向关系。Humlum（2011）基于2000 年PISA 数据中出生在1984 年的4000 名丹麦学生，采用单期教育生产函数和永久收入假设，发现永久收入增加一个标准差，阅读分数增加0.14 个标准差。早期收入增加一个标准差（后期收入相对减少），阅读分数减少0.06 个标准差。Dahl & Lochner（2012）使用美国所得税抵免政策的收入支持项目作为工具变量，对NLSY 数据中4200 名学生及父母的面板数据进行实证研究，发现家庭收入每增加1000 美元可使同期学生数学和阅读测试成绩提高0.06 个标准差，尤其对男生、弱势群体和低年级学生的影响更为明显。

关于父母学历对教育产出的影响，Haveman & Wolfe（1995）认为父母学历是学生教育产出中最重要的解释变量。第一，基于双胞胎数据的研究。采用美国明尼苏达州同卵双胞胎数据，剔除先天能力和成长环境等不可观测变量后，Behrman & Rosenzweig（2002）和Antonovics & Goldberger（2005）均发现母亲学历对子女受教育水平几乎无显著影响，而父亲学历有显著正向影响。基于斯堪的纳维亚（Scandinavia）登记数据中的丹麦同卵双胞胎样本，Bingley et al. （2009）发现母亲学历对9 年级学生平均学分绩点（Grade Point Average，GPA）成绩无显著影响。父亲学历对9 年级学生GPA 有显著负向影响，但对受教育年限有显著正向影响。Haegeland et al. （2010）采用挪威2002—2007 年初中学生双胞胎数据，控制了家庭背景和个体特征后，发现父亲和母亲学历对子女学业成绩均无显著影响。

第二，基于领养数据的实证研究。Dearden et al. （1997）和Sacerdote（2002）发现养父母学历对子女受教育年限具有显著正向影响。Plug（2004）发现养父学历对子女受教育年限具有显著正向影响，但养母学历对子女没有影响。Haegeland et al.（2010）采用挪威2002—2007 年初中学生领养数据得到与Plug（2004）完全相反结论。控制家庭背景和个体特征后，发现养母学历对子女学业成绩影响显著，但估计系数很小。养父学历对子女学业成绩无显著影响。此外，领养数据的使用需要额外注意领养过程是否随机。如果领养过程随机，则模型不存在样本自选择问题。例如Sacerdote（2007）基于1964—1985 年美籍韩国学生的随机领养数据，发现养母学历对子女学业成绩有显著正向影响，对吸烟和饮酒行为有显著负向影响。如果领养不随机，需要控制亲生父母信息。例如，Björklund et al.（2006）通过在方程中额外控制亲生父母相关信息，解决模型因领养过程非随机性导致的偏误，发现养父母学历对子女教育产出有显著正向影响，且养母影响小于养父。

第三，基于工具变量法的实证研究。Black et al.（2008）采用1960—1970 年挪威义务教育法年限延长作为工具变量，发现父亲学历对子女受教育年限无影响。母亲学历对子女受教育年限有显著正向影响，但影响系数很小。Oreopoulos（2006）基于美国义务教育法实施的不同时间顺序，采用工具变量法发现高学历父母的子女留级概率更低。Oreopoulos et al.（2006）利用二战退伍军人数据，发现父母受教育年限提高1 年，子女留级概率下降2%—3%。Carneiro et al.（2013）采用家庭到学校的距离作为工具变量，发现在子女8 岁时，父母学历对子女数学成绩具有显著影响。在子女12—14 岁时，父亲学历对子女的阅读能力有显著影响，但母亲学历对子女阅读能力无显著影响。

3. 国内实证研究综述

田丹（2017）基于2010—2014 南京市中学生发展状况调查的711 名中学生数据，采用OLS 方法发现高收入父母对高中阶段学生成绩有显著正向影响，对大学阶段学生无影响。母亲的收入和中等收入的父亲对高中和大学阶段学生均具有显著影响。王甫勤和时怡雯（2014）采用2010 年上海居民家庭生活状况调查数据，对1181 个家庭采用Logistic 回归发现，接受过高等教育的父母对子女上大学期望较高，能够更多参与到子女教育过程，为子女创造更多条件支持，进而提高子女上大学概率。李忠路（2016）基于首都大学生成长追踪调查数据，采用Logistic 回归发现，父母学历和家庭收入对学生就读高校类型和学业表现有显著正向影响。李佳丽等人（2016）以2014 年郑州区域教育质量健康体检与改进提升项目的八年级50461 名学生为对象，采用OLS 方法发现父母职业、父母受教育程度和家庭经济水平对语数外标准化考试成绩有显著正向影响。利用Bootstrap 方法对中介效应进行检验，发现家庭背景通过影响父母教育期望和课外补习决策来影响学生学业成绩。李忠路和邱泽奇（2016）采用CFPS 2010 年数据和OLS 回归分析发现，父母受教育年限和家庭人均收入对儿童基准测试平均分有显著正向影响，并通过多重中介模型发现家庭社会经济地位通过家教服务、学校质量、学习行为和家长参与进而影响学生学习成绩。

4. 近五年国内实证研究存在的问题

近五年相关实证研究，研究者开始逐渐关注家庭背景对学生学业成绩的影响机制（李佳丽等人，2016；李忠路和邱泽奇，2016），关于因果识别的研究相对较少，研究可能还存在如下几点问题。第一，近五年国内相关研究较多采用OLS 回归分析，而基于领养数据、双胞胎数据或工具变量等因果识别方法的研究尚未发现。孙志军（2014）使用了双胞胎数据研究了教育收益率，但研究内容不属于教育生产函数领域。主要原因是领养数据或双胞胎数据在国内收集较为困难，未来国内研究可以通过高等教育扩张、义务教育法实施等外生冲击作为工具变量，对父母学历和子女学业成绩进行因果关系分析。第二，较多研究在OLS 回归方程中没有控制学生个体和学校特征变量，亦没有控制班级或学校固定效应，模型存在较大的遗漏变量偏误（王甫勤和时怡雯，2014；田丹，2017）。部分研究中，家庭背景仅是控制变量，而非研究的主要内容（王骏等人，2017）。第三，研究较多采用某市或县内学校调查数据，研究结论不具有全国代表性。数据较多没有对外公开，研究过程可重复性较差，研究结论真实性有待考验（王甫勤和时怡雯，2014；田丹，2017）。第四，数据使用过于随意。例如田丹（2017）所使用数据中的成绩为学生自报在班级中的成绩排名，但研究对象来自南京市11 所不同中学，学生成绩在学校间不具有可比性，研究所用数据无法满足研究需要。研究应采用区县统一标准化命题和统一阅卷的考试成绩，才能实现11 所学校不同学生成绩之间的可比。

（二）家庭货币投入与学生教育产出

1. 家庭货币投入类型

家庭货币投入包括学校内家庭货币投入和学校外家庭货币投入，其中学校内家庭货币投入主要包括学杂费、教材教辅费、校服、医保和体检费、择校费和食宿费等；学校外家庭货币投入主要包括校外补习费、学习资料和用品等。魏易（2020）基于2017 年中国教育财政家庭数据发现，中小学学生每年家庭教育支出超过1 万元，占家庭总支出的16%，过去一年参加课外补习和兴趣班的学生比例为59%。随着义务教育免费政策的普及和学校均衡化的推进，家庭对子女教育投入的差异逐渐从校内转为校外（魏易，2020）。鉴于学校内家庭货币投入差异较小，相关研究主要探讨学校外家庭货币投入。学校外家庭货币投入主要为购买课外补习服务，早在2001 年土耳其课外补习支出就已经占GDP 的1.44%，而公立教育支出仅为2%（Tansel & Bircan，2006）。魏易（2020）研究发现2017 年我国中小学学生每年平均课外补习支出在3000 元以上。校外补习已然成为市值百亿美元的教育产业，下文重点介绍课外补习对学生教育产出影响的实证研究。

2. 内生性偏估

实证研究中，模型设定需要特别处理课外补习的内生性问题。大量研究均证实学生的课外补习决策非随机。第一，课外补习决策与父母学历相关。父亲学历（Kim & Park，2010；薛海平，2015；李波，2018b）或母亲学历（雷万鹏，2005； Bray et al.，2014；陈彬莉和白晓曦，2015）越高，子女参与补习的可能性越大。庞晓鹏等人（2017）研究发现父亲学历能够显著提高子女参与补习的概率，但母亲的影响不显著。薛海平等人（2014）甚至发现母亲学历对子女课外补习有显著负向影响，因为高学历母亲对子女学业指导替代了对课外补习的需求。第二，课外补习决策与家庭收入相关。家庭收入水平对学生参与补习的影响显著为正（Stevenson & Baker，1992； Liu，2012；李佳丽和胡咏梅，2017；李波，2018b）。但薛海平（2015）、薛海平等人（2014）发现家庭收入对课外补习影响并不显著。第三，课外补习决策与学校质量相关。薛海平和丁小浩（2009）发现就读学校质量越高、学习成绩越好的学生，参与补习的可能性越高。雷万鹏（2005）对北京、江苏、湖北和陕西高中学生的研究，曾满超等人（2010）对甘肃、湖南和江苏高中一年级学生的研究，Bray et al.（2014）对香港学生的研究，以及庞晓鹏等人（2017）对陕西榆林农村小学生的研究都表明，就读于重点学校、学业表现较好的学生参与课外补习的可能性更低。学校质量和课外补习存在替代效应，学校师资水平提高，课外补习支出显著降低（Dang，2007），生师比高的学校课外补习支出更多（Kim & Park，2010）。此外，Bray et al.（2014）发现在香港家庭，子女数量会对课外补习支出有显著负向影响，研究满足了资源稀释理论。

3. 国外实证研究综述

为解决课外补习的内生性偏估，在无随机实验数据的情况下，研究较多采用两种方法识别课外补习与学业成绩的因果关系。第一，控制课外补习的影响因素，例如控制家庭背景、学生学习基础、学校质量等。但由于调查数据无法涉及上述所有变量的全部信息，故该方法不具有现实可行性。大量采用此方法的研究仅控制了作者认为比较重要的几个变量，无法将所有影响因素都控制。Briggs（2001）基于美国1990—1992 年NELS 高中数据，基于普通最小二乘法发现课外补习使得SAT 考试成绩提高了14%−15%，其中词汇成绩提高6%−8%，数学和英语提高0%—0.6%，阅读下降0.6%—0.7%。Lee et al.（2004）基于韩国数据发现课外补习对学生短期和长期的成绩帮助均不大，影响不显著。Cheo &Quah（2005）发现，课外补习不仅不能提高成绩，反而有不利影响。第二，寻找一个外生变量，其和课外补习相关但和学业成绩无关，即采用工具变量法。不同研究中工具变量的选择也不同，例如学生在兄弟姐妹中的出生顺序不同会导致父母的重视程度和教育投入存在投入差异（Powell & Steelman，1995）。Kang（2007）用学生在兄弟姐妹中的出生顺序作为工具变量，发现校外补习投入增加10%，子女学业成绩提高0.56%。Ono（2007）采用1995 年日本学生数据，将当地大学生质量作为参加大学准备考试补习的工具变量，发现课外补习效果明显。Choi（2012）使用同伴补习率、非学业型课外补习费用和子女出生顺序作为工具变量，发现课外补习可以显著提高学生的认知能力，且年级越低效果越明显。

4. 国内实证研究综述

国内关于课外补习对学生学业成绩影响的实证研究最近几年才逐渐展开，但发展迅速。本文根据实证方法的识别效果从低到高进行排序并综述，包括OLS、HLM、PSM、RPSM、PSM−DID 和IV 等六种实证方法。薛海平等人（2014）基于2013 年全国六省市义务教育阶段学生课后活动基线数据，采用OLS 方法并控制了家庭因素、学校因素和个人因素的几个主要变量（并没有控制前期学习成绩），发现课外补习有助于学校质量较高、成绩较好的留守儿童缩小其与非留守儿童的成绩差异。基于北京市某示范性初中全体学生的追踪调查数据，张羽等人（2015）采用多层线性模型（HLM）发现，小学过早、过多参与数学和英语补习虽然能够提高学生升入初中时的初始成绩，但对初中数学和英语成绩的持续增长没有帮助。薛海平（2015）和李波（2018b）使用倾向得分匹配法（PSM）发现，参与补习以及补习支出对义务教育阶段学生的数学成绩有显著正影响，但对语文成绩影响不显著。胡咏梅等人（2015）使用再加权倾向得分匹配法（RPSM）发现，参与数学补习能够显著提高学生数学成绩。但不同学科的补习时间对数学成绩的影响不同，科学补习与数学补习效果存在“叠加效应”，语言补习与数学补习效果存在“挤出效应”。庞晓鹏等人（2017）使用差分倾向得分匹配法（PSM−DID）发现，在中国农村地区参与数学补习降低了数学成绩，但不具有统计显著性。可能是课外补习方式不当，补习教师牟利性动机等原因导致。Zhang（2013）将学生五个好朋友参与补习的比重、离家最近补习机构与家的距离作为工具变量，基于增值模型，研究发现课外补习对来自薄弱学校或成绩较差的城市学生产生了显著的正向影响。

5. 近五年国内实证研究存在的问题

近五年课外补习效果的实证研究中，逐渐出现了PSM、RPSM、PSM−DID 和IV 等多种识别方法。实证研究取得了长足进步，模型和方法选择上更加科学，但可能还存在如下问题。第一，受到数据的限制，许多研究没有使用增值模型（张羽等人，2015；薛海平，2015；胡咏梅等人，2015；李佳丽等人，2016）。由于课外补习投入是流量，学业成绩是存量，不控制学生初始学业水平，会给估计结果带来严重的遗漏变量偏误，甚至产生错误结论（例如学习差的学生参加课外补习，而不是参加课外补习导致学习差。不采用增值模型会得到课外补习导致学习变差的因果颠倒结论）。第二，为得到课外补习对学生学业表现影响的一致估计量，一些研究采用PSM 方法（薛海平，2015；李波，2018b），但该方法在本质上只是加权的OLS，仅能解决由样本选择偏差带来的内生性问题，无法纠正由遗漏重要解释变量带来的内生性偏误。第三，尽管刘腾尧和王晴（2018）、张雪和张磊（2017）使用IV 来纠正遗漏重要解释变量偏误，但IV 的测量误差可能比课外补习变量本身更大，潜在的弱工具变量可能带来更大的估计偏误。此外，刘腾尧和王晴（2018）虽然解决了个体层面的内生性问题，但并没有通过加入固定效应项控制班级和学校层面内生性偏误，仅控制部分班级和学校特征。第四，在衡量学业表现时，一些研究采用看似更加科学的国际通用认知测试得分（庞晓鹏等人，2017），但以此评估课外补习效果并不全面。因为以应试为目的的课外补习并不旨在提高学生的认知水平，而是提高学生考试成绩。还有一些研究使用学业成绩自评等级（薛海平，2015），这种衡量方法主观性强，测量误差大。

（三）家庭时间投入与学生教育产出

家庭时间投入是区别于货币投入的另一种重要的家庭投入类型。Guryan et al.（2008）基于2003—2006 年美国劳工统计局实施的美国时间使用调查，对21—55 岁的22693 名父母的研究发现，母亲每周对孩子时间投入为13.96 小时，父亲为6.81 小时。Gracia & Ghysels（2017）发现，在比利时、丹麦、西班牙和英国母亲在工作日每天对孩子的平均时间投入分别为82、77、64 和61 分钟，周末分别为96、93、66 和64 分钟。关于中国父母对孩子的时间投入，Zhao（2018）基于2004 年、2006 年、2009 年和2011 年中国健康和营养调查数据发现，父亲和母亲平均每周在子女身上的时间投入分别为13.53 和27.15 小时。出生在1965—1972 年、1973—1980 年和1981—1989 年的父亲每周在子女身上的时间投入分别为9.41、17.63 和14.84 小时，母亲分别为10.13、21.90 和32.84 小时。母亲对子女的时间投入更多为孩子的衣食起居，父亲更多为辅导学习和玩耍。

1. 家庭时间投入的内容

在教育生产函数实证研究领域，学者更加关注父母在子女教育上的时间投入，且更加关注时间投入的具体事情或内容，并称之为父母卷入或父母参与（parental involvement）。爱普斯坦（Epstein，1990）将父母在子女教育上的时间投入根据行为划分为：交流与沟通，即父母和孩子交流学校生活和烦恼；志愿参与活动，即父母和孩子共同参加校内、校外活动；家庭学习，即父母指导孩子功课、检查家庭作业和探讨学习方法等；决策制定，即父母以代表的方式对学校教育计划、资金募集、发展方向等决策提供建议；社会合作，即父母有效发挥社区资源应用于学校教育。Sui−Chu & Willms（1996）将父母在子女教育上的时间投入分为四类，分别包括：家庭讨论、家庭督导、学校联系和学校参与。李波（2018a）将父母在子女教育上的时间投入按内容和行为划分为五类，分别包括亲子交流、亲子活动、亲子阅读、作业督导和家校互动。作业督导为父母检查子女家庭作业，指导其功课；亲子阅读为父母和子女一起读书或读书给子女听；亲子交流为父母和子女交流学校发生的事情、与同学和老师的关系、心事和学习上的烦恼；亲子活动为父母带子女参观博物馆、图书馆、动物园、科技馆，观看演唱会、电影等文化活动；家校联系为父母参加学校家长会，或主动联系老师交流学生学校表现。

2. 内生性偏估

在实证研究中要想精确识别父母在作业督导、亲子阅读、亲子活动、亲子交流和家校互动等时间上的投入是否能够提高子女的教育产出，首先要确定父母时间投入是否随机，其是否会因家庭收入、父母学历、家庭子女数量的不同而存在群体差异。拉鲁（Lareau，1987）根据贫困文化理论指出，穷人因为贫困而在居住等方面具有独特性，在这种环境熏陶下的父母并不能意识到教育的重要性，且不相信教育是改变阶层命运的有效手段和主要途径。相较于上层家庭，贫困家庭在子女教育上的时间投入相对较少，主要是因为对子女的教育期望不高（Anderson & Minke，2007）。家庭收入较低会直接导致父母情绪低落，间接导致父母对子女教育缺乏耐心和关注，家庭教育过程缺乏自信、方式也不科学（Guryan et al，2008），甚至将生活和婚姻的不满发泄到子女身上，出现打骂甚至虐待的现象。Sebastian et al.（2016）发现拥有大学及以上学历的母亲更了解子女在学校的表现，与学校任课教师交流也更为频繁。Boonk et al.（2018）通过元分析发现，高学历家长在子女的教育过程中，认为父母和学校是平等的，具有同样重要的地位。家庭子女数量能够直接影响父母对每一个孩子时间投入上的多寡。Zedan（2012）发现子女数量和父母在子女教育上的时间投入之间存在显著的负相关，即孩子数量越多，每个孩子得到父母的时间投入越少。

3. 国外实证研究综述

关于父母作业督导对子女成绩影响，研究结论莫衷一是。Finn（1998）采用增值模型的多元回归发现作业督导对子女学业成绩有显著正向影响；Singh et al.（1995）使用相关分析发现作业督导对学业成绩有显著负向影响；Perna & Titus（2005）发现父母和学生之间的交流行为能够明显提高学生考上大学的概率，但父母指导和检查孩子作业则无显著影响。Patall et al.（2008）发现，在小学阶段作业督导能够明显提高子女的学业表现，但在中学阶段会显著降低子女的学业表现。Wilder（2014）指出中学生正处于青春期，更加渴望独立和自主，内心对父母作业检查和指导行为存在排斥心理，导致作业督导降低子女学习成绩。Xu et al.（2010）对五年级学生研究发现，父母给子女布置过多作业，不利于子女自主学习能力发展。关于亲子交流对子女学业成绩的影响，McNeal & Ralph（2012）使用国家教育追踪数据发现，亲子交流比其余类型父母时间投入对子女的影响更大。Yan & Lin（2005）发现，学业成绩优秀的学生，其父母更了解孩子朋友和小伙伴的情况。关于亲子活动对子女学业成绩影响，Heymann & Earle（2000）发现，经常带子女参加博物馆、图书馆、音乐会和动物园等活动能提高学生学习成绩。关于父母参加家长会或学校活动的研究，大量基于单期投入型教育生产函数的研究肯定了家长与学校之间具有良好的沟通渠道有助于子女的学业发展（Xu et al，2010）。然而追踪数据，通过控制前测学业成绩的增值模型发现父母参加学校活动和子女学业成绩之间并无必然因果关系（Park & Holloway，2017）。Morgan &Todd（2009）利用NCES 数据，发现父母参加家长会可以通过影响学校决策或教师教学模式，间接影响学校所有学生学习成绩，对自己子女的私人收益较小，对校级外部性收益更大。

4. 国内实证研究综述

国内相关实证研究起步较晚，研究较多集中在近十年内。赵延东和洪岩璧（2012）基于2009 年全国青少年科技素养调查数据，对20 个省市61 个小学班和57 个中学班采用OLS 方法发现，父母的时间投入对学生成绩有积极影响。但父母指导子女学习、改正错题、检查作业干扰了子女的正常学习过程，会对子女学业成绩产生消极作用，老师也无法及时从学生的家庭作业中发现学生学习上存在的问题。李佳丽（2017）基于CEPS 2012 年数据，采用HLM 方法发现，父母生活陪伴和与学校老师交流可以显著提高子女的认知能力。但是亲子交流、作业督导对认知能力无显著影响，并指出作业督导对子女学业成绩负向影响可能和父母教育子女的方法不正确有关。虽然有些父母对子女作业督导的时间投入很多，但没有正确的教育方法，而是单纯增加时间反而会占用本属于学生的学习时间，产生挤出效应。郭筱琳等人（2017）基于山东聊城384 名小学生调查数据，采用HLM 方法发现，当学生自我效能感和教育期望较高时，父母时间投入对学业成绩有负向影响；当学生学业自我效能感较高但教育期望较低时，父母时间投入对学业成绩具有正向影响；当学生学业自我效能感较低时，无论其教育期望高低，父母时间投入对学业成绩无影响。李波（2018a）基于北京市三个区县的调查数据，采用增值模型和PSM 方法发现，亲子阅读、亲子活动和亲子交流对学生期末考试总成绩有显著正向影响，其中亲子交流影响效果最大。但作业督导和家校互动对成绩影响不显著。此外，通过中介效应分析发现，亲子阅读、亲子活动和亲子交流能够促进诸如学生的自尊、自我控制、学校适应、合作、人际交往和领导力等非认知能力，进而提高学生学业成绩。

5. 近五年国内实证研究存在的问题

近五年，关于父母时间投入的研究更注重实证方法和影响机制的探讨，但可能还存在如下三个问题。第一，尚未发现旨在解决模型内生性问题的实证研究（李佳丽，2017；郭筱琳等人，2017；李波，2018a）。父母在子女教育上的时间投入非随机，不同家庭背景父母之间存在群体差异。由于调查研究无法获取所有既与父母时间投入相关又和学生学习成绩相关的变量信息，仅采用一般的相关分析或OLS 方法无法获得家庭时间投入对学生教育产出的因果效应。虽然有些研究在模型中控制了部分家庭、学校和个体特征，但可能会存在遗漏变量问题。第二，家庭时间投入并不直接作用于教育生产过程，其究竟是如何影响学业成绩，相关研究探讨较少（李佳丽，2017；郭筱琳等人，2017），影响机制和路径仍是未知的“黑箱”。第三，面板数据或增值模型的使用相对较少，这样会导致逆向选择问题（郭筱琳等人，2017）。例如以父母作业督导对子女学业成绩的影响为例，较多研究发现父母作业督导对子女学业成绩不仅没有促进作用，反而降低了子女学业成绩。上述结论可能很大程度上和模型没有控制前期学习成绩而导致的逆向选择有关（学生学习成绩差会导致父母作业督导，而不是父母作业督导会导致学生学习成绩差），相关实证研究结论混淆了因果。

四、学校投入型教育生产函数

世界各国对学校进行了大量经费投入，那么为学校“花钱有用吗（Does money matter）”？教育经济学的一个经典议题就是探讨学校资源和学生学业成绩之间的因果关系，其对教育政策制定和教育经费投入发挥了重要的政策价值。1966 年《科尔曼》报告指出学生学业成绩之间的差异更多来自家庭背景而非学校投入，自此涌现出了大量关于学校对学生学业成绩影响的研究（Glewwe et al.，2011），尤其以汉纳谢克（Hanushek）和赫吉斯（Hedges）双方之间关于学校投入是否有效的长期争论更是将教育生产函数研究推向高潮。汉纳谢克（Hanushek，1989，1997，2003）的系列研究对四十年的教育生产函数研究成果进行再分析，并指出学校投入并不能提高学生学业成绩。但赫吉斯等（Hedges et al.，1994）基于汉纳谢克的187 项研究资料发现，学校资源可以提高学生的学业成绩。本文基于现有学校投入型教育生产函数的研究成果，将其划分为四类，包括：重点学校与学生教育产出、学校经费投入与学生教育产出、教师投入与学生教育产出、班级规模与学生教育产出。

（一）重点学校与学生教育产出

世界上众多国家都设有重点学校，一般被称为磁石学校（Magnet School）、贵族学校（Elite School）、精英学校（Selective School）、特许学校（Charter School）或文法学校（Grammar School）等，主要通过随机派位、就近入学、择校或分数录取等方法招生。我国重点校政策由来已久，1962 年教育部《关于有重点地办好一批全日制中、小学校的通知》，明确规定要求各地选取一批重点中小学。1978 年教育部《关于办好一批重点中小学的试行方案》，指出全国重点中小学形成“小金字塔”结构，同时在经费投入、办学条件、师资队伍、学生来源等方面向重点学校倾斜，并最终形成国家级、省级、地级、县级的重点学校“层层重点”的格局。在这个历史背景下，重点校得到了大力的发展，但一些弊端也逐步显现，学校之间差距越来越大。在这一背景下，国家2006 年修订施行的《中华人民共和国义务教育法》第22 条规定：“缩小学校之间办学条件的差距，不得将学校分为重点学校和非重点学校，学校不得分设重点班和非重点班”。虽然法律有明确规定，但地方仍然普遍存在“乔装打扮，偷梁换柱”的现象，大力举办“示范校”“实验班”，重点学校实际上是“名亡实存”。

1. 内生性偏估

要识别重点学校对学生学业成绩影响，较为简单的方法就是比较重点学校和非重点学校学生在学业成绩上的差异，但可行的前提条件是进入重点学校是随机的。大量研究已证实进入重点学校的过程非随机，重点学校学生在家庭背景和个人能力上存在显著差异（Clark，2010；王骏和孙志军，2015）。高中教育阶段，重点高中录取分数线较高，其会根据学生的中考成绩选择能力较强的学生入学，重点高中和学生能力高度相关。义务教育阶段，小学和初中均实行就近入学政策，学生要想进入重点小学和初中必须购买高昂的学区房，因此重点中小学和学生的家庭背景高度相关。除了上述正规的通过考试和就近入学的方式，还有很多学生通过择校的方式进入重点学校，例如以钱择校、以权择校、以社会关系择校等（王善迈，2008）。因此，学生会根据不可观测的特征选择学校，而这些不可观测特征又会反过来影响学生的学业成绩，这种自选择带来的内生性问题会导致OLS 估计结果出现偏差。

2. 国外实证研究综述

国外研究中，本文重点介绍采用因果识别的研究成果，实证方法包括随机派位、工具变量和断点回归法。第一，采用随机派位的研究。Cullen et al.（2006）基于芝加哥公立学校的随机派位制度，发现对于那些赢得派位（Win Lotteries）的学生比那些未被抽中（Lose Lotteries）的学生能获得更高的学业成绩，并且更加自律，犯罪率也更低。Dobbie & Fryer（2011）基于Harlem Children Zone 重点学校计划，采用随机派位和工具变量两种方法均发现重点中学对学生学业成绩有显著正向影响，并可以缩小白人和黑人学生在数学成绩上的差异。Abdulkadiroğlu et al.（2011）利用美国波士顿州的学校供不应求或招生名额已满的情况下，采用随机派位或摇号的方式分配学生入学的政策构造准实验，发现重点学校对初中和高中学生成绩有显著的正向影响。第二，采用工具变量的研究。Cullen et al.，（2005）以芝加哥公立学校60623 名学生为研究对象，采用OLS 回归发现重点学校对学生学业成绩有显著正向影响。但采用学生家庭距离最近重点学校的距离为工具变量，发现重点学校对学生学习成绩无显著影响。Clark（2010）基于英国初中学校的数据，采用学生小学成绩预测的学生进入重点学校的概率作为工具变量，发现重点学校对学生学习成绩几乎没有影响，但可以提高学生未来大学录取率。因此，研究指出重点高中对学生短期教育产出没有影响，但长期具有显著影响。第三，采用断点回归的研究。Pop−Eleches & Urquiola（2013）基于罗马尼亚初中考试入学录取线制度，构建了约2000 个断点，发现重点学校可以提高学生的学业成绩，但是对学生的非认知能力有显著的负向影响，学生感觉自己能力有限，且被边缘化。此外，研究还发现进入重点学校降低了母亲自身对子女教育的投入程度。

3. 国内实证研究综述

在国内研究中，大量实证研究较多采用HLM 或OLS 方法。马晓强等人（2006）基于保定市的高中数据，采用迭代广义最小二乘法（IGLS）发现学生高考成绩的60%—80%差异是由学校间质量差异导致。胡咏梅和杜育红（2008）基于西部五省农村小学数据，采用HLM 方法发现学校质量的提高可以促进学生的学业成绩。丁延庆和薛海平（2009）基于2006 年昆明市高中调查数据，采用HLM 方法发现，学校对学生的学业成绩影响较小，学生成绩更多由自身能力和前期学习成绩决定。唐俊超（2015）采用CGSS 2008 年数据，利用Logistic 回归发现进入重点学校对学生升学概率有显著正向影响，且影响效果随着小学升初中、初中升高中和高中升大学而逐渐变大。薛海平（2015）基于CFPS 2012 年数据，采用PSM 方法发现重点学校能够显著提高学生的数学和英语成绩。王骏等人（2017）基于我国某市高中数据，采用HLM 方法发现重点高中能够显著提高学生的学业成绩。谢桂华和张阳阳（2018）基于CEPS 数据中的认知能力代替学业成绩，控制个人和家庭等各因素采用HLM 方法，发现学校质量对学生学业成绩具有显著正向影响。进一步控制学生2013—2014 年前测认知能力，采用增值模型发现学校质量对学生成绩的影响由显著变为不显著。国内解决内生性的研究很少，且均采用录取线制度构造断点回归设计。Dee & Lan（2015）基于内蒙古教育局的行政数据，涉及2006−2008 年12 所高中的14245 名学生，发现成绩高于重点高中录取分数线可以提高学生进入重点高中的概率，据此采用模糊断点回归发现进入重点高中对学生成绩无显著影响。王骏和孙志军（2015）基于F 县2009—2010 届17 所高中（4 所重点高中）7660 名毕业生数据，采用断点回归设计发现，重点高中可以微弱提高理科生的高考数学、语文和总成绩，但对文科生高考成绩无显著影响。

4. 近五年国内实证研究存在的问题

近五年来，相关研究逐渐从OLS、HLM 方法过渡到采用准实验的研究设计，但可能还存在如下几点问题。第一，大量研究无法识别学校与学生教育产出之间的因果关系（唐俊超，2015；王骏等人，2017；谢桂华和张阳阳，2018），基于工具变量和断点回归的研究设计相对较少。第二，采用多层线性模型和多元线性回归的研究中，采用控制学校投入变量的研究居多（唐俊超，2015；王骏等人，2017）。但是影响学校质量的因素很多，上述变量并不能控制学校的全部影响因素。有些难以观测的学校因素可能对教育产出有一定影响，模型可能存在遗漏变量偏误。第三，谢桂华和张阳阳（2018）采用认知能力代替学业成绩，研究结论可靠性存疑。作者采用2014 年认知能力作为前测成绩，研究重点学校对2015 年学生认知增值的影响。但认知能力与学业成绩不同，很难在一年之内发生改变，认知能力数据很难满足研究需要。第四，薛海平（2015）虽然采用PSM 方法解决样本自选择问题，但PSM 方法仅针对可观测变量的匹配，无法克服不可观测变量给估计结果带来的偏误。学生成绩为家长自报的优良中差等级，而非考试分数，数据过于主观，研究也没有使用增值模型。第四，基于断点回归设计的研究（王骏和孙志军，2015；Dee & Lan，2015），只是分析了重点高中是否有效，并没有进一步探讨重点高中的哪些投入有效。研究对象仅为断点附近的学生，研究结论的外部有效性存疑。

（二）学校经费投入与学生教育产出

1. 内生性偏估

关于学校经费投入对学生学业成绩的影响，基于不同的数据和实证方法会得到不同研究结论，其中很重要的原因是如何处理估计过程中的内生性问题（Goldhaber & Brewer，1997）。教育生产函数框架试图控制其他变量，来估计增加教育经费投入的平均效应。但由于学校、家庭、地区经济发展水平、财政收入等不可观测因素和学校经费投入以及学生教育产出相关，很难通过调查数据获取所有信息。例如，政府可能会将经费支出重点放在成绩不佳的学校或者入学率极低的学校，或者富裕的父母可能会把孩子转到生均支出较高的学校。学校经费投入和家庭教育支出之间可能存在替代或互补的关系，例如段义德（2018）发现教育财政支出可以通过“扩张效应”和“补偿效应”影响家庭教育投入决策；袁诚等人（2013）发现政府教育支出对于家庭教育总支出、义务教育学杂费和家教费有着明显的“替代效应”。

2. 国外实证研究综述

国外研究中，Hanushek（2003）对65 篇相关研究进行综述，发现仅13 篇显示生均经费支出对学生成绩有显著正向影响，3 篇为负向影响，49 篇无影响。本文根据研究采用的实证方法进行综述，包括固定效应、增值型、工具变量法等。第一，固定效应的研究。Ram（2004）基于1997 年的美国教育统计文摘数据，发现学校生均经费对学生SAT 分数有显著正向影响，且对数学成绩影响要大于语言成绩。同时为了控制各州的不可观测因素影响，研究更进一步控制州的固定效应，发现学校生均经费对学生学业成绩的影响减弱但依然显著。第二，增值型教育生产函数研究。Holmlund et al.（2010）使用2001—2006年英国国家学生数据库，将学生7 岁时考试总成绩（包括英语、数学和科学）作为前测成绩，11 岁时总成绩作为当期成绩，采用增值模型发现学校生均经费支出增加1000 英镑，将使英语、数学和科学的标准化分数分别提高0.04、0.05 和0.05 个标准差。对处于经济弱势的学生（看其能否获得学校的免费午餐），生均经费支出增加1000 英镑，数学、英语和科学的成绩将会提高0.06、0.07 和0.07 个标准差。第三，基于工具变量法的研究。Roy（2011）使用1990—2001 年密歇根教育部数据库数据，研究学校财政改革（其旨在加大对贫穷区域学校的援助，同时对富裕地区学校的支出加以限制）是否能够减少各区间学校经费支出差距及其对学生学业成绩的影响。作者使用政府规定的基础津贴作为工具变量，发现学校生均经费支出每增加1000 美元，低生均经费支出地区的学生阅读成绩增加0.2—0.4 个标准差，数学成绩增加0.4—0.55 个标准差，但是对大学预科考试ACT 的参与率和成绩没有影响。

3. 国内实证研究综述

国内相关研究中，胡咏梅和杜育红（2008）采用西部地区5 省区农村初级中学的较大样本调查数据，采用HLM 方法发现，生均事业费、生均公用经费与学生学习成绩呈现负向关系，并指出可能的原因是现行教师工资制度没有真正反映教师绩效，公用经费被人员经费挤占。丁延庆和薛海平（2009）基于2006 年昆明市公办学校的调查数据，以中考成绩为前期考试成绩，高考成绩为当期考试成绩，采用增值模型和HLM 方法发现学校生均公用经费对学生高考成绩有显著影响。学校生均公用经费每提高100 元，学生高考成绩提高大约3 分。李祥云和魏萍（2014）基于2012 年对某市郊县30 所小学三年级和五年级学生的调查数据，选取全县统一考试成绩作为教育产出，采用HLM 方法发现学校生均公用经费对学生语文和数学成绩均具有显著影响，同时较高的学校经费支出可以弱化因父母职业、母亲受教育水平和家庭收入不同导致的学生数学成绩差异。因此，对家庭背景普遍较差的学校加大财政投入，可以缩小学生因家庭背景不同导致的学生成绩上的差异，促进教育结果公平。李祥云和张建顺（2018）基于湖北省70 所小学数据，采用相关分析法发现生均公用经费与学生期末语文和数学成绩显著正相关，但是相关系数小于教师质量与成绩之间的关系。陈纯槿和郅庭瑾（2017）基于CEPS 2013—2014 年基线数据，同时采用“县区受访学校初中生人数对数”和“外县区学生是否也有生均经费”作为工具变量，在控制了学生家庭背景和学校特征的情况下发现，生均公用经费对学生标准化测试成绩的影响呈现倒“U”型结构。生均公用经费的正向效应在经济发展水平较低的农村更加显著，且生均公用经费的提高显著降低了家庭经济收入对学生学业成绩的影响。

4. 近五年国内实证研究存在的问题

近五年实证研究方法经历了从单期教育生产函数和HLM 方法、增值模型和HLM 方法发展到近两年的工具变量法，但研究可能还存在如下几点问题。第一，使用学生成绩作为衡量教育经费投入的目的及效果还有待商榷，越来越多的证据表明，关注考试分数的影响可能会忽略一系列更广泛长期结果的重要影响（Heckman et al.，2013)。第二，部分研究无法识别学校经费投入对学生学业成绩影响的因果效应。例如李祥云和张建顺（2018）采用的仅是相关分析法，没有对其他相关影响变量加以控制，研究结论仅能证明学校生均经费投入与学生学业成绩之间存在相关关系。第三，选择固定效应模型的研究相对较少。例如李祥云和魏萍（2014）关于生均公用经费等学校资源对区县标准化语文和数学成绩影响的研究中，仅控制了师生比例、高级教师比例、生均固定资产、生均图书册数和学校规模等。但研究不同学校间生均经费等学校资源对学生学业成绩的影响，不应控制学校特征，而应控制区县特征，例如区县经济发展水平、财政收入和财政支出等。如果区县层面数据不易获取，可以直接控制区县固定效应，相较于控制区县特征效果更好。

（三）教师投入与学生教育产出

1. 内生性偏估

在实证模型设定之前，最重要的是分析教师投入在班级或学生中是否随机。大量研究已证实教师投入与家庭、学校和班级相关。第一，教师投入水平与学生家庭背景相关，拥有较高社会经济地位的家庭会更大概率选择师资力量较强的学校。杨东平（2005）基于北京、苏州、宁波等10 个城市的调查，发现强势家庭（高级和中级管理人员、技术人员）学生近60%在师资雄厚的重点学校读书，而弱势家庭则刚好相反，近60%学生就读于非重点学校。第二，教师投入与学校质量相关。学校和教师之间存在双向选择关系，优质学校会聘请高质量的老师，同样优秀教师会选择优质学校就职进而获取更高的工资（Britton & Vignoles，2017）。第三，学校会根据学生的考试成绩或能力，将不同学习水平的学生放在不同的班级，并配上不同质量的教师，优秀教师最终被分配到重点班的概率较大（Clotfelter et al.，2007；Rothstein，2010）。

2. 国外实证研究综述

鉴于实证模型的内生性问题，国外较多实证研究采用了增值模型，并控制学生家庭背景和学校固定效应。Clotfelter et al.（2007）基于1995—2004 年3—5 年级学生数据，发现教师学历和教龄对学生学业成绩有显著正向影响，尤其对数学成绩影响最大。Rivkin et al.（2005）使用教师和学生信息的得克萨斯州大样本行政数据，数据包括1993—1995 年四年级60 万名来自近一万所公立学校的学生，并获取了学生从三年级到七年级所有考试成绩。研究基于多期投入型教育生产函数和校内固定效应，发现教师质量对学生阅读和数学成绩有显著正向影响。Kane et al.（2008）使用来自纽约公立学校的数据基于增值模型发现，认证教师对学生数学成绩的影响比国际教师显著高0.02 个标准差，对语文成绩的影响比教员显著高0.01 个标准差。Britton & Propper（2016）采用增值模型并控制了学生特征之后，发现英国过去五年教师工资变化对学业成绩有显著正向影响，但影响系数较小。教师工资上涨10%，学生学业成绩提高约2%。

关于教师绩效工资的研究，Lavy（2009）对以色列1999−2001 年高中采用实验研究设计，发现教师绩效工资可以提高学生数学和英语成绩，并能提高学生考试通过率。鉴于实验学校非随机分配，文章又使用断点回归和双重差分进行检验，发现结论稳健。Woessmann（2011）使用经合组织国家教育系统数据和2003 年PISA 数据，以28 个国家的19000 名学生为对象，在对学生、学校和国家背景进行严格控制后，发现采用绩效工资国家学生在PISA 数学测试中分数比平均分高出24.8%。Fryer（2013）在纽约市200 多所公立学校进行随机绩效工资实验，教师绩效工资被设计为取决于其所在团体的整体表现，研究并未发现教师激励能够提高学生学业成绩。后续学者对Fryer（2013）的研究提出质疑，Goodman &Turner（2013）认为团体激励会导致搭便车行为；Neal（2011）指出如果目标太容易或太难，教师可能不会做出最佳反应。Fryer et al.（2012）发现教师被罚款而不是奖励效果更明显。Balch & Springer（2015）基于奥斯汀独立学院教师绩效工资项目（该项目用于招聘、发展、留住教师），通过比较参与和未参与学校学生成绩，发现教师绩效工资对学生成绩产生显著正向影响。

3. 国内实证研究综述

国内研究中，王骏等人（2017）以某市6 个区县17373 名高中生为研究对象，以中考成绩为前测成绩，高中会考成绩为当期成绩。通过增值模型和HLM 方法，发现教师学历对高中会考理科、文科和总成绩均有显著正向影响，教师职称仅对文科成绩有显著正向影响。胡咏梅和杜育红（2008）基于西部地区5 省区农村初级中学数据，采用两水平线性模型发现，少数民族专任教师比例、专任教师任职资格比例对学生学业成绩有显著正向影响。胡咏梅和卢珂（2010）基于西部地区基础教育发展数据，采用影响力评价的倍差法，发现具有任职资格的教师和骨干教师对学生学业成绩有显著正向影响。梁文艳和杜育红（2011）基于西部地区基础教育发展项目监测调查数据，采用增值模型和两水平线性模型发现，中国西部农村地区的小学教师在学生学业发展中发挥着关键作用，教师差异是造成学生学业发展不均衡的重要因素。

国内关于教师工资对学生学业成绩影响的实证研究起步较晚，且多采用的是非实验数据。丁延庆和薛海平（2009）采用增值模型和多层线性模型，发现高三教师平均月收入对学生高考成绩无显著影响。王骏等人（2017）发现教师工资对学生高中会考理科和文科成绩均无显著影响。师均培训费对学生理科成绩有显著正向影响，但对文科成绩影响不显著。薛海平和王蓉（2016）以中国农村义务教育状况调查数据的299 所学校为对象，采用多层线性模型发现，教师个人绩效奖金和集体绩效奖金对学生成绩均有显著影响，但集体绩效奖金影响更大。集体绩效奖金中，班级绩效奖金影响最大。常芳等人（2018）利用西北农村地区350 名数学老师和10784 名学生数据，对教师进行了基于学生成绩“绝对值”“增加值”和“增加值百分位”的绩效激励随机干预实验。发现对老师进行增加值百分位的激励方式能够促进老师改变教学行为，将学生的学业表现分别提高0.10 和0.15 个标准差，尤其是对成绩较差的学生激励效果更加明显。

4. 近五年国内实证研究存在的问题

近五年国内研究逐渐从教师工资转变为教师绩效工资的探讨，也出现了随机干预实验的研究。但实证研究可能还存在如下问题：第一，较多研究无法从教师努力获取的绩效工资中剔除出教师质量（教师学历和教师职称）的叠加影响，无法识别因果（薛海平和王蓉，2016；王骏等人，2017）。基于随机干预实验设计探讨教师绩效工资对学生学业成绩影响的研究相对较少，通过中国知网检索仅发现一篇，即常芳等人（2018）采用的陕西榆林市和甘肃天水市16 个县216 所学校的实验。第二，研究采用的绩效工资更多是以学校或教研组为单位的“平均主义”，无法完全调动教师积极性（王骏等人，2017）。鉴于绩效工资没有真正做到“多劳多得，优绩优酬”的特点，存在教师搭便车行为，这导致研究过程中无法精确识别绩效工资对学生学业成绩的影响。第三，有些研究没有采用增值模型，且数据使用存在一定问题。例如薛海平和王蓉（2016）采用2016 年的绩效工资研究2017 年考试成绩。一般而言，绩效工资具有滞后性，2016 年绩效工资更大概率是由于教师在2015 或2016 年的教学工作优秀、学生考试成绩优异而发的奖金，显然和2017 年学生考试成绩无直接关系。第四，薛海平和王蓉（2016）的研究在没有证明绩效工资与学生前期成绩之间不相关的情况下，没有采用增值模型进行研究。精确的识别策略应是，识别绩效工资实施给学生成绩带来的增值而非绝对值。

（四）班级规模与学生教育产出

教育经济学研究的一个重点问题是确定科学合理的班级规模，使其既能确保教学质量又不过度增加财政负担（Glass & Smith，1979）。美国二战以后由于婴儿潮的发生，学龄人口急剧增加，使班级规模随之增加。其推行了一系列班级规模缩减政策，包括美国田纳西州生师比成绩项目（STAR）、威斯康辛州学生成绩保障项目（SAGE）、加利福尼亚州班级规模缩减项目（GSR）。Hanushek（2003）指出在1955—1985 年间，85%的教育经费增长是由于班级规模缩减政策造成的。在我国，《2017 年全面改善贫困地区义务教育薄弱学校基本办学条件工作专项督导报告》显示，2017 年全国义务教育阶段学校有66 人以上的超大班额班级8.6 万个，占全国总班数的2.4%。56—66 人的大班额班级36.8 万个，占全国总班数的10.1%，且大部分集中在中西部县镇。《国务院关于统筹推进县域内城乡义务教育一体化改革发展的若干意见》要求2018 年基本消除66 人以上的超大班额，2020 年消除56 人以上的大班额。

1. 内生性偏估

班级规模对学生学业成绩影响的研究需注意班级规模的非随机性，其主要体现在如下四个方面。第一，测量误差。研究人员可能很难获取每个学生所在班级的班级规模，而更多的是学生所在学校的平均班级规模，其可能会高估班级规模对学业成绩的影响（Hanushek，1996）。第二，班级规模可能与学生家庭背景相关。二者可能正相关，例如家庭条件较好的父母可能更愿意将子女送进小班。二者也可能负相关，例如家庭条件好的父母可能将子女送入重点学校，而重点学校受市场青睐，导致学生数量多，进而可能存在大班。第三，班级规模可能与学生学习基础相关。二者可能正相关，对于补偿式教育的学校可能将成绩较差的学生分配到小班。二者也可能负相关，对于精英式教学的学校可能将基础较好的学生分配到小班。第四，班级规模可能与学校其他投入相关。二者可能正相关，经费充足的学校有更多经费去支持小班教学，而这些学校在其他资源（如设备、教师工资）上可能也更具优势。二者可能负相关，学校可能将更多的经费用于小班教学，而降低对学校其他资源的经费投入，进而产生挤出效应。

2. 国外实证研究综述

鉴于班级规模非随机，单期投入型教育生产函数无法克服内生性和自选择问题。Rockoff（2009）对文献回顾发现，班级规模对学业成绩的影响不确定。其发现1950−1970 年的研究主要基于大规模数据和统计分析，之后的研究主要使用随机控制实验和准实验等更加严谨的因果推断方法。下文主要综述基于因果识别的研究，包括四种研究范式。第一，利用班级规模限制，构建断点回归的研究（Angrist &Lavy，1999；Fredriksson et al.，2016）。Angrist & Lavy（1999）使用以色列小学国家测试项目数据，基于犹太教义形成的班额政策②，采用断点回归法发现缩减班级规模对五年级学生阅读和数学成绩有显著正向影响，对四年级学生阅读成绩有微弱影响，但对三年级学生成绩无影响。第二，利用学龄人口变动，构建自然实验的研究（Hoxby，2000；Woessmann & West，2006；Leuven et al.，2008）。例如，Hoxby（2000）利用美国康涅狄格州649 所小学各年级人口的纵向变化作为外生工具变量，发现班级规模和学生成绩之间并无因果关系。第三，利用政策实施前后的面板数据，采用差分法消除不随时间变化的不可观测因素。Dearden et al.（2002）使用英国国家儿童发展追踪数据，其追踪1958 年出生的组群，获取了从教育阶段到进入劳动力市场的丰富数据。通过面板数据控制了能力和家庭背景后发现，班级规模对学生成绩无显著影响。第四，随机控制实验，使学生的班级规模随机。例如，在田纳西州STAR 实验中，个体被随机分到小班（15—17 人），普通班（22—55 人）或从幼儿园到三年级有助手的普通班。Schanzenbach（2006）发现减少班级规模能够提高成绩。Krueger（1998）发现参加小班提高阅读和数学测试分数0.20—0.28 个标准差，并且对低龄儿童、黑人学生和来自贫困家庭的孩子影响最为明显。也有研究发现STAR 影响长期存在，小班化的学生在高中毕业、降低少女早孕、大学入学等方面表现更好（Chetty et al.，2011；Schanzenbach，2014）。

3. 国内实证研究综述

国内研究中，多基于单期投入型教育生产函数，研究结论也不一致。有的研究发现班级规模正向影响学生学业成绩（胡咏梅和杜育红，2008；唐一鹏，2014；胡咏梅等人，2015；王骏等人，2017；），负向影响（薛海平和闵维方，2008；孙志军等人，2009；丁延庆和薛海平，2009），无影响（胡咏梅和杜育红，2009；孙志军等人，2009；袁玉芝，2016），存在异质性（史耀波和赵欣欣，2016；崔盛和吴秋翔，2019）。第一，基于OLS 的研究。孙志军等人（2009）采用甘肃省20 个县小学数据发现班级规模对小学生数学成绩无影响，但对语文成绩有显著负向影响。崔盛和吴秋翔（2019）基于CEPS 数据以初中一年级及其追踪数据为样本，控制基期学业能力及相关变量，采用增值模型发现班级规模对学业能力的影响在不同行政区域、学校布局和家庭选择间存在异质性。第二，基于HLM 的研究。胡咏梅和杜育红（2008）采用西部五省农村初中数据，发现生师比对初中生学业成绩有显著正向影响。胡咏梅和杜育红（2009）发现，班级规模对小学生学业成绩无显著影响。王骏等人（2017）采用增值模型发现班级规模对学生高中会考文科成绩和理科成绩均有显著正向影响。郑琦和杨钋（2018）采用2015 年PISA 数据，通过泛精确匹配消除不同规模班级学生在个体和家庭特征上的不平衡，发现初中的班级规模和成绩存在非线性关系。高中的班级规模越大，成绩越好。

4. 近五年国内实证研究存在的问题

近五年来，国内相关研究已有一定研究成果，但还可能存在如下几点不足。第一，专门研究班级规模的实证研究仅发现两篇（郑琦和杨钋2018，崔盛和吴秋翔，2019）。在其他相关研究中班级规模仅是控制变量，并不是文章研究的重点，故没有考虑班级规模的内生性问题。第二，崔盛和吴秋翔（2019）采用CEPS 中的认知能力代替学业能力，控制2013—2014 年认知能力，分析2013—2014 年班级规模对2014—2015 年学生认知能力的影响。该研究用认知能力代替学业能力可能欠妥。学业能力在一年内可能很容易发生改变，但认知能力很难在一年内发生改变，尤其是当改变认知能力的因素是班级规模时就更难以令人信服（CEPS 数据使用手册中已指出，认知能力测试试题不包括学习课程所教授的具体识记性知识，而是测量学生逻辑思维和问题解决能力）。第三，郑琦和杨钋（2018）用大量篇幅阐述了班级规模可能和家庭背景和学生特征相关，因此采用泛匹配法解决样本内生性问题。但是该研究遗漏了一个最重要变量，即学生的前期学习成绩，没有采用增值模型导致的偏差要远大于其采用泛匹配法解决的样本自选择带来的偏差。第四，当前尚未发现基于实验、自然实验或准实验的研究。虽然郑琦和杨钋（2018）在文章中称其通过泛精确匹配构建了准实验的研究设计。但泛匹配法仅基于可观测变量的特征进行匹配，该方法无法克服遗漏不可观测变量导致的估计偏误，很难称得上是准实验设计。

五、教育生产函数研究趋势与展望

近五年来，教育生产函数研究得益于统计学、计量软件和数据获取技术的发展，实证过程的严谨性与结果的准确性得到逐渐提高。本文基于上述国内外文献综述，通过对比近五年与以往文献实证方法和研究内容，总结出近五年教育生产函数研究的六大发展趋势。此外，虽然近五年教育生产函数模型在误差控制较早期有了较大改进，但教育生产的复杂性和联系性等非可控因素的存在决定了改进模型的难度。在实证研究中，针对具体情境选择合适的模型将有助于提高估计的准确性。当前教育生产函数研究还有诸多不足之处，本文在发展趋势的基础上提出相应的建议，并对我国未来教育生产函数的研究进行展望。

（一）识别策略：从相关分析到因果识别

早期教育生产函数较多探讨教育投入与产出的相关关系，但不能识别教育产出是否为我们要考察的教育投入产生的。此外，相关分析在模型设定上也忽略了内生性问题，可能得到有偏的实证结论。近五年来，教育生产函数实证研究逐渐注重因果关系的识别。因果识别方法主要包括三类：第一，控制变量法。教育生产中环境的复杂性决定了教育产出结果的多变性，学生教育获得是家庭和学校共同作用的结果。在探讨教育投入对教育产出影响时，要控制既和教育投入相关又和教育产出相关的所有变量。但现实中调查数据很难获取上述全部信息，进而会导致遗漏变量偏误。第二，自然实验或准实验法。近五年我国教育生产函数领域已有相当的研究采用了诸如倾向得分匹配法、双重差分法、工具变量法和断点回归法等计量方法，并依据外生冲击或政策实施来构造自然实验或准实验，进而解决模型存在遗漏重要解释变量而导致的内生性问题。第三，随机控制实验。相较于控制变量法和准实验法，随机控制实验是识别因果关系最直接有效的方法。随机控制实验最早应用于临床研究和新药实验，近几十年来逐渐受到社会科学研究者的青睐。在我国，鉴于资金投入、伦理道德、协调成本、项目获批难度，随机控制实验研究相对较少。但近五年来较多学者已充分肯定了随机控制实验的巨大优势，其必将在未来教育生产函数实证研究中发挥更大作用。

（二）模型设定：从单层线性到多层交互

早期教育生产函数研究多采用单层线性模型，但要想获得无偏且一致的估计量，方程残差项需满足独立同分布和方差恒定假设。但在教育生产过程中，学生的教育产出受到家庭、学校和班级的共同影响，相同学校或班级学生之间的特征差异要小于不同学校和班级学生之间的特征差异。倘若方程未考虑学生嵌套于班级和班级嵌套于学校的现实情况，把学生、班级和学校放置于同一水平上分析，将导致残差方差与班级或学校层面的变量相关，违背了OLS 回归关于独立同分布和方差恒定的前提假设。实证研究中，解决变量嵌套问题较多采用多层线性模型。例如就两水平线性模型而言，把学生特征变量归为方程第一水平，把学校层面相关变量归为方程第二水平，进而收缩估计，剥离不同水平上的影响因素，并基于变量所在层面分别回归并加权处理。其过程相较于OLS 回归更接近于变量嵌套的真实情况。因此，未来的教育生产函数研究应充分重视教育生产过程中存在的嵌套关系，认识到影响教育产出的多维度变量多重交互这一客观现实。

（三）数据结构：从单期横截面到多期追踪

近五年来，伴随着计量模型和识别策略的不断进步，实证研究对数据的要求也逐渐苛刻（见表1），高质量的数据几乎成为文章能够在顶级期刊发表的必要不充分条件。鉴于教育生产过程的累积性和动态性这一基本事实，数据需要更加注重对教育投入的流量进行精确的追踪和统计，对教育产出的测量需要更加科学和精准。我国当前行政数据获取较难，教育追踪数据库资源有限。数据的相对匮乏，从某种程度上限制了教育生产函数研究在我国的推进和发展。近五年我国教育生产函数研究更多采用国际教育项目数据。部分研究基于研究者自己收集的小规模调查数据，数据结构多为单期，缺乏长期的追踪观测。此外，我国教育生产函数研究采用的数据多针对某地区或某学校展开，研究结论和政策建议的推广存在很大局限。未来我国建立高质量的追踪数据，营造数据共享的良性学术氛围尤为重要和紧迫。例如可以寻求新兴互联网调研经费众筹模式，众筹者在保护期内有数据使用的独享权，避免出现部分学者在数据使用上的搭便车行为。

表1 数据结构、模型选择与一致性

此外，当面板数据获取存在困难时，建议研究者应尽可能获取多期的教育产出数据，并推荐使用增值模型。其理由主要有如下几点：第一，教育投入是流量，教育产出是存量，增值模型通过控制前期教育产出，来研究当期教育投入对当期教育产出的影响，满足了教育生产函数流量投入存量产出的特征。第二，家庭背景和学校特征短期内不易改变，增值模型控制了前期教育产出等于在一定程度上控制了家庭背景和学校特征等不可观测变量，有效解决了模型遗漏变量偏误。第三，前期教育产出有可能会影响到当期教育投入，如果不选择使用增值模型对前期教育产出进行控制，会导致样本自选择导致的估计偏误。第四，控制了前期学业成绩，一定程度上等于控制了不易测量的学生能力（学业成绩和学生能力高度相关），可以有效解决模型存在的内生性问题。因此，未来教育生产函数研究应充分重视教育生产的累积性，在条件允许情况下优先选择多期投入型教育生产函数。若多期投入数据获取存在困难，应尽可能选择增值型教育生产函数。

（四）投入类型：从不可操作到可操作

教育生产函数研究除了帮助寻找出教育产出的决定因素，更为重要的是能够指导政府、学校和家庭进行科学合理的教育投入，以最小投入获取最大程度教育产出。但如果研究关注的教育投入是在短期内不容易改变或不能改变的（如家庭经济地位、父母学历、政治面貌、居住地特征、户口类别、种族、学校选择、同伴构成等），则研究成果的可操作性弱、指导性差，研究结论的政策建议就会大打折扣。近五年来，国内教育生产函数研究更加关注投入的可操作性，包括作业督导、亲子交流、亲子互动、课外补习、学校经费、教师绩效工资等教育投入的研究。上述研究成果可以引导家庭教育行为，优化政府经费投入方式和结构，改进学校的管理模式，具有较强的可操作性。建议未来教育生产函数研究中，学者应多关注可操作教育投入对教育产出的研究，引导教育投入主体通过改变投入方式来获取最大的教育产出，并最终使研究成果能够真正地服务社会。

（五）数据测量：从主观臆断到客观准确

数据的准确性是教育生产函数估计结果准确性的前提条件，建议在条件允许的情况下，优先选择行政数据而非调查数据。以学业成绩数据为例，具体分析数据获取中可能存在的问题，以及由此引发的控制变量的固定效应选择。我国教育生产函数研究中，学业成绩数据存在两方面问题。第一，受限于行政数据获取难度，部分研究的成绩数据取自问卷中学生或家长自报学生成绩在班级中排名，数据过于主观，存在较大的测量误差。有少量研究通过中小学管理信息系统调取了学生百分制考试成绩，但多为区域性数据，样本量较小。第二，当前我国中小学生考试成绩多以优良中差等级划分的形式告知学生和家长，而具体的考试分数根据教育部门的规定不允许公布，且不允许对学生成绩进行班级或学校排名。但是义务教育阶段学生，尤其是小学生的学习成绩多属于优秀水平，学生考试成绩的变异系数较小，会导致研究中教育投入对教育产出影响不显著。因此，未来研究应在条件允许情况下，尽可能获取确切考试分数而非等级，且数据尽可能来源于系统调取而非学生或家长自报成绩，确保数据的客观性。

数据测量方式也会影响模型控制变量选择，下文同样以学习成绩为例，并分五种情况进行分析（见表2）。第一，考试成绩为区县统一命题且区县统一判卷，则学校和班级层面投入对成绩影响应分别控制区县和学校固定效应。第二，考试成绩为区县统一命题但学校自主判卷，鉴于不同学校判卷尺度差异，学校间学生成绩不具有可比性。该数据不能研究学校层面投入，但可以研究班级层面投入对成绩影响，并控制学校固定效应。第三，考试成绩为学校统一命题、学校统一判卷，该数据不能研究学校层面投入，但可以探讨班级层面投入对成绩影响，并控制学校固定效应。第四，考试成绩为学校统一命题、班级自主判卷。鉴于不同班级老师判卷尺度差异，班级间学生成绩不具有可比性。该数据不能用于学校和班级层面投入对成绩影响的研究。第五，考试成绩为班级自主命题、班级自主判卷。该数据不能用于学校和班级层面投入对成绩影响，但可以研究家庭层面投入对学业成绩的影响，并应控制班级固定效应。未来教育生产函数研究参照上文涉及的五种情况，应有选择地控制区县、学校或班级固定效应，以提高实证结果的准确性。

表2 命题、判卷形式和固定效应选择

（六）影响类型：从评价效果到破解机制

教育生产函数研究的是教育投入对教育产出的影响，但随着中介效应模型和STATA、AMOS 等统计软件的发展，近五年研究不仅关注教育投入对教育产出的影响，更关注教育投入如何影响教育产出，即探讨投入和产出之间的内部影响机制。中介效应模型最近几年在教育学、心理学领域的实证分析中得到了大量使用，其通过逐步检验回归系数、系数乘积检验（Sobel 检验、Bootstrap 检验）、系数差异检验来分析自变量对因变量的影响路径。例如以家庭层面教育投入对教育产出的影响为例，近五年来国内的研究中，薛海平（2018）发现，家庭背景通过影响子女的课外补习机会，进而影响子女学业成绩；李波（2018a）发现，家庭背景通过影响诸如作业督导、亲子阅读、亲子活动、亲子交流、家校互动等父母时间投入，进而提高子女非认知能力（包括自尊、自我控制、人际交往、学校适应、领导力、合作），并最终影响子女的学习成绩；李忠路和邱泽奇（2016）发现家庭背景通过教育参与和行为支持来影响子女学习行为和态度，并最终影响子女的学习成绩。因此，未来教育生产函数研究中，学者不仅要识别教育投入对教育产出的影响，更要分析教育投入对教育产出的影响路径，破解教育投入对教育产出影响机制的“黑箱”。