基础教育质量指数构建的模式与途径＊

2021-04-24张佳慧

华东师范大学学报（教育科学版） 2021年4期

张佳慧李峰辛涛

（1. 北京师范大学中国基础教育质量监测协同创新中心，北京 100875；2. 江西财经大学统计学院，南昌 330013）

提升教育质量对国家的未来具有重大意义。我国在过去三十年内在基础教育领域取得了巨大成就，随着2015 年小学学龄儿童净入学率达到99.9%，基础教育事业已经基本在“量”上达标，社会开始对教育的“质”有了更多关注。2015 年中国基础教育质量监测开始正式施测，2019 年《中共中央国务院关于深化教育教学改革全面提高义务教育质量的意见》（以下简称《意见》）等文件聚焦基础教育质量提升，“教育质量”逐渐成为关键词。一些重要国际组织的文件中也体现出对教育质量的重视，例如，在联合国教科文组织的《仁川宣言》中，强调了“优质教育”，并将全球教育2030 年的发展愿景概括为“确保全纳、公平、优质教育，增进全民终身学习机会”。

习近平总书记在2018 年全国教育大会上强调了科学的教育评价导向的重要性，而提升基础教育质量则需充分发挥教育评价的导向作用。2020 年6 月，中央全面深化改革委员会第十四次会议审议通过的《深化新时代教育评价改革总体方案》（以下简称《方案》）明确提出了改进结果评价、强化过程评价、探索增值评价、健全综合评价等举措，为基础教育质量评价指明了方向。为建设科学的、符合时代要求的基础教育质量评价机制，本文提出构建基础教育质量指标体系以及综合指数的方法，通过基于指数的教育评价促进教育质量提升。

指数法是通过量化的指标或指数来对社会经济现象进行综合评价的统计方法，已经历了几百年的发展历史（徐国祥，2004；庄艳，2009）。相较于复杂的统计建模方法，指数的计算过程一般更简单、透明，容易被公众接受。指数法已经广泛应用于综合国力、生活质量、物价变化、经济发展水平、教育发展水平等的评价。本文将从指数构建的角度来探讨对基础教育质量进行综合评价的途径，首先回顾教育指标体系和教育指数的相关探索为基础教育质量指数的构建提供参考，然后明确我国基础教育质量提升对质量指数构建的要求，并在此基础上提出构建我国基础教育质量指数的可能途径。

一、基础教育质量指数构建的已有探索

狭义的指数（index）指的是多个指标（indicator）的综合；广义的指数指的是量化社会经济现象的相对数，单个指标也可以独立作为指数。一般来讲，教育指数或指标是与教育系统的期望结果相关联的统计量，能够提供描述教育系统的某个显著特征（Creemers & Kyriakides，2010）。相关统计量要成为教育指数或指标还需要满足一些条件。有研究者将教育指数或指标比作反映教育系统健康状态的生命体征（Nuttall，1994；Oakes，1989），这就意味着一个变量要成为教育指标或指数，必须对教育系统的健康发展有实质性的影响。还有研究者进一步规定教育指标或指数必须有可用以评价的标准（Creemers &Kyriakides，2010；Shavelson et al.，1989），即通过与一个或多个参照点进行比较，给指标或指数赋予意义。

作为一类特殊的教育指数，基础教育质量指数旨在反映基础教育阶段县域或学校教育质量（quality of education or educational quality），与教育质量标准密切相关。教育质量指数的概念需和经济统计学中的“质量指数”加以区分，前者与其他教育指数一样，是由多个指标合成的综合指数；后者一般指反映品质指标变动程度的相对数，如产品价格指数、产品单位成本指数（王健健等，2005）。大多数教育质量的评价实践在表述上回避了“质量”的提法，也没有对教育质量进行明确定义，但实质上是在尝试评价教育质量的某个或多个方面。这是由于教育系统是处于一个更大的生态系统之中的复杂系统，不断与外部系统进行交互作用和交互影响，因而教育质量的概念往往是模糊的（Tovey，1994）。虽然理论上难以清晰地界定教育质量，但各国和世界组织都在实际操作中尝试测量、监控教育质量，而建立教育指标体系、合成综合指数则是常见的评价方法。需要注意的是，由于教育质量指标或指数的提法比较少见，下文一般笼统地称教育指标或指数。

教育指数的构建一般遵循指数法的一般程序和原则，同时也需考虑教育的特殊性和复杂性。这一部分将介绍教育指数方法的三个核心环节，即指标体系的构建、具体指标的选择、综合指数的合成，同时回顾已有的教育指标体系和教育指数的经验。无论最终是否合成一个综合指数，指数构建的第一个环节是构建指标体系，第二步则是在指标体系的基础上选择合适的指标并提供相关的效度证据。指标体系建立后，指数的合成首先需要对指标进行标准化或去量纲化，然后考虑对指标进行非线性转换，最后确定将指标合成为指数的方法及指标权重。

（一）指标体系

基础教育质量指标体系的确立取决于对基础教育质量内涵的认识以及教育评价的目的。对基础教育质量内涵的认识决定了指标体系的复杂程度。考虑到教育是个复杂的系统，对某个教育系统的全面评价一般不依赖于单一的信息来源，很多国家的教育指标体系都包含了众多指标。例如，芬兰的指标系统涵盖了入学率、师资、教育经费、毕业率、学生学业成就水平、就业率以及社会结果等（Haven，1999）。研究者分析了美国、英国、芬兰、德国等12 个国家的教育指标体系，发现大多数指标可以归纳到背景（Context）- 投入（Input）-过程（Process）-产出（Product）（简称CIPP）的框架下（Poliandri et al.，2010）。根据CIPP 框架构建教育指标体系，一般的做法是将背景、投入、过程、结果四个维度细分为更小的领域，再为各个领域内选择合适的指标。表1 列举了各个领域中的常见指标（Poliandri et al.，2010）。如果采纳系统的教育质量观，并且以全方位评价教育质量为目的，一般采用CIPP 框架构建指标体系。除了系统的教育质量观以外，还有的教育评价实践把教育看作社会发展进步的成果，是基本人权被保证和实现的程度，在对教育系统进行评价时关注教育惠及人群的多少或接受教育水平的高低等教育结果。这一类的代表包括联合国人类发展指数（Human Development Index，HDI；United Nations Development Programme，2019）和OECD 美好生活指数（Better Life Index；OECD，2020）中的教育指数等，其指标体系中仅纳入少数几个重要的教育结果指标。

表1 基于CIPP 框架的教育指标体系以及常见指标

还有一类指标体系的构建是为了监测教育系统是否达到特定的发展目标，其代表有欧盟教育与培训监测指标和美国STEM 教育指标。2007 年欧盟理事会做出《关于监测里斯本教育与培训目标进展的指标和基准统一框架的结论》，提出指标体系要与欧盟教育与培训的总体目标和分目标保持一致，最终确定了16 个核心指标（Council of Ministers of Education，2007）。在《教育与培训监测2019》报告中，欧盟重点监测了其中六个指标，包括早期离校生比例、高等教育率、学前教育参与率，以及阅读、数学和科学素养低成就学生比例（即PISA 测验水平2 以下15 岁学生比例）、毕业生就业率、成人学习参与率。虽然这六个指标不足以反映教育系统的全貌，但体现了欧盟近期重点关注以及希望重点改善的方面（European Commission，2019）。美国国家研究委员会（National Research Council，NRC）2011 年报告为成功的STEM 教育提出了九条建议，同时也是九项发展目标，包括“学区应该保证他们的STEM 课程聚焦每个学科最重要的主题，并且课程要求严格、主题的组织清晰”等（NRC，2011）。国会要求国家科学基金提出可用于为实现最终目标追踪进步的方法（NRC，2011）。随后NRC 组建了委员会，针对2011 年报告的9 条建议提出了由14 个指标构成的指标系统，涵盖了学生学习机会、STEM 师资力量、STEM政策和资金等方面（NRC，2013）。这一类指标体系的问题在于发展目标通常聚焦教育系统的某些方面，因而指标体系体现出的教育质量是片面的。例如，欧盟教育与培训2019 年报告中的六个指标都是教育结果指标，忽略了过程质量；又如美国STEM 教育指标体系仅关注科学和数学学科。

（二）具体指标

一般来讲，只要是与期望的教育结果有关联的统计量都可以作为教育指标。多个国家根据CIPP 框架建立了包含多个教育指标的指标体系，能较全面地反映该国的教育发展状况，但未合成一个综合指数，对教育系统进行评价时一般同时考虑指标体系中的多个单独的指标。例如，俄罗斯的普通教育质量评估体系包含85 项具体指标（俄罗斯联邦教育部，2017）。从理想的角度来讲，要客观、全面地评价一个教育系统，应当尽可能地细化框架，囊括更多的指标。但如果要合成综合指数，指标系统能够容纳的指标则是有限的，对指标的选择需要更加谨慎。这是由于当待评价的客体非常复杂时，太多的指标反而容易引入过多噪音，模糊了关键问题，使指数的含义变得含混不清。此外，随着评价规模的增长，可获得的指标就更有限了。在教育领域，多指标合成指数的代表有HDI 中的教育指数（UNDP，2019），美好生活指数中的教育指数（OECD，2020），巴西的教育质量指数（Brazilian Education Quality Index，Ideb；Buchmann & Neri，2010），长江教育研究院研制的中国教育指数（张炜，周洪宇，2019）等。其中，中国教育指数由12 个维度（即规模、投入、质量、信息、公平、贡献、创新、创业、创造、健康、生态和法治）的34 个指标构成，其中质量维度有3 个具体指标。HDI 和美好生活指数中的教育指数以及巴西的Ideb 则仅由2—3 个指标构成。不过，教育仅仅是HDI 和美好生活指数的一个维度或领域—HDI 共涉及3 个维度共4 个指标，OECD 美好生活指数则包含来自11 个领域的共22 个指标。

进一步分析HDI 和美好生活指数的教育指数、中国教育指数的质量维度以及巴西的Ideb 中涉及的指标，根据CIPP 框架可分为投入和结果两类。中国教育指数的质量维度指标中的师生比和专任教师学历达标率都是投入指标。而HDI 和美好生活指数的教育指数则是由结果指标构成：HDI 的教育指数是预期受教育年限（25 岁以上成年人受教育年限的平均值）和平均受教育年限（根据目前各阶段入学率估计刚入学的儿童一生中预期接受教育年限）的等权重算术平均数（UNDP，2019）；OECD 美好生活指数，其中教育指数的二级指标是高中学历比例，学生技能（即PISA 分数）和受教育年限（OECD，2020）。巴西的Ideb 由通过率和学生学业成绩两个结果指标合成，但合成方法是将学生数学和葡萄牙语成绩的标准等级与由年级平均通过率计算得到的完成学年的平均时间相除，再进行转换后得到取值范围在1—10 之间的指数（Buchmann & Neri，2010）。因此Ideb 也可看作成绩产出与时间投入的效率比。以上四个指数均未涉及过程指标，一方面是由于教育指数一般用于国家、省市、区县层次的教育评价，而过程指标的大规模数据获取比投入和结果指标更加困难。美国STEM 教育指标中包含了一个典型的过程指标，即体现“课堂教学内容和实践是否覆盖了数学和科学课程标准”的学生学习机会指标，但报告同时指出该指标的测量如何实现还需要进一步的研究（NRC，2013）。

结果指标是现有指数中最常见的，可分为两类：第一类教育结果指标反映学生受教育总体情况的基本教育结果，如各阶段入学率或受教育年限；第二类教育结果是随着测评理论和技术的进步而日趋成熟的，对学生在各个学科领域的发展水平的测量。随着国际标准化测验的发展，国际教育领域倾向于将能够反映学生所学知识和技能的认知测验结果作为教育结果的指标，如国际数学和科学教育发展趋势研究（Trends in International Mathematics and Science Study，TIMSS）和国际学生评价项目（Programme for International Student Assessment，PISA）对学生成就或素养的测量。世界银行的一系列报告中采用学生学业成就分数作为教育质量指数（Angrist，Patrinos，& Schlotter，2013；Altinok，Angrist，&Patrinos，2018；Altinok，Diebolt，& Demeulemeester，2014；Hanushek & Wößmann，2007）。其中，Hanushek和Wößmann（2007）结合了多个学生测验的结果，将不同来源的分数链接到共同的量尺上，探讨教育质量与经济增长之间的因果关系。他们把教育质量加入已经包含最初收入和受教育年限的模型之后，模型所解释的经济增长变异（矫正的R2）从0.25 增加到0.73。Altinok，Angrist 和Patrinos（2018）进一步建立了教育质量全球数据库Global Data Set on Education Quality（1965—2015），收集了1965 年以来大量测量学性质良好的国际或区域性学生成就测验数据，将它们链接到共同的测量系统，得到的数据库包含163 个国家和地区1965 到2015 年的教育质量数据。以上研究者的目的并不是提供教育质量的完美测量，而是提供一个实用的、严谨的、国际间可比、跨年份可比的教育质量水平估计。由此得到的具体的教育质量指标有两个，一是达到特定水平的学生百分比，二是成绩均值。事实上，学生学业成就分数广泛应用于教育和经济研究，虽然大多情况下没有明确地作为“教育质量指数”，但往往被看作教育质量水平的测量。例如，PISA 通过学生素养分数来比较国家或地区的教育水平，将较高平均分和较小的校间差异作为教育系统“优质均衡”的表现（张民选等，2011）。

（三）综合指数

下面介绍综合指数合成的三个环节，即指标的标准化、加权以及合成。为了使指标内部具有可比性，需要建立统一的量尺，比如PISA 的分数量尺。另一种方法是采用相对指标：一是强度相对指标（也称为有名数），是一个统计量相对于另一个参照统计量的比值，如生均教育经费；二是结构形式指标（也成为无名数），反映部分与总体的关系，如达标率（王健健等，2005）。如果要进一步合成指数，还需要对各个指标进行去量纲化或标准化。结构形式的相对指标（如百分比）已经具有统一的量纲。对于其他指标，常用的标准化方法是最大最小值法，也称线性无量纲化函数（苏为华，2000；王志平，2007）。将原始指标X进行转化，一般的公式为

其中X0代表下限、不容许值或极小值，X1代表上限、满意值或极大值。一般情况下，如果X达到（或超过）X1，则I=1；如果X小于或等于X0，则I=0。经过转换后，各项指标处于相同数量级上。需要注意的是，两个阈值X0和X1并非一定是观测值中的最大值或最小值，而是根据实际情况人为设定。X0的设置应考虑到子群体的指数值。例如，《1995 年人类发展报告》人均GDP 的下限由200 美元调整为100 美元，这是因为一些国家妇女人均收入更低，因此计算女性的HDI 时，200 美元的下线就不合理了（UNDP，1995）。X1可能低于观测值中的实际最大值，例如，《1990 年人类发展报告》根据9 个发达国家的平均国内“贫困线”确定（UNDP，1990），《1994 年人类发展报告》则采用了全球均值（UNDP，1994）。再例如《2019 年人类发展报告》中，预期受教育年限的上限为18 年，根据公式（1），观测值超过上限的部分对指数的“贡献”为0，即超过18 年也算作18 年（UNDP，2019）。如果认为这样“一刀切”的方法修正过于剧烈，可以采用混合的转换方法，考虑超过阈值部分的贡献。也可以采用如公式（2）中的非线性转换，使得X的增加对指标的贡献呈平滑递减的趋势。

指标权重的处理可分为三类。第一，用客观的方法确定各个指标的权重，常用方法是基于专家咨询的德尔菲（Delphi）法（徐蔼婷，2006）和层次分析法（郭金玉，张忠彬，孙庆云，2008）。德尔菲法本质是一种反馈匿名函询法，征集专家意见后进行整理和归纳，再反馈给各专家，多次重复直到取得一致意见。层次分析法则要求专家对各层次元素的重要性进行两两对比，得出相对重要的比较权。中国教育指数（张炜，周洪宇，2019）同时采用了德尔菲法和层次分析法，为两级指标/指数制定了权重。还有一些基于数据的权重设定尝试，如主成分分析法（杨永恒，胡鞍钢，张宁，2005）。第二，等权重也是指标体系中常见的处理方法，如HDI 中的教育指数。也有的研究虽然使用了类似德尔菲法的专家咨询法，但考虑到每个指标都代表了一个重要领域，最终仍然使用了等权重的处理（李晓西，刘一萌，宋涛，2014）。第三，采用等权重处理与用户自定义权重相结合的方法。OECD 美好生活指数对11 个指数（住房条件、家庭收入、工作、社区环境、教育、自然环境、公民参与、健康、生活满意度、安全度以及工作生活平衡度）进行等权重的处理，但在其官方网站上提供用户自定义权重的选项，访问者可以给11 个指数赋予不同的权重，得到最终的美好生活指数以及各个国家的排名（OECD，2020）。确定了指标权重后，通常使用（加权或不加权的）算术平均和几何平均对指标进行合成。二者的关系是几何均值小于算术均值。在选择合成方法时还需注意，几何平均数易受极小值的影响，变量离散程度越大则几何平均值就越小。因此，如果要强调各个指标的均衡发展，惩罚落后的指标，更宜选择几何平均。如果允许各指标之间的等量补偿，即“取长补短”，可采用算术平均（李晓西，刘一萌，宋涛，2014；苏卫华，2000）。例如，HDI 是三个维度指数的几何平均值，而各个维度指数则是组成指标的算术平均值（UNDP，2019）。

二、我国基础教育质量提升对质量指数构建的要求

目前，我国基础教育已经迈入全面提高教育质量的新阶段，但贯彻落实的工作还任重道远。教育指标或指数已经在国内外教育评价和治理中发挥了重要的作用，具有合成过程简单、容易理解、容易使用、公开透明等优点。从第一部分的回顾可见现有教育指数存在两个问题。一是缺少专门针对基础教育学段的教育质量指标体系以及指数，例如中国教育指数旨在全面测量全国及各省（自治区、直辖市）的教育综合治理水平，涉及到义务教育、高等教育、成人教育、科技创新等多个方面。二是缺乏反映教育过程质量的指标，不能全面地体现基础教育质量。虽然仅包含结果指标的指数能够在一定程度上能够反映教育质量的水平，但对于质量提升的作用有限。在提升基础教育质量成为现阶段重要目标的背景下，有必要构建科学的、符合时代要求的基础教育质量指数。我国提升基础教育质量的目标和新时代教育评价机制改革的趋势对基础教育质量指数的构建提出了以下具体要求：

第一，以提升教育质量为目的构建基础教育质量标准和指标体系，实现全面的、动态的评价。构建基础教育质量指标体系和综合指数，是为了提升教育质量、促进学生全面发展的教育目的。美国国家教育协会提出，脱离教育目的而单一讨论教育评价方法的改进不能体现教育评价的价值（National Education Association，2010）。《方案》则重申了我国教育评价的价值取向。为了提升基础教育质量，有必要专门为基础教育学段制定教育质量标准，并构建教育质量指标体系和综合指数。其中，基础教育质量标准的制定是基础教育质量评价的前提和基础（辛涛，姜宇，2012）。在测评实践中，有关具体质量标准以及指标体系的讨论多见于学前教育、高等教育和职业教育领域（黄芳，2018；戚兴华，2019；张小波，2013）。而基础教育由于其覆盖率高、时间跨度大、肩负的责任重大，其内涵非常复杂，如何制定出权威的基础教育质量标准仍需要更多理论构建与实证研究。为了真正落实以评促进，过去单一的结果评价、静态评价已经不再满足时代的需求。基础教育质量指数应该发挥教育质量保障体系的重要作用，能够通过指标体系和指数的科学使用，改进教育工作，提高教育质量，探索有利于学生全面发展的教育模式，这就要求基础教育质量指标体系能够反映全面的、系统的、基于标准的教育质量。为了及时追踪进步、发现问题，指标体系和综合指数的构建应该充分利用人工智能时代的新技术，与大数据平台结合，建立动态的评价体系。

第二，基础教育质量从外延扩展转向内涵提升，兼顾过程质量和结果质量。为了全面地评价基础教育的质量并据此提升教育质量，应建立起系统的教育质量观，考虑教育质量的多个要素和多个层面。有研究者借鉴工商业中质量管理的思想，将教育看作公共产品或服务，任何产品、服务或过程只要符合要求就是有质量的产品、服务或过程（程凤春，卫喆，2012；Stensaker，2007）。这种基于标准的教育质量观，将教育质量的评价从教育结果扩展到了教育过程，能够在一定程度上解释教育结果、发现提升教育质量的突破口。《方案》提出的“改进结果评价，强化过程评价，探索增值评价，健全综合评价”，也体现了系统的、以学生全面发展为核心的、并重过程和结果的教育质量观。学生的全面发展是教育的目标，因此体现发展结果的指标理应成为教育质量概念的核心内容，因为不强调结果可能导致人才培养的弱化（周光礼，袁晓萍，2020）。但仅仅评价教育结果还不足以描绘教育质量的全貌，并且难以根据结果的评价去提升教育质量，因此对结果质量的评价应该结合教育投入和教育过程两个方面。其中，教育投入的指标已经被纳入到大多数指标体系中，但教育过程的指标较为少见，需要加强。对教育过程的评价体现了反馈性的评价思维，突出评价的诊断功能（周光礼，袁晓萍，2020）。为提升基础教育质量，其评价应并重过程与结果，既评价结果的质量，也评价形成中的过程质量。

第三，以促进学生全面发展为目标，应实现多方参与的综合评价和不同层面的评价。综合评价有两层意思：一是前文提到的评价的全面性，指的是对教育投入、教育结果（包括学生学业成就与非认知发展结果）、教育过程的综合评价；二是教育评价活动由多方参与（周光礼，袁晓萍，2020）。长期以来，教育评价主要以政府为主导地位，而学校、学生、家长、社会等利益相关主体并未充分参与教育评价，这样的模式造成了评价的片面化。而协商评估，即鼓励由政府、学校、家长及社会各方面参与的教育评价是我国教育评价改革的一项重要内容，“办好人民满意的教育”是中国特色社会主义教育的本质要求。因此，对基础教育质量的评价必须考虑包括教师、家长和学生的多方利益者诉求，并且赋予他们参与的权力。多方参与的教育评价能够提高利益相关者的归属感和认同感，更好地了解不同群体对教育质量的认识和期望，有助于实现“人民满意的教育”。构建指标体系和指数的过程中，应重视不同层面教育评价的需求，开发适用于省市、区县等不同层级的指标。教育质量指数要为不同层级的教育行政部门提供资源配置和学校管理等方面的诊断信息，指明教育质量的薄弱环节并提出适切有效的质量提升方案。

第四，科学地使用指数进行教育质量评价，防止“唯指数”的可能误区。首先，要科学地看待基础教育质量指数。基于指数的教育评价是实现教育目的的手段之一，不能混淆手段与目的，为了评价而评价（刘志军，徐彬，2019）。构建科学的指标体系和综合指标是为了发挥教育评价指挥棒的正面导向作用，切忌走向“唯指数”的极端。基础教育质量的评价主要针对CIPP 框架中的投入、过程和结果，但在理解教育质量的内涵时，还需意识到学生的发展是多因素共同作用的结果，其中有一些因素是教育系统本身难以控制的，即CIPP 中的背景。因此，对教育质量进行评价时应把握教育的边界，把人的发展和教育结果区分开来，即人的发展具有无限可能性，教育却不是全能的，教育结果是有限的、可预期的。其次，还应该认识到基础教育指数不仅仅是一个分数，还包含整个指标体系以及对应的质量标准。基础教育质量标准和指标体系共同定义了基础教育质量的内涵。质量标准确立了之后，只要是满足标准的教育结果或过程，就是有质量的教育。提升教育质量不在于一味追求学生发展水平的提高或是盲目提升其影响因素的水平，而在于影响因素对学生发展起到多大的作用。提升教育质量的重点在于通过教育教学改革不断消除教育系统本身的误差，使得教育投入和过程因素都能切实发挥作用。

第五，为体现优质均衡的发展目标，基础教育质量指数应兼顾质量水平与公平。十九大报告指出，“努力让每个孩子都能享有公平而有质量的教育”是教育的重要使命，不公平的教育谈不上优质教育。因此，在某种意义上均衡与公平也是广义的教育质量的一部分。有质量的公平也是当前的重要主题。在努力提升教育质量的同时，另一个不可避免的问题是如何合理配置有限的优质教育资源以促进教育公平。因此，在构建基础教育质量指数时，应该思考如何在指数中兼顾质量与公平，更好地发挥价值导向作用。然而，指数一般反映数量或质量的集中趋势（如均值和总量），均衡或公平往往通过离散趋势（如方差）来度量。基于指数的教育评价方法看似与均衡或公平的度量相矛盾，但公平或均衡的信息一般也可以从指标体系的数据中获得，这些信息可以融入到质量指数中。例如，人类发展指数中使用不平等测度对教育指数进行了调整（UNDP，2019）。

三、我国基础教育质量指数构建的可能途径

本部分我们为构建我国基础教育质量指数指出可能的途径或方案。但由于基础教育质量内涵的复杂性，科学地构建指标体系和指数需要多个方面的教育实证研究提供理论和技术支撑（吕晶，2020）。因此，我们在提出可能途径的同时，提出了各方面未来研究的方向。

（一）基于CIPP 框架构建教育指标体系

指标体系的建构应遵循有限但有效的原则，即完美地反映教育质量的各个方面是不现实的，但指标体系应涵盖教育质量的重要元素以及重要影响因素。是否存在一个普遍意义上的教育质量定义仍然存在争议。教育质量的内涵难以界定，在某种程度上也阻碍了对教育质量的评价实践。一个可行的途径是采用CIPP 作为结构框架，明确投入、过程和结果领域中对现阶段质量提升有重要意义且能够获取的指标，在尚未形成公认的教育质量观时，在教育质量指标体系的构建实践中不断收集证据，分阶段逐步完成指标体系的开发，同时不断发展和完善教育质量观的内涵。由于指标体系和指数可能用于不同层次，即全国、省（自治区、直辖市）、区县层次的教育质量评价，还需要考虑适用于不同层次的教育质量指标。教育质量指标可大体分为投入指标、过程指标和结果指标。其中，投入指标（如教育经费投入）和结果指标（如标准化测验达到某一水平的比例）的内涵相对明确、数据来源丰富，但过程指标（如学习机会）相对缺乏。短时间内建立一个完善的指标系统是困难的。在指标系统的框架建立之后，充分利用可获得数据的成熟指标合成阶段性的教育质量指数，对教育质量进行有限但有效的评价。指标体系同时还包含待开发的重要指标，吸引更多研究者参与指标的开发或改进现有指标，不断完善指标体系，最终实现对教育质量的全面评价。例如，欧盟的教育和培训指标体系的构架包含的16 个核心指标根据其可用性和开发程度被分为四类（European Commission，2019）：A 类指标的内涵界定已基本明确，可充分利用现有数据进行监测；B 类指标可基本上依据现有数据，但定义仍需进一步澄清；C 类和D 类指标仍在开发之中。再例如，美国STEM 指标体系中，一些指标的数据比较容易获取，如“各学区各类STEM 学校的数量以及学生人数”和“K-5 年级科学教学时间”。一些指标涉及更复杂的测量问题，没有直接可用的数据，例如“课堂内容和实践是否覆盖了数学和科学课程标准”。因此，委员会指出需要更多研究和数据来支持对K-12 STEM 教育系统进步的监测以及进行改进的政策建议（NRC，2013）。

教育指标选择应该考虑以下一般原则：第一，指标的差异性，具体表现为一些地区或子群体应该在该指标上存在改进的空间。第二，指标的可操作性，指的是该指标可以通过措施或政策指定得到改变，并且提高该指标对改进教育系统具有重要的意义。第三，指标数据可获得性。现实情况下一些指标由于数据难以获得无法入选指标系统，但对于一些关键的指标，可以通过整合多个数据来源或缺失数据填补的方法进行补救。当仅存在少数缺失时，还可以考虑缺失数据填补，如选择邻近年份的数据或所属区域的均值进行填补。但更常见的情况是缺失数据过多。例如，通过标准化测验测量的学生学业成就是一个重要的教育质量指标，有充足的效度证据表明该指标与经济发展的关系（Angrist et al.，2013；Altinok et al.，2018；Altinok et al.，2014；Hanushek & Wößmann，2007）。由于所有OECD 国家都参加了PISA 测验，该指标被包含在OECD 美好生活指数中。但在全世界范围内，就难以找到类似的所有国家都有可靠数据的学生学业成就指标。为解决这个问题，一些研究者尝试将其他国际或地区的标准化测验分数链接到PISA 的量尺上，整合多个数据来源构建学业成就指标（Altinok et al.，2018）。构建我国基础教育质量指数的探索也存在类似的挑战，我国的基础教育质量监测结果可为各省的指标提供数据，但由于国家监测的抽样设计没有覆盖全国所有区县，因而在区县层次缺乏类似基于标准测验的教育结果指标（Jiang，Zhang，& Xin，2019）。未来研究需要探索在区县水平上将多个测验数据来源链接到国家监测量尺上的可能性以及不同的缺失数据填补方法的表现。

（二）为不同层次的教育质量指标提供效度证据

教育质量指标属于教育指标，但不是所有的教育指标都能够作为教育质量指标。教育质量指标选择还有一个关键标准是充足的效度证据支撑，例如表1 中所列举的教育指标能否作为教育质量指标取决于对教育质量的认识以及相关的效度证据支持。合成综合指数所涉及指标个数不宜太多，因此在可用的指标中应该优先选择效度证据充分的指标。目前教育质量指标和指数普遍缺乏效度证据，尤其是本土化的效度证据。效度验证与教育质量指标系统和指数的预期用途以及可能的解释密不可分。简而言之，支持教育指标成为教育质量指标的效度证据应反映该指标在多大程度上影响教育质量，能否提供有用的信息用于提高教育质量。效度验证的一般途径是从指标或综合指数的预期用途以及可能的解释出发，构建效度论证，并在指数构建过程的各个环节收集效度证据（Creemers & Kyriakides，2010；Kane，2006）。效度证据的来源可以是相关研究、政策文本、实证研究等（Kane，2006）。当指标用于不同层级的指数构建时，需要提供全国、省（自治区、直辖市）、区县等不同层次的效度证据。

在构建我国基础教育质量指数的探索中，需要以下几个方面的本土化效度研究：第一，关于教育结果的指标需要加强，具体的研究问题包括如何充分利用国家监测数据和其他标准化测验构建跨年份可比的教育结果指标，该指标与经济增长等重要社会、经济发展结果之间的关系，以及采用达到特定水平的学生百分比或成绩均值作为具体指标对评价的影响。例如，未来研究可以为以下假设提供证据：使用达到特定水平的学生百分比可以引导相关方关注在各指标上处于低水平的地方、学校和学生，加大倾斜力度，有针对性地出台政策措施；使用成绩的绝对数则存在通过培优拉高均值的可能，政策导向可能出现偏差，弱势的地区或群体得不到应有的关注。第二，过程指标的效度验证需要研究，包括对相关指标进行大规模测量的效度问题，例如如何测量学生某一学科的课堂学习机会并从大规模的代表性样本中收集数据。第三，投入指标需在本土效度研究结果的基础上进行选择。例如，班额在欧盟国家中经常被用作质量指标，但我国城镇化和农村空心化的背景下，班额作为质量指标可能存在问题。第四，指标之间的关系也是效度证据的重要组成部分，尤其是各个层次的过程指标与结果指标之间、投入指标与结果指标可能存在的线性或非线性关系，以及各种关系在不同群体中是否存在差异等都是待研究的问题（Creemers & Kyriakides，2010）。

（三）建立多方参与的综合评价系统

传统的指数法由专家组确定指标的权重以及合成综合指数的方法，最终得到一套固定的指数用以教育质量的评价。事实上，指标权重体现了对指标重要性的价值判断，指数合成方法（如算术平均或几何平均）则反映了对指标之间能否相互补偿的认识。由于教育质量是涉及价值判断的高度复杂构念，不同的评价主体能否在权重和合成方法上达成共识是有待研究的问题。OECD 美好生活指数对指标权重的处理提供了另一种新的可能性，即允许根据用户自定义权重合成个性化的指数（OECD，2020）。

我们在构建我国基础教育质量指数的探索中，应充分利用“互联网+”时代的新技术，建立允许多方参与的网络平台。通过用户自定义权重和合成方法的途径使更多利益相关者参与到基础教育质量评价中来。对于地方教育部门，可通过自定义的指标权重体现地方基础教育发展的重心，使得指数更有效地为地方基础教育质量提升服务。

对于社会大众，一方面可以通过自定义权重生成教育质量指数提升其归属感和参与感，让他们对教育质量的内涵有更深刻的认识，更好地发挥价值导向作用；另一方面可以通过相关数据的收集促进研究者和政策制定者对基础教育质量社会表征的认识。未来研究需要探索“互联网+”时代下基础教育质量指数的构建，将指数法与互联网、大数据挖掘、人工智能等技术融合，真正实现《方案》所倡导的多方参与的综合评价。

（四）基于质量标准使用和解释指数

基础教育质量指数能否在提升教育质量中发挥作用还取决于指数的使用是否恰当。为了指导基础教育质量指数的正确使用，在构建指数时应该对未来可能的用途和解释进行明确的规定，事先明确指数在不同层次（全国、省、区县）的科学使用方法。指数常见的用途是进行纵向和横向比较，并以此判断本地区基础教育质量是否提高，探寻与其他区县存在的差距，以此制定行动方案。

未来研究应探索各个层次的指数用以纵向和横向比较的科学方法。对指数的解释应该主要建立在质量标准的基础上，不人为降低，也不盲目拔高，达到现行标准的教育质量就是合格的。但考虑我国各地社会经济发展水平差异大，教育不均衡的情况非常突出，一套标准可能无法满足所有需求。例如，有的省区或者县主要的任务是达到现行标准，而有的地方已100%达标，面对的问题是如何进一步提高整体水平。可将质量标准分为绝对标准和相对标准，前者参照现行标准，后者可参照相对贫困的划分标准，以达到平均水平或是中数水平的50%或40%为依据，各地区可根据自己的实际情况，参考两个标准或选择其中之一为主要标准。未来应加强教育实证研究，为基于质量标准的指数解释以及相对标准的制定提供可供参考的案例。

（五）兼顾质量与公平的指数

为在指数方法中兼顾质量与公平，未来研究可以进行两个方向的探索。第一个方向是充分利用指标系统的数据，计算能够反映教育不均衡的指标，应将其纳入对基础教育质量的综合评价。传统上一般用变量分布的平均水平作为指标，比如各省的数学监测平均分数可以作为教育结果指标。此外，以数学为例，还可以考虑采用以下的统计量作为不平等指标：各省数学监测的第90 百分位和第10 百分位分数的比值，各省不同子群体（如性别和城乡）的数学平均分之差以及各省在合格线以下的学生比例等。如何为各个指标开发对应的不平等指标及不平等指标如何纳入综合指数中都需要更多的研究。

第二个值得探索的方向是构建融合质量水平与公平的指数。例如，UNDP 在人类发展指数的基础上构建了不平等调整后人类发展指数（Inequality-adjusted Human Development Index，IHDI）。不平等调整后的指数根据Atkinson（1970）提出的不平等测度对原指数进行校正，即将原指数乘以数据分布的几何平均值和算术平均值之比（UNDP，2019）。如何将Atkinson（1970）的不平等测度拓展到基础教育质量指数的不平等调整，以及调整后指数的效度验证还需要进一步的研究。

四、小结

国际经验显示应综合使用多种教育评价方法，构建基础教育质量指数是教育评价的途径之一。本文从教育指数构建的角度出发，探讨将指数法应用于我国基础教育质量评价和提升的模式与途径。我们的教育质量观是以学生全面发展为核心，基于质量标准的，并重过程和结果的系统教育质量观。基础教育的投入、过程和结果均达到质量标准就是有质量的教育，广义的教育质量还包含公平和均衡的要求。

我国基础教育已经迈入全面提高育人质量的新阶段，但贯彻落实的工作还任重道远。国家提升基础教育质量的目标和新时代教育评价机制改革的趋势对基础教育质量指数的构建提出了具体要求。本文提出了教育质量指数构建的基本模式与可行的途径，但为了构建科学的、符合时代要求的基础教育质量指数，还需要进一步回答如何选择具体指标和指数以及合成方法等重要问题，在以下几个方面需要进一步研究：包括已有指标数据链接和填补、质量指标的本土化效度验证、构建不同水平的指数并进行效度验证的相关研究、“互联网+”时代的新型指数、综合指数合成方法的比较研究，结合质量标准并正确使用指数的案例、指数用于质量提升的实证研究，以及融合质量水平与公平的指数的构建等。

（辛涛为本文通讯作者，xintao@bnu.edu.cn）