效度视角下的SAT考试开发研究

2020-01-22周云徐梦杰张民选

现代基础教育研究 2020年4期

关键词：效度

周云徐梦杰张民选

摘要：效度是决定考试质量的一项重要指标，但在我国还未引起足够重视，新高考评价体系的实施使得我国考试效度研究迫在眉睫。文章从效度视角探索美国SAT考试开发的实践，提出构建基于论证的考试开发效度验证框架。并通过文本分析和内容一致性分析等方法，论证SAT考试开发的效度。SAT考试效度验证的理论和实践为我国考试测量目标的研制、教育测量技术的应用和考试机构专业化建设提供了启示。

关键词：效度;效度验证;SAT;考试开发

作者简介：周云，上海师范大学国际与比较教育研究院博士研究生，上海市教育考试院助理研究员，主要从事比较教育研究和教育测量研究;徐梦杰，上海师范大学国际与比较教育研究院创新团队成员，博士，主要从事比较教育研究;张民选，上海师范大学国际与比较教育研究院院长，教授，主要从事比较教育研究。]

一、問题提出

2014年，国务院发布了《关于深化考试招生制度改革的实施意见》（以下简称《实施意见》），要求加强高考内容改革顶层设计，指出要依据高校人才选拔要求和国家课程标准，科学设计命题内容。[中共中央国务院：《关于深化考试招生制度改革的实施意见》，转中国政府网：http：//www.gov.cn/zhengce/content/2014-09/04/content_9065.htm，最后登录日期：2017年4月20日。]为全面贯彻落实《实施意见》精神，教育部考试中心历时三年研究，构建了基于德智体美劳全面发展要求的高考评价体系，作为深化新时代高考内容改革和命题工作的理论支撑和实践指南。[李勇，赵静宇，史辰羲：《高考评价体系的基本内涵与主要特征》，《中国考试》2019年第12期，第7页。]我国高考内容改革目前要解决的问题是如何在总体目标的指引下，根据高考评价体系框架，完善考试开发过程，提高命题质量，发挥高考评价的指挥棒作用。

新高考评价体系提出了涵盖考查目标、考查内容和考查要求的“一核四层四翼”整体架构，可以作为检测考试目标实现的评价量尺，也为考试结果的解释和使用提供了依据。但我国目前的考试效度研究理论水平和实践经验还有待提高，借鉴世界上其他国家的高校入学考试效度验证做法，有助于提高我国高考的开发质量。

美国主要的考试机构——大学理事会（College Board，CB）和美国教育考试服务中心（Educational Testing Service，ETS）历来重视考试效度研究。SAT（Scholastic Aptitude Test）是美国大学理事会负责的一项高校入学考试，和ACT（American College Testing）同被我国学界视为“美国高考”。大学理事会每年都会出具SAT效度报告，这些效度研究，使得SAT考试的科学性和权威性越来越强。2014年，SAT考试开始了新一轮改革。改革后的SAT对于效度验证尤其重视，SAT技术手册（Technical Manual）用单独一个章节详尽地阐述了效度验证的过程。[The College Board.Test Specifications for the Redesigned SAT[EB/OL]. https：//collegereadiness.colleg-eboard.org/pdf/sat-suite-assessments-technical-manual.pdf.]详尽的考试开发技术文件和考试说明使得SAT成为一项完全公开透明的考试，一方面体现出考试开发完全遵从教育测量规范的科学精神，另一方面也显示考试机构坦诚交流的专业素养。因此本文将从效度视角[效度（validity）是指为正确解释考试分数累积证据提供充分的科学依据的程度。收集相关证据的过程就是效度验证（validation）。效度总是与考试结果的解释或某种用途有关，是评价考试结果是否达到预期目标和用途的一项重要指标。]研究SAT考试开发和效度验证的过程，探索适应我国国情的考试效度验证模式。

二、基于论证的SAT考试开发效度验证框架

SAT考试的核心功能是测量考生的“大学学习和职业生涯准备”情况。为了实现这个目标，SAT考试通过精心设计阅读、语法、数学和作文考试内容，力图从学生的答题表现中收集能够反映学生在大学学习和职业生涯准备成功方面的证据。如果收集到了所有证据，就能证明SAT考试分数可以有效地解释考试的目标和用途，SAT考试开发是有效的。

1.基于论证的效度验证理论

伴随着教育测量理论和实践的发展，效度验证理论的发展经历了几次更新，大致可分为四个阶段：效标效度、分类效度、整体效度和基于论证的效度。2014年版《教育与心理测量标准》指出，验证效度需要五个方面的证据：考试内容的证据、答题过程的证据、考试内部结构的证据、和其他变量关系的证据、考试结果的证据。[American Educational Research Association A P A， And the National Council on Measurement in Education. Standards for Educational & Psychological Testing （2014 Edition）[M]. Washington， DC： American Educational Research Association， 2014：13-19.]凯恩（Kane）不仅提出要根据考试开发逻辑收集分数解释和使用的证据，还架构起考试分数解释和使用过程中推断、假设和论证的内在逻辑。[周群：《基于论证的我国高考开发质量评价模型研究》，华东师范大学博士学位论文，2011年，第27页。]

凯恩在1990年首次提出基于论证的效度验证理论。2006年，他在《教育与心理测量》（Educational Measurement）一书中对这一理论进行了详细阐述，之后他又在巴赫（Bachman）、查贝尔（Chapell）等人的研究基础上进行了改进，正式确定了基于论证的效度验证模式。凯恩的基于论证的效度验证框架包含评分推断、概化推断、外延推断和内涵推断四个部分。[Brennan， R.L. National Council on Measurement in Education， American Council on Education. Educational Measurement[M]. Praeger Publishers， 2006：23.]本文为了研究SAT考试设计的原理，在凯恩的效度理论框架的四个推断基础上增加了“设计推断”的环节，目的是研究SAT考试开发是如何根据考试目标设计考试内容规范，并证明考试内容规范与考试目标的一致性，这对我国新高考评价体系的实施诊断具有重要参考价值。基于论证的效度验证框架，见图1。

图1 基于论证的效度验证框架

基于论证的效度验证模式采用两步论证方法：第一步是确定考试分数解释的详细内涵，即对考试分数的解释性论证;第二步是效度论证，是对提出的考试分数解释和使用的评价，即效度论证。[雷新勇：《基于标准的教育考试——命题、标准设置和学业评价》，上海科学技术出版社2011年版，第26-27页。]

2.SAT考试开发的逻辑过程（解释性论证）

解释论证是个逻辑严谨的论证文本，其严谨性来自以考试开发的逻辑过程为线索，包括编制考试说明，依据考试说明编制命题蓝图，依据命题蓝图命制试题、组成试卷;根据评分规则对考生应答表现进行评分;考试数据结构检验。解释性论证包括“设计、评分、概化、外延、内涵”五个推断的假设及其证据。[Brennan， R.L. National Council on Measurement in Education， American Council on Education. Educational Measurement[M]. Praeger Publishers， 2006：23.]圖1中解释论证部分的目标领域是根据考查目标进行分解的考查内容领域或考查能力，是可以从学生答题上观察到的表现。观察到的学生答题表现是根据试卷进行评分的结果（原始分数或者量表分数），将观察到的分数推广到概化全域分数，再将概化全域分数推广到目标领域分数，最后与考查特征相关的内涵被附加到目标领域分数上了。

在没有技术手段保证的前提下，每个逻辑环节都有可能偏离教育测量学要求。因此，基于论证的效度验证模式的解释性论证部分以考试分数与预设解释一致为前提，从教育测量学视角提出每个逻辑环节成立所需要的假设及其证据。

3.SAT考试开发的效度论证框架

效度论证是对解释性论证的证明。SAT考试开发的效度论证就是要依次收集“设计推断、评分推断、概化推断、外延推断、内涵推断”这五个环节的证据。具体方法是围绕SAT考试试卷和相关考试说明及技术文本，对每个推断需要的假设进行逐一证明。根据SAT考试解释性框架提出的假设和证据，建立包含“设计推断、评分推断、概化推断、外延推断、内涵推断”的效度论证框架，共包括9个假设，12个证据，如表1所示。

凯恩的基于论证的效度验证理论隐含着项目评价的思想。考试的效度检验将考试作为项目来评价，需要评价考试项目的背景，包括考试目的、考试分数的预期解释、考试开发的条件等。在收集证据之前先要回答“需要收集哪些证据，为什么需要收集这些证据”。因此，根据效度论证框架，评价过程不仅表现为效度论证和解释论证之间的互动，而且证据之间也是一种递推关系：只有当上一个证据得到证明，才能收集下一个证据。这种递推的关系将效度证据紧密联系起来，实现一个逻辑严密的论证体系。

三、SAT考试效度论证过程

新一轮SAT改革最主要的目标是更好地实现所有学生为大学学习和职业生涯做好准备。2010年6月，美国各州联合开发了面向大学学习和职业生涯准备的《州际共同核心标准》（简称“CCSS”）。在全美教育目标和课程标准的前提下，SAT考试开发设计就有了统一的依据。

1.研究目标

研究目标是在假设SAT考试开发有效的前提下，学习SAT考试设计和开发的经验。SAT最新的技术手册通过交代SAT考试要收集的证据，包括基于内容的证据，新SAT和旧SAT分数之间的一致性证据，SAT分数与大学一年级特定科目的平均成绩（FYGPA）和课程成绩之间关系的证据等，论证SAT考试开发的效度。 [SAT Suite of Assessments Technical Manual[EB/OL]. https：//collegereadiness.collegeboard.org/pdf/sat-suite-assessments-technical-manual.pdf.]从效度理论发展进程来看，这种证据收集方式似乎还停留在整体效度阶段，即已经认识到一项考试要搜集多方面的证据才能证明其对分数解释和使用的有效性，但是仍未提供这些证据之间存在的内在逻辑关系。

本研究将采用基于论证的效度验证理论对SAT考试开发进行效度论证，通过五个推断所需要的假设和证据，架构起考试分数解释和使用过程中推断、假设和论证的内在逻辑，通过从考试目标的设计到考试分数的解释证据层层传递，形成一个闭环的论证系统，来验证新一轮改革的SAT考试开发能否真正收集到考试分数预期解释证据，也就是“SAT考试能否有效测量大学学习和职业生涯准备”这一目标。

2.研究对象

大学理事会在大量研究和广泛调研的基础上，制定了SAT考试应该考查的测量目标。围绕测量目标以及大学学习和职业生涯准备标准，SAT将要测量的学生大学学习和职业生涯准备方面的能力分解到SAT考试的各个部分。在SAT试卷中，阅读、语法、作文和数学部分考试的每道试题都对应了SAT考查的一个或者多个维度的内容和能力。SAT的考试总体框架如表2所示。

SAT考试测量目标的分解过程和考查方式是通过考试说明和技术手册等文本进行说明的。2014年新一轮SAT改革方案提出以后，大学理事会官网就发布了《SAT考试说明》（Test Specifications for the Redesigned SAT）和《SAT技术手册》（SAT Suite of Assessments Technical Manual）。2017年第一次考试当年，大学理事会就发布了一套样卷，以后每年都会在官网上发布一套样卷，同步发布的还有SAT考试的试题答案和评分规则。

考试说明中的考试内容规范和试题内容规范是考试设计与开发的基本依据，试卷是考试设计与开发的最终产品，考试说明和技术手册是考试设计和开发的重要“使用说明书”，这些文本是构成考试开发的基本材料。SAT考试在这些基础材料的标准化编制和信息公开方面做得非常细致和规范，本文将以《SAT考试说明》《SAT技术手册》以及SAT试卷和评分标准等相关材料为研究对象，研究SAT考试开发和效度论证的过程。

3.研究方法与过程

在“设计推断”论证过程中，采取文本分析法，对SAT各科目考试内容规范（包括考试内容规范和考查的关键特征）与SAT考试测量目标进行一致性分析，对各科目考试的内容领域与课程标准进行一致性分析，然后再对试题内容规范与考试内容规范进行一致性分析，最后通过提供SAT考试的试测环节有比较完备的质量保证机制，证明SAT考试试题质量符合教育测量学要求。通过收集以上四方面的证据，论证考试内容设计是规范的，试题内容和试题质量是符合要求的，从而证明SAT各部分考试内容规范对命题的指导是有效的。

在“评分推断”论证过程中，通过文本分析法对SAT考试的技术手册等SAT技术资料进行分析。SAT考试题型为选择题和网格填空题，且评分采用机器扫描答题纸的方式自动评分，选择题选项的改革也从理论上避免了可能由考试策略带来的误差，网格填空题也体现学生真实自然的答题结果，因此可以证明SAT考试的选择题和填空题的评分规则是适当的。其次通过研究SAT技术手册中关于分数量表研究过程和结论的描述，说明分数量表设置也是合理的，从而证明SAT考试的评分是有效的。

在“概化推断”论证过程中，采用文本分析方法，对SAT官方发布的一套样卷进行试题分析，完成154道试题的内容领域、内容维度、行为描述等信息的编码，并采用韦伯（Webb）内容一致性分析工具，对内容领域和目标领域的一致性进行论证。得出“试题考查的关键特征都在SAT考试内容规范规定的范围内，且与各部分的关键特征和题量分布与考试内容规范要求完全一致”的结论。由此证明SAT试题是样本的有效单元，可以概化到全域。

在“外延推断”论证过程中，采用Webb内容一致性分析工具，对SAT内容领域和目标领域进行一致性分析，论证SAT试卷有效覆盖了考试内容规范规定的主题和内容知识，因此可以证明概化全域的内容覆盖范围与目标领域一致，外延推断论证成立。

在“内涵推断”论证过程中，通过分析七个子维度和两个跨学科专题[SAT考试分数报告需要单独报告七个子维度分数和两个跨学科专题分数，这是新一轮SAT改革设计的需要考查的关键特征，旨在用于识别考生的优势和劣势，以及学生在阅读、语法和数学的核心技能应用于特定学术背景方面的成绩。]在整套试卷上的权重，发现与考试内容规范表中的权重完全一致，说明考试分数结构与考试内容规范结构相一致，由此可以证明考试分数表征的特征内涵与考试预设解释一致。

综上所述，根据SAT考试分数解释性论证框架，经过五个环节的推断论证，能够收集到SAT想要收集的证据。验证过程中分析的材料来源、收集到的证据和证据收集方法，见表3。

4.研究结论

按照以上方法，SAT解释性论证中所提到的9个假设和12个证据均已收集到，说明SAT考试开发的整体效度是好的。但采用基于论证的效度模式进行论证结果发现，SAT效度也并非它自身所宣称的那么理想，例如，虽然SAT全卷的覆蓋率超过了50%，达到了标准，但是SAT语法部分和数学部分的内容在每个主题和行为目标的覆盖度方面没有达到标准。基于这样的分析结果，SAT的未来调整可以有两个方向：一是调整语法和数学考试的内容领域，使其更聚焦;二是调整试题考查的行为目标分配比例。但是无论如何调整，都必须按照考试开发流程重新进行效度验证，以确保没有因为调整一个证据而影响其他证据的收集。

综上所述，可以得出结论：SAT考试结果能够支持对考试分数和用途的解释，说明SAT考试能够有效测量大学学习和职业生涯准备这一目标，考试的开发是有效的。

四、对我国新高考评价体系实施的启示

从效度视角研究SAT考试开发，对于我国进行新高考评价体系下的考试开发和效度研究具有以下几点启示：

1.加强考试测量目标与教育目标的一致性研究

考试的测量目标是从理论和实践两个层面解决“考试测量什么”的问题，也是解决考试的理论解释和测量的有效性问题的前提条件。[雷新勇：《大规模教育考试：命题与评价》，华东师范大学出版社2006年版，第98页。]从操作层面来看，考试测量目标是一个以指标系统形式呈现的评价标准，由行为描述和目标权重两部分组成。行为描述是对将要测量的学科素养的内涵的理论演绎，目标权重是行为目标之间的比例关系。在整卷设计中，题型功能开发、试题题量分布、试题赋分等都以此指标系统为依据。[周群：《大规模教育考试测量目标合理性研究》，《第十届海峡两岸心理与教育测验学术研讨会暨全国教育与心理统计测量学术年会论文集》，2012年，第103-104页。]我国教育考试可以参考SAT教育目标到考试测量目标的分解过程，要加强能力目标与测量目标、内容规范与内容领域、内容领域与课程标准的一致性分析，争取做到“不遗漏，不走样，可操作，易反馈”。但是，同时也要考虑到我国教育考试的特点，因地制宜，不照搬照抄。例如，新高考评价体系提出，高考考查的核心目标是“坚持以习近平新时代中国特色社会主义思想为指导，落实立德树人根本任务”。[教育部考试中心：《中国高考评价体系》，人民教育出版社2019年版，第10页。]相比于SAT考查目标内涵，我国高考除“选才”和“指导教学”两个功能以外，还多了一项价值引导，即“立德树人”的要求。

2.加大教育测量理论和技术的应用

SAT考试开发过程完全遵循《教育与心理测量标准》（以下简称《标准》）的要求。只有遵循《标准》，才能保证开发和组织的考试所得出的结果是可信的、有效的。我国教育考试设计的行政化倾向，是我国考试开发的特殊性所在，这使我国考试产品质量在开发之初就存在产生误差的可能。因此，我国高考从一开始应该尽可能遵循《标准》进行考试开发，例如，考试说明的编制，就应该按照《标准》规定的要素进行编写，同时借鉴SAT考试说明编写的经验，让全国各地考试机构、高校、中学、教育研究者、家长和考生都能从考试说明中得到尽可能多的信息，促进社会对高考评价体系的深刻理解。