效度验证模式系统整合与效度研究发展策略

2021-11-27李田

考试研究 2021年6期

李田

效度（validity）是评价测试质量最重要的因素。从19世纪20年代开始，效度理论发展大致历经了120多年，在本世纪初逐渐进入我国相关领域的研究视野。效度的定义从最初简单的“测试是否测量了它目标测量的东西”[1]发展成为同时包含测量属性和社会属性的复杂概念，经历了相关系数（Cureton，1951）、效度三分（Cronbach，1971）、整体效度观（Messick，1989）三个发展时期[2]。从Cronbach开始，效度研究就高度重视测试使用的社会效应，这也使得效度研究不再是简单的系数计算，而是对复杂的测试系统进行全面综合研究。效度研究的复杂性催生了效度验证模式理论。

效度验证模式，是为整合效度概念和规范指导效度验证过程而构建的研究框架，对测试效度的实践研究有重要的理论意义。第一个效度验证模式——测试有用性框架（Test Usefulness Framework）[3]于19世纪90年代被提出，是整体效度观在实践层面上的发展。之后各种效度验证模式开始被提出，推动了效度理论的不断发展。Kane提出的基于论证的效度验证模式（Anargument-based approach to validation）[4]更被认为开启了效度研究的新道路。因此可以说，效度验证模式是当前效度理论研究的聚焦。

但效度验证模式理论并不是更迭相继的发展，而是在不同地区围绕不同核心测试演变和发展，各自形成了不同的术语体系和研究模式。这种一致性的欠缺对于理论的进一步发展十分不利，也容易让尝试进入效度研究领域的研究者步入误区。因此本文将在对比经典效度验证模式的基础上，探讨效度理论的分歧和研究发展的方向，并尝试整合效度验证研究系统，探索推进我国效度理论和实践研究发展的策略。

一、经典效度验证模式

1.Weir[5]于2005年提出的社会认知框架（Socio-Cognitive Framework，SCF）是与整体效度观一脉相承最完善的效度证据整合框架，整合了证据收集来源（理论/认知、环境、评分、效标关联和后果）、收集顺序（测前和测后）以及数据分析方法，可操作性较强。该模式在剑桥主体证书考试（KET、PET、FCE、CAE、CPE）的效度对比研究中得到了丰富和完善。

2.Kane[6-8]提出的解释/使用论证模式（Interpretation/Use Argument，IUA）将哲学家Toulmin的实用论证模型和现代测试学测量模型理论运用到测试效度验证中，避开了构念环节，是第一个基于辩证推理的验效模式。IUA模式主张将效度证据整合在环环相扣的推理链中，在证据之间建立逻辑联系，并证明联系的可信度和合理性。Kane的推理链包含考生表现、观察分数、预测分数、目标域、决策五个因素，评分、概化、外推、使用四个推理环节，结构精简开放。许多学者在此结构基础上进行拓展，发展出更具体的效度验证框架。IUA的拓展分两条道路：一条是延续Kane主张的基于数据的推理（Aryadoust[9]）；而另一条则转向了基于思辨的推理（Chapelle[10]，Xi[11]，Hopster-den Otter et al.[12]）。其中，Chapelle 的模式是专门为TOFEL测试效度验证研究设计的效度验证模式。

3.Bachman & Palmer[13]提出的测试使用论证模式（Assessment Use Argument，AUA）借鉴吸收了Messick和Kane的思想和观点，是专门针对语言测试的论证模式。AUA将IUA模式的推理链拓展为两个方向，整合了测试的设计开发和分数的解释使用，并对推理的结构进行了细化和衍生。但这不等于AUA是IUA的改进和升级。单从数据验证的角度看，IUA的推理更连贯，思路更清晰，而AUA的推理则对社会因素的融合更全面。AUA在我国引起的关注较多，评价也较高[14-17]。

4.Cizek[18]提出的可辩护的测试效度验证修订框架（Framework for Defensible Testing，FDT）是效度理论保守派[19]的代表。该框架将分数解释效度验证（validation）与测试使用合理性证明（justification）分离开来，认为它们是系统上不兼容、逻辑上渐进的两个过程。FDT的理念与主流的整体效度观不同，但也代表了许多学者的观点。在证据问题上，Cizek将关于测试使用的证据来源细化成四类：测试结果、测试代价、除测试外其他选择、基础公平性，相当于发展了证据框架，对证据收集有积极指导作用。

5.Mislevyet al.[20，21]提出的证据中心模式（Evidence Centered Assessment Design，ECD）是围绕计算机辅助测试开发和效度验证设计的论证模式。测量模型和概念评测框架是该模式的两个核心模块，前者的模型结构与IUA类似，但具有更强的网络性，概念评测框架则类似一些心理研究模型。该模式受关注度不如前面四个模式，但是在处理复杂心理能力测量方面有其独特的结构优势，值得进一步研究。

二、效度验证模式对比

在语言测试领域出现的效度验证模式非常多，但基本上都是在上述五个模式的基础上发展而来的。这五个框架模式在提出时间上颇为相近，它们的提出者和支持者之间也互有争论及影响。五个模式在效度内涵主张、验证模式构建的思路方法及证据收集分析上都有一定差异。

SCF和FDT是证据框架模式的代表，用以厘清效度证据来源和证据收集顺序。该类模式的效度评判是综合评价各种效度证据以形成一元多维的结论，但该方式在执行层面上采用的仍然是三分效度观时期的效度验证方法，针对各类证据的效度结论相互之间缺乏逻辑。在目前的效度理论研究中，证据框架模式颇受批判[22，23]，但在实践研究中仍然被广泛采用[24]。

IUA、AUA和ECD是论证模式的代表，均基于Toulmin论证模型[25]在证据间搭建具有特定逻辑的联系，以辩证的方式论证测试的测量准确性和使用合理性；IUA的逻辑基于测试学测量模型，以数据推论为核心，从测试表现开始推导，最终证明测试使用的合理。AUA将Toulmin模型与Messick的整体效度观结合，以思辨的方式论证如何全面保证测试的效度；ECD则基于心理研究模型构建模式，以类计算机模块思路分析效度问题。IUA强调测试的测量属性和社会属性同等重要，在测量和使用之间架构联系桥梁，强调效度问题的特殊性和目的性，是开放性很强的模式；AUA则将测试的社会属性置于首位，认为测试的期待效度是实现测试对社会的有益影响，并将此作为测试设计的目的和检验效度的标准，因而AUA模式是一种理想化的设计框架，模式规定性很强；ECD以测量为核心，主要用于计算机辅助测试设计和效度验证，具有较强的程式性。

在效度验证实践中，几种效度模式都有自己的优势和弱点。证据框架模式（SCF、FDT）基于证据类型对证据收集时间和步骤进行规划，可以将效度验证过程化整为零，可操作性较强，但效度评价的内部结构缺乏逻辑，也没有检定的标准，效度结论难以直接用于决策。基于数据的论证模式（IUA、ECD）效度验证逻辑清晰，强调明确的研究目的，验证效率较高，但对数据分析技术要求较高，且对测试社会属性的研究面也相对较窄。基于思辨的论证模式（AUA）则整合了测试的开发与使用，高度重视测试的使用效果，对测试的开发或效度研究工作有良好的导向作用，但采用该模式的效度验证工作量大，研究难度高。可见，任何单一的模式在面对效度研究实践问题时都不是万能的，效度研究实践需要针对不同的研究情境选择合适的方法和思路，甚至需要对经典模式进行发展。而这需要对效度验证模式的理论有更全面、完整的认识。因此，本文将进一步将五个验证模式梳理在一个系统中，以厘清各种术语之间的差别和联系，领会效度验证不同方法的思路和分歧，以期对实践中的效度验证获得更清晰的认知。

三、效度验证研究的系统整合

虽然几个模式的差别较大，但相互之间也不无联系。首先，论证模式是在证据框架模式的基础上发展而来的，将证据框架模式中松散整合的不同来源的证据组建成具有逻辑联系的证据链，再加以论证形成环环相扣的效度推论。其次，不同论证模式的推理过程也较为相似，都是基于样本理论、测量理论，将分数解释的过程表现为若干个环节，进而在效度不同维度间形成逻辑联系。基于这种联系，将从效度内涵和证据整合两个方面梳理测试效度验证的研究系统。

本次实例数据来源于某河道的控制测量，每隔5 km左右布设一对D级GPS控制点，一共布设16点，每个控制点均联测四等水准高程。四等水准测量采用S05级电子水准仪和配套的铟瓦水准尺进行，并严格执行GB/T12898—2009《国家三、四等水准测量规范》。

1.效度内涵

目前，在测试研究领域基本达成共识的效度内涵定义是美国心理学会（American Psychological Association，APA）编纂的2014年版《教育和心理测验标准》（以下简称《标准》）对效度的定义：“实证证据和理论依据对基于特定测试目的的测试分数解释和使用合理性的支持程度。”[26]这个定义涉及四个层面因素，如图1所示。

图1 效度结构图

第一个层面是测试的过程层面。测试过程即对考生测试表现进行评分，并基于这个得分执行一系列决策。分数代表的是考生的能力，分数解释就是对如何通过分数区分考生能力进行解释。而测试使用指的是基于测试（有意义的）分数执行决策，涉及一系列社会因素。

第二个层面效度评价是效度的本质，可以分为两个基本环节，测量的准确性（测试分数解释）和使用的合理性。

第三个层面是支持效度评价的证据来源，《标准》将其梳理为五种来源：关于测试内容、应答过程、内部结构、外部结构和后果的证据。一般来讲，测试内容和应答过程方面的证据属于经验证据（理论依据），内、外部结构和后果证据属于实证证据。这五个来源的证据可以被评价为四个维度的效度。

第四个层面的“效度维度”是整体效度观[27]时期采用的术语，是在三分效度观时期不同效度类型的基础上发展而来。构念指的是测试的设计理念，包括内容、结构方面，一般基于认知和其他相关理论构建。价值意义指的是测试的结果（分数）能代表和概化考生能力，可以体现为测试的一致性。相关性是指测试结果与其他测试或外部标准（如能力量表）、相关结构（如阅读能力和语言综合能力）的联系，也被称为效标关联。社会后果泛指测试使用带来的影响。构念是测试效度建立的基础，也贯穿和影响着其他维度。

在目前的研究中，四个层面中测试的使用后果部分的界定均相对比较笼统模糊，这是由于测试的使用受社会、学校、个人多种因素影响，本身较为复杂，而对测试使用环节的研究又是近二十年才兴起的课题，因此研究不足，也存在许多分歧和研究空白，如关于公平性和后效界定的分歧和争论等。因此这一部分将有待后续的研究发展。

除了效度的四个层面，还需要注意的是，效度所涉及的证据是具有独特情境属性的，即这些证据都是在某一次特定考试中产生的证据，具有一定情境代表性。因此，效度指的是测试过程的效度，而不是测试本身的属性。效度研究要结合测试的目的，因为测试的目的决定了效度研究的广度和深度。

四、效度证据整合模式

效度验证需要整合效度证据以体现测试的合理性程度，效度验证模式的核心在于整合证据。梳理效度证据整合的模式，首先区分为证据框架和论证模式两种方式。证据框架的中心在第三个层面的效度证据，评价结果体现为第四个层面——不同维度的效度，主要采用归类的方式进行效度验证；论证模式则是将第三个层面证据基于第一个层面测试过程逻辑进行整合。

测试的本质是一种抽样检测，是通过考生在某一次考试中的作答反映推测其某一目标域能力或者属性值。在图1过程层面的测试过程实际上还包含了一系列的潜在推理，如图2所示：观察分数指的是基于考试评分规则对考生表现评价得出的分数。因为是单次抽样，存在测量误差，而全域分指的是去除测量误差后的真实分数。目标域代表测试的目标能力或属性。测试的目标与真实分数是两个概念，全域分到目标域之间，还可能存在测量偏差。由此，从考生表现推测考生能力实际上经过了评分、概化和外推三个环节。通过这三个环节对分数的意义进行解释，再基于测试分数解释实施决策，这就是测试需要效度验证的整个潜在过程。效度论证模式的整体思路就表现为：论证从考生表现到决策这一系列环节都是合理的，能被证据支持。

图2 测试过程解释图

由此可见，证据框架和论证模式几乎是两个不同的系统。虽然两者之间可以进行简单的关联：信度大致对应概化环节；而构念、效标关联等大致对应外推环节，后效大致对应测试使用。但是证据框架是对效度证据的分类，而论证模式是对整个测试过程逻辑的合理性推导。论证模式基于的测试过程的逻辑是连续的，而证据框架基于的效度维度与传统分类效度观的本质并无明显差别，是相对分离的，片段的，虽然效度维度在整体效度观框架下以构念为核心形成统一的整体，但是在效度验证时，构念的证明本身就是一个逻辑问题。因此，据Chapple等学者的观点，Kane的论证模式代表了效度理论进入整体效度观之后的第四个发展时期——效度论证观[28]。结合上述分析也不难发现，证据框架中的不同来源的证据在论证模式中能有更清晰的逻辑解释，因此，在系统整合中，效度维度的功能可以完全被测试过程解释取代，进而形成以过程推理为核心的整合结构，作为效度证据整合的基础。

对效度证据的整合，论证模式采用的是哲学家Toulmin（1958）的实用论证模型。该推理模型包含六个要素：基于“理由（Warrant）”从“数据（Datum）”推导出“主张（Claim）”，如果存在“反驳（Rebuttal）”即例外（Exception）情况，则需要在主张之前加上“限定（Qualifier）”。理由本身可能无须证明，有时需要“支撑（Backing）”证明[29]。这个模型在传统三段论大小前提的基础上增加了支撑、反驳和修饰，使整个论证过程更加全面准确。但根据论证模式对Toulmin模型六要素的不同解读方式和应用，在构建思路上分成两类：基于数据推理模式和基于思辨推理模式。

基于数据推理的模式以IUA为代表，其推理结构显示为图3中的下半部分。推理链被解释为基于考生在测试中的表现，可以推导出学生具有什么样的目标域能力或属性。推导的理由通过对测试样本数据即效度证据的分析得出，可能是公式、函数或规则，并可以通过限定词对推导条件进行限定。限定词很多时候可以表现为置信区间、解释力等量化分析数值。推理结构本身只是对测试效度的客观描述，因此效度验证还要对整个推理结构进行整体评价，检视推理链是否连贯、清晰、合理，是否存在推理的薄弱环节。ECD模式的推理逻辑类似，但是没有使用线性推导，考生表现被分解为考生表现数据和测试情境数据，测量模型使用网络结构。这种结构对于验证形成性评价、高阶能力评价等复杂表现形态的测试有很好的适配度。

图3 效度论证推理结构图

基于思辨的效度推理，以AUA为例，显示为图3中的上半部分。它的推理是要证明评分、概化、外推、使用这些环节的合理性。在每个环节上，主张即合理性表现为具体的标准，而理由为要达到这些标准需要满足的条件。不同来源的证据可以分列在各个环节中用于检验具体的测试过程是“支持”还是“反驳”这些标准。效度验证推理可以解释为：因为这些环节达到了预设标准，因此测试是合理的。

图3中的推理链、理由、证据的解释说明都不是固定的。例如，推理链的两头和中间都可以加入新的环节，或因研究目的删除不必要的环节；概化理论也可以使用IRT等其他测试理论替代；每个环节的标准要求可以因不同的测试使用情境而变化；证据类型也可以进行拓展，等等。

在数据逻辑中，每一次的效度检验都需要有具体的分数解释方式，效度验证要验证这种分数解释的合理性。因此效度不仅是测试过程的效度，还是对分数解释的效度和基于这种解释使用的合理性。而思辨逻辑则仍然以测试为核心而不是具体的分数解释。思辨逻辑中的分数解释意义笼统，在具体的实践情境下才能对其进行详细说明。由此可见，数据模式用于对具体的测试使用的效度进行验证，而思辨模式则是综合评价测试质量的效度验证方法。

这样，测试的效度验证系统就可以被整合为四层面、一逻辑、两方式的统一理论体系。四个层面指的是测试过程、效度评价、证据来源和效度维度四个层面，其中：效度维度主要用于衔接传统效度理论和论证效度理论；测试过程作为整个效度验证系统的核心逻辑；效度证据基于测试过程推理进行整合，形成数据推理效度验证模式和思辨推理验证模式两种效度验证方式，分别用于具体的或者整体的测试使用效度验证。

数据推理效度验证模式的发展主要在于对分数的解释模型的发展，即如何应用和改进测量模型挖掘测试数据，量化效度验证研究，如IRT模型和Rasch模型在效度验证中的应用。而思辨推理效度验证模式的发展则在于构建更全面的效度研究框架，尤其是加深对测试社会属性的研究，如对测试后效公平性的研究、测试后果的证据来源研究。两种方式的发展相互联系，相互影响。

五、我国效度研究的发展策略

目前效度验证模式的理论和实证研究主要集中在国外，我国业界对效度验证的关注和研究相对较少。测试和测量被广泛应用于各种教学和研究中，但测试的效度验证研究却比较滞后，这十分不利于我国测试的发展以及测试对教学和社会带来积极的影响。当然，这种现象也有其现实的原因。我国测试开发机构、研究人员的构成以及测试的使用环境均与国外有较大差异。国外的商用测试开发体系比较成熟，效度作为测试质量控制研究的核心，无论是对于测试开发方推广测试或者测试使用方选用测试都十分重要，效度验证有较明确的责任归属和分工。而在我国，测试效度研究的责任归属仍不够清晰，如大规模高风险测试被开发出来之后，常被用于不同地区、人群和目的，测试的测量属性和社会属性问题远比国外测试使用更为复杂。对于开发方而言，全面验证测试的效度工程过于庞大，实施难度大，因此研究项目少。而对于一般测试使用者而言，由于效度理论体系复杂，又涉及大量证据收集和数据分析，研究门槛高，一般研究者很难开展关于效度验证的研究。针对我国目前这种情况，提出关于效度验证模式研究的以下三个发展策略。

第一，区分效度研究的开发者和使用者视角，明确测试效度研究责任，采用合适的效度验证模式。传统的效度理论将效度视为测试质量属性，效度验证责任则理所当然归于测试开发者。但随着社会的发展，测试的使用范围越来越广，开发者难以也不应当承担测试效度验证的全部责任。而测试使用者视角的效度研究既能解决具体测试使用问题，又能填补测试开发者对测试研究的空白，因此应当被提倡和重视。

如图4所示，测试的开发者对测试效度的研究是大范围研究，基于某种开发目的的测试构念对于测试开发效度而言至关重要。而测试的使用效度研究属于具体研究。测试的使用目的与测试的开发目的可能相同但也可能只是相关，考生群体可能属于测试开发的目标群体，也可能超出开发群体范围。因此，测试使用效度是区别于测试开发效度的效度研究。测试开发者和使用者是测试效度研究的两个主体，开发者承担测试开发效度验证的主体责任，而测试使用者承担测试使用效度验证的主体责任。两个主体效度研究的视角不同、规模不同，采取的方式也应当有所区别。测试的开发具有实现“测试带来有益影响”的责任，效度验证不仅要关注测量的准确性，更需要研究测试使用带来的各种影响。因此，开发者需要使用综合性强的效度验证模式（如AUA），全面检验测试效度的方方面面。而测试使用者对测试使用效度的验证则应该基于具体明确的测试目的，采用目的性强的效度验证模式（如IUA），解决测试使用的关键问题。只有两者相互协调配合，各自明确效度验证的责任，才能推进测试效度研究的发展。

图4 测试开发使用效度对比图

第二，发展数据分析手段，提高研究效率。测试本身就是一种收集信息的方式。试题体现测试设计构念，应答表现则包含了大量考生信息。深化对测试数据的信息挖掘，则能降低对其他辅助证据的需求，进而简化证据收集工作，使效度研究更有效率。因此，数据模型的研究和应用对发展和促进效度研究十分关键。

第三，利用测试后效研究基础，带动测试的整体效度研究。目前，我国对测试的效度研究已具备一定的研究基础。测试的反拨效应和后效研究是近10年来一个备受关注的研究话题，体现了业界对测试使用研究的重视，也将我们的视线从测试的使用转移到对测试的研究上。反拨效应特指测试对教学的影响。虽然业界对反拨效应、后效与测试效度关系界定有争议[30]，但它们是很容易被联系在一起的课题，反拨效应的理论框架和实证研究能够为测试效度整体研究发展提供一定研究范式基础，尤其是对效度中测试使用后果方面的研究发展有启示作用。但目前的反拨效应研究大多聚焦在测试后的影响研究，与测试过程本身几乎是分离的。这种研究方式会越来越局限研究视野，难以客观全面地体现测试对教学的影响。因此，将业界对测试反拨效应的关注拓展到对整个测试的使用过程和影响的研究不仅能够突破目前研究的一些瓶颈，而且能打开新的局面，带动测试效度研究，促进测试研究的平衡发展。

六、结语

测试效度研究的受关注度低并不是测试效度问题不重要，相反，效度研究是保证测试合理使用和促进测试对社会、教学、个人积极影响的前提。测试效度理论体系相对复杂，并涉及大量不统一的术语，使得理论推广有一定难度。因此，本文在对比现有效度验证模式的基础上，对效度验证研究体系进行了梳理，总结出基于数据的效度论证模式和基于思辨的效度论证模式这两种主流模式，并对其原理和发展方向进行阐释，以期加深读者对效度验证模式理论的理解和认识。对于不同视角的研究，研究主体应该选取合适的验证模式以实现不同的效度研究目的。效度验证研究体系不仅对测试效度研究十分有用，还可以拓展到教育心理测量工具的效度研究上，规范测量工具的效度验证，整体提高测试、开发者和使用者的效度验证意识，进而促进测试更科学、严谨的使用和发展。