效度论证范式下的ECD测试设计框架<br/>——我国教育考试国家题库的升级路径之一

效度论证范式下的ECD测试设计框架
——我国教育考试国家题库的升级路径之一

2016-06-05戴一飞

中国考试 2016年11期

戴一飞

效度论证范式下的ECD测试设计框架
——我国教育考试国家题库的升级路径之一

戴一飞

进入效度整体观时期，测试效度研究衍变为用尽可能多的“证据”支持考试的有效性，效度论证成为检验效度的基础。“以证据为中心的测试设计”（ECD）本着一切服务于效度论证的宗旨，依托计算机技术与思维，以教育测量与统计原理为方法，将测试设计过程模块化，最大程度地使围绕测试效度的全部证据联系在一起，成就测试的“证据链”。我国教育考试国家题库的升级可参考ECD的效度论证框架，以效度为重、以证据为先，建立被试思维和模块思维，从根本上提高教育考试的科学性。

效度；效度验证；ECD；题库

题库是个舶来品，20世纪60年代诞生于英国，是目前世界各大考试机构普遍接受和采用的心理测量技术与工作方式。题库，同样也是改革我国考试事业，改进评价机制，提升理论创新的“抓手”，是改造考试的“器”[1]。我国教育考试国家题库建设始于2006年①我国从20世纪80年代开始关注题库，初期研究以题库的技术原理与方法介绍为主，在医学、计算机科学、外语等具体学科的教学实践中，尝试建立小规模题库，这一阶段的理论与实践积累为国家题库建设奠定了基础。，以教育部考试中心承担国家题库建设项目为标志。截至目前，包括高考、研究生考试、自考、成人高考在内的国家教育统一考试的全部科目都被列入题库建设当中，已经形成了一定规模的以试题形式储存的A类题库和以试卷形式储存的B类题库[2]29。不少考试项目的题库储备初具规模，命题已实现日常化管理，风险应对能力有明显提升[2]2。然而，受政治、社会、安全等多方面因素制约，以高考为代表的高利害大规模教育考试，依旧采用传统的“入闱”命题方式，命题者非到考试结束，不得“出闱”，“泄题”的风险管控以封闭为主。客观地讲，我国的题库建设仍在初级阶段，距离集管理试题、组配试卷和报告分数于一体的现代题库还有一定距离。严格说来，题库若缺乏效度标准，其输出的考试产品是解释不了分数含义的，而我国题库在效度方面的设计，确有提升空间。新一轮高考改革要求考试主要服务于本科院校的招生，突出能力和素养考查，调整科目数量，外语实现一年多考；研究生考试、自考等大规模教育考试目前也都处于改革期，调整思路正在酝酿，顶层设计一触即发；网络媒体迅猛发展，老百姓对于国家教育考试关注度之高前所未有，社会监督的力量不容小觑。面对这些挑战，国家题库究竟能做些什么？又该怎样做？

笔者认为，改良与升级国家题库，突破点不再是硬件的更新换代或追求入库试卷的倍量，而应该回归理论建构上来，将效度、信度、等值、分数解释等重要的心理测量概念整合进题库，这之中，尤以效度观念的建立最为迫切。一项没有效度做保证的考试，其使用风险是极大的。关注效度，关注教育测量的统计属性，关注以分数解释为出发点的论证过程，建设“理论驱动”[3]的国家题库，是下一阶段教育考试题库升级的目标与意义所在，也正是本文研究的着眼点。效度理论目前已发展到新的阶段，效度整体观影响下的效度论证范式，引发众多测试模型的提出，本文拟选择目前指导美国教育考试服务中心（Educational Testing Service,ETS）考试与评价工作的以证据为中心的测试设计框架（Evidence-Centered Design,ECD）作为研究对象，通过分析其工作方式，剖析这一框架对于效度论证的作用，指出ECD所蕴含的思想方法对于升级国家题库的意义。

1 发展中的效度理论

一项测试是否有效测量了它所想要测量的东西，是评价这项测试最重要的指标，称之为效度（va⁃lidity），而那个“东西”，即某种“概念或属性”，被称为构念（construct）①对于construct的翻译有多种，除“构念”外，也常被译为“构想”“结构”以及“建构”。[4]11。如今，心理测量学的话语体系中已不再简单地描述“一项考试的效度”是多少，是高还是低，因为在没有前提、也未加限定的情况下，这种讨论既不正确，也无意义。效度更多地与“程度”“评价”和“判断”这些关键词联系在一起，效度验证（validation）逐步取代对静态意义上效度的观察。回顾效度理论的发展，大体经历了三个阶段：20世纪50年代以前的单一效度观时期，20世纪50年代至80年代中期的分类效度观时期，以及20世纪80年代中期至今的效度整体观时期[5]87。

持单一效度观者，把效度等同于相关系数，系数越大，预测能力越强，效度也就越好。美国标准化考试运动期间，以GRE、LSAT等教育考试为对象的研究，通常都会报告被试得分与其一年级期末成绩的相关度，以此说明考试的有效性[6]。效度在当时是以系数呈现出的客观概念。20世纪50年代起，对效度的认识进入到“三分说”（Trinitarian doc⁃trine）时期，效度被定义为内容效度、效标效度和构念效度三种类型。其中，效标效度是对早先提出的预测效度和同时效度两个概念的整合。“构念”第一次被作为效度类型的识别标准。分类效度观对效度理论的后续发展影响颇为深远，三种“效度类型”沿用至今。20世纪80年代中后期，对于效度的理解，进入整体观时期。起先，构念效度在“三分说”中占据上风，进而，构念又将构念效度取而代之。克隆巴赫（Lee J.Cronbach）在第二版《教育测量》（Educational Measurement）中指出，“效度印证的不是测试本身，而是对具体施测过程中所形成数据的解释”[7]。从此，效度内涵已从单纯的“某项考试的效度”转为“分数解释的效度”。在1985年版《教育与心理测试标准》（Standards for Educational and Psychological Testing，下文简称《标准》）中，效度的定义被修订为“依据分数所做的推理是否适恰、是否富有意义、是否具备实用性。考试的效度验证就是搜集证据来支持上述推理的过程”[8]。值得注意的是，此时的“效度类型”被“证据类型”所取代，内容证据与效标证据被看作是对“与构念有关的证据”的补充，信度也成为效度证据的一种。梅西克（Samuel J.Messick）是持效度整体观的代表人物，他提出“经验证据和理论依据在多大程度上指出基于测验分数或是其他评估方式所做的推断或采取的行动是否充分和适当？对这个问题的综合评价性判断就是效度”[9][5]89。这一定义与2014版《标准》对效度的阐释——“在具体使用测验时，证据与理论的积累对分数解释的支持程度”[4]225已十分接近。从此，效度研究的逻辑衍变为“用尽可能多的证据去支持考试”[10]。

2 以论证为基础的效度验证

用尽可能多的“证据”证明考试的有效性，成为效度验证的基础，证据即为效度。在这种效度观的影响下，效度验证的内容也发生着变化：单一效度观下的效度验证，是对相关系数的计算；分类效度观下的效度验证是多重标准的效度证明过程，有经验意义上的，也有实证意义上的；整体效度观下的效度验证则体现为对作为统一整体的效度的论证过程，关注的不仅是形式逻辑与数理推理，还包括对前提可接受性的反复拷问与证成。

如果说梅西克在第三版《教育测量》中对于效度的定义是效度理论的重大突破，那么第四版《教育测量》中，凯恩（Michael T.Kane）使用“效度验证”而非“效度”为标题解释效度理论，可以说是对梅西克将效度问题落脚到“评价”（evaluation）的进一步发展[11]，即强调证据收集的过程性。凯恩指出，效度验证包含两种论证，一是解释性论证（interpretive argument），二是效度论证（validity argument），前者运用“如果-那么”（If-Then）规则，对证据所支持的分数解释与运用作出具体说明，而后者则是对解释性论证的评价，欲确认对分数的解释或运用是有效的，需首先认定其解释性论证具有相关性，推理依据具有合理性，假设前提具有可接受性[12]23。从形式逻辑来看，只要结论是按照逻辑规则得出的，推理就有效，解释性论证运用的就是这种推理逻辑，但问题是解释性论证论据的成立却不仅仅依赖于形式逻辑，有时还会依据假设性推理或非形式逻辑推理[12]23。据此，效度验证则不仅要关照“分数的合理解释”，还需要考虑“分数解释的可接受性”[13]，对那些看似为真的前提作出论证。效度验证不再是一个封闭的步骤或环节，而是不断收集多种证据，在结论与证据之间“来回审视”[14]的效度论证过程①在一定意义上，效度论证与法律论证有相似之处。此处借用德国法学家卡尔·恩吉施（Karl Engisch）对法律判断形成中等置的描述：“等置是事实与规范相互关照,在事实与规范之间来回审视。”。

基于效度验证中存在非形式逻辑的现实，心理测量学界开始寻找效度论证的方法。非形式逻辑创始人图尔敏（Stephen E.Toulmin）提出的论证模型为效度论证提供了依据。凯恩运用图尔敏模型构建出具体的效度论证模型，尝试解决证明推论理据本身的成立问题[12]27-28。图尔敏认为，在作出某种结论之前，必须充分证成这种结论，且当结论受到挑战时，能够对其作出辩护。图1展示的是图尔敏模型的六个基本要素及其相互关系。

图1

数据（Datum）是运用该模型推衍结论（Claim）的起点，对考生作答情况的记录即为数据，分数即为结论。在考生的作答情况与分数之间，存在一个正当化的过程（Warrant），为正当化提供支持的证据就是支援（Backing）。这一过程中，一方面需要通过限定（Qualifier）增强结论的可接受度，另一方面需要排除例外情形对结论造成的反驳（Rebuttal）。效度论证中的每一项解释性论据都经历着若干次从数据到结论的论证过程，且前一次论证的结论将成为下一次论证的数据。

在凯恩等人所描绘的效度验证论据链基础上[15]，语言测试专家巴赫曼（Lyle F.Bachman）增加了一项推论，即基于分数的决策。在此，借用巴赫曼延伸后的论证链（图2）[16-17]来说明图尔敏论证模型在效度论证中的具体运用。

如何证明从考生作答情况的数据观察推导出分数以及分数的使用是正当的？从观察分数概括出全域分数的正当化理由，是统计意义上的从样本均值到期望值的概括过程，对这一过程的支援包括具有代表性的样本所提供的证据。从全域分数外推出目标分数的正当化理由，是回归方程（regres⁃sion equation），对回归方程的支援包括对于测试分数与效标分数之间相互关系的实证研究。解释分数时的推理往往需要明确的限定，如标准误差和置信区间，二者表明从观察分数到全域分数推理过程的不确定性，再如从测试分数到标准分数的推演伴随着相关系数的标准误差。基于目标分数的决策往往会通过限定来增强说服力，例如为择业提供的测试，同分班测试或是升学测试所需的限定就有很大差异。而在某些情况下，即使给出了限定，也无法实现从数据、正当化再到结论的跳跃，于是反驳发生了[18]。从数据到结论的正当化过程，即便已经加了限定，依然不能被接受，此时对于分数的解释性论证就无法成立。

效度内涵在不断发展，以论证的方式进行效度验证是未来的必然趋势[16-17]。然而，仅有论证模型与概念性术语，并不足以具体设计和实施测试，考试机构需要更加明确具体的“工具”，即用某种结构或框架来整合论证模型和术语，使整个测试从设计到评价的全部过程更为清晰、操作性更强[19]1。ECD正是这样一种框架性的方案选择和思想方法。

图2

3 ECD：效度论证的实施框架

ECD起初是ETS于1997年设立的一个研发项目，由梅斯雷弗（Robert J.Mislevy）、斯坦伯格（Lin⁃da S.Steinberg）以及阿蒙德（Russell G.Almond）三人负责[20]。该项目最直接的理论基础来自1994年梅斯雷弗本人对于测试中证据与推理问题所做的阐释，他指出无论何种类型的教育评价，本质上关注的是对学生知识、技能和成就作出一定的推理，评价可以看作“基于证据进行推理”的过程[21-22]。随后几年，梅斯雷弗等人陆续发表针对该框架的研究成果，并作出更为系统的阐释[19，23]。目前，ECD已成为美国教育评价领域主要的应用模型之一[24]，也是指导ETS开发和实施具体考试评价产品的平台。梅西克以构念为中心的效度观对梅斯雷弗开发ECD有直接影响，证据推理、统计模型、概率推理等理论发展，计算机技术在心理测量领域的应用，令ECD的出现成为可能和必要。在整体效度观的影响下，ECD试图整合众多证据，协调不同证据的衔接，以便让所有证据都指向效度验证这个终极目标。微观上，ECD包含一个概念性框架和四个具体发布环节，概念性框架是六种模型的组合，发布环节是对各模型动态嵌入不同测试运行阶段的描述；宏观上，ECD还意味着由五部分组成的层级关系，以及将上述各项步骤与各种信息结合在一起的测试循环（Delivery Cycle）。

3.1 运行方式①此部分内容主要是指计算机辅助环境下的测试设计。

3.1.1 概念性测试框架

概念性测试框架（Conceptual Assessment Framework,CAF）[23]6-13反映的是一项测试的设计蓝图，具体包括六种模型，即考生模型（Student Mod⁃el）、证据模型（Evidence Model）、任务模型（Task Model）、组卷模型（Assembly Model）、呈现模型（Pre⁃sentation Model）和交付系统模型（Delivery SystemModel）。CAF的每个模型都是围绕着“要测量什么”“怎样测量所想要测量的东西”这两个问题展开的。

考生模型是众多无法直接观察到的变量的集合，这些变量来自考生作答情况在概率上的实时调整。考生在应试状态下对不同试题作出不同反馈，计算机再根据最新的反馈，给出下一个任务。考生模型提供了考生在作答方面的数据，体现为概率分布。

证据模型包含证据规则（Evidence Rules）与测量模型（Measurement Model）两部分。证据规则规定如何从考生当下的作答情况（可观察变量）归纳考生的水平，属于应答评分的数据。测量模型提供的是有关考生模型变量与可观察变量之间的关联性信息。经典测量理论、项目反应理论、认知诊断模型等都属于测量模型，这些模型指导了总结性评分的过程，是对整个测试任务中各项证据的积累与整合。

任务模型解决的是如何向证据模型提供证据的问题。考生将看到怎样的测试任务、作答后将产生怎样的结果都由任务模型来完成。任务模型包含不同的任务模型变量，体现为各项任务的属性，以及这些属性如何同考生看到的测试任务和作答后的反馈相关联。任务模型可以帮助命题者写入试题内容，帮助测量专家调配题量。不同的任务模型产生不同的任务组合，呈现出不同的试卷内容。这种将任务模块化的做法，系统控制了提供一套试卷所需试题的证据材料和统计参数，其优势在于，可以直接对这些任务组合进行评价，并提供了开放性设置任务组合的途径。

组卷模型是将考生模型、证据模型和任务模型串接在一起。该模型以精准测量考生模型变量为目的，在协调不同任务间相互关系的同时，恰当地反映考核内容的深度与广度。该模型可以帮助计算机回答“需要对被试测量到什么程度”的问题。

呈现模型规定了试卷的呈现方式。相同的考试内容，既可以纸笔方式呈现，也可以通过计算机网络呈现，区别在于前者只需要向打印机发出指令，而后者却需要编写代码来实现。

交付系统模型集学生、证据、任务、组卷以及呈现模型于一体，对各个模型的共性内容做了统一规定，如平台、安全以及时间控制等，协助不同类别的模型进行搭配，以实现不同的测试目的。

依梅斯雷弗等人看来，这六种模型是沟通测试的效度论证与实操环节的桥梁。通过这些模型，一项考试所考核的知识水平与技能、测量条件、各种证据都得以具象化。图3是交付系统模型的示意图，直观反映了各模型之间的关联。

3.1.2 发布环节

图3 交付系统模型示意图

如果说上述模型属于测试设计的静态框架，发布环节（Four-process Delivery Architecture for As⁃sessment Delivery）[19]25就是把静态框架串联起来的动态过程。一项计算机自适应测试的运行离不开以下四个环节，即呈现（Presentation Process）、证据识别（Evidence Identification，又称Response Process⁃ing）、证据汇总（Evidence Accumulation，又称Sum⁃mary Scoring）以及活动选择（Activity Selection），各环节同时与任务/证据合成库（Task/Evidence Com⁃posite Library）发生联系——接纳数据和输出数据。活动选择环节负责从任务库中选择考试任务，然后将呈现该题目的指令发送给呈现环节，由该环节将试题展现给考生，而这些考试任务是由任务模型设计好的。呈现环节收集到考生的作答情况之后，将其传递给证据识别环节，由该环节根据证据模型所规定的方法来完成应答过程，把所识别的作答结果通过证据模型定义的评价程序给出可观察变量的值。这个值传递给证据汇总环节，由其通过考生模型变量的值更新概率分布，得到总结性评分反馈，立即储存后用于下一次分数报告。证据汇总向活动选择环节提供信息，帮助其判断选择何种考试任务。图4反映了这四个环节的相互关系。

3.1.3 ECD层级

图4 计算机自适应测试的四个发布环节

表1 ECD层级汇总

ECD层级（ECD Layers）[19]6是2005年梅斯雷弗等人在ECD概念性测试框架和四个发布环节的基础上提出的新概念，是对ECD框架的完善与拓展。根据表1，CAF与发布环节只是ECD层级中的两个层级，CAF之前增加了内容分析与内容模型两个层级，在CAF与测试发布之间，增加了测试实施这个层级。从表1所反映的各层级作用与核心内容来看，内容分析与内容模型是同构念效度以及效度论证理论相呼应的，也间接同分数的解释发生关联。内容分析具体表现在考核内容方面，由各专业领域的专家、学者作出规定，而内容模型则主要由测试设计者负责，二者协同合作，确定测试的内容与结构。测试实施是将CAF所描绘的测试各个部分实际制造出来，包括命题者撰写考试任务、测试模型的匹配、评分细则的制定、仿真程序的编制等内容。

3.2 设计特点

3.2.1 以证据为中心，一切设计服务于效度论证

在证据即效度这一观念的影响下，对于测试效度的“计算”，转变为对于测试相关证据的收集、整理、解释、论证，ECD的设计完全围绕这个主题。ECD处理和整理证据的方式并非截然分开，而是彼此支持，互为因果，为效度论证提供了完整的证据链。ECD是一种问题导向的设计，即不断地去解答以下这些问题：最终要形成怎样的成绩报告？如何用分数来说明和解释这份报告？说明与解释的理由是什么？证据有哪些？如何收集和处理这些证据？这些证据如何能支持结论？证据是否可靠？在不断回答这些问题的过程中，形成ECD的工作模型。

2014版《标准》列举了五种效度证据：考试内容（Test Content）、应答过程（Response Processes）、试卷的内部结构（Internal Structure）、与其他变量的关系（Relations to Other Variables）以及测试的效度与社会效应（Validity and Consequences of Testing）[4]14-21。ECD巧妙地将这五种证据关联起来，并为每一种证据都提供了嵌入模型。

考试内容是关于测量对象即构念的证据，主要体现在任务模型当中。考试机构将规定好各种属性的试题放入题库，根据具体需求，对试题在数量上和类型上进行组合，向考生呈现试卷内容。考试内容能否充分反映某一类专业能力，由专家进行研判，与构念形成对应关系，在一定程度上反映与内容有关的证据的有效性，但尚不足以建立起分数解释和效度论证的证据链。

ECD的证据模型可以提供应答过程中产生的证据以及与试卷内部结构相关的证据。考生的应答过程反映出考生能力表现与构念之间的匹配关系[4]15。具体来说，考试收集的证据不是考生能否答对某一道试题，而是其究竟能否把试题所希望考查的能力水平体现出来。应答环节可以收集包括写作习惯、作答时间、视线活动的分配等证据，目前的计算机技术可以轻易地记录下这些痕迹。应答过程还可以佐证阅卷质量，通过记录阅卷习惯，判断阅卷者是否严格按照评分标准打分。与试卷内部结构相关的证据体现为各试题之间以及试卷各部分的组合在多大程度上与分数解释的依据（即构念）相符合[4]16。当测试目的单一、构念指向明确时，题目的同质化程度相对就高，反之亦然。

基于考试同其他变量之间的关系获得的证据，反映了这些关系同解释分数的构念相一致的程度，主要包括聚合证据与区别证据（convergent and dis⁃criminant evidence）、与效标之间的关联性以及效度概化（validity generalization）。效度和社会效应方面的证据主要体现为考试产生的社会后果是否同预期相吻合。ECD的应答环节和总结性评分环节在测试实际运行时，不断收集即时性证据与结论性证据，各种数据的处理过程被完整记录下来，当需要同外部变量做相关分析时，可随时调用。

3.2.2 以计算机技术与思维为依托，测试的设计过程模块化

专家系统、软件设计以及法律论证是ECD框架的主要技术与理论基础[19]1。ECD是基于计算机辅助测试技术的设计框架，对于考试各个方面的理解都需要考虑计算机的应用问题。传统上，考试工作包含命题、考务和评价三个方面。在命题环节，由命题者写题、组卷、保管；在考务环节，由考务人员储存、运送、监考、回收、阅卷、发布成绩；在评价环节，由评价者对试卷质量做分析与评估。此种模式是按照工作性质划分的。ECD提供的是另一种测试设计思路，一开始就以效度验证为工作核心，然后围绕这个目标将任务拆分为六大模块，这些模块是建立在计算机技术基础之上的，命题、考务与评价三部门都可以使用不同的模块进行工作，也可以从不同的模块中获取数据与资源。由于考试设计任务已被尽可能细化为一个个计算机指令或程序，当考试的某些方面修订或更新时，只需要修改相应模块的具体内容即可，不会影响到其他模块的运行，有利于更加便捷和高效地将各种新数据、新资料纳入修订后的考试当中。ECD的效度验证过程基于不同的工作模块展开，具有开放性与持续性。

4 ECD与我国教育考试国家题库的升级

曾有专家在我国恢复高考30年时对考试技术的变革做过述评，总结出四项考试手段和技术方面的革新，即网上报名技术的兴起、网上阅卷的实施、网络化考试的实施以及电子考场监控技术的运用[25]。如今，高考恢复已近40年，我国在考试技术方面的发展仍然停留在这四个方面。在这四个方面当中，网上报名、网上阅卷以及电子考场监控都属于考务技术，与命题、评价相关的仅有网络化考试一项。尽管目前我国已有相当多考试采用了网考技术，积攒了丰富的经验，但以高考为代表的高利害的大规模教育考试几乎无一采用网络化考试技术。当前，教育考试题库已初具规模，高考等国家重大教育考试都在题库技术的支持范围之内，如能真正地将计算机辅助考试、网络化考试以及作为技术支持的题库运用到这些考试当中，将从实质上提升考试的质量。

美国ETS所运用的ECD测试设计框架，严格说来，并不是题库建设本身，而是在架构上高于题库的测试设计框架和统领测试设计的范式与思想。它将题库纳入其中，让题库在一个测试网或是测试循环[19]27中发挥作用。ECD框架与运行方式可为我国的国家题库建设提供以下三方面的启示。

首先，建立效度思维，将效度论证纳入题库升级的设计考量。在现代教育和心理测量学中，效度是一个统一的概念，它需要有多方面的证据来支持根据考试结果对考生心理结构所作出的推测；它关注的是考试结果的解释，不是考试本身；它包含了对考试结果使用所产生的社会后果的评价[26]33。效度是教育心理测量的基本要求，也是大规模教育考试科学属性的基本要素之一[26]31。效度论证既是考试质量的求证，也是考试质量的说明[27]。在分分必争的今天，分数以及分数解释的效力如何，要看考试的效度。题库可以做很多事情，但最核心的功能是辅助命题，命题质量的高低应以效度为衡量标准，因而题库的设计不仅应该确保存储试题的安全性，更应该为确保试题的分数可解释性与可接受性服务。

其次，建立被试思维，题库设计要从一元视角转变为二元视角。题库的使用者是考试机构，但题库的服务对象却绝非只是考试机构。从手段来看，题库是运用科技手段命题的好方法，但从目的来看，题库帮助下产出的试题，依然要面对考生，面对考生家长，面对整个社会，这就不单单是一个方法问题。如果题库建设只站在考试机构这一元的施考者视角，那么往往采用的是以效率与安全优先的价值判断，尤其是在我国的教育体制之下，考试的效度问题容易被忽略。这种一元视角带来的最大隐忧就是，经不起社会的拷问，一旦有人质疑试卷的有效性，如何应对会成为最为棘手的事情。且不说完整地将整个效度论证的证据链连接起来，就连分数意义的解释都难以完成。建立施考者与被试的二元视角，对于题库的升级非常关键。任何考试最终都要向被试报告成绩或结果，这个结果对于考试机构而言，往往最容易被忽略，却恰恰是考生最为看重的。如果不能建立起被试思维，不从考生角度看待考试，考试恐怕只能称得上是一种行政任务，而非真正意义上的心理测量、教育评价。二元视角要求考试机构在设计考试之初，就必须明确如何向考生解释分数以及怎样使用分数这些问题。

第三，建立模块思维，让命题过程在题库中模块化。没有科学的统计与测量分析功能支持的题库并不是一个有价值的题库[28]。ECD给出了一种用模块思维来构筑题库的路径选择。正如前述所分析的，题库所包含的各种模型，将测试设计的各个环节分解，一方面最大限度地将计算机技术应用到心理测量领域，另一方面也将整个测试设计的思维过程换算为具体的运行步骤，将对于测试效度的种种证明过程，都融入到了计算机运算模型当中。模块思维的建立，对于应对科技发展向考试机构提出的挑战具有特殊意义。

5 结语

如果说，以高考为首的大规模教育考试目前依旧采用“入闱”来规避风险，命题者背对背预测试题难度，采用原始分数“一刀切”划定分数线，以评价会的形式请专家论证考试的内容效度，用舆论引导的方式疏通社会对于考试公平性的质疑，那么，我们的考试仍旧难以称为科学的考试，我们的考试机构也难以专业化考试机构自居。西方的教育测量学已经走了很远，从一开始的相关系数到后来的几种效度类型，再到构念的出现与整体效度观的建立，人们对于考试的认识已经不再是一个分数，而是整个考试过程，人们需要了解的是分数背后的意义以及意义的有效性与可靠性，考试过程意味着证据积累的过程。ECD框架就是围绕证据的收集设计的。之所以说ECD框架可为我国的教育考试国家题库建设所借鉴，在于其表达了一种以效度为重、以证据为先的测试设计思想方法，是一种从构念出发，从考生出发，从目的出发的命题方式，一切以分数最后的解释力为核心，这些正是当前国家题库建设最需要树立的观念。

[1]刘芃.另一个角度看题库[J].中国考试,2013（11）:4.

[2]李光明,等.教育考试国家题库理论与实践[M].北京:高等教育出版社,2014.

[3]杨向东.理论驱动的心理与教育测量[M].上海:华东师范大学出版社,2014.

[4]AERA,APA,NAME.Standards for Educational and Psychological Testing[S].Washington,DC:American Educational Research Asso⁃ciation,2014.

[5]李清华.语言测试之效度理论发展五十年[J].现代外语,2006（1）.

[6]CRAWFORD A B,GORHAM T J.The Yale Legal Aptitude Test[J]. The Yale Law Journal,1940,49（7）:1237-1249.

[7]THORNDIKE R L.Educational Measurement[C].Washington,DC: American Council on Education,1971:447.

[8]AERA,APA,NAME.Standards for Educational and Psychological Testing[S].Washington,DC:American Educational Research Asso⁃ciation,1985:9.

[9]MESSICK S J.Validity[A]//LINN R L.Educational Measurement. New York:Macmillan,1989:13.

[10]谢小庆.测验效度概念的新发展[J].考试研究,2013（3）:58.

[11]赵琪凤.效度理论发展述评——基于四版《教育测量》异同的比较分析[J].中国考试，2012（7）:10.

[12]KANE M T.Validation[A]//BRENNAN R L.Educational Measure⁃ment.Lanham:Rowman&Littlefield Publishers,2006.

[13]谢小庆.效度：从分数的合理解释到可接受解释[J].中国考试，2013（7）:7-8.

[14]郑永流.法律判断形成的模式[J].法学研究,2004（1）:147.

[15]KANE M T,CROOKS T,COHEN A.Validating Measures of Per⁃formance[J].Educational Measurement:Issues&Practice,1999, 18（2）.

[16]BACHMAN L F.Building and Supporting a Case for Test Use[J]. Language Assessment Quarterly,2005,2（1）.

[17]胥云.语言测试中基于论证的效度验证模式述评[J].外语教学理论与实践,2011（4）:13.

[18]杨宁芳.图尔敏论证逻辑思想研究[M].北京:人民出版社, 2012:71.

[19]MISLEVY R J,RICONSCENTE M M.Evidence-Centered Assess⁃ment Design:Layers,Structures,and Terminology[R/OL].[2016-09-01].http://padi.sri.com/downloads/aera/2005/symposium2/pa⁃pers/MislevyRicLayers.pdf.

[20]MISLEVY R J,STEINBERG L S,ALMOND R G.Evidence-Cen⁃tered Assessment Design[EB/OL].[2016-09-01].http://www.edu⁃cation.umd.edu/EDMS/mislevy/papers/ECD_overview.html.

[21]MISLEVY R J.Evidence and Inference in Educational Assessment [EB/OL].[2016-09-01].http://files.eric.ed.gov/fulltext/ED390888. pdf.

[22]冯翠典.“以证据为中心”的教育评价设计模式简介[J].上海教育科研,2012（8）:12.

[23]MISLEVY R J,ALMOND R G,LUKAS J F.A Brief Introduction to Evidence-Centered Design[EB/OL].[2016-09-01].http://www. ets.org/Media/Research/pdf/RR-03-16.pdf.

[24]柏毅,吕泽恩.美国教育评估系统的ECD模型[J].教育测量与评价,2016（1）:35.

[25]王后雄,何家军.恢复高考30年考试技术的变革述评[J].中国考试,2007（8）.

[26]雷新勇.大规模教育考试科学属性之理论和实践思考[J].教育与考试,2007（1）.

[27]陈宁.Toulmin推断模型在考试效度论证中的应用[J].中国考试,2012（4）:20.

[28]杨志明.题库建设之统计与测量分析系统[J].教育测量与评价, 2016（3）:4.

ECD as the Assessment Design Framework under the Paradigm of Validity Argument:An Approach to Upgrade National Educational Item Bank

DAI Yifei

Validity nowadays refers to the degree to which evidence support the interpretations of test scores for proposed uses of tests.Validity argument is the foundation of validation.Evidence-Centered Design（ECD）,guided by educational measurement and statistics，focuses on collecting validity evidence through computer technologies and divides test design into models which identify all kinds of evidence.ECD is to achieve an evidence chain for each test.To build a scientific and valid Chinese national educational item bank,it is essential to build the way of thinking tests as a process of evidence collection.Besides,the practice of ECD of modeling different evidence sets up a successful example to design the item bank technically and scientifically.

Validity;Validation;ECD;Item Bank

G405

1005-8427（2016）11-0028-10

（责任编辑：陈睿）

戴一飞，女，博士，教育部考试中心，助理研究员（北京 100084）