PETS垂直量表的建立

2014-11-28莫春晖

中国考试 2014年10期

莫春晖

PETS垂直量表的建立

莫春晖

垂直量表（vertical scale）是指将测量领域相似但考查的内容水平不同的数个测试，构建到一个共同量表上的过程。本文以2001年全国英语等级考试的量表建立过程为例，简述了垂直量表的模型选择、数据分析过程和在实际考试中的应用，并认为垂直量表作为对群体水平差异和变化的一个判定依据，有一定的参考作用，而用于对考生个体进行报告则尚有风险。

垂直量表；PETS；Rasch

垂直量表（vertical scale）是指将测量领域相似但考查的内容水平不同的数个测试，构建到一个共同量表上的过程，通俗地解释就是：同在某个科目下但不同水平有差异的测试之间，通过共同量表，使得试题的难度或考生的水平能够在数值上互相比较。垂直量表的用处，就是监测不同等级间的考生水平差异，或考生在一定时间、一定知识或能力维度上的水平变化。

从20世纪60年代开始，美国开展了一项国家教育发展评价项目（National Assessment of Educa⁃tional Progress，NAEP）。2002年1月，时任美国总统布什签署了“不让一个孩子落后”法案（No Child Left Behind Act，NCLB）。至2009年，奥巴马总统又提出了“角逐卓越”计划（Race to the Top），增值评价一时成为美国教育测量界的热门话题，其研究的主要方向是如何监测美国中学教育质量的变化，以对美国政府提供教育决策的依据。在英联邦的有关地区，同一能力量表（Common Ability Scale）的研究也得到了广泛应用，尤其是在英语学科的测量中，可以说，同一能力量表是对垂直量表的另一种表述方式。总而言之，随着教育界对学习过程的关注，诊断性、过程性评价的测试工具越来越注重学习结果的历时性变化。在具体技术上，垂直量表的建立是进行增值评价或应用于其他成长模型（Growth Model）的基础。

在国内，除教育部考试中心以外，也有一些研究人员发表过相关的研究文章，但具体应用的实例比较少见。相比较之下，教育部考试中心在这方面的探索和应用则起步较早。1997开始设计的全国外语等级考试（简称PETS），应用Rasch理论将PETS1级至5级统一到一个量表上，完成了对5个级别的量化定位，建立了一个实际可供使用的垂直量表。2010年，在海南高考增值评价项目中，在三个学科（数学、语文、英语）构建了从初三（中考）至高三（高考）的垂直量表，以监测学生学业水平的变化。

PETS是全国英语等级考试的简称，其五个级别的难度从低到高分别对应初中毕业、高中毕业、大学公外毕业、研究生入学和非英语专业出国的水平，首次公开考试始于1998年。为确认和验证PETS各级别定位的准确度，考试中心先后于1997年、2001年两次实施了垂直量表的等值实验，在统计数据的基础上，对PETS考试的各个能力级别进行了定位，该量表建立后一直使用至今。

本文以2001年PETS量表实验为例谈一下垂直量表的建立过程和后期的增值应用。

1 数据采集方案设计及实施

5个级别分别编制一套试卷，并各自选取符合PETS考试大纲级别定位的群体实施试测（见表1）。

相邻级别采取共同题设计。如表2所示，1级试卷为70道题，2级至4级的每套试卷均为80道题，由相邻低级别的40道题目和本级别的40道题目组成，同时本级别的40道题也被包含在相邻高级别的试卷中。

表1 锚连接形式

全部题目均为多项选择题，每题1分，来源于正在使用的PETS题库，事先已经过试测。

2001年4月至9月，全部测试均在严格的考务管理下完成。

2 分析方法

垂直量表有多种统计方法进行标定，IRT理论作为一种能够提供等距测量的统计理论更加适宜。PETS使用Rasch理论（IRT理论中的一个特例）进行统计分析，并以3级为基准量表将其余级别的试题及难度参数值均转换到该量表上。

具体计算方法：以3级试卷所含题目为基准，假设3级试卷的平均难度为零，计算出每道题目的Rasch难度；分别用3级与相邻的2级、4级的共有题目为锚，计算出2级、4级其余题目的难度，再以2级与1级、4级与5级的共有题目为锚，分别计算出1级、5级其余题目的难度；取得难度数据的同时，计算参加5个级别试测的考生能力。

分析中使用如下软件：

Iteman Ver3.2，一款用于经典试题分析的商用软件；

Bigstep是用于Rasch分析的商用软件，Raquel是内部数据处理软件，两者共同用于Rasch参数估计；

Excel 2003：图表制作。

3 数据分析

为使得计算后的数值更直观，将所有计算后的原始的Rasch难度和能力值做了转换，转换公式为：原始值*9.1+60，使其数值区间近似于0～100。结果如表3所示。

表2 实验信息

3.1 难度与能力

表3 各级别难度与能力均值和标准差

图1 PETS1-5平均难度

图2 PETS1-5平均能力

从图1题目难度数据看，1级和2级均拉得较开，2级和3级的间隔较佳，3级、4级、5级则稍显接近。

从图2考生能力数据看，1级与2级间差别明显，而2级、3级、4级间几乎在同一水平上，5级只是略高一点。

3.2 各级别考生做答同一试卷相邻级别题目时的答对率

表4 各级别考生作答不同级别题目时的答对率

从表4答对率数据看，同级别考生群体作答相邻级别题目时，对低级别的答对率高于对高级别的答对率，表现出的差异情况与级别间平均难度的差异基本一致。

再看相邻级别考生做答相同题目时的表现，如图3所示。作答2级题目时，3级考生的答对率比2级考生只是略高（0.77与0.75），而作答3级的题目时，4级考生的答对率比3级考生还要略低（0.62与0.63），与级别间平均能力数据表现的情况一致，从另一角度说明本次参加试测的2级、3级、4级的考生能力差距不大。

通过进一步对考生群体的分析，2级所选择的北京高中的英语水平普遍偏高一些，表现出的能力值略高，而4级选择的是9月已入学的研究生新生，距其参加研究生考试已相隔8个月之久，因考试后的“遗忘”效应，其表现出的能力水平相对偏低，感觉这是造成2级、3级、4级考生能力相差不大的一个重要原因。

3.3 题目难度的分步

从图4各级别的情况看，1级与2级分布有明显差异，2级与4级的差异不大，而5级则几乎与前几个级别没有差异。

3.4 能力分布

如图5能力的分布，1级群体与其余级别差异明显，2级、3级、4级几乎是重叠的，5级略有偏移。

图3 各级别考生作答不同级别题目时的答对率

图4 PETS1-5级难度分布

图5 PETS1-5级能力分布

4 级别定位

PETS垂直量表实验的初衷是确定各个级别的合格能力标准。面对实际数据，会发现本次实验中题目和考生群体的选择都有不尽如人意的地方，与理想分布有差距。但是，这个结果是实际参加测试的群体分布，并非我们设定的各个级别的合格标准。在实际操作中，尤其是样本有限的情况下，也很难找到完全符合设计预期的典型样本。参照这个结果进行PETS各级别的定位时，需根据学校水平、学科内容和能力的要求、每个级别定位的构想等情况，人为设定各级别的合格标准，既要考虑到各群体的实际水平，又要保证级别间有合适的间距。通俗地说就是：标准是人定的，但却是在客观数据基础上进行专业性的主观判断而形成。当前这一领域涉及的方法，如Angoff法（含拓展）、书签法等均是基于此种方式。

比如1级的定位是全国普通初中的毕业水平，而样本群体是职高一年级，其水平应比初三学生略高，则可以将1级的合格能力值确定为43。2级的定位是普通高中毕业水平，而北京五中在全国高中学校中属于相当好的学校，则可将2级合格能力值设为54。其余级别类推。

各级别合格能力值推定，如图6所示。

5 垂直量表存在的问题

垂直量表的建立是一个极其复杂的问题，其方案设计和统计运算相对是容易把握的，但在涉及各级别的知识层次的相似度上，则目前尚无明确的结论。比如，各个级别虽然看似在Rasch参数数值上统一到了一个量尺上，但是这个数值是否真的体现出了级别间的差异，则是十分可疑的。从ACT的课程介绍，结合10年来PETS实践，存在的主要问题有以下两方面。

5.1 量表无法反映出各级别的知识或能力的包含关系

一般情况下，在学科知识体系中，越往高处，越是包含有更多的知识，有一些科目中如物理或数学，甚至有相对独立的知识分支。在PETS中，每一个高级别与相邻的低级别比较，除了单纯提高了难度以外，还会有更多的词汇要求、更强的交际能力要求。

应用Rasch理论（IRT理论）的重要前提是单维性假设和局部独立性，如果两个测试考察的能力不在一个大致相同的维度上，这种测量的结果就会不准确。现有理论下的难度（或能力）指标是否能反映出知识上的差异，或者在多大程度上反映出这种知识的差异，依然是个争论中的问题。尽管有不少研究者尝试用MIRT（多维IRT理论）来解决这些问题，结果并不理想。这是因为学科中各级别的要求已经预先设定，而后验的统计分析，并不能改变具体学科内容的内在关系及其在命题中的要求。

拿PETS的3级与4级比较，命题教师和学生的反映都是4级试题明显难于3级，但实际数据则显示试题难度在数值上相差不大，应与4级要求更大的词汇量有关。

图6 PETS1-5级别定位

5.2 量表无法反映出学生答题速度的差异

非速度测试同样是IRT应用的重要前提，即要求被试的水平表现不佳是由于能力不足引起的，而不是因为时间不够。试题数据的准确取得，要求考生能够答完每个试题。如果考生来不及作答某个试题，则该考生不被计入这个试题的统计样本中，统计软件还会根据考生在其他试题上的作答情况推测考生在未做试题上的答对概率。这既是IRT理论的优势，也是劣势，试题的难度无法反映出是否作答的因素。

体现在4级和5级上这个问题尤其突出。按PETS考试大纲的要求，5级正式试卷的题量较大，对阅读的要求比4级高，在相差不大的考试时间内，要求考生有更大的阅读量和更快的答题速度。从这点上说，5级应比4级“难”很多，而数据上则显示4级试题的难度与5级相差“不显著”。

基于以上原因，对垂直量表的研究虽然已有多年，且在各方面不断深入，如美国ACT这样的专业测评公司的测量部门也对其表现了高度的重视，但除了公布研究数据外，ACT及其他美国的测评机构，对垂直量表的使用一直持审慎的态度，在利害关系相对重大的正式考试中一直未见到使用的报告。

图7 PETS笔试成绩报告单正面

6 应用

对垂直量表的使用，应慎重评估，把握分寸。从目前的理论研究上看，垂直量表作为对群体水平差异和变化的一个判定依据，有一定的参考作用，而用于对考生个体进行报告，则尚有风险。当前，世界各国几乎都在非高利害考试中应用这一技术，如在过程性评价中或不反馈个体成绩的国家教育质量监测中。

以PETS为例，在PETS的垂直量表体系中，单纯从统计分析中获取的能力数值上看，很容易地联想到：考生参加过某个级别的考试后，如果其能力值已经超过了更高级别的合格能力要求，是否说明他不用再参加高级别考试呢？结果显然不是，考生仍必须要参加并通过高级别的考试，我们也只有在其通过相应级别的测试后，才对其合格与否做出判定。

图8 PETS笔试成绩报告单背面

PETS垂直量表建立后，主要的应用对象有二。一是在题库建设中，对试题质量控制和级别定位提供一种辅助的判定指标，而PETS各级别试的统计分析、组卷、确定合格线、成绩处理等环节仍是独立处理，并不进行跨级别的运作。二是在提供给考生的成绩报告中，提供一个参考的水平定位，让考生看到自己的能力在相邻级别上可能的位置，但并不以此判定考生在相邻级别上是否合格，如图7，图8所示。

限于笔者的水平，对垂直量表及其背后的相关理论掌握有限，对目前测量理论下垂直量表在实际应用中存在的问题，尚存很多困惑。以此文抛砖引玉，以供同行批评、研究和探讨。

[1]教育部考试中心.全国英语等级考试考试大纲[M].北京：高等教育出版社，2006.

[2]Knupp,T.&Tao,W.Vertical Scaling[M].Presentation for the NEEA visitors.Iowa City,IA.2011,11.

（责任编辑吴四伍）

The Construction of PETS Vertical Scale

MO Chunhui

Vertical Scaling is the process of linking several assessments measuring similar domains but at different levels into the same scale.Taking the construction of PETS scale in 2001 as an example,this paper describes its model selection and data analysis process as well as their application in real testing scenario.It concludes that a vertical scale,as a reference,is useful in identifying differences and developments of target group,but could be risky if used in identifying differences of individuals.

Vertical Scale；PETS；Rasch

G405

1005-8427(2014)10-0040-7

莫春晖，男，教育部考试中心，助理研究员（北京 100084）