新高考选考科目计分问题与政策调适

2018-12-26王森

复旦教育论坛 2018年6期

王森

（华东师范大学教育学部/国家教育宏观政策研究院，上海200062）

一、新高考计分政策

为实现不同选考科目之间的可比性，新高考多数试点采用固定比例法划定等级。其潜在理论假设为“考生的排名位置反映了其能力水平”。在新高考选考科目尚缺乏测验等级标准的现状下，该方法较为高效地解决了等级分数线划定问题。

出于分数合成的需要，新高考多数试点采用“等级赋分”的分数报告形式，主要有“直接赋分”与“公式转换赋分”两种。“直接赋分”即根据事先公布的比例确定等级，直接赋予考生所在等级对应的分数，上海[1]、浙江[2]、北京[3][4]、天津[5]均采用该赋分方法。“公式转换赋分”是山东试点使用的赋分方法，即根据“等比例转换法则”，分别转换到各个赋分区间进行赋分。将每门等级考试科目考生的原始成绩从高到低划分为八个等级。参照正态分布原则，确定各等级人数所占比例。等级考试科目成绩计入考生总成绩时，将考生原始成绩依照等比例转换法则，分别转换到八个分数区间，得到考生的等级成绩。[6]

受考生异质性影响，固定比例法划定等级无法准确测量考生实际学业水平，不同科目的考生即使有相同的等级分数，也无法判断实际的学业水平的高下。[7]当前多数试点试图通过增加等级数量（将5等细化为21级）避免考生赋分误差。在实践过程中，很有可能出现“原始分差1分，等级转换分差3分甚至6分”的现象，由此引发的“分分计较”问题备受关注。有研究认为等级数量的划分与考试的功能有关。[8]选考科目多等级设置并赋分的方法在一定程度上模糊了考生之间的差异，与考试的选拔功能之间出现了矛盾。

多科分数合成方法的选取通常受多种因素制约，既有技术因素，也有社会因素。[9]等级赋分试图满足高校“总分录取”招生的需求。然而，教育测量理论一般认为，科目之间的分数合成必须同时满足“参照点”与“单位”相同两个条件。当前试点地区的统考科目普遍采用原始分报告（除海南外），而选考科目则使用等级转换后赋分的分数报告方式。两类分数报告方式不同，其参照点和单位也不一致。新高考选考科目等级转换分数与统考科目原始分采用直接相加的分数合成方式，其科学性值得反思。

二、沪浙首批试点计分政策调整

（一）选考科目保障机制

首批试点计分政策调整主要是针对新高考“物理等科目选考人数下降”的问题。为解决这一问题，浙江和上海先后出台了“选考科目保障机制”，即“当选考某科目某次考试赋分人数少于保障数量时，以保障数量为基数进行等级赋分，保障数量按国家相关学科人才培养需求确定”[10][11]。

以浙江选考物理6.5万人保障基数为例，按照等级赋分规则，根据考生选考物理的人数不同，会出现三种情况。其一，如果有8万名考生选考物理（大于6.5万人），则有800位考生的成绩为满分；其二，如果有6.5万名考生选考物理，则有650位考生的成绩为满分；其三，如果有1万名考生选考物理（小于6.5万人），保障机制发挥作用，按照6.5万人的基数进行赋分，有650位考生的成绩为满分。“保障基数”政策的出台，旨在从政策层面维护选考物理等科目的考生的利益，平衡了“选考”与“计分”之间的关系，将可能发生的“考生群体变化”对计分科学性的影响降到较低水平。

（二）考生选考对计分政策的影响

选考科目之间“考生的能力水平大体相当”是“等级赋分”实现不同选考科目可比的重要前提。“选考科目保障机制”能够大致将某一选考科目的选考人数维持在合理的区间内，并不能保证各选考科目考生的总体分布相似。以浙江选考物理科目为例进行极端情况假设，排序为最后一位考生的原始成绩即使为85分（满分100分），经过“等级赋分”后，计入高考总成绩的实际分数也仅为40分。

根据“高校要求和自身特长”的选考是“等级赋分”计分政策设计的依据之一。[12]基于现行招生录取政策中“分数最大化”的导向，考生并不能完全根据“高校要求和自身特长”来自主选择考试科目。水平相近的考生集中选考某一科目，出现了多数能力水平处于中等及以下的考生集体“规避”物理科目的现象，致使选考科目之间的可比性降低。

高校对选考科目的要求则可能引发连锁反应。基于“报考生源”“考生总分”“学校社会声誉”“高校之间的竞争”等多方面因素的考虑，多数专业没有提出较高的选考要求。高校一旦对选考科目提出过高要求，就会导致考生总分相较于不限定选考科目的同类高校大幅度降低，给社会公众带来的直观感受是录取标准的降低。这将对高校的社会声誉产生不良影响，对其未来的生源质量造成不可估量的损失。以各科成绩的总分作为高校录取的依据，从高到低进行排序。等级划定后进行赋分，服务于高校录取“总分”的需要。在总分大排序、选考只需一科符合、院校专业组录取的机制下，选考科目的设定实效有限。[13]“总分录取”招生模式会导致多数高校缺乏制定选考科目的动力，影响考生的选考行为，进而使得固定比例划分等级的前提无法得到较好的满足。

（三）计分政策对物理选考人数下降问题的影响

物理选考人数下降的问题不能简单归结为计分政策。物理等科学科目组合的选考人数下降，在实施多学科选考政策的其他国家或地区也有类似情况发生。如英国A-level考试尽管具备较为成熟与完善的计分方式，但依然不可避免科学科目选考人数下降的事实。[14]在科学科目选考人数下滑的全球背景下，如何提升考生的选考意愿是各国政府面临的普遍问题。

在我国高考的实践中，2006年广东高考选考科目中的物理等科学科目报考人数已出现下降趋势。[15]广东出现了以下现象：“由于考生选择的X科科目不同，每个X科的考生人数不一，报考人数越多的科目，考生越容易获得较高的标准分。由此导致几年内广东报考物理的考生由10多万人迅速降至五六万人，很多考生被迫弃理从文，或选择试题难度低的科目。”[16]然而，在江苏2008年高考改革方案的选考科目设计中，物理等科学科目选考人数较为平稳。这与其“理科必选物理，文科必选历史”的科目设置政策密切相关。因此，在新高考中，计分政策是“物理选考人数下降”的影响因素之一，但不是唯一因素。

三、考试可比性理论与实践

（一）考试可比性理论

考试可比性包括不同考试机构测量结果之间的比较、相同科目不同选修课程之间的比较、相同选修课程不同选修模块之间的比较、不同科目之间的比较、不同年度之间的比较等，按复杂程度由低到高，可以划分为三种情形。[17]一是“并行版本”（parallel versions），即在同一考试科目中多次测验之间的比较。二是“非并行版本”（non-parallel versions），即不同考试科目使用相同的标准。这意味着它们在某种程度上代表了同一教育水平的成就，高校通过对考生的成绩进行等效处理，以方便录取。要使两个测试等效，它们必须（至少）建立在相同的内容和统计框架之上。三是“多重非并行版本”（multiple non-parallel versions），需要实现不同考试大纲、不同科目、不同年度、不同考试机构之间测量结果等的可比性。

有关考试可比性的定义，学界并不统一。比较有代表性的定义如下：可以比较的等级标准的前提是存在“分数在相同等级边界线上的考生，表现出等量可识别的成就特征”[18]；在不同的考试中应用相同的标准[17]；可比性是双方或多方之间正式接受的两项或多项等效的资格[19]。通过定义间的比较可以发现，考试的可比性与“标准”的划定密切相关，考生的能力水平一般通过是否达到某种“标准”来反映。

学科之间的可比性一直存在争议。反对科目成绩具有可比性的学者认为，各科的学习内容与所需能力不同，如同苹果与橙子一样难以比较。也有学者持不同看法，认为有一种共通的学业能力贯穿于学科之间，而且要满足成绩使用者的期望，就有必要考虑这个问题。[20]持“可比”观点的学者认为，根据不同事物之间存在的特定属性能够进行比较。如苹果和橙子的比较，可以根据“甜度”建立等价的关系，一定数量的苹果对应一定数量的橙子。在教育测量领域，基于考试结果使用的要求，需要对不同科目进行比较。一般根据考生的能力水平所设定的公共等级标准建立相应的等价关系，使科目1的某个等级对应科目2的某个等级。

可比性主要使用“数理统计”和“专家判断”两类方法。数理统计法主要基于以下原则：一是通过数据检测和比较标准；二是确定达到等级的学生数量和比例；三是通过其他相关数据来控制数量和比例。判断法主要是通过专家经验对与等级评定相关的材料进行人工评判。比较“标准”主要包括两个方面：一是感知大纲和相关材料的要求；二是感知考生答题的质量。然而，“统计”方法和“判断”方法并不是严格区分的，通常根据统计结果进行判断，如根据往年数据判断当年等级的变动情况。

（二）“等效”（Equivalence）与“等值”（Equating）

“等效”与“等值”都是实现测验科学与公平的重要途径。二者最主要的区别在于是否能应用于“非并行版本”的测验，即测验“等值”仅能应用于相同科目多次测验之间的可比性问题。具体而言，二者的区别表现在三个方面。

第一，两者的概念边界有所区别。“等效”是指“价值或重要性相等”，是一种主观的衡量标准。“等效”的功能与货币的价值尺度职能相类似。货币的价值尺度职能是把各种商品的价值都表现为一定的货币量，以表示各种商品的价值在质的方面相同，在量的方面可以比较；“等效”是把不同科目的价值表现为一定的标准，以表示不同科目的价值相等，在等级标准上可以进行比较，即在同一等级标准体系下，不同科目的考试成绩相同，则被认定为考生具备的能力水平相同，考生在等级或分数上可以进行比较。以数学科目为例，数学相较于其他科目测量的内容和能力不同，考核的是多种心理品质，因此呈现出不同的测量结果。数学和其他科目不是同质的，不同的方面将引起个体之间的差异反应。[21]

测验等值的理论基础是“单维度”（unidimensionality）假设，即每个大纲与之相关的测验，评估的是相同的基础能力。[22]等值是标准化测验中的一个必备程序，将测量同一特质的不同测验版本的分数置于同一尺度上，使得参加不同测验版本的考生的分数可以直接相比，从而实现跨测验版本考生评价的公平性。[23]等值是一个统计过程，用于调整不同形式的测验分数，以便不同考试之间可以互换使用。“等值”是调整难度和内容相似的考试之间测验难度的差异。[24]测验等值是假设一个共同的“维度”测试量表，然后允许来自参加测试A的特定群体的个体在测试B中被赋予“等值”的分数。其基本目的是通过数学转换，将测试A的分数按比例转化为测试B的得分。[25]

第二，在应用方面，测验等值中所说的测验分数系统的转换与测验原始分数转换为量表分数不同。等值是为了将不同测验形式的分数转换到同一个分数量表上，以便不同测验形式的测验结果之间可以进行比较。将测验原始分数转换为量表分数，是为了将一个实测分数转换到可评价个体相对地位的分数系统中去。等值至少是两个测验形式之间的关系。原始分数转换是同一测验的不同分数系统之间的转换，并不一定存在两个测验。从本质上说，测验等值就是通过对考核同一种心理品质的多个测验形式作出测量分数系统的转换，进而使得这些不同测验形式的测验分数之间具有可比性。[26]

第三，在影响因素方面，两个测验形式之间如果是等值的，即使选用不同的被试群体，所测量的结果也相同，不受其他因素的影响。而等效实现的是每一科目的测量结果达到录取所要求的共同标准。如果科目之间的测验是等效的，尽管不同科目测量的考生心理品质不同，在难度、信度、成绩分布等方面也有差别，但在相同的等级上所反映出的考生的能力水平是一致的。

（三）考试可比性理论的实践

根据“连接”（linking）方法的分类，通常使用“量表化”（scaling）的方法实现科目间的可比。[27]应用于选考科目可比性的方法可以分为两类：一是“基于锚测量的量表化”（Scaling to Anchor）；二是“基于假设总体的量表化”（Scaling on Hypothetical Population）。在中国香港和澳大利亚，选考科目的计分分别使用了相应的方法。

1.基于锚测量的量表化方法的应用

香港中学文凭考试大致相当于“高考”，通常由4门主修科目和2-3门选修科目组成，最多可以报考8科。主修科目包括中文、英文、通识教育和数学；考生根据个人特长和兴趣，从物理、化学等21门选修科目中自主选择2-3门科目的组合参加考试，而不局限于以往的文科、理科、商科的组合。考试成绩还有一部分来自学生的“平时成绩”，占比15%~30%。

在选修科目的设定水平与维持水平上，香港考评局利用组别能力指数作为选修科目评级的参考。组别能力指数是利用统计方法计算出的一组百分比，以得到一组建议临界分数。对于应考某门选修科目的全体考生来说，他们在核心科目取得某个等级的人数，被用来计算该选修科目在相应等级的组别能力指数。组别能力指数基本上可视作一组百分比，用作选修科目和应用学习科目评级的参考。计算某科目X某个等级或以上（例如第3级或以上）的组别能力指数P的公式如下：

2.基于假设总体的量表化方法的应用

澳大利亚高校根据“高等教育入学排名”（Australian Tertiary Admission Rank，ATAR）进行招生录取。由于澳大利亚各州的考试制度不同，“高等教育入学排名”的依据略有不同。以新南威尔士州为例，根据考生的“高中毕业证书考试”（High School Certificate Examination,HSC）成绩进行计算。通常高中毕业证书考试有八十多个科目，英语为必考科目，其余全部为选修科目，考生可以根据自身的兴趣特长和高校的要求自主选择相关科目参加考试。

在计分过程中使用AMS（Average Marks Scaling）方法将不同科目的HSC分数进行调整，以实现统一测量尺度下的可比。接下来，根据相关文献[29]对该方法予以简化说明。

3.量表化方法的局限性

实现多学科不同选考科目之间的可比性，两种量表化方法都存在一定的局限性。“基于锚测量的量表化”方法与科目设置密切相关。在中国香港，中学文凭考试各必修科目的设置较为均衡，测试内容较能准确反映考生的能力水平，因此可以将必修科目的成绩作为依据来校准考生选考科目的成绩。其基本假设为：“主修科目”成绩优秀的考生，其相关选考科目的成绩也是优秀的。

澳大利亚各州的高中毕业证书考试，仅有英语一门必考科目，如果将其作为选考科目的校准依据，则有失偏颇。“基于假设总体的量表化”方法则弥补了上述不足，但校准过程相对复杂，需要具备一定的数理统计知识才能够理解，校准程序的信息透明度较低。

（四）多学科选考的分数合成：以香港中学文凭考试为例

为了更加科学合理地选拔人才，采用多学科选考科目设置的国家或地区往往采用多元化的录取方式。中国香港在这方面走在了前列。香港高校一般会针对所有考生提出一般入学要求，作为对考生的最低要求；在一般入学要求的基础上，特定专业会提出对考生的最低限度要求，在一些科目上会高于一般入学要求，并对选修的科目进行限制。香港中学文凭考试在招生录取中的应用有四个特点。

其一，按照“科目权重乘以等级”的合成总分的方式进行招生录取。值得注意的是，香港高校的总分合成录取，是针对已经达到最低入学要求的考生为选择相关专业而进行的总分合成，且不包括“体育人才”“校长提名”等方式入学的考生。其二，招生院校划定一般入学要求。如香港城市大学的一般入学要求为英语3等、中文3等、数学2等、通识教育2等，选修科目1、2均为3等。其三，学院与专业在学校最低入学要求的基础上，根据专业特点上调相应科目的等级要求。如香港城市大学的BBA会计专业，要求数学成绩为3等，比一般入学要求规定的数学成绩为2等要高。[30]其四，高校对考生的专业能力存在基本要求。这反映在考生报考专业对选修科目的具体要求上。多数专业都对选修科目有1项要求，少数专业对两门选修科目有两项要求。表1列出了2017年香港城市大学会计系工商管理学士的录取权重。

表1 2017年香港城市大学会计系工商管理学士录取权重

四、政策建议

（一）对新高考选考科目计分开展“量表化”方法研究

应以海南试点计分政策改革为契机，探索适合新高考科目设置的“量表化”计分改进研究。海南作为高考使用标准分的地区，提出了“统一高考科目、学业水平等级性考试各科的成绩以及高校录取总成绩均以标准分呈现”[31]的分数报告方案。与其他试点不同，海南使用以标准分为基础的分数报告方式，并没有提出划定等级。为此，应积极推进海南试点计分政策改革，根据统考科目与选考科目设置现状，积极吸收国内外先进计分经验，开发出符合新高考实际的量表化方案，以实现海南“根据各学科质量因素对考生成绩先行校准、等值处理后再进行标准分转换，以确保公平公正”[32]的计分设计。

值得注意的是，考试可比性往往通过数理统计与专家判断相结合的方式实现。使用单一的方法并不能较好地解决可比性问题，专家的判断不可或缺。有研究认为，当专家做出整体判断时，可以对考生的不同能力水平进行不同方面的补偿。[33]专家对标准的判断应当得到数理统计证据来源的支持。[34]

（二）调适“总分录取”政策，科学合成分数

高考主要服务于高等学校人才选拔，因此，需要强化高校在招生考试中的权利。其前提是，需要改进“总分录取”政策。在新高考中，学生不仅仅要关注报什么学校，更需要关注读什么专业，把自己高中学习的特长与将来的志愿结合起来，并进一步发展为自己的职业专长。[35]这些变革要求高校重视学科在招生中的地位。在试点阶段，除少数高校外，考虑到生源问题，多数高校没有或较少对选考科目进行限制，这将不利于学生的职业生涯发展和高校的专业教学。

为此，应进行相应的政策调适，以缓解考生报考的功利性心理，避免高校之间在录取总分上的竞争，为科学合成分数创造政策空间。其一，所有高校的全部招生专业均应根据专业特点，设定选考科目要求。其二，将选考科目成绩及其他相关考试测验信息作为高校录取的依据之一，高校设置相应的录取规则。其三，积极开展新高考分数合成方式研究，优化成绩报告方式，为高校招生录取提供科学依据。