新高考选考科目分数合成的现状与改进途径

2020-12-11郑宏山

北京师范大学学报(社会科学版) 2020年2期

辛涛，郑宏山，姜宇

(北京师范大学中国基础教育质量监测协同创新中心，北京 100875)

一、新高考选考科目产生的政策背景

党的十八届三中全会通过了《中共中央关于全面深化改革若干重大问题的决定》，提出要“探索基于统一高考和高中学业水平考试、参考综合素质评价的多元录取机制”，拉开了新高考改革的序幕。2014年9月，国务院印发《国务院关于深化考试招生制度改革的实施意见》(以下简称《国务院实施意见》)，指出高校招生录取总成绩由高考的语文、数学、外语三门科目的成绩与高中学业水平考试中三门科目的成绩组成，考试不再区分文理科，三门高中学业水平考试的科目可由考生在思想政治、历史、地理、物理、化学、生物等科目中自主选择。同年印发的《教育部关于普通高中学业水平考试的实施意见》(以下简称《教育部实施意见》)中指出，高中学业水平考试的成绩以“等级”或“合格、不合格”两种形式呈现，其中计入高校招生录取总成绩的三门科目(以下简称“等级考科目”)的成绩以等级形式呈现，一般分为五个等级，根据考生成绩在总体中的排序位置进行划分，其他科目(以下简称“合格考科目”)的成绩一般以“合格、不合格”形式呈现。《国务院实施意见》与《教育部实施意见》均指出要为学生参加同一科目两次考试提供机会。

自2014年以来，共有3个批次、14个省市陆续公布了深化普通高校考试招生制度改革的实施方案。这些方案均符合《国务院实施意见》与《教育部实施意见》中的要求，同时彼此之间也存在一些差异。从科目设置的情况来看，前两个批次的省市采用了“3+3”模式，考生可以自由在六或七门科目中选择三门作为等级考科目，而第三批次的省市则采用了“3+1+2”模式，考生必须在物理与历史中选择一门作为等级考科目。从考试的组织方面来看，大部分省市均在合格考科目上为考生提供两次参加考试的机会，在等级考科目上仅允许考生参加一次考试，但浙江省允许考生参加两次等级考。从计分方式来看，除海南省采用标准分形式外，其余各省市均采用了等级计分的形式，即通过原始分与百分等级间的关系，分段确定考生在某一科目上的成绩，但不同省市所设置的等级数量存在差异，最多的为21级，最少的为5级。不同省市在根据等级进行赋分时的方式也可以分为两类，一类是每个等级对应同一个分数，一般情况下相邻等级间相差3分，这大多见于等级数量较多的省市；另一类是在确定每一等级的赋分界线后，在每一等级内部基于等比例转换原则，为考生进行赋分。

二、选考政策的制度优势与分数合成实施中面临的挑战

(一)新高考选考政策的制度优势

本轮考试招生制度改革是教育体制改革的重点，与学生的成长、国家的人力资源配置和未来的科技发展均紧密相关。

1.减少考试压力，破除“一考定终身”

此次新高考的选考政策，实行部分科目为考生提供两次考试机会，即“一年两考”，考生可以参加两次考试并选择其中较优的成绩，有助于缓解考生在“一考定终身”情境下的压力，同时也可以帮助考生依据自身情况更灵活地安排学习与复习计划；等级考科目采用等级的形式报告考生成绩，既在一定程度上降低了考试试卷难度和科目不同所导致的不公平，提高了不同选考科目成绩间的可比性，也有助于破解“分分计较”的弊端，缓解考生压力，同时“多等级、小间隔”的赋分方式也在一定程度上保证了各等级考科目的区分度。

2.科目内容灵活，促进学生全面发展

新高考改革采取了科目选考的方式，打破了传统高考考试内容为“限定科目”的考试方式。在新高考的选考政策中，设定了“3+3”或者“3+2+1”选考模式。除了必考的“语、数、外”三科以外，考生可以自由在六或七门科目中选择三门，或者固定一门(历史或者物理)，其他自由选择，作为等级考试的科目。等级考科目的自由选择可以令考生从自身兴趣、特长以及职业生涯规划的角度出发，选择更适合自己的科目组合，增加考生自主选择的范围与权利。这样不仅有助于克服传统教育中“不考不教，不考不学”的传统思维，扭转有些学校只教高考科目，只学考试大纲的片面教育观，为学生各个学科的学习打好基础；还有助于培养学生学习兴趣，能够自主按照兴趣选择考试科目，形成学习主动性，做自己学习的主人，促进学生各方面的发展。

3.深化教育教学改革，优化考试方式

考试与评价对教育教学有着指导和反馈作用。采取良好的评价体系能够促进教学和学生成长，而不良的评价体系可能扰乱教学规律，对教学和学习产生不利影响。高考不仅在教育领域备受关注，更是全社会共同关注的重大教育问题。此次新高考改革是深化教育教学改革的重要环节，旨在破除“一考定终身”的局面，减轻学生学业负担和考试压力，全面优化高考内容和考试方式，在考试科目和考试时间上给学生一定的自主权，激发学生学习的主动性，真正促进学生全面发展。

(二)新高考选考科目分数合成面临的挑战

本轮考试招生制度改革覆盖了多个方面，是一次系统的全方位改革。在高校的考试招生方面，本轮改革赋予了考生更多自主选择的权力，并试图破解“一考定终身”、“分分计较”、“唯分数论”等弊端。但目前的方案在实施过程中存在一些亟待解决的理论问题，其中较为突出的即为等级考科目分数计算与分数合成的问题，主要包括以下几方面：

第一，合格考分数利用存在不足。根据目前的新高考政策，全体高考考生需在高中阶段陆续参加12至14个科目的合格性考试。合格性考试的工具研发和施测成本较高，但是在高考中发挥的功能却很单一，即合格性考试分数合格后才能选考相应的等级性考试科目。通过合格性考试收集的大量数据信息不能在高考选拔过程中得到有效利用，合格考的功能发挥相对单一，这在一定程度上浪费了测验编制与施测的成本，从而间接地增加了高考的测试成本。

第二，等级考计分分数转换存在缺陷。分数转换过程受考生群体分数分布的影响较大，容易产生扭曲。在前两批省市采用的“原始分—百分位—等级—等级分数”的转换方案中，某些原始分数相近的考生可能因为被划入不同等级而在最终成绩上相差3分，而某些原始分数差距相对较大的考生，也可能因为被划入同一等级而获得相同的最终成绩，这会对不同水平考生的成绩产生不同的扭曲，例如缩小高水平考生间的成绩差距，拉大平均水平考生间的成绩差异(柯政，2018)。以等级的形式报告考生成绩，原本目的之一是破解“分分计较”现象，但在实践中并未起到预想中的效果，甚至使考生感受到了更大的压力(柯政，2018；王新凤，钟秉林，2019；杨君，2017)。此外，从等级考科目的总成绩来看，这种转换模式甚至会造成分数倒置的风险，即原始分总成绩更高的考生，其最终的总成绩可能相对较低，使等级考科目的公平性遭受质疑(文东茅，鲍旭明，傅攸，2015；杨君，2017)。第三批试点省市在等级考科目中适当减少了等级的数量，并结合了等比例转换的原则为考生赋予等级分数，在一定程度上缓解了相关问题，但这些问题仍旧值得注意。

第三，等级考科目成绩之间尚不可比。目前，考生在某一等级考科目上的等级是根据考生成绩在报考该科目的所有考生中的排序位置来确定的。考生的等级主要取决于在报考该科目的考生群体中的相对水平，而并非仅与其自身的绝对水平相关。这种方案在报考各等级考科目的考生群体具有同质性且考生数量较多的情况下才可以发挥良好的作用。但是，由于考生在等级考科目的选择上具有较高的灵活性，报考各门等级考科目的考生群体间均存在一定的差异，在水平上不具有同质性，这决定了不同等级考科目上的同一等级所体现的水平并不完全相同，不同科目间的分数并不具有良好的可比性。即使是采用标准分的计分方式，由于报考不同科目的考生群体能力存在差异，考生也仍将面对类似的问题。在这种情况下，为了获得更好的成绩，考生自然会趋向于选择一些竞争较为轻松的科目，回避一些竞争更加激烈的科目(邵光华，吴维维，2018)。近几年的实际数据已经表明，选择物理科目的考生明显相对较少，这会对高校未来在某些理工类学科上的发展与人才培养产生较大的影响(冯成火，2018；陶百强，2015；王新凤，钟秉林，2019；于涵，韩宁，关丹丹，章建石，焦丽亚，2018)。在第三批省市的方案中，相关机构并未采用“3+3”的科目设置模式，而是改用了“3+1+2”的模式，并且物理与历史科目的成绩也改为用原始分数的形式呈现。这在一定程度上缓解了前两批省市在等级考科目成绩可比性上所遇到的部分问题，但并未完全解决这一问题，其余四门科目间的成绩可比性仍需提高。此外，采用原始分数的形式报告物理与历史成绩无法保证二者之间的可比性，并对试题命制、难度控制等方面提出了更高的要求。

第四，“一年多考”的分数计算面临挑战。“一年两考”所得两次考试成绩间的可比性并不令人满意。根据浙江省于2014年与2018年相继发布的方案，在目前等级考科目“一年两考”的方案中，两次考试的原始分数间并未进行等值转换，因而无法保证原始分数间具有可比性。经过转换获得的等级与等级分数，是基于考生在两次考试各自的考生群体间的排序位置所获得的，因而两次考试间等级与等级分数的可比性需要建立在两次考试群体具有同质性的基础之上。目前来看，只有当参加两次考试的考生基本相同的情况下，相关机构才能够保证两次考试的群体具有一致性。这就造成了一个矛盾的现象：如果两次考试的考生群体存在差异，则无法保证两次考试的等级与等级分数间的可比性；如果所有考生均参加两次考试，则违背了方案设计的初衷，反而会增加考生的压力(陶百强，2015；王新凤，钟秉林，2019)。在实际中，已经出现了在第一次考试中取得理想成绩的考生为“占位”而参加第二次考试的现象(文东茅，鲍旭明，傅攸，2015)。

第五，高考分数合成方法的科学性有待提高。等级考科目分数合成方法的科学性有待提高。由于不同等级考科目成绩间不具有可比性，考生在报考各选考科目的考生群体中的位置无法准确体现他们的真实水平，因而在这种情况下，采用各个学科等级考试成绩直接相加的方法计算高考总分并不准确，所得的总分可能会出现虚高或缩水的现象。

三、大学入学考试的国际经验

国际上已有多个国家在大学入学考试中设置了选考科目。作为解决我国新高考制度现存问题的参考，本研究梳理、总结了教育制度与考试制度较为完善的若干国家的大学入学考试制度及其分数计算与合成方式。

(一)美国

美国没有全国统一的高校招生制度，各高校享有招生自主权。高校在招生录取的过程中主要参考学生的高中学习成绩、SAT(学术评估考试)或 ACT(美国大学入学考试)考试成绩以及大学选修课程成绩。

SAT考试包括推理考试(SAT1)与学科考试(SAT2)，SAT1包含阅读与写作、数学、论文三个部分，SAT2包含5个学科领域的20门科目，部分学校要求考生提供SAT2中某一门科目的成绩。为了体现考生成绩的相对水平，SAT所报告的考生成绩为将考生的原始分转化后的标准分。SAT单科成绩的取值范围为200分至800分，各等级分差为10分。各大学可以根据本校对考生能力的要求，自行设定不同科目的成绩标准(辛涛，2018)。

ACT考试由英语、数学、阅读、科学四部分组成，自2005年起又增加了选考的作文部分，实行单独记分。ACT考试一年举办多次，为保证不同场次考试成绩间的可比性，ACT考试为每个学科建立了相对独立、客观、标准化的分数量表，量表的上限为36分，各部分所对应的量表可被划分为5或6个分数区间，每个分数区均与特殊的考生能力水平描述语相对应。

(二)英国

A-Level证书考试是英国的高校招生考试，地位类似于我国的高考。A-Level考试共设置了72门科目，学生可自由选取其中的3至4门进行报考。A-Level考试的成绩以等级形式呈现，由高到低分别为A*、A、B、C、D、E、F、G和U级(其中U为不及格)。为平衡不同考试间的差异，A-Level中设置了统一标识尺度量表(Uniform Mark Scale，UMS)，可通过UMS将不同批次、不同难度、不同内容的A-Level考试的成绩转换成可比的成绩。A-Level会根据每次考试的特点和难度制定原始分数与统一分数间的对照表，并根据对照表计算出考生原始分数所对应的UMS分数。在不同等级中，考生的UMS分数与UMS满分之间的比例均满足特定要求，例如在A*级中，该比例不低于90%；在U级中，该比例低于40%(张飞彦，2017)。

(三)澳大利亚

澳大利亚并未设置单独的高考，高校在招生录取中主要采用高中学业证书考试的成绩作为依据，并且澳大利亚各州均可自行设置高中毕业考试，这些考试大多包含近百门科目，学生可根据高中选修的课程进行报考。虽然澳大利亚各州的考试存在差异，但可采用“澳大利亚高等学校入学排行”(Australian Tertiary Admission Rank，ATAR)计算成绩。在计算ATAR分数的过程中，需要首先根据不同科目的难度与报考该科目的考生群体的能力对考生的原始分数进行“标准化”处理，然后将考生经过“标准化”处理后的各科分数进行排名，进而通过由分数最高的4门科目分数之和再加上次高的2门科目分数的 10%的方式计算总分。最后，计算考生总分所对应的百分等级，即为最终的ATAR分数(蔡培瑜，2013；章勤琼，麦克斯·斯蒂芬斯，2015)。

(四)法国

与澳大利亚类似，法国并未设置单独的高考，高校主要依据学生的高中毕业会考成绩进行招生录取。法国高中毕业会考分为普通会考、技术会考和职业会考三类，其中参加普通会考是进入高校学习的主要途径。普通会考设置了理科、文科和社会经济三个类别，学生可自主选择所参加的类别。每个类别中包含必考科目、专业科目与任选科目。相关机构根据每门科目在每个类别中的重要程度而设定了不同的系数。学生的各科考试成绩由原始分数及该科目所对应的系数计算得出(阮洁卿，阮来民，2007)。

以上各国均在“高考”中设置了选考科目，在尊重学生自身特点与自主选择权利的同时，采用了科学的方法，对学生的综合能力进行了科学而公平的考查。部分国家通过建立通用量尺来实现不同考试分数间的标准化，根据不同考试的难度与不同考生群体的能力，在各个选考科目中建立考生原始分数到“标准化”分数间的转换关系，以提高不同科目分数间的可比性。也有部分国家通过加权分数求和的方法，突出体现了考生的优势科目或重点学科的优势地位，帮助学生扬长避短，同时达到更加精准地筛选人才的目的。

四、高考分数合成方案的改进建议

为提高我国大学考试招生中等级考科目分数计算与合成的科学性和公平性，本研究参考了现有的理论、国际经验以及部分国内研究者的建议，提出若干适用于我国大学考试招生实际情况的方案。

(一)建立能力水平通用量尺

1.借助合格考预测考生总体在等级考科目上的成绩分布

根据新高考的方案，所有考生均需要参加所有科目的合格考。此外，考生在参加某一科目的等级考之前，必须先参加并通过该科目所对应的合格考。由于所有考生均参加了各科目的合格考，因而可以凭借考生在合格考上的表现建立能力水平通用量尺。为建立通用量尺，研究者首先需要确定一组参加了某一科目合格考与等级考的考生，并根据该组考生在两次考试中所得分数，求得在该科目中由合格考分数预测等级考分数的关系式。在此基础上，对于某一科目，研究者可以根据仅参加合格考科目而未参加等级考科目的考生在合格考上的成绩来预测其在该科目等级考上的成绩。通过这种方式，研究者可以获得该年度考生总体在各个等级考科目上的成绩，并可以在此基础之上，根据考生成绩在总体中的百分等级来确定考生所处的等级以及等级分数。由于此时是根据考生总体的成绩分布来确定考生在不同科目上的等级，所获得的考生在不同群体上的等级与等级分数之间具有更强的可比性，在此基础上所得的高考总分也可以更准确地体现考生的真实综合水平，公平性与科学性均可以获得提高。

建立通用量尺方法的核心是在现有方案的基础之上，通过考生在各科目上的合格考分数来预测等级考分数。预测方法可以采用回归等形式，原理与操作均较为简单，实用性较强。同时，建立通用量尺的方法也可以更加充分地利用考生在合格考科目上的信息，使合格考的编制与施测更加物有所值。但建立通用量尺的方法目前也存在一些不足，这主要与对等级考科目成绩的预测准确性有关。由于合格考科目与等级考科目的目标与功能不同，二者在题目难度、所考查的知识点、考生动机的强弱等方面存在差异，因而通过合格考科目的成绩来预测等级考科目的成绩，会存在一定的误差。研究者可以考虑结合考生的其他信息，或对题目进行更细致的分析与分解，使用更精准的模型来预测等级考科目的成绩。

2.借助高考必考科目校正等级考科目的成绩

根据目前的新高考方案，所有考生均须参加高考必考科目(语文、数学与外语)的考试。参考加德纳的多元智力理论等理论(Gardner，2008)，必考科目与等级考科目考查的都是语言、逻辑等方面的能力，不同科目的考试具有相关与共通性。实证数据也表明必考科目与等级考科目之间确实存在较强的正相关(温忠麟，2017)。本研究认为考生在高考必考科目上的分数与在等级考科目上的分数均体现了某些相同的综合能力，某一个考生群体在必考科目与等级考科目中所表现出的能力分布应是近似的，因而可以基于考生在必考科目上的分数建立等级考科目的通用量尺，并将考生在等级考科目上所获得分数转换到通用量尺上，从而获得更准确的校正分数。

该方案需要计算必考科目总成绩的标准分。首先要对各必考科目的分数分布进行正态化转换，然后再计算各科目的标准分。之后，需对三门必考科目的标准分进行加和、正态化转换及标准化，即可求得考生在必考科目上的总成绩标准分。在获得所有考生的总成绩标准分后，需要计算报考各个等级考科目的考生群体中总成绩标准分的均值与标准差，以此体现各个等级考科目群体的能力水平。最后，根据不同考生群体总成绩标准分的均值与标准差，对该群体在该等级考科目上所得的标准分数进行校正。

该方法基于考生在必考科目上的总成绩标准分数，对报考不同等级考科目的考生群体的能力水平高低进行了衡量，对考生的等级考标准分数进行了校正，使得校正后的等级考标准分数能够更准确、更客观地体现考生在总体中的相对位置，基本消除了不同等级考科目考生群体能力差异对考生等级与等级分数的影响，提高了不同等级考科目分数间的可比性。该方法的计算量并不大，具备可操作性。但该方案仍需细化，例如在计算必考科目总成绩标准分数时，三门科目的选择与权重就是一个需要进行细致研究的问题。在对不同等级考科目进行校正时，基于相同的方式与权重计算总成绩标准分是否合理，也是值得探究的问题。此外，这种方法可能会引发公众的质疑，令公众担心这种方法否定了不同考生在不同科目上存在特长的事实(邵光华，吴维维，2018)。

(二)优化分数合成方法与招生方案

合理的高考考试招生制度，不仅包括合理的赋分和分数合成环节，招生环节合理有效地使用分数也是非常重要的。目前，各相关单位在对考生进行录取中所主要参考的仍旧是考生的高考总分，该分数由各科目的分数直接相加而得。这种方式操作简便，也容易被公众所理解和接受。然而，这种方式需要建立在以下前提之上，才能更加科学：不同科目的考试具有相同的分数量尺，分数间具有可比性；不同科目所考查的能力间具有互偿性；不同科目的成绩均具有相同的权重。然而，目前的新高考方案尚难以完全满足以上要求，因此有必要对目前的分数合成方式进行一定的优化。

1.采用加权相加的方式计算总成绩

加权相加方式的关键在于各个科目权重的设定。科目所对应的权重要能够反映该科目的价值，满足高校各专业的实际招生需求。在设定权重时还应尽量维护考生和教师的利益，维护社会稳定。可以考虑借鉴澳大利亚的分数加权经验，增加重点学科的权重，同时增加考生表现较好科目的权重，这样可以突出重点学科与考生优势科目的地位。在确定科目权重的过程中，应由统计测量学专家、高校各专业研究人员、一线教师等组成的团队依据以上原则拟定各科目的权重，并参考社会公众的意见，进行反复论证，确定最终的权重方案。

加权相加方式计算简便，可操作性强，可以满足高校不同专业的招生需求。但该方式的主观色彩较浓，需要依靠专家的经验。在考试科目间不具有互偿性的前提下，加权相加方式的科学性也并不令人满意。此外，相比于目前直接加和计算总分的方式，加权相加的方式容易引发公众质疑，社会接受度相对较低。

2.采用连续栏栅的方式进行招生录取

连续栏栅的方式要求依次获得各个预测源分数，逐级对考生进行筛选，只有考生满足了先置的要求才可以进入后续的筛选环节。结合目前的新高考方案，若采用连续栏栅的方式对学生进行录取，则可以将合格考与等级考视作两个环节，先根据考生在合格考科目上的总成绩，筛选出综合能力水平处于特定范围的考生，之后，各高校可以自主、独立地组织等级性考试并采用连续栏栅的方式录取考生，考生需要按照报考学校的要求，根据一定的顺序参加各个科目的考试，通过全部科目的考生则可以获得入学资格。各高校需要参考自身的办学定位与不同学科、专业的培养要求，确定等级考的科目以及施测的顺序。各高校还需要结合招生需求、试卷难度来确定各科目等级考的分数线。

作为一种在国内较为新颖的录取方式，本研究建议在采用连续栏栅方式之前，先完成一些准备工作。首先，需要基于高考数据进行模拟研究，根据模拟研究的结果形成基本的实施方案；之后，可以选取一些具有自主招生资格的高校进行试点，细化、改进实施方案，并形成最终的方案；最后，可以在广泛征集意见与充分论证的基础上，逐步推广使用基于连续栏栅的招生录取方案。

连续栏栅的方式充分尊重了学生的自主选择权与高校的自主招生权，在双向选择的基础上实现了学生能力特质和高校专业要求的高度契合，有利于培养专业人才。同时，该方案还充分发挥了合格性考试与等级性考试各自的独特作用与功能。但连续栏栅的方式还需要相配套的实施与监督方案，以确保各高校能够公平公正地贯彻落实考试招生制度，并确保各高校的招生机制与考试方案的科学、合理。

我国的高考制度具有极高的重要性，备受社会各界关注，与万千考生的利益息息相关，并会对各高校乃至国家的发展产生重要影响。任何针对高考的改革都会面临不少压力与险阻。本轮考试招生制度改革中包含了多项具有突破性的新政策，力图破解诸多弊端，但在实施的过程中也迎来了一些新的问题。包括本研究在内的一些研究已经针对这些问题进行了探究，相关机构也已经基于试点地区的经验对方案进行了改进。相关教育部门应该联合教育测量专家，进一步坚定改革的决心，探索更公平、更科学的新高考改革方案，推进考试招生制度改革的顺利实施。