统计分析在高考改革中的应用与反思

2017-01-27刘昕

中国考试 2017年1期

关键词：标准分题库试卷

刘昕

（教育部考试中心，北京 100084）

统计分析在高考改革中的应用与反思

刘昕

（教育部考试中心，北京 100084）

对高考数据进行统计分析发端于20世纪80年代，为提升我国考试的科学化水平奠定了基础。此后经历了题库建设以及标准分数制度的起伏，一些问题至今未能很好解决。随着测量统计工具和技术的发展，以及我国公民对考试科学化的认知程度，考试数据的统计分析将在考试改革中发挥更大的作用。

恢复高考；高考改革；教育测量；教育统计；统计分析

1 考试数据的统计分析引入我国的发端

1977年，被“文革”中断10年的高考得以恢复。人们欢欣鼓舞，看到了国家的未来和希望。

20世纪70年代末，改革的热潮在各行各业兴起。大学里逐渐聘请了一些国外的专家教授讲授现代化知识和信息。一位美籍台湾教授在北京师范大学讲课，他的夫人顺便在心理系开设了心理与教育测量课。受这位老师课程的影响，心理系的师生分析了当时高考与以现代心理与教育测量理论为指导的考试之间的优劣，向教育部主管部门提出对传统高考进行标准化改革的倡议。

标准化考试改革就是用教育测量理论和现代化技术手段对传统考试的改革。教育测量的学科基础是心理和教育统计学。因此，对考试数据进行统计分析和解释是标准化考试改革的重要内容。

对考试数据进行统计分析和解释对于传统考试来说着实是个新事物。在这之前，考试与数字相联系的不过是100分制、5分制，如果有运算不过就是计算一个平均分。教育测量理论提出要计算试题的难度、区分度，试卷的信度、效度等等，这些计算超出了初等数学的范畴，要用到统计学的概念和方法，例如正态分布、概率等。在当时，由于改革的提倡者历数了传统考试的种种弊端，因此如果在考试中引入“新法”，俨然就是“进步”和“革命”。当时能够谈一谈考试统计分析的人都感觉很自豪，而不熟悉统计分析的考试工作者都觉得自己有很大差距，得抓紧学习，有些人则对标准化考试产生了畏惧心理。

20世纪80年代初，全国教育统计与测量研究会成立，配合教育部考试改革在全国举办了多次研讨会和培训班。1986年，在江西师范大学举办的研讨交流会上，天津市一位小学校长发言说，他们学习了教育测量与统计理论就落实到行动上，如果哪个班的学生考试成绩是正态分布，就给那个班的老师表扬和奖励。其实正态分布是大规模数据的自然分布，正态分布的曲线是倒钟形，均值附近的人数最多，离开均值越远的人数越少。这位小学校长所说的校内考试以正态分布来评定教师的做法，在今天看来很荒谬，但在当时成为经验在会上交流，没有人提出反对，因为统计分析对大家来说都是新事物。

20世纪80年代，大家学习和研究统计分析的热情很高，国外专家来讲学的活动也很多，但是对于专家讲的内容，翻译员不能理解和正确翻译，数学系教授和略懂测量学的研究者英语水平不够，也不能翻译。因此当时国外专家的讲学活动经常处于比较尴尬的状态。

这些例子真实反映了考试改革初期，教育和考试工作者的学习热情以及对于教育统计理论和方法的陌生。之后，北京师范大学、华南师范大学、华东师范大学等高校的教师陆续编著了《教育统计学》，并开设了教育统计、教育测量的课程。

教育测量和教育统计是建立于20世纪初的学科，曾经于20世纪30年代由西方传入我国，在当时的教育界也掀起了“新法考试”的热潮，那些在当时就学习和接触过教育统计与测量的老先生也热情地举办研究性的学习班。高考标准化改革的试点工作就是在这种学习和探索的环境中开始的。

2 考试数据的统计分析在我国的起步研究

1984年，教育部决定委托广东进行高考标准化试验。4年后即1988年，近60位专家参加了对广东标准化试验的评估。负责这个项目的研究者没有辜负期望。首先，选择适用的公式计算了试题的难度、区分度；对多项选择题各被选项得分情况进行了数据分析；对试卷的难度、信度、误差进行了计算和分析；以图、表、数据描述考生成绩分布状态、各分数段考生频率。与学科命题人员密切配合，正确使用测量指标评价了试题试卷的质量，为后续对学生和教学进行评价做了准备。其次，将考试的原始分数进行了标准化转换。结合我国高考工作的实际，开始采用的是线性转换的方法，针对实际操作中遇到的问题，又采用正态化方法转换的探索。第三，开展试卷试题的等值研究，尝试建立省级常模。

广东高考标准化考试的试验，首次在一个正规的大规模考试中，依据测量学原理选择统计公式计算了各项测验指标，使定量分析贯穿于考试的始终。这种分析可以帮助命题教师有效地控制和提高试题试卷质量，可以发现考试实施中其他环节的误差，有效地促进了我国考试的科学化水平。

广东标准化考试试验研究的难点在于统计公式的适用性。西方国家测验试题基本都是0、1计分的多项选择题，其统计公式都是建立在0、1计分的基础上。我国高考试题之前多为问答题、计算题等主观性试题。标准化改革后各学科试题增加了以多项选择题、是非题为主的客观性试题，但是各学科的题型比例不同，英语科的选择题最多，占80%～90%，数学科最少，占30%左右。而且在有些学科中，多项选择题的赋分值也不同，有的1题1分，有的1题4分。全盘照搬西方的统计公式计算就会发生误差，造成形式上的科学而实质上的不科学。广东标准化考试试验组在这个问题上非常谨慎，查阅资料，实际测试，与命题教师和测量专家切磋研讨，充分注意了公式的应用条件，最后确定了使用的公式和计算方法，并在研究报告中给出了应注意的问题和利弊分析。

广东标准化考试统计分析的结果能否正式向全国推广使用，事关重大。教育部考试中心派出专家调研小组，于1988年4月和5月到广东进行考察，对广东高考标准化改革试验进行评估。专家小组对广东高考各科技术指标进行了重新计算，对所用公式进行了推导，对得出的结论进行了重新验证。评价报告认真求实，指出问题，同时提出修改建议。专家小组与广东的研究人员进一步探讨，形成了比较科学和适用于我国高考的统计分析方案的初步模型。

在广东开展标准化考试改革试验的同时，全国各地开展了多种形式的标准化考试理论和方法的培训班和研讨会。当时宣传标准化考试理论的两个巨头是“北派”北京师范大学心理系的张厚粲教授和“南派”广东外国语学院院长桂诗春教授。北京师范大学心理系是最早发表文章用教育测量学观点考察传统考试弊端的研究团队；桂诗春教授根据语言测量学的理论，在英语教学与考试中应用统计与测量的方法，具有理论与实际结合的优势。华东师范大学数理统计系的茆诗松教授、周纪乡教授，上海师范大学数学系李伟明教授从数理统计的角度为研究的科学性、严谨性做了大量工作。当时积极参加测量统计研究的还有郑日昌教授、冯伯麟教授、谢小庆教授、张敏强教授、戴海崎教授、扈涛教授、黄光扬教授等以及教育部考试中心的专业人员。在全国广泛开展研究的基础上，教育部考试中心对全国各级负责高考的管理干部进行了系统培训，并编写了考试管理干部培训教材，于1990年8月出版《标准化考试》《考试的教育测量学基础》《考试的统计分析方法》《计算机在考试管理中的应用》4本培训用书，奠定了我国高考标准化考试的统计分析基本规范的基础。

为进行考试数据的统计分析，教育部考试中心自1988年起对高考数据进行考生答题情况抽样和考生总体综合信息数据采集。抽样数据采集采取的是分层随机抽样，根据抽样数据对试题的难度、区分度、答题反应情况进行分析，对试卷进行信度分析。考生的综合信息来源于各省考生报考时采集的男女、城乡等信息和考试结果的各科目分数和总分。综合信息一方面可以作为对抽样统计结论的校验，另一方面可以得出考生总体和分类群体的数据，为相关工作服务。抽样数据、综合信息数据分析结果形成常规报告，反馈给命题教师以改进下一次的命题工作，更好地控制试题试卷质量，同时提供给教育教学部门供相关人员参考。

除上述考试数据的统计分析外，考试的研究人员还开展了其他诸多研究，例如，对不同的信度公式适用性的分析，用因素分析的方法对试卷内容效度进行分析，高考选拔预测效度分析，主观题评分误差控制，分数转换，等值的经典测量理论研究，等值的项目反应理论单参数和多参数的研究，多元统计在误差计算和效度上的研究，概化理论对误差分析的研究，等等。随着考试数据的统计分析越来越受到我国考试工作者的重视，对考试数据统计分析的研究越来越深入，我国在考试领域的研究水平与国外的差距逐渐缩小。

3 标准化考试的推广

3.1 题库和标准分数制度的发展历程

经过几年研究和试验，原国家教委决定在普通高等学校招生全国统一考试中全面推广标准化考试，并于1989年6月27日发布《普通高等学校招生全国统一考试标准化实施规划》（以下简称《实施规划》）。

《实施规划》的第一阶段是在全国各省实现机器阅卷。这一步的关键是各学科按教育测量学的要求命题，试卷中应有一定比例的选择题，这样试题评阅才可以交给机器完成。这一阶段进展顺利，评卷质量得到监控，命题和考务管理水平有所提高，考试的科学化、现代化和规范化水平有所提升。

《实施规划》的第二阶段是建立题库和标准分数制度。经过这一阶段，考试的各个环节得到严格的、科学的统一规范，标准化考试改革的目标得以实现。第二阶段的任务技术含量要求高，因此给统计与测量工作提出了更高的要求。

首先谈题库。对题库的认知与应用随考试改革的深入而变化。以当时从国外学习的信息和认识水平来看，题库是贮存题目的图书馆。题目按内容、题型、难度、区分度等指标存放在题库中，可以根据组成试卷的要求从题库中抽取题目。题库中应该存有大量的、经过试测的合格题目备用。由于建立一个题库所需要的人力、物力支出巨大，高考这样具有高社会关注度的考试，试测本身就存在问题，而且每次考试之后，题目马上曝光，不能再进入题库反复使用，建题库的经济成本巨大。实际上，国外考试机构在高关注度的考试中，组卷也并不完全依赖题库。因此在20世纪90年代，建立题库这个任务也就慢慢淡化和转变为切实追求试题试卷质量。在高考各个科目（英语除外）建立题库的任务最终没能按原定目标实现。

再谈建立标准分数制度。建立标准分数制度虽然在理论上没有题库那么深奥和复杂，但是由于其涉及的是考试分数，社会关注度高，考试工作者和相关领导同志也十分谨慎。按照《实施规划》，建立标准分制度的实施步骤为：1989年，广东继续进行建立常模、转换标准分的试验；1990年，提出建立全国常模、转换标准分试验方案并开始试验；1992年在总结全国及广东建立常模、转换标准分试验经验的基础上，制定建立常模、转换标准分实施方案；1993—1995年，建立全国及各省（自治区、直辖市）各类考生常模，并使用标准分。

1994年4月18日，《国家教委办公厅关于颁发〈普通高等学校招生全国统一考试建立标准分数制度实施方案〉的通知》正式发布，再一次明确在高考中实行标准分制度的决心，并将实施进程调整为1996—1997年完成。

实施标准分对考试工作者提出了非常高的要求。教育部考试中心成立了专门小组，组织专家制定等值与分数转换方案，命制试题、施测，接收各省传输数据，进行计算和分析，下发方案和结果，并组织科学调查，完善方案，编写宣传手册，举办培训班进行推广宣传。1994年以后，教育部考试中心对各省的考试实施开展质量评审，把标准分转换作为一个重要环节进行考察、评估，以此大力推进标准分数制度。承接试验任务或是进行内部模拟试验的省份，首先要培训工作人员，同时省级考试机构还配备专门设备，提高分数处理的精度和速度，更重要的是还要做好面向社会的宣传。

标准分数制度从1985年开始在广东试点，1989年正式推行，至1997年陆续推广到海南、河南、陕西、广西、山东、福建6省，共计有82万考生参加了高考标准分制度的改革，占1997年考生总数的近1/3。但是由于推行标准分数制度难度较大，实行标准分数制度改革的省份没有再扩大，到2001年有两省退出。2002年开始，不再强行推广标准分数制度，实行何种分数制度由各省自行选择。目前，只有海南省在坚持使用标准分。

3.2 标准分数制度没有推广的原因分析

建立标准分数制度是考试标准化的一个重要环节，但是在我国高考这项高利害考试中，标准分数制度没有能按计划推行，分析原因是多方面的。

在标准分数制度推广过程中，各省在内部模拟进行分数转换的过程中也提出了不少问题。例如，考生分数分布不是正态而采用正态化转换是否带来误差的问题；各科考试分数分布方差不同如何进行总分相加的问题；日语、俄语等小语种考生分数是单独转换还是与文、理科考生一起转换的问题；录取时对有些类别考生照顾性加分如何处理的问题，等等。为此，教育部考试中心成立了专家小组专门调研解决这些问题。专家小组与有关省的考试工作者多次研讨，计算分析，对方案进行修正和补充说明。例如，详细规定了缺考与零分在统计时如何处理；通过计算转换前后分数的全距与方差，确定政策性照顾加分的合适范围，等等。这些工作促进了问题的解决和统计工作的完善，但是有些涉及到考试政策的问题却无法得到有效解决。例如，小语种问题。在每年的高考中，东北3省的日语、俄语试卷难度相对于考生水平要低，因此考生的平均分要比考英语的平均分高很多，在用原始分合成各科总分时，日语、俄语考生比英语考生要占便宜。在分数转换时，如果日语、俄语考生与英语考生一起转换外语分数，则他们的优势就更强；如果日语、俄语考生单独转换外语分数，则向小语种考生政策倾斜的意图就没有体现出来。同样的问题也出现在语文、数学、历史、政治等9个学科之间。一次考试之后，各学科的平均分和标准差不同，就单独一科来说其平均分、标准差各年度也不同。在由多科分数合成一个总分时，平均分高的、标准差大的学科其对总分的作用就大，因此在不同年度，各学科在总分中的作用是不同的、不稳定的。解决的办法应该是由专家和决策者，在各科的分数转换之后给各学科确定一个合理的平均分、标准差或权重。但现实情况是，模糊不定的标准社会可以接受，要公开化、明确化，就有了极大的难度。如果重新制定标准，参与决策的就要包括教育部、地方政府以至更高行政部门。

上述各科成绩合成总分的不合理问题还可以通过另外一个途径解决，即分科目制定录取标准，各科录取分数线由招生学校确定。但是如果在高考中实行这样的分科划线录取，涉及招生制度改革，其决策部门是教育部有关单位。统计分析工作人员只能建议而不可能决策。

原定的标准分数制度中包含等值工作。这比各省将原始分通过正态化转换为标准分更进了一步。教育部考试中心通过等值计算使跨年度的高考分数得以换算，并将结果下发各省，各省可以用于参考或把标准分调整为等值后的分数。但是这个工作也进行得不理想。当时等值工作由科研人员进行，采用一部分人先后使用两张试卷，或两部分不同年份的学生使用同一张试卷的方法进行。因为，高考试题是绝密等级，上级领导规定命题人员不得介入等值工作。因此科研人员组织教师模拟高考试卷命制等值试题，组织选点，抽样，保密测试，上传数据和计算，报告计算结果，基本达到了实战需要。但是由于这个过程是“模拟”的，虽然最大限度靠近了真实高考，仍不能报告给各省配合各省的分数转换。标准分数制度中的等值分数也就随原始分的淡化不再进行了。

以上例举的统计分析工作涉及超越技术的、与政策相关的、跨部门的问题，需要有足够的权威部门来协调，这是推进改革的必要保证。由于缺乏这样的权威部门，标准分数制度没能抓住最好的时机推进，考试改革的重点逐步由考试的标准化、科学化，转向重视能力考查、考试科目改革、考试安全性、统一考试分省命题等。

分数的等值与转换对于考试的科学化、标准化意义重大，虽未推行，但之前的探索会成为今后有益的借鉴。相信随着考试改革的深化，这项制度会重提议事日程。

4 考试数据统计分析的反思

在考试中利用教育统计分析的方法，进行试题的难度、区分度和试卷的信度计算，对多项选择题的答案选择情况进行分析，用以提高考试的质量，这已成为大多数考试的惯例。一些质量较高的考试还利用统计分析的方法，监控主观题的评分误差，用统计分析的方法协助发现考场作弊，用统计分析的理论指导转换标准分，用统计分析的方法研究试卷的效度，研究试题的偏差（对不同背景考生的公平性），研究考试各环节的误差，这些环节都推动我国考试走向科学化、规范化。

在使用惯用的统计分析方法时，应该注意统计方法与统计公式的使用条件。由于我国高考的高利害性，试题不可能进行试测，不可能在两次考试中使用一些相同试题，因此国外考试机构常用的等值方法不可能照搬，建立题库的模型需结合我国实际情况进行研究开发等。

对考试数据开展的统计分析，从一个侧面反映了20世纪末高考的标准化改革。随着测量统计工具和技术的发展，以及我国公民对考试科学化的认知程度，我国在考试领域追赶国际领先水平的节奏必将加快。

Applications and Reflections on Statistical Analysis in the College Entrance Examination Reform

LIU Xin
（National Education Examinations Authority,Beijing 100084,China）

Statistical analysis on the College Entrance Examination data originated in the 1980’s of the 20th century, laying groundwork for enhancing the scientific level of examinations in China.It has experienced ups and downs thereafter in the construction of item banks as well as the standard score system,ending up with some problems yet to be solved.With the development of statistical tools and techniques as well as our citizens’awareness of scientific examination development,statistical analysis of examination data will play a greater role in the examination reform.

Resumption of the College Entrance Examination;College Entrance Examination Reform;Educational Measurement;Educational Statistics;Statistical Analysis

G405

1005-8427（2017）01-0032-5

10.19360/j.cnki.11-3303/g4.2017.01.006

（责任编辑：陈睿）

刘昕（1947—），女，原教育部考试中心《中国考试》杂志社主编，研究员。