新高考制度下英语科目网上评卷误差控制途径探索*

2024-06-01叶萍

教育与考试 2024年1期

叶萍

一、引言

2005 年，网上评卷在我国各省份高考的所有科目全面推行，经过近二十年的实践检验，技术越来越成熟，积累了相当丰富的经验。相较于测试领域其他分支的研究，大规模标准化网上评卷研究的体量并不大，推广之初，研究主要集中于评卷工作的科学管理方法和综合质量监控措施[1-2]，随着应用和影响的不断扩大，不少学者关注主观题评卷误差控制研究[3-4]，也有支撑网上评卷信度和效度的实证研究[5]；之后关于误差控制的研究变得更为深入，探讨了针对监控趋中评分等具体问题[6-7]。近年，随着大数据、云技术和人工智能技术的快速发展，网上评卷的技术性问题研究再次成为关注点，有学者首先指出了因主客观原因造成网上评卷实践的大量数据信息未能有效用于分析和指导教学的信息浪费问题[8]，何屹松等[9-10]则大胆提出了人工智能评分参与高考网评一评的设想，并开展了应用研究，杨帆[11]从理论到实践全面分析了人工智能参与网上评卷的未来发展之路。中国的新一轮高考改革在2024 年进入关键时期，大部分省份即将加入新考高模式，题型的改变，尤其是开放性主观题的增加对英语科目提出了挑战，在新旧高考交替之际，梳理和分析当前评卷实践中存在的评分误差控制相关问题，探索以制度建设和人工智能技术作为解决方案有很大的研究空间。

新高考制度对英语科目的影响主要体现在题型的变化上。原来考核表达准确性的“短文改错”题型取消，书面表达增加“读后续写”题型，从评卷的角度看，准客观题型的短文改错由主观的续写作文替代，在评卷的难度和工作量上压力大幅增加。广西曾经率先其他省份在1999 年尝试大规模标准化考试的网考，建设英语科目口试题库，在口试中实行人机协作，但在之后的二十多年，改革的步伐放缓，并没有能够将人机协作评卷模式推广应用到笔试的评卷中，个别省份后来者居上，以可信赖的实验数据支撑决策决定，很好地解决了日益增长的考生人数给评卷工作效率、准确性带来的压力。2024 年，广西也将面临英语科目新题型给评卷工作带来的挑战。本文以近两年广西英语科目考点的实践情况为例，找短板查问题，从评分误差解决的三要素（评分方式、评卷队伍建设、动态误差控制）入手，探讨在新高考背景下人工智能协助提升英语网上评卷准确度和精度的必要性和可行性。

二、新旧高考交替期的难题与挑战

网上评卷主观题评分误差控制主要有三个途径：改进评分方法、建设评卷队伍、动态监控误差。本研究驻点2022 年和2023 年广西高考英语科目网上评卷点，评估反思工作流程，查找短板失误，发现并分析存在的问题，具体总结如下。

（一）评分方法改革进展缓慢

英语科目2008 年首次调整题型后这十多年来都是两道准客观题语法填空和短文改写，以及一篇主观书面表达，在评分方法方面，大部分评卷点，包括广西的评卷点，均为双人工评模式，语法填空和短文改错双评零误差成绩有效，否则需进入三评或仲裁，主观书面表达满分25 分，双评误差达到4 分进入三评或仲裁。双人工评模式以及误差值的设置科学合理，有效保障评卷质量，但随着考生人数的逐年攀升，评卷的压力越来越大。广西2022 年英语科目考卷数达到41 万份，2023 年再创新高达到44 万份。增加评卷员是最简单的办法，然而这并不是最科学和明智的选择。如果每个科目都要求增加人力，评卷点的承载和管理、评卷员选聘工作的难度加大，无法保障工作的顺利开展，也在无形中加大了经济成本。广西在网上评卷的初期属于最早的实验省份，特别在口试人机协作方面有较好的经验优势，但在人工智能辅助教育研究如火如荼的近五年，没有迈出探索的步伐，在一定程度上忽视和浪费了技术进步对提升评卷效率和准确性的资源优势。

（二）评卷队伍建设不尽如人意

首先是人员结构问题，中学是人才培养和输送单位，中学教师是中等教育国标的执行者，大学对所输入人才有准入的标准，因此，评卷队伍，尤其是试评的专家队伍，应按各占50%的选拔比例执行。现实情况是，因评卷工作与教学科研工作基本无关，有经验和高职称的大学教师参与此项工作的积极性不高，选聘人员成为难题，相比之下，此项工作与中学的优秀教师评选、职称晋升等等密切相关，中学教师报名参与的热情很高，备选的体量与大学教师的反差很大。其次是队伍建设的意识较为薄弱，很多评卷点未建立有包括个人信息和评卷情况等完整数据支撑的评卷员档案，基本凭近1-2 年的印象和系统呈现的有限个人信息来遴选。再次，选聘过程不排除行政干预。评卷点后勤出于其管理的便利考虑而不时对评卷员的选拔加以行政干预，例如，以住宿安排紧张等为由不欢迎外地和评卷点校外教师。

（三）专家组的宏观动态监控作用效果有限

理论上，纳入动态监控的指标是多样多面的，包括评卷速度、采用率、有效评卷数、评分结果分布曲线、评分一致性检测、异常得分率检查、异常卷判定检查、双评误差异常抽检等。在常规评卷实践中，小组长的关注点主要停留在前三项比较粗糙的数据，并了解组员对比数据状态，以便及时做好小组间的人员调配，保证评卷的正常速度和节奏；质检组成员（题组长）则主要抽查评分误差值超标的卷子，特别复核那些三评与一评或二评误差超过8 分的，判断哪一个是较准确的评分，必要时给予仲裁重评，在此过程中兼顾其他数据指标，发现并跟踪评卷质量较低的评卷员，及时谈话指导培训。总而言之，质量监控相关责任人（专家组）通常处于多任务状态，责任界限模糊，被理想化地要求面面俱到，而事实上往往顾此失彼。目前专家组更多的是通过抽样的方式来对个别评卷教师进行管理，无法对整体控制评卷发挥作用[12]。

三、新高考背景下对网上评卷主观误差控制三要素的再思考

新高考题型的改变，增加了主观书面表达读后续写，评卷压力增大，合并旧题型实践期出现的各种管理问题，要保障评卷的效率和质量，必须从三大要素入手进行改革完善。

（一）评分方法改进：人机协作的必要性和可行性

如前文分析所述，以扩大评卷队伍来应对考卷增加和主观题评卷量增加的做法并不是明智的选择，是短视缺乏远见的行为。在口试人机协作已有二十多年应用的基础上，早就应该进行笔试的人机协作实验尝试。近年，随着高精度的手写文字识别、自然语言理解、智能评测等技术的发展，人工智能辅助教育评分的应用研究探索越来越多，有些已经取得了实质性的进展，技术上实现了“网上评卷系统”与“智能评分系统”在网络链接、数据交换、实时共享、访问，实证研究也表明，人工智能参与数学科目填空题的网评一评结果可靠[13]。

相较于数学科目的填空题，英语科目语法填空题的正确答案具有更强的客观性，是人工智能参与一评的合适实验对象。目前人工特征工程方案和深度学习方案是人工智能辅助评分的两种主要研究方向，前者需要由专家先定标，机器学习定标样本后通过训练优化过程，最终形成评分模型；后者通过复杂算法作答内容分按段落、句子、词组等分解，量化后再借助神经网络来自动抽取与评分细则相关的特征，进行匹配评分。深度学习方案以大数据为基础，其效果随着数据量的增加显著提升，在大规模网考的应用前景更为广阔[14]。无论采用哪一种方案，使用往年高考网考数据库进行校验是必要和可行的，试行阶段可以同步采用传统“双人工一评”和“机一评+人一评”进行验证比较，因为技术上已能够保证智能评分系统与网上人工评分系统的独立和随时融合。

关于人工智能参与主观书面表达应用文写作一评问题，可以参考2023 年广西英语科目考点的后台数据，机评与人工终评误差超过4 分的约占3.6%，误差超过8 分的约占0.9%，误差超过10 分的约占0.2%，说明机评参与主观题一评也是具有可行性的，当然仍需更多的校验数据支撑。

（二）评卷队伍建设：精简严选，激发主观能动性

在控制评分误差的三大途径中，改进评分方法是手段，建设评卷队伍是基础。队伍建设首先要完善评卷员档案。评卷组织单位与技术部门合建的专家库里主要收录评卷员的履历信息，包括姓名、性别、年龄、职称、工作单位、联系电话、参与评卷次数等。仅凭外部履历信息无法较全面地判断候选人的资质，理论上还应评估其评卷胜任能力[15]。建模评估最为科学，但工作较为复杂和系统，目前学科组掌握的附加信息是每年任务结束后评卷员的基本评卷行为信息汇总，包括有效评卷数、采用率、速度、平均分等，属于较为粗糙的数据信息，只能在一定程度上辅助判断评卷员的胜任能力。未来技术改进方面应该整合个体评卷员的全程评卷行为数据，将累计在线时间、考核情况、自查一致性结果等一并纳入，最后形成个体评卷员该次任务完成结果的总体描述，条件允许下技术方与学科组共同研究确定各指标赋值，构建评卷胜任力评估模型，统计结果供下一年遴选参考。学科组应注意年度信息的变化，有些评卷员因年龄增长或健康原因等会出现不稳定的评卷行为结果，一次优秀不代表次次优秀，还可增加工作态度一栏，根据小组长、题组长等同行反馈进行主观评价。

高考评卷工作强度大，是否参与对大学教师的教学、科研、职称晋升没有影响，因此通常需要长时间动员才能招满人员。从可持续性发展角度考虑，大学应该配合制定相应的激励机制改变这种反差被动局面，例如可以将这项工作纳入公共服务课时范畴，至少保障能选拔足额的有经验高职称教师参与试评工作。此外，为公平起见，英语学科组应根据本学科评卷工作的特征，制订一套操作性强的综合考虑效率、质量、责任的报酬分配办法，鼓励多劳多得。

（三）动态监控误差：挖掘人工智能辅助监控的潜力

目前各科目评卷点基本都是四层级质量监控体系：普通评卷员、小组长、题组长和科目组长，各负其责，人数根据考卷体量设置。评卷员进行评卷工作，小组长负责误差控制调度，题组长进行题目评卷进度控制及平衡评判异常考卷等问题，科目组长负责整个科目进度控制管理[16]。动态监控“误差指标”包括评卷员之间一致性误差、评卷员本人一致性误差、人工双评误差、评分点之间误差、平均分、评分分布等，评卷“效率指标”则包括评卷速度、有效评卷、采用率。网上评卷系统自带的质量监控功能很多，但是未对相关数据进行整合，以形成直观的结果汇报，需要相关责任人逐项查看并自我分析判断，无形中增加了工作量和难度，造成在评卷实践中小组长只通过评卷速度、有效评卷、采用率、平均分来粗略了解组员的评卷情况，情愿在监控的间隙同时分担部分评卷任务，也较少去关注除了系统自动推送的双评误差卷之外的其他“误差指标”。同样，题组长的工作重心放在了随机抽查三评卷和异常卷，查看是否有三评误判情况并加以纠正，充当了随机质检的角色，在不断的抽查中获取到部分教师的评分质量印象，预警并指导。科目组长从更宏观的层面来监测和调控。题组长和科目组长对于“误差指标”的观测也不多，因为不够直观，所以大家更愿意相信具体的评卷行为，没有将系统的质检功能科学地利用起来。从本质上看，平台仍有较大的技术潜力等待挖掘，以方便提升动态误差监控的效率和准确性。以下罗列两个具体改进方向。

1.提升网上评卷系统的自动监控功能。加强学科组长与技术方的沟通合作，以便具体需求得以通过技术突破而实现。各项重要监控指标，尤其是“误差指标”的结果，应形成智能化的分析报表，产生清晰的预警清单，以便题组长和科目组长能够及时明确地掌握总体情况，必要时查验个体数据，保障及时发现和解决问题。

2.引入智能评卷系统辅助人工评卷质量监控。“网上评卷系统”支持随时在“人一评+机一评+人二评”模式和“人工双评”模式之间的切换，智能评分系统支持在“机一评”模式和“智能评分辅助网评质量监控”模式之间的切换，在智能评分参与一评之前，应充分发挥智能评分系统的辅助监测功能，使得科目组对评分误差的动态监控更具效度。

要实现动态误差监控的智能化，需要考试的组织单位、学科评卷组、技术方三方的共同协作，组织单位牵线搭桥和资助，学科组梳理监控效果需求，技术方领会并帮助实现。一旦技术能够实现预警清单的便捷直观，质检责任人监控、指导、纠错的效率将会大幅提升，“预警+随机抽查”监控模式将能有效有序地控制主观题评卷过程的误差，发挥专家组的宏观监控调控作用，保障评卷的质量。

四、结语

高考改革在不断地推进，很多省份纷纷加入“新高考”阵营中来，预计在2024 年会有29 个省份会启动“新高考”模式。新高考对于评卷工作的影响主要在于题型的改变，英语科目减少一道准客观题，增加一道全主观题，给评卷工作带来不少的压力。从控制主观题评分误差的三要素考虑，人工智能技术的融入有很大的发展空间，换言之，评卷误差控制应主攻人工智能的深度介入。在评卷方式改革方面，应尽早启动机器参与一评的可行性校验实验；在评卷队伍建设方面，可基于评卷系统人工评卷行为重点数据推进人员评卷胜任力模型的构建，使得评卷员的遴选更具科学性；在动态误差控制方面，挖掘的潜力更大，但需要考试组织单位、学科组和技术方三方的常态化沟通交流作为前提条件，需求与供给达成默契，才有利于技术潜能的开发利用。网上评卷在高考等大规模标准化考试中的应用已近二十年，考试主管领导、科目组长等相关负责人因工作调整等更换的情况时有发生。一年一次的考试，因其规律性的程序化过程而很容易让评卷队伍产生麻痹大意的心理，以任务的无差错完成为主要目标，忽略了任务后问题汇报总结和解决完善，使用者和技术方缺乏交流和沟通的机会，这个问题阻碍了技术潜能的挖掘，必须在制度上予以重视，才能保障评卷误差控制机制的日益完善。

展开全文▼