人工智能在大规模高利害考试中的应用研究

2021-05-12朱汝光徐加永

中国教育信息化·高教职教 2021年4期

关键词：机考

朱汝光徐加永

摘要：近年来，基于人工智能技術的“机器评卷”研究不断深入，应用实践也日渐增多。北京教育考试院依托国内一流人工智能研究团队，开展了人工智能在大规模高利害英语听说考试中的应用研究。自2018年起，该研究成果在全市中考听说考试评卷中进行了实质性应用，共涉及考生50余万人，取得了良好的效果。为切实解决英语听说考试智能评卷的技术难题，确保公平公正，北京教育考试院联合“科大讯飞”公司，申请了北京市教育科学“十三五”规划优先关注课题“AI在中高考英语听说测评中的应用研究”，力争将研究成果应用在近年的高考英语听说机考中，以助力北京市教育考试招生制度的改革。

关键词：高利害考试;英语听说考试;机考;机评;智能评卷

中图分类号：G465 文献标志码：A 文章编号：1673-8454（2021）07-0040-04

一、引言

自2018年中考开始，北京市的英语听说测试实行计算机化考试，并引入人工智能评卷。北京市中考英语听说机考分值为40分，占总分100分的40%。从2021年起，高考英语听说测试实行机考，分值为50分，占总分的33.3%。

北京市中高考英语学科考试内容和方式的改革，已成为考试招生制度改革的切入点和重要组成部分。该改革力度大、步子稳。中高考英语学科听说考试的得分大比例计入中高考总分，这样的评价导向，有效地引领了中学英语教学，有利于克服“哑巴英语”。同时，引入人工智能评卷，有效地减少了人为因素的影响，提高了评卷效率。

二、英语听说考试困境突围

高考英语要不要考听和说？这是个简单的问题，答案也显然是肯定的。但是，如果把考生人数放大到10万人甚至近100万人的数量级，要组织一场人人交互式的听说考试，回答就不那么容易了。就算有足够数量的考官，要保持几百、几千名考官在连续几天，每天几个小时的现场考试中，始终把握同一标准尺度，困难恐怕是难以想像的。横向、纵向公平都难以保证。因此，必须借助现代信息技术，在考试形式上寻求突破。

2013年前，北京教育考试院以“高考英语科目改革”为题立项，组成由国内知名专家领衔的课题组，对高考“英语听说”内容改革和测试方式进行研究。研究历时三年，重点调研了浙江、广东两省，分析了国内外已有的若干种机考系统的利弊，并对高中生、大学生、高校教师、中学校长、中学一线英语老师等人群，发放3000多份调查问卷，征求其对通过“人机对话”方式来考核听说能力的看法。当时大家的认识还不尽相同，赞同者不到半数，具体如表1所示。

2014年，在“北京高考英语科目改革课题”研究的基础上，北京教育考试院又承担了市财政支持的“北京英语能力测试项目”，进一步对机考的可行性进行论证，命制试题并进行了测试研究。先后于2014年1月、5月、7月进行了3次英语听说机考测试，测试涉及城区、郊区不同层次的19所高中学校，参加学生总数达到5100多人次，形成有关机考考场、考务管理、测试报告等方面的资料。研究发现，此时社会对机考的接纳程度有了很大提高，专家意见趋于统一。研究还完成了改革版考试说明初稿，为高考英语听说机考改革打下了坚实基础。

2014—2016年，北京教育考试院参与信息产业部电子产业发展基金项目“智能语音技术及产品研发与产业化”研究，并为项目提供政策咨询及战略分析以及测试场地、机器设备等。同时还遴选参试人员，并组织测试。该研究认为机考在技术上是可行的。

在完成了理论可行性、社会接受度、专家意见等方面的系统研究后，形成了三方面的共识：一是引导社会改变观念，回归语言的本质属性，把听力考试从笔试中剥离出来，高考要考“说”;二是加大高考“听说”比重，积极引导教学，实行“听说一体”“上机考试”的做法，提高考试的公平性;三是共享科技成果，改革考试的形式，重新设计试卷结构，确定科学的英语测量目标，探索人工智能评卷。

三、英语听说考试设计关键突破

在进行英语听说机考考试设计的过程中，研究团队重点关注适用题型、试卷结构、等值性等核心问题。

1.机考题型设计

经过多轮的专家论证、小规模试测、大样本测试，北京市最终确定的中考英语听说机考题型包括：

听后选择：听一段对话或独白，考生听后根据屏显问题选择最佳答案。

听后回答：听一段短对话，考生在听后根据屏显问题口头回答问题并完成录音。

听后记录：屏显一个留有5个空白的笔记记录表，考生听两遍短文，听后用键盘输入关键词。

听后转述：考生听同一段短文的三遍录音，然后考生完成转述并录音。

听后朗读：屏显一篇短文，给一定的准备时间，然后考生完成短文朗读并录音。

过去三年的中考英语听说机考实践证明，以上题型比较适合当前的机考模式。高考听说机考题型与中考基本相同，但在能力要求等方面有所调整。

2.试卷结构设计

在题型设计上，面临的问题是采用听和说完全分离，还是部分试题听说融合，或是听和说完全融合。经过多轮研究，北京最终选择了“部分分离、部分融合”的测试路径，即同一套试题既包括单纯的听力试题和口语试题，也包括听说相结合的试题

四、听说考试环境重点保障

考试环境是考试施考的基本条件，也是确保考试公平的基础。北京市从物质基础到管理措施两个方面同时发力，为考生提供了一个平等、可靠、舒适的考试环境。

1.考试环境要求统一

北京市教委印发的《关于做好中、高考英语听说计算机考试考点建设的通知》中，明确了全市考点建设的原则和主体责任。

北京教育考试院制定并发布的《北京市英语听说机考考点建设标准》中，统一了设备技术要求。

由于是应用于中考、高考这样的高利害性考试，对考试环境和硬件的要求都应当是严格而统一的。北京没有采用在原有机房上改造的办法，而是要求按统一的标准，建设全新的机考考场。

考试机配置为：四核CPU，主频3.3Ghz以上（相當于Intel i7性能）;内存4G以上;操作系统版本为Windows7或以上;主板自带声卡，也可以是独立声卡;显示器自带摄像头或单独配备摄像头，摄像头需支持人像追踪功能，像素在不低于130万。

耳机：USB耳麦，自带声卡。双指向驻极体式麦克风，具有单向拾音特性，声源距离音孔50cm以上时麦克风拾音效果迅速衰减。

卡座：专用桌椅，桌子左、右、前三边带隔音档板，防止相邻考生窥屏，减少声音串扰。挡板高度1.2米，如兼顾日常教学使用，则采用可升降式档板。

2.管理与技术协调统一

文件要求每个考点设置候考室、备考室，供考生考前使用。相邻两场考生出入场不交叉。

考试实行四重身份认证，谨防替考。四重认证分别是入校常规验证、入场指纹等生物识别、刷脸登录考试和考中无感知抓取照片。

考试系统能提供换机登录、断点续考、转场再考、择日再考、下期重考等功能，并对考生每题答题用时等行为进行后台记录，上传到考务云平台待用。

3.牢牢把控关键和重点

机考的关键技术环节有两个：一是确保考试不能中断;二是确保录音质量。这些功能由考试子系统来完成。考试子系统要确保在复杂多变的考场环境中，采集到清晰完整的考生答题录音，并能够应对停电、死机、噪声过大等各类突发情况。

保证考试连续性的主要措施有：一是考场采用两路供电，秒级切换;二是暂无双路供电的，协调供电部门备好应急供电车，进行热备份;三是考场服务器（监考机）必须配备UPS，延时不少于30分钟;四是考试系统自动检测考试机网线、耳机的联线情况，发生中断立即报警，考试系统具备断点续考功能。

确保录音质量的具体措施有：一是采用专用耳机，严格执行市里颁发的技术标准，耳机为考试进行特殊设计。例如：去掉音量调节键，防止考生误操作;自带声卡，避免各计算机自带声卡带来的差异;采用包耳式耳机，以降低环境杂音的影响;采用高指向定向麦克风（多个），智能降噪;设有三色警示灯，清晰提示耳机的工作状态等。二是用智能音质检测技术对考生的语音数据进行实时监测，确保监考机收回的语音数据物理参数（如音量、信噪比等）正确，及时发现截幅、音量过小、噪音过大、敲击桌子等异常作答。如果音质不合格，系统会提出警示，提醒监考老师及时处理，判断是否要进行重考，避免到评卷时才发现音频质量不佳而造成工作被动。

北京市于2017年10月前完成了全市标准化机考考场的建设。共建成286个考点、634个考场、25342个考位。

五、人工智能助力试卷评阅

1.智能评分目标

智能评分子系统的目标是实现计算机对朗读、听后问答、复述、话题表达等主观性试题的自动评分，其核心是智能口语评测技术。智能评测技术首先从考生数据中提取到反映口语发音的标准程度、正确性、语速、语气、语调等物理特征;然后分析噪声对各个物理特征的影响，通过累积分布函数匹配等规整化处理，建立从带噪声语音物理特征到干净语音物理特征之间的映射，排除噪声对打分特征的影响;最后收集大量的语音数据，并由专家对数据进行细致的定标，再用定标的结果来训练计算机系统，建立物理特征与人工评测间的高精度映射模型，最终实现机器智能评分。

2.智能评卷过程

人工智能评测主要分为以下几个步骤：裸评与标杆卷挑选、定标抽样、专家定标、机器评分。

裸评与标杆卷挑选：机器在未学习专家标准的情况下，以“机器人”标准初步运算出考生的总成绩，即为“裸评”，同时检测出异常数据包。以“裸评”成绩高低为标准，按试卷、题型抽取一定比例的优、中、差数据，提供给定标专家进行培训学习，掌握统一的评分标准。

定标与样卷抽样：高、中、低分级抽样。机器按一定的抽样规则抽取一定量的样本数据，样本数据在专家评分后提供给机器用于学习标准。抽样方法是等距抽样，即将总体“裸评”成绩按一定顺序排列，根据样本容量要求确定抽选间隔，然后随机确定起点，每隔一定的间隔抽取一个单位。样本容量存在动态调整，需依据考生的基数来确定。

专家定标：专家对样卷进行评判，将结果反馈给“机器人”。主要是由遴选的少量评分专家，对机器挑选的样本数据按培训学习的统一标准进行阅卷定标，并将样本数据的评分结果提供给机器进行学习。

机器评分：“机器人”按照专家的标准，重新评判试卷。这里主要分为两类题型：一类是朗读题型。该类题型技术研究较早，目前已比较成熟，主要是按照语音、语调、流畅度、内容完整度等特征进行评测。另一类是口头表达题型，比如听后转述，主要是将考生的作答识别成文本，然后提取文本内容的相关特征，通过机器学习专家评分样卷的方式进行训练和评测。目前，这种半开放题型的评测效果可以和专家水平相当，已经可以代替人工阅卷，但为确保准确性和安全性，目前北京市采用“一人加一机”的评分方式。

3.智能评分效果

北京市英语听说考试采用的方式为：首先全市统一机评，然后再分区进行人工二评，当机评、人评分数超过阈值时，再由组长进行三评。从近三年的数据情况来看，不同题型的三评率略有不同，平均三评率较低，人工智能评分表现出较好的效果。各区考试机构、教研机构都表示赞同，并希望逐步加大人工智能机器评卷的使用力度。

六、不断探索人工智能应用

虽然北京市对“人工智能助力中高考英语听说机考”进行了有益的探索，也取得了一些实质性应用成果，但技术的发展日新月异，教育考试公平公正的要求越来越高，科学技术的贡献率还没得到充分体现。在“新基建”的大环境下，考试招生现代化未来还有很长的路要走。

北京教育考试院于2020年联合“科大讯飞”公司，申请了北京市教育科学“十三五”规划优先关注课题“AI在中高考英语听说测评中的应用研究”。该课题对人工智能评卷的关键技术及影响因素进行了系统研究，力争将研究成果实质性应用在近年高考英语听说机考中，让人工智能技术助力北京市教育考试招生制度的改革。

课题主要研究内容包括以下六个方面：

1.中高考英语听说机考测评效果对比

利用北京市中考英语听说机考近三年的历史数据以及后续两年内的实考数据，在平均分、标准差、相关度、评分一致率等多个维度上，对智能评分结果和人工评阅结果对比分析。通过对拒评数据的研究，从算法处理、数据采集以及评卷质量监控等方面提出优化建议。

2.考试环境对测评结果的影响及应对策略

主要研究：机考系统与云桌面机房的适配性;软硬件设备、音频采集方式、网络等考试环境对数据采集质量的影响;特殊情况下（如佩戴口罩）进行考试对机评结果的影响。从成功考试案例中汲取经验、提炼模式，探索大规模远程考试的可行性。

3.中考英语听说机考双机评分的可行性

主要研究：不同智能评分引擎驱动下，智能评卷的评测效果比对;不同测评模式下，定标集选取的策略，比如在没有专家评分前提下，如何利用普通评卷教师的评分数据选取定标集合;探索采用智能评分模式时规避系统性风险的方法;探究“双机评+人工仲裁”模式。

4.英语听说机考关键技术实证研究

针对北京地区中高考英语听说考试的机考流程、题型特点以及机评流程，验证机评技术提供方“科大讯飞”最新研发的关键技术的应用效果。具体包括：在机考流程中，验证语音音质检测技术，提升机考过程的异常录音检出率，大幅度降低机考流程风险;根据题型特点，验证多系统融合技术、声学模型和语言模型无监督自适应技术、高区分度朗读题型评分技术、多特征技术等评测新技术;在机评流程中，验证依靠GPU算力提升机评速度的途径。

5.非语言交际维度相关信息的采集方式与应用

充分发挥标准化听说考场计算机配备的前置摄像头的作用，记录考生在考试过程中的嘴唇动作、头部姿态、面部表情等非言语行为，构成视频模态信息，与学生语音模态信息一起形成学生答题多模态数据。多模态数据的应用包括两个方面：①相对单一语音录音数据，融合唇部动作的计算机视觉信息记录，有可能提升异常录音的检测效果;②融合唇部动作的视觉模型分析能力，有可能提升带噪录音的语音识别准确率。

6.中高考英语听说机考信息安全监管框架

本研究基于现行考试组织流程，对网络传输、加密运算、云存储等技术的应用进行探索，并提出英语听说机考平台的安全监管框架，确保数据和算法使用合规、合理、透明和可审核，保障数据安全。

本研究的落脚点是：将研究成果转化为生产力，从考试环境、考试平台、考试管理、答卷评判等方面制定实施策略，形成完备的北京市高考英語听说机考实施方案和技术策略。

七、结语

人工智能在网上阅卷的质量控制（检出空白卷、雷同卷、作文抄写题干等）方面，已得到较为充分的应用。同时，国内考试机构也进行了人工智能评阅主观题、英文作文题、汉语作文题的研究，但都未进入实质性应用阶段。在全国英语四、六级考试的口语考试中，采用了机器评阅。相比之下，在中高考英语学科的听说考试中，北京是第一个采用机器评分的城市。研究还在进行，检索永不止步，笔者将进行更深入的实证研究，通过大量语料，训练出更加智能的评分机器人，进一步提升评卷的效率和质量。

参考文献：

[1]汪张龙.人工智能技术在考试中的应用[J].中国考试，2017（11）：30-36.

[2]何屹松等.人工智能测评技术在大规模英文作文阅卷中的应用探索[J].中国考试，2018（6）：63-71.

[3]何屹松等.新一代智能网上证券系统的技术实现及在高考网评中的应用实例分析[J].中国考试，2019（6）：57-65.

[4]北京教育考试院.高考英语能力试测研究成果汇编[R].北京：内部资料，2015.

[5]北京教育考试院.中高考英语改革研究暨北京市中高考英语机考系统建设项目成果汇编[R].北京：内部资料，2017.

（编辑：王晓明）