人工智能评测技术在大规模中英文作文阅卷中的应用探索

2018-08-30何屹松孙媛媛汪张龙

中国考试 2018年6期

何屹松孙媛媛汪张龙竺博

（1.安徽省教育招生考试院，合肥 230001；2.科大讯飞股份有限公司，合肥 230001）

1 研究背景

在教育领域，人工智能技术正在全面、深刻地影响着教育理念、教学模式和考试方式，建立在语音技术基础上的英语听力、口语上机考试已经得以大范围应用，手写识别、自然语言理解等人工智能相关技术也正在教育考试评卷过程中进行探索和应用，这与《国务院关于深化考试招生制度改革的实施意见》中提出的“改进评分方式，加强评卷管理，完善成绩报告”[1]的目标十分吻合。具体而言，目前普通高考网上评卷以扫描后的答卷切分图像为基础，组织评卷教师以网上阅卷方式进行；而采用人工智能技术的计算机智能评分则是在对答题扫描图像进行全方位识别、文本转写、内容分析和关键特征提取的基础上，运用人工智能的方法，深度学习专家的评分标准和评分结果，自动对考生答题内容进行评分。

在国内外人工智能评分领域所进行的研究工作，按照其侧重点不同，分为人工特征工程方案和深度学习方案2个主要方向[2]。其中：人工特征方案的代表方法是使用浅层语言学特征分析法，先对试题评卷标准提取相关特征进行定义，然后基于统计数据自动抽取考生答卷样本信息抽象对应到相应特征，完成对样本的评分；深度学习方案的算法则更加复杂，主要是通过多引层的神经网络来自动抽取与评分标准相关的特征，在多个维度上建立起对待评作文样本的完整数学模型，并进行匹配评分。2种方案各有利弊，深度学习方案需要大量的考试数据，其性能随着数据量的增加有着稳步且显著的提升，能够更好地满足大规模考试阅卷工作的需要。尤其是2010年之后，以深度神经网络学习方法为代表的新一代机器学习算法的诞生与发展预示着一次全新的人工智能科技浪潮已经到来。在此背景下，安徽省教育招生考试院与科大讯飞股份有限公司合作，于2016年9月先行开展了“基于2016年高考英语作文扫描图像的计算机智能评测实验验证”。2017年6月高考评卷期间，双方进一步对考生的语文作文和英语作文答题情况进行后台离线智能评分，并将评分结果应用于网评质量监控。本文基于这一应用探索，对人工智能在大规模中英文作文阅卷过程中的应用进行初步探讨和分析。

2 评分实施过程

2.1 环境准备

本次智能评分安排在独立场地进行，由6～8台服务器、1台千兆交换机、2台操作终端、光盘刻录机和少量移动硬盘组成局域网，与现有网上评卷系统相隔离，所有数据交换通过光盘或移动硬盘完成。服务器主要配置要求：CPU Intel Xeon V3 12核24线程；内存≥64G，3通道以上；千兆网口；操作系统WindowsServer 2008 R2 64位。

2.2 数据准备

数据准备包括：语文和英语2个科目的考试试卷（图像格式或pdf格式均可），语文作文和英语作文全部待评样本扫描切分图像，用于定标的人工专家评分样本（定标集图像及分数）各500份，考生密号与切分图对应关系表和图像存储目录格式说明。

2.3 时间节点

以试卷扫描完成时间为基点，主要时间节点包括：提前2天完成设备部署和系统测试；提前1天完成相应科目的试卷接收和定标集数据接收；定标数据处理后至待评数据接收前，系统初步完成深度学习；接收全部待评样本扫描图像，40小时内完成转写识别；转写识别完成后12小时内完成自动评分，并及时提交智能评分结果。

2.4 主要流程步骤

本次智能评分应用题型为语文作文题和英语作文题，需对全部样本进行计算机智能评分，以及与指定内容的高相似度文本检出，并对所有结果进行分析和处理。主要流程步骤见表1。

表1 智能阅卷实施主要流程步骤

3 评分结果分析

3.1 整体情况

本次智能评分中的所有图像文件均以密号命名，各类样本处理总量见表2。此次验证对除定标集、异常作答的2部分以外的样本都进行了计算机评分。从结果看，语文作文智能评分420 070份，占全部样本量的99.82%，英语作文智能评分418 820份，占全部样本量的99.53%。样本的机评平均分和方差统计见表3。检出的异常作答样本包括与范文库中文本内容相似度高、与当次考试试卷题干（阅读理解）相似度高、考生之间作答内容相似度高3种情况，其中：语文作文235份，占全部试卷比例的0.06%；英语作文1 469份，占全部试卷比例的0.35%。学科专家组对异常样本进行有针对性的质检复评。

针对智能阅卷系统检测出的各类异常作答样本，对235份语文作文和1 469份英语作文摘取与检测出的标准目标文本相匹配的内容进行识别率的统计对比。统计结果为：语文字符的识别准确率为97.6%，英语单词的识别准确率为97.3%。这种高精度的转写识别有3个重要因素：一是考生对高考作文的重视程度保证了书写的规范性；二是语文作文区域按方格纸格式设计、英语作文区域按逐行下划线格式设计保证了字符书写位置；三是先进的识别算法。这3方面因素能够保证对所有评分样本的准确识别，其整体转写识别率也应该保持在97%左右，能够达到阅卷评分的实战要求。

3.2 语文作文人机评分结果比较分析

表4和表5给出了定标集下对所有语文作文待评样本进行智能评分后得到的人机评分的对比情况。在表4中，机器评分得到的平均分与人工评分得到的平均分，其分差均小于1分，标准差也基本一致。在表5中，机器评分与报道分的相关度为0.95，评分一致率为95.24%，非常接近人工1评与人工 2评的相关度和一致率，处于较高水平，很好地证明了智能评分整体效果优良。同时，也从另一角度说明智能阅卷系统对定标集有着很高的学习能力，基本达到与评卷教师掌握评分标准相当的水平。

表2 语文作文和英语作文各类样本数据量表

表3 定标集和智能阅卷完成评分样本集合的评分均值和方差比较

表4 语文作文人机平均分和标准差对比表

表5 语文作文人机评分相关度比较表

3.3 英语作文人机评分结果比较分析

参照语文作文的分析方法，对英语作文智能评分情况也作了相应分析，表6和表7给出了定标集下对所有英语作文待评样本进行智能评分后得到的人机评分的对比情况。

在表6中，机器评分得到的平均分与人工评分得到的平均分，其分差约为0.6分，标准差也非常接近。在表7中，机器评分与报道分的相关度为0.93，处于较高水平，评分一致率达到92.31%，高出人工两评一致率（88.1%）4个多百分点，同样说明计算机评分整体效果优良。从表7中也可以看到，由于绝大多数样本的报道分是由评分阈值以内的人工两评取平均分获得，将人工1评分或人工2评分与报道分相比均能获得很高的相关度和一致率。

表6 英语作文人机平均分和标准差对比表

表7 英语作文人机评分相关度比较表

4 研究结论和展望

此次针对安徽省2017年普通高考网上评卷进行的计算机智能评分具备同步、后台、离线、智能、应用5大特点，是一次突破性的创新和实验，更是一次人工智能结合人工阅卷的有益尝试，在评分过程的智能程度、算法的先进性、结果的准确性和极高的效率等方面代表着未来专业化考试机构人工智能的应用方向，为今后计算机智能阅卷从后台走向前台、由离线方式变为实时、动态的应用方式奠定了良好基础。

4.1 在现有网上评卷模式中的应用

4.1.1智能阅卷系统具有极高的效率

本次针对高考语文作文和英语作文的计算机智能评分与常规的网上评卷时间同步。6月12日图像文件交接，6月15日结束评测，6月16日提交各类评测数据，共计5天时间完成近85万余份答题的手写体转写识别（文档化）、质检和智能评分，并检出语文作文17 762份空白答卷和235份异常答卷，以及英语作文24 455份空白答卷和1 469份异常答卷，其成本之低、效率之高和智能化程度之高，均为人工阅卷所无法比拟。

4.1.2智能阅卷系统具有很好的评分准确性

基于全连接型的卷积神经网络（Fully Connect⁃ed Convolutional Neural Networks）的版面分析理解和文字识别技术核心算法使得计算机智能阅卷评分系统已经形成了一套完善的“端到端”（图片直接输入，文字识别直接输出）的识别处理方案[3]。在汉字识别方面，深度卷积神经网络与隐马尔科夫模型结合的模型（CNN-HMM），符合中文方格字的结构特点，能够准确进行中文字符识别[4]。在英文识别方面，主要采用深度递归网络识别算法（Recurrent Neural Network,RNN）[5]。该算法已经成熟并广泛应用于到拉丁语系文字的识别中，并已被证明具有良好的识别效果。本次计算机智能阅卷系统对中英文手写字符的识别率均已达到97%以上的水平，能够满足智能评分的要求。

先进的评分算法也是保证评分准确性的重要的因素。以作文评分为例，多维度计算机智能评分首先将文字片段进行序列化处理，采用word2vec[6]的方法，还会对待处理的每篇文本提取其他维度的特征，主要包括字迹工整程度、词汇丰富度、句子通顺性、文采、论辩结构、离题检测、立意判别等。这些特征与前面的词向量矩阵一道组成了更加完整的特征矩阵，用以表征作文的客观情况。每一个维度都以数值表示，哪些维度对于评分有用以及有用程度，都将由该维度对应的权重来体现；作用越大权重越大，反之亦然，没有作用的则权重趋近零。权重以回归模型的参数方式呈现，可以通过机器学习算法训练得到。具体来说，将这个数学表示矩阵通过多层的深度循环神经网络（RNN）的迭代后，将LSTM[7]单元层的输出拼接为当前文章的特征向量作为回归特征，即完成了文章的深度网络内容特征提取。接下来，将定标集样本进行同样的特征提取，并以专家评分作为目标即可进行岭回归（ridge regression）[8]等统计分析，以获得每一维特征对应的权重，即当次考试的回归评分模型。

从实际评分结果来看，通过相关度和评分一致率可以看出，对于语文作文和英语作文而言，智能评分与最终报道分的评分一致率分别约为95%和92%，达到了很高的水平，说明智能评分具有很好的评分准确性。另外，由于评卷教师在长时间高强度的评分过程中极易身心疲惫，一定程度上会影响评卷教师对评分尺度的把握和评分一致性的把控，甚至会出现打保险分的现象，计算机智能阅卷系统就不会受到情绪、身心状态、个人喜好等主观因素的影响，始终采用统一的标准进行评分，从而很大程度上能够保证评分的客观公正性。

4.1.3智能阅卷系统具有完备的辅助质检功能

本次智能评测设定的工作目标有4项：一是将智能评分作为辅助质检参考，与人工评分进行后台比对，并将比对结果反馈到网评过程当中。对差值较大的考生答题情况，提交学科组重新进行审核认定评分。二是比对试卷题干内容和范文库，对作文内容进行高相似度文本检测，将检出答卷提交学科组予以重点核查。三是对考生之间高相似度作答情况进行文本检测，将检出答卷提交学科组予以审核确认。四是对空白答题进行自动检测，避免因评卷教师误操作键盘而导致空白卷有分的情况发生。

正是由于计算机智能阅卷系统具备了强大的特定文本的检测功能，才可以从大量数据中将这些特殊的考生答题情况挑选出来，反馈给学科评卷组，进行非常具有针对性的质量监控。以语文作文评分结果为例：现场两评的大分差样本量为18 437份，人工1评与机评分的大分差样本量为26 899份，其中人人（人工1评与人工2评）大分差和人机（人工1评与机评分）大分差的重合样本仅为6 425份，如图1所示。

图1 语文作文人人大分差样本（圆圈）和人机大分差样本（方框）重合量示意图

对于这6 425份样本，若以最终得分（报道分）作为标准，比较人工1评和机评分，有3 775份样本机评分与报道分（专家仲裁结果）更为接近，占比为58.75%，说明计算机评分结果可以作为有效手段用于对人工评分进行质检校验，并且能够以较高的命中率将存在评分偏差的样本检出，比随机抽检方案更加科学和更具效率。同时，需要注意的是，虽然圆圈内的18 437份人人大分差样本（约占全部样本总量的4.4%）都会经过网评系统进入3评和仲裁流程，但对于圆圈外的、由智能评分和人工1评比较检索出的20 474份样本而言，现有网评系统还未能提供真正有效的手段去进行质量监控。

英语作文大分差样本重合量如图2所示。在人人大分差和人工1评与机评分大分差的两组重合样本的15 717份样本中，若以最终得分（报道分）作为标准比较人工1评和机评分，则有8 338份的样本机评分与报道分（专家仲裁结果）更为接近，占比为53.05%。同时需要注意的是，对圆圈之外的34 246份人机大分差样本，现有网评系统还未能提供真正有效的手段予以监控。

图2 英语作文人人大分差样本（圆圈）和人机大分差样本（方框）重合量示意图

网评过程中，研究人员有选择性地对抄写题干内容的72份语文作文样本进行了反馈（这些语文作文的人工双评得分处于某一分数段内），由学科评卷组进行质检审查和仲裁评分，最终对这些考生的语文作文成绩均有一定程度的向下修正。同时，对1 469份英语作文各类异常样本，通过网上评卷系统进行了分数检查，确认这些样本在人工评卷时都已经进行了合理评分，未反馈给学科评卷组进行评分修正。

需要说明的是，考虑到默写范文与引用范文在度上很难把握以及范文库尚不全面等多种情况，未对计算机检出的与范文库有一定相似度的考生作文情况进行质检反馈。

4.1.4智能阅卷系统能够提供客观的第三方质量评价标准

与早期的人工阅卷模式相比，现有网上评卷组织模式在评卷效率和质量监控能力上已大为提高，但对评卷质量仍然很难做到科学、准确的定量分析。计算机智能阅卷系统的应用已经很好地解决了这一业界难题。管理部门和学科评卷点之间对评卷质量的监控和评价，能够由单一的网上评卷系统按照技术规范进行质量监控，上升到通过计算机智能评分来逐一对比计算人工评分的准确程度并进行统计分析，具备了第三方质量评价的显著特点，对形成多样化的评卷质量监控体系具有重要意义。同时，所有评分数据客观、完整，对评分标准的把握程度进行量化分析，这对评卷教师的专业水准和责任心既是一种评价，更是一种约束。

4.2 对未来考试阅卷智能化应用的展望

4.2.1智能阅卷替代人工1评或部分替代人工评阅

鉴于计算机智能阅卷系统在文字转写识别上的高识别率，以及建立在自然语义理解等核心算法上的多维度计算机智能评分的高准确率，在未来的考试阅卷智能化应用上可以考虑用计算机智能阅卷替代人工1评或部分替代人工评卷。人机相结合的智能评分流程见图3。可以看出，计算机智能阅卷评测对原有的人工评分流程几乎没有任何影响。该系统可以独立于人工评分流程运行，只需将机器评分结果及时反馈到人工评分流程，与人工评分进行合并、比对、分析、计算，得出最终成绩。同时，可以在正式人工阅卷开始前，对存在高相似度等异常答题试卷进行标注，为人工阅卷提示需要重点关注的相关信息，从而大幅度提升阅卷效率，节省人力资源，保障评卷质量。

近年计算机智能阅卷技术在大规模纸笔考试中的应用和测试印证了智能评测技术的实用性和可靠性。未来在学业水平考试、成人高考、高教自学考试及社会化考试等相对低利害的考试中，可以考虑用计算机智能评分替代多评模式下的人工1评评分，甚至可以直接替代某些高可信度分数段内的人工评分。这种人机结合的智能阅卷模式是未来考试阅卷智能化应用的发展方向。

4.2.2 智能阅卷向多科目、多题型应用扩展

图3 人机结合的智能评分流程

计算机智能评分已经实现了对语文作文和英语作文的评分，从技术层面而言，可以归纳为智能阅卷系统在多个维度上建立起对待评分作文样本的完整数学模型。以作文评分为例，表8给出了评分要求与评分特征提取的抽象对应关系。这个数学模型可以表征作文的客观情况，每一项评分要求都对应着一个维度，每一个维度都以数值表示，每一个维度又都对应相应的权重，以体现这些维度对于评分的有用程度（作用越大权重越大，反之亦然），从而建立起科学的回归模型，通过机器学习算法进行智能评分。

表8 评分要求与机评特征的抽象对应关系

根据这一原理，可以在更大范围类建立起科学的智能评卷模型，扩大智能阅卷应用科目范围，实现对具有确定答案的填空题、改错题、文科类简答题以及包含公式和解题过程的数学、物理、化学、生物等特定题型的智能评分，将智能阅卷成果向纵深扩展。

4.2.3 智能阅卷向实时、动态、应用方向发展

本次智能评分在高考中的应用是以后台离线方式进行的，所有样本的图像信息通过移动硬盘导入智能阅卷系统，机器评分结果和高相似度文本的检测结果通过光盘导入网评系统，提供给管理部门和学科组，作为质量监控和辅助质检的重要手段。网上评卷系统和智能阅卷系统还未实现网络层面的相互访问，数据也没有做到动态交换和实时共享，因而智能阅卷系统的应用成果尚不能在网上评卷系统中很好地发挥作用。可以预见，当2个系统在访问权限、数据接口、网络连接等重要层面进行新的规划和设计之后，其相互融合是必然的。在应用上，只有两者融合，才能利用智能阅卷系统的文字转写功能和自主学习功能更有针对性地为学科评卷组挑选专家样卷；才能实现机器评分和人工评分相互结合的新的双评模式，充分节省人工和提高效率；才能使评卷系统具备及时发现人工评分偏差的能力，实现对机器评分与人工评分分差较大的样本进行有针对性的质检反馈；才能使计算机智能阅卷系统通过持续的数据挖掘和自主学习，在某种程度上达到专家评价水平，成为新一代的智能网上评卷系统。

4.3 完善智能阅卷系统的建议

4.3.1建立并完善对定标集的专家评分样本选取原则

计算机智能阅卷系统中，定标集选择的好坏将直接影响着智能评分的最终效果。对本次计算机智能评分结果的分析表明，高分段作文的机器评分和人工评分在一致性方面，没有中间段作文的机器评分和人工评分的吻合度高。其原因主要是，定标集的专家评分中，高分段样本的数量较少，造成计算机对高分作文的学习能力不足，制约了计算机对高分作文的评出。为此，智能阅卷系统需要建立更加科学的定标样本的选择机制，即在计算机完成对所有待评图象的机器转写后，进行试卷样本的文本聚类分析。从所有待评样本中，考虑考生的地域覆盖、水平等级等影响因素，选出最具有代表性的样本，组成定标数据集合，提供给专家评卷教师进行定标评分。通过学习专家教师的定标结果来让计算机充分理解和掌握评分标准，让更多有经验的一线专家知识反哺智能阅卷系统，更好提升智能阅卷系统的整体水平。

4.3.2建立并完善对智能评分结果的评价机制

在经过大量的实验验证之后，计算机智能阅卷系统具备了一定的应用能力；但是，在高利害教育考试阅卷工作中，要让考生、家长、社会接受人工智能阅卷方式，既需要长期的认识转化过程，也需要技术的不断进步。为此，要充分抓住目前人工智能高速发展的大好机遇，加强对每次大规模验证和应用之后的数据分析工作，逐步建立一套完整的、科学的对评分结果的评价机制，全力推进人工智能向应用成果的转换。