计算机自动评分技术在高利害考试中应用的前景分析

2019-03-14彭恒利

内蒙古教育·科研版 2019年1期

彭恒利

摘要：主观性试题的评分是考试界的难题。随着计算机技术以及测量技术的迅猛发展，主观性试题的计算机自动评分由设想变成了现实。自动评分涉及自然语言处理、信息检索、人工智能等多个领域，核心是语音和图像的识别、特征值的提取、模型的构建等。目前，计算机自动评分技术虽然取得重大进展，但尚有很大的提升空间，若能在实评中克服打保险分、跑题高评的不足，完全可以替代人工评分，在高利害考试中广泛应用。

关键词：计算机自动评分;高利害考试;应用;前景

【中图分类号】G 【文献标识码】B 【文章编号】1008-1216（2019）01B-0004-03

主觀性试题因其命题的角度灵活、测查的能力维度多样以及效度方面的优势在高利害考试中得到了广泛应用，雅思（IELTS）、托福（TOEFL）、中国汉语水平考试（HSK）、中国少数民族汉语水平等级考试（MHK）以及高考、研究生考试等这些与考生切身利益高度相关的高利害考试中均设有主观性试题。主观性试题泛指无固定答案、采用多级计分的题目，如笔试中的简答、论述题、作文等，口试中的问答、口头报告等，其特点突出，缺陷也比较明显：评分的信度和效度偏低、阅卷的耗费大、效率低，等等。虽然网上评阅技术的应用对此做了有效弥补，但人工评分的趋中评分、疲劳效应、评分效率低等问题依然突出。随着计算机科学技术的快速发展，自然语言处理技术、大数据、人工智能等有了长足进展。为了克服人工阅卷带来的弊端，一些考试机构尝试用计算机自动评分系统来替代或部分替代人工阅卷员进行评分，试图破解主观性试题的评分难题，由此计算机自动评分（Computer-Automated Scoring，CAS）就由设想变成了可能，许多大公司和考试机构投巨资进行攻关，计算机自动评分系统被纷纷推出，并展现出了广阔的应用前景。

一、计算机自动评分技术的发展沿革

计算机自动评分研究肇始于1966年Ellis Page建立的作文自动反馈系统。起初开发这套系统的主要目的是为了在课堂上及时给学生进行反馈，试图通过计算机分析学生的作文，为学生提供有针对性的反馈。这种理念也影响了后期MyAccess！TM、WritetoLearnTM以及Criterion的网上写作评价系统的开发。亦即最初的计算机自动评分技术主要用于测试练习，仅给考生报告机器评分，一旦用于高利害、高风险的考试中，则会比较谨慎，如美国教育考试服务中心（ETS）在GRE以及托福考试中，通常会采用“人机双评”，即一个评分员和e-rater联合评分，并且在最后的分数报告中仅采用评分员评分。

口语计算机自动评分的应用晚于作文。20世纪90年代初，SpeechRater投入使用，并于2006年用于TPO，口语的评分直接由机器完成。之后，培生公司的口语测试系统Ordinate和SpeechRater齐头并进，展现出良好的发展势头。但两者的技术路线却有较大差异，SpeechRater的核心技术是自然语言处理，它能够评价考生的发音、语言表达的流利程度、语法的准确性以及一部分作答内容，测试题目多采用非限定性题目，侧重于考查考生的“自由发挥”的口语能力，评分准确度与人工评分员的相关为0.7;而以Ordinate为技术核心的培生英语口试Versant则更侧重于口语表达的熟练程度，测试多采用封闭式的问题，答案高度限定，依靠考生大声朗读、造句以及列举反义词等方式来“预测”考生的口语熟练程度，而非直接测量考生能力。由于答案的高度限定性，培生英语口试可以直接采用机器分数为报告分数。此外，这种技术显示出较强的通用性，除了英语版，Versant口语考试还包括中文、西班牙语、阿拉伯语、荷兰语以及法语口语考试。

国内的计算机自动评分研究与国外的类似，作文的自动评分研究早于口语。因手写体识别的瓶颈没有实质性的突破，作文的自动评分出现了短期的停滞。之后技术的突破是从英语开始的。梁茂成于2008年主持的项目“大规模考试英语作文自动评分系统的研制”通过了鉴定，有学者认为“该评分系统的评分信度高于e-rater并且达到了可操作水平”。此外，还有外研社开发的新视野大学英语在线学习系统中的自动评分系统、浙江大学和杭州增慧网络科技有限公司联合开发的“冰果英语智能评阅系统”，以及“批改网”等。

随着手写识别技术的快速发展，近年来，国内的计算机自动评分技术又有了新的突破。根据科大讯飞的技术报告，计算机识别英文书写篇章复杂版面的准确率可高达98%，并能让计算机准确地切分英文，能辨别书写、空白、涂抹以及插入区域，计算机线下中英文手写与计算机转写的准确度高达96.5%。也就是说，该项技术实现了手写体的识别和评分，在技术上领先于e-rater，因为e-rater目前仅支持计算机输入，纸笔作答暂时无法进行计算机自动评分。

而语音识别技术的突破则助推了口语测评系统在实际考试中的应用。2007年，科大讯飞发布了首个口语朗读测评系统作为高利害考试的测评平台，标志着口语测评进入了实用阶段。2012年，广东高考的英语口语考试开始使用讯飞的口语评测技术，这在国内高利害考试的评分中具有了里程碑的意义。目前，普通话水平测试（PSC）、中考英语测试以及中国少数民族汉语水平等级考试（MHK）也采用了讯飞的口语自动评分技术。

纵观国内外的相关研究和应用，我们可以清楚地看到计算机自动评分技术的发展脉络：在评分技术上，现有的自动评分系统基本上都是建立在语音合成、语音识别和图像识别的技术之上，通过特征值的提取、聚类、回归等方式，实现了不能到能的跨越，在评分效率、稳定性和一致性上接近或超过了人人评分;在技术应用上，涉及的题型也在不断扩展，从朗读、跟读、简答到自由回答，实现了从封闭性型向半封闭、开放性型的拓展;在评分质量研究上，实现了从单纯注重信度（人机相关、大分差率）到信效度并重的转变。

二、计算机自动评分技术涉及的核心问题

计算机自动评分技术的开发和应用涉及多个学科，是集计算机科学、语言学、统计学、心理与教育测量学之大成。口语和书面语的呈现方式不同，语言类型的不同，会给技术开发的路线带来一定的影响，但就计算机自动评分技术来讲，任何一个自动评分系统的开发和应用都离不开图像或者语音识别、特征值抽取、模型筛选、算法确定、分数报告与解释等几个核心环节，其中涉及矢量空间模型技术、自然语言处理技术、信息检索技术、统计技术、人工智能等。为便于理解，下面从语音和图像识别、特征值以及模型三个方面进行介绍。

（一）语音识别与图像识别

从自动评分的流程上来划分，计算机自动评分系统大致可分为识别端和评分端。语音识别和图像识别属于识别端，它是主观性试题自动评分的起点。语音识别主要用于口语考试，图像识别主要用于书面的笔答如作文考试等。语音识别需要根据声谱特征确定声学模型，然后还要进行降噪、声学特征提取、说话人自适应、转换词图、标识置信度等工作。早期的语言识别模型一般采用隐马尔可夫模型，如SpeechRater和Ordinate均采用了该模型，但这种模型的识别率不高，SpeechRater的单词识别率仅为50%。现代的语音识别和图像识别均采用了深度神经网络模型，从而使识别的速度更快、准确率更高。据科大讯飞网上的资料介绍，其语音和手写体的识别准确率都达95%以上。

（二）特征值抽取

Bennett &Bejar（1998）提出了自动评分开发以及评估的两个基本步骤：（1）抽取特征值;（2）将这些特征值通过某种模型统一成一个总体的分数。确定了特征值，也就代表了自动评分系统会“按图索骥”，根据人工设定的一系列语法、语义、语用、修辞特征判断考生的表达能力处于量表的何处。进一步讲，特征值即代表了测试的部分构念。

目前，主观题自动评分的特征值多集中考查一些浅语言特征，语法、句法等语言特征是最容易获取也最容易评分的内容。以e-rater为例，它的11项原始特征值中，有9个是语言特征，另外2个为内容特征。这9个语言特征分别是：文章结构、行文、语法、语言使用、标点拼写等书写规则、风格、平均词长、词频、地道程度。每个原始语言特征还包含一些易于统计和计算的子特征，比如书写规则就包括拼写、大小写、标点符号、复合词规则，等等。然而有些原始特征仅能依赖一些非直接的统计因素，比如文章结构特征值在很大程度上依赖于文章的长度。结构和行文两项特征值中，60%的得分来自文章长度，书写等规则占该项得分的10%，其余30%则取决于考生的语法句法水平。内容特征则更加难于数据化，e-rater的两个内容特征值能够测量的内容质量是非常有限的，而写作的语气、口吻等内容目前的技术水平还难以测量。这也是部分非测量界学者一直批评主观题自动评分的一个主要原因。目前的特征值仅能测试一些语言熟练程度以及简单交流，而对内容、文章谋篇布局等写作层面上的因素关注得太少。此外，子特征值是否能够完全涵盖原始特征值的全部也是争议的焦点。如果子特征值无法完全涵盖原始特征值，而原始特征值又无法涵盖主观题测试的构念，那么主观题自动评分的构念就值得进一步商榷。

（三）模型构建

确立了特征值，之后就需要通过数学模型将加权后的特征值综合评判给出分数。模型的构建是一个复杂的过程，一般来说，模型的开发和验证需要500～2000个样本，评分也可采用多种模型，目前实际用于大规模考试的模型主要包括：线性回归、多元回归模型、分类树模型、基于规则的专家系统等。

研究者还尝试使用了一些新的模型，如贝叶斯网络、人工智能网络等。McNamara et al.（2015）采用了层级聚类的算法评阅高中生和大学新生的写作，研究结果表明，使用这种算法机器评分与人工评分达到了55%的绝对一致率和92%的相邻一致率。国内自动评分系统常用的模型多为回归模型。

在技术层面上，学界对模型的评判较多关注的是机器评分员与人工评分员的一致性、人机一致性和人人一致性的比较、机器评分员和人工评分员平均分的比较等。此外，评判模型的一个重要因素还要考查其是否很好地代表了构念。

特征值抽取和模型确定是自动评分技术中最核心的部分，也是各考试机构以及研究者研究的重点。因考试内容和目的不同，各考试机构以及研究者的技术路线或有差异，但都会将其中的许多特征值和变量作为技术内核，视为专利或商业机密鲜有公布。

三、计算机自动评分技术在高利害考试中应用的前景

据Ramineini和Williamson（2013）的调查，目前，美国等国家至少有十种以上的计算机自动评分系统，最具代表性的包括基于人工智能开发的MyAccess！TM、培生公司基于潜在语义分析技术开发的Intelligent Essay Assessor （IEA）、美国教育考试服务中心（ETS）根据人工智能以及自然语言处理技术开发的e-rater等。国内的一些高科技公司也推出了自己研发的自动评分系统，如科大讯飞的多语种智能阅卷系统，在普通话水平测试（PSC）、中考英语测试以及中国少数民族汉语水平等级考试（MHK）等考试中得到了广泛应用。MHK已实现朗读题的计算机自动评分，封闭式简答题替代人工进行一评，并就作文、口语自由回答进行了多次大规模的人机评分的对比实验。这些系统一经推出便表现出了良好的性能，不仅大大节省了人力、物力和财力，还有效避免了疲劳效应，且具有安全性高、准确性好、客观性强、一致性高、稳定性好等优势。基于此，ETS的SpeechRater以及培生的Orindate系统都在口语测试中占领了相当大的市场份额，ETS与Pearson还合作致力于将自动评分技术应用到美国各州的共同核心标准测试中，该考试涉及数学、写作、知识性简答、口试以及完成模拟任务等内容，显示出广阔的应用前景。

目前，计算机自动评分在国内的考试领域主要有三个用途：一是质量检测。多个省市已将自动评分系统作为质检系统用于中考、高考等高利害考试中，检查空白卷、疑似雷同、疑似抄袭、特殊作答等;二是部分替代。在一些等级考试中，如普通话水平测试（PSC）、民族汉考（MHK）等中部分替代人工阅卷;三是完全替代。在一些低利害考试中，如成考、自考中部分分段完全替代人工评分。可以看出，计算机自动评分技术在国内的高利害考试中的应用还是比较隐性低调的，应用的领域也是渐进的。未来，随着人工智能实现从感知智能到认知智能的飞跃，通过计算机对人类的语义理解、知识表示、逻辑推理和自主学习的模拟和学习，计算机自动评分技术将会实现质的飛跃，评分质量会显著提高，应用范围也会呈现出竹子效应，有一个突飞猛进的过程，更多的省市将在中考、高考等高利害考试中采用该项技术。更重要的是将实现与认知诊断技术的有机融合，不仅能实现自动评分，而且还能给出个性化评价及反馈指导，这在很大程度上就应和了1966年Page开发自动测试系统的初衷。

尽管计算机自动评分技术发展的势头很好，我们也应清醒地看到，受自身技术的局限，计算机自动评分技术需要探索的问题还很多。核心技术的“黑箱”如何解释？趋中评分、高分偏少、跑题误判问题怎样解决？如何界定计算机自动评分的信度和效度？它们与人工评分的信度和效度的内涵是否一致？等等。在计算机自动评分技术大规模使用之时，这些问题都需要一一解决。

四、结束语

综上，计算机自动评分技术表现出了良好的应用前景。对此，需要保持清醒的头脑，盲目乐观和消极悲观同样不可取。应该看到，计算机自动评分技术既有自身难以克服的局限，还有许多问题亟待解决，特别是在高利害考试中，计算机完全替代人进行评分尚待时日。同时，对于考试机构来说，是否在实评中采用计算机自动评分技术，既要过技术关，也要过心理关，用户与考生对这项技术的了解和认可还需要一个较长的过程。无论人工智能如何发展，计算机都不可能完全照搬人工评分的模式，它有自身的技术途径，要允许和接受差异的存在，允许计算机和人的殊途同归。因此，在相当长的一段时间内，比较现实可行的评分模式是：用计算机替代一评，实现人机的优势互补。

基金项目：本文为北京语言大学“民族汉考（MHK）主观性试题人机评分的对比研究”项目（项目编号：17YJ050004）的成果。

参考文献：

[1] Attali& Burstein.（2006）. Automated Essay Scoring with e-raterV.2. The Journal of Technology， Learning， and Assessment， 4（3）.Retrived from：https：//ejournals.bc.edu/ojs/index.php/jtla/article/viewFile/1650/1492

[2] Bennett， R. E.，&Bejar， I. I. （1998）. Validity and automated scoring： It's not only the scoring. Educational Measurement： Issues and Practice， 17（4）， 9–17.

[3] McNamara， D. S.， Crossley， S. A.， Roscoe， R. D.， Allen， L. K.， & Dai， J. （2015）. A hierarchical classification approach to automated essay scoring. Assessing Writing， 23， 35–59. Print.

[4] Ramineni， C.， & Williamson， D. M. （2013）. Automated Essay Scoring： Psychometric Guidelines and Practices. Assessing Writing， 18（1）， 25–39. Print.

[5] Williamson， D. M.， Xi， X.， & Breyer， F. J. （2012）. A Framework for Evaluation and Use of Automated Scoring. Educational Measurement： Issues and Practice， 31（1）， 2–13. Print.

[6]梁茂成，文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学，2007，（10）.

[7]罗凯洲，韩宝成.Ordinate与SpeechRater口语自动评分系统述评与启示[J].外语电化教学，2014，（4）.

[8]石晓玲.在线写作自动评改系统在大学英语写作教学中的应用研究——以句酷批改网为例[J].现代教育技术，2012，（10）.

[9]王士进，李宏言，柯登峰.面向第二语言学习的口语大规模智能评估技术研究[J].中文信息学报，2011，（6）.

[10]谢贤春.英语作文自动评分及其效度、信度与可操作性探讨[J].江西师范大學学报（哲学社会学版），2010，（2）.

[11]严可，胡国平，魏思.面向大规模英语口语机考的复述题自动评分技术[J].清华大学学报（自然科学版），2009，（1）.