自动评分方法研究现状及趋势
2019-10-08肖灵云侯开虎戴洪涛
肖灵云 侯开虎 戴洪涛
摘 要: 自动评分方法是教育中实现计算机评分的一项研究,经过归结、分析国内外自动评分方法及最新的科研成果,完善对自动评分方法的研究,便于快速学习和把握自动评分方法,了解该领域的发展现状及趋势。经过对过去该领域经典文献整理,分析不同自动评分方法的运用思想、优劣势,总结每种计算方法的侧重点及最新的应用进展。本文从国内外自动评分方法两方面进行阐述,形成较为清晰的思路。指出基于自然语言处理的自动评分方法为主流方法,基于深度学习的自动评分方法(CNN、RNN、LSTM)将成为该领域的发展趋势,有助于全面把握和深刻了解自动评分方法的现状和未来发展趋势。
关键词: 自动评分方法;自然语言处理;深度学习;CNN;RNN;LSTM
中图分类号: TP391.41 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.06.035
本文著录格式:肖灵云,侯开虎,戴洪涛,等. 自动评分方法研究现状及趋势[J]. 软件,2019,40(6):153156
【Abstract】: The automatic scoring method is a study of computer scoring in education. It is based on the analysis of domestic and international automatic scoring methods and the latest scientific research results, perfecting the research on automatic scoring methods, facilitating rapid learning and grasping the automatic scoring method. To understand the development status and trends in this field. After reviewing the classic literatures in the past, analyze the application ideas, advantages and disadvantages of different automatic scoring methods, and summarize the focus of each calculation method and the latest application progress. This paper elaborates on two aspects of automatic scoring methods at home and abroad, and forms a clearer idea. It is pointed out that the automatic scoring method based on natural language processing is the mainstream method. The automatic scoring method based on deep learning (CNN, RNN, LSTM) will become the development trend in this field, which will help to fully grasp and deeply understand the current status and future of the automatic scoring method and development trend.
【Key words】: Automatic scoring method; Natural language processing; Deep learning; CNN; RNN; LSTM
0 引言
自動评分技术就是借助于计算机和有关科学技术通过网络平台来辅助人工评分的一项技术。最近这些年,很多学者对各种评分方法的较为重视,特别是对主观题的评分,利用自动评分方法可以帮助阅卷者快速、准确、公平公正的评分,以达到减少人力、物力、财力的目的。因此,全面把握和了解自动评分的方法研究发展现状及趋势具有非常大的现实意义。目前,国内外已经实现了对英语作文的自动评分,汉语考试中的单选题、多选题的批改技术也相当成熟。而主观题自动评分方法由于涉及到人工智能、模式识别和自然语言理解等多方面的理论知识,因此,对比较多的主观试题如名称解释题、简答题、论述题等诸多问题的自动评分方法还没有取得令人非常满意的理想结果。有些在技术上的问题仍然没有得到很好的解决,所以,实现主观试题自动评分已经成为在线考试系统中的一个技术重点和难点[1]。
主观题可以分为长文本主观题和短文本主观题,长文本主观题包括文档、篇章,短文本主观题包括简答、论述。到目前为止,大多数自动评分的方法主要是针对答案比较短的短文本的主观题进行评分。由于汉语具有独特的特点,其表达方式不仅多样化,而且还具有复杂性,所以主观题自动评分方法涉及到文本语义理解的问题。国内对于主观题自动评分的研究仍存在很多不明白的技术问题,主观试题自动评分方法仍不能很好的应用于实践当中[1]。主观题自动评分不但可以排除阅卷人的主观因素的作用,使得评分结果有据所依,客观并有说服力。而且可以大大减轻阅卷者的负担,对主观题自动评分方法的研究具有很大的实用意义[1]。
1 国内外自动评分方法及其优缺点
1.1 国外自动评分方法
国外专注于研究主观题自动评分方法的时间相对国内比较早,并取得了一系列的科技研究成果,其中针对短文本主观题的自动评分系统主要有 Auto Mark、ATM 等,针对长文本主观题的主要有 PEG、IEA、E-rater等。PEG(Project Essay Grad) 系统主要运用统计学原理知识把文章的浅层语言形式特征的相似度作为主要评分依据,是一个规模比较大的作文评分系统,被看作是自动评分领域的开拓者[2]。由于没有考虑文章的构造内容和语义信息,不能很好的理解文本内容,因而该系统的效果不太好。
IEA(Intelligent Essay Assessor)是由Hearst[2]等人开发出的基于隐含语义分析技术(Latent Semantic Analysis, LSA)的作文评分系统。IEA既考虑了语义信息和文本内容,又关注文本内容的质量,挖掘内容的语义信息。LSA 没考虑词序,只能片面地反应句子语义。IEA评分系统对社会科学、历史学等说明性文章可以进行评分,但对事实性文章不太适合,能够计算大规模、词量丰富的文本的相似度,但对短文本、词量较少的文本其向量空间会存在很多孤立点。
E-Rater(Electronic Essay Rater)是为了评估GMAT 考试中的英文写作能力而研发的计算机程序[3]。E-rater综合应用了NLP、矢量空间模型技术和统计学技术,综合考虑了文本的语言质量、篇章结构、内容质量,并进行分析评估。该系统评分准确性比较高,但它采用的整体评分的策略,不仅不能单纯判断正误,而且不能对那些需要判别内容正误并给出分数的自动评分类问题进行评分,并没有较深入的判断文章的中心思想,只能评价考生的写作水平而不能判断考生答案与题目是否很好的吻合。
Auto Mark 系统[2]通过事先为每个题目分别制定多个正确答案或错误答案的评分模板,将考生答案逐一与模板匹配,判断正确程度并给出分数,符合人的思维方式,意思表达到位即可,真正完成了基于语义、内容的任何文本答案的自动评分,为主观题自动评分技术的发展研究开拓了新思路。
ATM(Automated Text Marker)是一款针对有明确正误之分、答案文本较为简短的题目进行计算机辅助评分的一种评分系统[2]。其针对开放式问题的任意文本答案的自动匹配功能,主要利用NLP技术,经过语法预处理、句子的主要成分及相互关系进行解析、匹配结果与标准答案几个步骤计算出分数。ATM取得了较大的突破,但该系统使用了语法和语义分析技术,增加了实现该系统的难度。
1.2 国内自动评分方法
我国吸取和完善上述一些先进的技术逐渐开始注重对自动评分方法的研究,并应用到实际生活中。目前国内基于主观题自动评分的方法主要有:产生式规则;运用动态规划方法改进语句相似度的计算;模糊数学中单向贴近度;有限领域中文本自动判读技术;字符串匹配的方法;文本相似度;空间模型技术;统计学技术;自然语言处理技术等。国内学者将上述方法、或者其改进方法、或上述方法相结合应用于自动评分系统中,并取得了一定的成绩,但仍有诸多不足之处需要改进。
将产生式规则思想应用在考试评分方法中,可以实现一定程度上对非客观试题的智能化评分阅卷,如计算机上机操作考试、语文和英语类等。通过定义产生式规则的分解和运算,使得产生式规则的简化和在关系数据库中的存储问题得到了很好的解决[4]。
诸多学者将模糊数学中贴近度理论或者将贴近度理论与句法分析相互结合,然后将其应用于主观题自动评分系统中。通过研究分析阅卷者对主观题评分流程的思维方式,依据得分点和贴近标准答案的程度来评分,能在一定程度上完成对主观题的评分,使教师的工作量得到减少。但是此类计算方法比较简单,没有考虑语义、语序等问题对评分系统的作用,其评分精度不高。
李辉阳等人[5]经过对有限领域中文本自动判读技术的研究,提出的可应用于计算机辅助教学的基于关系的带权匹配技术并获得了成功,其实现的方法能够对简单论述正误进行较好的判别,该方法在某种程度上模拟了老师阅卷过程,实现了计算机自动批改列举题、简述题、简答题等诸多主观题,对主观题自动评分有一定的实际指导意义。张量等[6]用字符串匹配的方法开发了一种自动批改技术,主要是针对计算机基础上机操作考试中的文字录入题,该方法主要判断学生所录入的字数、错录、漏录情况。
有些学者将作文评分过程看作是文本分类过程,通过决策树分类器将文本分类。或者按照作文词汇等的相似度通过文本聚类进行分类,实现了英语作文自动评分方法中文本聚类的应用文。虽然采用梯度提升决策树分类器的分类效果,但其方法特征不能充分反映作文特征,可扩展性也不好。通过文本聚类将差异性较大的可能跑题的作文交由老师评阅,减少了教师工作量,并使作文批改的准确性程度和老师的工作效率都得到了一定的提高。而基于向量空间模型的问答题智能化评分方法,其依据VSM将学生的答案及标准答案表示成特征向量的形式,然后计算其相似度,从而确定学生的得分。
主观题自动评分方法的好与坏,无非是体现在标准答案和考生试题答案之间的相似度程度上。在全面考虑了语义,语序,文本整体表达涵义之后,相似度高,则得分高,相似度低,则得分低。为此,诸多学者在如何提高文本相似度有关方面进行了大量的科学分析研究。学者们充分将知识库或词典或两者相结合引入到评分过程中,以便提高相似度计算的准确性。然后再对计算得分的计算模型加以改进,计算出最后得分。经过一系列的操作之后,评分结果与人工的评分结果更加接近。然而这种方法仍有缺陷,首先,词库覆盖范围不够足够大,再者,提取特征时有不足之处,还需要进一步改进。
随着自然语言处理技术的日益成熟,对于自然语言处理技术将如何应用于主观题自动评分中,诸多学者进行了大量尝试,并取得一些进展。比如基于自然语言处理的智能评分方法,经过改进已有的文本相似度计算方法,提出了一种新的排序和划分区间的评分方法。查看实验结果,表明该智能评分方法有效且可行。通过一些算法生成自然语言概念图或概念网,然后对目标文本进行预处理,再计算文本相似度,从而计算得分。在应用自然语言处理技术,可以与《知网》知识库或《同义词词林》词典相结合,以便更好的理解文本语义,从而提高评分准确率。
2 自动评分方法展望
由于汉语表达方式的多样化和复杂性,国内对于主观题自动评分的研究仍存在很多问题,到目前为止,并没有很好的应用于实践的主观题自动评分方法[2]。主观题的评分判断涉及到自然语言的翻译、理解及语义的匹配等,主观题自动评分方法涉及到的技术主要有文本的预处理、相似度计算、计算分数等诸多个方面。主觀题自动评分不单单是自然语言理解技术的一个很有意义的应用,而且还依赖于NLP技术的研究发展[7]。
由于大數据以及计算力的提升,深度学习有了极大的突破,基于神经网络的深度学习方法被引用到NLP算法中。深度学习作为机器学习的一个重要分支,可以自动地学习合适的特征和多层次的表达与输出。在NLP技术领域,主要在信息抽取、词性标注、命名实体识别、文本分析等研究方向都有成功的应用。和传统方式相比,深度学习的重要特性是,用词向量来表示各种级别的元素。传统的算法一般会用统计等方法去标注,而深度学习会直接通过词向量表示,然后通过深度网络进行自动学习。目前,深度学习在自然语言处理中是比较流行的,其中算法包括:多层感知机、CNN、RNN、Seq2Seq等。
卷积神经网络[8](Convolu-tional Neural Network,CNN),是一种由输入层、卷积层、池化层、全连接层、输出层组成的前馈神经网络,其具有良好的自学习能力和泛化能力,在短文本的表示和句子分类上也取得了一系列进展。而循环神经网络(RNN)与卷积神经网络不同,是一种能够对时序数据进行精准建模的网络。而文本的独特在于是典型的序列数据,每个文字的出现都是依赖于前面的单词和后面的单词,所以循环神经网络应用于文本较为广泛,近年来,RNN及其变种长短时记忆网络(Long Short Term Memory ,LSTM)在NLP领域得到了广泛应用,例如在语言模型、句法分析、语意角色标注等领域均有优异的表现。LSTM是RNN的升级版本,从抽象的角度来看,LSTM保存了文本中的长期依赖信息。并通过对循环层的刻意设计来避免长期依赖的问题和梯度消失的问题。
3 结论
自动评分方法,特别是主观题自动评分方法一直是完全实施考试信息化、教学信息化的瓶颈问题,研究的很多,但进展较为缓慢,特别是应用于实际的成果比较少,其主要原因是一些关键技术、核心技术还处在研究、发展阶段[5],如:对自然语言的深入理解、模式的识别、人工智能技术的发展等。主观题自动评分方法主要是利用基于大数据分析的NLP技术,按照评阅流程,可以分为分句、分词、语言的预处理、分类计算、相似度比较计算等几个环节。在前沿技术上,通过大数据分析技术的不断发展和推动,进一步完善主观题自动评分在教学信息化中的实际应用将具有广阔的前景和市场需求。近年来随着神经网络的出现,自动评分的准确程度得到了显著的提高。本文总结了以往研究中的经典方法,并且对当前主流的研究方法进行总结分析。通过对自动评分中大量的方法进行梳理和归纳分析,主要将其分为国外经典自动评分方法、国内自动评分方法两方面来介绍。其中,国内的自动评分方法主要包括产生式规则;基于动态规划方法对语句相似度进行改进;模糊数学中单向贴近度;有限领域中文本自动判读技术;字符串匹配、文本相似度;空间模型技术;统计学技术;自然语言处理技术等。其中基于自然语言处理技术的自动评分方法主要包括:中文分词、去停用词、词义消岐、词性标注与命名实体识别技术、句法分析、关键词提取、文本向量化等。国内外自动评分方法具体如图1所示。
目前应用较多的是基于自然语言处理的自动评分方法其中比较流行的深度学习算法有:多层感知机、CNN、RNN、Seq2Seq等。而基于深度学习的神经网络的主观题评分方法将成为未来的发展趋势,具有较好的应用前景。自动评分方法与基于神经网络的深度学习方法相结合,通过深度网络进行自主学习,提取文本特征,这将会带领主观题自动评分方法迈向一个新的台阶。
本文对国内外学者取得的进展和最新成果进行了总结归纳,形成了较为全面的分类体系,希望有助于全面把握和深入了解自动评分方法的研究现状和未来发展趋势。
参考文献
[1] 高思丹, 袁春风. 主观试题的计算机自动批改技术研究 [J]. 计算机应用研究, 2004, 21(2): 181-185.
[2] RudnerL,GagneP.An Overview of Three Approaches to Scoring Written Essays by Computer[J]. Practical Assessment, 2001, 151(3): 501.
[3] Attali Y, Burstein J. AUTOMATED ESSAY SCORING WITH E-RATER?; V.2.0[J]. Journal of Technology Learning & Assessment, 2006, 4(2): i-21.
[4] 刘增锁, 吴敬. 产生式规则在考试评分系统中的应用研究 [J]. 计算机技术与发展, 2006, 16(7): 162-164.
[5] 李辉阳, 韩忠愿. 有限领域简述文字的自动判读及其在CAI中的应用[J]. 计算机工程与应用, 2002, 38(8): 76-78.
[6] 张量, 詹国华. 开放式、智能化计算机考核阅卷系统的设计与实现[J]. 计算机工程与应用, 2001, 37(10): 108-110.
[7] 麦范金, 岳晓光, 赵子强, 等. 基于自然语言处理的智能评分系统[J]. 桂林理工大学学报, 2010, 30(3): 426-430.
[8] 刘亚军, 徐易. 一种基于加权语义相似度模型的自动问答系统[J]. 东南大学学报(自然科学版), 2004, 34(5): 609-612.
[9] LiB,YaoJM.Automated Essay Scoring Using Multi-classifier Fusion[C]//International Conference on Information & Management Engineering.2011.
[10] Kim Y. Convolutional neural networks for sentence classification[J]. ar Xiv preprint ar Xiv:1408.5882, 2014.
[11] Wang R, Wang X, Chi Z, et al. Chinese Sentence Similarity Measure Based on Words and Structure Information[J]. International Conference on Advanced Language Processing & Web Information Technology, 2008:27-31.
[12] Bin L, Ting L, Bing Q, et al. Chinese Sentence Similarity Computing Based on Semantic Dependency Relationship Analysis[J]. Application Research of Computers, 2003.
[13] Page, E. B. Computer grading of student prose [J], using modern concepts and software. Journal of Experimental Education, 62, 127–142.
[14] Thomas k. Launder, Darrell Latham, Peter Foltz, Automatic essay assessment [J], Assessment in Education, 2003, 2003(10), 295-308.
[15] Valenti S, Neri F and Cucchiarelli A. An Overview of Current Research on Automated Essay Grading[J]. Journal of Information Technology Education, 2003, 2: 319-330.
[16] Han, Na-Rae, Martin Chodorow, and Claudia Leacock. Detecting errors in English article usage by non-native speakers[J]. Natural Language Engineering, 2006. 12(1): 115-129.
[17] ]Rudner L M, Liang T. Automated essay scoring using Bayes' theorem[J]. The Journal of Technology, Learning and Assessment, 2002, 1(2).
[18] 張春英, 李春虎, 付其峰. 基于WV-CNN的中文文本语义相似度计算方法[J]. 华北理工大学学报(自然科学版), 2019, 41(01): 123-132.