主观题自动测评研究
2016-12-17亓子森王目宣
刘 伟,亓子森,王目宣
(北京邮电大学 自动化学院,北京 100876)
主观题自动测评研究
刘伟,亓子森,王目宣
(北京邮电大学 自动化学院,北京100876)
主观题自动测评作为智能教育的关键技术之一是语言学和自然语言处理等相关学科交叉的一个研究方向,本文将主观题分为有参考答案和开放式答案两种类型,针对有参考答案的主观题依据语义相似度计算方式不同分为简单词形匹配、借助世界知识和依据大规模语料等三类,介绍计算机自动测评领域国内外在主观题方面的评测技术、方案的研究进展,总结各方案的优缺点提出借鉴深度学习的研究切入点,为汉语主观题测评研究提供方法和思路上的参考、启示。
计算机自动批改;主观题;自动阅卷;自然语言处理;智能教育
一、引 言
目前教育领域检验教学成果、学生学习情况主要的考察方式是传统的试卷考试,针对知识的考察分为客观题和主观题考察两种方式,客观题答案具有确定性,批改相对简单,但是考察的知识点通常比较少;主观题恰恰相反,主观题答案从表述角度来说具有模糊性,批改相对复杂,同时考察的知识点比较多。随着教育科学和计算机技术的发展,考试逐步向无纸化、电子化方向发展,这也推动了教育向智能化方向发展,作为智能教育软件的关键技术之一的考卷自动测评(又称自动批改)在智能教育中占据着重要地位。目前试卷自动测评在客观题上已经发展的很成熟,但是在主观题的测评上相较于客观题依然差距较大,国外在英文主观题自动测评上起步较早,在特定领域已经有商业化产品成功运用,国内在汉语主观题的自动测评上有许多学者已经做了一些研究性工作,但是由于汉语语言特点、以及汉语自然语言处理技术发展还不够成熟致使汉语主观题的自动测评工作依然进展缓慢。
本文将主要介绍在计算机自动测评中国内外在主观题方面的研究进展,针对国外在英语主观题的研究情况仅作简略介绍,重点介绍国内汉语主观题自动测评的研究进展情况,以期为汉语主观题自动批改工作提供思路和方法上的启示。
二、主观题自动测评研究现状
主观题按照有无参考答案分为两类:① 有参考答案的主观题;② 开放式答案主观题。两种类型的主观题测评均依托自然语言处理技术,有参考答案的主观题测评的核心工作是评测待测评答案和参考答案之间的语义相似度,开放式答案的主观题测评方案中关键的问题是文本测评特征抽取。有参考答案的主观题测评中按照语义相似度计算方式的不同又可分为:① 简单词形匹配;② 借助世界知识计算;③ 依据大规模语料库进行计算。
其中简单词形匹配是最直观、最简单的用于计算两句话之间语意相似度的方式;依据世界知识计算词语距离的方法需要一部词典,该词典需要把所有的词语组织成一棵或者几棵树状结构,两个词语之间的距离就可以根据它们之间的路径长度来计算,这种方法需要的是一个可靠的词典,词典的质量决定了语义相似度的计算准确度;依据大规模语料库进行词语相似度的计算方法,一般是利用词语的相关性。这种方法认为语义相似的词语,其上下文也是相似的,所以,此方法会预先选择一些特征词,然后计算每个待测相似度的词语与这组特征词的相关性,则每个待测词语会得到一个特征词的相关性向量,通过计算两个待测词向量距离来得出两词语的相似度。
1.国外研究现状
英语由于其书写的特性决定了其在自然语言处理过程中的便利性,省略掉了汉语处理过程中的分词步骤,另外,英语自然语言处理起步较早处理技术发展相对成熟。国外针对主观题的测评方面早在20世纪60年代就已经做出尝试,发展至今实用程度较高,已经有许多商业化应用的产品。下面将从主观题有无参考答案入手,选取有代表性的测评方案介绍国外主观题测评研究现状。
(1)开放式答案的主观题测评
开放式答案的主观题可分为:① 写作类;② 论述类。针对这两种主观题测评方式略有不同。
① 写作类主观题测评
美国杜克大学的Ellis Batten Page在20世纪60年代中期就开发出了Project Essay Grade(PEG)系统。Page认为一个人的写作风格中蕴涵着可以被度量的内在特征,如文章长度用来表示作者的文字表达能力,前置词、关系代词及其他词性的词的数量用于衡量句子结构的复杂程度,词长的变化用以显示作者的用词能力等,这些内在特征被称为trins,而评价一篇文章,其实就是寻找并评价这些内在特征。为此,Page首先对文章的内在特征进行量化,量化的结果称为proxes,目的是使之能够在计算机内表示并计算,然后再模拟人的打分过程对这些量化了的内在特征进行评价,最后给出结果。尽管PEG系统的评分达到了较高的准确率,但它仅对文章写作风格进行评价,在Page的方法中,既没有用到深入的自然语言处理技术,也没有考虑到词汇的语义。
Burstein[1]及其研究小组综合运用自然语言处理与统计技术研究开发的用于在线测评英语写作能力的计算机评分系统——E-rater,系统主要由五个独立的模块组成,它们分别是句法分析模块、篇章分析模块、内容分析模块、评分模型建模模块和评分模块。自1999年起,用E-rater技术测评GMAT应试者的作文已逾60万篇,经过与人工批阅作文的结果相比较,E-rater评分的准确率超过97%。E-rater采用的是整体评分策略,从写作风格、修辞等角度整体评判作文得分情况,不存在正确或者错误答案,同时该系统需要大量的训练数据以建立评分模型,这使得E-rater系统的应用受到局限。对于那些需要判断答案的内容是否正确并给出具体分数的自动批改类问题,它就无能为力了。
② 论述类主观题测评
AutoMark是一个针对开放式问题的任意文本答案的自动批改系统。系统为每个问题设计一个标准的可接受或不可接受答案的评分模式,系统用一个句法-语义模板来表示评分模式,每个模板代表一个可接受或不可接受答案的特定形式。评分模式的建立是在离线方式下用特殊定制的界面实现的,评分过程则是在线进行的,对输入的学生答案进行以下处理:①语法预处理,用于根据标点和拼写对输入的句子标准化;②句子解析,用于识别句子的主要成分及相互之间的关系;③模式匹配,将句子解析后产生的结果与评分模式匹配;④处理匹配结果,通常在这一步给出得分。
AutoMark为基于内容的任意文本答案的自动批改提供了一个新的思路。但该系统在进行句子解析时,对正确性要求较高,否则模式匹配结果会出错。
(2) 有参考答案的主观题测评
有参考答案的主观题测评按照语义相似度计算方式不同分为:①简单词形匹配;②借助世界知识计算;③依据大规模语料库进行计算。国外在有参考答案的主观题的测评中主要在后两种相似度计算方面进行了研究探索。
① 借助世界知识进行相似度计算的主观题自动测评
20世纪90年代初,美国教育考试服务中心(ETS)的Burstein et al[2]一直在研究基于任意文本的短答案的自动评价系统,他们的研究方向是开发基于性能的自动评价系统。所谓基于性能的评价是指将学生的答案分成若干等级,只给出答案所在的级别,如优秀或差,而没有具体得分。系统使用的技术称为词汇-语义技术,它用到一部特定领域、基于概念的词典和一套概念语法模板,二者都来源于训练用的答案范例。该系统主要用于简短答案的评价,答案通常由一句话或几个单词组成。系统实现时包含了大量的预处理和一些人工干预。
Automated Text Marker(ATM)[3]是一种针对非多项选择、有明确答案且答案简短类型题目的新的计算机辅助评分方法,它可以对用自然语言书写的答案的内容进行评判,并且能够用在各种具体学科上。ATM最具特色的是它的语义分析器,它为自然语言的深层语义结构建立了一种模型,从而实现了基于语义的自动评分。在语义分析时,ATM将句子分解成最小的可独立存在的概念,并且在不同的层次上给出这些概念之间的依赖关系,每个依赖关系都标上标记,以便引用。
② 基于语料库进行相似度计算的主观题自动测评
Latent Semantic Analysis(LSA)[3,4]主要是由美国的科罗拉多大学的Thomas K Landauer和新墨西哥州立大学的Boulder与Peter W Foltz共同开发的。LSA起初并不是为自动批改用自然语言书写的文章而开发的,事实上,它只是一种用来表示词的上下文用法的工具,后来却被广泛应用到自动批改技术中。
LSA主要是利用类似于信息检索技术中用到的文档相似度计算方法来判断文本的相似性,因而适合大规模文本之间相似性度量,但对文本长度短、甚至只有若干个词的情况,会因数据稀疏而导致结果不正确。此外,LSA没有利用词序信息,因为他们认为词序对获取段落的意思来讲不是一个重要的因素。为了构造一个合适的表示词的使用或出现次数的矩阵,LSA需要大量的训练数据,并且随着矩阵的维数的增大,数学计算的代价将非常可观。
2.国内研究现状
国内对主观题自动测评工作研究起步较晚,研究工作进展相对缓慢,原因大致认为有以下几点:
第一,汉语语言特点。作为世界上唯一一种仍在使用中的表意文字[5],汉字有着不同于其他文字的复杂特征,英语的明显的分隔符、词形、时态的变化汉语中均无体现,更重要的是汉语注重表意不太重视语法。
第二,汉语自然语言处理技术水平较低。由于国内在汉语自然语言处理上起步较晚,加上汉语与英语特点的不同,不能直接迁移英语自然语言处理的技术,需面向汉字和汉语本身探究其特有的解决方案。
国内学者在开放式答案的汉语主观题的测评上所做研究相对较少,针对开放答案的主观题测评本文仅选择典型的研究方案做介绍,重点介绍相对成熟有参考答案的汉语主观题测评研究工作。
(1) 开放式答案的主观题测评
国内开放式答案的主观题测评方面,起步较晚,目前仍没有成熟的商业化产品出现,与国外差距依然较大。
任春艳在2004年进行过汉语水平考试(HSK)高等作文评分的客观化研究。该研究从作文中提取了37个变量,与人工分数进行逐步回归分析。考虑到体裁及主题不同的因素,又按记叙文、议论文和所有样本分别进行回归。另外,该研究还将进入回归方程的所有变量进行了因素分析,最终归为四个因素:第一个因素包括的变量有总字数、总句数和甲级词的数目,都与文章的长度有关,概括为文章表达的流利性;第二个因素包括丙级词的个数及其个数比,定为词语难度指标;第三个因素包括词法错误、句法错误、正确句数比,都与语法错误有关,定为语法难度指标;第四个因素包括关联词语、关键词次数比,定为内容方面的因素。
任杰等[6]在中国少数民族汉语水平等级考试(MHK)三级作文的电子评分员实验研究中先对700篇(其中新疆525篇,内蒙105篇,延边70篇)不同题目的作文进行计算机自动分词,提取字、词、句和标点符号等共17项信息;同时提供3位评分员的MHK(人工阅卷综合成绩),该成绩为3人给分的平均分(含小数)。然后进行逐步回归分析得到的方程包括五个变量:不重复字数,语法错误数,乙级词数,句子数,副词、形容词数; 统计分析表明:电子评分员与人工评分的一致性达到了较高的程度,电子评分员和评分员甲、乙、丙的相关分别达0.795、0.82、0.772,和人工综合成绩的相关达0.842。
曹亦薇等[7]采用人工评分的 202 篇高中作文为样本,使用潜在语义分析技术评价作文得到内容分数,此分数与人工评价的内容分数的相关性达到0.47。其研究表明,潜在语义分析技术在汉语作文自动评分中起着重要作用,但仅采用该技术实行作文评分显然不够,尚需寻找更多的指标,并辅以其他方法提高自动评分效果。
(2)有参考答案的主观题测评
国内学者对有参考答案的汉语主观题测评的研究比较深入,测评方案比较丰富,也取得了不错的效果,下面将依据语义相似度计算这一有参考答案的主观题测评中核心问题为切入点,详细介绍、总结研究者的研究工作。
① 基于简单词形匹配进行相似度计算的主观题自动测评
高思丹等[8]利用基于动态规划的语句相似度计算方法实现了汉语主观题的自动测评。文中设计的主观题测评方案是:首先对两个段落中所有的句子一一进行关键词匹配,根据匹配结果,对那些有较高匹配值的语句对再进行语句相似度计算。语义相似度计算思想是仅对语句进行浅层句法结构分析,由此得到组成句子的短语及其语法属性和部分语义信息;首先利用关键词匹配法实现短语级匹配,在此基础上,在整句级利用动态规划算法对短语的相似度矩阵进行计算,找出一条相似度值最大的路径,该值就是所要求的语句相似度。
上述解决方案中短语级的匹配中忽略了关键词的词序的影响,其实很多时候影响还是很大的,例如“你吃饭没”和“你没吃饭”语意差别很大但是按照上述方案却不能区分;另外,动态规划计算语句的相似度是建立在两个简化假设的基础上。
• 两个语句的相似度为它们所有对应的词之间的相似度之和;
• 两个语句中,错误对应后词之间的相似度小于正确对应后词之间的相似度,当组成两个语句的所有词都进行了正确对应,作为对应词相似度之和的两个语句相似度最大。
但这两个假设是不切实际的,不能通过这样的假设来简化相似度计算。
马维鑫利用模糊含权概念图做文本相似度计算,其中利用LCS算法查找最大公共字符串,这一步本质是通过词形匹配方式来实现,以此来实现模糊含权概念图上知识点的匹配。文中设计的自动批改算法主要分为两个模块:
• 生成系统内的答案模块,对简答题的得分要点构成概念图;
• 对简答题进行批改的模块。
自动批改系统批改过程:首先把教师集合成的准确答案,经过概念图换算成正则图的表现形式;然后收集问题得分点,计算出概念的权值,最后把两者综合在一起制作含权概念图,把这以概念图保存在系统数据库中。在阅卷过程中,系统针对学生回答给出一个概念图A,然后拿这个概念图和数据库中的含权概念图对比,在比较之后可以生成新的模糊含权概念图C,最终,按照一定原则对最终得出的图C采取一定的方法加以处理,然后就能计算出学生在这道题目中可以得到的分数。
文中给出的含权概念图是对文本核心内容的一种结构化的表征,在进行含权概念图的匹配过程中应用最大公共子串方法并没有考虑词序、词义方面的信息。
马昌威[9]在基于语义脉络的主观题自动评分算法探讨中给出的主观题测评方案是基于单项贴近度的语义相似度计算方法。本方案的思路:在人工批改试卷的过程中,改卷老师是查找学生答案中是否有标准答案的得分点,即它们的相似程度,相似程度越高得分就越高,另外还要看学生的答案是否有条理、是否清晰并且能够流畅地叙述。通过研究人工批改试卷的过程,可以知道在应用计算机进行主观题自动批改时,只需要将学生答案中的关键字序列与标准答案中关键字序列进行对比,看其相似度,相似度越高得分就越高。
曹玉婵等[10]在浅析在线考试主观题智能阅卷算法的设计与实现一文中也使用了单项贴近度的方法来计算语义相似度,此方法本质上还是词形匹配,解决方案相对简单,没有考虑词序、语义信息。
梁晓诚[11]在基于自然语言处理的主观题评分算法研究中指出仅仅评判学生的语句相似度还是不够的,作者引入对立度来严谨文本语义相似度计算。对于词语a和词语b,记Similarity(a,b)为词语a和词语b的相似度,且Similarity(a,b)∈[-1,1]。于是当Similarity(a,b)=-1、Similarity(a,b)∈(-l,0)、Similarity(a,b)=0、Similarity(a,b)∈(0,1)、Similarity(a,b)=1分别表示词语a和词语b为反义词、不完全相对的反义词、无相似性、近义词、同义词.当Similarity(a,b)∈[-l,0)时,记为Contrary(a,b),称之为语义对立度。
上述公式就是本文的相似度计算方案的主要思想,利用相似度得分减去对立度得分即为最终评测分数。
这种处理思路是值得借鉴的,但是测评方案也只是在文本关键词匹配基础上做的相似度计算,文中提出的对立度也仅仅是定义反义词相似度为负值的一个别称,本质上还是关键词匹配。
② 借助世界知识进行相似度计算的主观题自动测评
姜振凤[12]在基于计算机辅助评价的主观题自动测评研究中,提出了一种基于信息提取的评价方法,来对学生提交的主观题答案进行自动测评。利用该方法进行评价,需要建立一个由课程教师及相关专家制定的参考答案知识库,且每个问题包括若干个参考答案,并改进BLEU算法来实现具体的评价操作。对于某个词先参考同义词词典进行同义词替换,然后再进行相似度计算。文中尽管对词形相似度计算方法做了修正,但是计算方法没有考虑词序对语意的影响,同时关键词权重方面权重仅给出了四个档,没有给出清楚地定档方案,文中仅通过计算N元组词频来进行定档的方案是不合理的,另外对于短文本该方法不适用。
赵白玉[13]在基于汉语依存句法分析的主观题自动评分研究中将汉语依存句法应用到主观题自动测评,借助哈工大LTP语言处理平台完成分词、词性标注、依存句法分析、虚词标点过滤,然后借助知网完成词语相似度计算后进行语义相似度计算,最后利用相似度评分与题目总分相乘得到自动评分结果。
将依存句法分析引入主观题自动测评,这是目前为止介绍的第一个使用语法句法信息的解决方案,词语相似度计算利用知网进行缺乏领域适用性,分值计算过程中没有对关键词关键句加以筛选分配权重,有失严谨性。可以利用依存句法分析找到关键词句,并应给出合理的权重分配方案。
丁振国[14]给出了利用知网进行词语相似度计算的主观题自动测评方案,文中假设整个段落间的贴近度为所有对应句子的相似度之和,而句子间的相似度为所有对应词汇间的相似度之和;同时假设错误对应词之间的相似度小于正确对应词之间的相似度。词语相似度利用知网中义原距离进行计算,然后利用高思丹[8]提出的动态规划方法计算语句相似度。
文中词语相似度计算方法利用知网义原进行计算,对词典知识依赖过高,知网在特定领域内并不能涵盖所有知识;动态规划算法没有考虑词序信息。
张添一[15]在基于文本相似度计算的主观题自动阅卷技术研究中引入知网进行词语相似度计算,并通过形成相似度矩阵的方法将词语的相似度扩展到句子、段落和文本级别,来比较学生答案与标准答案文本的语义相似度。针对政治学科,答题模式一般为先阐述知识点,然后对知识点进行相应的论述,依据这一特点,提出了基于知识结构树的知识点匹配算法。文中最后给出综合使用这两种算法进行加权相似度计算的主观题测评方案。
文中词汇相似度计算方式使用的是文献[16]中提出的解决方案,不同的地方是在计算义原相似度时使用的是文献[17]给出改进型的计算公式。
在文献[16]中提出的义原相似度计算方法是:
其中A和B是两个义原,d是义原在知网中的距离,α是一个可调的参数。
文献[17]在上面义原相似度计算方法基础上提出的改进计算方法是:
其中h1和h2是义原A和B在义原树中的深度。
句子的相似度计算方式使用的类似高思丹在文献[8]中提出的动态规划方案,此方案还可以扩展到段落级别的相似度计算。除了基于知网的语句相似度计算方式,文中还给出了基于知识结构树的知识点匹配算法。学生所答题目最终得分的计算方式如下。
a. 针对有参考答案的主观题:
其中,kpi是知识点i相似度值,fpi是知识点i的论述相似度值,scorei是题目分值,α和β分别是知识点及其论述占的比重。
b. 针对自由论述的主观题:使用计算句子和段落相似度相同的思想来做出相似度计算,并最终转化为题目得分。
文中计算词语相似度的方法直接使用词典知识,没有考虑到词语所处上下文环境,这是所有仅使用词典进行词语相似度计算方法的通病;另外在计算句子语义相似度时没有考虑词序、语句长度信息,词序对语意表示通常影响比较大;在知识点的匹配上所有知识点权重均相同,实际应用中不同知识点权重往往不同。
③ 基于语料库进行相似度计算的主观题自动测评
韩永国等[18]在基于NLP-TF技术的主观题自动测评系统研究中,借鉴信息检索中的TF-IDF算法,提取出文本中具有代表性的关键词,然后利用向量空间模型表示,再根据夹角余弦计算文本相似度。解决方案适用于文本规模比较大的情况,对于文本量比较小的情况相似度计算准确度不高,同时本文也没有考虑词序的影响。
李玉红等[19]在结合分词技术与语句相似度的主观题自动判分算法中结合词形、词序、语句长度信息设计算法模拟实现了教师手工阅卷的流程,首先分析学生答案中关键字与标准答案关键字的贴近度实现对学生的答案的“词级”判断;然后根据学生答案和标准答案的贴近度实现对学生答案的“句级”判断,最终决定该试题的最终成绩。
词形、语句长度计算方法相对简单,在这里重点介绍词序相似度计算方法:假设OnceWord(L,L′),表示在语句L和L′中均出现一次且只出现一次的词的集合。Pfirst(L,L′)表示OnceWord(L,L′)中的词在句子L中的位置序号构成的向量,Psecond(L,L′)表示Pfirst(L,L′)中的分量对应的词在句子中的词序排序生成的向量,RevOrd(L,L′)为Psecond(L,L)各相邻分量的逆序数,则语句L和L′的词序相似度OrdenSim(L,L′),可表示如下:
其中OnceWord(L,L′)>1,由上式可知道OrdenSim(L,L)∈[0,1],当OnceWord(L,L)值越大,说明两个句子相同的词相对位置越近,即两个句子越相似。
语句相似度计算公式如下:
Sim(L,L′)=λ1WordSim(L,L′)+λ2LenSim(L,L′)+λ3OrdernSim(L,L′)
其中λ1,λ2,λ3是常数,且λ1+λ2+λ3=1,WordSim(L,L′)是词形相似度,LenSim(L,L′)是语句长度相似度,OrdernSim(L,L′)是词序相似度,显然Sim(L,L′)∈[0,1]。文中设定词形相似度起决定作用,语句长度相似度起主要作用,词序相似度起次要作用,所以有λ1≥λ2≥λ3的关系,文中取λ1=0.9,λ2=0.09,λ3=0.01。
综合考虑了词形、语句长度、词序等信息来计算语句相似度,相较于前面介绍的基于简单词形匹配相似度计算的主观题测评方案参照因素更加丰富,值得注意的是加入了词序信息,这更利于语义相似度计算,但是词序相比语句长度对语义贡献程度更大甚至仅次于词形相似度,这一点有待实验验证。
田甜等[20]在主观题自动阅卷技术研究中提出的主观题测评方案中跟上面这篇文章相似,综合利用多个因素,其中包括词形、词序信息,不同的是这篇文章里没有使用语句长度信息而是使用了词义信息,词义信息是指借助同义词词林或者知网进行近义词、同义词替换、语义相似度计算。将编辑距离算法用于句子的相似度计算,同时考虑了编辑操作代价和句子长度对相似度的影响,并根据句子中词汇间的语义相似度赋予不同的编辑操作不同的权重。
论文中并未给出词义相似度详细计算方法,仅做出原理上的说明,另外没有通过实验论证这三个因素的重要程度有失严谨性。但是,给出了新的语句相似度计算的语句特征,同前面李玉红[19]那一篇文章一样解决方案在特征选择以及权重设定上值得参考。
佟振宇[21]在论文主观题自动阅卷系统的研究与实现中引入Chart算法进行句法分析。先对学生答案进行分句后进行分词处理,并对分词标记词性;再对各个子句按照Chart算法进行语句分析,分析出语义树;然后抽取出各个语义树中的关键词汇;再对学生答案和参考答案进行贴近度计算,并辅助以一定的评分规则计算出整个子句的相似程度。最后根据参考答案各语句的权值加权求和得出学生的得分。
本文特色的一点是将句法分析引入主观题测评方法中,利用句法分析分析出句法结构树,在此基础上进行关键词选取,与前面论文中基于TF-IDF算法选取关键词方式不同,此方法更适合短文本,但同时构建句法树过程复杂,且没有考虑词序、语句长度信息。
李翠霞等[22]在“基于马氏距离的文本聚类算法在自动阅卷系统中的应用”中借鉴文献[9]提出将基于马氏距离的文本聚类算法应用于主观题自动测评中,该算法可发现非球形结构的类簇,在不需要先验知识的情况下,仅通过数学迭代即可得到聚类结果。
开创性地将文本聚类算法应用到主观题自动测评中进行相似答案聚类,然后再由人为评定各个类别的分值,简化了人工阅卷的工作量,虽然仍需人参与阅卷,但此方案将数据挖掘领域的方法应用到主观题测评中,借助数据挖掘、人工智能的方法是主观题测评的一个新的突破口。
三、总结展望
综上所述,随着自然语言处理技术的发展,主观题测评研究工作逐步深入,英语写作类主观题测评已经有商业化应用产品出现,科大讯飞2015称其已经试点机器测评汉语作文,但仍未见到其学术论文发表以及商业产品的面世,在有参考答案的主观题测评方面国内外学者均做了很多研究,但仍没有成熟通用的解决方案。
在开放式答案的主观题测评方面国外在20世纪60年代已经着手探索,1999年E-rate系统在GMAT考试中的大规模应用标志着英文写作主观题测评技术已经成熟,而国内直到2004年才有人进行过汉语水平考试(HSK)高等作文评分的客观化研究,在开放式答案的主观题测评方面,国内与国外差距仍非常大。开放式答案的主观题测评核心问题是文本特征提取,前面介绍的比较成熟的E-rate系统主要由五个独立的模块组成,它们分别是句法分析模块、篇章分析模块、内容分析模块、评分模型建模模块和评分模块,针对写作内容测评主要从写作风格、词汇运用、修辞手法等宏观角度衡量写作水平,国内研究者借鉴PEG和E-rate的方法,在句法分析,内容分析方面做了较多的工作,已经有比较成熟的句法分析方案,但在篇章分析特别是评分模型建模方面仍没有出现比较成熟的方案,相关领域的研究者可以借鉴E-rate系统的测评方案,着重在篇章分析、评分特征抽取、评分模型建立方面着手。在需要判断正误的论述问答类主观题上,AutoMark系统利用模式匹配的做法设置标准接受和标准不可接受答案模板,通过模板匹配来进行测评,在此类主观题测评中涉及到文章主要内容提取,比较成熟的单文档文本摘要技术是Mihalce[23]使用 PageRank 算法提取出关键的句子生成文档摘要算法,针对需要判断答案正误的开放式问答类汉语主观题测评可以利用自动摘要技术提取学生答案的核心内容,借鉴AutoMark中模板匹配思想进行更精确地评分,以此来推进开放式答案的汉语主观题研究的进步。
在有参考答案的主观题测评方面,国内外几乎同时起步,从20世纪90年代起就已经有学者开始该方向上的研究,有参考答案的主观题测评中最关键的一部分是语义相似度计算。国外学者在语义相似度计算上的研究工作主要集中在借助世界展示和基于大规模预料的方法上,而国内学者在研究初期还应用了简单词形匹配的方案来计算语义相似度,这是最简单可行的方案,但忽略了次序信息,并且不能处理同义词;借助词典的方法弥补了简单词形匹配不能处理同义词的问题,利用先验知识来计算语义相似度,这种方案的效果与词典的质量关系很大,在词典建设方面借鉴英语Word-Net国内建立起了How-Net和同义词词林,高质量词典的建立使得借助先验知识的测评方案更加可靠;但词典建立耗费人力较大,且不能处理未登录词问题,为此研究者提出利用大规模语料来进行语义相似度计算,相较于前面两种方案,目前研究者对这种方案的认可度比较高,基于大规模语料的语义相似度计算有效地利用了次序和词语上下文信息,能有效处理新词、同义词和词语歧义问题,该方案涉及到文本表示和语言模型构建等核心技术问题。
汉语文本表示中相较于英语还多了一个分词的步骤,目前汉语分词方面最具代表性的是中国科学院计算技术研究的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持GBK、UTF-8、UTF-7、UNICODE等多种编码格式。在此基础上自由开发者简化了ICTCLAS分词程序的复杂度在GitHub上发布了ctclas4j中文分词系统开源项目,进一步提升了分词效率。在汉语语义分析方面哈工大的语言技术平台(Language Technology Platform,LTP)是目前科研和商业领域认可度最高的语言处理平台,它不仅具备ICTCLAS的分词功能还可以完成依存句法分析、语义角色标注和语义依存分析。
随着机器学习的发展自然语言处理借助神经网络、深度学习等手段取得了长足的进展。在语言模型方面,Bengio[24]提出了神经网络语言模型NNLM(Neural Network based Language Model),该模型在学习语言模型的同时,也得到了词向量。Mikolov et al[25]改进Bengio的NNLM模型提出循环神经网络语言模型RNNLM(Recurrent Neural Network based Language Model)相比 NNLM 只能采用上文 n 元短语作为近似,RNNLM 包含了更丰富的上文信息,也有潜力达到更好的效果。在词语和文本的向量表示方面,Mikolov et al[26]提出了CBOW(Continuous Bagof-Words)和Skip-gram模型。他们设计两个模型的主要目的是希望用更高效的方法获取词向量。由于词袋模型忽略词序和语义信息,Quoc le et al[27]提出段落向量(Paragraph Vector),这是一种无监督学习方法,它可以从不同长度的文本中学习到固定长度的文本特征表示形式,将文本进行向量化表示,可以用在文本分类、聚类领域。中科院自动化所的来斯惟[28]提出了循环卷积网络(Recurrent Convolutional Neural Network),并将其用到汉语文本分类中,在复旦大学文本分类数据集上分类结果准确率达到95.2,是目前为止最高准确率。对于传统基于特征的文本分类方法而言,特征抽取是至关重要的一个步骤,中文的文本特征抽取目前尚无法达到英文的水准,循环卷积网络不依赖于除了分词工具外的自然语言处理工具,直接从词出发,构建文本的语义表示,对于像汉语这种缺乏自然语言处理工具的语种,是一种值得借鉴的方法。
目前深度学习在文本的向量表示、特征抽取、分类等方面取得的进展可以说是质的飞跃,来斯惟在文献[14]中提出的循环卷积网络在中文文本分类中的成功运用,为进行汉语主观题测评提供了可行性方向的指引,汉语主观题的测评可以借鉴深度学习在中文文本表示、分类上的研究成果,将深度学习的方法应用到汉语主观题测评上来以此来推动智能教育的发展。
四、结束语
本文主要介绍主观题自动测评(批改)的研究现状,每一个类别的解决方案各有优缺点,都不能模仿教师的批改过程进行完全合理可靠评分。语言信息处理本质上属于多学科交叉、具有多边缘性的学科,主观题自动测评需要结合语言学研究和自然语言处理两个方向的研究,为推动主观题自动测评研究进展可以在这两个方向上努力,鉴于机器学习方法在很多领域已成功应用,自然语言处理领域可以充分借助机器学习来提高自然语言处理有效性,尤其是汉语自然语言处理领域更需要开辟新的途径以期实现质的突破。本文通过介绍国内外主观题自动测评的研究进展以期为主观题自动测评尤其是汉语的主观题自动测评研究提供思路。
[1] Burstein J, Leacock C, Swartz R, et al. Automated evaluation of essays and short answers [C]//Fifth International Computer Assisted Assessment Conference. Leicester: Loughborough University, 2001.
[2] Burstein J, Wolff S, Lu C. Using lexical semantic techniques to classify free-responses[C]//Proceedings of SIGLEX 1996 Workshop, Annual Meeting of the Association of Computational Linguistics. Santa Cruz: University of California, 1996: 227-246.
[3] Callear D, Jerrams-Smith J, Soh V. CAA of short Non-MCQ answers[C]//Fifth International Computer Assisted Assessment Conference. Leicester: Loughborough University, 2001.
[4] Landauer T K, Foltz P W, Laham D. Introduction to latent semantic analysis [J]. Discourse Processes, 1998, 25(3): 259-284.
[5] 宋继光, 王强军, 杨尔弘. 中文信息处理教程[M]. 北京: 高等教育出版社, 2011: 9-10.
[6] 任杰, 张晋军. 汉语测试电子评分员研究报告[J]. 中国考试, 2004(10): 27-32.
[7] 曹亦薇, 杨晨. 使用潜语义分析的汉语作文自动评分研究[J]. 考试研究, 2007, 3(1): 63-71.
[8] 高思丹, 袁春凤. 语句相似度计算在主观题自动批改技术中的初步应用[J]. 计算机工程与应用, 2004, 40(14): 132-135.
[9] 马昌威. 基于语义脉络的主观题自动评分算法探讨[J]. 淮海工业学院学报(自然科学版), 2013, 22(1): 26-29
[10] 曹玉婵, 左映龙. 浅析在线考试主观题智能阅卷算法的设计与实现[J]. 价值工程, 2014(17): 231-233.
[11] 梁晓诚. 基于自然语言处理的主观题评分算法研究[J]. 昆明理工大学学报(理工版), 2010, 35(2): 81-84.
[12] 姜振凤, 刘力. 基于计算机辅助评价的主观题自动测评研究[J]. 重庆师范大学学报(自然科学版), 2013, 30(2): 74-78.
[13] 赵白玉. 基于汉语依存句法分析的主观题自动评分研究[D]. 长沙: 湖南大学, 2012.
[14] 丁振国, 陈海霞. 一种基于知网的主观题阅卷算法[J]. 微电子学与计算机, 2008, 25(5): 108-109.
[15] 张添一. 基于文本相似度计算的主观题自动阅卷技术研究[D]. 长春: 东北师范大学, 2011.
[16] 刘群, 李素建. 基于知网的词汇语义相似度的计算[D]. 北京: 中国科学院计算技术研究所, 2002.
[17] 金博, 史彦军, 滕弘飞. 基于语义理解的文本相似度算法[J]. 大连理工大学学报, 2005, 45(2): 291-297.
[18] 韩永国, 赵志宏. 基于NLP-TF技术的主观题自动测评系统研究[J]. 软件导刊, 2013, 12(1): 82-83.
[19] 李玉红, 柴林燕, 张琪. 结合分词技术与语句相似度的主观题自动判分算法[J]. 计算机工程与设计, 2010, 31(11): 2663-2666.
[20] 田甜, 张振国. 主观题自动阅卷技术研究[J]. 计算机工程与设计, 2010, 31(16): 3697-3699.
[21] 佟振宇. 论文主观题自动阅卷系统的研究与实现[D]. 沈阳: 沈阳工业大学, 2009.
[22] 李翠霞, 谭营军, 孔金生. 基于马氏距离的文本聚类算法在自动阅卷系统中的应用[J]. 计算机应用与软件, 2015(4): 80-82.
[23] Mihalcea R. Graph-based ranking algorithms for sentence extraction, applied to text summarization[C]//the ACL 2004 on Interactive Poster and Demonstration Sessions. Barcelona, Spain, 2004.
[24] Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[C] // Advances in Neural Information Processing Systems, 2001: 932-938.
[25] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]// INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, 2010: 1045-1048.
[26] Mikolov T, Kai C, Corrado G, et al. Efficient estimation of word representations in vector space[C]// International Conference on Learning Representations Workshop Track, 2013.
[27] Quoc Le, Mikolov T. Distributed representations of sentences and documents[C]// Proceedings of the 31st International Conference on Machine Learning, Beijing, China, 2014.
[28] 来斯惟. 基于神经网络的词和文档语义向量表示方法研究[D]. 北京: 中国科学院自动化研究所, 2016.
Automated Assessment of Subjective Tests
LIU Wei, QI Zi-sen, WANG Mu-xuan
(School of Automation, Beijing University of Posts and Telecommunications, Beijing 100876, China)
As one of the key technologies of smart education, automated assessment of subjective tests (AAST) is a crossed research direction on linguistics and natural language processing (NLP) and related disciplines. Subjective questions will be divided into two types which have reference answers and open answers, and then based on the ways computing semantic similarity, the subjective questions with reference answers will be divided into three types which are simple word shape matching, use the universal knowledge and based on large-scale corpus. The advances in evaluation technology and program on the subjective questions in domestic and overseas are introduced. Then the advantages and disadvantages of each way are summarized and research point of deep learning can be learned to provide reference and inspiration for AAST on Chinese.
computer automatic correcting; subjective tests; automated assessment; natural language processing; smart education
2016- 03 - 24
刘伟(1970—),男,山东枣庄人,北京邮电大学自动化学院岗位教授,主要研究方向为人机交互与认知工程。
G424.7;G40-057
A
1008-7729(2016)04- 0108- 09