APP下载

基于文采特征的高考作文自动评分

2016-03-02刘明杨秦兵刘挺

智能计算机与应用 2016年1期

刘明杨 秦兵 刘挺

摘 要:自动作文评分(Automated Essay Scoring,AES)就是让计算机能够对作文进行评估和打分。随着自然语言处理技术的日益成熟,针对中文作文的自动评分成为可能。作文是各种汉语考试中必然要考的科目,国家的中考、高考考生数量巨大,而且近年来中国汉语水平考试(HSK)的考生数目也逐年增多。自动作文评分因其具有效率高、客观性好等特点,因此中文作文自动评分技术的深入研究很有必要,本文对高考作文自动评分进行了深入研究。本文利用作文中的排比比喻修辞以及诗词引用来表征作文的文采,对排比修辞进行了分类总结。提出了启发式的方法来对排比以及比喻修辞手法进行自动识别。利用字典树组织古诗词资源,快速检索作文中出现的古诗词。将文采特征加入到基准系统中,会对作文自动评分的性能有不错的提高。

关键词:高考作文自动评分;排比修辞;字典树

中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-

Abstract: The automated essay scoring is that the computer can evaluate and score the essay .With the great progress of natural language processing ,it becomes possible to evaluate and score Chinese composition by computer .Composition must be tested in a variety of Chinese exams ,and there are so many Chinese student take part in college entrance examination and senior high school entrance examination ,and there are more and more foreign students take part in HSK in recent years .The automated essay scoring is highly effective and objective ,so it is necessary to research on automated Chinese composition scoring. The paper uses parallelism and metaphor to represent the feature of the composition literary ,and summarizes the types of parallelism using .After that, the paper proposes a heuristic method to identify parallelism and metaphor .Using Trie data structure to store ancient poetry resources ,it helps us to retrieve the ancient poetry that appeared in the composition .Adding these features to the baseline system ,the performance of the system has been improved.

Keywords: Automated Chinese Composition Scoring ;The Literary of The Composition ; Trie Data Structure

0 引言

自动作文评分是利用统计、自然语言处理、人工智能等技术对作文进行评估和打分。目前,作文自动评分已逐渐成为自然语言处理研究中的热点问题。在国外已经有多个成熟的作文自动评分系统,而且自动作文评分技术也已经在比如GMAT、托福等大规模国际性英语考试和学生自我评估中得到了广泛的应用。例如:美国ETS(Educational Testing Service)开发的E-rater[1-6]自动作文评分系统1999年用于GMAT作文批阅,于2005年开始用于托福考试的作文评分,另国外成熟的自动评分系统还有PEG(Project Essay Grader)[1-3]、IEA(Intelligent Essay Assessor) [7-9]、IntelliMetric[9,10-12]、BESTY(Bayesian Essay Test Scoring System)等。国内针对中国语文作文的自动评分系统的研究要迟后于国外主流的AES研究。国内最早涉足自动作文评分领域的是梁茂成[13],其研究方向为中国学生英语作文的自动评分。在相应研究中采用了220篇已评分的作文样本,其中120篇作为训练集,100篇作为验证集。与人工评分的相关系数最高达到0.837。但是作文样本来源范围狭窄,数量较少,并且提取的特征主要是文本浅层特征,未能够涉及文章的深层结构。国内另一位研究自动作文评分的是李亚男[14],其研究方向是汉语作为第二语言测试的作文自动评分。曹亦薇和杨晨[15]首先使用潜在语义分析技术对汉语作文进行自动评分研究。

本文提出了基于作文文采特征的方法对高考作文进行自动评分。

1 高考作文文采特征的自动识别

1.1 排比以及比喻修辞的自动识别

通过观察语料可以发现,有文采的文章一般都伴随着排比和比喻修辞手法[16,17]。作文中如果巧妙恰当地运用排比,可以使整篇作文气势恢宏,给人一气呵成的感觉,排比整齐的句式具有建筑美,铿锵有力的节奏具有音乐美,加上众多统一的内容,显示出独有的壮美风格。用这种格式来论述则周密深刻、增强气势,能够表达出作者强烈的思想感情。

排比的短句数量一般是三个,当然也存在少量的只有两个短句。

排比按照其在作文中的结构位置可以分为以下几种:

(1)普通排比,此类排比一般出现在高考作文的开篇或者结尾,能够让阅卷老师眼前一亮,体现应试者扎实的作文功底。其中,排比内分隔短句的标点符号并不固定,有分号、逗号、句号三种。

分号分隔:爱是寂寞深夜飘荡夜空的歌谣,给人慰藉;爱是行走在沙漠间偶然遇见的绿洲,给你希望;爱是茫茫大海上指明的灯塔,给人方向。

逗号分隔:善是长夜中不明的星火,善是路途中绚烂的花枝,善是呼吸时淡雅的香味。

句号分隔:学会感恩,用感恩驱散身边的黑暗迎来希望的曙光。学会感恩,用感恩掩埋身边的寒冷迎来内心的温暖。学会感恩,用感恩装点世界让世界充满生命与活力。

(2)段落排比,即排比分句并不像普通排比一样位于同一个段落,而是三个短句各自组成三个相邻的段落,每个段落一个短句。这样写的好处是显得文章结构整齐、增强文章气势、引起阅卷人的注意。

比如下面这篇高考作文,分数为51,以段落排比开篇,在显示应试者写作文采的同时,也引起了阅卷老师的注意,使得阅卷老师眼前一亮。

(3)摘要排比,排比分句式位于不同的段落并且是相应段落的摘要句,能够表现出作者很强的逻辑思维能力,也使得文章的结构严谨。

比如下面这篇文章中,分数为50分。在第2、3、4段,每段以排比句开头,在简要地概括了本段的同时,也使得整篇文章的结构编排清晰,使得阅卷人对应试者的文章结构一目了然。

通过观察高考作文语料以及上述排比的例子可以看出,在排比短句中往往使用比喻修辞手法,因为高考作文绝大多数文体为议论文,议论文中往往以事实论据、理论论据的为主,在论据中并不能很好的利用比喻修辞,所以学生选择在排比句中加入比喻修辞手法,排比与比喻联姻,更能够体现学生作文的文采。

针对以上三种排比,本文提出了启发式的方法来自动识别出作文中使用的排比句,排比句的识别流程大致如图3所示。

由图3可知,作文经过分句、分词、词性标注等预处理之后,需首先从作文中抽取候选排比句,其具体实现过程如下:

(1) 工整性检验

工整性主要是从排比的长度以及三个排比短句的整齐程度来考虑,一般排比句的长度不宜过长,多数情况下不超过一行,本文中长度的阈值为maxLength,取值为40;三个排比短句的长度应该基本相同,如果有两个排比短句的长度差过长,则失去了排比句结构整齐的效果,本文中长度差的最大值MaxDistance设置为7,而且三个排比短句的最长长度差与三个排比短句中的最小长度的比值不应超过一个阈值ratio,最大值为0.5。

(2) 排比标检验

排比标是排比句的一个显著特点,即三个排比句中有相同的连续字符串。例如下面这三个排比句,其中“感恩是一”以及“在人心中的”都是连续相同的字符串,构成了排比标。

三个排比短句都从字符串开始到结束以及从结束到开始,抽取其中的相同连续字符串,如果相同连续字符串的长度大于某个阈值,则认为存在排比标,阈值设置为2。

(3) 比喻标记

在议论文中,排比句中往往伴随着比喻修辞手法的使用,比喻修辞的使用更能彰显学生作文的文采。从上述的例子也可以看出,在排比句中使用的比喻词主要有“是”、“像”、“如”、“如同”、“似”、“恰似”等,而且在比喻词的右侧往往更随带着“春风”、“阳光”这样的名词。本文即主要利用比喻词识别加上比喻词右边词汇的词性来对排比句中是否使用比喻进行标记。

1.2 古诗词的自动识别

在高考作文中如果恰当引用古诗词,能够增加作文的文采,也能够表现出作者的扎实写作功底,有时候作文中出现一两处非常好的引用,就有可能让阅卷老师从内心深处觉得应试者的写作水平是属于一类卷水准。比如在有关“感恩”主题下引用“春蚕到死丝方尽、蜡炬成灰泪始干”、“臣无祖母,无以至今日,祖母无臣,无以终于年。”等古诗词,不仅会丰富作文的内容,也体现了学生广泛的阅读面以及灵活运用课本上所学知识的能力。

具体地,预处理步骤主要是将对作文进行分句处理,由于作文中引用古诗词的地方并不一定由双引号明确标记处,所以要对作文正文中的每个句子都在Trie树数据结构中进行检索。

Trie树存储步骤,是将现有的古诗词资源以Trie树数据结构来组织,Trie树又名字典树,是一种树形结构,属于哈希树的变种。该数据结构经常用于统计、查询等,优点是利用字符串的公共前缀来减少查询时间,最大限度减少无谓的字符串比较。比如研究中有以下三句古诗词“春风暖玉屏”、“春风又绿江南岸”、“春风又淼茫”、“君不见黄河之水天上来”,最后建立的Trie树如图6所示。

从根节点开始,方框中的字符串表示从根节点沿着路径到此得到的字符串,方框中右边的数字表示频率。“春”字右边的数字3表示在以春开头的诗词有3句。而在已有的古诗词资源库中,以“春”字开头的诗句有4 353句,以“春风”开头的诗句有700句,所以采用Trie树存储古诗词能够很大程度上减少程序内存的使用。

检索步骤,在已经建立了Trie树的基础上检索作文中是否出现了古诗词库中的诗句速度也是很快的。其查找步骤如下:

(1) 从根节点开始搜索;

(2) 取得要查找关键词的第一个字符,并根据该字母选择对应的子树并转到该子树继续进行检索,如果该字符并无对应的子树则查找失败;

(3) 重复第2步骤;

(4) 在某个节点处,字符串的所有字符已经被取出,则表示查找成功;

2 实验结果与结论分析

2.1 实验数据以及评价方法

实验数据来源于人工转写的某省2014年高考作文,共1 016篇作文。选取其中508篇作为训练数据、508篇作为测试数据。作文在各个分数点上的分布图如图7所示。

2.2 Baseline系统简介

在实验中,本文采用另一位同学所做的基础实验作为Baseline,Baseline系统采用支持向量回归模型,将高考作文自动评分看作是一个回归问题。Baseline系统从作文中抽取简单的特征,包括作文的长度(以字为单位)、作文中所包含的高级词汇的数目(汉语水平考试等级中的六级词汇)、作文中所包含的成语的数目、作文的段落个数、作文中所包含的命名实体的数目等。

2.2 实验对比与分析

本章将抽取文采特征加入到Baseline系统后,将其与baseline对比的实验结果如表1所示。

实验结果表明,Baseline+LG表示在Baseline系统的基础之上,加入从文章中抽取出的文采特征,排比、诗词引用等特征对系统的性能会有很大的提升。一类卷的F值从0提升到4.34%,增加了4个点,Baseline系统中的一类卷F值之所以为0是因为在测试集合上Baseline系统的预测分数并没有高于50分,也即预测集合中没有出现一类卷,导致一类卷的召回率为0。二类卷的F值基本不变,三类卷、四类卷的F值不受影响。

3 结束语

本文主要对高考作文中使用的排比进行分类总结,提出了启发式的方法对高考作文中使用的排比比喻修辞手法进行识别,利用Trie树存储古诗词资源来对高考作文中使用的古诗词进行自动识别,减少了内存使用空间增加了检索效率。

为了评价文采特征对高考作文自动评分的帮助,在某省的实际高考作文语料上进行实验,baseline系统提取作文的浅层特征,训练支持向量回归模型,在baseline系统上加入本章抽取出的文采特征之后,对系统的性能有了提高,一类卷以及三类卷的F值均获得了不错的提升。

针对一类卷F值的提升,在加入文采特征的基础上,采用Over Sampling方法,对训练集中一类卷进行增重采样。结果显示,在牺牲一些二类卷F值的前提下,对一类卷的F值有大幅的提升。

参考文献:

[1] RAMINENI C, TRAPANI C S, WILLIAMSON D M, et al. Evaluation of the e-rater? Scoring Engine for the GRE? Issue and Argument Prompts[J]. Ets Research Report, 2012, 2012(1):i–106.

[2] DIKLI S. Automated essay scoring[J]. Turkish Online Journal of Distance Education, 2006, 7(1):735 - 738.

[3] DIKLI S. An overview of automated scoring of essays.[J]. Journal of Technology Learning & Assessment, 2006, 5(1):1-36.

[4] VALENTI S, NERI F, CUCCHIARELLI R. An overview of current research on automated essay grading[J]. Journal of Information Technology Education, 2003, 2:2003.

[5] POWERS D E, BURSTEIN J C, CHODOROW M, et al. Stumping e-rater :challenging the validity of automated essay scoring[J]. Computers in Human Behavior, 2002, 18(1):103–134.

[6] ATTALI Y, BURSTEIN J. Automated essay scoring with e-rater03 V.2[J]. Journal of Technology Learning & Assessment, 2004, 4(3):i–21.

[7] LANDAUER T K, LAHAM D, FOLTZ P W. The intelligent essay assessor[J]. Intelligent Systems IEEE, 2000, 15(5):27-31.

[8] LANDAUER T K, LAHAM D, FOLTZ P W. Automated scoring and annotation of essays with the Intelligent Essay Assessor[J]. M.d.shermis & J.burstein, 2003:87-112.

[9] RUDNER L M, GARCIA V, WELCH C. An evaluation of IntelliMetric64 essay scoring system[J]. Journal of Technology Learning & Assessment, 2006, 4(4).

[10] Burstein J. The E-rater? scoring engine: Automated essay scoring with natural language processing[J]. M.d.shermis & J.c.burstein, 2003:113-121.

[11] QUINLAN T, HIGGINS D, WOLFF S. Evaluating the construct-coverage of the E-rater? scoring engine[J]. Ets Research Report, 2009, 2009(1):i–35.

[12] ELLIOT S. Intellimetric: from here to validity[J]. Automated Essay Scoring: A Cross Disciplinary Perspective, 2003, 2003.

[13] 梁茂成, 文秋芳. 国外作文自动评分系统评述及启示[J]. 外语电化教学, 2007, (5):18-24.

[14] 李亚男. 汉语作为第二语言测试的作文自动评分研究[D]. 北京语言大学, 2006.

[15] 杨晨, 曹亦薇. 作文自动评分的现状与展望[J]. 中学语文教学, 2012, (3):78-80.

[16] 朱跃生. 排比比喻联姻:作文出彩的重要方法[J]. 中学语文:大语文论坛旬刊, 2012, (9):73-74.

[17] 李胜梅. 排比的篇章特点[J]. 南昌大学学报:人文社会科学版, 2005, 36(5):121-127.