基于余弦文本相似度计算的英语作文评分算法的应用研究
2018-03-15许浩周亚萍赵亚慧
许浩 周亚萍 赵亚慧
摘要:本文采用TF-IDF算法以及余弦相似度的思想,提出了一种大批量英文作文的评分系统。首先以提高大批量英语作文评分效率为出发点,介绍了英文文本处理现状及机器自动评分发展现状。其次对如何实现机器评分做出了详细的介绍。最后将机器评分结果与人工打分结果相对比,验证机器评分可行性,评价其优缺点,并对其未来发展做出展望。
关键词:批量处理;机器评分;预处理;余弦相似度;TF-IDF
中图分类号:TP391.1 文献标志码:A 文章编号:1674-9324(2018)06-0255-02
一、引言
自然语言处理(Natural Language Processing,NLP)的应用领域非常广泛,它是人工智能领域的重要内容。计算机自动评分(Computer-Automated Scoring)是指通过计算机程序来对导入的开放式试题文件来按照一定的标准来进行评分[1]。英语写作是我国英语教学中很重要的一个教学环节,英语作文一般被老师用来检测学生的英语综合应用能力。而随着评分试卷数量的剧增,教师为了给学生批改英语作文,需要费心费力,一字一句的对作文进行评卷检查。长时间的评卷会造成教师过度劳累,导致评卷速度慢,效率低。再加上对作文这样的开放式命题进行人工评分,教师难免对作文会有一些个人偏向和喜好,不同的老师批改同样的作文也会批出不一样的分数。
二、预处理
文本预处理(Text preprocessing),英文的文本预处理包括以下几个步骤:除去数据中非文本部分,文本更正(如果忽略拼写错误,这一步可以省略),词干提取(stemming)和词干还原(lemmatization),转换为小写,去除停用词。
1.去除数据中非文本部分。由于英语本身就以空格作为分隔符,因此不需要像汉语文本分词那样使用不同的算法进行分词。(1)去除所有的标点符号。(2)去除所有非英文字母的字符。(3)将所有的大写英文字母转换为小写。
2.词干提取。英语单词总数虽没有汉语组词个数多,但具有非常丰富的词形变化。对作文进行分词后,应对每个词进行词干提取,以方便去除停用词或更好地进行词频统计。词项词干化对于分词结果的影响不大,但可以节省存储空间和提高搜索和处理效率。词干提取的方法大体可以分为两类:基于规则的方法,基于统计的方法。
3.去除停用词。停用词:在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表[3]。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的[4]。
三、TD-IDF算法
对于一篇非常长的文章,想要提取它的关键词,只使用词频作为依据是不够的,比如在一篇研究高斯算法的文章中“均值”、“方差”、“算法”这三个词出现的次数是一样的,但是却不能说这三个词的重要性是一样的。根据我们人工分析,很明显地知道在高斯算法中“均值”、“方差”比“算法”更重要,单靠词频不能完全反映词项的权重。但是如果在这篇文档中“均值”出现的次数非常多,也应当给它较大的权重,单靠文档频率不能完全反映词项的权重。因此为了正确反映某个词项的重要性,引入了TF-IDF算法[6]。
词频越大说明该词在该作文中出现的次数越多,逆文档频率越大说明该词越重要,因此选取TF-IDF最大的20个词作为关键词(若学生作文字数不足60词或去除停用词后词项不足20个则该作文作为不规范作文,评分时只给2-5分辛苦分)。对于范文和需要评分的作文均按照以上方法选取20个关键词。
四、余弦相似度
余弦相似度(Cosine similarity)是用向量空间中两个向量夹角的余弦值作为衡量两个文本之间的相似度。如果两篇文本之间用词越相似,那么这两篇文本之间的内容也就越相似。这就是余弦相似性的基本思想[7]。向量空间模型(VSM:Vector space model)在自然语言处理领域中是很常用的相似度计算模型,在目前的研究和发展中得到了很广泛的应用[7]。在向量空间模型中,我们可以根据每篇文章的词频计算得到一个词频向量,把两篇文章的词频向量想象成空间中的两条从坐标原点出发,指向不同方向的两条线段。这两条线段之间一定会形成一个夹角,夹角越小,也就意味着计算所得的余弦值越接近1,即两个向量距离越小,也就是用词越相似,在不涉及上下文的情况下,我们可以认为这两个文本的内容越相似。假定a向量是[x1,y1],b向量是[x2,y2],那么可以将余弦定理改写成下面的形式:
五、实验设置
收集延吉市延边二中某次英语考试所扫描答题卡1000份,从中随机挑出205份作文,整理成文本文档,统一命名,方便批量读入程序。从中随机挑出4篇题目,每个题目随机挑出205份作文,整理成文本文档,统一命名,方便批量读入程序。
机器评分与人工评分之间是存在一定差异的,这是由于教师在为作文评分的时候是根据上下文对学生的作文进行评分,主要以作文的语义为主,而机器评分不根据上下文对学生的作文进行评分,只关注与范文之间的相似度,对于跑题的作文可以给出很好的评判,但是对抄袭的作文无法给出很好的评判。
六、结束语
本系统使用Matlab编程实现,可以对任何统一命名的英语作文进行批量评分,对格式的要求不高,可以应用于各大高校以及各初高中,在不涉及上下文语义的情况下,能够比较客观地对大批量英文作文做出合理评分,能够减少教师由于主观判断导致的作文误判和错判,对作文跑题的处理非常有效。
参考文献:
[1]陈鄞.李生.自然语言处理基本理论和方法[M].哈尔滨工业大学出版社,2013:08.
[2]孔明.国外计算机自动评分研究现状述评[D].北京师范大学.
[3]CSDN博客,shijiebei2009,最全英文停用詞表整理(891个),2014,9-30[Z].
[4]百度百科[EB/OL].baike.baidu.com.
[5]CSDN博客,一座青山,TF-IDF及其算法,2016,9-15[Z].
[6]阮一峰.TF-IDF与余弦相似性的应用,2013,3-13[Z].
[7]博客园,CNBlog,文本相似度算法——空间向量模型的余弦算法和TF-IDF,2014[Z].