APP下载

基于词向量聚类及随机森林的英语作文自动评分研究

2020-06-29赵瑞雪

微型电脑应用 2020年6期
关键词:英语作文聚类分析

赵瑞雪

摘 要:英语自动评分系统在信息化时代下得到长足发展,但现有研究成果对于文本特征的分析和提取依然没有很大进展。针对这一问题,提出基于词向量聚类的文本特征提取算法,并借助随机森林模型对作文大赛中8个作文子集进行预测,并与人工评分结果进了加权分析,研究发现:首先,基于词向量聚类的分析可以从单词频率、词汇大小和分布位置3方面表征文本句式的多样性与复杂性;其次,通过模块化的评分思路对英语自动评分系统进行了4层架构设计:契合度特征生成模块、文本特征生成模块、非文本特征生成模块以及学习模型评估模块;最后,将预测成果进行二次加权分析发现,随机森林模型的英语自动评分效果较好,二次加权K值普遍在0.78以上,最高值为0.905,平均值为0.862,各项参数高于通用评分方法10%~18%,基于Bagging方法的随机森林算法在获取了精确的聚类向量特征后,可以在样本数量不够的情况下有效避免过度拟合误差。该研究为人工智能背景下英语作文自动评分方向的研究提供一定参考和借鉴。

关键词: 英语作文; 自动评分; 聚类分析

中图分类号: TP 319

文献标志码: A

Abstract: Automatic English scoring system has been paid more and more attention to and studied, but there is still no great breakthrough in the analysis and extraction of text features. In order to solve this problem, this paper puts forward a text feature extraction algorithm based on clustering analysis and the weighted analysis with artificial score results. The study found the following conclusions. Firstly, based on the word, the standard text diversity and complexity can be analyzed by the word frequency vector clustering, vocabulary size and distribution of sentence of three aspects. Secondly, the modular scoring approach is adopted to design a four-layer architecture of the automatic scoring system, i.e., fit feature generation module, text feature generation module, non-text feature generation module and learning model evaluation module. Finally, a quadratic weighted analysis of the prediction results showed that the automatic English scoring effect of the random forest model was better. The quadratic weighted K value was generally above 0.78, the highest value was 0.905, the average value was 0.862, and the parameters were 10%~18% higher than the general scoring method. It is hoped that the research of this paper can provide some reference for the research of automatic scoring of English compositions under the background of artificial intelligence.

Key words: English composition; automatic grading; clustering analysis

0 引言

5G時代使得云计算的速率得到大幅度提升,随着人工智能技术在各行各业的推广和应用,英语作文自动评分的处理和分析研究也开始了相关探索[1-2]。目前,国外一些发达国家开始采用自动评分系统软件进行一些基础性考试的阅卷和评分,并取得了一定效果。例如,美国杜克大学研发的IEA英语自动评分系统已经被正式纳入到托福和雅思考试中,大大提高了文章批改效率[3-4]。智能化的英语智能评分系统能够极大提高英语批改效率,节约人力资源成本[5]。英语作文自动评分的算法研究方面,关于英语文本的表征一直是研究难题,传统的作文评分方法在文本内容的分析方面较为模糊,其重点在于词汇本意的解读,无法理解语句潜在的意思表达,因此会忽略一些关键作文信息。本文提出一种利用词向量聚类的方式来对文本内容特征进行提取,该聚类方法一方面可以充分评价文本的字面大意,另一方面可以对作文的题意符合程度进行模糊评价。此外,基于随机森林学习模型对作文实现预测打分,利用国际上通用的英语语料库对该英语自动评分系统进行评价,发现该自动评分系统所预测的分数进行二次加权后优于目前国际上较为通用的评分系统,从而验证了本文的研究成果。

1 文本内容的词汇聚类方法

英语作文写作中的核心问题有两个,第一个是词汇意思的准确表达,第二个是语句内容与主题的契合程度[6]。本文依据目前较为通用的语料库系统Word2vec模拟出词汇向量,然后利用聚类方法对词汇进行不同类别的词汇向量分级,进而获取作文的本文特征值。

1.2 词汇向量的生成

目前较为流行的词汇向量生成方式以人工神经网络模拟为主,这类型方法通过自编码方式对英文文本的特征进行重新编码,获取不同词汇的权重矩阵,然后通过神经元函数进行激活判断,这种方法的缺点是当文本训练量大时会降低词汇向量的生成效率[7-8]。本文提出基于Word2vec语料库的训练方式来对词汇向量进行表征,提高了训练的速度和效率,这种改进的训练方法可以同时调用两种向量训练模型,分别为CRB模型和SKIP模型,模型结构原理,如图1所示。

对比两种不同的训练模型发现,CRB模型是一个树形结构,通过预测上下文的词意来预测当前词汇,而SKIP模型刚好相反,通过确定当前词汇来预测上下文的词意。为了提高训练模型的效率,需要提高训练参数c值,本文的词汇向量生成基于输入层进行神经网络分析,然后通过投影层进行归类,最后通过输出层获取归一化的词汇概率分布情况。这种通过量中训练模型进行正向和反向演示后,对样本就能够得到精确的区分度。

1.2 词向量的聚类算法设计

英文单词不同于汉字,由于其通过字母组合的方式,每个词均可以通过词向量的模式进行表示[9]。每一个英文句式内都有多个重复出现的词,这些词共同构成了词向量的类别以及内在含义。鉴于以上特点,本文提出利用K均值聚类算法,对英文作文中的词向量进行聚类分析,聚类过程中需要考虑词汇数量、语法、频率以及分布位置等,将聚类文本分割成N维向量,每个向量为词汇聚类后的某一类别。其具体算法流程如下:

1.3 聚类词向量特征提取

经过聚类后的词向量具备一定的代表性特征,英文作文分析中假设经过聚类算法后得到k个聚类文本,每个句子中的单词均在这k个聚类文本中,每篇文本中的不同语义进行信息集合就能够得到词语的出现频率、使用频率等权重值。本文所处采用的自动评分系统中主要统计了词向量的3个特征,包括单词频率、大小以及分布位置,其中分布位置是用于表达句子的复杂性和多样性特征,例如通过一个语义语句中作者使用了多个词语进行表述,代表该作者具备较好的英文功底。按照以上研究思路,本文对英文作文进行了文本特征提取和分类。

2 基于随机森林的评分模型设计

2.1 模型总体设计

英语评分模型总体上分为四个模塊,分别为:契合度特征生成模块、文本特征生成模块、非文本特征生成模块以及学习模型评估模块。

契合度特征用于表征英语作文与考试论点的符合程度,本文采用如下方法进行契合度特征的生成:首先以单词为单位,计算单词出现的频率F,然后计算该单词的反向频率TF,两者的乘积为词汇权重K,然后选取排名前10位的词汇进行均值聚类特征提取,从而获取该词汇的频率、个数和分布情况。文本特征的提取按照第1节的方法进行分析。非文本特征模块中,剔除掉了词汇向量的影响,而考虑文本的复杂程度例如语法特征和句式特征等。最后,利用随机森林模型对以上三种特征进行预测评估,进而获得评估分数。

2.2 数据预处理

选取数据来源于某作文评分比赛过程中所用到的作文数据,该作文共包含8个不同的作文子集以及得分点,同时该题目的得分情况有人工评分和写作评分。作文水平为初中水平,字数一般在200~500字,预处理包括两步骤:

首先,清洗关键数据。由于作文数据中存在一些录入错误或者笔误等,导致作文字数太少,作文得分不正常,这种数据应进行清洗和剔除。

其次,大小写统一。由于英文作文格式要求部分字母大小写不同,这样在机器评分过程中会认为是两个不同单词,本文通过将所有单词转化为小写的方式进行替换。

2.3 数据特征的提取

数据特征的提取包含3方面,尤其数据特征的准确性和分类效果某种程度上其重要性高于预测模型。本文基于文本特征、非本文特征和作文契合度特征对数据进行聚类分析和归纳。该数据特征的准确输入到模型中才能够达到预想的训练效果。

2.4 随机森林模型预测

选取随机森林模型对特征数据进行预测。随机森林属于Bagging模型的一种衍生模型,这种模型具有自动采样功能,通过对训练集合中的样本进行有目的的放回和选取进而达到决策目的[10]。本质上来说随机森林模型是一种决策树结构,通过对树形结构的边和节点进行甄别达到预测目的。本文的基本预算过程如下:

(1) 在作文集中随机放回和抽取出x个样本作文;

(2) 根据聚类算法所确定的聚类特征K提取n个特征,然后将第一步所抽取的n个样本作文构件决策树;

(3) 重复决策树构造过程,形成随机森林模型;

(4) 通过随机森林形成的新数据,进行拟合和权重分析,获取最终得分值。

随机森林模型构建过程中,关键的问题是对于子树数量的确定、树的深度确定以及树的节点确定,只有建立合适的决策树数量、节点和深度才能得到合理的模型。其关键算法如下:

RF= Random Forest Regressor( metri=8,depth d=20,feather f=50,

sample a=500,jobs=0)

class Least_square:

def __init__(self):

self.param = np.array([])

self.Y = np.array([])

least_instance = Least_square()

param = least_instance.fit(X,Y)

result,var = least_instance.predict(X)

3 英语自动评分系统的评价

3.1 评价方法

为了验证基于词向量聚类的自动评分系统的打分效果,本文基于某作文评分比赛中所提供的标准数据作为研究对象,如表1所示。

表1中包含8个不同的作文集,不同作文集具有不同的文题和得分分布情况,每个子集中包含的论文一般为1 000~2 000篇,最低1 040篇,最高1 944篇。然后,利用自动评分系统和人工评分结果进行二次加权对比求得K值,若K=0,代表自动评分系统与人工评分系统的相关性为0,没有关联度,自动评分系统随机性太大,不符合要求;若K=1,说明自动评分系统与人工评分系统具有完全一致性。因此,K值越高,代表自动评分系统的评分可信度越高。

3.2 评分效果验证

基于词向量聚类,对8个作文子集进行自动化评分,并与人工评分结果进行对比,采用二次加权算法求得加权值K,并与国际通用评分软件对比,如表2所示。

从表2可以发现,基于随机森林算法的作文子集评分结果中,其二次加权K值普遍在0.78以上,最高值为0.905,平均值为0.862。而采用国际通用的评分算法所获取的加权K值其最低值为0.654,最高值0.755,平均值0.792。从预测结果上看,本文的计算方法明显优于现有的评分预测模型,高于通用算法成绩10%~18%,基本可以达到与人工评分相匹配的效果。进一步分析作文样本结构发现,基于Bagging方法的随机森林算法在获取了精确的聚类向量特征后,可以在样本数量不够的情况下有效避免过度拟合误差,从而降低方差值。,而常规的模型预测算法在样本数量低于1 400篇时,其二次加权K值明显降低,并且基本上低于0.7左右。

4 总结

针对目前通用的英语自动评分系统在文本内容特征的分析较为模糊,本文提出基于词向量聚类的方法对英文作文文本中的文本特征进行了重新分类和提取,并基于该文本特征开展了基于随机森林模型的自动评分设计,结论如下:

(1) 基于词向量聚类的思路,能够从三个方面分析作文文本特征,首先是单词频率,其实是词汇大小,最后是分布位置。其中,词汇分布位置能够充分表达句子的复杂多样性,一个语义中作者使用了多个词语进行表述,说该作者具备较好的英文功底。

(2) 通过模块化的评分思路对英语自动评分系统进行了总体架构设计,分别为:契合度特征生成模块、文本特征生成模块、非文本特征生成模块以及学习模型评估模块。

(3) 基于作文评分比赛中8个作文子集数据作为输入参数,与人工评分结果进行二次加权分析,发现随机森林模型的英语自动评分效果较好,二次加权K值普遍在0.78以上,最高值为0.905,平均值为0.862,各项参数高于通用评分方法10%~18%。

由于时间有限,本文关于评分模型的修正还需要进一步深入,今后的研究应该着眼于多种学习模型如梯度提升树模型、XGBoost模型等的优缺点分析和融合度算法等。

参考文献

[1]

陈春梅.人工智能在英语写作中的应用——项基于中国知网的统计与分析[J].乐山师范学院学报,2019,34(7):105-111.

[2] 史舜威. 多特征智能批改模型的研究和应用[D].北京:北京邮电大学,2019.

[3] Attali Y, Burstein J. Automated essay scoring with e-rater? V.2[J]. The Journal of Technology, Learning and Assessment,2006, 4(3): 3-30.

[4] Daigon A. Computer grading of English composition. The English Journal, 1966, 55(1): 46-52.

[5] Landauer TK. Automatic essay assessment[J]. Assessment in education: Principles, policy & practice, 2003, 10(3):295-308.

[6] 穆向妮.英語深度学习云平台的设计与实现[J].微型电脑应用,2019,35(8):20-22.

[7] 王柳莎.基于K-均值聚类算法的英语教学岗位胜任能力评估系统设计[J].微型电脑应用,2019,35(7):128-130.

[8] 周明,贾艳明,周彩兰,等.基于篇章结构的英文作文自动评分方法[J].计算机科学,2019,46(3):234-241.

[9] 李思言. “互联网+”大学英语写作形成性评估模型的构建与验证[D].哈尔滨:哈尔滨理工大学,2019.

[10] 刘琼.基于MVC架构的英语教学系统设计及应用[J].微型电脑应用,2018,34(11):107-109.

(收稿日期: 2019.08.24)

猜你喜欢

英语作文聚类分析
提高高中生英语写作能力之我见
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
巧用多媒体,提高教学效率
“县级供电企业生产经营统计一套”表辅助决策模式研究
中外大学生英语词汇学习的语料库研究