写作机评原理及应用述评
2016-05-14黄万武项颁
黄万武 项颁
【摘要】本文依据语言测试领域的作文评分要素,对国外具有代表性的三种写作机评系统原理和国内主要的写作机评应用进行评介和比较,指出这些评分系统和软件在评分信度和效度等方面优势和劣势,并分析这些作文自动评分系统为我国自主开发作文自动评分系统所提供的借鉴作用。
【关键词】写作机评系统原理 写作机评应用 评分要素
写作自动评分系统对能够提高语言测试的效率和降低成本,本文着重介绍国外内经典的写作机评原理,并简要分析他们的优缺点。
一、经典的写作机评原理
1.基于语言形式的机评系统——PEG。PEG于1966年由美国杜克大学的Ellis Page等人开发。PEG的设计者认为作文质量有赖于作文的深层结构,而机器无法直接衡量,因此,他们以文本表层特征项为切入点,间接评价作文质量。
PEG写作机评分三阶段:变量提取、多元回归分析和把多元回归得到的beta值代入计算机程序换算出作文得分。PEG首先收集了一部分人工评分后的作文,再利用自然语言处理技术,从作文中提取若干个文本特征项,并在这些文本特征项与人工评分之间进行相关性分析。然后,Page选择与人工评分相关的文本特征项作为自变量,把人工评分作为因变量,进行多元回归分析,得到回归方程。回归方程为每一个变量确定了beta值,这样,在对新的作文进行评分时,PEG只需要提取这些变量,并把beta值代入回归方程之中,就可以预测出这些作文的得分。PEG目前的程序中包含很多复杂的变量,但PEG的开发者们并没有对这些 “复杂的变量”作出明确的界定。
2.基于内容的机评系统——IEA。IEA(Intelligent Essay Assessor)是一种基于潜伏语义分析的作文自动评分系统,由美国科罗拉多大学的Thomas Landauer等学者开发。不同于PEG,潜伏语义分析着重分析文本的内容,而不是语言。
潜伏语义分析集理论与技术于一体。在理论层面上,它认为任何文本都有一个潜在的语义结构,这一潜在的语义结构即全部词汇的语义之和。然而,自然语言中存在大量的多词同义和一词多义现象,这对我们正确理解文本造成严重干扰。就技术而言,潜伏语义分析属于一种矢量空间模型技术,它可通过降维的方法,有效排除干扰,析取数据中的潜在语义结构。潜在语义结构可由一个词汇项文档矩阵来代表,矩阵中的每行表示一个词汇项,每列表示一个文档,而矩阵的每个单元格中的元素为相应词汇项在相应文档中出现的频数。
运用矩阵代表潜在语义结构,可进行奇异值分解的矩阵运算,通过该运算,原来的矩阵可以被分解成为三个不同的矩阵。降维后,对这三个矩阵展开进一步的运算。该矩阵保持了原来矩阵中最重要的语义联想关系,同时又屏蔽了大量的干扰信息。
将潜伏语义分析用于学生作文自动评分时,待评分的作文与范文均被视作矢量,完成矢量间的比较后,可得到每篇待评分作文与范文在内容上的相似度评分。根据Landauer等人的报告,该系统所评出的作文得分与人工评分之间的相关性达到r=0.85。
3.基于层次结构的机评系统——E-rater。E-rater是由美国教育考试处于20世纪90年代开发,其目的是评估GMAT考试中的写作水平。该系统利用了多项技术,其中包括统计技术、矢量空间模型技术和自然语言处理技术。因此,它不仅能像PEG那样评判作文的语言质量,还能像IEA那样评判作文的内容质量。另外,E-rater还可分析语篇结构。类似于PEG,E-rater的评分方法基于线性回归模型。E-rater围绕三个层面评析作文的质量:第一层为话语结构(亦即篇章结
构),主要靠在文本中搜索“To begin with”、“In conclusion”等篇章衔接词的方法得以实现;第二层为句法多样化,根据作文中句子结构的多样化来评判作文的语言质量;第三层为内容。这里,E-rater通过矢量空间模型,检测作文中是否包含了充足的与作文题目高度相关的主题词。
研究表明,E-rater与人工评分之间的一致性一直高于97%。但E-rater的三个层次结构中具体包括哪些变量,则是众说纷纭。Kukich报告声称E-rater可析取100多个变量,Power et al.表示E-rater可析取50多个变量,而Attali和Burstein的报告则坚持认为最新版本的E-rater “依据有关理论对写作能力的若干方面给予考虑”,只提取12个变量。
二、有代表性的写作机评应用
1.国外主要英语作文自动评价工具软件。国外最有代表性的写作机评应用当Writing Roadmap 2.0(WRM 2.0)。著名学者吴一安和唐锦兰考察了机评系统WRM 2.0对高校英语写作教学的影响。学研究表明,学生写作能力、自主学习能力及写作教学过程在一定程度上与WRM 2.0的应用正相关。另外,他们得出结论,写作教学应从关注语言形式和写作结果向关注内容深度和写作过程靠拢。蒋学清等对写作机评系统在大学英语写作中的教学应用研究发现,通过一学期的教学,实验组和对照组的英语写作水平都有了明显进步,且实验组的进步幅度更大。这表明形成性评价方式和具有自动反馈功能的在线写作工具可辅助学习者写作。此外,王淑雯、杨玲结合教学实践,介绍了在写作教学中如何使用WRM 2.0为师生提供多元化反馈,最后阐述了该系统的长处和不足。周颖剖析了WRM 2.0写作机评系统的问题,原因和对策。
2.国内主要英语作文自动评价工具软件。
(1)句酷批改网。批改网的核心算法是计算待评文本和标准语料库之间的距离,再将对应的距离映射为作文分数和评语。技术要点是将每一篇输入的作文分解成可测量的192个维度,分析过程充分利用了自然语言技术和机器学习的方法,每篇作文先被自动切分成句子,然后对每个句子进行深层语义分析,从中抽取词、搭配、词组等结构化单元。主要功能包括分数即刻显现、图文报表式作文分析结果抄袭检测等。
(2)冰果英语智能作文评阅系统。它可以即时给出作文评分,并从词汇、语法、文风、内容等方面给出反馈,但该系统目前无法做到对同一篇作文反复修改与评阅。
(3)TRP( Teaching Resource Program)教学资源平台。它根据写作教学需求,将数字化、网络化与区域化教学平台进行了有机的整合,并涵盖了资源建设、平台构建、写作学习、句型练习、语法测验、作文评分、写作研究与评语生成作为考试等功能。
(4)易改机评软件。其主要功能包括:1)一键检查:检查英语文本拼写、语法纠错和文章风格等;2)错误解释:对错误类型和错误原因给予详尽的解释;3)写作润色:在维持原意的情况下为文本润色。它采用了基于自然语言处理与机器学习相结合的纠错方法,让机器学习模型大量阅读(一万亿词级别)正确的英语,构建一个极为精确的模型。每遇到一个输入的句子,易改的后端模型会首先分析每个句子结构,然后通过实例语料模型中的上下文来判断写作是否有误。
(5)大规模考试英语作文自动评分系统 EFL Assay Evaluator 1.0。它结合第二语言习得理论、语料库语言学理论、测试学、统计学,利用自然语言处理技术,挖掘出稳定的文本特征变量,构建评分模型。但该软件在研制过程中仅使用了1000多篇学生作文作为实验样本,与大规模考试中的作文总体样本量差距较大,评分信度较低。另外,它难以判断极具创新性的写作文本的质量,仅适用于对议论文和说明文体的作文进行评价。
三、结论
作文自动评分是利用多学科技术来模拟人工评分,从而高效评定作文质量。一个合理的作文自动评分系统应该充分利用统计技术、自然语言处理技术、信息检索技术及其它可能利用的技术,从作文文本中挖掘能够直接反映作文质量的文本特征项作为变量,有效地提高评分模型对作文质量的预测能力。
参考文献:
[1]Chung G.,& ONeil H.Jr.Methodological Approaches to Online Scoring of Essays[R](Report No.CSE-TR-461).Los Angeles.CA:University of California.Los Angeles Center for the Study of Evaluation 1997.
[2]Foltz,P.W.,Kintsch,W.& Landauer,T.K.The Measurement of Textual Coherence with Latent Semantic Analysis[J].Discourse Process.1998.25,285-308.
[3]Valenti,S.,Neri,F.and Cucchiarelli,A.An Overview of Current Research on Automated Essay Grading[J].Journal of Information Technology Education.2003.2,112-130.
[4]桂诗春.潜伏语义分析的理论及其应用[J].现代外语,2003, (1).
[5]蒋学清.探析自动作文评价系统对大学生英语写作能力发展的影响[J].山东外语教学,2011(6).
[6]雷晓东.英语作文自动评价系统技术的国内研究与应用[J].科技视界,2015(35).
[7]梁茂成,文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学,2007(5).
[8]梁茂成.大规模考试英语作文自动评分系统的研制[M].北京:外语教学与研究出版社,2012.
[9]王淑雯.如何利用Writing Roadmap 2.0进行在线英语写作反馈[J].现代教育科技,2011(3).
[10]吴一安,唐锦兰.融入自动评价系统的英语写作实验教学对高校英语教师的影响研究[J].外语电化教学,2012(4).
[11]杨玲.作文自动评价系统在高水平学生英语写作学习中的应用[J].现代教育技术,2013(5).
[12]周颖.在线形成性评价工具在英语写作中的应用——困难及对策探究[J].现代教育技术,2011(9).
作者简介:
黄万武(1972.9-),男,副教授,硕士生导师,研究方向:外国语言学及应用语言学。
项颁(1989.7-),女,湖北工业大学外国语学院研究生在读,研究方向:外国语言学及应用语言学。