国内外英语写作在线反馈系统研究

2017-04-11唐冬宁张威

教书育人·高教论坛 2017年4期

唐冬宁　张威

[摘要] 本文回顾和分析了国内外写作在线反馈系统的发展。在计算机辅助语言学习、O2O教学改革的背景下，写作教学领域中写作输出的在线反馈系统得到广泛的应用。未来的研究可以从三个方面进行：写作在线反馈系统的评价和修正两个维度的开发，写作在线反馈系统的信度和效度的优化，以及写作在线反馈系统与其他反馈方式的互补模式。

[关键词] 写作教学；在线反馈；信度；效度

[中图分类号]G642 [文献标志码] A [文章编号] 1008-2549（2017） 04-0013-03

一研究背景

写作是一个复杂的认知过程，学生始终是这一学习过程的主体，提高其英语写作方面的自我认知水平并进行有效修改的一个关键保障就是“一种源自回应的自我认知修正”（Freedman，1985），即对其所写英语作文的反馈。反馈原本是控制论中的一个基础概念，是指在控制系统中将输出端的信息返回到输入端，并对该信息的再次输出产生影响的过程。从语言学注意假设理论的角度来解释，反馈是“促使注意的一个推动力，反馈能修正不正确的假设，将学习者引导到目的语的轨迹上”（SwainandLapkin，1995），他指出反馈能“促使学习者注意到中介语和目的语间的差异，并让学习者重新构建对目的语所形成的假设，对语言结构进行重组”。

从20世纪70年代起，计算机辅助教学（Computer-assistedInstruction，简称CAI）开始出现在教育领域，其中计算机辅助语言学习在外语教学中的作用越来越受到人们的关注。国家教育部在2003年启动的“高等学校教学质量和教学改革工程”中明确提出要利用现代化信息技术，进行大学英语教学的改革工作。2012年，教育部在《教育部關于全面提高高等教育质量的若干意见》中特别提到信息技术应当在学校的教学层面上得到更为广泛的应用。这一改变已经延伸到了写作教学领域，尤其是在写作输出的反馈中。

二国内外写作在线反馈系统（AutomatedEssayScoring，AES）

近几十年来，随着计算机硬件和软件性能的提高，自然语言处理技术获得长足的发展，国外一批作文自动评分系统相继问世。其中最具代表性的三种作文自动评分系统是：PEG（ProjectEssayGrade）、IEA（IntelligentEssayAssessor）和E-rater。PEG偏重语言形式，IEA偏重语言内容，而E-rater则既重形式又重内容。

1966年，PEG由美国杜克大学的EllisPage等人开发（Daigon，1966；Page，1966）。他们在其网站上公开申明：“PEG不能理解作文的内容”。PEG利用当时并不发达的自然语言处理技术，基于文本特征项（textfeatures）与人工评分之间进行相关性分析。PEG依靠分析文章的浅层语言学特征对作文进行评分，如：长度、介词、关系代词及其他词性的词汇数量、词长的变化等，没有涉及内容、组织、体裁等方面。

到了20世纪90年代，自然语言处理与信息提取技术取得了长足的进步。依托这些技术，数种有代表性的AES系统得以开发。IEA（IntelligentEssayAssessor）是一种基于潜在语义分析（LatentSemanticAnalysis）的作文自动评分系统，由美国科罗拉多大学的ThomasLandauer等学者开发。与PEG显著不同的是，IEA的设计者们在其网站上申明：“IEA是唯一能够测量语义和作文内容的程序”。据IEA的设计者们报告，潜在语义分析主要分析文本的内容和学生作文中所传达的知识，而不是作文的风格或语言（Foltzetal，1998）。根据Landauer和Dumais（1997）的描述，文本中隐藏着一个潜在的语义结构（SemanticStructure），这一潜在的语义结构正是所有词汇（潜伏语义分析称之为“词汇项”，即terms）的语义之和。将潜在语义分析用于学生作文自动评分时，待评分的作文与预先选定的范文（训练集）进行比较之后，可以得到每一篇待评分作文与范文在内容上的相似度得分（SimilarityScore）。

E-rater是由美国教育考试处（Educational Testing Service，ETS）于20世纪90年代开发，其目的是评估GMAT考试中的作文质量。E-rater的开发者们声称，他们的作文评分系统利用了多种技术，其中包括统计技术、矢量空间模型技术和自然语言处理技术（Valentietal.2003）。凭借这些技术，E-rater不光能够像PEG那样评判作文的语言质量，还能够像IEA那样评判作文的内容质量，此外，E-rater还对作文的篇章结构进行分析。E-rater围绕这三个主要方面对作文的质量进行分析和评判，Burstein等人把这三个方面称作模块，第一个模块为话语（Discourse）结构（即篇章结构）分析模块，主要靠在文本中搜索“insummary”、“inconclusion”等提示词（CueWords）的方法得以实现（Bursteinetal，1998b）；第二个模块为句法多样性（SyntacticVariety）分析模块，根据作文中句子结构的多样性来评判作文的质量，显然，该模块的目的是分析作文的语言质量；第三个模块为内容（Content）分析模块，在这一模块中，E-rater通过矢量空间模型，观察作文中是否包含了足够的与作文题目高度相关的主题词。

国内利用计算机进行英语作文评分和反馈的研究包括三种类型，一种是以计算机和网络为平台的人工作文评分，另一种是计算机辅助作文评估和反馈，最后一种是自动作文评分。第一种以王跃武教授为代表，他的研究致力于建立一种依托计算机及网络的高信度的大学英语四、六级考试作文网上阅卷管理系统。该系统能够向阅卷人随机分发试卷，对阅卷行为进行实时监控，并对阅卷员的阅卷质量进行控制。其后续研究表明，利用该系统所给的作文评分信度高于传统阅卷方式评出的作文分数。在这种研究中，计算机只是作文评分的一个工具或者平台，作文评分是由教师完成。

国内较早的作文自动评分系统是梁茂成（2005）研制的适合国内英语学习者的作文自动评分系统，该系统从语言、内容和结构三个层面评估作文并给出分数。而目前实现商业化，在较多院校投入教学改革应用的在线写作自动评改系统，则是以句酷批改网为代表。句酷批改网借助语料库和数据库的强大功能，能够在短时间内对学生提交的作文做逐词逐句的批改，并给出基于语料库的改进建议，因此学生能够从词句的层面上显著受益。

2005年，梁茂成教授主持开发“大规模考试英语作文自动评分系统”，该项研究成果可实现对中国学生英语作文的大规模机器评分，具有极大的实用价值。该系统的工作原理是提取浅层文本特征，对内容的潜在语义进行分析，再运用线性回归，进而得出评分，实验结果与人工评分相比较达到了较高的相关度。

“句酷批改网”是基于云计算与语料库技术的英语作文自动批改系统，是一个以SAAS（Software-as-a-Service，软件即服务）的方式提供作文在线自动评阅服务的云平台，其核心算法是在一定规模的训练集和测试集的基础上，通过计算学生作文与对比语料库之间的差距，例如拼写错误、语法错误、中式英语等，计算作文在词汇、语句、篇章和内容等四方面的得分，再通过映射（打分公式）将该差异转化成作文分数及评语，学生可以根据反馈进行自助作文修改，在不断修改的过程中提高自己的写作能力。

三写作在线反馈系统的研究方向

首先，写作在线反馈包含两个维度，评价（Evaluation）和修正（Correction）。评价是指读者对于作者文章的整体性、概括性的评论或评分；修正则是读者向作者提供的详细的解释、说明、指导，意在幫助作者找出不足之处，并且改正不足之处（张雪梅，戴炜栋，2001）。

AES系统有两个应用目标：一方面是用于大规模考试的自动评分；另一方面用于写作教学，作为一个提供反馈的工具。前面讨论到的几个系统，基本都是以第一个目标为主，也有在此基础上兼顾第二个目标的，比如E-Rater。Page把作文评分分为内容评分与文体评分，前者指文章讲了什么，后者指句法、写作机制、用词以及文章如何表达等其他方面。有的系统偏重于分析文体（如PEG），有的系统偏重于分析内容（如IEA），有的二者兼收并蓄（如E-Rater）。

对于中国的EFL作文，只分析内容显然不切合实际，最终目的还是为了促进英语学习。所以我国AES研究应着重于第二个目标，即为学生提供一个基于网络的写作环境，能够为学生的作文给出即时的评分与反馈，指导学生写作。在这个应用上，准确而详尽的反馈至关重要，而要提供反馈，只有浅层的文本特征提取与分析是不够的，必须结合中国学生英语作文的实际情况，采用各种NLP（NaturalLanguageProcessing）工具，对文章作出细致的深层次分析。当前的词汇、语法的分析技术已经比较成熟，只要加以适当的改进，便可用于中国EFL作文评分，并给出这两方面的详细反馈，可参考IEA的方法，给出内容方面的提示；在篇章结构方面，可参考E-Rater的方法。更重要的是，根据英语写作教学理论，在反馈中要给出正面的表扬、鼓励性提示（王初明2004）。

再者，写作在线反馈系统存在信度和效度问题。作文自动评分的目的是利用多学科技术有效地模拟人工评分，以达到快速评定作文质量的目的。因此，在对计算机评分模型进行训练时，训练集作文人工评分的信度至关重要。只有有效地模拟具有较高信度的人工评分，计算机评分才有意义。评价对学生作文的评分是否合理，所需考察的另一个方面是评分的效度，如上文所述，对作文进行评分一般至少需要从作文的语言质量、内容质量和篇章结构质量三个主要方面对作文的整体质量加以衡量。

PEG虽然对作文的语言质量有着较强的分析能力，但忽略了作文的内容质量和篇章结构质量，因而其评分结果存在较大的效度问题。与此相类似，IEA突出了评分过程中作文内容的重要性，但忽略了作文的语言质量和篇章结构质量，显然也存在较大的效度问题。与这两种系统相比，E-rater以其模块结构兼顾了作文质量的三个主要方面。国内的写作在线反馈起步较晚，多以浅层特征的统计分析为主，也有样本数量、范围的局限性，其评分模型与实用系统尚有一定的距离。

此外，在实际的写作教学中，为满足学生个性化的学习要求，在线反馈系统也需与其他反馈方式进行有效互补。写作教学中，根据反馈的来源，可将反馈分为教师反馈、同伴反馈和计算机网络反馈。研究表明，教师反馈能明显增强学生的写作篇章布局意识；同伴反馈过程中学生通过协商和讨论，以一种双向、主动的反馈方式提高写作水平和思维能力，同时，学生的自主学习能力和合作精神也相应增强；计算机网络在线反馈则是借助现代化教育技术，在网络环境中的师生互动以及在写作反馈过程中加入自动评改系统，可以明显激发学生的自主写作兴趣、丰富写作内容和提高语言质量，可提高教师的工作效率，协助教师为学习者提供具有针对性的修改建议，同时也可以更好的保证评分的一致性，作文评分本质上存在主观性，人工评分的一致性会因此受到一定的影响，而写作在线反馈受这方面的影响较小。

综上所述，在线上线下混合式教学改革的背景下，在线反馈系统在写作教学中越来越重要，未来的研究可以从以上三个方面进行，写作在线反馈系统的两个维度（评分和修正）的开发；写作在线反馈系统的信度和效度的优化；写作在线反馈系统与其他反馈方式的互补模式。

参考文献

[1]Freedman，S.W.（Ed.）The Acquisition of Written

Language：Response and Revision[M].Norwood，NJ：

Ablex，1985.

[2]Page，E.Project essay grade：PEG[A].In M .Shermis&J.

Burstein（eds.）.AutomatedEssayScoring：ACross-disciplinary

Perspective[C].Mahwah，N.J.：Lawrence Erlhaum.2003：

43-54.

[3]Swain，M.Three functionso fo utput in second language

learning.In G.Cook & B.Seidlhofer（Eds.），Principles and

practice in applied linguistics：Studies in honor of H.G.