基于批改网的作文自动评价对非英语专业大学生语言复杂性的影响*
2019-12-23电子科技大学成都学院四川大学
电子科技大学成都学院 龚 伟 四川大学 周 军
电子科技大学成都学院 胡 莘
提 要:作文自动评价系统已成为写作反馈一种不可忽视的形式。迄今鲜有论文专门探讨作文自动评价系统是否会影响学生写作中的语言复杂性以及如何影响的问题。该研究在较长的实验周期内检验了句酷批改网对学生写作中词汇复杂性和句法复杂性的影响。文章使用了双因素重复测量方差分析等统计方法,分析了三个水平组45名学生在32周的时间里在批改网上完成的作文,结果发现,基于批改网的作文自动评价有利于学生语言复杂性的发展,同时有无混合教师人工批阅对句法复杂性的影响大于词汇复杂性的影响。
1.引言
在全世界的二语写作教学中,写作反馈无疑都是一个重要环节。如何评价反馈对二语写作语言能力的影响,过去的研究主要集中在纠错性反馈对写作准确度的影响(Ferris&Hedgcock,1998;Bitchener,J.,et al.,2005;Hartshorn,et al.,2010;Masatoshi &Roy,2012),或是以CAF(Complexity,Accuracy and Fluency)为框架,“全景式”地测量和描述学生写作中语言的准确度、复杂度和流利度(Robb et al.1986;Wolfe-Quintero et al.1998;Plakans et al.,2016;王颖、刘振前,2012)。多数研究结果发现反馈有助于学生语言准确度和流利度的提升(Ferris,1999;Chandler,2003;Bitchener,2008;Ellis et al.,2008)。然而对反馈是否有助于复杂度的提高研究者们却莫衷一是,且测量复杂度的指标也各不相同,代表性的案例如下:Sheppard (1992)采用从句数与句子总数的比率测量学习者写作复杂度的变化,发现部分学习者为提高语言准确性而降低了写作的复杂度。李勇、邓红霞(2012)依据D值测量词汇丰富度,用T单位平均长度、从句平均长度和从句与T单位的比率三个指标测量句法复杂性,结果发现无论有无反馈,词汇复杂度都在提高,而句法复杂性都无改变。Ali et al.(2014)测量了词汇变异度、词汇密集度,并根据平均句长、从属小句与全部小句的比率测量句法复杂性,发现接受教师反馈组的实验组与无反馈的控制组相比,在词汇复杂度和句法复杂性方面都有显著提高。
基于计算机技术的作文自动评价系统(Automated Writing Evaluation,AWE),因其具有与人工评阅相较更高的信度和效度(Keith,2003;Weigle,2010),加之反馈的即时性 (Attali,2004;Dikli,2006),吸引并促进学生多次修改(Warschauer&Ware,2006)等等优势,业已成为写作反馈研究不容忽视的一个类别。国外学者针对AWE能否促进学生书面语言的发展看法不一。Warschauer&Ware(2006)发现自动反馈因为可以促进学生多次修改,对学生写作能力的发展有积极作用。Li et al.(2015)以Criterion为工具提供写作自动反馈,发现AWE有利于学生语言准确度的提高。CCCC (2006)和Cheville(2004)则提出机器自动修改作文背离了写作本身是一种复杂且具有高度互动性的人际交流行为的本质,可能会误导学生只去关注句法形式,而忽略了内容和思想的发展。目前国内以句酷批改网(以下简称批改网)为代表的作文自动评价系统已逐渐在各高校二语教学中应用,而写作自动反馈对学生书面语的影响研究却是寥寥。蒋学清等人(2011)使用美国研发的Writing Roadmap2.0作文自动评价工具,从英语作文的7项指标来评价AWE对大学生英语写作能力发展的影响,对AWE做出了积极肯定的结论。杨晓琼、戴运财(2015),钟彩顺(2015)分别使用批改网为工具,研究学生在线写作的自主学习行为,得出了不同的结论。前者认为基于批改网的自主写作教学模式能够有效提高学生的英语写作总体水平,而后者发现学生自主修改的数量有限,质量不高,作文优化效果不明显。至于专门研究AWE对学生写作中语言复杂度的影响,目前只能检索到黄绍莹、张荔(2015)从准确性、流利度、复杂性和作文总体质量四个方面,探讨批改网自动反馈对学生写作能力的影响,他们关注的依然是全景式描述CAF的变化,对语言复杂性的测量沿用的是最常见的T单位检验。然而语言复杂性的研究告诉我们,学习者书面语语言复杂性的发展状况不仅体现在句法层面,还有词汇层面(赵俊海、陈慧媛,2012)。仅仅用T单位这一类考查句法复杂性的测量单位不足以反映语言复杂性变化的全貌,因为词汇复杂性和句法复杂性应该是衡量语言复杂性广泛采用的标准(Crookes,1989:368)。
综合前人的研究,我们认为,对作文自动评价系统提供的写作反馈在提高学生语言复杂性中的作用远没有定论,导致这种情况的原因可能是已有研究之间的种种差异。比如,研究对语言复杂性的测量方法多有不同,特别是多数研究对词汇变异度、词汇密集度和词汇复杂度这三个与句法复杂性紧密相关、且反映语言复杂性的因素忽略不计。另外,研究数据收集与分析使用的作文自动评价工具各不相同,不同网站工具的各种功能设计都可能左右研究发现。最后,写作反馈对学生语言复杂性的影响孰大孰小,也受到学习者本身二语水平和实验持续长度的影响,譬如王颖、刘振前(2012:52)分析学生的复杂性变化不明显是因为实验初期学生的语言复杂性已经很高,Ortega(2003)指出几乎要一年多的教学才会对写作中的MLT产生影响。
因此,要更好地探索作文自动评价系统对学生语言复杂性的影响,有必要将词汇复杂性与句法复杂性一并纳入语言复杂性的测量,同时将作文自动评价工具中影响实验结果的功能作为变量加以控制,针对相同二语水平的学生,在一个较长的教学周期中去观察结果。这正是本研究的目的所在。具体地说,我们的研究问题是:基于句酷批改网的作文自动评价对中等水平学习者写作语言复杂性有无影响?如果有,在词汇复杂性和句法复杂性上分别如何影响?
2.研究过程
1)研究对象
参与实验的对象为本校非英语专业二年级3个平行班中选取的60名学生,每个班20名。由于我们关注的是中等水平学习者,所以剔除掉班里英语拔尖和基础太差的两组学生,将抽样范围限定在大一第二学期期末考试卷面成绩55—85分的学生中间,这些学生分别占班级总人数的72%、81%和78%。3个班均在同一名英语教师教授的大学英语读写译课程学习。学生每两周完成一篇写作练习,由学生课外在批改网上完成。课程持续8个月,周课时4节。
60名受试按照班别分组,分别标记为实验1组(20名),实验2组(20名)和控制组(20名)。3组学生学习内容一样,接受的写作反馈形式不同。实验1组仅接受批改网的自动评价,学生被要求至少修改一次后再次提交作文,实际修改次数不限。实验2组接受批改网的自动评价同时教师在人工评阅处做出反馈,学生被要求在看到人工评阅后至少修改一次再提交作文,修改次数不限。控制组不使用批改网,但出于教师职责,教师根据文章整体质量给出A、B、C、D四个等级的总体评分,不涉及任何语法项目的批改。学生修改后再次上交。在8个月的实验里,每位受试共完成12篇不同题目的作文,并对每篇文章进行至少一次的修改。
为了降低数据分析的复杂性,我们只对第3,6,9,12次修改后的作文进行数据收集和分析。这四次作文分别称为第1次,第2次,第3次和第4次评分。
由于研究周期较长,学生在课外有很多机会提升英文写作水平,不可控因素时时存在。本研究采取了如下措施以尽量控制这些因素:1、实验前准则控制。事先和学生约定规则,要求认真对待每次写作任务,并将参与情况计入学生平时成绩。提前调查学生在实验周期中有无特殊英语学习计划(比如课外参加写作培训班、托福培训班),参加培训班的学生不作为样本。2、实验后数据分析控制。对于数据有缺失的,不作为样本;在数据分析中采用了拉依达准则法排除标准偏差在3σ范围之外的异常数据,这些异常我们认为主要是较长的实验周期中各种不可控因素导致(如个别学生超长的课外学习、敷衍对待作文任务等)。最终每组20个采样样本中保留了15个相对有效样本进行统计分析。
2)作文自动评价系统的选择
目前,国外已有不少较为成熟的AWE系统,但都非针对二语习得的学习者设计,难以提供符合中国英语学习者特点的篇章和句法建议。因此,本研究拟采用国内自主研发的AWE系统,一则方便教学推广,二则也为开发适合中国国情的EFL作文自动评价系统积累更多的实证研究经验。
在比较几种国内主要的AWE工具系统的功能和便捷性后,我们选择了句酷批改网,它是一个基于语料库和云计算的英语作文自动批改在线服务系统,通过计算学生作文和标准语料库之间的距离即时生成学生作文的分析结果(蒋艳、马武林,2013:77)。批改网与其他AWE系统一样,可以提供作文总分、整体评价和词汇、语法、语体等单项的个性化反馈,同时又有其创新,如支持系统自动批阅和教师人工批阅的结合,提供优秀作文共享等功能。
考虑到“教师人工评阅”的功能是将教师反馈作为对自动批改工具单一反馈模式的弥补(杨晓琼、戴运财,2015),此次基于批改网的研究我们遂将教师人工评阅作为一个变量计入了实验设计。
3)数据收集工具
(1)词汇复杂性的测量
每个文本都依据词汇多样度、词汇密集度和词汇复杂度来测量词汇复杂度,这三个指标已被证实可以较好地监测二语写作质量和词汇复杂度的发展(Laufer,1994;Laufer &Nation,1995)。
词汇多样度采用McCarthy (2006)的文本词汇多样度测量(Measure of Textual Lexical Diversity,MTLD),其已被证明能够不受文本长度的影响,结果更加准确(McCarthy &Jarvis,2007,2010);测量工具是在线Coh-Metrix3.0文本分析器。
词汇密集度(lexical density,LD)测量实词在整篇文本中的比率。本研究采用Nation和Coxhead设计的Range32软件,使用Range32自带的功能词(function.txt)为屏蔽词,统计实词在整篇文本中的个数,然后计算出比率。
词汇复杂度(lexical sophistication,LS)测量文本中低频词(复杂词)在文本中的覆盖率。采用Range32软件统计词频。考虑到本校大学英语二年级学生的实际水平,将低频词定义为Range32词表中1级词表(baseword 1)以外且拼写正确的词。计算低频词总数与文本总长度的比率。
(2)句法复杂性的测量
测量句法复杂性的指标较多,本研究采用3个指标,分别测量单位长度、单位密度和句型多样性。单位长度用T单位平均长度(MLT)测量,MLT=文本总词数/T单位总数。单位密度依据从句与T单位的比率(C/T),C/T=从句总数/T单位总数。句型多样性测量相邻句子句法相似度(Syntax Similarity of Adjacent Sentences,SSAS),测量工具是在线Coh-Metrix3.0文本分析器。
4)数据分析
本研究的两个自变量是反馈方式和评分次数。前者为组间变量,后者为组内变量。因变量为词汇和句法复杂性各个指标。组内变量评分次数是时间因素,属于重复测量因素,所以针对各个指标的整体分析采用了双因素重复测量方差分析(Two-way Repeated Measures ANOVA);组间多重比较采用了独立样本T检验;组内多重比较采用了配对样本T检验。
为减少多重比较犯第一类错误的概率,需要调整显著性水平α′=α/k,α=0.05。对于组内比较,k为进行的时间因素各水平比较次数,本实验中为3(第2次,第3次,第4次评分分别和第1次评分比较),所以调整显著性水平α′=0.017;对于组间比较,k为多重比较次数,3种反馈方式两两比较,k为3,所以调整显著性水平α′也为0.017。统计分析前对数据进行正态检验和方差齐性检验,均满足条件,适用选择的统计方法。
3.研究结果
1)词汇复杂性
表1和表2中双因素重复测量方差分析结果表明:对于MTLD和LS,不同反馈类型的作用均存在显著差异,评分次数的作用均存在显著差异,反馈类型和评分次数在MTLD和LS上也有显著的交互作用。然而对于LD,不同反馈类型的作用不存在显著差异,评分次数的作用不存在显著差异,反馈类型和评分次数在LD上没有显著的交互作用。
表1.词汇复杂性整体分析和组间组内比较
注:A组:批改网,B组:批改网加人工批阅,C组:无反馈
表2.词汇复杂性描述统计量
下文将进一步通过独立样本T检验讨论反馈类型对词汇复杂性各测量指标的具体作用,并借助配对样本T检验了解各反馈组随评分次数的变化情况。
(1)词汇多样度
如下图1显示,三种反馈方式对提升词汇多样度均有显著作用,说明作文次数对提高MTLD是有作用的,其中批改网加人工批阅方式效果最显著。批改网加人工批阅与批改网单纯反馈之间无显著差异,它们分别与无反馈之间存在显著差异,说明批改网反馈的作用是显著的。
图1.三组受试四次评分MTLD值变化
(2)词汇密集度
由图2可见,三种反馈方式对提升词汇密集度均无显著作用,虽然随着评分次数的增加,LD值在缓慢上升,但没有统计学上的显著差异。同时,三种反馈方式之间也没有显著差异。
图2.三组受试四次评分LD值变化
(3)词汇复杂度
图3告诉我们,批改网加人工批阅和批改网单纯反馈对提升词汇复杂度均有显著作用,它们之间无显著差异,它们和无反馈方式之间存在显著差异。无反馈组的词汇复杂度无显著变化。
图3.三组受试四次评分LS值变化
表3.句法复杂性整体分析和组间组内比较
续 表
注:A组:批改网,B组:批改网加人工批阅,C组:无反馈
表4.句法复杂性描述统计量
2)句法复杂性
双因素重复测量方差分析结果表明:对于MLT,C/T和SASS,不同反馈类型的作用存在显著差异,评分次数的作用存在显著差异,反馈类型和评分次数有显著的交互作用。
下文将进一步通过独立样本T检验讨论反馈类型对句法复杂度各测量指标的具体作用,并借助配对样本T检验了解各反馈组随评分次数的变化情况。
(1)单位长度
从图4看出,批改网加人工批阅和批改网单纯反馈对提升T单位平均长度均有显著作用,两者无显著差异,它们和无反馈方式之间存在显著差异。无反馈组的单位长度无显著变化。
(2)单位密度
图5所示,批改网加人工批阅对提升从句单位密度有显著作用,较之另两种反馈方式均存在显著差异。批改网单纯反馈和无反馈对单位密度没有显著提升,且两种反馈之间的效果无显著差异。
图5.三组受试四次评分C/T值变化
(3)句型多样性
注意到SSAS值表示相邻句子的句法相似性,因此SSAS值与句型多样性成负相关。图6可见,三种反馈方式对句型多样性的作用相互之间均存在显著差异。批改网单纯反馈显著提升了句型多样性,批改网加人工批阅显著降低了句型多样性,无反馈对句型多样性无显著作用。
图6.三组受试四次评分SSAS值变化
4.讨论
综合实验结果,我们对3组学生作文中语法复杂性的变化有以下两点发现:一是接受批改网反馈的两组学生比无反馈的学生在语言复杂性的多个测量值(MTLD、LS、MLT、C/T、SSAS)中表现出更加明显的发展;二是有无教师人工批阅对句法复杂性的影响大于词汇复杂性的影响。我们将详细讨论这两点发现。
1)相较无反馈,使用批改网反馈更有助于提高学生的词汇多样度、词汇复杂度和T单位平均长度,批改网加人工批阅还能提高学生的从句单位密度,但两种反馈对词汇密集度的提升均无影响,两种反馈还对句型多样性的发展造成了不同的影响。具体变化原因我们将从词汇复杂性和句法复杂性两方面来探讨。
词汇复杂性方面:第一,批改网的“推荐表达”功能如同一个同义词词库,在按句点评时主要针对形容词和动词为学生提供了众多的选择方案,这在某种程度上促进了学生的词汇发展,使得1、2组学生在词汇多样度、词汇复杂度的进步明显优于无反馈组。第二,词汇多样度是语言水平发展一个非常敏感的指标(Crossley et al.,2011:190),学生在32周的实验期间一直在参与大学英语读写译的学习,词汇量和语言水平在逐步上升,因此无反馈组在实验结束时也增加了词汇多样度。第三,不管有无反馈或使用哪种反馈方式,词汇密集度从始至终没有明显变化,这一发现也符合鲍贵(2008:40-41)的结论:如果允许词汇重复,将不同屈折变化的实词看作不同的词,词汇密集度仅能较好地区分水平差异甚大的组别。一年的教学时间不足以使3个平行组的学生产生巨大的英语水平差异。
句法复杂性方面:第一,接受批改网反馈的两组受试在T单位平均长度指标出现了显著提升,而无反馈组无明显变化。反馈可以提升MLT值这一结论与前人的研究看似矛盾(王颖、刘振前,2012;黄绍莹、张荔,2015),但如果把时间因素考虑进去,就不难发现,前人的研究都是在一学期甚至更短的时间内考查语法复杂度的变化,而本实验跨越两个学期,加上寒假一个多月,实际实验持续时间将近一年,写作中的MLT在长期的教学产生了变化是有可能的。第二,使用批改网加人工批阅的学生在从句单位密度指标上有显著提升,其他两组前后没有明显变化。这说明批改网反馈不能提高学生写作时应用从句的能力,但若结合教师反馈则能弥补这一缺憾。究其原因,批改网的指导更加侧重子句层面,例如主语、谓语等句子成分的缺失,主谓不一致、缺乏连词等。因此学生的修改多在关注语法错误的句子,却忽视了综合运用各种句型以提升句子的复杂性。同时,由于批改网分担了教师语法纠错反馈的责任,使教师能够更多关注学生的句型变换,指导学生综合运用简单句、复合句和复杂句,因此辅以教师反馈的小组在从句单位密度上有显著提高。第三,本研究的一个有趣发现是,在实验结束时,接受批改网单纯反馈的学生降低了句法相似性,接受批改网加人工批阅的学生增加了句法相似性,而无反馈组的学生在句法相似性上一直没有明显变化。据此我们推测学生句型多样性的发展与反馈方式相关。批改网有利于促进学生的句型多样性,然而句型多样性发展到一定程度则会影响可读性,相似的句型是连接句子的重要手段(Crossley et al.2008:478)。接受教师辅助反馈的小组可能在老师的提示下使用了更多的语法手段帮助实现语篇连贯,从而降低了句型多样性。
2)句酷批改网中有无教师人工批阅对句法复杂性的影响大于词汇复杂性的影响,具体表现在:辅以教师人工批阅的小组在词汇复杂性的全部3个指标表现上均与批改网单纯反馈的小组没有显著差异,但在句法复杂性的2个指标上(C/T,SSAS)与批改网单纯反馈组出现了显著差异。可见教师反馈的优势更多体现在句法等深层语言结构上,虽然批改网在句法方面也会给出概括性的建议,如多使用从句,多使用长句,变化句型等,但反馈不够具体,不能引起学生足够的注意。教师则可以根据每个学生的写作风格和行文组织给予更有针对性的建议。
5.结语
本研究检测了句酷批改网对非英语专业大学生写作语言复杂性的影响。研究在一个较长的周期里,采用六个测量指标分别测量了学生作文词汇复杂性和句法复杂性的变化,并首次对教师批阅功能的影响进行了考察。结果显示,批改网有利于提高学生的词汇复杂性和句法复杂性,结合教师反馈会给学生的句法复杂性带来更积极的影响。如前文所述,批改网作为国内AWE系统的代表,本研究发现也具有一定的通用性,能为以后学者们对作文自动评价系统与写作语言复杂性关系的深入研究提供一个借鉴。另外,鉴于目前国内大学英语课程的教学方法、教材、教学手段及学生的学习环境有不少共同之处,此发现对类似的群体,环境也有启示作用。
当然,由于上文提到的种种原因,此次研究具有一定的特定性。基于批改网数据的通用性,实验数据的有效性以及实验样本量偏小,群体固定,样本的代表性是否足够,这些都有赖后续开展更多的实验来进一步论证和检验。