英语作文自动评价反馈对学生词汇修改的影响*——以批改网为例
2018-08-02黄爱琼张文霞
黄爱琼 张文霞
英语作文自动评价反馈对学生词汇修改的影响*——以批改网为例
黄爱琼 张文霞
(清华大学 外文系,北京 100084)
文章通过对调查问卷、总结报告和访谈记录的分析,对37名学生基于英语作文自动评价(Automated Writing Evaluation,AWE)反馈的写作过程进行了探讨,并以批改网为例,重点研究了AWE提供的词汇反馈点和AWE提供的反馈对学生的词汇修改的影响这两个问题。文章研究的结果表明,批改网提供的词汇反馈点主要为学习资源反馈点,给予的词汇警示和词汇错误反馈点主要集中于名词、冠词、动词和搭配错误;学生比较关注批改网反馈给予的词汇错误和词汇警示,反馈有助于提升文本词汇的多样性和复杂性,学生对涉及单词、搭配/短语的反馈比较满意。此外,文章还讨论了AWE反馈影响学生词汇修改的相关因素,以期有针对性地发挥AWE反馈的积极作用,提升学生的英文写作水平,更好地开展大学英语写作教学。
作文自动评价反馈;大学英语;词汇修改;批改网
在当前国内的英语写作教学中,教师批改作文的工作量大,无法提供及时有效的反馈[1]。杨永林等[2]提到英语教师批改作文的三项基本功是“准确判断、精准修改、合理建议”,而要满足这三项标准需要3~5年的严格训练,因此“有必要借助智能化的文章批改利器,来缓解这个问题”。相较于传统的教师反馈,人工智能(Artificial Intelligence,AI)辅助批改作文和计算机辅助语言测试具有既省时又省力的经济价值[3],因而在当代英语教学中得以迅速推广。随着AI的不断开发利用,尤其是利用计算机技术对作文进行评估和记分[4]的AWE的研发和应用,使计算机辅助英语教学和测试的局限性得以逐渐突破,说和写的潜力(即输出性能力)得以深入挖掘和利用。在此背景下,研究者需要探讨一系列问题:学生如何应对AWE提供的词汇反馈?学生对AWE提供的词汇反馈满意度如何?经过AWE反馈之后学生的词汇运用水平有无提高?为此,本研究重点探讨了AWE反馈对学生词汇修改的影响,尝试解答两个问题——问题一:AWE提供的词汇反馈点有哪些?问题二:AWE提供的反馈对学生的词汇修改有何影响?
一 文献综述
1 AWE的发展历程
AWE系统应用于作文评阅乃始于20世纪60年代美国的ETS(Educational Testing Service)考试,其中有代表性的是PEG™(Project Essay Grade™)。1968年,Page[5]发表文章介绍了PEG™软件,并指出此软件可用于评阅作文以降低成本,标志着第一代AWE系统的诞生。20世纪90年代末,新研发的AWE系统主要有Foltz等[6]研制的首次用于学生作文评阅的智能评分系统(Intelligent Essay Assessor,IEA)和由Burstein[7]研制的E-rater(Electronic Essay Rater)。其中,PEG和IEA都是针对母语写作,而E-Rater主要用于外语写作评阅。国内AWE系统主要有中国学生英语作文自动评分系统[8]、写作资源教学平台(Teaching Resource Program,TRP)[9]、批改网[10]——批改网可以在几秒钟之内修改一篇作文,并给出分数、评语和反馈,内容主要涉及语法和词汇,如词汇误用、易混词辨析、闪光短语等。
2 AWE的词汇反馈研究及其价值
目前,国内对AWE词汇反馈的研究主要是讨论如何更好地将技术和英语写作教学结合起来,提高语义和语篇分析技术,如“内容贴切”、“用词准确”等[11];或采用有声思维和回溯访谈方法,对非英语专业研究生基于批改网自动反馈的外语写作过程进行探讨[12]。
在AWE的价值方面,杨永林等[13]认为AWE能够指出学生作文中的语言错误、拼写和标点符号问题,能够迅速提供反馈信息,这有助于学生进一步修改作文、提高作文质量。而使用Criterion提交作文两次,将前后两次按照AWE反馈进行修改后的文本进行对比分析,结果发现改进最大的是合成词、混淆词和错误词形[14]——这有助于了解学生的词汇运用水平,从而更好地实现以反馈促进学习。此外,AWE还能增强学生的学习动机、促进学生对机器反馈的接受度,而机器反馈使得学生更多地参与反馈与修改过程[15],故有助于提升学生的自主学习能力。
二 研究设计
1 对象和课程
为了了解英语作文自动评价反馈对学生词汇修改的影响,本研究以北京市某重点高校不同院系、不同年级的37名非英语专业本科生为研究对象,以批改网为例进行了探析。授课时间为16周,共设有8个不同体裁的写作任务;语料选自议论文体裁。
2 研究过程
本研究语料来自37名学生的37篇在线英语作文,建成两个小型的语料库:原稿和修改稿。在课程的前两周,学生接受两次关于批改网使用方法的培训,每次培训时间均为20分钟左右。学生完成初稿后提交到批改网,然后根据批改网提供的反馈进行相应修改,并再次提交到批改网——此“提交—修改”过程至少两次。之后,学生接着提交期中总结报告、接受问卷调查和回溯访谈,调查和访谈的主题涉及学生如何应对批改网给予的词汇反馈和满意度、根据批改网提供的反馈进行修改和未做修改的理由,以及自己的收获或感受到的批改网反馈的局限性等。
3 研究工具
本研究主要从词汇多样性(Lexical Diversity)和词汇复杂性(Lexical Sophistication)[16]两个角度,来分析学生英语作文原稿和修改稿的词汇运用特点。D-Tools[17]用于分析词汇多样性,而Range32[18]用于分析词汇复杂性。
4 数据处理
本研究采用SPSS 20.0对调查问卷进行数据分析,对学生的总结报告和访谈记录则进行文本分析。作文修改的正确性通过两种方式加以确认:①对学生所做的修改和两位外教提供的反馈进行对比分析;②将《牛津高阶英汉双解词典(第8版)》作为检测工具。此外,本研究还采用美国佐治亚大学人工智能院研发的词性标记软件,对学生作文运用的词汇进行词性标记统计。
为了考察学生作文的词汇运用情况,本研究邀请两位具有外语写作教学经验、来自英国剑桥大学且以英语为母语的外教评阅作文,同时参照《雅思考试写作评分标准(公众版)》写作任务2的评分标准进行评分。两位外教评判学生作文原稿和修改稿平均分的统计结果通过SPSS 20.0的平行模型信度进行统计分析,结果显示:两位外教的评分信度具有较高的一致性(信度系数=0.612,相关系数=0.47)。另外,两位外教还受邀对学生作文中使用的搭配(含词组和短语)进行标注,学生则被要求整理出自己文章中所用到的、经AWE反馈提示、由外教和中国教师反馈标出的搭配。考虑到英语词语搭配的种类大致可以分为自由组合、有限组合和成语[19],本研究涉及的搭配主要包含有限组合和成语两部分。批改网反馈的分类方法参考Hyland等[20]提出的“每个个体反馈点即为单个‘书面干预’”的归类提议,同时结合批改网的反馈点如推荐表达、拓展辨析、学习提示、近义词表达、出彩词汇、词汇警示、词汇错误、拼写错误、句子错误和补充句子等制定而成。
三 问题分析
1 问题一:批改网提供的词汇反馈点有哪些?
据统计,批改网共为37篇在线英语作文提供了1592条反馈点,其中有1325条学习资源反馈点(包括推荐表达、拓展辨析和学习提示)和205条纠错性反馈点(包括词汇警示、词汇错误、拼写错误、句子错误),如表1所示。在访谈记录中,学生肯定了批改网反馈的优势:“我们应充分运用批改网的‘学习提示’和‘推荐表达’,这既能拓宽我们的词汇量、加强Paraphrasing能力,也能提高我们对具体词汇的运用水平。”与此同时,学生也指出了批改网反馈的局限性:“有时候给予的错误提示没有具体解决方法。”
表1 学生收到批改网的反馈点总数和修改率
表2 学生收到批改网词汇警示和词汇错误的反馈点总数、修改率和正确率
据词性标记统计,学生在英语作文中使用的名词和动词均超过2500个,其它如冠词、副词、形容词和代词的使用在1100个左右,而连词不到900个;批改网给予的词汇警示和词汇错误反馈点主要集中于名词、冠词、动词和搭配错误,其中搭配错误占的比例最高(达43条);在修改率方面,连词和介词的修改率均为100%,名词、冠词和搭配的修改率超过90%,副词、形容词和代词未做任何修改,具体如表2所示。参照《牛津高阶英汉双解词典(第8版)》,根据两位外教给予的词汇反馈和搭配标注,本研究判定学生的修改正确频次达100%。在总结报告中,学生肯定了批改网给予的词汇反馈:“批改网能为我指出单词的运用错误、连词的衔接错误等,而且批改网的推荐表达和反复校正功能也大力帮助我回顾和学习了很多单词和搭配。”
2 问题2:批改网提供的反馈对学生的词汇修改有何影响?
(1)问卷调查维度1:学生对批改网词汇反馈的处理方式
本研究在“学生对批改网词汇反馈的处理方式”维度下设17道题目,其斯皮尔曼ρ相关分析结果显示:学生对批改网词汇反馈的处理方式与维度1的平均分存在显著正相关(ρ<0.05)。其中,第6题(易混淆词汇)与维度1的平均分低度相关(ρ=0.416);第2题(搭配)的相关系数值最高(ρ=0.784),说明它与维度1的平均分高度相关。
学生检验修改成功与否主要有两种方法:一是查看系统给予的分数或重新提供的反馈有无发生变化,二是查看修改之前机器旁注的警示或错误符号是否消失——如果分数提高了,警示或错误没有旁注符号了,就说明修改成功了;反之,则说明修改失败了。在本研究中,37名学生共提交批改网196次,人均5.3次;提交次数超过10次的学生有6位;提交次数最多为18次,最少为1次。
通过问卷调查维度1的统计分析和学生修改成功与否的检验,本研究发现:学生收到批改网反馈后,比较关注词汇错误和词汇警示。一般而言,学生会率先处理批改网提供的各类错误和警示并做出相应的修改,其次是采用推荐表达中的词汇替换、留用批改网提示的全部出彩词汇,但易混淆词汇采用略低。而对于其它语言类提示如推荐表达和学习提示,学生收到批改网反馈后基本会浏览一下,留用相关性显著的词项。
表3 原稿词汇多样性D值
注:Statistics:D=90.399,Error=0.002。
表4 修改稿词汇多样性D值
注:Statistics:D=99.599,Error=0.001。
(2)原稿、修改稿的词汇多样性和复杂性
本研究采用D-Tools,分析原稿和修改稿词汇运用的多样性及其分布情况。统计数据D值从90.399(原稿)提升到99.599(修改稿),误差值则从0.002降低到0.001(如表3、表4所示),据此本研究做出初步判断:根据批改网反馈修改之后,学生在作文中运用的词汇更加多样,说明AWE反馈有助于提升文本词汇的多样性。
本研究采用Range32,分析原稿和修改稿文本的复杂性,来考察词汇的难度分布情况。根据Range32的设计原理,第三级词表(Three)和不在列表中的词(Not in the Lists)对文本整体的词汇难度有较好的判别能力。原稿、修改稿词汇分布报告分别如表5、表6所示,可以看出在第三级词表Families(词族)中,修改稿文本难于原稿的文本(不在列表中的词族总个数198>192),类符率(Types / %)提升0.65%;Not in the Lists的类符率数据也证明了学生收到批改网反馈后的文本比原稿难度系数稍微高一些(提升了0.14%)。基于此,本研究初步做出判断:根据批改网反馈修改后,英语作文的文本难度有所提升,说明AWE反馈有助于提升文本词汇的复杂性。
表5 原稿词汇分布报告
表6 修改稿词汇分布报告
注:表5、表6中的“Not in the Lists”是指Range32不能将不在列表中的词放入“Families”(词族)中,故用“?????”1表示。
(3)调查问卷维度2:学生对批改网词汇反馈的满意度
本研究在“学生对批改网词汇反馈的满意度”维度下设14个题目,其斯皮尔曼ρ相关分析结果显示:学生对批改网词汇反馈的满意度与维度2的平均分存在显著正相关(ρ<0.05)。其中,第4题(单词、搭配/短语)与维度2的平均分的相关系数值最高(ρ=0.687),说明它与维度2的平均分高度相关;第12道题(纠错反馈)与维度2的平均分低度相关(ρ=0.484)。由此可知,学生对批改网涉及单词、搭配/短语的反馈比较满意,修改率也比较高。
综合上述分析,本研究得出结论:以批改网为例,学生比较关注AWE反馈给予的词汇错误和词汇警示;反馈有助于提升文本词汇的多样性和复杂性;学生对涉及单词、搭配/短语的反馈比较满意,修改率也比较高。由此可见,AWE反馈对学生词汇修改具有积极的影响。
四 影响因素
前文已经分析了以批改网为例的AWE反馈对学生词汇修改的影响,而学生收到AWE反馈后,是否修改以及修改的频次会受多方面因素的影响。为了有针对性地发挥AWE反馈的积极影响,本研究进一步探讨了AWE反馈影响学生词汇修改的主要因素:
1 课程考核机制
课程8个不同体裁写作任务的考核标准之一是学生完成初稿之后是否提交批改网,以及是否再依据批改网反馈做出相应的修改(至少“提交—修改”两次)。修改的评分权重占10%,没有修改就无该项分数;词汇项占考核的20%。本研究对批改网反馈的结果进行了统计,发现共有36名学生按照要求将作文修改并至少提交2次以上,只有1名学生提交了作业但无修改。可见,以批改网为例,课程考核机制可以有效监督学生根据AWE反馈做出修改。
2 学生的英语学习动机
学生的英语学习动机会影响其收到反馈后的修改方式和学习效果。Zhang等[21]认为,英语写作动机明确的学生通常会愿意花费更多的时间和精力去反复修改。在回溯访谈中,本研究发现学生选课的主要动机有四类:出国考试如雅思和托福,本校的英语水平考试,全国大学生英语等级考试如四、六级,修学分。在北京市某重点高校,非英语专业学生(包括参与本研究的37名非英语专业学生)被要求公共英语课至少修满8个学分。而前文提到的那名提交了作业但无修改的同学,他选课的初衷就是为了修够学分。但目标明确定为出国深造的学生,他们不仅认真写作,而且收到批改网反馈后主动反复修改,且修改比较细致。与修学分/成绩动机的学生相比(如取得高的成绩),英语考试/考级动机的学生有更明确的写作目标(如得高分可以申请到心仪的学校出国读书、有奖学金等),付出的努力(如时间、心力)更多,学习效果也自然会更好一些。正如Dörnyei[22]所言,学习动机与奖惩相关——与奖赏相联系的动机很有可能受“理想自我”驱动,而与惩罚相联系的动机更多地是受“应该自我”驱动。
3 学生的词汇水平
在写作过程中,学生承担着主体的作用,而学生收到批改网反馈后,比较关注词汇错误和词汇警示。学生的问卷调查、总结报告和访谈记录分析结果显示:学生普遍反映批改网反馈的词汇错误比较实用,能指出学生在学习过程中容易忽视的一些细节。AWE系统的宗旨是辅助学生提高第二外语的写作水平,作为主体的学生如果能结合自己的写作需要,充分利用批改网提供的各类反馈意见,如推荐词汇、搭配错误提示等,将会提升自己的词汇运用能力。
4 学生对AWE反馈的认知
将作文提交到批改网得到反馈,输出与收到反馈的过程中存在意义协商,故学生的修改行为可促进语言认知。Skehan[23]认为认知理论的主要精髓是学习者应将注意力再分流,合理地分配到语言理解和表达的各个方面,能准确、流利、得体地选择和使用词汇。Ellis[24]提出的认知语言机制主要经历了Notice Input(被注意的信息)—Comprehensive Input(被理解的信息)—Intake(吸收的信息)—Implicit Knowledge and Explicit Knowledge(隐性知识和显性知识)。从促学角度来看,学生收到AWE反馈后,注意到自己作文中的语言错误,重点关注并分析词汇警示和词汇错误,理解和吸收信息,促进显性知识的发展,部分转化成为自己的隐性或显性知识。第二外语写作过程一般经过写作前准备、写作和修改三个阶段,学生在这三个阶段进行一系列心理认知和思维创作,其认知能力和书面表达能力会有所提升。
5 AWE本身的反馈质量
研究结果表明,学生普遍认为AWE的反馈质量比较可靠、AWE反馈给予的词汇反馈比较实用,能够激发学生修改作文的动力;学生对AWE给予的词汇反馈比较满意,能根据反馈及时做出修改。本研究还发现,根据AWE反馈进行英语作文修改后,学生词汇运用的多样性和复杂性均得到了加强。
值得一提的是,AWE反馈能够比较客观且高效地反映学生作文中的词汇运用水平,大大减少了人工测评的工作量和误差,但AWE反馈也存在不完善的地方。如AWE系统主要关注词汇运用的表层,对于搭配特别是警示/错误项不具备深层次的分析能力。以“[搭配错误]in order to 改为so as to”为例:原句是“And we should also communicate with our parents to get some advice in order to avoid making mistakes in life.”机器反馈提示“in order to”搭配错误,要换成“so as to”。实际上,这两个搭配是同义词,在句中均可交替使用。正因为如此,学生对批改网的总体评价是较为死板,问题揭示相对粗略。此外,研究者对内容、文体、句法和修辞等方面的AWE测量与评估暂时没有进行研发。随着AI技术的快速发展,将有望加速AWE系统深层次的研发与利用。
[1]唐锦兰,吴一安.在线英语写作自动评价系统应用研究述评[J].外语教学与研究,2011,(2):273-282、321.
[2][9][13]杨永林,丁韬.互联网+时代,英语写作怎么教?[J].外语研究,2016,(1):60-63、112.
[3][4]Chapelle C A, Douglas D 计算机技术条件下的语言评价[M].北京:外语教学与研究出版社,2010:62-64、1.
[5]Page E B. Grading essays by computer: Progress report[A]. Educational Testing Service. Proceedings of the invitational conference on testing problems[C]. Princeton: Educational Testing Service, 1966.
[6]Flotz P W, Laham D, Landauer T K. The intelligent essay assessor: Applications to educational technology[J]. Interactive Multimedia Electronic Journal of Computer-Enhanced Learning, 1999,(2).
[7]Burstein J C. The E-rater scoring engine: Automated essay scoring with natural language processing[A]. Shermis M D, Burstein J. Automated Essay Scoring: A Cross-disciplinary Perspective[C]. Mahwah:Lawrence Erlbaum Associates Inc, 2003.
[8]梁茂成.中国学生英语作文自动评分模型的构建[M].北京:外语教学与研究出版社,2010:1-32.
[10]北京词网科技有限公司.批改网[OL].
[11]柏晓静,俞士汶,朱学锋.自然语言处理中的技术评测及关于英语专业考试的思考[J].外语电化教学,2010,(1):3-9、18.
[12]卢鹿.基于自动评价系统的第二写作过程研究[J].外语界,2016,(2):88-96.
[14]Attali Y. Exploring the feedback and revision features of criterion[J]. Journal of Second Language Writing, 2004,(3):1-20.
[15]Hatziapostolou T, Paraskakis I. Enhancing the impact of formative feedback on student learning through an online feedback system[J]. Electronic Journal of e-Learning, 2010,(2):111-122.
[16]Read J. Assessing vocabulary[M]. Cambridge: Cambridge University Press, 2000:200.
[17]Paul M, Imma M. Tools for researching vocabulary[M]. Bristol: Multilingual Matters, 2017:21-43.
[18]Nation P. Range32[OL].
[19]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002:199.
[20]Hyland F, Hyland K. Sugaring the pill: Praise and criticism in written feedback[J]. Journal of Second Language Writing, 2001,(3):185-212.
[21]Zhang W, Huang A. Exploring Chinese college students’ language use in written peer feedback on EFL writing[A]. Feng W, Lin P, Tay D. The 11thinternational symposium on teaching English at tertiary level[C]. Hong Kong: The Hong Kong Polytechnic University (Printed and Bound in Beijing), 2017:456-477.
[22]Dörnyei Z. The psychology of the language learner: Individual differences in second language acquisition[M]. New York: Routledge, 2010:65-119.
[23]Skehan P. Modelling second language performance: Integrating complexity, accuracy, fluency, and lexis[J]. Applied Linguistics, 2009,(4):510-532.
[24](美)Ellis R.第二语言习得研究[M].上海:上海外语教育出版社,1999:348-363.
1“?????”来源于笔者和新西兰威灵顿维多利亚大学Nation教授的来往邮件(Personal Communication)讨论,特此致谢。
The Effect of Automated Writing Evaluation Feedback on Students’ Vocabulary Revision ——Taking Pigai.org for Example
HUANG Ai-qiong ZHANG Wen-xia
()
Through the analyses of questionnaires, summary reports and interview records, this paper discussed 37 students’ writing process based on Automated Writing Evaluation (AWE) feedback. Meanwhile, this paper focused on the effect of the vocabulary feedback points and the feedback provided by AWE on students’ vocabulary revision by taking the Pigai.org for example. Results showed that the vocabulary feedback points from the Pigai.org were mainly learning resources feedback points, and the feedback points of vocabulary warnings and errors mainly concentrated on nouns, articles, verbs and collocation errors. At the same time, students paid more attention to the feedback on vocabulary warnings and errors from Pigai.org, and the feedback contributed to the improvement of the lexical diversity and sophistication. Meanwhile, students were satisfied with the feedback on vocabulary and collocations/phrases. In addition, the relevant factors of AWE feedback influencing students’ vocabularyrevision were analyzed, which was expected to targetedly make the AWE feedback play a positive role, improve students’ English writing ability and better carry out college English writing teaching.
atuomoted writing evaluation; college English; vocabulary revision; Pigai.org
G40-057
A
1009—8097(2018)07—0071—08
10.3969/j.issn.1009-8097.2018.07.011
本文为国家社科重大委托项目“语言大数据挖掘与文化价值发现”(项目编号:14@ZH036)子课题“语言智能系统教育实证与文化价值发现研究”的阶段性研究成果。
黄爱琼,在读博士,研究方向为语言测试、外语写作、教育技术,邮箱为salinawongw@163.com。
2018年1月31日
编辑:小米