基于大数据的高职学生英语写作错误特点分析
——以中介语为载体
2016-10-28胡光明
胡光明
(无锡科技职业学院,江苏 无锡 214028)
基于大数据的高职学生英语写作错误特点分析
——以中介语为载体
胡光明
(无锡科技职业学院,江苏 无锡 214028)
大数据技术目前已经应用于学生英语作文的自动批改,从中介语理论和错误分析理论入手对英语作文进行分析,可以得出较可靠的结论。本文采集“百万同题英语写作”相关数据,结合中介语理论对高职学生英语写作特点进行分析和归因,在此基础上提出改进教学策略的几点建议。
大数据高职英语写作中介语
一、大数据技术
大数据(big data)概念是由英国牛津大学教授Viktor Mayer-Sch?nberger和《经济学人》杂志数据编辑Kenneth Cukier在2008年提出的,目前已在计算机、信息科学、统计学等学科研究中广泛应用。上述两人在他们的知名论著《大数据时代》中将这一概念描述为“不用随机分析法(抽样调查)这样的捷径,而是采用所有数据进行分析处理”,并指出大数据不是随机样本,而是全体数据;其特点不是精确性,而是混杂性;数据间不是因果关系,而是相关关系[1]。
现有的大数据处理技术,包括数据采集、数据存取、基础架构、数据处理、数据挖掘、模型预测、结果呈现等,原则上基于五个方面的目的:一是可视化分析(Analytic Visualizations),直观展示数据,让数据自己说话;二是数据挖掘算法 (Data Mining Algorithms),深入数据内部,挖掘分析价值;三是预测性分析能力(Predictive Analytic Capabilities),根据可视化分析和数据挖掘的结果做出预测性判断;四是语义引擎(Semantic Engines),即开发智能解析、提取、分析数据的工具;五是数据质量和数据管理(Data Quality and Master Data Management),标准化流程和工具,确保预先定义好的高质量分析结果[2]。就外语教学研究来说,目前对大数据的应用主要集中在可视化分析和数据挖掘两个方面。
二、中介语理论的错误分析方法
中介语(interlanguage)也可译为“过渡语”或“语际语”,是美国语言学家Larry Selinker在1972年提出的重要语言学概念。它是指在第二语言习得过程中,学习者通过一定的学习策略,在目的语输入的基础上形成的一种既不同于其母语,也不同于目的语,伴随学习过程向目的语逐渐过渡的、动态的语言系统[3]。几十年来,中介语的相关理论已经成为解析第二语言学习过程中产生偏误的主要研究工具之一。
Selinker的研究认为,学习者自己输出的任何语言都有一定语法规范的,只是这个语法规则发源于他自己,而不与目的语规则相对应,这样就出现了以中介语为表现形式的错误。中介语的石化(Fossilization)现象是中介语理论的重要组成部分,它是指学习者的语言都存在一个共同的问题:经常犯同样的错误, 而且学到一定程度便停滞不前,这就是石化的症状,所有的中介语都存在着石化问题。中介语石化的原因有很多,包括年龄因素影响、母语负迁移、语言输入错误、学习策略偏差等等[4]。
较长时间处于同一群体的外语学习者,在他们学习的环境、时间、策略、语言基本能力、沟通压力等方面都非常相似,使他们中介语石化的原因和石化后错误输出的类型也趋于相同。以往基于类似视角的研究只能采取抽样的方式来进行分析,近年来在大数据相关理论指导下,可对相同群体学习者具有共性的石化中介语进行大数据挖掘,先总结出错误特点,再分析错误成因,进而改进教师的教学策略,并引导学习者自我纠正、强化,避免出现中介语的石化现象。
三、大数据技术支持的英语写作批改
北京词网科技公司开发的批改网,是目前中国最大的英文在线写作平台,可实时指出学生的英语作文语法、词汇、篇章等方面的错误,并提出修改意见,帮助学生对写作错误进行更新、改进和替换式的修改,并通过即时反馈不断改进,提升英语写作水平。在使用批改网写作过程中留存下来的数据库,包含全国使用该平台写作的每位学习者的每篇作文的词汇、搭配、语法等常规错误,均已被云计算系统分别指出并归类,这些数据便是典型的大数据。如该公司2015 年开展的“百万同题英语写作”活动,就收到来自全国31个省市地区的学生作文1,093,126 篇。笔者希望结合中介语理论,通过该次比赛批改网平台作文留存下来的数据,找到其中高职学生英语写作的错误特点加以分析,并提出教与学策略的改进建议。
批改网系统可对学生提交的作文从词汇、句子、篇章结构、内容相关度 4个大类 192 个维度进行拆分,每个维度在与英语本族语语料库对比后,对作文的内容、组织、语体、词汇、语法和格式等进行单项打分,同时给出个性化的反馈。在此平台进行作文提交并实时查看学生的反馈,根据反馈建议进行多次修改,以期望达到能力所及的分数。
四、中介语理论指导下的高职学生英语作文错误大数据分析
统计显示,本次同题写作有71%的学生在提交后至少修改了1次,有39%的学生修改5次以上,甚至有超过1%的学生修改超过50次。通过初版与终版作文的对比,这些修改使原始错误在10个错误类型上有33.88-56.79%的修正(见表1)。中介语理论认为,改正错误是一种使学习者的中介语向目的语趋进的方法,而且能够根据指示进行自我修正,也从另一个层面说明了学习者的这些可自我改正的中介语并未真正石化。
表1 初、终版作文典型错误对比情况
(一)写作错误分类
本次同题作文题目为“We are what we read(阅读成就你我)”,是聚焦“阅读是学习和成长的重要部分(reading is a critical part of learning and growth)”和“实践中学习(learn by doing)”的观点辩论。结合大数据的统计,我们可以按照Carl James对中介语错误的分类[5],即本体错误、词汇错误、语法错误和语篇错误四个层次,每个层次再根据平台网的维度进行二级分类归纳,便可总结出高职学生英语写作中介语的主要特点。依据Carl James的错误分析理论和平台错误的分类,可将此次写作数据中的中介语错误二级分类如下: (1)本体错误:拼写、大小写、标点符号等错误;(2)词汇错误:词性误用,动词错用(如不定式、分词、动词连用、情态动词等)以及形容词,冠词,介词,副词等的错误使用;(3)语法错误:时态错误、语态错误、主谓一致错误、搭配错误;(4)语篇错误:成分缺失、成分冗余等。
(二)写作错误归因
根据本次比赛的大数据报告分析,统计出高职院校学生的高频错误的前9项(见表2)。由于对语篇错误的判断往往取决于对写作主题的主观呼应,在比较多的情况下难以用正误来机械判断,故以下略去语篇错误,从本体错误、词汇错误、语法错误三个方面进行归因分析。
表2 高职院校学生高频错误统计
1.本体错误
从表2可清晰看出,高职院校学生英语写作的本体错误出现最多,其中拼写、大小写、标点符号三项的错误之和就占了总体错误的43.53%。以下是一些实例,相关错误标为黑体斜体:
例1(大写错误):First of all, Give a man a rod rather than give a man a fish.
例2(小写错误):When i was a little girl, i always wondering why my mom just are addicted to the book every second once she got time.
例3(单引号错误):As a vivid saying:“there is a long distance between theory and practice.”
例4(拼写错误):…,it can boarden our horizons, to inspire our potential, so that we learn more useful information from books.
相比之下,高职院校学生所犯的上述本体错误比“985”本科院校的学生多出了11.6% (数据来自北京语言智能协同研究院发布的《2015百万同题英语写作大数据分析报告(全学段·详尽版)》) 。一方面,这反映了高职学生的英语词汇基础较差,词形记忆不牢,发音和拼写对应记忆能力也不强(如例4中的“boarden”的错误就源于学生将“broad”和“board”两个词的发音和字形混淆,并已形成石化中介语);另一方面,也反映出高职学生对写作中的细节检查不仔细。
2. 词汇错误
此项错误中的动词错用、词性误用、名词数格错用等占错误总数的15.74%。实例如下:
例5(双谓语错误):But therearestill a large number of peoplestandon the side of reading.
例6:(情态动词错误)Itiscanbecome some possible development.
例7:(名词单复数错误)So we can gain many old and newknowledgesfrom the books.
例8:(连词错误)Althoughit is funny,butalso from the side reflects the books for the role of a man’s life’s achievement.
词汇错误中,词性混淆使用、两个动词连用、不定式的“to”错用、介词错用或缺失、混淆名词的可数性和修饰词错误等是常见的错误类型。在例8中“although”和“but”出现在同一句中,很明显是受了汉语的“虽然……但是……”关联词的影响,在其学习英语连词时对此语法不够重视,于是在写出此句子时,其“although…but”表示转折的中介语是石化的,这种石化只有当学习者自己认识到错误的原因并主动学习改正时,才会逐渐消除。
3.语法错误
语法错误中主谓一致错误和搭配错误最为突出,占24.17%。实例如下:
例9(主谓一致错误):Itteachus work and behave, practice thinking , too.
例10(搭配错误):We cangrowthmuchknowledgewhich we do not achieve in classes.
例11(搭配错误):As we all know,readmillionsofbooks,travelmillionsmiles.
例9和例10同时还存在词性错用问题。从例10和11可知,学生的写作受到了母语的影响,意图使用一一对应的方式来表达汉语中的“增长知识”和“读万卷书,行万里路”的意思,却没有顾及英语本族语中是否有这种表述的规则。这种现象在中介语的理论中称为母语负迁移,即学习者用母语规则获得的知识技能对目的语知识技能的习得产生了负面影响。缺少外语学习的语言环境, 缺乏对所学语言的文化和社会背景的了解, 根深蒂固的母语语言思维方式和表达方式的影响等等,都会造成外语学习的母语负迁移现象。在高职学生的英语作文中,这种“中式英语”的错误尤为突出。
应用大数据技术批改英语作文的一个优势是,平台对比的是英语本族语语料库,尽管系统或网络出现大量重复的中式英语表达法,但不会被该平台采用,同时平台可以通过关键词进行对比,挑选和指出写作者的中式英语错误,如本次比赛总结出的高频中式英语搭配30组(见表3)。同时,平台实时将中式英语错误反馈给写作者,有利于其后续的探究式自学。
表3 高频中式英语搭配30组
五、高职学生英语写作教学策略的改进
目前,高职学生的英语写作教学,大多倾向于教授邀请信、求职信、报价询盘等应用文的写作,或为了应试而机械训练学生使用所谓写作“模板”来进行三段式议论文的写作。这种教和学的方式实际上源于实用主义至上的指导思想,导致学生的语言基础不牢、写作知识出现断层等问题。基于此,提出如下建议。
(一)巩固基础知识,提高写作能力
写作能力的提高与学生词汇的掌握及正确使用、语法知识的巩固以及阅读和口语交流量的增加有着密不可分的关系。在总授课时数有限的情况下,有机结合读与写、词汇学习与语篇训练,利用批改网、电子书包等网络学习平台督促学生课后自学和训练,可大幅度提高学习效果。如教师要布置一篇议论文“It pays to be honest”,可在布置前通过相关平台发布与honesty、integrity、merit等关键词相关的短文,供学生课后阅读,然后在课上点评,随后教授文中一些重点词汇用法,最后将写作任务布置下去。这种基于网络平台的知识巩固与能力训练的有机结合,有助于学生在不断尝试和输入中使自己的中介语逐渐向目的语靠近。
(二)实现由结果教学法向过程教学法转变
结果教学法关注“最终结果”,教师关注的重点就是检查学习者的作文是否顺畅、语法是否正确、论述是否符合外语习惯等。而过程教学法则有一系列发展、变化的阶段性教学目标,即指导学习者制定写前计划;营造交互氛围、鼓励全员参与、收集写作素材、 理清写作思路、形成新颖想法;写出初稿;审视、评价初稿;重复以上步骤并完成终稿[6]。在大数据写作平台上,上述过程在人机互动的同时,如果再加上教师观察学生修改过程后的点评,不仅有助于提高学生写作兴趣,还有助于对症下药,及时纠正中介语错误。
(三)借助大数据平台训练学生自我纠错能力
语言学习是一个不断犯错误又不断纠正错误的过程,在诸如批改网这样的可实时反馈写作者错误并给出意见的平台上,可以更加快捷地呈现自我纠错的过程。数据统计显示,对于词汇、标点等主体错误,写作者往往能在第一次反馈后就修改正确;而对于综合性的语法错误, 或由于受母语负迁移的影响产生的中式英语错误,大多数写作者无法在第一次修改后得到彻底改正,往往是由新的错误替代旧的错误。此时,教师的作用极为重要,只有及时指出并讲清楚错误的类型后,学生才能意识到错误并进行纠正,并通过正面的评价反馈,激发学生的写作兴趣。
六、结语
总之,大数据技术是提供高职学生英语写作实时提交、反馈和修改验证的平台,但大数据的特点是只负责提供“是什么”的材料,而从数据中看出端倪、找出规律的原因探究,以及利用数据分析原因、探索“怎么做”的路径规划等,都是数据使用者的工作。本文将大数据与基于中介语的错误分析理论相结合,找出高职学生英语写作错误的一些特点,针对这些特点,利用大数据平台,高职英语教师可以在写作课上尝试更多教学和训练手段,收集更多精准的、不同维度的语料并加以分析,以促进高职英语写作教学水平的提高。毕竟,大数据平台和技术是“器”,只有正确使用它的理念和方法的“术”,才能使其更好地发挥作用。
[1][英]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛译.杭州:浙江人民出版社,2012:31.
[2] 大数据分析与处理方法介绍[EB/OL].36大数据,http://www.36dsj.com/archives/3512,2013-09-23.
[3] Selinker, L..Interlanguage[J]. International Review of Applied Linguistics in Language Teaching,1972(10):209.
[4] 姚凤华.中介语的石化及教学对策[J].常州信息职业技术学院学报,2009(5) : 48-50.
[5] James,C.Errors in Language and Use: Exploring Error Analysis[M].Beijing: Foreign Language Teaching &Research Press,2001: 98-99.
[6] 秦旭.中介语的石化现象与英语写作的学习过程[J].北京第二外国语学院学报,2002(2) .
(责任编辑:赵淑梅)
On the Characteristics of Students’ English Compositional Errors in Higher Vocational College Based on Big Data——Taking the Theories of Interlanguage as the Carrier
HU Guangming
(WuxiProfessionalCollegeofScienceandTechnology,Wuxi,Jiangsu214028,China)
The technology of big data has been applied in marking and correcting students’ compositions. With more than a million participants submitting compositions of the same topic in 2005, the contest has gathered massive amount of data. Reliable and systematic conclusions can be reached by using originated from the theories of interlanguage and error analysis to analyze compositions. The paper collects corresponding data from the contest and analyzes them based on theories of interlanguage, so as to find higher vocational college students’ traits and attribution on English writing, therefore puts forward relevant constructive suggestions on teaching strategies.
big data; higher vocational colleges; English writing; interlanguage
2016-05-26
教育部职业院校外语类专业教学指导委员会课题“基于大数据的高职英语写作教学创新研究”之重点课题“基于大数据的高职学生英语写作特点研究——以中介语为载体”(课题编号GZGZ5414-13)。
胡光明(1972—),男,湖南宁乡人,无锡科技职业学院外语与基础教育学院院长、副教授;研究方向:英语听说与多媒体教学,高职教育管理。
G642.3
A
1005-5843(2016)09-0071-05
10.13980/j.cnki.xdjykx.2016.09.014