语料库视域下英语学习者写作词汇丰富性研究
2022-11-03左葳岳
左葳岳
(宁波大学科学技术学院,浙江宁波 315300)
一、引言
作为衡量英语学习成效的重要指标,写作一直被视为英语教学的重中之重。虽然学生与教师在英语写作方面投入了大量精力,但目前国内多数高校学生的英语写作仍停留在较低水平。不少学生表示影响他们写作的主要问题之一是 “无词可用”,这表明学生除掌握基本语法结构和培养自身逻辑思辨能力外,还要加强词汇积累、提升词汇量。实际上词汇是限制学生提升写作水平的直接因素之一。Engber(1995)认为词汇量与外语写作相关性较强,谭晓晨(2006)也认为英语水平与产出性词汇发展关系密切。对词汇进行研究能够促进二语习得的进一步发展,因此我们有必要对高校学生的英语写作词汇进行进一步研究。
二、文献综述
目前二语写作词汇研究引起了国内外学者的广泛关注,其中一个重要议题与词汇丰富性有关,这一术语指语言使用者在产出言语过程中使用词汇的丰富程度,它是衡量二语写作水平的重要指标之一(Read,2000),具体包括词汇变化性、词汇密度、词汇复杂性、词汇错误等范畴。
国外关于词汇丰富性的研究始于20世纪末。Linnarud(1986)比较中学生二语学习者与同年级母语学生作文后发现,学习者的词汇变化性和词汇错误与本族语者有显著差异,本族语者作文明显优于学习者。Engber对国际留学生的作文进行研究,结果发现词汇变化性越强,写作文本质量越高。Hyltenstam(1988)则认为词汇密度与二语写作质量之间相关性不强。Lu(2012)研究了词汇丰富性和二语英语学习者口语文本质量之间的关系,结果发现词汇密度与口语文本质量之间相关性不大,词汇复杂性与口语文本质量呈弱相关,而词汇变化性与文本质量相关性较强。
国内的英语写作词汇丰富性研究起步相对较晚。马广惠(1999)对133名非英语专业学生进行测试,结果发现词汇表达能力是影响写作能力的重要因素。万丽芳(2010)对不同高校的英语专业学生进行研究,指出词汇变化性与英语水平密切相关,词汇复杂性不能以词频衡量,词汇错误的数量随写作任务的复杂度增加。朱慧敏(2013)对30名英语专业学生进行了长达四年的跟踪,发现高频词的使用随着学习的深入逐步下降,同时高级词汇的使用呈上升趋势,平均词长和写作水平密切相关。此外,实验发现词汇密度不能有效反映词汇发展水平,因为词汇密度不能有效区分同一实词在文本中的重复使用。何微微(2016)认为词汇密度是测量实词量的有效指标,实词量随文章长度的增长而增加,过低的实词率会使文章难以理解。
当前关于英语写作词汇丰富性的研究呈上升趋势,近年来随着语料库技术的兴起,大部分研究者从语料库视角展开词汇研究(Laufer 1994;王立非 2007)。目前学界普遍认同词汇错误与写作难度密切相关,但对于词汇变化性、词汇密度、词汇复杂性是否与写作水平相关的讨论仍然各执一词。此外,除朱惠敏外,目前国内极少有人将词长作为词汇丰富性的指标进行研究。鉴于此,本研究将从词汇变化性、词汇密度、词汇复杂性、词长四个维度入手,对中国英语学习者的写作词汇丰富性进行研究。为分析二语写作词汇丰富性特征,我们还将对比学习者的写作语料与本族语者的写作文本。研究问题包括:
1.与本族语者相比,学习者的词汇变化性是否存在显著差异?
2.与本族语者相比,学习者的词汇密度是否存在显著差异?
3.与本族语者相比,学习者的词汇复杂性是否存在显著差异?
4.与本族语者相比,学习者是否倾向于使用长词?
三、理论框架
词汇丰富性这一概念是基于二语写作提出的,在这一背景下,前人已建立了多种理论框架,例如Laufer认为可以从词汇变化性、词汇密度、词汇复杂性和词汇新颖性四个角度考察词汇丰富性;Engber又在此基础上加入了词汇错误这一概念;而Read认为词汇新颖性不适合评估学习者的词汇能力,因为词汇新颖性很大程度上取决于对照组的词汇能力,因此他将词汇丰富性定义为词汇变化性、词汇密度、词汇复杂性和词汇错误。此外,Medero&Ostendorf(2009)首次提出词长可以衡量词汇难度的观点。
综合以上观点,本研究将基于Read和Medero &Ostendorf的理论框架,将词汇错误排除在外并加入词长这一指标,将词汇丰富性定义为词汇变化性、词汇密度、词汇复杂性和词长四个维度。其中词汇变化性指文本中的类符与形符的比值(type-token ratio,TTR),但是该值受文章长度影响较大。为进一步提升精确性,本研究将采用标准化类符/形符比(standardized type-token ratio,STTR)衡量词汇变化性。词汇复杂性指复杂词汇在文本中所占比例。本研究采用BNC/COCA词频列表统计复杂词汇,该列表将英语词汇分为25个级别,如最常用的1,000词汇为K-1级,次常用的1,001-2,000词汇为K-2级,依此类推;词汇密度指实词在文本中所占比重;词长指单词长度,即单词字母的多少。
四、研究设计
(一)语料来源
本研究的语料来自宁波某高校二年级学生的277篇专四模拟作文,这些学生均为英语专业且有十年以上的英语学习经验。本族语者语料来自BNC语料库,这是全球最具有权威性的英语语料库之一,BNC语料来源广泛,具有较强的代表性。本研究采用BNC语料库的写作部分,容量为100万词,主要来源有小说、杂志、报刊和学术文本。
(二)数据处理
本研究首先收集学生作文,用文字识别软件转写后通过WordSmith 8.0统计STTR;利用Compleat Lexical Tutor统计复杂词汇占比;借助Free CLAWS web tagger对语料进行标注,再用AntConc 3.4.3计算词汇密度。
五、结果与讨论
(一)词汇变化性
分析表明,本族语者的词汇变化性高于中国英语学习者(见表1)。
表1 词汇变化性
如表1所示,学习者的STTR为33.35%,而本族语者为42.44%,这意味着学习者的词汇变化性远低于英语本族语者。这一结果验证了Engber和万丽芳的结论:在不同水平的学习者中,词汇变化性存在差异。这可能与学习者的学习方式有关。对学习者而言,英语是第二语言,他们经常以汉语思维方式学习英语,且大部分学生没有积累单词的习惯,这就造成了接受性词汇(receptive vocabularies)输入过少,用于书面语的产出性词汇(productive vocabularies)相应更少;而本族语者长期处于英语环境下,词汇量不断积累,用词也更加地道。同时,由于学习者长期处于汉语环境,极少主动习得英语,因此他们在英语写作中总是感到“词不达意”甚至“无词可用”。
(二)词汇密度
中国英语学习者的词汇密度和本族语者相差不大。
表2 词汇密度
侧面说明词汇密度并不适合作为衡量词汇丰富性的指标。在实际写作中,大量重复使用实词虽然能够提高词汇密度,但这会使文章用词反复,从而降低词汇变化性。
(三)词汇复杂性
英语学习者的词汇复杂性低于本族语者。具体来说,学习者的词汇高度集中在英语常见的前3,000词,覆盖率达到95%;而本族语者的词汇高度集中于前4,000词,覆盖率为97%。此外,中国英语学习者使用最常见的前1,000词汇频率为82%,本族语者为77%,这表明学习者在写作时更倾向于使用简单常用的口语词汇,用词的正式性有待提高。这一结果与张亚平(2013)的结论一致,即中国学习者的写作词汇相对简单,常用词汇的使用频率也更高,但是高级词汇数量偏少,词汇复杂性明显低于本族语者;而本族语者的书面语除常用词汇外,还更多使用高级词汇。对于这一结果,笔者认为除中国英语学习者的学习习惯外,还有可能是因为部分学生在写作时为了少丢分而“故意”使用熟悉的词汇,甚至老师也引导他们尽量少用拿不准的词汇,这些因素在很大程度上降低了词汇复杂性。
(四)词长
在本研究中本族语者的平均词长大于学习者。前者的平均词长为4.91个字母。后者为4.75个字母。一般认为,正式语体往往使用长词,非正式语体的词汇较短。换言之,词长可以衡量用词正式性(李宝成,2004)。因此,学习者的用词正式性不及本族语者。
结论与启示
本文通过对比英语学习者和本族语者的写作文本,发现前者的词汇相对单一,高级词汇较少,其词汇变化性远低于本族语者;同时,学习者和本族语者的词汇密度相差不大。在词汇复杂性方面,中国英语学习者低于本族语者,覆盖率不及本族语者。词长方面,本族语者平均词长高于中国英语学习者。简而言之,在词汇丰富性的四个维度中,词汇变化性、词汇复杂性、词长能够表现出英语写作水平的差异,而词汇密度不能表现出这种差异。
基于这些发现,笔者认为学习者在词汇丰富性方面与本族语者仍有较大差距。这可能与他们的学习习惯或教师的授课方式有关。作为英语学习的基础,词汇具有举足轻重的作用,它在一定程度上限制写作能力。笔者建议学生要高度注重词汇,主动增加自身词汇量,积累高级词汇,从根本上提高词汇丰富性,缩小与本族语者的差距。而教师除讲授语法知识和写作策略外,还要引导学生主动学习词汇,鼓励学生使用高阶词汇,避免功利性地只为取得高分、少犯错使用高频词。
①类符(type)指不重复计算的形符数。
②形符(token)相当于“词”。
③计算每个文本每1000词的类符/形符比,再将得到的若干个比值进行均值处理。
④根据频率与范围两个标准建立的一款词频列表,融入了美式英语和英式英语,由Nation和Davies等人于2012年创建。(British National Corpus,简称BNC;Corpus of Contemporary American English,简称COCA)
⑤一款由魁北克大学开发的大型语料库在线检索系统(https://www.lextutor.ca),包括语料库检索、词汇测试、词汇学习、词汇分析等功能。
⑥一款由兰卡斯特大学开发的在线词性标注器(http://ucrel-api.lancaster.ac.uk/claws/free.html)。