APP下载

中国英语学习者词汇量广度测试中词库的构建

2013-02-22

湖南科技学院学报 2013年6期
关键词:词汇表词库词频

王 帅

(湖南农业大学 东方科技学院,湖南 长沙 410128)

一 引 言

词汇是英语学习的基础,各级教学大纲和各类大型考试,对英语词汇量均有一定要求。词汇量评估具有检测和促进学生英语学习的作用。桂诗春(1985:1)提出,对一个学生的英语词汇量的统计尚没有科学的可行方法,除非被试的词汇量很有限,但对某一群体的词汇量作粗略的统计确是可行的。以往研究将词汇量测试分为“广度测试”和“深度测试”两大类,分别考查学生的“获得性(receptive)词汇量”和“产出性(productive)词汇量”。因“广度测试”具有较强的操作性,以往的几次大规模词汇量调查都是采用“广度测试”。

国内外词汇量广度调查的方法主要分为两大类:一类是采用Nation于1983年建立,在1993年进行了改良的“英语水平测试题”(Vocabulary Levels Test,以下简称VLT),例如,Read(1988),Warning(1997),Laufer(1998)。另一类是分层随机抽样法,例如:桂诗春(1983),解放军外国语学院英语测试中心(1986),邵华(2002),杨端和(2010)。比较两类方法,共同点都是根据词频,建立分级词库,然后从中抽样测试,进而预测受试者词汇量;不同之处在于前者采用的是已被验证信度较高的固定样题作为测试手段,后者采用随机抽样进行测试。采用分层随机抽样法,优势非常明显,有利于对受试者进行历时研究,也有利于同一受试者多次测验,利用计算机技术的分层随机抽样法是目前研究趋势。

词汇量的计算公式通常为(正确题目数量/总题目数量)×词库词汇总量,由此可见,词库的词汇总量,对结果影响较大。以往研究中,不仅词汇量测试结果数值差异较大,对结果的限定也不明确:利用Nation 等人建立的VLT 进行测试的研究结果限定为若干“词族”(word family),其他的未给出明确限定(或应理解为“常用词”)。

本文综合以往研究,结合中国学生英语词汇学习特点,讨论如何构建适合中国英语学习者词汇量测试的词库。

二 词目的类型

母语为英语的大学毕业生的词汇量约为20000 词族(Nation 2001:9;Schmitt 2007:828),如果将此作为我国英语学习者的目标,恐怕遥不可及,显然,学习的重点应该是英语中的常用词。为此,人们一直在编制常用词表(McCarthy 1999;Reda 2003)。同时,为了提高常用词表的可靠性,词频统计被广泛研究与应用。从上世纪60 年代的人工统计,到如今的计算机语料库统计,使高频词(普遍把高频词视为常用词)表的准确性得到保证。

测试用的词库中,词目类型应为词族还是常用词呢?王文斌(2002)对英语词汇中的屈折词和派生词进行了详尽的分类和定义,指出“屈折词属于语法变化系列,而派生词则属于新词构建系列”。理想的词族分类是将某一基础词及其各种屈折词和派生词归为一个词族。Laurie Bauer等(1993)提出了根据不同类型和难度,将词族分为七个等级,其中,屈折变化属于第2等级,其余5个等级均为不同类型的派生变化。显然,如果只选用某一词族的基础词来测试英语学习者,无法判断其对该词族中各个派生词的掌握程度,因而无法判断是否掌握了该词族。另一方面,如果将某一词族中所有屈折词和派生词列举出来,进行测试,其结果很可能是掌握了其中的一部分,只能判断对该词族的掌握程度,但不能给出“掌握”还是“没掌握”这样的绝对判断。况且,词汇量测试只能采取有限抽样的方法,不可能枚举每个词族的所有屈折词和派生词,因此将词族作为测试目标和结果是不具有操作性的。此外,每个词族的基础词在词频上不一定高于它的屈折词或派生词,如“teach”的词频,低于“teacher”,也低于“teaching”,说明在实际的词汇学习中,学习者先掌握的不一定是各个基础词,很可能是其屈折词或派生词。考虑到中国学生在初中阶段已经掌握了全部的屈折变化规律,词目的选取应该将某一词族的基础词和其派生词视为不同的词条,以这样的词目作为测试,测试结果也更符合“词汇量”的概念。

三 词库的范围

Nation(2005),Pearson(2003)等人的研究表明,认识词频最高的100 个词,就能识别一个英语语篇中总词数的一半,词频最高的3000 词占到该语料库的86%的词次。Nation(2001)将英语词汇分为四个等级:高频词(即Michael West 英语通用词表中的2000 词族)、学术词汇(即Coxhead 的570 个词族的学术词汇)、专业技术词汇和低频词汇。其中高频词汇加上学术词汇,共2256 个词族,在学术文中可达到85%以上的覆盖率,非学术文本可达90%左右。英语词汇的总体分布特点为:词频越高的词数量越少,词频越低的词数量越多。如果单从词频角度划分常用词,划分方法决定了常用词词表中的词目数量。可见,常用词的范围应该是一个相对、动态的概念,应根据不同的学习者和不同的学习阶段而定。初、中、高级学习者的常用词范围不同,听说和读写的常用词范围也有很大差异。因此,为保证词汇量测试的合理性,首先要确定适合受试者群体的词库范围。

以往有研究者将受试者词汇量与词频量直接进行比较,例如,杨端和等结合一些国家和地区英语教学,大纲对词汇的要求以及我国大学、中学英语教学大纲对词汇量的要求,推算我国高级英语学习者所掌握的英语词汇大致在10000~13000个左右,以此推断为基础,将测试的上限定为15000词(胡加圣,2010)。这样确定总体大小缺乏说服力,因为具备某一词汇量的学习者,其掌握的词汇词频上的分布要广泛得多,如:邓昭春(2001)提出“掌握2400词汇的新生,在入学时已经掌握了一些词频级在3000至5000的词汇”。但杨端和对词库的处理方法值得借鉴。他从Wordsmith语料库中提取出现频数最高的20000词的词频表作为选词和设计试题的原始词汇。然后对该词表进行了处理,如:排除所有的人名、地名;排除所有的功能-语法词;排除所有内容-实义词的同源词;排除单数-复数形式同时出现时的复数名词;动词一名词同时出现在词频表中,排除所有名词形式;某个词的形容词一副词形式同时出现在词频表中,排除所有的副词形式;同时还排除了所有非词符号,如“#”,“@”及“&”等。筛选后的词表,作为设计词汇量测量的词库。

解放军外国语学院英语测试中心(1986)采用的是Edward L.Thorndike and Irving Lorge 所著的The teacher's word book of 30000 words。黄建滨等2004 年使用了J.Sinclair 的Collins COBUILD English Dictionary 中所列的14585 个带星号的高频词,对其进行随机抽样。

综上,无论词库的语料取材源自何处,词汇测试设计者的选词原则基本相同,即:1.词汇的选取要考虑词频因素。2.词库中的词目应避免重复和屈折词。3.词库的上限应能够充分覆盖高级学习者的词汇量。

喻爱菊(1991)采用《大学英语教学大纲》词汇表进行了测试。此类采用教学大纲或考试大纲作为词库的测试方法,应该说,是符合中国学生英语学习以课堂为主,以考试为导向的特点的,该词库范围能够覆盖受试者已学和面临的考试所需的词汇,更有利于给出精确的测试结果和检验学习效果。而且分析以往国内词汇量测试研究的结果,如1982、1983 年,《大学英语教学大纲》设计组,进行了全国范围的大学新生词汇量调查,确定了当时大学新生词汇量为1600 词。如,解放军外国语学院英语测试中心1986,四川调查工作组1987。1996、1997 年,《大纲》项目组对各地大学新生词汇量进行了大规模调查,得出了“大学新生的入学词汇量平均达1800 词”的结论。以往针对非英语专业学生所作的调查结果,邓昭春的结果为3500、周大军等为2404、邵华为2574,国家教委的一个项目组对国内12 所重点大学新生的调查结果为2006。本文发现,以往对大学新生的词汇量测试结果,大部分都明显小于高中大纲词汇中3000 左右的词汇数量,对大学生的测试结果小于大学英语四级考试大纲中约4500 的词汇量。因此,从“充分覆盖”和“符合学习规律”角度来讲,采用大纲词汇作为词库有其合理性和实用性。

四 词表的构建

那么国内各类大纲词汇表在词频上的分布规律如何?能否满足“高频词”原则呢?本文搜集了国内最新初中英语大纲词汇表(1593 词)、高中英语大纲词汇表(2893 词)、大学英语四级大纲词汇表(4580 词)以及GRE 词汇表(7295 词),并利用计算机编程对它们在词频上的数量分布情况作了统计,结果见图1.

图1

本文采用的词频数据源自Mark Davies 等(2010)基于收录了4 亿词的当代美语语料库(Corpus of Contemporary American English,COCA),整理的五百万个词条的美语词频表(Word frequency list of American English)。

图1表明,初、高中英语及CET4大纲词汇在词频上分布规律相似,在词频最高的前1千词中分布的数量最多,之后开始急剧衰减,到3万词频之后,罕有分布。而GRE词汇的分布较为平均,在1万词频左右之前缓慢上升,随后逐渐下降,并未出现国内大纲词汇的分布规律,说明GRE词汇表已经剔除了大部分高频词。图1也表明了我国各级大纲词汇的制定在词频分布角度看非常合理,集中在高频词阶段。

同时,图1也反映出两个问题:1.国内高一级的考试大纲词汇表剔除了低一级词汇表中的部分高频词,因此将各级词汇表合成一个词表(以下简称“合成词汇表”)应该更加有效。2.即便是4千左右词汇量的学习者,其掌握的词汇在1万-2万词频上还有较多分布,说明只采用合成词汇表作为测试词表,很难反映出课堂以外的词汇学习情况,不利于高级英语学习者进行测试。

为此,本文首先对合成词汇表(5021词)在词频上的分布进行了分析比较,结果见图2.

图2

图2 表明,合成词汇表的分布规律与CET4词汇表极为相似,说明我国各级考试大纲词汇充分包含了低一级的大纲词汇。

接下来,本文为了验证用合成词汇表作为词库的不足,将国内外普遍采用的两个版本的Paul Nation测试题与合成词汇表进行对比分析。

(一)采用Batia Laufer和Paul Nation与1999年改良的测试表,该表分为2000词级、3000词级、5000词级、大学词汇及10000词级。该表的作者提出,如果每级测试的结果高于83%,则说明受试者的词汇量处于或高于该词级。本文对比分析的内容为该表2000、3000及5000词级中的题目词汇在合成词汇表中的存在比例,结果见表1。

表1

其次,采用的是Paul Nation(2007)发布的,1000至14000词级的测试表。该表每1000词级为一组,每组10个选择题目。该表作者提出,受试者的词汇量为正确题目数量乘以100,即为该受试者的词汇量。本文对比分析的内容为该表1000至5000词级题目词汇在合成词汇表中的存在比例,结果见表2。

?

表2

上述对比分析表明,利用国内英语教学大纲词汇合成的词汇表,对2000以内的常用词(高频词)的测试能力强,并且能够得出与当前国际流行的测试方法相近的结果。但从3000词级开始,测试差异将逐渐明显,达到5000词级以后,差异将非常显著,这也反映出我国英语学习者的词汇学习特点,与英语为母语或为第二语言的学习者之间所掌握词汇的差异。同时也表明,本文提出的合成词汇表,对于初、中级学习者的词汇量测试来说有效,但对于高级学习者则不适用。

针对高级英语学习者,理想的测试词库应是处理、筛选后的基于语料库的词频表,比较当前国际最权威的两个语料库,英国国家语料库(British National Corpus,BNC)和当代美语语料库(Corpus of Contemporary American English,COCA),COCA更新(更新到2012年夏季),涵盖的素材种类更广泛(包括口语、小说、报纸、杂志、学术文章等)。总体来说,在前5000高频词中,COCA和BNC两者间有10%的差异,在更低的词频中,差异有30%-35%(http://www.wordfrequency.info/)。因此,选用不同的语料库,对于高级英语学习者的测试结果会有一定影响,但对初、中级学习者的测试结果影响不大。

五 结 语

本文指出词汇广度测试中,词库的选取非常重要,对测试结果有直接影响,但并不存在绝对标准,需根据受试者实际情况选取最为合适的词表作为词库。对于词汇量较低的(3000以下)中国英语学习者,合成大纲词汇表是比较理想的测试词库;对于高级学习者,利用COCA中的词频表,运用杨端和等的筛选方法,组建测试词库是比较理想的选择。对于测试的词目和结果,本文认为应该将某一词族的基础词和其派生词列为不同的词条,以这样的词目作为测试,测试结果更符合“词汇量”的概念。本文讨论了词汇量广度测试中的一个要素—词表的构建,提出了词目和词库的确定原则,并进行了相关实验检测,为基于计算机和网络的词汇量测试研究奠定了一定基础。

[1]Bauer,L.& P.Nation.Word families[J].International Journal of Lexicography,1993,6/3:253-279.

[2]Meara P.The dimensions of lexlcal competence[C].Competence and Performance in Language Learlng.Cambridge:Cambridge University Press,1996:35-53.

[3]Nation,P.Using dictionaries to estimate vocabulary size:Essential but rarely followed procedures[J].Language Testing,1993,10/1:27-40.

[4]Nation,I.S.P.& Beglar,D.A vocabulary size test[J].The Language Teacher,31(7),9-13.

[5]Nation,I.S.P.Teaching and learning vocabulary[M].New York:Newbury House,2007.

[6]Nation,I.S.P.Learning vocabulary in another language.English Language Institute Occasional Publication No.19[M].Wellington,NZ:Victoria University of Wellington,1999.

[7]大学英语四级考试大纲[Z].上海:上海外语教育出版社,2006.

[8]邓昭春.英语词汇量调查问题探讨:兼评一份全国词汇量调查表[J],外语教学与研究,2001(1):57-62.

[9]邓昭春,曾中平.本科生英语词汇量调查与教学思考[J].外语与外语教学,1998,(10).

[10]桂诗春.中国学生英语词汇量调查[A].公共外语教学研究文集[C].上海:上海外语教育出版社,1983.

[11]桂诗春.我国英语专业学生词汇量的调查与分析[J].现代外语,1985,(1).

[12]桂诗春.词汇测试中猜测问题新探[A].陆国强.现代英语研究[C].上海:复旦大学出版社,1997.

[13]解放军外国语学院英语测试中心.建立分级词汇,调查学生词汇量[J].外语教学与研究,1986,(3).

[14]邵华.普通高师院校学生大学英语四级阶段词汇水平实证研究[J].外语教学与研究,2002,(6).

[15]四川省调查工作组.中学英语教学的现状:四川省调查报告摘要[J].外语教学与研究,1987,(4).

[16]汪庆华.关于我国大学生英语词汇量的初步探讨[J].外语界,1998,(2).

[17]吴始年.数量分析在测试及应用语言学中的局限性[J].外语教学与研究,1997,(4).

[18]周大军,等.大学英语学生4 级阶段词汇量状况调查[J].外语与外语教学,1999,(12).

[19]周大军,文渤燕.理工科学生英语词汇量状况全程调查[J].外语教学与研究,2000,(5).

猜你喜欢

词汇表词库词频
基于词频分析法的社区公园归属感营建要素研究
Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature review
一“吃”多用
输入法词库乾坤大挪移
词库音系学的几个理论问题刍议
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
词汇表
词汇表