基础英语语料库中的词汇篇际词汇重复率
2011-11-08刘英蘋大连民族学院外国语言文化学院辽宁大连116600
刘英蘋(大连民族学院 外国语言文化学院,辽宁 大连 116600)
基础英语语料库中的词汇篇际词汇重复率
刘英蘋
(大连民族学院 外国语言文化学院,辽宁 大连 116600)
文章以基础英语教材语料库为基础,在大量的统计计算和程序运行的支持下,着重研究了英语专业基础英语语料库中的篇际词汇重复率及其分布的特点,并分析了其对基础英语词汇教学及学习的影响。
语篇词汇量输入;篇际词汇重复率;基础英语语料库
词汇是语言交际的基础,是语言习得的根本所在。研究表明,在英语学习过程中,学习者所遇到的困难有很大程度上是跟词汇相关的,正如Nation (1990)指出的那样,“语言学习者感到,学习者接受和使用语言的困难源自于他们的词汇量不够”。然而,Nation和Waring (1997) 的研究却表明,2000-3000个词汇就足够让外语学习者说和写了。那么就我国的大学英语教学大纲而言,当学生完成了300个小时的英语学习后,他们的词汇量应该从高中时期的2000个增长到4200个,而英语专业的学生应该达到10000-20000个。
近年来,国内外学者对于词汇输入频率和词汇习得的关系作出了一系列的研究。心理语言学家就词汇输入频率在词汇习得中的作用的研究表明,学习者习得语言的先后顺序取决于该语言成分在输入中出现的频率高低(Waner-Gough & Hatch 1975:302), 语言知识只有被学习者消化吸收才能进入大脑长期记忆,才能起到催化语言语言习得的作用,而能被吸收的语言知识在语言输入中必须有足够的复现率和突显性 (Delosh & McDaniel 1996: 1140; Van Pattern 1996:54)。研究者同时指出,词频是一种暂时的,也是一种动态的状态,一个低频词经过适当的重复也会产生高频词的效应。因此,重复对促进低频词向高频词的过渡作用很大。
篇际词汇重复率指同一词汇在不同篇章里重复率。它是影响英语词汇习得的一个重要因素,它直接影响到词汇及其语法、句法、语义、语法的习得程度。适当的篇际词汇重复率可以促进词汇习得,而与此同时,如果词汇的篇际重复率不能达到一定数量,它就将成为词汇习得过程中的一大障碍。因此,保证篇际复率就成为英语学习者和教学者在词汇习得和教学中必须重视而又往往忽视的重要一个因素。经实验研究表明,文章中只出现一次的词被学习者记住的概率低于0.15(Herman et al 1987;Kachroo 1962; Saragi et al. 1978)。据此,Rott(1999:592)认为,一个单词在文章重出现6次就足以被学习者记住,而Nation (1990)提出,要想长期记忆一个单词,同一个单词需要在不同的篇章内重复5-15次。
词汇输入频率即重复率的重要性也引起了国内研究者的注意,关于篇际词汇重复率的研究也给词汇习得和教学带来了新的思路和方法。然而,如何在教材编写重科学体现词汇的重复率,至今尚未得到有效的解决。究其原因,主要是以往的研究大都是定性研究,缺乏数据的支持,因而没有起到太大的现实意义。本研究采用定量和定性相结合的方式,采用计量语言学的方法,以大量的语料为依据来对基础英语语料库中的词汇输入频率进行研究。
一 研究设计
(一)研究问题
文章以上海外语教育出版社出版的英语专业基础英语教材《综合英语》一册到四册为基础形成的基础英语教材语料库(JYJCC)为研究对象,以计算机辅助的语料自动分析和数理统计为主要手段,得出以下结论:(1)语料库中重复一次的词汇 (Hapax legomena)即篇际词汇重复率为零的单词的分布特征。(2)篇际词汇重复率为5-15次的单词的分布特征。(3)语料库重任意两篇语篇的词汇重复率。(4)多次重复词汇的统计和构成分析。
(二)研究手段
文章研究所基于的语料全部取自第一手英文资料,一律保持原文的风貌。内容广泛,涉及战争与和平科技与伦理、竞争与合作、人类与自然、爱情与友谊等课题,总单词量为126 817。JYJCC的内容量较大,超过了10万字,因此具有总体的统计特征。JYJCC 是以四册《综合英语》教材为内容,语篇长度大约在450-2000字之间。我们将语料库根据字数分成四个子语料库:
表1.MEEC 数据
二 基础英语语料库中的篇际词汇重复率
(一)基础英语语篇词汇量分布
表2. MEEC词汇数据
图1 为MEEC4个子语料库的词汇量分布直方图。我们可以看出,曲线大体上成正态分布。由于每个子语料库的抽样数量足够大,而且词汇量为正态分布曲线,因此下面的公式可用来推断基础英语语篇词汇量95%的可能范围:
P = M ± t0.025*S
在本公式中,P为语篇词汇量,M为平均值,t0.025是常量,为1.96,而S指标准差。
这样可以得知,长度在 400-2000单词之间任意一基础英语语篇词汇量 95%的区间估计为:MEEC1:276.92±39.453×1.96=199-354 。 MEEC2:334.44±40.393×1.96=255-414 。 MEEC3:463.69±49.023×1.96=395-560 。 MEEC4:461.25±48.928×1.96=365-559
(二)基础英语 Hapax 的分布
每个子语料库中都有很大一部分单词只出现一次,没有在任何另外一个语篇里出现,也就是说他们的篇际词汇重复率是零。我们叫这些单词为 Hapax (篇际词汇重复率为零的词)。根据对各个子语料库中 Hapax分布的规律研究不难发现当累积token 数增加时,Hapax 所占的比例逐渐减少,但仍然占很大的一个比率。当累积token数为20000时,1-4子语料库中的Hapax的比率分别为总词汇量的42.17%,40.25%,41.63%和41.19%。当累积token数为50000时,Hapax的比率分别为总词汇量的41.58%,8.83%,42.40% 和39.22%;当累积token数为60,000时,1-4子语料库中的Hapax的比率分别为总词汇量的41.18%,38.18%,41.77%,和 39.43%; 而当累积token数为75,000时,这个比率分别是40.67%, 37.78%,41.92%
和39.14%。
表3 .Hapax 在各个子语料库中的整体分布
(三)任意两篇语篇的词汇重复率
在每个子语料库中,我们随机抽取 n/2(n=每子语料库中的样本数)对样本进行词汇比较,每个样本只被抽取一次,比较的结果如表4:
表4. 各个子语料库中任意两篇样本的词汇重复
从上表可以看出,各个子语料库中的词汇重复中数分别为: 65.59,92.31,124.80,156.99。最小重复数分别为: 325,357和104;而最大重复数为103145226及250。在上面我们提到过每个子语料库的词汇量中数分别:276.92,334.44,463.69和547.25 (见表2)在这些数据的基础上,我们就可以运用下面的公式得到每个子语料库中任意抽取的两篇语篇样本的词汇重复率。
MR: 词汇重复率。MVR: 词汇重复中数。MVS: 词汇量中数
各子语料库的词汇重复率:MEEC1: 65.59/276.92=0.23686。MEEC2:92.31/334.44=0.27601。MEEC3:124.80/ 463.69=0.26914。MEEC4:156.99/547.25=0.28687
再次利用SPSS软件,我们发现四个子语料库的重复率直方图都接近正态分布,这样,再次利用公式1, 我们就有95%的把握相信,在四个子语料库中任意抽取的两篇基础英语语篇重复的词汇数量分别为:MEEC1: 69.59±15.882×1.96=28-156。MEEC2: 92.31±17.183×1.96=58-125。MEEC3 : 124.80±28.776×1.96=68-181。MEEC4: 156.99±29.459×1.96=99-214。
从以上数据可以看出,在基础英语语料库中,任意抽取的长度为500字左右的两篇样本,它们的词汇重复大约在28-156字左右;而长度为1000字左右的两篇则大约有58-125个词汇的重复;长度为1500字左右的两篇样本,它们的词汇重复大约在68-181字左右;长度在2000字左右的两篇样本大约有99-214个字的重复。
由上可知,一个单词只有在不同的篇章内重复5-15次或者更多次才能被语言习得者长期记忆。那么,在基础英语教材中,这些重复率在5-15次及15次以上的词汇的构成又是如何呢?拿语料库2为例,我们发现一些高频词如:the, a, of, this 等的词汇重复率极高,基本在每篇文档中都有重复。如a 它在子语料库2中的重复率高达385次。另外,阿拉伯数字,人名和地名的重复率也都很高,如子语料库2中数字1有1次的重复率。相反,和医学、哲学、生化等有关的词汇有着相对较低的重复率。如在子语料库1中,如 perpendicular, pew, rajah, riposte 等词分别只有1次到2次的重复率。而在子语料库2中,如cylinder, deck, deviation, dock, scraper等词也只重复了1-3次。
基于以上对基础英语词汇量分布和篇际词汇重复率的分析不难看出,英语专业基础英语学习阶段的学习者词汇缺乏的主要原因之一是由于单词篇际词汇重复率过低。研究中我们发现,各个语料库中只出现一次的单词在累积词汇中占有很大比例。具有5-15次篇际重复的词汇则占累积词汇的很小一部分。任意两个长度相同的语篇的词汇重复率很小。这一结果对于词汇教学和专业英语教材编写具有重要的启示作用。
在自然语篇中,高比例的零重复词汇为使教材编写难度增加。如果一本教材一册有10000个单词,总词汇量大约为4800个,但是这些词汇有一半的篇际词汇重复为零,而词汇习得所需满足的重复5-15次的以上的篇际重复次数中,如果选择10为习得一个单词所需的篇际重复次数,那么在这本教材中只有约276的词汇能达到10 或10次以上的篇际重复率。据统计结果,当累积篇际单词数达到300000也就是说30篇1000单词的课文才有大约2000词汇达到10次和10次以上的篇际重复。一般的基础英语教学根本达不到这样的单词输入量。因此,只靠基础英语课教学来满足词汇重复率是不现实的。这有待专业英语教师和研究者共同努力。
除了教材的改良,教师的教学方法也对提高词汇的篇际重复率有着很大的影响,对于低频词的反复训练以达到提高篇际词汇重复率是英语专业教师的主要任务之一。
H313
A
1673-2219(2011)07-0158-04
2011-01-29
大连民族学院青年科研基金“基础英语教材语料库中的篇际词汇重复率研究”项目的阶段性成果(项目编号2009A404)。
刘英蘋(1981-),女,吉林通化人,大连民族学院外语学院讲师,硕士,研究方向为语料库语言学与翻译。
[1]Delosh E & A Mc Daniel . The role of order information in free recall: Application to the word-frequency effect [J].Journal of Experimental Psychology,1996,(22).
[2]Kachroo, J.N. Report on an Investigation in to the Teaching of Vocabulary in the First Year of English Bulletin of the Central Institute of English.[M].Oxford:Oxford University Press,1962.
[3]Nagy, W. E., Herman, P. A., & Anderson, R. C. Learning word meanings form context during normal reading[J]. American Educational Research Journal,1987,(24).
[4]Nation. P.Teaching and learning vocabulary[M].New York: Newbury house,1990.
[5]Nation, P. & Waring, R. Vocabulary size, text coverage and word lists. In N.Schmitt & M. McCarthy (Eds.), Vocabulary:description, acquisition, and pedagogy[M].Cambridge. UK: Cambridge University Press,1997.
[6]Rott, S. The effect of exposure frequency on intermediate language learners’incidental vocabulary acquisition through reading.[J].SSLA 1999,(1).
[7]Van Patten B. Input Processing and Grammar Instruction [M].New York: Ablex,1996.
[8]黄仁杰.新编科技英语分级词汇[Z].上海交通大学出版社,1987.
[9]周世界.语言统计学[M].大连海事大学出版社,2004.
(责任编校:周欣)