APP下载

基于BNCweb (CQP-Edition)的英语词汇深度分析
——以“commit”为例

2018-06-04王家义李德凤

外国语文 2018年6期
关键词:词项语料库语义

王家义 李德凤

(1.湖南工程学院 外国语学院,湖南 湘潭 411104;2.澳门大学 人文学院,澳门)

0 引言

词汇知识在语言学习中至关重要。已有的研究主要集中于词汇知识的广度、深度以及二者的关系上(Haastrup et al., 2000; Read,2000; Bogaards et al., 2004; Milton, 2009; Akbarian,2010 )。词汇的广度主要指语言学习者拥有词汇量的数量(Nation 2013),即词汇量的大小。词汇深度是指语言学习者在多大程度上了解一个词(Read, 1993, 2000)。二者是密切相关,不可分离的关系(Milton 2009)。研究表明,词汇知识具有复杂性和多层面性,涵盖了词汇的发音、拼写、语域、语体、形态特征(Richards 1976; Haastrup et al.,2000; Nation, 2013),以及与其他词汇一起构词的句法、语义关系,包括搭配、同义反义、上下义关系等(Chapelle, 1994; Henriksen, 1999; Read, 2000)。

国内学者对二语词汇广度的研究重点讨论了英语学习者词汇量的调查,词汇的获取与词汇量的扩大,词汇量与语言综合能力的关系等(桂诗春,1985; 喻爱菊,1991; 周大军, 文渤燕, 陈莉,李春荣,1999; 周大军, 文渤燕,2000; 邓昭春,2001; 邵华,2002)。随着二语词汇知识的理论探讨和实证研究的深入,词汇研究的重点从词汇量或词汇宽度的发展转移到对词汇深度习得的研究(刘绍龙 2001:436)。国内学者开展了一系列英语词汇深度的实证研究和量化分析(刘绍龙,2001; 濮建忠,2003; 李晓陆,2004; 吕长竑,2004; 李晓,2007; 张萍,2009)。他们的研究尝试从“深度”的层面分析二语学习者的词汇知识习得模式、发展路径和具体特征,并为词汇教学提供建议和参考。总体上这些研究更多的侧重词汇深度与语言综合能力的关系,通常以二语学习者的作文为语料进行对比分析。目前词汇深度习得的另一方面,即针对具体词汇如何开展英语词汇深度学习与教学,哪些资源可以帮助学习者开展英语词汇深度分析等问题的研究尚不多见。基于此,本研究在简要介绍BNCweb (CQP-Edition)的使用后,以“commit”为例通过具体操作从词汇深度的不同层面探讨基于BNCweb (CQP-Edition)的英语词汇深度分析方法。

1 词汇深度分析的维度

了解了一个词的音、形、义,只能说是完成了对该词的认知,而要真正掌握一个词就必须知道该词的词汇深度知识。Richards (1976)首先提出了词汇知识的七大标准,即:(1)单词的频率预测和同义联想;(2)单词使用的得体性;(3)单词的句法行为或语法特征;(4)单词的基本形式和派生形式;(5)词间联想;(6)概念意义;(7)一词多义。这七大标准实际囊括了构成个体单词知识的七个不同层面和能力(肖善香 等,2003:85)。之后, Richards (1985)又把掌握词汇知识概括为: (1)知道在口语或书面语中遇到该词的概率;(2)知道该词的句法行为;(3)知道该词与其他词构成的关联网络。

在Richards的基础上,Nation(1990)提出了词汇多维框架理论,他认为,了解一个词意味着知道它的形式(口头和书面)、位置(语法句型、搭配)、功能(频率、得体性)和意义(概念意义、联想意义)(Laufer et al., 1998:367)。

随着语料库语言学的兴起,基于语料库的词汇共选理念和工作程序被广泛应用于词汇教学与研究。在语料库研究的基础上,研究者(Sinclair et al.,1988; Willis 1990; Lewis 1993)提出了词汇大纲和词汇中心教学法的思路和设想并得到广泛认同,词项作为语言的基本单位被放在了更加突出的位置。Sinclair & Renouf (1988:148)明确指出英语教学的重点应放在:(1)语言中最常见的词形;(2)这些词形的核心用法模式(patterns of usages);(3)它们的典型组合(combinations)。

在对词汇知识构成成分的分类描述、分析词汇的意义和用法的基础上,借助语料库语言学的研究方法和技术手段,本研究认为词汇深度分析的维度应包括以下几个方面:(1)词的语域分布(口头、书面);(2)词的常见使用形式;(3)词的核心用法模式(类联结);(4)词的典型搭配;(5)词的语义倾向(语义韵)。

2 BNCweb (CQP-Edition)简介

BNC(英国国家语料库)是较早被介绍并引入国内的大型语料库(张煤,1997; 王建新,1999; 李赛红,2002)。目前该库已成为最常用、最权威的参照语料库之一,为推动语料库语言学的发展和研究做出了巨大贡献。

随着“网络语料库”(WaC,Web as Corpus)和“云计算”(cloud computing)的兴起,有学者研究开发了在线检索语料库工具,如WebCorp(A. Renouf)、Phrase in English(W. Fletcher)、BYU系统(M. Davies)、Sketch Engine(A. Kilgarriff)、BNCweb(S. Hoffmann等)和CQPweb(A. Hardie)(许家金 等,2014:10)。根据McEnery & Hardie ( 2011:37-48)对语料库分析工具的进时代划分,上述检索工具[基于浏览器—服务(B/S)模式的语料库检索工具]属于第四代语料库分析工具。基于网络的第四代语料库分析工具实现了语料库与分析工具合二为一,降低了语料库使用技术得门槛。不仅使普通用户可以像浏览网页一样轻松便捷地使用语料库,也便于语料库专业人员深入、充分地挖掘语料库资源。

基于CQP的BNCweb是语料库与分析工具合二为一的第四代语料库工具的典型代表(参见https:∥cqpweb.lancs.ac.uk/bncxmlweb/)。作为开源语料库,BNCweb (CQP-Edition)的用户界面友好、操作简便灵活,主界面见图1。BNCweb (CQP-Edition)不仅实现了语料库的在线检索,而且支持更复杂的高级检索。相比第三代语料库工具BNCweb (CQP-Edition)的用户检索响应速度更快,操作更简单,功能更全面。能实现的主要功能包括:(1)在线生成语料库的词频表(frequency list);(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency),并可以按语体、年代、性别、难度、写作题材等分别呈现查询结果;(3)计算特定词语在语料库中的典型搭配(collocation);(4)计算语料库中的核心关键词(keywords)等。BNCweb (CQP-Edition)对检索结果还可进行包括搭配计算等在内的后续操作(见表1)。

图 1:BNCweb (CQP-Edition) 语料库查询界面

New query新查询Thin查询结果随机抽样Frequency breakdown频数分解Distribution查询结果的分布展示 Sort查询结果排序设定Collocations搭配计算Download下载保存查询结果Categorise hits对检索结果手工分类标注 Save current set of hits保存检索结果

3 基于BNCweb (CQP-Edition)的“commit”分析

3.1 词频与词形

英语中一些实词(如名词、动词)等存在多种屈折形式,如TAKE就有take、takes、took、taking、taken五种屈折形式。在BNCweb (CQP-Edition)的查询界面输入“{关键词原形}”我们获得该词在BNC中的各种屈折形式。通过输入“{commit}”(下文中我们用COMMIT表示通过 “{commit}”检索commit的各种屈折形式),并在检索结果右侧New query选项框中选中Frequency breakdown按钮,点击后“commit”的各种屈折形式按使用频率和百分比从高到低分别呈现,其结果见表2。表2中,“commit”有六种词形,按频率高低分别为“committed”“commit”“committing”“commits”“commited”和“commiting”。结果中我们发现两个值得注意的情况。其一,“committed”在各种屈折形式中使用频率最高,超过了其他几种形式的总和,达到了所有词形的67.59%。在BNCweb (CQP-Edition)的查询结果中点击“committed”,语料库中4486例“committed”居中显示,在右侧New query选项框中选中并点击“Thin”(随机抽样)按钮,并把随机抽样数量定为23,得到图2结果。通过对图2的分析,我们发现,18例为be+committed,即78%为被动形式,这一结果表明,“commit”在英语中主要以被动形式出现。其二,我们通常认为“commit”的“-ed”形式和“-ing”形式为“committed”和“committing”,即双写“t”再加“-ed”和“-ing”。但在BNCweb (CQP-Edition)的查询结果中却出现了“commited”和“commiting”各3次,如:

(1)public art galleries in the area , iscommitedto showing a wide range of fine(2)Chelsea or Arse , although hecommitedhis fair share of blunders(3)down the search for a man whocommitedat least two rapes , because

语料库的研究以样本量的庞大取胜,但并不排斥少数例外情况。Sinclair特别强调,观察索引行时我们应该注重中心性(centrality)和典型性(typicality),在寻找语言规律的同时应容忍大型语料库中的少数例外情况(梁茂成 等,2010:70)。我们认为以上6例中的“commited”和“commiting”属于这种例外情况,并不影响本研究的结果。

表2 COMMIT的词频与词形

图2 committed抽样

3.2 语域分布

BNCweb(CQP-Edition)提供了关键词的在语料库中的分布情况。查询结果后续操作分项功能中,有一个Distribution按钮,点击该按钮,即可获得关键词在BNC中的6类分布情况(如图3)。包括口笔语(written, spoken),衍生文本类型(Derived text type),文本类型(Text type),文本领域(Text Domain),作者年龄(Age of Author),作者性别(Sex of Author)。

我们对COMMIT在BNC语料库中的分布情况进行了统计。COMMIT在口、笔语中的频率分别为393和6244,折算成每百万词的比例后,频率分别为37.75和71.03,表明COMMIT更常用于书面语。图4中的语域分布情况表明,COMMIT在不同语域中的出现概率依次为社会科学(Social science)、国际事务(World affairs)、信仰和思想(Belief and thought)、商业和金融(Commerce and finance)、艺术(Arts)、应用科学(Applied science)、散文(prose)、自然科学(Natural and pure sciences)。

图3 关键词在BNC语料库中的语域分布

图4 “{commit}”在BNC语料库中的的语域分布

3.3 类联结、搭配、语义韵

3.3.1 类联结

类联结是语法层面搭配关系,是比搭配更高一级的抽象(卫乃兴,2001:22)。类联结体现了有关词类或语法类别的共现关系,是关于词语组合类别的抽象表述,而搭配则是类联接的具体实现。卫乃兴(2001:22)认为一个类联接代表了一个类别的词语搭配,可称为搭配类(collocational class)。比如, V+ N就是一个类联接,表示“动词+名词”这一类的搭配关系,而“make money”“take notes”和“give birth”等都是V+ N搭配的具体实例。

图5 COMMIT抽样

本研究中,把COMMIT的索引提取后,发现commit 的各种屈折形式在BNC中的频数为6637。大型语料库提取索引行后,往往频数较多。为避免研究者淹没于数据之中,有学者如Sinclair(2003)提出,在形成自己的假设时,首先可以从少量的假设开始。Sinclair(2003)主张每次从大型语料库中抽取一屏左右的索引行(约23行)进行观察。参照Sinclair的做法,我们对索引进行了随机抽样(23行)。观察抽样,我们发现commit的类联接形式主要有以下三类:V+N(13),V+PREP(8)和V+PNX+to(2)。V+N又主要分为“commit+名词”和“commit+冠词/修饰词+名词”,如“commit crime”“commit a wonderful act”。V+PREP中的PREP主要是介词to(占88%)。

3.3.2 搭配

搭配是“在文本中实现一定的非成语意义并以一定的语法形式因循组合使用的一个词语序列,构成该序列的词语相互预期,以大于偶然的概率共现”(卫乃兴,2001:100)。通常我们可以通过观察索引行来了解关键词的搭配情况。一定跨距内的词项与关键词的共现次数是重要参考指标,但并不能完全决定关键词与其他词项的搭配是否具有显著意义。语料库语言学主要借助统计手段来确定。如计算Z值、MI值等。Z值计算需要考虑关键词的频数、搭配词的频数、跨距、关键词与搭配词共现的频数和整个语料库的容量。Z值给人一种把握,使他可以判断共现的词语间在多大程度上存在着典型搭配关系,而非偶然共现(卫乃兴 等,2005:74)。互信息值(MI)可以测量词与词的搭配强度。其意义在于表明两词共现的概率。互信息值(MI)值的大小主要取决于两个频数的比值,即搭配词与关键词共现的频数和搭配词在语料库中的总频数之比。

BNCweb(CQP-Edition)提供了计算特定词在语料库中的典型搭配的多种供选择的统计手段,如互信息(MI/mutual information)、MI3、Z-Score、对数似然率(log-likelihood)等多种测量搭配强度的方法。其操作方法为,在查询界面输入关键词获得关键词的索引行并居中显示。然后在查询结果后续操作分项功能选中collocations,点击后进入搭配参数页面,在statistics栏中可以根据自己的需要对统计手段进行选择。图6为COMMIT按照Z-score值搭配强度由高到低的搭配词。

图6 COMMIT的搭配词

COMMIT的前10位的搭配词分别为:suicide,offense,crimes,offenses,crime,atrocities,two-phase,to,arrestable,murder。这些词中名词8个,形容词和介词各1个。为了更全面分析COMMIT的搭配情况,我们把考察范围扩大到COMMIT的前50个搭配词。发现其中名词36个。按照类别主要为表示犯罪、谋杀、伤害、自杀、欺骗、通奸等,反身代词4个,分别为themselves,himself,itself,ourselves和yourself。副词6个,fully,ideologically,irrevocably, firmly,totally,deeply。形容词两个 alleged和naturalistic。介词1个,to。疑问代词1个,who。BNCweb (CQP-Edition)在提供了搭配词的同时在提供关键词和搭配词共现的频率。图6第5列显示COMMIT与to的共现频率相当高,总数达到了4523,超过了COMMIT与其他显著共现之和。因此,有必要进一步考察COMMIT to 及其右搭配词。

COMMIT to在BNC中的频率情况如表3所示,总频率为1949,按频率高低依次为committed to,commit to,committing to,commits to,commited to其中“committed to”占了绝大多数,达到了1872次,占到COMMIT to总词频的96.05%。按照之前的抽样方法,我们考察了“committed to”的23例随机抽样如图7,其中15例(65%)用于被动语态。由此可以判断COMMIT to的主要形式为“committed to”,这一结构主要用于被动语态。

图8为COMMIT to的右搭配词情况。同样的方法,我们考察了COMMIT to按Z-score值显著性搭配的前50右搭配词,结果显示COMMIT to的右搭配词主要有两种形式,均表示“致力于做某事”。其一为commit to+动名词,这类词为表示建立、维持、保持、发展、促进、提升、增加的词:maintaining,improving,achieving,supporting,ensuring,providing,establishing,retaining, bringing,introducing,developing,promoting,accepting;表示降低减少的词reducing,cutting。其二为commit to+名词,这些名词包括:监狱、庇护的词,如 prison,asylum,trial;概念、规则、原则、标准的词:concept,standards,principle, provision, rule;目标的词: aims ,goals;改革、发展、提高的词:reform,development,improvement,change,struggle;防卫、斗争、维持、保持、实施的词:defence,struggle,maintenance,implementation;观点、想法、策略的词:idea,view,strategy,scheme,社会主义,民主自由的词:democracy,peace,freedom等。

表3 {commit} to在BNC中的频率统计

图7committedto的抽样

图8 COMMIT to 的右搭配词

3.3.3 语义韵

语义韵是语料库语言学研究的重要课题。语义韵可分为积极、中性和消极三类。在消极语义韵里,关键词吸引的词项几乎都具有强烈或鲜明的消极语义特点,它们使整个语境弥漫一种浓厚的消极语义氛围。积极语义韵的情况正好相反:关键词吸引的几乎都是些具有积极语义特点的词项,由此形成一种积极语义氛围;在中性语义韵里,关键词既吸引一些消极涵义的词项,又吸引一些积极涵义或中性涵义的词项,由此形成一种错综的语义氛围。因此,中性语义韵又可称错综语义韵。绝大多数英语词的搭配行为呈现出错综语义韵现象,一些词项具有强烈的消极语义韵,另一些词项则有明显的积极语义韵(卫乃兴,2002:300)。卫乃兴(2002:300)提出了语义韵研究的一般方法即:(1)建立并参照类联接,用基于数据的方法(data-based approach)研究;(2)计算节点词的搭配词,用数据驱动的方法(data-driven approach)研究;(3)用基于数据与数据驱动相结合的折中方法研究。通过观察节点词的索引行能对节点词的语义韵特征进行分析。

通过对COMMIT搭配词和COMMIT to右搭配词的分析,我们可以归纳出commit具有的两类语义韵律特征。作为“做……”和“犯……”意思时,周边词几乎都是具有消极语义特点的词项,如“犯罪、谋杀、伤害、自杀、欺骗、通奸”等,均指生活中那些消极之事或不好的事,呈现出消极的语义韵特征。与to搭配作为“使承担义务”“致力于某事”时,周边词是表示保持维持改革发展提高的词项,或是降低费用、减轻负担的词项,整体上呈现出一种积极的语义氛围。

4 结语

长期以来,词汇教学并没有在英语教学中引起足够的重视,濮建忠(2003:438)把原因归结为以下两点,即:1)对词汇知识关键要素的认识还不够充分。2)缺乏有效的教授词汇的方法。本研究在厘清词汇知识关键要素的同时,以commit为实例介绍基于第四代语料库工具BNCweb (CQP-Edition)的词汇深度分析方法。研究表明,“committed”在该词各种屈折形式中使用频率最高,COMMIT在英语中主要以被动形式出现。COMMIT更常用于书面语。COMMIT to在不同语域中的出现概率依次为社会科学(Social science)、国际事务(World affairs)、信仰和思想(Belief and thought)、商业和金融(Commerce and finance)、艺术(Arts)、应用科学(Applied science)、散文(prose)、自然科学(Natural and pure sciences)。commit的类联接形式主要有三类:V+N,V+PREP和V+PNX+to。COMMIT的典型搭配词有:suicide, offense,crimes,offenses,crime,atrocities,two-phase,to,arrestable,murder等。该词呈现出两类完全不同的语义韵特征。作为“做…”和“犯……”时表现出消极语义韵特征。与to搭配表示“致力于某事”时,呈现出一种积极的语义韵特征。

猜你喜欢

词项语料库语义
语言与语义
《语料库翻译文体学》评介
自然种类词项二难、卡茨解决与二维框架
形式逻辑教学中需要深究并辨识的几对概念
“社会”一词的语义流动与新陈代谢
“上”与“下”语义的不对称性及其认知阐释
语料库驱动下的外语词汇教学
“吃+NP”的语义生成机制研究
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入