APP下载

网络语料库索引行信息在外语教学中的应用

2010-04-26赵晓临东华大学外语学院上海201620

图书馆理论与实践 2010年6期
关键词:语料库检索语义

●赵晓临(东华大学 外语学院,上海 201620)

20世纪80年代John Sinclair在英国伯明翰大学创建英语语料库(Bank of English,以下简称BoE),开创了具有革命性的由语料库数据驱动编撰词典的时代。30年后的今天,除了词典编撰外,语料库语言学研究在其他领域也硕果累累,如语料库数据驱动研究英语本族语者的语言特征、基于语料库探讨外语学习者的中介语特征、建立平行语料库进行双语对比研究等等。基于大数据的语料库语言学研究成果揭示出许多已有语言学理论中未提及的真实语言的使用特征,如词汇搭配的语义特征、语言使用的短语学特征,[1]等等。今天“语料库语言学”这一术语似乎家喻户晓,然而令人遗憾的是,该领域的许多研究成果并没有被充分理解,许多重要发现和最新进展没有应用到语言教学中。近年来中英文在线语料库不断涌现,它们为外语教师提供了丰富的真实文本语料,充分利用在线语料库资源值得外语教学界研究。本文将探讨外语教师如何提取网络语料库数据,如何分析数据并将结果用于课堂教学。本文讨论的语料库数据主要来源于克林斯在线英语索引行抽样语料库(Corpus Concordance Sampler,以下简称CCS),英国伯明翰大学由远程登录的BoE,以及北京大学汉语语言学研究中心的网络汉语语料库(以下简称CCL)。

1 索引行信息与外语课堂教学

在语言研究的核心问题上,Sinclair[2]提出的语料库语言学与Chomsky的转换生成语言学和Halliday的功能语言学有着很大不同。Chomsky转换生成语法的哲学基础是二元论,他将语言分为语言系统(compe tence) 和语言应用(performance),仅关注语言系统的研究;Halliday功能语法的哲学基础是一元论,他认为语言具有社会性,因而语言研究的对象应该是在社会语境中实际使用的语言。虽然二者研究语言的哲学基础不同,但他们研究的语言关系却是相同的,即语言的聚合关系,譬如Chomsky树形图中可作为NP的成分,如we,they,I等之间存在聚合(paradigmatic)关系,Halliday的主位结构理论中可充当主位或述位的成分之间也存在聚合关系。而以Sinclair为代表的语料库语言学家聚焦于真实语言,他们的研究基于大量的真实数据,以复现的语言形式、意义及其内在规律为研究内容,归纳、概括和描述形式选择和意义实现的机制。[3]语料库语言学家重视语言的组合(syntagmatic) 关系,认为一个词的意义存在于它的结伴关系中。[4]他们认为,语言的组合关系更能反映真实语言中各成分之间的关系;同时,语言的组合关系又体现了形式与意义一体的语言内在机制。为说明问题,我们在CCS语料库中检索了GET v-ed(动词过去分词)型式,可以看到40行随机索引行。由于版面有限,我们在表1中仅列出10行随机索引行。

表1 CCS语料库中GET v-ed的随机索引行

索引行信息可以为教师提供课堂教学使用的真实文本资料。首先,教师可以根据讲课需要自行检索词或型式(pattern)。索引行是以某个词或某个型式为对象的检索结果,如表1是对GET v-ed型式的索引行检索结果,它提供检索对象的组合关系信息,即动词GET与动词过去分词搭配词的搭配信息。其次,教师可以将索引行结果直接用于课堂教学,也可以将结果作为学生自主学习的材料,由他们总结GET v-ed的语用特征。我们下面将深入探讨外语教师如何将表1所示的索引行检索结果用于课堂教学,启发学生掌握语言的组合关系。

2 索引行信息与词汇意义研究

近年来基于大数量真实数据分析的语料库语言学研究成果证实,自然语言中存在大量重复使用的词汇搭配。研究表明,大多数日常词汇没有独立的意义,它们形成的多词型式(multi-word patterns) 构成了文本的重要组成部分。[2]108一方面,词汇和其搭配词之间相互依赖,所以在本族语使用的语言中,某些词高频共现,极端例子如kith,它只出现在短语kithand kin中。另一方面,更为重要的是,词汇搭配与意义密切联系,词的意义因其高频共现的搭配词不同有所差异,而与某个词高频共现的搭配词往往形成一定的语义趋向(semantic preference),从而具有一定的语义韵(semantic prosody)。Sinclair[5]将搭配 (collocation)、类连接(colligation)、语义趋向、语义韵及其之间的相互关联性称为扩展意义单位(extended unitofmeaning)。Sinclair的研究方法是从语料库数据出发,根据上述几个方面归纳总结出词或型式的意义。我们仍然以GET v-ed的随机索引行信息为例分析。对GET v-ed的40行索引行数据分析时,教师可以引导学生按以下步骤归纳该型式的意义。首先,整理语料库数据。去除含有非动词过去分词搭配词的索引行,如gotused to和got printedmenus共3行索引行。其次,分析GET的动词过去分词搭配词的语义特征。GET的37个动词过去分词搭配词中有15个具有明显的消极语义特征,如 kicked,teased,bored,fired,fedup,disappointed, blocked, caught, wound, hurt, sidetracke d,frustrated,forced,roped,这些词占搭配词总数的40.5%;GET的动词过去分词搭配词中仅有excited一个具有明显积极语义特征,占搭配词总数的2.7%;其余21个动词过去分词搭配词本身虽然无明显语义特征,但是观察它们的语境意义却发现,除了包含getstarted和getmarried的共计4个索引行外,其它17个索引行中GET v-ed都含有主语被动行事的意义,这类动词过去分词搭配词约占搭配词总数的50%,如“…youwere going to blow him up when you gotcoked to the gills on you heroin!”。再次,我们在BoE中检索上述GETv-ed型式,可以按照频数及互信息值MI分别检索,用以检验CCS的检索结果。按照频数提取的搭配词,频数越高,说明它与GET共现的次数越多;MI值则提供两个词之间搭配力强弱的信息。MI为正值,说明二词之间存在相互吸引。MI值越大,二词共现的概率越高,故搭配力越强;反之,MI值越小,搭配力越弱。虽然按照MI值提取的搭配词可能包含语料库中词频很低的词,但是它是反映短语中二词间联系的紧密程度的有用指标。结果发现在BoE中共有12313索引行,频数值和互信息值排在前20位的动词过去分词搭配词检索结果如表2所示。

表2 BoE中GET的右1动词过去分词搭配词

按照对表1索引行信息的处理方法分析表2数据,表2中的频数和MI值数据说明,GET与具有消极语义特征和中性语义特征的动词过去分词搭配力非常强。观察其语境意义也表明,GET v-ed具有消极和中性语义特征。

综上所述,词的意义不仅指传统上的“词典意义”,还应当包括与该词有着组合关系的搭配词的意义,以及搭配词所产生的语义趋向和语义韵,或语义特征,即积极、消极或中性语义特征。语料库语言学强调观察的重要性,它以词汇为研究的出发点,探讨词汇为中心的词汇—语法(lexico-grammar),探讨词汇与语法的组合,以及词汇—语法与意义和功能的密切关系。对于中国学习者而言,词汇知识是他们学习的基础,也是他们使用英语的难点。中国学习者往往以为掌握了英语词汇,但是在与其他词搭配使用时却常常与英语本族语者的用法相去甚远。中国学习者需要更多地了解英语本族语者的高频搭配信息,网络语料库索引行检索在今天的英语教学中可以发挥重要作用。

3 索引行信息与英汉词汇意义对比研究

对中国学习者而言,词汇之间的搭配使用是英语学习的难点之一。由于所蕴含的文化背景知识不同,英文和中文之间存在很大的语义趋向上的差异,这一点也给外语教师的课堂教学带来了困难。英汉语料库的索引行信息对比,可以为外语教学提供大量语言差异方面的信息。譬如教师可以提取同义词或短语的索引行,分析搭配词的语义特征为学生讲解意义差异。我们下面以英语同义词completely和utterly为例分析索引行数据如何应用于课堂教学。在CCS语料库中分别检索与上述两个副词与形容词搭配的索引行,completely的形容词搭配词有:new,free,different,foreign,true,automatic,pleasurable,separate,harmless,unconscious,unresponsive等,搭配词中既有褒义词,也有贬义词和中性词;utterly的形容词搭配词中绝大部分具有消极语义特征,如inexcusable,ridiculous,impossible, bare, unfamiliar,miserable, wrong, ruthless等。因此,尽管completely和utterly都对应中文“完全地”,但两词的形容词搭配词却反映出它们具有不同的语义特征。utterly吸引具有消极语义特征的词汇,所以它高频与贬义词搭配使用;而completely与积极、消极和中性语义特征的词都可搭配使用,语境意义相对复杂。

如何用英文表达中文的“问题”也常常给中国学习者带来问题。我们在CCL中检索“问题”,可以得到表3所示的索引行。

《九章算术》中。在第八章“方程”中,第一个方程,得到的未知数值称为方程的解。许多实际最高幂数,称为方程的幂次。在用方程解决实际纪,中国的《张丘建算经》中有一道著名的百鸡他让两个资格、职位相同的候选人解答下面这个着人类社会实践活动的增加,需要研究各种运动们同时从两地起飞,几天后相遇?这个有趣的我们的祖先是用比例方法解决这个问题问题问题问题问题问题问题问题是计算粮食问题:“今有上禾三秉,中禾都可以归结为解方程问题,这使得方程用时,首要的是设未知数,然后根据条件列:“百元买鸡百只,小鸡1元3只,母鸡3,谁先答出就提拔谁。——“有人在林中散,即对运动物体的数量关系进行刻划,这就出自中国古代数学名著《九章算术》,书的,他们充分认识了比、分数、除数的相

中文的“问题”和英语的“problem”对等吗?我们在BoE中检索了“problem”,结果如表4所示。

观察表3中“问题”和表4中“problem”的语境不难看出,中文的“问题”比英文中的“problem”语义宽泛,中文的“问题”可以意同英文的“problem”,指“困难之事”,也可以指话题或议题,即意同英文的“topic”或“issue”。所以,作为如何表达中文“问题”的课堂材料,教师应当检索至少上述3个单词的索引行,并比较这些索引行中检索词的搭配词及其使用语境,使学生对它们的语义特征的差异有更加深刻的认识。

obvious.Ministersacknowledged the them?Whatdo ITHINKcaused the in theGulfhad complicated the whichhavenotyetencountered the theselectcommitteehasexposed the solving;wehaveidentified the They thoughttheyhadsolved the to6x4 inch.Sofar I’vesolved the problem problem problem problem problem problem problem problem sevenmonthslater,when full[P][P][h]Whatdo Ithink can.Hesaidhiscountry,whichisdue should commenceimmediate.Now itisup totheGovernmentto;weknowhow theproblemcanbe,butIwanted toshow them the byhavingselectivelycropped

4 结语

作为经验主义学派,语料库语言学探讨实际生活中真实的语言。语料库不仅为外语教师提供课堂教学素材,也为中国学习者自主学习提供参考。利用网络语料库的索引行信息,一方面,外语教师可以引导学生归纳检索词或型式的常用搭配,讨论搭配词的语义特征,从而更好地理解检索对象的意义及其用法;另一方面,外语教师也可以引导学生对比英语索引行和中文索引行的差异,总结中英文用词乃至谋篇方略的异同。总而言之,如果外语教师更多地将本族语者的真实语料引入课堂教学,必将对中国学习者习得并表达自然、贴切的语言起到很好的作用。

[1]赵晓临,殷耀.语料库研究的课堂教学价值——评《从语料库岛课堂:语言使用和语言教学》[J]. 外语界,2009(3):88-92.

[2] Sinclair J.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.

[3]卫乃兴.John Sinclair的语言学遗产——其思想与方法评述 [J].外国语,2007 (4):14-19.

[4] Firth JR.Papers in Linguistics 1934—1951[M].London:Oxford University Press,1957.

[5] Sinclair J.Trustthe text:Language,Corpusand Discourse[M].London:Routledge,2004.

猜你喜欢

语料库检索语义
语言与语义
《语料库翻译文体学》评介
“上”与“下”语义的不对称性及其认知阐释
专利检索中“语义”的表现
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
语义分析与汉俄副名组合
国际标准检索
国际标准检索