基于语料库的英文摘要词块结构和功能研究
2015-03-10李国敬曹雁
李国敬 曹雁
[摘要] 基于科技期刊英语摘要语料库,考察科技论文英语摘要中出现频率较高的四词词块,并对高频词块的结构和功能进行分类和分析。结果显示,摘要中的四词词块有独特的结构特点和语用功能。在结构上以介词词块和名词词块居多,动词词块和完整序列也占有相当比重。这些词块还承载了不同的语用功能,以研究类词块和语篇框架类词块为主。词块的选择体现摘要各语步不同的功能和交际目的。研究同时揭示,词块的结构和意义存在相当大的关联,将两者有效地结合起来,更有利于词块知识的学习和运用。
[关键词] 科技期刊;英文摘要;词块;语料库;结构和功能
[中图分类号]H315
[文献标识码]A
[文章编号] 1673-5595(2015)01-0080-06
一、词块及其语域性
近年来,词块在语言习得与应用中的作用受到了越来越多的重视。词块是指那些在一定语域中反复共现的三词或三词以上的多词组合。[1]894这些复现的词语组合或模式化的序列在语篇中占有很大的比例,约占口语语料库的586%、笔语的523%。[2]词块大多在结构和意义上并不完整,但语义清晰、形式规整。它既可以作为新的信息的起点,也可以在两个结构单位中作为承上启下的框架,构筑更大的语言单位。Haswell指出,反复使用这些多词组合是写作成熟的标志,缺少这些组合则是新手的特点。[3]Viviana Cortes也发现,学生在写作中极少使用一些特殊的词块,即使用到了这些词块,他们的用法也与专业作者存在差距。由此可见,词块是产生流利语言的重要成分,也是成功的英语学习的关键因素之一。[4]
词块的使用受制于语域。Ken Hyland对四个专业共计350万词的博士、硕士论文的研究发现,词块不仅对语篇的产出具有重要意义,同时可以用来区分不同语域的文本。[5]4例如as a result of,it should be noted that 和as can be seen这些词块多出自学术英语,而with regard to,in pursuance of和in accordance with等词块则主要来源于法律文本。摘要作为一种写作体裁,有其固有的写作目的和特点。考察科技论文摘要词块的使用特点,把规范有效的表达方式提供给摘要作者与编辑,可以提高英文摘要写作与编辑的准确性、地道性和流畅性。基于这一目的,笔者建立了大型的科技期刊英文摘要语料库,提取出了具有典型意义的词块,并从结构、意义和功能角度加以分析,以期发掘出有实际应用价值的词块信息。
二、研究方法
(一)语料来源
本研究采用的语料库是科技期刊英文摘要语料库(IESJAC)。语料来自国家科技图书文献中心提供的科技类国际核心期刊,具有较强的学术影响力。语料库涵盖了数学、力学、物理学、化学等12个理科学科,共5246篇摘要,全部为英语本族人所写,共计91万词。我们基于Swales的四语步模式(引言—方法—结果—结论)[6],并结合英文摘要的语篇特点,确立了包含四大语步和十几个次语步的英文摘要语步体系和标注代码。在此基础上,对其中960篇摘要约18万词的子语料库进行了人工语步划分和标注,为纵深挖掘英文摘要语言特点打下了基础。
(二)研究方法
本研究采用了Biber等人对词块的定义[1]901,即一定语域中连续共现的多词组合,集中讨论了其中四词词块的结构和功能。这是因为四词词块比五词词块更常用,而在结构上又能纳入多数三词词块。同时,四词词块呈现了清晰多样的结构特征和功能。我们将频率切分点确定为在100万词中出现10次,并至少出现在五个不同专业中。首先使用检索工具Antconc提取出频率和专业的分布符合要求的词块;然后对这些词块进行人工筛选,排除结构零碎或语义明显不连贯的词语组合,例如that a result of the,least some interaction with,terms of what is等。在此基础上根据其语法型式和意义对结构和功能加以归类。
(三)研究问题
我们主要着手解决以下几个问题:
英文摘要中有哪些常用的四词词块;
四词词块结构和功能怎样分类,有何特点;
四词词块在摘要四个语步的分布有何特点。
中国石油大学学报(社会科学版)2015年2月
第31卷第1期李国敬,等:基于语料库的英文摘要词块结构和功能研究
三、研究结果
(一)词块总体统计信息
科技期刊英语摘要语料库共产生400个四词词块,这些四词词块出现的总频率为7868次。其中,有121个词块的频率在20次以上,这121个词块的累计频率为4236次,占所有四词词块的53%。频率在100次以上的有三个词块,分别是:as a function of,in the presence of 和In this paper we。频率在60次以上的高频词块共14个,多数是介词词块。如表1所示。
这里所说的完整序列并非完整句子,是指主谓语都包含,与其他词块相比结构相对完整的词块结构。这种完整序列占所有四词词块的155%。例如We show that the, These results suggest that,This paper presents a,it is possible to,It is shown that等。这类词块只要加上必要的宾语或不定式结构,就成为结构良好的语句,是最接近句子的词块。
动词词块又按类联接分为三小类:第一类“V+N/ADV/PREP/that clause”,主要由实义动词及其宾语和修饰成分构成,如play an important role,also show that the,expressed in terms of,exists predominantly as a等;第二类“be+V-ed”,即动词的被动语态,如was found to be,can be used to,is based on the,is shown that the等;第三类“be+N/ADJ/PRON”,即系表结构,如is an element of,are consistent with the,is one of the,is likely to be等。其中,动词的被动语态使用频率最高,占所有动词词块的二分之一。这说明科技论文在描述和分析的过程中,突出强调研究对象,而有意弱化了研究者的角色。
名词词块约占四词词块的四分之一左右,主要有两种类联接:第一类“the+N+of”,这一结构中的名词数目较多,多为表示研究对象性质、状态或研究手段的抽象名词,如the end of the,the nature of the,the presence of a,the existence of a等;第二类“a(an)+N+PREP”,这种结构主要集中在role,increase,decrease,range,number等少数几个名词上,更具有形式的固定性和用法的典型性,如a wide range of,an important role in,an increase in the,a function of the等。
介词词块占四词词块的312%,所占比例最大。其中83%的词块出现在PREP+N+PREP类联接中。如in the presence of,on the basis of,with respect to the,as a function of。这些词块通常不能单独使用,而是与上下文的其他语言单位形成更完整的语义,是构建语句不可缺少的纽带。另外一类是PREP+N类联接,它们相对比较独立,通常是句际之间的承接语。例如,on the other hand,at the same time,in the present study。
除以上几种主要词块结构外,还有83%的词块虽然结构上比较零碎,但出现频率较高,语义清晰,具有很好的连接上下文的作用。如In this paper we,In this study we,of this study was等。例如:
In this paper we introduce an alternative, model independent, approach to streamflow prediction in ungauged basins based on empirical evidence of relationships between watershed structure, climate and watershed response behavior.
The objective of this study was to examine the potential for the use of variation in budbreak among half-sibling families previously evaluated for salt tolerance as a means of resistance to defoliation.
(三)四词词块的功能分类及特点
词块是语言及其使用中的一个重要单位,在语言产生、理解中发挥着重要的作用,对于其功能的研究不仅是必要的,也是必需的。①我们以Halliday的三大元功能即概念、语篇和人际为理论基础[7]45,在基本分类中参照了Ken Hyland的分类方法[5]21,将词块的语篇功能分为三类,即研究类词块(researchoriented)、语篇类词块(textoriented)和立场观点类词块(stanceoriented)。但在划分小类时,依据摘要语料库的特点做了修改,使之更能体现摘要文本的特点和功能。濮建忠认为,尽管词块的结构和功能之间不是一一对应的关系,但是两者有密切的联系,而且词块的结构相对而言更加客观。①因此,笔者在考察词块功能的同时,还兼顾了一类功能的词块所具有的典型结构,以期找到两者之间的联系。具体分类如表3所示。
1.研究类词块
这类词块具有概念功能,通常用于表达与研究有关的主题、性质、过程、结果和数量等一系列话题,又可细分为以下三类:
(1)主题、性质类词块:这类词块主要用于引出或介绍研究主题,描述研究对象的属性、品质及状态,或对研究结果加以界定。这类词块占所有四词词块的231%,典型类联接是(a/an/the)N+PREP,中心词以抽象名词为主。例如:
The origin of these joints in higher modulus carbonate concretions indicates the presence of a tensile stress produced by uniform regional extensional strain.
Our data strongly support the existence of a hadromerid that is sister to a poorly characterized group of halichondrid and agelasid species.
An increase in the individual tendency to attack prey could result in more group captures at higher hunger levels when the resident spider fails to monopolize a prey item.
(2)研究过程描述类词块:这类短语作为主体和客体或主体和具体的动作过程之间的连接短语,用以阐明研究对象之间的关系,描述及解释研究结果。在结构上通常是各类动词词块。例如:
These results are consistent with the limited published data on diet in these species, with Mesoplodon species having a relatively higher proportion of fish in the diet whereas Ziphius specialises on cephalopods.
Our data suggest that information asymmetry can play an important role in the fighting decisions made by animals.
值得注意的是,这类词块不仅与研究本身有密切联系,同时还起到了非常重要的语篇纽带的作用。许多词块一方面在阐述研究内容,另一方面,也是摘要的引言、方法、结果和结论等语步中重要的提示语,它们的使用标志着语篇从一个语步向下一个语步的过渡。从这一点来看,这类词块还具有语篇框架的功能。
(3)数量、范围、程度类词块:这类词块主要界定研究对象的数量和范围,典型类联接有PREP+(a/an/the/ADJ)+N+PREP或(a/an/the/ADJ)+N+PREP。其中最常用的词块a wide range of 共出现96次。例如:
Zostera marina distribution is circum-global and tolerates a wide range of environmental conditions.
The proposed model provides a theoretical framework to simulate the acoustical behavior of fully saturated porous media over a wide range of frequencies without making any explicit assumption about the structure of local heterogeneities.
Today, direct and integrated sensor orientation is used for a wide range of sensors including lidar and SAR, as well as for digital line scanner systems and aerial cameras.
2.语篇类词块
这类词块对应Halliday三大元功能中的语篇功能[7]47,用来表明篇际、句际及句内的关系。它们可以作为连接语将语篇、段落和语句串成连贯的整体。这类词块根据具体用途的不同又可分为以下三类:
(1)语篇框架词块:这类词块通常用在摘要各语步开头,是摘要的引言、方法、结果和结论等四个语步的指示语,用于介绍研究目的和背景、描述方法、阐明结果和结论、搭建起整篇摘要的基本框架。词块结构一般是比较完整的N+V和一些片断结构。In this paper we是这类词块中出现频率最高的词块,共103次。例如:
In this paper we will describe the meteor radar system, the data detection and collection process, and the post processing software that was developed to extract information from the meteor echoes collected with the interferometer that is part of the radar system.
It is shown that twisted impure crystals can be in equilibrium with untwisted purer ones.
Numerous measures can be used to reduce insect-borne disease risk to humans, and one approach is the use of topical repellents to prevent host-seeking arthropods from taking a blood meal.
(2)句际过渡词块:表明语句之间的逻辑关系,作为段落或句子的过渡信号或者连接句内成分,形成上下文的连贯。在结构上,介词短语占92%,还有少量的不定式短语、形容词短语及从句。例如:
On the other hand, they provide a unique, unbroken connection between remote solar and interplanetary observations.
In addition to the loss of ciliated cells and increase in mucous cells after IL-13 treatment, cells with characteristics of both ciliated and mucous cells were observed in the airway epithelium.
(3)句内连接词块:用在语句当中,表示目的、原因、方式、比较、条件等关系。这类词块在语篇中的比重比较大(23%),主要以PREP+(a,an,the)N+PREP类型的介词结构为主。例如:
In this paper, a technique is described to obtain the pixel intensity distribution of an image and its corresponding CL as a function of the detection threshold.
The Wittig reaction can also be conducted in the presence of acidic entities, such as phenols and carboxylic acids.
3.立场观点类词块
这类词块主要用于表达观点、态度或评价,具有人际功能。这类词块在摘要语料库中所占比例较小,仅占1%左右。这是由于硬科学研究重视实验数据和结果,强调研究的客观性和科学性。因此科技论文写作弱化研究者的角色,在写作中尽可能不涉及个人观点、看法。同时,摘要主要是客观描述研究目的、方法及研究结果,这就决定了在这一语域没有出现过多的观点表述类词块。
Accordingly, with as few as 100 crystals in total, it is possible to properly estimate the population densities for small size bins.
Most of this delay is due to the dead volume within the tubing between the syringe pumps and the microsystem.
We argue that this effect is likely to be most pronounced under intermediate rates of pollinator visitation.
从上述对四词词块的分析可以看出,科技论文摘要作为科技论文写作中的一类特殊语域,词块的结构和功能具有独特性。虽然结构和意义是两种不同的分类标准,但它们之间却存在着相当大的关联。一方面,相同结构的词块具有类似的功能表达;另一方面,具备一类功能的词块在结构上也有着清晰可寻的规律性。
(四)四词词块的语步分布特点
接下来笔者统计了在英文摘要的四个语步(引言、方法、结果、结论)中四词词块的分布情况,表4统计了各语步最常用的前10个四词词块,频率已按100000词库容换算成标准频率。
表4英文摘要四语步中最常用的前10个四词词块
排序引言(98034)②频率方法(30693)频率结果(46361)频率结论(9516)频率 1In this paper we31as a function of46we find that the47These results suggest that95
2In this paper the14In this paper we36it is found that39the results indicate that84
3can be used to12is based on the26It is shown that37we conclude that the84
4This paper presents a12in the context of23as a function of26an important role in65
5as well as the11as well as the20We show that the26It is shown that63
6in the context of11In this study we20are found to be17results suggest that the60
7In this study we11the ratio of the20of the order of17our results suggest that53
8as a function of10a function of the16on the basis of17the vicinity of the53
9a wide range of9In addition to the16results show that the17these results indicate that53
10in the presence of8on the basis of16the results show that17a wide range of46
通过对表4的分析可以得知,各个语步最常用的词块为语篇框架类词块,这类词块的作用主要是就下文所述内容提请读者注意,使读者产生心理预设,更清楚地把握语篇脉络。因交际目的和功能的不同,各个语步分别使用了体现本身功能的词块,例如,引言语步常用In this paper we,This paper presents a,In this study we等框架词块,表明研究目的和研究对象;而结论语步则频繁使用These results suggest that,we conclude that the,It is shown that等词块引出结论。其中,语篇框架类词块复现率较高的是结论语步,说明摘要作者更习惯于通过特殊功能的词块导出结论,而方法语步相对较少使用这类词块,通常仅出现在与引言的混合语步中。
除语篇框架词块外,各语步还使用研究类和句内连接词块,以方法语步使用频率最高,如as a function of,is based on the,in the context of,as well as the,on the basis of等,以便对研究所采用的方法细节、材料、装置、统计方法等加以说明和描述。
四、结论
本文对科技论文摘要中统计出现频率较高的四词词块进行了提取和人工筛选,并描述了这些词块的结构、功能特点和语步分布。结果显示,科技论文摘要中的四词词块有明显的结构特点和语用功能。在结构上以介词词块和名词词块居多,动词词块和完整序列也占有相当比重。这些词块承载了不同的语用功能,以研究类词块和语篇框架类词块为主。鉴于结构和功能的密切联系,笔者认为,无论是在词块研究还是在教学中都应寻找两者的契合点,并有效地将两者结合起来,才能更有利于词块知识的学习和运用。同时,词块的使用应体现各个语步不同的功能和交际目的,不了解词汇出现在哪一部分,就无法在词汇和其意义之间建立联系。当然,本研究仅仅是总结了摘要中四词词块的使用特点,而实际上,摘要中使用较多的还有数目众多的三词和五词词块,它们的典型特点是四词词块所无法包含的。因此有必要在今后的研究中将它们纳入研究视线,更加全面深入地挖掘科技论文摘要的词块特点,为摘要写作和教学提供有实用价值的信息。
注释:
① 见濮建忠《语料库方法研究词块:问题、对策及思考》, http://home.htu.cn/fl/clweek/pujz/chunks.ppt。
② 括号内数字为引言字库的实际库容,方法、结果、结论子库同。
[参考文献]
[1] Biber D, et al. Longman Grammar of Spoken and Written English [M]. London: Pearson Education, 1999.
[2] Erman B, Beatrice W. The idiom principle and the open choice principle[J]. Text,2000,20(1):2962.
[3] Haswell R. Gaining ground in college writing: Tales of development and interpretation[M]. Dallas: Southern Methodist University Press, 1991:236
[4] Cortes V. Lexical bundles in published and student disciplinary writing: examples from history and biology[J]. English for Specific Purposes, 2004(23):397423.
[5] Hyland K. As can be seen: Lexical bundles and disciplinary variation[J]. English for Specific Purposes, 2008,27(1).
[6] Swales J M. Genre analysis: English in academic and research settings[M]. Cambridge: Cambridge University Press, 1990:123154.
[7] Halliday M A K. Linguistic function and literary style: an enquiry into the language of William Goldings "The Inheritors"[C]//Seymor Chatman. Literary Style: a symposium. New York: Oxford University Press,1971.
[责任编辑:夏畅兰]