中外理科学者学术英语词块的语料库对比研究
2022-01-15娄宝翠王蜜蜜
娄宝翠 王蜜蜜
(河南师范大学 外国语学院, 河南 新乡 453007)
1.0 引言
词块是语言及其使用中高频出现的多词单位,是体现语言流利性、地道性和准确性的重要标志之一(Pawley & Syder,1983:192;Hyland,2008b:4)。不同学者从各自的理论背景、研究目的、研究方法等出发描述这种词块现象,使用的术语也不尽一致,如词块(chunks)(Sinclair,1991)、预制语块(prefabs)(Nattinger & DeCarrico,1992)、词串(lexical bundles)(Biber et al.,1999;Cortes,2004)、程式语(formulaic sequences)(Wray,2002)、词簇(clusters)(Hyland,2008a)、N元组合(n-grams)(Stubbs,2007)等。尽管使用的术语不同,但研究者普遍认为它们是便于整体储存和使用的词语序列(Weinert,1995:182),本研究采用Sinclair(1991)的术语,统称它们为词块。
作为语篇构建的基本单位,词块在语言产出尤其是学术写作中承担着重要的语篇功能,有助于塑造文本意义,彰显作者在某一语言社团中“内行人”的身份(Hyland,2008a:42)。高频出现的词汇组合形成词块,从而影响对句子即时加工方式,其高频出现表示这些词块已经成为学术话语社团中普遍使用的语言(Schmitt & Carter, 2002;王栋,2020),因此作者掌握某一领域中的特色词块,可以促进与该领域成员的有效交流。基于语料库的研究表明,在词块的结构和功能上,本族语者与非本族语学习者之间存在较大差异(Altenberg & Granger,2001;Chen & Baker,2010)。国内研究表明,我国英语学习者未能充分掌握词块,过度使用、使用不足和使用不当等倾向并存(徐昉,2011;胡元江、石海漫、季萍,2017;张会平,2020)。研究学习者,尤其是作为高级英语学习者的中国学者词块使用特征具有重要意义,而目前国内专门针对理科学者学术写作的研究较少,因此本研究通过对比中外理科期刊英文论文语料库,用数据驱动的方法提取词块,考察中国学者在期刊论文中词块使用的结构和功能特征,以期为学术英语写作与教学提供启示。
2.0 文献回顾
词块是特定语域中高频出现并分布于一定数量文本的多词序列(Biber et al.,1999:992),可作为整体储存和使用(Wray,2002:9)。Biber et al.(1999:1015-24)从结构上将学术语篇中的词块分为12类,包括介词短语+内置of短语片段、其他介词短语片段、名词短语+of短语片段、名词短语+其他后置修辞语片段、被动动词+介词短语片段、系动词be+名词短语/形容词短语片段、动词短语+that从句、(动词/形容词)+to短语片段、先行词it+动词短语/形容词短语片段、副词短语片段、代词/名词短语 +be (+…) 和其他。在此基础上,Chen & Baker(2010:34)将词块结构归纳为四大类——基于介词词组的词块、基于名词词组的词块、基于动词词组的词块和其他,每一大类包含若干小类。介词词块和名词词块包括所有的介词和名词词组;动词词块包括含有动词成分的动词词组;无法划分到以上三种类型的词块都归为“其他词块”。
目前对词块功能的划分主要存在两种分类方法。Biber et al.(2004:384-388)研究词块在大学课堂和教材中的用法时将词块分为三大类:指示、组篇和立场词块,每一类在具体语境中实现不同的功能。指示词块用于指称具体或抽象的对象,也可指称语篇本身,以标识出某对象的身份或某些属性,如in the context of, a wide range of等;组篇词块反映语篇上下文之间的关系,如on the other hand, that is due to等;立场词块表达作者对命题确定性的态度和评价,如seems to have been, it is necessary to等。Hyland(2008a:49)针对学术英语语篇,将词块分为三大类:研究型、语篇型和参与型词块,每一大类又可分为若干子类别。研究型词块帮助作者构建在真实世界中的活动和经历,即表达研究内容和结果,如in the present study, the role of the等;语篇型词块用来组织语篇,将信息或论点根据意义进行组织,如in addition to the, in the next section等;参与型词块关注文本的作者或读者,如it is possible that, as can be seen等。两种分类方法相似,只是采用的术语不同,Biberetal.(2004:384-388)的分类能够有效对比口语和笔语的语体差异,而本研究关注的是学术英语语篇,因此将采用Hyland(2008a:49)的分类方法,具体分类信息见表1。
表1 词块的功能分类 (Hyland,2008a:49)
词块的相关研究主要从体裁、学科、学习者语言等视角进行分析。研究发现:(1)词块在不同体裁中呈现出不同的使用特征(Biber et al.,1999,2004;Conrad & Biber,2005)。结构上,会话语篇倾向使用动词词块,而学术语篇倾向使用介词和名词词块;功能上,会话语篇强调人际互动,倾向使用参与型词块,而学术语篇强调信息呈现,倾向使用研究型词块。(2)词块的使用具有学科差异性,是区分不同学科学术写作的重要手段(Hyland,2008b;Kwary et al., 2017;Ren,2021;鲁莉、王敏,2015;王芙蓉、王宏俐,2015)。如Hyland(2008b)发现硬学科(如生物学和电气工程)倾向使用研究型词块来构建真实世界,而软学科(如商业和应用语言学)倾向使用语篇型词块,反映了更据评价性的论证模式。(3)词块在国际期刊论文与学习者学术英语写作中具有不同的使用特征(Cortes,2004;Hyland,2008a;徐昉,2012;潘璠,2016)。不同语言背景或语言水平的学习者使用的词块在结构和功能上呈现不同的分布特征,如Cortes(2004)发现学习者使用的词块呈现出特有的规律,部分词块并不为期刊论文作者所常用。徐昉(2012)发现学习者随着学习水平的提高,与国际期刊论文作者共同使用的词块在频数、结构和功能分布上越来越接近。
这些研究表明词块的结构和功能特性不仅与体裁和学科有关,还与使用者的语言背景或语言水平有关。目前国内词块研究主要针对学习者的议论文或英语专业学位论文,针对理科学习者学术语篇的研究较少。本研究基于课题组自建的中外理科期刊论文语料库,从结构和功能层面对中外学者使用的词块进行对比分析。
3.0 研究设计
3.1 研究问题
本研究基于中外理科期刊论文语料库,考察中外学者学术英语语篇中词块的结构和功能分布特征,旨在回答以下三个问题:
(1) 中外理科期刊英语论文中词块的结构类型及分布有何差异?
(2) 中外理科期刊英语论文中词块的功能类型及分布有何差异?
(3) 两个语料库中词块结构和功能类型之间的关联程度有何差异?
3.2 语料介绍
本研究采用课题组自建的两个学术英语语料库,包括中国理科学者期刊论文语料库 (Chinese Journal Article Corpus,以下简称CJAC_S)和国际理科学者期刊论文语料库(International Journal Article Corpus,以下简称IJAC_S)。CJAC_S选自国内出版的理科类英文期刊2006-2013年间发表的论文,收录物理、化学、生物三个学科各200篇,总库容为1,915,418词,平均每篇3,192词;IJAC_S选自高影响因子理科类国际英文期刊2006-2013年间发表的论文,收录物理、化学、生物三个学科各200篇,总库容为3,867,137词,平均每篇6,445词。所有论文只保留题目、摘要、正文,其余如作者信息、文中图表、脚注、参考文献等都删除。此外文档中出现的表格、图表和照片的复杂公式如果无法正常显示在txt中,则需分两种情况:如果公式是独立于句子和文本,则可以直接将其删除;若公式是句子成分,则用“{UNC}”进行标注。
3.3 研究步骤
本研究主要分为以下三个步骤:
(1)确定研究对象。本研究关注四词词块,原因是四词是研究最多的词块长度(Chen & Baker,2010:32),相对有更广泛的结构和功能可供分析;四词词块包含三词词块,比五词词块更普遍(Biber et al., 2004:376;Cortes,2004:401;Hyland,2008a:44)。
(2)词块提取与统计。使用WordSmith 6.0提取词块和统计频率,首先设置词块提取的标准,频率阙值(cut-off frequency)按照Hyland(2008a:47)的标准,设置为20次/百万词,为了避免提取到的词块受作者个人写作风格和文章主题的影响,词块至少在语料库10%的文本中出现。接着考察索引行所在的语境特征,人工删除词表中包含公式的词语序列,如is given by {UNC}、where {UNC} is the。最后统计词块在语料库中出现的频数。
(3)词块分类与对比分析。参照Biber et al.(1999:1015-24)和Hyland(2008a:49)的分类框架,将检索到的词块进行结构和功能分类。分类工作由课题组成员协同完成。使用Log-likelihood and Chi-square Calculator 1.0 对比频数间的差异,分析词块的结构、功能特点,及两者之间的关联。
4.0 结果与分析
我们采用语料库驱动的方法,从IJAC_S中提取出81个词块,CJAC_S中提取35个词块。表2呈现了两个语料库中的词块频数信息,中国学者使用的四词词块在种类上比国际学者少,但差异并不显著(LL=-0.464,P=0.500>0.05)。中国学者使用词块的频数显著低于国际学者(LL=-547.650,P=0.000<0.001),具有词块使用不足的倾向。这与Chen & Baker(2010)、del & Erman(2012)的发现一致,原因可能在于两个语料库库容差异较大,IJAC_S的形符总数是CJAC_S的两倍左右,库容越大,词块提取到的概率则越大。
表2 CJAC_S与IJAC_S词块频数信息
4.1 词块结构对比
表3呈现了每种结构类型的频数、对数似然率和显著性值,发现中国学者使用介词和名词词块的频数显著低于国际学者,动词词块的频数显著高于国际学者。这与潘璠(2016)基于机械领域的研究结果一致,但与徐昉(2012)基于语言学领域的研究结果不同,这可能是由学科差异造成的。根据Biber et al.(2004)的研究,动词词块更倾向于出现在口语语体(如对话、课堂教学)中,这表明我国学者还未充分意识到口语和笔语之间的语体差异,在学术写作中具有口语化的倾向。下面分别描述三类词块的结构分布特征。
表3 CJAC_S与IJAC_S词块结构频数信息
(1)介词词块
介词词块中,“介词短语+内置of短语片段”在两个语料库中都是使用频数最高的结构类型,主要用来限定条件(如in the presence of, on the basis of)、范畴(如in the context of, in the field of)等,其次用于描述研究过程(如on the surface of, at the end of)。国际学者使用的该类型词块大多在频数上显著高于中国学者,并且有些词块(如in the context of, in the form of, to/in the formation of, to the presence of, in the field of)在CJAC_S中从未出现。
中国学者过少使用“其他介词短语片段”,该结构主要用来组织语篇,如on the other hand, in contrast to the, in this paper we等。国际学者还采用其他语言形式使论文内容逻辑紧密,如in terms of the, in addition to the, in this case the, in contrast to the, to the fact that, for the first time等。
介词词块的使用可以实现结构组织、信息重组等功能,中国学者使用该结构不足侧面反映了其语篇构建能力的欠缺,在撰写过程中应注意上下文的衔接,增强文章系统性。
(2) 名词词块
语料库中的名词词块和标准化频数显示国际学者倾向使用“名词短语+of短语片段”,采用多样的表达方式来陈述研究内容、描述抽象概念等,密集呈现语篇信息,如:
例(1):There isalargenumberofhydroxyls on Si-2 on the substrate surface. (CJAC_S)
例(2):In this paper, we concentrate ontheroleofthesound velocity, which is defined as the propagating speed of the linear perturbation in the next section. (IJAC_S)
例(3):Thepropertiesofthebilayer milieu show clearly that the bilayer interface is distinct both structurally and chemically. (IJAC_S)
以上三个词块在语篇中分别被用于确定数量、说明功能和强调特性。不同于国际学者的用词丰富,中国学者仅使用a large number of用来强调数量。
这一结构是构词能力很强的短语框架,中国学者使用不足的原因可能是对名词化处理能力的不足,如:
例(4)a:However, it was found thattherewereeffectsof(< or = 1.5%) external factors (e.g. pressure and chemical form) on the decay rate. (CJAC_S)
b:Theeffectoftheion-exchange on the separation selectivity by the adsorption of gases including N2, CH4, CO2, and C2H2 and vapors of benzene and cyclohexane was first revealed in this work. (IJAC_S)
例(4)显示中国学者采用there be句型引导宾语从句,国际学者采用名词词块The effect of the作主语,将上文的信息进行“封装”(encapsulation),表述为新句中的一个元素,实现语篇的连贯性(Sinclair,1993:8)。“名词短语+of短语片段”使句子结构更加紧凑,能在等长的表述中比动词词块聚焦更多信息(Halliday,1989)。中国学者应提高名词词块使用的能力,丰富语篇信息。
(3) 动词词块
动词词块在两个语料库中的标准化频数分布说明中外学者均倾向使用被动词块汇报研究结果,这可能与理科的学科属性有关,被动结构能够体现实验研究的客观性。“被动动词+介词短语片段”、“副词短语片段”和“动词(be)+名词短语/形容词短语片段”主要用来标记图表(如is/are/as shown in fig., shown in fig. the/a, are listed in table)和呈现研究结果(如is one of the, results show that the)。中国学者使用的词块形式较为单一,频数均显著高于国际学者,存在对固定类短语词块依赖的现象。而国际学者对词块的选择和使用更丰富,如用is related to the, is based on the等表示逻辑关系。“先行词it+动词短语/形容词短语片段”和“(动词/形容词)+to短语片段”在陈述事实和发现时能够凸显出研究的客观性(如can be used to, it was found that),中国学者在使用种类和频数上均低于国际学者,在词块使用多样性上较为欠缺,如国际学者还使用was found to be, it is possible/important to等。
中国学者在学术写作中过多使用动词词块,对口笔语的语体差异认识不够充分;不能充分使用介词和名词词块,反映出对信息密集型语言结构处理能力的不足。中国学者应在学术写作中应增强对介词和名词词块的使用,丰富动词词块的结构类型,如“先行词it+动词短语/形容词短语片段”和“(动词/形容词)+to短语片段”,避免过多依赖被动结构。
4.2 词块功能对比
根据Hyland(2008a:49)提出的词块分类框架,本研究按照词块在语篇中的功能将其分为三类:语篇型、研究型和参与型词块。
表4显示,中国学者使用这三类词块的频数均显著低于国际学者。语篇型词块中,中国学者过少使用框架、过渡和结果词块,过多使用文本结构词块;研究型词块中,中国学者过少使用描述、时间/位置和过程词块,量化词块的使用与国际学者没有显著性差异;参与型词块中,中国学者过少使用立场词块,融入词块的使用与国际学者没有显著性差异。
表4 CJAC_S与IJAC_S词块功能类型频数信息
(1)语篇型词块
中外学者在语篇型词块的使用频数上差异较大,基本每项功能都存在差异,表达文本结构和框架的词块出现的频率较高。文本结构词块主要由“被动动词+介词短语片段”构成,多用来指示图表(如as shown in fig., is shown in fig.),其次用来介绍语篇结构,提示下文将要陈述的内容(如in this paper we, in this section we)。中外学者在文本结构词块的用法上是相似的,用来指示数据来源或在文本中引导读者,但中国学者的使用频数显著高于国际学者,这可能是他们对这种形式相对固定的词块的用法更有把握,因为学习者总是倾向于使用有把握的特定表达式(Granger,1998:10)。
中国学者使用框架词块的频率显著低于国际学者,该类词块大多数由“介词词组+内置of短语片段”构成,这与上文对介词词块的讨论结果一致。由表4可知,中国学者使用的该类型词块均出现在国际学者词块列表中,用来列举案例(如in the case of)、限定条件(如on the basis of, in the absence of)、描述研究(如as a function of, on the surface of)等。除此之外国际学者还用来突出关系(如in terms of the, is related to the)、表明局限性(如in the sense that)等。这说明国际学者更注重使用框架词块向读者详尽地阐述并归纳论文的前提条件(Hyland,2008b:16),通过明确限制条件将论证情景化,使论文更具有逻辑性和说服力。
国际学者使用9个过渡词块,用来表示转折(on the other hand, the other hand the)、并列(as well as the/in, in addition to the)、对比(in contrast to the, to that of the)和比较关系(is consistent with the, similar to that of)。中国学者仅使用2个过渡词块,分别为as well as the和on the other hand,表示并列和转折关系。这说明中国学者还不能够灵活使用过渡词块来衔接上下文的逻辑关系。
中外学者分别使用3个和6个结果词块,频数上中国学者使用不足。国际学者利用结果词块来解释缘由(as a result of, is due to the)、呈现研究结果或发现(was found to be, have/has been shown to, it has been shown)等。中国学者利用形式单一的词块来实现相似的功能,即as a result of, it was found that和results show that the。这说明中国学者在结果词块的使用上缺乏多样性。
(2)研究型词块
研究型词块中,国际学者主要用来描述研究对象或材料(如the structure of the, the size of the)、研究方法(如the basis of the, an important role in)、研究过程(如the effect of the, the stability of the)、重要性(如play an important role)等,凸显研究的严谨性和客观性。中国学者过少使用描述词块,且形式和功能较为单一,主要用来描述重要性(如one of the most, an important role in等)。这说明中国学者不能详尽使用词块进行描述,未能充分认识到描述研究方法等对传达硬学科研究的基础性、实验性的重要意义(Hyland,2008b:15)。
时间/位置词块在中外语料库中分别出现1个和4个,共同使用at the same time,除了标记时间,国际学者还使用at the end of, for the first time等标记研究步骤;过程词块分别出现1个和5个,共同使用can be used to,除了展现过程,国际学者还使用a function of the, the role of the强调功能,使用the formation of a/the说明研究方法。这说明中国学者使用这两类词块的语言形式和表达功能缺乏多样性。
(3)参与型词块
参与型词块中,中国学者使用立场词块的频数显著低于国际学者。该类型在中外语料库中分别出现1个和5个,共同使用the fact that the这一确定性立场标记,通过呈现事实以达到构建论点、有效论证的目的。国际学者除了突出事实事件外,还使用含possible的可能性立场标记和含clear 的确定性立场标记,如:
例(5):... However, it is possible to draw some tentative general conclusions. (IJAC_S)
例(6):... but it is clear that many, if not most, proteins cannot fold without assistance within the cell. (IJAC_S)
例(5)中,it is possible to表达作者对命题的评价,调节命题的确定程度,避免作者对所讨论的内容过于肯定而带来的风险,为命题修改留出空间(Myers,1989:14;Coates,1990:61-62);例(6)中,it is clear that 通过唤醒共有知识将读者带入一种同意作者观点的状态,在读者和作者之间建立一种默契(龙满英、许家金,2010:23)。
与国际学者相比,中国学者在学术语篇中主要客观陈述或强调显而易见的事实,较少表明立场和态度,这可能与中国的学术文化有关,即科学研究应客观严谨,个人的立场和态度被认为是不客观的表现。
4.3 词块结构类型与语篇功能的关联
词块的结构形式与语篇功能交互,每一项意义的表达都有其倾向的结构(李晶洁、卫乃兴,2013:210)。图1呈现了两个语料库中各功能类型词块的结构范畴分布,发现IJAC_S中的语篇型词块主要由介词词块构成,CJAC_S中语篇型词块由动词词块和介词词块构成;IJAC_S中的研究型词块主要由名词词块构成,CJAC_S中的研究型词块主要由介词和名词词块构成;两个语料库中的参与型词块都主要由动词词块构成。研究显示,中外学者使用不同结构类型来实现相似的语篇功能,这与潘璠(2016)的研究结果相一致。国际学者倾向使用介词词块来构建语篇,使用名词词块来描述研究。而中国学者不管是构建语篇还是描述研究,使用动词词块的频率都要高于国际学者,名词词块使用匮乏问题显著。研究表明,中国学者在恰当使用结构类型实现特定语篇功能方面还与国际学者有一定的差距。
图1 词块结构-功能范畴关联图
5.0 结论与启示
本研究从结构分布和语篇功能两个角度系统地考察中外学者在理科期刊论文中四词词块使用的异同。结果发现:(1)中国学者在四词词块的种类上与国际学者无显著差异,在频数上显著少用;(2)结构方面,中国学者对口语和笔语的语体差异意识不足,表现出对动词词块过度使用,对介词和名词词块使用不足;(3)功能方面,中国学者存在依赖惯用表达的倾向,构建语篇时多用文本结构词块,对国际学者高频使用框架词块使用不足;呈现研究时过少使用描述、时间/位置和过程词块,且语言形式不够丰富;在学术语篇中对立场词块使用不足;(4)中国学者使用的词块在结构和功能上的关联性与国际学者存在一定的差异。
本研究对于学术英语教学的启示在于:学术英语教学应加强学术词块教学,增强学生在学术写作中使用词块的意识;提高学习者的体裁意识,加强对学术英语词块的认识,在写作练习中有意识使用介词和名词词块,减少对动词词块的依赖程度;教师应提供针对不同功能的词块表达设计练习,如框架、描述和立场词块,丰富学生使用词块表达同一功能的语言形式。
本研究的局限性在于:因语料库库容有限,本研究结果可能存在一定偏差,不能全面概括中国理科学者词块使用的特征;本研究只分析了四词词块,没有对其他长度的词块进行研究。后续研究可以扩大语料库样本范围,分析其他长度词块的使用特征,如三词词块和五词词块,从而更全面深入地探讨词块在理科学术语篇中的使用规律。