基于语料库的科技论文英文摘要中词块的语步特点研究
2020-06-08刘冰
刘 冰
(河南理工大学 外国语学院,河南 焦作 454000)
作为科研人员学术交流的重要媒介,科技论文属于学术语篇,呈现出区别于其它体裁文本的语言模式和特点,一直备受学术界关注。摘要作为科技论文的重要组成部分,是国际信息检索系统收录文献的参考样本和主要依据,是科研成果走向国际期刊和学术会议的通行证。Hyland指出,好的摘要可以使论文的潜在读者确信作者具备业内人士探讨问题的专业能力,从而吸引他们阅读整篇论文[1]。
国内早期对学术语篇英文摘要的研究,或关注中国学者期刊论文英文摘要中出现的问题,如:拼写、格式规范、句型语法等;或仅仅考察某一学科论文英文摘要的微观语言特征,如:人称代词、语态、时态、衔接手段等。从研究性质上来看,大多是个人经验型的总结;从研究规模来看,考察的摘要样本数量有限,因此不具有普遍意义。而语料库研究方法的介入将大规模样本的实证研究用于摘要语篇分析,近年来深受研究者的青睐。国内不少学者开展了相关的研究:他们或对词汇特征进行考察或考察某一类词的搭配模式和语用功能。
本文以理工科硕博学位论文的英文摘要中高频出现的词块为研究对象,采用语料库的方法系统考察其在语步层面的特征,旨在了解中国理工科科研人员撰写学术论文英文摘要的现状,为优化学术论文写作、教学和学术期刊编校人员培训提供科学依据。
一、文献综述
语步分析法最早由Swales提出,是“至今ESP领域最有影响力的语言使用分析方法”[2]。Swales认为在对学术语篇开展研究时,可将其划分为几个语步和步骤,语步指为实现某一主要交际目的而进行的界定明确的交际行为[2]。Swales研究了学术文章的引言部分,并提出了著名的“四语步”模型。随后,Santos[3]在Swales“四语步”模型的基础上对语步的界定和划分进行了修订,并针对学术论文摘要语篇提出了五语步模式:背景语步(Background,以下简称B)、目的语步(Objective,以下简称O)、方法语步(Method,以下简称M)、结果语步(Result,以下简称R)、结论-讨论语步(Conclusion-Discussion,以下简称CD),本研究即采用Santos的“五语步”模型。
词块的重要性日益受到学术界的关注,语言学家从不同的研究视角对其进行了界定[4]。Biber[5]给词块的定义为:自然语篇中高频共现的一串3词或4词序列,这些序列的共现具有统计意义上的显著性,按词块的语法结构特征可分为:N + of短语结构,N +其它限定词,介词of结构,其它介词结构,it + Adj/V 短语结构,动词过去分词+介词结构,be动词+ N/Adj 短语,V+that从句,V+ to do结构,Adv小句结构,代词+be 结构等。该分类对本研究中词块的结构分类具有很大启发,我们在此基础上按照结构形式把目标词块分为名词类、动词类、介词类、形容词类、小句类和连接词类6种。
本研究中采用的分类方法是Hyland[6]通过大型语料库的方法,将学术文章中的词块按功能分为研究导向类词块、文本导向类词块和参与者导向类词块。研究导向类词块帮助作者重构真实世界的活动和经验,包括表达地点、过程、数量、描述和话题等功能;文本导向类词块指那些有文本连接作用的词块,包括连接词、因果标记词、篇章结构词等;参与者导向类词块指作者参与或与读者进行互动的词,包括立场标记词和邀请读者参与的词。
二、研究设计
根据研究需要,自建了一个小型的理工科硕博学位论文英文摘要语料库(Corpus of English Abstracts of Science and Engineering Dissertations,以下简称CEASED),该库的语料来自中国知网资源总库——硕博士学位论文全文数据库,通过随机抽样的方式,在数学、物理、生物、地球环境学、材料科学、机械工业、信息技术、医药卫生8门学科中,抽取2010—2016年各10篇文章,一共选取560篇文章的英文摘要作为主要研究语料。在CEASED语料库中,出现的形符(Tokens)数为278 463,类符(Types)数为16 708,类符与形符比为6,标准化类符与形符比为36.09。
(一)研究工具
研究中使用的软件是Solid Converter PDF Professional,Editpad Pro,Power GREP,KfNgram和Wordsmith Tools 4.0。
(二)研究过程
第一,先导研究语料库建成后,首先从每个学科每年的语料中随机抽取1篇,组成56篇语料的先导语料库,开展先导研究,目的是为了确定理工科硕博学位论文英文摘要语篇的语步模式和目标词块。我们首先按照五语步模式,使用Editpad Pro软件对先导语料进行语步划分和标注,然后使用Power GREP软件提取各语步,并统计其出现频率,如图1所示。
图1 先导语料各语步出现频率
图1表明,在先导语料库中结果语步的出现频率最高(269次),紧随其后的是方法语步和目的语步,背景语步位列第4,而结论-讨论语步最少。通过进一步观察文本,我们发现出现上述情况的原因主要有两个,一是中国理工科学者对摘要中结果语步和结论-讨论语步有所混淆。写作中出现结论-讨论语步的缺失;二是虽然理论上来说,语步界限分明,但人工智能还无法实现对语步准确一致的自动划分,只能依靠手工划分,在人工切分的过程中仁者见仁智者见智,标准有待进一步统一。另外,在先导研究中还发现另一个问题:某一个句子可能同时承担两种语步功能。针对以上问题,制定了以下工作方案:课题组成员先对前50篇文本同时进行划分标注,有不同意见的一起讨论商定,通过这个过程,成员间基本达成了统一的标准,保证之后标注的信度;对于那些同时包含两个或更多语步的句子,根据其主句实现的语步功能进行标注。对于标注过的语料,使用KfNgram的Wordgrams Tools 4.0软件提取连续3词、4词、5词词块,表1显示的是以上3类词块在先导语料库中的分布情况。
表1 先导语料库中词块的分布情况
注:这里的类符指的是n词词块,并非普通意义上的单个单词。
如表1所示,在3类词块中,3词词块占的比例最大(82.08%),随着词块长度的增加,其在语料库中出现的频率以及所占的比例都呈下降趋势,这个规律和Altenberg[7]研究中的发现相同,即词块在语料库中的出现频率和其长度呈反比。基于这个发现,本研究主要集中在3词词块的语言特点和使用功能。
第二,标注语步信息。按照先导研究中制定的工作方案,对CEASED全库其余的语料文本进行语步信息标注。
第三,提取词块。利用KfNgram和Wordsmith Tools 4.0软件提取文本中的3词词块。软件自动提取的3词词块数量众多,且不同学科都有其专有术语表达,所提取的相当一部分3词词块仅出现在个别语篇中,因此并不是所有词块都有研究意义。胡新[8]的研究表明:摘要语篇各语步上惯用表达的频数越高,文本分布越广的词块越具有研究价值;Biber[9]和Cortes[10]的研究发现:学术英语中至少出现在5个不同文本且频数不少于40次/百万词的词块具有极其显著的研究意义。参考以上研究,采取以下标准提取目标词块:只提取那些标准频数不少于20次/百万词且至少在5个不同文本中出现的3词词块。
第四,对目标词块分类。对于步骤3中提取到的目标词块,首先,按照结构分为动词类、名词类、形容词、介词类、连接词类和小句类6种;其次,统计这些目标词块在各语步上的分布规律;最后,再根据词块在各语步中行使的功能对其进一步分类,并分析这些词块的篇章功能和使用特点。
通过以上几个步骤,本研究旨在回答以下问题:(1)理工科硕博学位论文英文摘要语篇中,最常用的是哪个语步?每个语步实现的功能是什么,有哪些常用的语言型式?(2)理工科硕博学位论文英文摘要语篇中,每个语步中高频使用的3词词块有哪些?他们是怎样为实现语步的篇章功能服务的?
三、研究结果
通过统计分析,下面详细介绍硕博学位论文英文摘要语篇的语步特点和不同语步中词块的使用特征及其篇章功能。
(一)语步特点
根据先导研究制定的工作方案,对自建语料库中的所有文本进行语步划分和标注,并统计各语步的出现频率,如表2所示。
表2 语步及相关策略分布情况
在CEASED的560篇文本中,都出现了方法语步和结果语步,说明两者是理工科硕博学位论文英文摘要语篇必不可少的内容,因为该类语篇所承担的主要功能是介绍其实验方法、研究过程并汇报研究结果,这跟理工科研究的本质密不可分。相比较而言,背景语步、目的语步和结论-讨论语步并未出现在所有语料中,这可能跟理工科学者的思维有关,他们更倾向于直截了当地说明问题,不喜欢拐弯抹角,体现在其学术写作中便是直入主题,介绍其研究设计和结果,而对于研究背景、研究目的和意义等有相当一部分理工科学者则直接省略掉。但是,根据Danica Salazar[11]的研究发现,本族语学者的学术语篇中往往会先介绍前人研究进而指出研究空白,为自己研究选题的合理性提供理据,因此背景语步是科技论文不可缺少的部分;另外,本族语学者一般在学术语篇结尾时对研究结果进行重述,重申研究的意义,并客观地说明其存在的局限性,结果—讨论语步也是必不可少的语步。
(1)背景语步。背景语步主要是为了给读者提供研究背景信息,由以下3个策略来达成:回顾先前研究、说明研究空白、聚焦研究主题。
从表2我们可以发现,绝大多数的理工科硕博士使用“聚焦研究主题”的策略使用频率为423次,而回顾先前研究和说明研究空白的策略使用频率仅分别为11次和5次。尽管“文献综述或回顾前人研究可以实现聚焦主题和说明研究空白这样的策略功能”[12],但显然中国的理工科高水平学者并没有认识到其重要性,在自己的学术写作中存在缺失现象。“说明研究空白”策略的缺失一方面是因为受中庸思想的影响,中国学者在指出他人研究存在的问题时感到难为情,另一个更重要的原因我们认为是中国学者缺乏对文献综述技巧的训练,不善于客观评析他人的研究成果。
(2)目的语步。学者主要使用目的语步来陈述研究的宗旨或者将要解决的主要问题,该语步可以通过“概述研究目的”和“陈述研究意义”两个策略来完成,如表2所示,中国理工科学者基本能认识到该语步的重要性,“陈述研究意义”和“概述研究目的”的使用频率分别为378次和167次。
(3)方法语步。方法语步主要是介绍研究设计,可以通过“描述研究对象”“聚焦研究问题”、“介绍研究工具”和“介绍研究方法”4个策略来完成。众所周知,理工科研究非常重视实验,其学术文章也因此会花大篇幅介绍其研究设计。因此,560篇语料文本无一例外都有方法语步,其出现频率仅次于结果语步而位列第二。介绍研究方法:因为CEASED全库共收录数学、物理、生物、地球环境学、材料科学、机械工业、信息技术、医药卫生8个学科,每个学科都有自己特有的研究理论和方法,很少有交集,所以并没有出现复现率很高的语言型式。但由于研究方法在理工科科研中的重要性,学者还是会用较大量的篇幅来着重介绍其研究方法,这也就是为什么该策略的出现频率在方法语步中最多(高达86.1%的比例)。
(4)结果语步。学术文章的主要目的是在学术圈公布学者的研究发现,与同行交流研究结果,因此学者会花大量的篇幅来介绍研究结果(出现频率为2 312次,高居第1位)。
(5)结论-讨论语步。结论-讨论语步是用来总结概述整个研究,或通过评价自身研究(重述研究意义和说明研究的局限性)对今后研究提出建议。正如先导研究中的发现一样,中国理工科学者并没有认识到结论-讨论语步的重要性,并不是所有语料文本中使用了该语步(560篇语料中有346篇包含结论-讨论语步)。主要是因为中国学者对英语学术语篇的写作惯例和规范缺乏了解,因此亟待提高他们对该类语篇的文体认识。
(二)词块特点
利用KfNgram和Wordsmith Tools 4.0软件提取了CEASED中的3词词块,根据“频数”(标准频数不少于20次/百万词,也就是原始频数不少于5次)和“分散”(至少在5个不同文本中出现)两个原则,最终得到以下目标词块,如表3所示。
表3 CEASED目标词块
续表3 CEASED目标词块
第一,总体特征。在提取到的59个词块中,绝大多数为名词类词块(37.3%)和动词类词块(25.4%),这符合英语的造句习惯,因为英语句子的构成主要是名词和动词这些有实际意义的词块。另外,名词类词块以37.3%的比例位居第1,验证了前人的研究发现,学术语篇本质上是以名词为中心的。这些名词类词块主要用来表达数量(如:the number of; the amount of等),存在(the presence of; the absence of等);活动过程(the accumulation of; an increase of; a change in; a reduction in等);结果(the effect of; the levels of等);比例(a percentage of等)。动词类词块占25.4%,虽少于名词类词块,但是承担着构建句子结构的重任。这类词块大多数用于被动结构(was/were carried out; was/were used to; was/were found in; be obtained from等),进一步观察语料,我们发现它们主要用来描述实验设计和实验过程。被动语态词块高频出现的另外一个原因或许跟长久以来学者对学术英语写作的误解有关:尽量避免人称代词做主语,而是大量“物化名词+被动语态”的句式,以此来显示研究的客观性。Verdaguer等[13]的研究发现鉴于理工科研究多以实证实验为主,本族语学者多用被动语态来客观描述实验过程,但是在汇报研究结果时却更倾向于使用“人称代词we+动词”的结构来描述研究发现。
在本族语学者的学术语篇中,会同时使用被动语态和主动语态两种句式,被动语态用来客观描述实验方法以此获得研究的公正性,主动语态“we+动词”的结构则被用来报告研究成果和结论等,以显示作者的参与性和对研究成果的贡献。中国学者和本族语学者在该类词块上的使用差异表明,中国的学者对英语学术语篇特点把握的偏差。
第二,各语步上的词块结构特征。背景语步上,仅出现了4个目标词块(the present study; the number of; an increase in; the fact that),这从侧面印证了我们之前的发现,中国学者对英语摘要语篇的写作惯例和规范缺乏了解,有相当一部分学者的摘要语篇中出现了背景语步的缺失。
目的语步上,高频出现的目标词块有连接词类词块(in order to)、名词类词块(the present study; the effect of)以及介词类词块(in this study; in this work)。进一步观察语料,我们发现in order to多在语篇中用于表达目的,这与本语步的功能不谋而合。但该词块存在过度使用情况,说明中国学者的词汇相对贫乏,在写作时仅使用常用的词汇或表达,缺乏多样化,而本族语学者则会用多种表达避免重复使用,如:for the purpose of, aim at等。名词词块the effect of的高频使用则是中国学者的误用,由于英语水平的局限,很多理工科学者在写英文摘要时往往采取汉语直译或在线机器翻译,名词词块the effect of就是一个例子,被他们用来表达“达到某种效果”的意思。名词词块the present study以及介词类词块in this study和in this work主要是为了引出作者做的现有研究。
方法语步上,高频出现的词块主要是被动语态词块、名词“the…of”结构以及介词词块in the upper, at the surface和by means of。被动语态词块的高频使用完全在我们的预料之中,因为方法语步主要是用来介绍研究设计,作者在介绍研究对象、研究方法、研究工具和研究过程时,不可避免地要使用被动语态表达(was/were carried out, was/were used to, was/were detected by, be collected from, could be observed等)。被动语态主要是为了强调主语的物化,这也就是名词“the…of”结构高频出现在该语步的原因。介词词块in the upper和at the surface主要是用来介绍研究过程中的方位信息,而by means of则主要是在介绍研究工具时使用,这都与方法语步所要实现的功能紧密相关。除了我们提取的目标词块外,方法语步高频出现的词块还有一些组名(如the control group)和分组信息,这是因为理工科学者往往在方法语步上详细介绍其实验开展的具体实施,分组便是其中最重要的一个方面。
目标词块的所有种类都出现在结果语步上,很大程度上跟该语步在摘要语篇中所占的比例有关,因其篇幅更长,词块的覆盖率也更高。具体来看,结果语步上,高频出现的名词类词块主要有表达存在的(the presence of; the absence of; the case of等),用来报告研究中出现的某些主体对结果所产生的影响;表达活动过程的(the accumulation of; an increase of; a change in等)和表达结果的(the effect of; the levels of),用来报告研究所产生的变化和影响。高频出现的动词词块主要有“we +动词”结构(we conclude that;we propose that),虽然数量并不多,但能用到这些词块的学者很显然受本族语学者写作习惯的影响,已经开始尝试学习这种规范;词块results suggest that主要跟结果语步所承担的篇章功能(汇报研究结果)有关 。该语步上,还有一类词块的高频出现令我们着实吃惊:表示比较或对比意义的词块(significantly different from; in contrast to; as compared with)和表示联系意义的词块(in relation to; with respect to; in response to; in agreement with),这两类词块或是在报告结果时用以和研究前测做对比以显示现有研究的作用,或是通过客观地对比几组数据来说明研究结果,又或是报告对先前研究的传承和创新。
结论-讨论语步上,因中国学者缺乏对该语步重要性的认识,往往有该语步缺失的现象,所以出现在该语步上的目标词块非常少,主要有动词词块(we conclude that; results suggest that; may contribute to),前两个是用以简明总结整个研究发现,词块may contribute to则是在讨论部分点明现有研究的价值和重要性。
第三,各语步上的词块功能特征。根据Hyland的语篇元功能分类方法,我们对提取到的目标词块进行了统计,具体情况如图2所示。
图2 目标词块功能分类数量
由图2可知,研究导向类词块占62.7%,文本导向类词块占22%,参与者导向类词块仅占15.3%。研究导向类词块多为“the/a + N + Prep”,动词被动结构和介词类词块。
由于理工科实证性的硬科学研究特点,研究导向类词块的大量使用有助于传递自然规律、实验数据的客观性和精确性,这也是为什么该类词块数量上远远高于其它两类词块的原因。另外,如图3所示,由于摘要语篇篇幅的限制,理工科研究者描述其研究设计和展示研究结果是该语篇所要传达的主要信息,所以在方法语步和结果语步上大量使用了研究导向类词块。
图3 目标词块在各语步的分类
文本导向类词块主要在语篇中起到上下连贯的作用,是衔接语篇的重要组织手段,如:
It is known that abioticaswellasbiotic factors affect the survival...
Inordertoobtain a reliable result, 3 experiments were carried out...
这类词块的使用数量并不多,说明中国学者对学术语篇的组织意识还不是很强,没有充分认识到语篇衔接和连贯在衡量学术语篇优劣方面的重要意义。进一步观察这类词块,我们发现高频出现的多为简单常用的词块,如:as well as, as seen in; in order to; as compared with,高级词块较少,说明中国学者的英语知识较贫乏,词汇多样性不够,因此今后需要进一步提高词块的构建能力。
参与者导向类词块主要被用来建构作者-读者的互动关系,作者或通过评价和模糊限制语等策略来表达自己立场,或通过一些互动词块来说服读者并引导读者参与其中。先前研究表明,对于非母语学者来说,在学术文章中表达立场和评价无论在语言层面还是文化层面都是非常有挑战性的[14],这也是为什么参与者导向类词块在三类词块中的使用比例最低,而且只在结果语步上的出现频率最高。进一步观察语料,我们发现,作者在结果语步上多采用模糊限制语的策略来避免对结果重要性和结论必要性判断的绝对化,出现这种现象的原因主要跟中国学者长期受谦虚谨慎的文化熏陶有关。
四、结 语
根据先导研究制定的语步划分和词块识别提取方案,对自建的语料库CEASED中的语料进行语步标注,并使用软件提取文本中的3词目标词块。研究发现科技论文的英文摘要语篇中方法语步和结果语步的出现频率最高,由于中国学者对英语学术语篇的写作惯例和规范缺乏了解,以及文化背景因素的制约,背景和结论语步存在相当严重的缺失现象,而且为了行使不同的语篇功能,各语步有其典型的词块结构型式。另外,各类词块在不同语步上分布并不均匀,按结构分类来说,目的语步上,高频出现的目标词块有连接词类词块、名词词块以及介词类词块;方法语步上,高频出现的词块主要是动词被动语态词块、名词“the…of”结构以及介词词块;结果语步的词块覆盖率最高,但使用最多的词块是名词类词块,用来报告研究所产生的变化和影响。按功能分类来说,研究导向类词块的使用最为频繁,主要出现在方法语步和结果语步,用来描述其研究设计和展示研究结果;文本导向类词块主要出现在目的语步和结果语步;但受文化和语言因素的限制,参与者导向类词块在三类词块中的使用比例最低,大部分出现在结果语步上。
本研究仅考察了科技论文具有代表性的一种——硕博学位论文英文摘要语篇中的3词词块,虽然3词词块有很强的代表性,但摘要语篇中还存在相当数量的4词词块和5词词块,他们在摘要语篇中的功能也是不容忽视的,因此今后的研究中有必要将这些词块都纳入研究范围,以更全面更深入地挖掘科技论文摘要的词块特点,为英文摘要写作和教学提供有实用价值的信息。