中国学者SCI论文中四词词簇结构特点研究
2018-07-13江苏师范大学姜晓艳
江苏师范大学 姜晓艳
提 要: 本研究检索自建中国学者SCI论文语料库中高频四词词簇,从类型数、总数方面分析其结构特点,且分别针对中国学者SCI四个分区与自建本族语学者SCI论文语料库进行对比研究。整体上中国学者使用最多的类型是介词、动词短语词簇;与本族语学者相比,中国学者SCI各分区高频词簇的差异集中在使用总数上,特别是在带of的名、介词短语,主、被动态动词短语以及状语从句方面差异较大。本研究可以为中国学者撰写英语学术论文提供重要的参考指导。
一、 引言
近年来,中国学者将在SCI上发表论文作为其学术科研成果的一大重要表征,各高校、科研单位也将在SCI上发表论文作为统计科研人员研究成果的重要手段,在此背景下,英语学术论文特点的研究呈现出上升趋势,“学术英语已成为专门用途英语研究领域的热点” (孙凤兰, 2015),而语言问题成为众多非英语国家学者在国际上发表论文的一大困难(徐昉,2014)。*SCI(Science Citation Index),即科学引文索引,是目前国际上公认的最具权威性的科技文献索引。
词簇,又称“词块”“词串”“多词序列”“多词单位”等,是“文本中反复出现的最高频的词语序列”(Biberetal., 1999: 989; Biberetal., 2004),是一种具有词汇与语法特征的语言结构(杨惠中, 2002),可作为整体存储和使用(Wray, 2000),从而无形中减轻了语言处理和输出的负担,使语言交际更加快捷、流利、有效(马广惠, 2009)。学术文体中一些高频词簇能够提高语言表达的地道性,彰显作者在某一语言社团的“内行人”身份(王芙蓉、王宏俐, 2015),因此,学术英语中词簇的研究已成为一大热点,而计算机技术及语料库语言学的发展为词簇的提取提供了便利以及大量的客观数据,所以本研究将以自建的英语学术论文语料库为基础,使用WordSmith Tools (Scott, 2012)检索软件,全面描述中国学者SCI论文中高频词簇的结构,发现中国学者词簇使用特征。
二、 相关研究
在学术英语语篇中,词簇的研究一直是一大热点,有诸多来自国外的研究成果,如: Biberetal. (1999)、Biberetal. (2004)分别调查了会话与学术论文中的词簇、课堂教学与教科书中的高频词簇,发现词簇使用在四个方面存在显著特征;Biber(2009)研究了口语和书面语中词簇结构的固定性,发现口语中的词簇比较固定,而书面语结构中功能词比较固定,填充的实词种类不一;Jalali & Moini (2014)对发表的医药期刊中学术论文引言部分的四词词簇做了研究,总结其结构和功能特点;此外部分学者还研究了不同学科之间词簇使用差异(Cortes, 2004; Hyland, 2008b);二语学习者与本族语者之间词簇使用差异(Chen & Baker, 2010;del & Erman, 2012);不同水平学习者词簇使用差异(Hyland, 2008a; Staplesetal., 2013; Huang, 2015),还有一些学者从本族语期刊论文中选取目标词簇,用于检测二语学习者对这些词簇的使用(Karabacak & Qin, 2013; Qin, 2014);部分学者研究了二语学者与本族语学者学术词簇使用差异,如Pérez-Llantada (2014)和Panetal. (2016)分别对比了西班牙语学者、中国学者的期刊论文与本族语学者期刊论文中的四词词簇。
然而,相比国外研究,国内研究关于学术英语中词簇的研究数目、对象及方法都远不够全面深刻。主要涉及本族语学者学术论文中词簇特点(杨元媛, 2013;王芙蓉、王宏俐, 2015);中国学习者与本族语学习者学位论文中词簇对比研究(周惠、刘永兵, 2015);中国学习者学位论文与本族语学者期刊论文中词簇对比研究(娄宝翠, 2010;徐昉, 2012;王丽、李清婷, 2014);中国学者与本族语学者英语期刊论文词簇对比研究(郑红红, 2014;孙凤兰, 2015)。这些研究发现中国学习者在学位论文写作方面过多依赖某些词簇,同时没有或过少地使用本族语者常用的词块,而且关于中国学者英语学术论文中词簇的研究所建立的语料库学科较少,容量较小,提取的高频词簇数目不足,不能全面描述中国学者英语学术论文写作的特点。因此,有必要建立较大规模的语料库对中国学者英语学术论文中的词簇结构进行研究,以揭示中国学者英语学术论文的特点,为中国学者撰写高层次的英语学术论文提供参考,为中国学习者提高学术论文写作能力提供一定的指导。
三、 研究设计
1. 语料库的建立
本研究自建了中国学者SCI论文语料库,即SCI-CH语料库,语料库的总容量约为458万字,1000 篇学术论文。所有论文全部来自中科院SCI分区表中四个分区,选取每个分区中影响因子较高的国际期刊,发表时间为2014—2015年,覆盖的学科包括数学、物理、化学、生物、工程技术、农林科学、环境科学、地学这八个学科,且每个分区中每个学科选取的论文数目一致。所有论文的第一作者均为汉语姓名且所属单位为中国大陆的高等院校或研究所,论文中的作者信息、图表、致谢、附录等其他信息全部删除,只保留正文部分。具体数据见表1。在表1中,一区的字符数相对二、三、四区较少,这是由于国内学者在一区较高影响因子的期刊中发表论文数量有限,但即便如此,也可以完全满足建立语料库对于字符数的要求。*以2015年中科院SCI索引分区表为参照。
表1. SCI-CH语料库统计信息
2. 词簇的提取
研究表明四词词簇结构往往包含三词词簇,频数远高于五词词簇,结构和功能更具变化性(Cortes, 2004; Hyland, 2008a;徐昉, 2012;杨元媛, 2013),所以本文将中国学者SCI论文中的四词词簇作为研究对象,从SCI-CH语料库中提取了前100个四词词簇,其中频率最低的出现了106次,至少覆盖了50个文本,符合高频词簇的提取惯例,此外还从四个分区中各提取出频数最大的50个四词词簇,这些词簇至少覆盖了5个文本,用于对比各分区之间的结构分布。
3. 研究问题
本研究主要回答以下问题:
(1) 在SCI-CH语料库中,四词词簇总体上呈现出什么结构特点?
(2) 在SCI-CH语料库各分区中,四词词簇分布呈现出什么结构特点,与本族语学者SCI论文相比是否存在差异?
四、 分析与讨论
Biberetal. (2004)对词簇的结构类型做了总结,分为三大类: 包含动词短语的词簇、包含小句的词簇、包含名词和介词短语的词簇。由于其所统计的词簇包括了口语词簇和书面语词簇,不完全适合本研究,所以本研究在其基础上对词簇结构重新归类,把中国学者论文中的词簇分为四大类和11个小类,即包含名词短语的词簇(带of-的名词短语、其他名词短语)、包含介词短语的词簇(带of-的介词短语、其他介词短语、比较性表达方式)、包含动词短语的词簇(含Be动词短语、主动态动词短语、被动态动词短语)和包含从句的词簇(状语从句片段、That-从句片段、Wh-从句片段),并从类型数(Types)和总数(Tokens)两个方面统计了这些词簇,使用卡方检验(Chi-square test)和对数似然检验(Log-likelihood test)来判断它们之间是否存在显著性差异。
1. SCI-CH语料库中四词词簇整体结构特点
如图1所示,在SCI-CH语料库中,高频四词词簇类型数和总数的分布一致,类型数多的词簇,总数所占比例也大,其中包含介词短语的词簇无论在类型方面还是总数方面所占比例最大,分别达到35.00%和39.43%,其次是包含动词短语的词簇,而包含名词短语的词簇所占比例最小。
图1. SCI-CH语料库中四词词簇整体结构类型
此外,包含从句的词簇类型数和总数所占比例相差不大,而包含介词短语的词簇总数所占百分比超过了类型数所占百分比,说明中国学者使用包含介词短语的词簇不仅类型多,使用也更频繁。
包含名词短语和介词短语的词簇可以看作是短语类词簇,包含动词短语和从句的词簇看作是小句类词簇(Biberetal., 2004; Panetal., 2016),图2显示中国学者在SCI论文中,类型数方面,短语类词簇所占比例少于小句类词簇,但在总数方面,短语类词簇所占比例却多于小句类词簇,这说明中国学者在论文撰写中,倾向于使用短语类词簇,但所掌握类型相对较少。
表2是SCI-CH语料库中所有结构类型的详细分布,可以看出在所有子类中,被动态动词短语的类型数和总数最多,这说明中国学者在撰写论文时十分依赖被动结构。对此,我们可以理解为在学术论文撰写中,国内学者较少使用第一人称复数We,已有研究证实学术论文中被动与we呈负相关(Millaretal., 2013),中国学者更多的将主语设定为所研究的物,努力使文章显得更客观。此外,其他三个大类中带of-结构的名词短语、带of-的介词短语、That-从句片段的使用数目较多、特征明显,对于上述的四个子类,本研究将详细分析其结构框架。
图2. SCI-CH语料库中短语类词簇与小句类词簇
表2. SCI-CH语料库中四词词簇整体结构类型
在对带of的名词短语详细观察统计后发现,the +名词+of the这种结构最多,一共有7个类型,出现了908次,其类型数在名词短语的词簇中占50%,在所有高频词簇中占7%,如表3所示,填充名词为surface, end, results, increase, formation, basis, effect;在带of的介词短语中,in the +名词+of的类型数最多,达到了7次,如表3所示,主要填充的名词为presence, case, range, absence, regulation, terms, formation;在被动态动词短语中,被动+介词结构的词簇出现了14次,占被动态动词短语的70%,在所有词簇中占14%,总数也同样较多,是中国学者英语学术论文中的典型结构,如表3所示,主要被动式为shown (4), used(3), listed, found, expressed, written, seen, based, organized,其中shown和used占了一半;在That-从句片段中,The results/studies +动词+ that结构比较典型,填充动词主要为show(4),indicate(2),suggest,其中show的频数最高。上述统计结果表明国内学者撰写学术论文的特点是采用被动结构,客观论述所做工作的方法、数据以及结论;除此之外,无论是被动结构还是That-从句片段中,使用最多的动词都是show,中国学者使用show的频率非常高,既显示了中国学者对show的偏爱,也从侧面表明中国学者缺乏与show功能相似的动词,因而用词单一。
表3. SCI-CH语料库中最常用结构框架
2. 各分区结构特点
本研究除了对中国学者SCI论文整体结构特点进行分类统计外,还对SCI-CH语料库的四个分区,也就是SCI检索论文四个分区中中国学者使用的高频四词词簇进行了统计研究,具体统计数据如表4所示。表4列出了每个分区中高频词簇的分类,以及各类词簇的类型数和总数,可以看出,各分区词簇结构分布与整体结构分布类似,使用最多的都是带of结构的介词短语和被动态动词短语。具体而言,一区和二区带of结构的介词短语类型数、总数最多,三区和四区被动态动词短语类型数、总数最多,使用最少的都是Wh-从句片段和主动态动词短语。
表4. SCI-CH语料库中四个分区高频四词词簇结构分布
续 表
除此之外,本文又从类型数和总数两方面,将四个分区的数据对比,通过卡方检验,发现各分区之间类型数方面没有显著差异,但总数方面差异显著,每两个分区之间都存在显著差异,如表5所示。由表5,我们可以得出结论,中国学者在撰写SCI论文时,各区所使用的四词词簇类型相似,但每种类型词簇的使用总数却显著不同,因而我们认为中国学者SCI各区论文特点上不尽相同,这与传统思维中SCI论文各区之间的差异仅相关于科研成果相矛盾。
3. 各分区结构与本族语差异特点
为了对SCI-CH语料库中四个分区词簇结构的分布进行更进一步的分析,本研究从类型数和总数两方面,将四个分区的数据分别与自建的本族语学者SCI论文语料库(SCI-EN语料库)进行对比,探讨中国学者各分区与本族语学者之间的差异。SCI-EN语料库的建立方法同SCI-CH语料库,各分区比例与SCI-CH语料库相似,总字符数为4 389 503。通过对数似然检验发现,与SCI-EN语料库相比,SCI-CH中各区在类型数方面差异较小,但总数方面差异显著,具体统计数据如表6所示。
表5. SCI-CH语料库中四个分区结构之间卡方检验结果
注:*表示p<0.05;**表示p<0.01
表6. SCI-CH语料库各分区与SCI-EN比较的似然对数结果
续 表
注:*表示p<0.05;**表示p<0.01;+表示过多使用,-表示过少使用
表6列出了类型数和总数方面SCI-CH语料库各分区与SCI-EN语料库的似然对数结果。在类型数方面,中国学者一区论文与本族语学者论文的差异集中于状语从句片段,明显多用了状语从句片段;二、三、四区的中国学者与本族语学者相比明显少用了带of的名词短语;使用总数方面,大部分四词词簇结构存在着过度使用的现象,或多或少地说明中国学者在论文撰写中词句尚需精炼。
在包含名词短语和介词短语的词簇中,各分区中国学者都明显少用了带of的名、介词短语,而倾向于多使用其他类型的名、介词短语。有研究表明,名词短语词簇、介词短语词簇与论文的主要信息有着很强的相关性(Panetal., 2016),所以中国学者要提高带of的名词、介词词簇的使用量,同时减少使用比较性表达方面的词簇,从而更好地表达论文所提出的观点结论。在包含动词的词簇方面,主要的显著差异集中在主动态短语和被动态短语方面,其中主动态短语使用过多,被动态短语三区、四区使用过多,一区使用过少。许多中国学者认为被动语态的大量使用是学术英语的主要特征,但近些年来,学术英语中主动语态的使用比过去更加普遍,被动语态的使用有变少趋势(肖碧丹, 2015),英语国家的许多学者都认识到过多使用被动语态会使论文枯燥难懂,所以中国学者要注意主动结构与被动结构的使用,使得论文更加直接易懂又不失客观。在包含从句的词簇方面,各分区的状语从句片段都过多使用,但that从句片段、Wh-从句片段呈现出不同的使用趋势。整体而言,和本族语学者相比,各分区中国学者要适当增加带of的名词短语、带of的介词短语,减少比较性表达,注意主动、被动态动词短语的使用。
五、 结论
本研究采用语料库研究方法,考察了中国学者在SCI检索论文中四词词簇的使用情况,并研究分析了中国学者在SCI各分区的学术论文中词簇使用情况。研究发现,整体上,中国学者学术论文中使用最多的词簇类型是介词短语的词簇,最少的是名词短语词簇;各区论文与自建的SCI-EN语料库相比类型数方面差异较小,总数方面差异十分显著;明显少用了带of的名词以及带of的介词短语,多用了比较性表达、状语从句,需注意主动语态以及被动语态的使用。
基于本文的研究数据及结论,我们认为,中国学者在日常阅读文献时,应多注意本族语学者所撰写论文中带of的名词短语和带of的介词短语的使用;在撰写论文时,应减少比较性表达方式,注重使用带of的名词短语和带of的介词短语,且需合理安排主动、被动语态,使所撰写的文章直接易懂;最后,在修改润色论文时,可以借用语料库统计软件结合本文统计数据,进行指导性的修改,使论文撰写更加地道,减少论文撰写难度,这同样也是本文后续拟进行的研究工作。