中国英语专业硕士研究生学术论文中词块的使用研究
——基于语料库的对比研究
2020-02-12司园园
司园园
(西北大学 外国语学院,陕西 西安 710127)
0 引言
词块指的是在语料文本中反复出现的两词或两词以上的结构,这些结构不一定是语法和语义上的完整结构,如the basis of a。对词块的掌握程度通常被视为英语地道性的重要体现,学习者运用词块能力与学术写作水平有显著的正相关性。鉴于此,本研究基于两个自建语料库:中国英语学习者语料库与英语本族语语料库,对比分析中国英语专业硕士研究生与英语本族语作者在学术论文中的四词词块使用情况,以期对中国英语专业硕士研究生英语论文写作研究和教学提供一些启示。
1 文献综述
国外对于学术词块的研究侧重于从不同语体或学科来研究高频词块结构及语用功能,如Biber区别了程式搭配和程式序列,从结构和功能角度研究了口语和学术语体词块使用特点;[1]Cortes通过对比历史和生物学学术期刊文章发现不同领域词块结构和功能;[2]Hyland指出学术词块在不同学术领域具有差异性;[3]Christin通过建立大学英语测试语料库对比了不同学科间词块结构与功能的区别。[4]
反观国内,对于学术词块的研究还相对不足,多集中于学术文本自身特点的研究,如杨元媛总结了科技英语四词词块使用特点。[5]也有研究某一具体特征的,如王敏等研究了学术论文中立场标记词块。[6]
虽然国内外学者对学术论文中所使用的多词词块进行了多方面多角度的研究,但鲜有学者针对学术论文中多词词块使用特征进行对比研究。鉴于此,本文通过对比中国英语专业硕士研究生与本族语作者使用的高频四词词块,分析中国英语专业研究生学术论文写作中四词词块的使用与英语本族语作者的差异。
2 研究设计
2.1 研究问题
本研究运用语料库语言学的相关理论及工具,并基于Biber等提出的学术词块结构分类,对比分析中国英语专业硕士研究生学术论文和语言学国际期刊论文中的四词词块使用情况,试图探讨如下问题:
(1)两个语料库中的中四词词块是如何分布的,以及形成这样分布的原因。
(2)哪些四词词块在两个语料库中使用频率最高,这些高频四词词块在两个语料库中是否具有显著性差异,以及显著差异形成的原因。
(3) 按照结构分类的四词词块在两个语料库中的分布有何差异,以及差异形成的原因。
2.2 研究方法
本研究采用的是语料库对比分析的方法。用该方法分析学习者学术论文中词块的使用情况时,参照语料库的语料是英语本族语学习者的学术论文,还是国际英文期刊上的论文,学者界没有一致的认识。Bolton等认为,学习者英文学术论文写作应以国际英文期刊上的论文为标准。本研究将采纳他的观点。[7]
学习者语料库CEPTC由知网上随机选取的27篇外国语言学及应用语言学专业硕士研究生2016—2018年毕业论文组成,总计461 636字符;参照语料库ENJAC是由在语言学国际期刊AppliedLinguistics、AnnualReviewofAppliedLinguistics、EnglishLanguage&Linguistics和AnnualReviewofLinguistics上随机选取的49篇2016—2018年期刊文章,总计463 180字符。此外,为确保所搜集到的文本具有代表性,两个语料库中涉及到的所有论文都删除了致谢、目录、图表、参考文献等,只保留了英文题目、英文摘要和正文部分。
2.3 研究对象和研究工具
Biber等人将词块的词长限制为三词或多词的共现组合,包括三词、四词、五词等词块。[1]但是部分四词词块在结构上包含三词词块(如as a result of包含as a result),并且四词词块在学术论文中更为常用,在结构上更具代表性,因此本研究的研究对象确定为四词词块。
本研究所使用到的检索工具 AntConc 3.5.7w(Windows),其词频表功能可自动计算出两个语料库的总形符数和总类符数,而其N-grams功能可检索出两语料库中的所有四词词块。另外本研究还利用检验频数差异的Chi-Square Calculator(卡方检验)来计算两语料库共有词块使用频率的差异显著性。[8]
3 研究过程
第一步,提取本研究的目标四词词块。笔者根据词块频数每百万词出现10—40次不等,[2]以及自建语料库的实际库容大小,将目标四词词块的检索频数设定为每百万词出现30次,且同时出现在不少于5个文本中,[1]以确保所搜索到的四词词块体现语言学专业的学科特点而非硕士研究生或国际学者个人的论文写作风格。关于此提取标准,笔者需要指出,对词块的界定至今仍有争议,[9]本研究基于经验,对目标四词词块的界定以每百万词出现30次的频率为提取标准,这种界定并没有一定的统计学依据,仅是为了搜索到一定数量的高频四词词块。通过设定每百万词出现30次的频率,得到数量合理的同时又具有典型性的四词词块(许家金、许宗瑞,2007)。根据这样的标准,四词词块频数应为 30/1 000 000 * 461 636=13.85 或30/1 000 000 * 463 180=13.89,因此在使用检索工具AntConc3.5.7w(Windows)检索词块时将最低频数设置为14,文本数设置为5。分别检索出两个语料库中高频四词词块,然后手动删除在语法或语义上明显不连贯的词块,如higher than that of,statement the author is等。
第二步,在经过删选的高频四词词块中找出两个语料库共有的高频四词词块,进行卡方计算,探究中国英语专业硕士研究生对两库中共有的高频四词词块的使用情况及原因。
第三步,根据Biber等提出的学术词块结构分类标准,[1]本研究分别对两个语料库中的目标高频四词词块进行结构分类与分析,并且分析英语专业硕士研究生与国际语言学作者在学术英语四词词块使用方面存在的差异,并总结归纳英语专业研究生使用四词词块的特点。
4 结果与讨论
4.1 四词词块在两个语料库中的整体分布
基于本研究对目标四词词块所设定的检索标准,使用检索工具AntConc 3.5.7w(Windows)检索两个语料库中的高频四词词块,分别获得了两库中的高频英语四词词块,如表1和表2所示。
表1 CEPTC语料库高频四词词块
表2 ENJAC语料库高频四词词块
Biber在1999年所做的研究表明:相比于学习者,本族语者在学术写作中会使用更多的词块。但是近几年的研究结果表明:在学术论文写作中中国英语学习者比英语本族语者使用的四词词块更多。从表1可以看出,中国学习者语料库提取出的目标四词词块为87类,共2 669个;英语本族语者语料库提取出的目标四词词块共45类,共1 053个。因此可以看出,中国学习者在学术论文写作中四词词块的使用量和丰富度均超过英语本族语者,这与近几年的研究结果一致。造成这样结果的原因可能是英语专业硕士研究生作为高级英语学习者,在本科四年及研究生三年共七年的专业英语学习过程中,通过大量的阅读课程及自己的阅读经历和背诵写作经历,已经掌握了大量的英语词块。
4.2 两语料库中共有的高频四词词块的差异显著性
为了探究中国英语专业硕士研究生与英语本族语学者在学术论文写作时,对四词词块使用的差异显著度,本研究使用检验频数差异的Chi-Square Calculator(卡方检验),对两个语料库中共有的15个四词词块进行了频数差异计算,结果见表3。
表3 CEPTC语料库(Corpus1)和ENJAC(Corpus2)语料库中高频四词词块卡方检验结果
注:“+”代表“过度使用”,“-”代表“使用不足”;*=significant at P<0.05,**=significant at P<0.01,***=significant at P<0.001)。
由表3可知,这15个四词词块在显著度方面可分为有显著差异的过度使用词块、有显著差异的使用不足词块、无显著差异的过度使用词块以及无显著差异的使用不足词块四种:
(1)无显著差异的过度使用词块。
on the basis of(P=0.237>0.05)
as well as the (P=0.327>0.05)
at the end of(P=0.279>0.05)
in terms of the(P=0.094>0.05)
can be used to(P=0.360>0.05)
in the form of(P=0.111>0.05)
the end of the(P=0.991>0.05)
(2)有显著差异的过度使用词块。
on the other hand(P=0<0.001)
at the same time(P= 0.013<0.05)
on the one hand(P=0.002<0.01)
the results of the(P=0.007<0.01)
in the present study(P=0.038<0.05)
(3)无显著差异的使用不足词块。
at the beginning of(P=0.869>0.05)
(4)有显著差异的使用不足词块。
the nature of the(P=0.020<0.05)
in the context of(P=0.002<0.01)
通过对比英语本族语期刊论文语料库,中国英语专业硕士研究生学术论文语料库中有12个词块属于过度使用词块,3个词块属于使用不足词块。在过度使用的词块中有5个词块属于有显著差异的过度使用词块,在使用不足的词块中有2个词块属于有显著差异的使用不足词块。这些共有词块的使用情况说明,中国英语专业硕士研究生在学术论文中对词块有过度使用的倾向。造成这一现象的原因可能是英语专业研究生由于熟知在学术论文中大量地使用词块可以使自己的论文更完美,所以在论文写作中英语专业研究生会大量且刻意地使用词块;另一个原因可能是他们经过多年的专业英语学习,已经掌握了大量的词块。
4.3 四词词块的结构类型与对比分析
本研究根据Biber等人提出的词块结构分类标准,[1]将本研究中的目标高频四词词块分为:动词短语的词块、包含从句的词块、包含名词的词块和介词短语的词块(见表4)。
表4 CEPTC语料库和 ENJAC语料库词块结构分类对比
从表4可以看出,两库四词名词结构和介词结构比例都比较高,这也证明了Biber和Hyland的观点:学术论文大多由含有介词或者名词短语的词块构成。名词短语承担着话题引导和内容陈述的作用。根据Biber等基于大型语料库检索的研究:名词词块是学术写作的基石,代表了学术笔语文体的特征;介词短语则体现了结构组织和信息重组从而使文章系统性更强。[1,3]但是相比于本族语专家,英语专业研究生对介词结构词块的使用不足;而就名词结构四词词块的使用情况而言,英语专业研究生对名词词块的使用比例与国际语言学学者对名词结构词块使用比例都为27%。
it作形式主语的词块和被动结构词块能够突显学术论文描述的客观性。从表1和表4可以看到,英语专业研究生运用多样的it作形式主语结构词块,如使用it is obvious/necessary/difficult/likely/that/to;研究生学习者也使用多样丰富的被动结构词块如can be concluded that, can be seen that,be based on that。
从表1中看到we can see that这一四词词块频率高达60次,位列高频词块第五位。但是本族语语料库词块却没有第一人称主观性结构词块,使用的是author is not aware等第三人称的四词词块。
综上分析,中国英语专业研究生对名词词块、it作形式主语的词块和被动结构词块使用情况说明,英语专业研究生在英语写作表达中已基本把握了学术文体的特点。但是从介词词块使用不足情况来看,英语专业研究生在学术论文写作时的结构组织和信息重组能力等一些加强论文系统性的能力还相对不足,从第一人称主观性结构的误用情况来看,在学术论文写作时仍然还有口语化的特点。
5 结语
(1)我国英语专业研究生使用高频四词词块总量超过语言学国际学者。(2)在共同使用的词块中,英语专业研究生有使用过度的倾向。(3)在结构上,对包含介词短语的词块使用不足,it作形式主语的词块和被动结构词块丰富,但多属误用第一人称的主观性结构词块。
通过分析本研究的研究结果,可以得到以下启示:第一,本研究通过对比中国学习者语料库与英语本族语语料库,发现了中国英语专业硕士研究生在英语论文写作中对四词词块的使用与本族语作者有很大差距,这些发现为英语专业硕士研究生学术写作研究提供了实证依据。第二,在中国英语专业硕士研究生学术论文写作教学中,提高他们学术论文写作水平的重要标准是使用词块的数量以及质量。通过分析本研究的研究结果,发现目前要解决的不是中国英语专业硕士研究生在学术论文写作中使用高频词块的数量问题,而是质量问题,即英语专业硕士研究生在英语学术论文写作中如何恰当地使用词块的问题。要解决这一问题,英语专业硕士研究生可以查看国际语言学英文期刊论文并关注其中所使用的学术词块特征。教师们可以搜集英语专业硕士研究生论文和英语本族语作者所写论文,用所搜集到的语料自建两个语料库,并指导让学生对两个语料库中的四词词块进行对比,从而归纳出哪些是硕士研究生经常误用或使用不当的词块,哪些是不符合英语学术论文写作要求的词块。通过大量的比较阅读、记忆和运用,加强中国英语专业硕士研究生对学术论文中所用词块的熟练掌握,进而提高他们的英语学术论文写作水平。
本研究还存在一些不足的地方。比如,本研究主要采用的定量分析方法,缺乏一定的定性分析。今后可以针对中国英语专业硕士研究生学术论文中四词词块的使用情况进行更多的定性分析。