基于BNC和自建语料库的that从句使用对比研究
2021-07-28王茜茜
◆摘 要:That从句的使用是英语语法必不可少的分支,因此对于其正确使用方法的掌握显得尤为重要。本篇文章将比较分析BNC语料库与自建《中国日报》语料库中that从句的使用情况,从而得出中国人对于that从句的使用情况以及该从句的正确使用频率。
◆关键词:that从句;比较分析;BNC;自建语料库
众所周知,that从句在中国英语教学的过程中占有非常重要的地位。作为名词性从句,定语从句和状语从句,它广泛应用于等各种文本,比如新闻报道,CET写作、学术写作等。然而,使用太多that从句是地道的英语写作表达吗?以英语为母语的人又是怎样使用that从句呢?
在中国,《中国日报》是发行量最大、公信力最高、影响力最大的官方英文报纸。因此,通过对最具代表性的《中国日报》中that从句使用的分析,笔者认为可以直观地展示that从句在中国的使用情况。
在这篇文章中,我将比较BNC语料库和自建的《中国日报》语料库中that从句的使用情况。原因有两个方面。首先,这个从句在中文写作中出现的频率很高,而笔者对于它的正确用法却了解很少。其次,当笔者做一个英语写作的时候,发现会更频繁地使用定语从句,所以计算出that从句的分布情况有利于未来英语写作的准确性。
1方法
本文使用两个语料库:BNC、自建语料库。1995年,LowBurnard和Leech, G创立了BNC,其词汇量约为1亿,其中90%的数据是书面语言,主要来自报纸、期刊、学术书籍和小说,10%的数据是口语,主要来自正式会议和非正式对话。本文选择国家新闻作为分析对象。新闻的单词总数为668613,that的总数为6822。由于时间的限制,本文仅随机抽取其400个为分析目标,粗略计算出抽样中的单词总数约为39203。在400个目标中,that的数量是355个,所占比例约为0.95%。
其次笔者计划建立一个关于新闻报道美国的语料库。首先,进入中国日报官网:http://www.chinadaily.com.cn/。由于时间关系,笔者选择发表新闻时间区间为:2019/11/11/- 2019/11/24/。其中一个网站为:http://www.chinadaily.com.cn/a/201912/19/WS5dfblca6a310cf3e3557f486.thml。最后我们收集到70新闻文本,单词总数30177,其中that数量为317。这里我们只选择了一个被认为是超级国家之一的国家——美国作为分析对象,因为我们推测在《中国日报》报道外国新闻时,该从句的使用能更加代表中国人的使用水平。
2使用参数
AntConc3.5.8是Dr. Laurence Anthony开发的一款免费的语料库检索工具,是最新版本,操作简单,具有检索等多种功能。在本文中,我们使用AntConc3.5.8对自建语料库进行分析。本文将采用索引法来观察that从句的周围语境,采用聚类法来观察词块,采用词表法来观察频率。这篇文章选择AntConc和BNC中的频率,百分比和对数似然函数来统计数据。
3分析
需要说明的是that可以用作其他语法功能,例如可以作为指示和关系代词(Hyland, Tse, 2000)为了确保that的大小写形式都会被分析,首先要做的第一步是在BNC中将节点词设置为{that},并在AntConc中取消所有仅为小写的标准。其次,我们将文本类型设置为新闻报道,以去除不必要的数据。第三,我们将做一个筛除以保证完全没有不必要的数据。最后,为了使我们的分析有意义,我们将词簇范围大小为:min3-max5,范围:1L-3R。
4结果
从图1中可以看出,当词簇范围设置为1L至3R时,前10个单词是:the, is, adding, will, it, would,had,we,he和not。其对数似然值分别为139.54666、97.95767、80.85221、67.91757、58.12338、54.99854、46.11049、45.01602、44.25627、37.66820、35.30126、32.57448、32.37081。我们可以做一个结论:定语或名词性从句可能更广泛应用于中国日报的新闻报道.同样,在这十个单词中,两个词通常用作句子的主语:we,he。所以我们可以认为这两个词更多是用在名词性从句和定语从句。因此,从图1可以看出,中国人使用名词性从句的频率要高于其他分句。同时在新闻写作中,中国人倾向于使用“would”、“should”等虚词。
从图2中我们很容易知道,当词簇范围设置为1L至3R时,采样中的前10个单词分别是:would,should,will,was,is,had,administration,he和said。其对数似然值分别为36.2006、27.0159、26、1478、25.8604、23.9618、21.6567、21.1248、19.2315、15.2019、13.1906。在这10个单词中,我们发现了一个有趣的现象:这里有8個动词。在这8个动词中,would,should,will是情态动词,added, had, said是被动语态,was, is是同一个单词,但形式不同。因此,我们可以猜测,母语人士倾向于使用名词性从句或定语从句。从图1和图2中可以看出,两个语料库都倾向于使用名词性从句或定语从句。
我们从图1-2中做出了第一个推测。在这一步中,我们选择使用词簇来进一步分析that从句。在图3中,当词簇范围设置为min3至 Max5时,前十个短语分别是:that the US, that the law, that the provision, that the United, that the United States, that this is, that we can, that Deutsche Bank, that effectively import, that effectively import weapons。由于体裁的特殊性,关于美国的词汇更加频繁。由此我们可以推测,《中国日报》更多使用地是名词性从句或定语从句。
从表1可以看出,在两个语料库中,名词性从句的使用频率最高,其次是定语从句,最后是状语从句。由表2可知,自建语料库中定语从句的使用频率远高于样本,分别为4.8%和36&。但是,在BNC中,名词性从句的使用频率高于自建语料库,分别为89%和64%。与自建语料库相比,该样本中状语从句的使用频率较低。因此,我们可以得出这样的结论:在本土新闻报道中可以很容易地找到名词性从句,而在汉语新闻报道中更容易找到定语从句和名词性从句。两个语料库状语从句使用频率都较低。
5结论
本文旨在比较《中国日报》新闻写作与本土新闻写作中“that-clause”的使用情况。通过对并列关系的分析,我们发现,定语从句和名词性从句在中国新闻写作中使用较多,尤其是作为宾语和主语使用较多,而状语从句使用较少。这样做的原因可能是状语从句可以和其他词一起使用,比如when、while等。主语和宾语是句子中最重要的部分,所以人们总是很重视它们。然而,我们发现,定语从句的使用频率低于名词性从句。即,在本土新闻报道中,名词性从句频繁出现。
参考文献
[1]Ken Hyland,Polly Tse.Hooking the reader: a corpus study of evaluative that in abstracts[J].English for Specific Purposes,2005:123-139.
作者简介
王茜茜(1996.09—),女,汉族,四川宣汉人,硕士研究生,西南财经大学,经贸外语学院;研究方向:认知语言学、语料库语言学。