APP下载

基于语料库的同形词名动词性使用频率

2014-03-06丁婵婵

关键词:倾向性频数语料库

丁婵婵

(河北联合大学外国语学院,河北唐山 063009)

同形词在英语中被广泛使用,其中最为常见的名动两种词性更为活跃。然而对于同形词词性选择上,给英语学习者带来了很大的困扰。自改革开放以来,英语学习在中国普及,英语学习者人数骤增,同时同形词词性选择问题显著,对于同形词的研究也倍受关注。

同形词系指拼法一模一样的词,根据一般词典的处理,同形词约占总词汇(收词十万左右的词典的总词汇)的5%,可见同形词数目是一个不小的数目,而且绝大多数英语同形词都属于常用词,所以同形词作为各英语中常见的词类,它的词性使用选择在应用英语中就显得尤为重要,可以集中反映我们对英语的掌握程度。本文通过研究名动同形词的使用频率,总结名动同形词使用频率的发展规律,结合当代中国政府报告中名动同形词使用现状,指出名动同形词词性选择的不当之处,对其今后名动同形词词性选择提出建议,同时也为英语学习者对于名动同形词的选择应用提供依据。同形词中同形词词性通常有几种,为了研究的准确性本文重点研究同形词名动词性使用频率,为了是数据更加具体,本文选取了CLEC词频表前150个词中出现的八个同形词(王建新,2005)进行具体定性定量研究,这八个词分别为:can,will,water,work,study,fake,waste,use。在本文中主要研究这八个词的名动两种词性。

一、研究现状

由于同形词名动词性较为活跃,因此对于同形词名动词性的选择也就成为了中国英语学习者的一个较大的困难,因而成为同形词词性使用频率的研究切入点。20世纪60年代以来,对于同形词的研究日益增多,1961年,徐明在《同音词同形词同义词》中对英语的同形词进行了细致的分类。1966年,刘光第在《英语同形词小议》中指出了同形词在英语语言学习中的地位,对不同类同形词进行了初步研究分析。2000年张君红在《工程英语名动同形词分类及用法对比》中具体地将工程英语名动同形词进行了分类并进行了用法对比。2009年,刘婷婷在《汉英语言中反义同形词研究》中对汉英反义同形词的三种关系分别进行比较分析,揭示了两种语言在发展与进程中的一些共性与不同。但总的来说,研究者们并没有深入研究同形词名动词性使用频率的特点。

二、研究方法

本文采用语料库的研究方法,主要应用的语料库为通用语料库:BNC(英国国家语料库)和CLEC (Corpora of Chinese Learners of English)中国英语学习者语料库.

在本文中主要研究八个词的名动两种词性。将此八个词分为三类,同形词第一类(情态动词): can,will;同形词第二类(至今只有两种词性实意动词):water,work,study,use;同形词第三类(有两种以上词性实意动词):fake,waste。

基于BNC分析英语本族学习者同形词名动词性使用现状,找到同形词名动词性使用规律和发展趋势,同时基于CLEC语料库,通过对比分析中国学习者和英语本族学习者同形词名动词性使用现状,对比指出中国英语学习者同形词名动词性使用存在的问题,为中国英语学习者同形词词性选择提出建议。

三、数据分析

本文选取CLEC词频表前150个词内的前八个名动同形词,其中两个为情态动词(can,will),6个实义动词(water,work,study,fake,waste,use)。其中将八个词分为三类分别进行分析,对名动同形词的使用频率差异进行研究,进行数据对比分析。

(一)基于CLEC和BNC语料库的同形词的名动词性使用频数差异分析

表1给出的是基于CLEC以及BNC语料库检索出来的八个同形词的名动两种词性使用频数。

表1 基于CLEC以及BNC语料库检索结果频数表

从该表中可以明显看出无论是基于CLEC语料库还是基于BNC语料库,同形词第一类 (Can和Will)中动词词性使用频数远远高于其名词词性。

而在同形词第二类(Water,Work,Study,Use)中出现了两种现象:一种是基于CLEC语料库water,use名动词性频数检索结果与基于BNC语料库检索结果大致趋势相同,water的名词词性使用频数远高于其动词词性,相反use的动词词性使用频数远高于其名词词性;另一种是基于CLEC语料库work,study名动词性频数检索结果与基于BNC语料库检索结果出现相反现象,一方面基于CLEC语料库work的词性使用频数检索结果显示work的名词词性使用频数略高于其动词词性频数,然而基于BNC语料库work的词性使用频数检索结果显示work的名词词性使用频数略低于其动词词性频数;另一方面基于CLEC语料库study的词性使用频数检索结果显示study的名词词性使用频数低于其动词词性频数,然而基于BNC语料库study的词性使用频数检索结果显示study的名词词性使用频数远高于其动词词性频数,可以说这两个检索结果形成了巨大反差。

在同形词第三类中出现了奇怪现象,频数排名靠前的fake的名动词性使用频数检索结果远远小于其他七个同形词词性使用频数检索结果,究其原因假设与其另外一个词性(形容词)有关系,于是基于CLEC语料库检索出其形容词词性使用频数,结果(表2)显示其形容词词性使用频数远高于其其他词性使用频数。

表2 基于CLEC语料库fake的词性频数检索结果

基于CLEC语料库和基于BNC语料库的同形词fake检索结果均显示其动词词性使用频数高于其名词词性使用频数。同时通过比较我们发现最大的不同在于基于BNC语料库的Fake使用频数小于基于CLEC语料库的fake使用频数,而BNC的语料远多于CLEC,这结果让我们很清晰的看到了中国英语学习者对于Fake一词的掌握程度很低,可以说是过度使用了Fake一词。

进一步观察基于BNC语料库的数据结果,发现每个同形词的名动词性频数比例都不是1:1。

由此我们可以初步判定在同形词的词性选择上本土英语学习者的选择存在一定的倾向性,为了得出较科学的结论,使数据更加严谨有说服力,我们在这里使用P检验方法,P检验又叫总体比率差异的显著性检验来判定本族英语学习者对于同形词名动词性选择上是否存在倾向性。假设本族英语学习者对于同形词词性选择不存在倾向性即为随机性,则名动词性使用频数比例应为1:1,下面我们用P卡方检验法分别对八个同形词词性使用频数进行检验,根据P值来判断词性选择是否存在显著差异。数据如下(精确到小数点后三位):

表3 基于CLEC,BNC语料库的同形词词性使用频数检索结果比例

表3给出的是同形词名动词性使用频数的比例以及P值,结果显示BNC中P<0.01(work除外),work名动词性使用频数检验结果P值大于0.05,表明无显著差异即本族英语学习者对WORK一词名动词性无明显倾向,所以此七个同形词名动词性选择存在显著差异。即本族英语学习者对于同形词词性选择存在一定的倾向性。

表4 基于CLEC,BNC语料库的同形词(第一类)词性频数检索结果

表4给出的为本文研究的同形词第一类(情态动词)can和will基于CLEC和BNC语料库的名动词性使用频数比例,以及P值,P<0.01,表示两组比例差异显著,说明中国英语学习者对于同形词词性选择上与本族英语学习学习者有差距。但就大体趋势来看,中国学习者词性选择倾向是向本族英语学习者词性选择倾向靠拢的。

表5 基于CLEC,BNC语料库的同形词(第二类)词性频数检索结果

表5给出的是四个只有两种词性的实意动词的名动词性使用频数比例,仔细观察可以看出use的名动词性使用频数比例在CLEC和BNC中相近,但P值仍然小于0.05,表明中国学习者名动词性选择仍然与本土英语学习者存在一定差距。此外我们可以明显的看到work和study两个同形词名动词性使用频数比例在两个语料库中相差甚远,成相反状态,即倾向具有相反性,中国学习者对于work一词更倾向于它的名词词性,而本土英语学习者对于work的词性无明显倾向,其中更为明显的反倾向性体现在study一词上,我们可以看到中国学习者在study一词的词性选择上非常倾向于它的动词词性,而本土英语学习者却非常倾向于它的名词词性,这一显著差异让我们可以看到中国学习者在同形词词性选择上存在很多不当之处,同时与本土英语学习者英语同形词把握程度上存在一定的差距。对于water一词也存在很大的显著特点,无论是在CLEC还是BNC中它的名动词性使用频数相差非常大,中国英语学习者以及本土英语学习者更非常倾向于选择water的名词词性。

表6 基于CLEC,BNC语料库的同形词(第三类)词性频数检索结果

表6给出的为具有三种以上词性的实意动词的名动词性使用频数比例,以及P值,从该表中我们可以看到对于fake和waste名动词性的选择中国英语学习者和本土英语学习的倾向是相同的,对于fake一词都是倾向于它的动词词性,对于waste一词都是倾向于它的名词词性。然而P<0.01表明中国英语学习者和本土英语学习者在词性选择上还是存在一定差距的。

(二)同形词其他词性使用频数差异分析

观察表表2为基于CLEC和BNC的fake的所有词性频数表,我们可以看到在基于BNC的fake使用频数的检索结果居然小于基于CLEC的fake使用频数,由于BNC语料库远大于CLEC,所以按照正常推理基于BNC的fake使用频数检索结果应远大于基于CLEC的fake使用频数,但是事实却非如此,这一结果显示出中国英语学习者对于fake一词的使用情况与本族英语学习者差异非常显著,尤其是中国英语学习者与本族英语学习者对于fake的形容词词性选择倾向性呈相反状态,这表明中国英语学习者对于同形词的其他词性选择也存在差异。

四、结论与原因分析

(一)结论

基于BNC语料库的同形词名动词行使用频数差异的分析,我们可以得出结论:同形词词性选择是存在一定倾向性的,通过和基于CLEC语料库的同形词名动词性使用频数的对比分析,我们可以看到中国学习者在同形词的词性选择上与本族英语学习者存在一定的差异,在某些通行词上甚至会出现相反的选择倾向。

(二)同形词名动词性使用差异原因分析

首先,同形词的名动词性本身起初的词性只有一种,随着社会的发展人们对单词功能的需要增强,如新闻媒体的出现,人们对单词产生简洁的需要,于是人们拓展了同形词的词性,原来只有名词词性的英文单词,拓展为了名动两种词性,甚至更多的词性,使人们可以更加方面简洁的表达一些想法,例:

A:Give the flower some water。

B:Water the flower。

上面两种表达意思内容是相同的,但是B类更简洁一些,尤其是在新闻报道中,这种作用发挥的更加明显。

其次,同形词名词意义是否有形(具体概念或抽象概念)在一定程度上影响同形词的名动词性使用频率,有形的名动同形词的名词词性使用频率相对较高。如在本文中研究的water以及use两个词,他们的名词意义分别为“水”和“用处”,水为我们可以触摸到是有形的,其名词词性使用频率远远高于其动词词性,而“用处”是无形的,我们可以看到其名词词性使用频率远低于其动词词性使用频率。

五、结 语

通过以上基于语料库的分析对比,可以看出本族英语学习者对于同形词名动词性选择存在一定程度的倾向性,这种倾向性我们推测其原因可能有以下原因:1)和同形词源词性有关;当同形词在开始使用时的词性出现形式为动词词性时,人们在应用的过程中便会倾向性的以动词词性为主要使用词性,随着语言的发展,以及人们语言交流的需要,同形词的另一种甚至几种词性的使用频数便会慢慢增加。2)和同形词应用文体有关;人们通过文字传达意思时,往往会为了简洁而使用同形词的某种词性。由于本文指选择了中国学习者常用的8个同形词为主要研究对象,仅仅依靠基于语料库的这八个词的使用频数数据,不能全面的反应中国学习者同形词词性使用情况。本文只主要研究了同形词的名动词性使用情况,对于同形词其他词性的解释说明较为粗略,希望在今后的研究中加以完善。

[1]BASSETT S,LEFEVERE A.1990.Translation,History and Culture[M].London and New York:Printer Publisher.

[2]KENNEDY,G.2000.An Introduction to Corpus Linguistics[M].Beijing:Foreign Language Education and Study Press.

[3]SINCLAIR,J.2011.Corpus,Concordance,Collocation[M].Shanghai:Shanghai Foreign Language Education Press.

[4]陈建生,崔亚妮.基于语料库的中国《政府工作报告》英译本词汇特征研究[J].当代外语研究,2010(6):39-43.

[5]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[6]刘光第.英语同形词小议[J].英语知识,1996(6):40-45.

[7]刘婷婷.汉英语言中反义同形词研究[D].陕西:西北大学,2009.

[8]王建新.计算机语料库的建设与应用[M].北京:清华大学出版社,2005.

[9]徐明.同音词同形词同义词[M].加利福尼亚大学:进修出版社,1961.

[10]曾燕秋.论在线语料库作为外语学习者的参考书[J].科教导刊(中旬刊),2012(8),142-145.

[11]张君红.工程英语名动同形词分类及用法对比[J].英语知识,2000(2):34-38.

猜你喜欢

倾向性频数语料库
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
《语料库翻译文体学》评介
中考频数分布直方图题型展示
学习制作频数分布直方图三部曲
基于COCA语料库的近义词辨析 ——以choose和select为例
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例
频数和频率
基于JAVAEE的维吾尔中介语语料库开发与实现
“没准儿”“不一定”“不见得”和“说不定”的语义倾向性和主观性差异
一种面向博客群的主题倾向性分析模型