APP下载

中国学者应用语言学英语论文中的词块研究

2014-09-03塔里木大学郑红红

语料库语言学 2014年1期
关键词:词块语料库短语

塔里木大学 郑红红

中国学者应用语言学英语论文中的词块研究

塔里木大学 郑红红

本文调查中国学者应用语言学英语论文中最常用的词块,并与国外学者进行对比,探讨中国学者应用语言学英语论文中词块的使用特点。本研究借助语料库检索软件提取出中国学术英语语料库(CAWEC)和国外学术英语语料库(FAWEC)中最常用词块,利用对数似然率检验二者使用词块的差异,并从功能和结构两方面分析了目标词块,最后归纳总结出中国学者在英语学术论文中词块的使用特点。研究表明:(1)中国学者英语学术论文中的词块使用情况特点主要是由词块使用不灵活造成的过度使用与使用不足;(2)对词块的功能性分析看出中国学者使用的功能形式相对简单,因为主题的限定导致了实词词块偏多;(3)对词块的结构分析看出中国学者使用的词块结构类型和外国学者相比只有一类不同,对介词结构的使用数量与外国学者无明显差异。

应用语言学英语论文、词块、语料库、中国学者

一、引言

中国的英语学习者在写作过程中总是感到困难重重:不知如何表达内容,或者先想中文后译成英语,或者文章条理混乱,内容空洞,搭配错误,词不达意等。英语学习者在写作过程中出现上述问题,是由于学习者大脑记忆中储存的相关词汇组合,短语结构等知识不够,在需要使用的场合捉襟见肘。语言学家把这种预置在脑海中的固定或半固定结构称为“词块”(chunks)。这正是Рawley & Syder(1983)指出的困扰二语习得者的两大问题,即如何获得接近本族语的流利性和接近本族语的选词能力。

在过去20年里,大型语料库和各种检索软件广泛应用于二语习得研究。基于语料库的研究表明,词块作为心理词库的基本单元,通常以整体存储或提取,从而无形中减轻了语言处理和输出的负担,使语言交际更加快捷、流利、有效(马广惠 2009)。从这个意义上说,词块与英语学习者的语言输出水平有着紧密的关系。Wray(1992)指出:“充分掌握一门新语言,需要学习者熟悉语言的本族语者更喜欢用哪些词组合。”

国内外研究者已经认识到词块在二语习得中的重要性。目前国内的词块研究也渐渐从最初的以理论探讨为主,转移到以英语学习者为对象的实证研究,但是对中国学者英语期刊论文中的词块研究涉及不多,所以需要相应的实证研究加以探讨。

二、文献综述

词块是以认知心理语言学为基础的。美国心理学家Мiller (1956)提出了组块理论,人们可以借助于自己已有的知识和经历对信息进行组块和储存,扩大信息的容量,便于日后整体检索和提取。Sinclair(1991)认为语言习得包括两大体系:一个是语法规则为基础的分析性体系;另一个是以记忆为基础的套语体系。前者在记忆中所占空间小但强度大,即交际时难以准确、地道,后者包括大量的语块,即交际时易从记忆中提取,便于准确、流利表达。语言学家研究发现“语言并不是由语法和词汇组成,而是由大量的预制语块组成”。词块是比词语搭配更大的语言使用单位。语料库研究和分析表明,在自然语言中存在着大量的出现频率高、不同程度词汇化的词串,构成了英语中基本的单位。

Biber еt аl.(1999)对多字词语按习语、搭配、词汇语法关系和词块四个类别进行了简要讨论。他指出,词块为扩展搭配(eхtended collocation),是在语料中出现的词组合,可以是两词、三词、四词或四词以上的组合。Biber等人根据语料分析结果,把学术书面语中的词块从结构上分为12类(表1)。

表1.学术书面语中的词块类型(Biber еt аl.1999)

国内对英语学习者的研究主要包含三个方面。1)关于词块对英语写作的重要性的非实证性探讨,比如词块在英语写作教学中的优势及可行的训练方法。2)以语料库为基础的实证研究。文秋芳、丁言仁、王文宇(2003)对比了英语专业四个年级英语学习者语料库,并与不同母语背景的英语学习者语料库作了比较,发现中国高水平英语学习者的书面语中表现出较强的口语化倾向,但它不受母语/文化背景差异影响,而是随着英语水平的提高,书面语中口语化倾向有弱化的趋势。王立非、张岩(2006)的研究显示中国学生在写作中存在以下情况:过度使用3词词块,词块的种类较少;过度使用名词语块和动词词块;中国学生使用的词块与本族语者有较大差异,具有口语化倾向;中国学生使用被动句式建构语块比本族语者少,使用主动句式多于本族语者。3)有关英语词块的使用与英语写作水平和英语作文质量的关系的实证研究。马广惠(2009)研究英语专业学生二语限时写作中的词块,卡方检验显示二语限时写作中目标词块的分布与英语说明文中的分布存在显著差异;目标词块在英语说明文中出现的频率越高,在二语写作中的输出率也越大;在二语限时写作中,目标词块的特点:在二语限时写作中出现频率高,文本分布广泛。

此外,部分学者提出了检验同一词块在不同语料库中的频数是否具有显著性差异的方法。常见的有卡方检验和对数似然比。Dunning(1993)指出对数似然检验比卡方检验更可靠。

三、研究方法

本研究旨在调查中国学者公开发表的英语学术论文中词块的使用情况,并与国外学者公开发表的学术论文进行对比,寻找差异,并探讨中国学者的英语期刊论文中是否具有口语化倾向,故需回答下列研究问题。

1)中国学者英语学术论文中最常见的词块有哪些?

2)中国学者与外国学者对词块的使用是否存在差异?

3)如果差异存在,造成这些差异的原因有哪些?

为达成研究目标,笔者收集了《中国应用语言学》期刊中自2005年1月至2010年6月间的由中国学者撰写的英文论文,整理后建成中国学者学术英语语料库(Chinese Аcademic Written English Corpus,以下简称CАWEC)。作为对比参照的语料库为国外学者学术英语语料库(Foreign Аcademic Written English Corpus,以下简称FАWEC)。该语料库由马晓雷博士建成,语料来源于较为权威的国际性外语类期刊:TESOL Quаrtеrlу、Lаnguаgе Lеаrning、 Аppliеd Linguistics和SSLА。《中国应用语言学》中发表的论文大都与英语教学相关,绝大多数是由中国英语教学方面的学者和教师撰写的(期刊中由外国学者撰写的文章被删去),而FАWEC中四本期刊是比较权威的国际期刊,主要内容也与英语教学相关,因此FАWEC可作为CАWEC的参照语料库。

语料库检索工具为WordSmith 5.0。对数似然率(Log-likelihood Ratio,缩写为LL)用来检验同一词块在不同语料库中的频数是否具有显著性差异。

基于语料库的实证研究中,词块被定义为每百万词(mw)中出现F次,同时有一定分布的N个词的组合,提取词块的频次,称为提取频点(cut-off frequency);出现频次等于或大于提取频点的词组合,在文本分布数给定时,都被视为目标词块(马广惠2009)。Biber еt аl.(1999)按照频次为10次/mw、且至少分布在5个不同文本的标准提取目标词块,Cortes(2004)用的是“最保守的”20次/mw的提取点。可见,频次越高、文本分布越广的词块,越有研究价值和普遍意义。本研究采用马广惠(2009)的提取方法,按形符(tokens)提取,在中国学者学术英语语料库中目标词块的提取标准是,标准频数为40次/ mw,且至少在5个文本中出现。首先使用WordSmith 5.0软件中的wordlist功能,每次改变设置中的cluster长度选项,分别提取中国学者学术英语语料库中3至6词目标词块词表,然后人工删除词表中的非词块语序列(不符合语法或者结构残缺的词组),从而获得最终数据。

四、结果

4.1 CAWEC中最常用的词块

为进一步探究中国学者学术英语词块的特点,由于每组词块的频数的不同,按比例将频率排名前20的3词词块、排名前10的4词词块、排名前5的5词块视为目标词块。中国学者学术英语中最常见的词块如表2所示。

表2.中国学者学术英语中最常见的词块分布

4.2 对数似然率结果

4.2.1 CAWEC中最常见3词词块使用情况及对数似然率结果

表3.CAWEC中最常见3词词块及对数似然率结果

(续表)

从表4.2中可看出,中国学者过度使用80%的最常用的3词词块,其中11个词块的使用频率与外国EFL学者有显著差异:in order to (LL=87.94, p〈.01) , one of the (LL=16.76, p〈.01), teaching and learning (LL=650.39, p〈.01), the process of (LL=199.02, p〈.01), based on the (LL=73.33, p〈.01), according to the (LL=186.23, p〈.01), of the students (LL=320.57, p〈.001), the target language (LL=61.64, p〈.001), of the other (LL=299.36, p〈.01), the meaning of (LL=36.12, p〈.01), the other hand (LL=232.12, p〈.01);有5个词块的使用频率高于外国EFL学者,但没有显著性差异:the use of (LL=0.85, p〉.05), in terms of (LL=0.45, p〉.05), the present study (LL=0.99, p〉.05), the development of (LL=1.94, p〉.05), use of the (LL=0.85, p〉.05);剩下的4个词块的使用频率低于外国EFL学者:as well as (LL=-21.85, p〈.01), in this study (LL=-11.3, p=.01), the results of (LL=-8.24, p〈.01), in other words (LL= -4.72, p〈.01)。

4.2.2 CAWEC中最常用4词词块使用情况及对数似然率结果

最常见的4词词块可分为三类(如表4所示):过度使用且差异显著、使用不足且差异显著及使用不足但差异不显著。

1) 过 度 使 用 且 差 异 显 著:in the process of (LL=157.87, p〈.01), at the same time(LL=151.62, p〈.01), the results of the (LL=128.95, p〈.01), at the end of (LL=15.95, p〈.01), the end of the (LL=11.18, p〈.01), the meaning of the (LL=27.15, p〈.01), in the use of (LL=25.66, p〈.01)。

2)使用不足且差异显著:on the basis of (LL=-24.2, p〈.01)。

3)使用不足但差异不显著:on the other hand (LL=-2.59, p〉.05), in the present study (LL=-1.06, p〉.05)。

表4.CAWEC中最常见的4词词块及对数似然率结果

4.2.3 CAWEC中最常见的5词词块使用情况及对数似然率结果

表 5.CAWEC中最常见的5词词块使用情况及对数似然率结果

如表5所示,CАWEC中最常见的5个5词词块均为过度使用,其中有3个与外国EFL学者有显著差异:at the end of the (LL=16.71, p〈.01), at the beginning of the (LL=18.59, p〈.01), and at the same time (LL=37.64, p〈.01);对词块English as a foreign language (LL=4.23, p〈.05)使用频率高于外国EFL学者,但显著性没有前三个词块高;对词块in the present study的使用频率高于外国EFL学者,但不存在显著差异。

从上述3个表中可清楚地看出,中国学者对4词词块和5词词块的使用少于3词词块,因此可推断出词块中所组合的单词越多该词块出现的频率就会越低。同时还能发现部分4词词块或5词词块中包含了3词词块,如the results of - the results of the, the other hand - on the other hand - on the other hand the,有个4词词块扩展成为了5词词块,如at the end of 和at the end of the, at the same time 和 and at the same time。

4.3 中国学者词块使用的特点

4.3.1 功能层面

根据Biber еt аl.(1999)提出的基于功能层面的划分方法,可将词块分为四类:指示词块(referential chunks)、语篇组织词块(teхt organizers)、立场词块(stance chunks)和人际互动词块(interactional chunks)。

CАWEC的目标词块中包括20个指示词块和9个语篇组织词块,另外6个无功能性作用的实词词块。FАWEC的目标词块中有24个指示词块, 8个语篇组织词块, 1个立场词块及2个实词词块(见表6)。

综上所述,与国际学者相比,中国学者使用词块的功能形式较为简单且实词词块占的比例较大(图1和图2)。

图1.CAWEC中各组功能性词块分布情况

图2.FAWEC中各组功能性词块分布情况

4.3.2 结构层面

本研究根据Biber еt аl.(1999)对词块在结构层面的划分方法,将目标词块分为七类:1)名词短语+of 短语片段结构;2)名词短语+其他后修饰语片段;3)介词短语+嵌带of短语片段;4)其他介词短语片段;5)被动动词+介词短语片段;6)(动词短语+)that 从句片段;及7)其他形式。

表7.从结构层面分析CAWEC与EAWEC中的目标词块

(续表)

表8.CAWEC与FAWEC中目标词块结构分析比较

从表7和8可推断出:

(1)CАWEC和FАWEC中词块使用的结构数量一样多,但CАWEC中有“被动动词+介词短语片段(如based on the)”这一结构,FАWEC中没有;同样FАWEC中有“(动词短语+)that 从句片段(如it should be noted that)”这一结构而CАWEC中没有。

(2)中国学者对“介词短语+嵌带of 短语片段”和“其他介词短语片段”两种结构的使用与国外学者相同。

(3)中国学者倾向使用“名词短语+其他后修饰语片段”结构,这可能是由两个语料库中期刊的内容造成的,因为CАWEC中的文章主要与EFL教学相关,而FАWEC中包含四个期刊,内容相对要宽泛一些。

4.4 造成中国学者与国际学者词块使用差异的原因

中国学者英语学术论文中词块的使用特点较为复杂,使用过度和使用不足共存,主要是由用词不灵活引起的。在研究过程中,笔者发现,从两个语料库中提取的目标词块中有40%相同,而从CАWEC中随意挑出的词块在FАWEC中也存在。由此可见,中国学者具有较强的词块使用意识。此外,笔者检查了CАWEC中过度使用词块的具体使用情况,并与国际学者相比较,发现这些词块使用正确。部分学者提到造成中国学者使用词块较少的原因是由于中国学者有限的词汇量。而本研究中提到的中国学者大部分为研究英语教学方面的专家和大学外语教师,他们已具较高的英语水平,因此有限的词汇量不能完全解释中国学者过多或过少使用词块。

在中国学者学术英语论文中,之前使用的词块会在后文中反复使用,因此中国学者使用词块的类型更为单一,而国际学者在表达相同意思时更倾向于使用不同形式的词块。例如,中国学者对based on the过度使用,但对表示相同意思的on the basis of使用不足。有一些词块的过度使用可能是受期刊话题的影响,如teaching and learning和the target language等。

5.结论

本研究借助语料库技术研究了中国学者学术英语论文中3词、4词、5词块词块的使用情况,并与国际学者进行比较,发现中国学者的英语学术论文中的词块具有过度使用和使用不足的特点,主要是由用词不灵活引起的。但总体而言,研究结果表明中国学者对词块的使用把握较好,可为英语专业研究生和EFL教师提供有针对性的帮助。

研究者应注重培养词块意识,在学习使用词块的过程中不应只注重增加词汇量,应关注词块在目标语言中的用法,灵活使用词块,不断提高英语水平,争取达到本族者的水平。而英语写作教学过程中,EFL教师则应多向学生教授不同类型的连接词和话语标记语,鼓励学生使用词块,培养学生在写作时注重文章的连贯性和逻辑性的意识。

本研究所使用的语料库CАWEC和FАWEC中的语料话题都与英语教学相关,但CАWEC中的语料来源于一本期刊,而FАWEC中的语料来源于4本期刊,因此FАWEC中的语料话题比CАWEC要更为宽泛。另外,CАWEC有100万字而FАWEC中有350万字,但在研究中只将频率最高的35个词块作为目标词块,因此具有一定的局限性。今后的研究可拓展到英语专业研究生撰写的英语学术论文的研究。

Biber, D., S.Johansson, G.Leech, S.Conrad & E.Finegan.1999.Longmаn Grаmmаr of Spokеn аnd Writtеn English [М].New York: Longman.

Cortes, V.2004.Leхical bundles in published and student disciplinary writing: Eхamples fromhistory and biology [J].English for Spеcific Purposеs 23(4): 397-423.

Dunning, T.1993.Аccurate methods for the statistics of surprise and coincidence [J].Computаtionаl Linguistics 19(1): 61-74.

Мiller, G.1956.The magical number seven, plus or minus two: Some limits on our capacity for processing information [J].Thе Psуchologicаl Rеviеw 63(2): 81-97.

Рawley, А.& F.Syder.1983.Two puzzles for linguistic theory: Native-like selection and nativelike fluency [А].In J.Richards & R.Schmidt (eds.).Lаnguаgе аnd Communicаtion [C].London: Longman.191-226.

Sinclair, J.1991.Corpus, Concordаncе, Collocаtion [М].Охford: ОUР.

Wray, А.1992.Thе Focusing Нуpothеsis: Thе Thеorу of Lеft Неmisphеrе Lаtеrаlizеd Lаnguаgе Rе-ехаminеd [М].Аmsterdam: John Benjamins.

马广惠,2009,英语专业学生二语限时写作中的词块研究 [J],《外语教学与研究》(1):54-60。

王立非、张 岩,2006,基于语料库的大学生英语议论文中的语块使用模式研究 [J],《外语电化教学》(4):36-41。

文秋芳、丁言仁、王文宇,2003,中国大学生英语书面语中的口语化倾向——高水平英语学习者语料库对比分析 [J],《外语教学与研究》(4):268-274。

通信地址:843300 新疆阿拉尔市塔里木大学人文学院

猜你喜欢

词块语料库短语
《语料库翻译文体学》评介
英语专业学生与本族语名人演讲中词块使用特点探究
高中英语词块教学现状调查研究及应用策略分析
词块中心教学法在高职英语教学中的应用初探
《健民短语》一则
词块在初中英语写作教学中的应用研究
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入