中国英语专业学生议论文中非毗邻式词块研究
2019-03-04陈建生赵佳美
陈建生 赵佳美
(天津科技大学 外国语学院,天津 300222)
1.0 引言
词汇发展和词块运用是衡量学习者写作质量的重要因素(杨滢滢,2014:65)。而在传统的语言观下,中国学习者把词汇仅仅看作独立的单词,受语法规则支配而使用。如果习得词汇只停留在音、形、意上,在真实的语境中就很难正确使用(沈葆春、吕娜, 2016;文旭、匡芳涛,2016)。英语自然话语中的70%是由语义形式比较固定的程式语构成的,因此程式语结构在自然语言交流中占很高的比例(Altenberg & Granger,2001),是否掌握本族语者常用的词块就直接关系到学习者语言的准确性和地道性(濮建忠,2003:444)。如果二语或外语学习者能够掌握大量英语短语和多词序列,那么学习效率就会随之提高,从而语言表达更为地道(Nattinger & DeCarrico,1992;Lewis,1997等)。由此可见,词块数量的积累和词块的运用对学习者语言能力的提升作用不言而喻。程式语不仅可以有效克服母语的负迁移,还可以减少语用误差,提高语言输出质量,因此,多词和词束将成为二语词汇习得的趋势(沈葆春、吕娜, 2016:58)。本研究采用语料库语言学方法,通过对英语专业学习者作文与英语本族语大学生作文进行对比,将量化的数据与中介语理论结合,探析英语专业学习者作文中非毗邻式词块的使用特征,为研究学习者如何进行文本组织和运用词块提供了一个新的视角。
2.0 文献综述
词块是短语的主要变体之一,是学习者短语能力的重要衡量依据和显性载体(黄开胜、周新平,2016:27)。恰当运用词块有助于提高交际的流利性和选词的地道性,因此探讨二语学习者如何习得、处理、运用词块尤为必要(丁言仁、戚炎,2005:49)。基于Wray(2002)对词块的定义,词块可以是连续的(continuous),也可以是非连续的(discontinuous)。
目前,国外研究者已尝试对非连续的词块进行研究,但数量不多。Renouf和Sinclair(1991)认为英语中的词块可以是非连续的,即高频功能词与变化的实义词词位(slot)共现(例如the+?+of+the;be+?+to)。Biber(2009:294-295)指出,词块的内部结构分为连续的固定序列(continuous fixed sequence)和内部有变化词位的框架(frames with internal variable slots)。连续的固定序列是指四个词位或者连续三词或者连续两词固定的词块(即1234、123*/*234、12**/**34、*23*);内部有变化词位的框架有三种类型:(1)第一和第四词位固定、第二词位或第三词位不固定的词块(即12*4/1*34);(2)第一和第三词位或第二和第四词位固定,其他词位变化的词块(即1*3*/*2*4);(3)只有一词词位固定的词块(即1***/***4、*2**、**3*)。Biber(2009:299)以语料库驱动的方法研究对话语篇与学术语篇两个语域中不同的多词模式,发现对话语篇中倾向于使用连续的固定序列,*234或123*两个模式占大多数;学术文本中的大多数多词模式则为内部有变化词位的框架,大多数为1*34或12*4两个模式。del和Römer(2012:3-34)将在同一位置拥有多种词汇变化形式的三元或三元以上序列短语(phrase frames,简称p-frame)定义为非毗邻式词块,他们基于密歇根州高水平学生论文语料库(MICUSP)研究了不同学习阶段高水平学习者学术论文写作中非毗邻式词块(p-frame)的共性和差异性,发现高水平学习者之间使用词块的频率和选择上表现出一致性,只是研二和研三学生比大四和研一学生在紧邻词块的右侧词选择上更加倾向使用多样化词汇。王丽(2014:61-66)采用语料库频数驱动方法,考察了中国学习者学位论文引言中非毗邻式词块的频数、结构以及变体的使用特征,发现硕博论文呈现的共性大于差异性,与国际学者有一定差距,揭示了中国学习者在词块习得过程中存在石化现象。综上所述,国内对非毗邻式词块的研究仍比较少。非毗邻式词块凸显出了词串(string of words)中的相对固定和相对灵活的部分,是对毗邻式词块的总结概括,同时非毗邻式词块很大程度上消除了与话题过于相关的毗邻式词块,因此更加凸显出了组织话语的结构模式,让研究者更加了解学习者如何组织文本,对学习者提高文本的整体组织以及使其运用地道的表达有着重要的作用(del & Römer,2012:24)。
3.0 研究设计
3.1 研究问题
本研究采用语料库语言学方法,通过对英语专业学习者作文与英语本族语大学生作文进行对比,利用定量与定性分析相结合的研究方法,探析英语专业学习者作文中的非毗邻式词块在类符和形符数上,以及词块变化词位类符的选择及使用上,是否与本族语者作文有显著差异?如果有,造成差异的原因是什么?
3.2 研究语料
本研究使用四个语料库:英语专业四级作文库(简称TEM-4)、专业八级作文库(简称TEM-8)、英美大学生议论文库(简称NC)和英美社论库(简称EDI)。语料库文本容量如表1所示。
表1 本研究使用的四个语料库情况
3.3 数据采集
本研究使用kfNgram(Fletcher, 2007)对四元(N=4)、出现频次≥2的非毗邻式词块进行提取。基于del和Römer(2012:17)对非毗邻式词块的定义,本研究剔除了*234式(即变化词位出现于词块开始处)和123*式(即变化词位出现于词块结尾处)词块,只统计符合定义的1*34式词块和12*4式词块(如the * of the和with the * of)的数据。基于检索出的频次,用对数似然比(Log-likelihood Ratio)检验统计结果来判定四组语料中非毗邻式词块的类符和形符数是否具有显著性差异。然后将四个语料库中含有实词的非毗邻式词块剔除,统计四组语料仅含有虚词的非毗邻式词块的类符数和形符数是否具有显著差异。最后再提取剩余词块前30%高频词块,对学习者非毗邻式词块的使用特征做对比分析研究。
4.0 研究设计
本研究主要使用前三组语料库进行对比分析,即TEM-4、TEM-8及NC。但由于英美大学生对本族语的掌握水平与报纸职业编辑的语言水平之间还有一定的差距,因此为了使研究结果更加可靠,本研究还将英美社论库作为参照库,必要时用以对比分析。
4.1 三组语料四元非毗邻式词块的类符和形符数差异
将三组语料中的四元非毗邻式词块进行对比,无论从词块类符数上看还是从词块形符数上看,都表现出英语专业四级作文中使用的词块最多,英语专业八级作文次之,英美大学生作文中使用最少的趋势。
表2 三组语料中词块类符数对比统计表
表3 三组语料中词块形符数对比统计表
对三组语料词块的类符数分别做算对数似然比检验,结果表明,三组语料在非毗邻式词块使用上均存在组间显著性差异,即TEM-4比NC库中显著多用非毗邻式词块(LL=3,476.54,p<.001),TEM-8比NC库中显著多用非毗邻式词块(LL=422.62,p<.001),同时TEM-4又比TEM-8库中显著多用非毗邻式词块(LL=1382.56,p<.001),TEM-8与NC的差异低于TEM-4与NC的差异(LL=422.62<3,476.54)。由此可见,英语专业大四学生在四元非毗邻式词块的使用数量上明显减少,但是与本族语大学生相比,仍然存在显著性差异。国外有研究(Reppen,2009;Paquot,2013:392)发现,与本族语者相比,在写作过程中学习者倾向于使用更多的词块进行表达,并且随着二语熟练度的增加,重复出现的词语组合会呈现减少的趋势。王丽(2014:63)认为学习者使用的词块比本族语者多可能是因为学习者习得不充分,需要依赖大量的词块来进行文本组织和话语表述。例如在进行篇章组织时,学习者多使用词块in the * place。该词块在TEM-4和TEM-8库中出现的标准频数分别为4.78/万词、3.43/万词,NC库中出现的标准频数为0.33/万词,而在本族语水平更高的参照库EDI中则没有出现。从标准频数可以反映出学习者在该词块的使用上呈递减趋势,表明随着学习者水平的提高,高年级学习者所运用的表达方式增多,不仅仅依赖于某一部分词块,但学习者与本族语者相比,更倾向借助词块来进行文本组织。TEM-4和TEM-8库中该词块变化词位上的类符有3个,分别为first、second、third;NC库中有2个,分别为work、first。从类符来看,仍与本族语者存在差距。NC库中词块in the first place仅出现3例,这可以看出中国英语学习者比本族语者更倾向于使用in the * place变化词位为序数词的词块来进行篇章组织。下面分别是中国英语学习者和本族语者使用该词块的例子:
例1. There are a lot of factors could account for this.In the first place, if the Festival is organized in this way, ...In the second place, for the large number of us, …In the third place, organizing a University Arts Festival in this way can ...(TEM-4)
例2.In the first place, ambition is the lighthouse in the sea, ...In the second place, ambition will force and compel people to go all out to realize their goal ...In the third place, it is ambition that cultivate the spirit advantage of people during the way to succeed ...(TEM-8)
例3. However it is equally clear that ..., the Communities were intended as purely economic entitiesin the first place.(NC)
例4. These people have shown the modern world what womenin the work placecan do.(NC)
通过以上例子可以看出,学习者在使用词块in the * place时与本族语者不同。例如学习者使用in the * place时变化词位多为序数词,而本族语者使用该词块时变化词位多为实词work(NC库中共出现5次)和序数词first(NC库中共出现3次)。学习者将in the first place多用于句首,并用来列举,即“第一”,起到文本组织的作用,而本族语者不常用in the first place进行列举,而是主要用于句末,表示最重要的点或原因,或者引出事件起始的情况。但是否是由于语料库总量太小没有出现类似于学习者用法的例子呢?通过在COCA(Corpus of Contemporary American English)中进一步的验证性检索,词块in the first place出现的频数为8,994,in the second place为116,in the third place为17。通过分析,后两者在COCA中的例句全部用于句首进行文本组织,而词块in the first place绝大多数不用在句首,而是用在句末,在COCA学术类篇章分类的前100例中只有2例用于句首。由此可见,学习者在in the * place词块且变化词位为序数词的使用方面不仅在数量上多于本族语者,而且用法并不地道。
综上所述,与本族语者相比,学习者更依赖大量词块进行文本组织和话语表述,但国内不少研究者发现水平较高的学习者往往能够借用更多的词块(刁琳琳,2004:37;丁言仁、戚炎,2005:52;黄开胜、周新平,2016:30),出现结果不一致的情况可能是由于研究对象或词块界定的标准不同所导致的,例如其他研究者的研究对象可能是英语专业本科一至四年级的学生或者仅为英语专业四年级学生;在词块的界定上,大多数研究将词块界定为连续的n词序列(contiguous sequences of n words),即毗邻式词块(简称n-gram)(del & Römer,2012:17),这与本研究的研究对象以及本研究对词块的界定均不同,因此研究结果不一致。
4.2 三组语料仅含虚词的四元非毗邻式词块的类符和形符数差异
对仅含有虚词的四元非毗邻式词块进行与3.1中相同的统计,如下两个表所示:
表4 三组语料中仅含虚词的词块类符数对比统计表
与包含实词和虚词的词块相比,三组语料中只包含虚词的四元非毗邻式词块在类符数上呈现出相同的趋势,即递减的趋势,而形符数并没有呈现出一定的趋势。
对三组语料词块的类符数分别计算对数似然比,统计分析显示,TEM-4比NC显著多用非毗邻式词块(LL=14.89, p<0.001),TEM-8与NC之间不存在显著性差异(LL=0.40, p>0.05),TEM-4比TEM-8显著多用非毗邻式词块(LL=9.30,p<0.01),因此总体上看仅TEM-4与NC之间存在显著性差异。
为了进一步探析学习者与本族语者在四元非毗邻式词块使用上的差异,本研究将三组语料仅含有虚词的词块中的前30%高频词块提取出来做进一步分析研究。发现三组语料共用其中12个词块,但排列顺序有所差异,分别是the * of the,with the * of,in the * of,in the * and,of the * and,the * and the,in * of the,at the * of ,to * with the,to the * that,as * as the,as a * of。其中在6个词块(the * of the,with the * of,in the * of,the * and the,at the * of,as a * of)的使用上与本族语者存在显著差异,p值均小于0.05。为了使数据分析更加可靠,本研究将参照库EDI中的相关词块频数加入统计,具体的频数差异如下表所示:
表6 四组语料共用词块中学习者与本族语者存在显著差异的6个词块频数差异值
注:* 代表 p<.05, ** 代表p<.01, *** 代表p<.001
从表中可以看出,与更高水平的本族语者相比,英语专业大四学生在4个词块(with the * of,in the * of,at the * of,as a *of)的使用上与本族语者的差异低于英语专业大二学生与本族语者的差异,而在剩余2个词块(the * of the,the * and the)的使用上,英语专业大四学生与本族语者的差异高于英语专业大二学生与本族语者的差异。总体上看,随着学习者二语熟练程度的提高,其运用词块的能力也有所提高,但高水平学习者与本族语者的差异高于低水平学习者与本族语者的差异这样的现象是否是因为学习者习得不充分?本研究将分别对学习者和本族语者在这2个词块的使用情况进行具体分析。
4.2.1 学习者与本族语者关于词块the * and the的使用特征
词块the * and the三组语料中的标准频数分别为0.81/万词、4.16/万词、0.49/万词,且已得出英语专业大四学生与本族语者具有显著差异。从频数来看,TEM-8中显著超用该词块。这可能与该库中的作文主题有关,2005年八级考试作文的要求是:Interview is frequently used by employers as a means to recruit prospective employees. As a result, there have been many arguments for or against the interview as a selection procedure. What is your opinion? 而该词块变化词位上的所有类符中与面试相关的类符有7个(employers,employer,company,interviewer,employees,interview,employee),频数高达61次。这篇考试作文要求学生对面试这种筛选雇员方法的优缺点发表意见,因此作文中必定会高频出现“雇主和雇员”这样的表达方法,如the employer(s) and employee(s),导致TEM-8库中the * and the词块高频出现(如图1所示)。统计结果表明,在80次the * and the中,the employers and the ... employees就出现了13次。
图1 八级作文中词块the * and the部分实例
此外,与本族语社论撰写者对比,英语专业大四学生超用该词块是因为定冠词the使用不当。EDI库中该词块变化词位出现的类符有7个,即poor,economy,government,Kurds,Taliban,union和US。观察这些类符可以发现除poor外都是专有名词,the poor指一类人。但是,TEM-8库中该词块的类符如employers,employees前无需添加定冠词the,且学习者亦可以使用both ... and ... 等表达方式连接这两个复数名词,如果这样,词块the * and the在TEM-8库就不会被超用。因此学习者对定冠词the的使用的概念比较模糊,这可能与名词的复杂性有关,学习者分不清泛指名词和特指名词,再加上过度推广冠词的使用规则,出现了冠词冗余的现象(李景泉、蔡金亭,2001:61)。
4.2.2 学习者与本族语者关于词块the * of the的使用特征
表6中各组间对数似然比显示,在词块the * of the的使用上,NC库与EDI库间具有显著差异,可见英美大学生对该词块的使用并不准确,因此需要借助EDI库中的该词块的使用情况进行分析。词块the * of the在四组语料中的标准频数分别为7.35/万词、4.11/万词、15.31/万词、11.40/万词,且由表6可得出高水平学习者(TEM-4库)与本族语者(NC)的差异高于低水平学习者(TEM-4库)与本族语者(NC)的差异。这从某种程度上说明学习者的文体意识并没有随着语言水平的提高而提高,即学习者对文体认识模糊。Halliday(2000)指出,英语书面语与口语的主要区别之一就是在口语中作者要表达的意思总是用一个个小句松散地排列,小句与小句之间以各种不同的方式组合在一起;而在书面语中,原口语中用小句来表达的意思可以并入一个名词词组中,使原口语中小句的数目减少。因此,在文体较为正式的文本(如议论文或科技文章等)中,名词(包括名词化的动词)的使用数量要高于动词的数量。这说明了学习者在写作时具有口语化倾向。四级作文中该词块变化词位最常用的3个类符为development,purpose,end;八级作文中为development,personality,advantages;英美大学生作文中为invention,end,rest;英美社论中为end,rest,heart。the development of the在四、八级作文中出现最多,四级作文中出现35次,其中29个该词块的左一位词为with和as,八级作文中该词块出现16次,其中10个该词块的左一位词为with和as。这里学习者显然欲表达“随着……的发展”,应用with,而有的误用为as。再观察该词块的右一位词,四级作文中有science (and technology),society,technology,art,country,economy,八级作文中有society,economy (and society),company,service (industry),market (economy),times,selection (procedure)。可以看出八级作文中在词块右一位词的选择上比四级作文更具多样性,但学习者在the development of the词块使用上与本族语者存在显著差异,本族语者作文和社论中the development of the各出现一例,因此学习者表现出过度使用该词块。该词块左一位词大多为with可能是受汉语的影响。笔者使用总字数为167,722的汉语社论语料库做进一步验证,发现“随着”在其中共出现20次,而且全部都出现在段落或句子的开始,证明学习者过度使用词块with the * of且常把该词块置于句首是受到了母语的影响。其次,中国许多新闻报道中常用“随着科学技术的发展”“随着社会的发展”“随着经济的发展”,学习者在写作时常常会对照着翻译成英文,用在自己的作文中,因此母语负迁移可能是造成此类词块超用的原因。这恰好也解释了TEM-4和TEM-8库中词块with the * of中变化词位最常用的类符是development。四级作文中该类符占该词块形符数的69.03%,八级作文中占57.14%,而英美大学生作文和英美社论中该词块的变化词位上没有出现这个类符。在本族语者所写的文章中,该词块左侧词大多为动词,与with构成搭配,例如社论中61.82%是这样的用法,而在TEM-4和TEM-8中大多用在句子或段落开头,尤其在TEM-4中表现显著。从系统功能语言学的角度来看,学习者主要用词块with the * of实现语篇功能,而本族语者主要用该词块实现概念功能,如以下例子:
例4.With the improvement ofour living standards, more and more people use phones instead of letter writing.(TEM-4)
例5.With the adventof 21st century, the world has run into a state of flux, the rhythm of work and life is much quicker than before...(TEM-8)
例7. Why should webe concerned with the life ofa violent criminal?(NC)
例6. It is true that ... but by raising self-esteem andkeeping people in touch with the world ofwork they are certainly not a waste of public money.(EDI)
5.0 结语
基于对中国英语专业学习者议论文语料库四元非毗邻式词块进行定量统计和定性分析,本研究探讨了中国英语学习者四元非毗邻式词块的使用特征,以及与本族语者的使用存在显著差异的原因。研究结果显示,与本族语者相比,中国学习者更倾向使用大量词块进行文本组织和话语表述,对各类词块在语篇中的功能认识模糊,存在少用、超用、误用某些词块的现象。学习者文体意识不强,在写作时具有口语化倾向,这与母语的负迁移和二语学习策略有密切的关系。
综上,无论学习者的二语熟练程度如何,学习者在词块运用的准确程度上都不够高,这与我国传统的以词义为主的词汇教学密切相关,学习者在运用词块时经常单纯地做“中英翻译”,而并不了解词块的内部结构以及本族语者的地道表达。因此,为了提高学习者运用词块的能力以及写作能力,EFL教师应激发学习者对词块的兴趣,培养他们的敏感性,向学习者解释词块的适用语域以及作用意义,在设计学习材料时使用学习者语料库,可了解学习者在某一语境误用、多用及少用某些词块的信息,使词块教学有的放矢(雷秀云,2017:48),同时向学习者展示目的语材料,并讲授本族语者最常用的词块以及词块的结构和其中变化词位上的常用词汇,多数词块有自己的来源背景,引导学习者在文化中学习并掌握词块(徐军、黄永华,2011:59)。教师还可采用不同的教学策略帮助学习者提高词汇的拓展意识和能力,避免简单重复,使学习者的产出更地道、更流利,更接近于本族语。本研究只对部分四元非毗邻式词块的使用特征进行了分析,且研究语料比较有限,后续研究可以研究三元非毗邻式词块的使用特征,或选择其他语料抑或从非毗邻式词块的结构分布上进行研究,以获得新的发现。