APP下载

中国大学生英语学术写作的口语化倾向
——一项基于语料库的词块研究

2021-07-12

吉林省教育学院学报 2021年6期
关键词:语体词块语料库

左 欣

(长春工业大学外国语学院,吉林长春130000)

近几十年来,我国的大学英语教学经历了几次重大改革。新的大学英语课程要求将传统的英语学习次序(阅读、听、说、写和译)修订为语言自然习得次序(包括听、说、读、写和译)。听说技能得到学生、英语教师们和全社会的广泛重视。因为有了计算机、智能手机和网络等现代化手段,使中国英语学习者拓宽了语言输入的渠道。特别是互联网的广泛使用使英语学习者能够访问在线英语课程,听说技能有了明显的提高。但在语言学习的过程中,由于中国大学生对英语书面语和口语语体的区别掌握得不准确,导致我国大学生的英语书面语与本族语的书面语存在很大区别,使得口语表达方式发生在中国英语学习者的写作中[1]-[3]。本项研究从词块结构的角度分析我国大学生英语学术写作的特点,进一步研究该问题。

一、研究背景

(一)词块的研究

词的序列由于研究目的的不同而被赋予不同的定义,最常见的术语是词块(lexicalbundles)、递归词 组 合(recurrentwordcombinations)、多 词 表 达(multi-wordexpressions)、簇(clusters)、公式序列(formulaic sequences)和词汇短语(lexicalphrases)等。语料库分析方法为研究词块在流利的口语和书面语篇中的普遍使用提供了可能性。Biber[4]在《英语口语和书面语的朗曼语法》(LGSWE)中把词块定义为构成会话和学术文本的基本单位,它在每百万个单词中至少要发生10次。此外,词块是指“三个或三个以上单词中最常见的重复序列”,它们需要符合频率和分布的文本数量标准。第一个标准,频率准则要求一个词块在大型语料库中,每百万字中出现20-40 次[5],最小频率点一般设置为每百万字10次或20 次[6]。第二个标准,分布的文本数量要求组合发生在不同的文本,通常要出现在大约3-5 个文本[7]或 10%的文本中[5]。虽然大多数词块是不完整的结构单元,但LGSWE 通过频率分析识别词块后,通过描述词块的初始元素和总体结构,Biber[4]将它们分为 12 种结构类型,Conrad 和 Biber[8]认为含有动词和人称代词的词块更倾向于发生在对话中,而学术论文则倾向于使用含有名词和介词短语的词块,并且根据作用可分为词块的结构性和词块的功能性。本研究主要探讨词块的结构性。

(二)学习者写作中的词块研究

Coxhead 和 Byrd[9]发现词块的适当掌握不仅是熟练语言学习者的标志,而且词块还可以帮助二语学习者轻松地用公式化序列而不是单个词语来写作。一些研究探讨了在不同水平的英语学习者写作中使用词块的问题。De Cock[10]发现,目标语言词块在熟练学习者的写作中有过度使用、使用不足和误用现象。Römer[11]的研究发现某些词块在高级写作中具有较高的频率,而L1 和L2 学生则倾向于更少地使用它们。Chen 和 Baker[12]研究了 L1 发表的学术文本与中国学生学术写作之间的词块差别。他们的研究发现,L1 高水平学术作者使用的词块比L2 学术作者更广泛。Adel 和 Erman[13]指出,与 L2 写作者相比,L1写作者对词块和不同的词块类型有很强的偏好。相比之下,Hyland[14]在研究中证明了语言习得是一个不同的发展过程,他发现L2研究生在学术写作中,比熟练的L1 学术写作者使用更多的词块。Staples[15]等人研究了在托福IBT的三个熟练程度的书面答复中使用的词块。这项研究表明更多的词块出现在低级考生的反应和测试提示中。无论L2作者的熟练程度如何,他们极少地使用所指词块,但他们在立场词块和话语组织词块的使用方面几乎相似。国内学者王立非、张岩[16]在与本族语书面语对比的过程中发现,三词词块在我国大学生议论文中被过度地使用,并且集中使用某一词块的种类,与本族语使用者具有明显不同,具有一定的口语化倾向。万丽芳[17]纵向探讨我国英语专业本科学生书面语四词词块使用特征,发现英语专业学习者的词块类型欠缺,但总量较大;有词块被过度使用,或过少使用的情况存在;随着英语水平的提高,词块使用的能力也随之有所提升,但与本族语使用者相比,具有明显差异并存在口语化倾向。

综上所述,国内外学者很少对L2学术写作中发生的会话词块进行分析,也很少从词块结构特征的角度进行研究,国外研究的重点则集中在L2 和L1学术写作这同一语体的词块上。国内学者则主要集中在书面语的口语化倾向,词块的研究倾向于与本族语的书面语语料库进行对比,口语化倾向的问题并没有基于对比本族语的口语语料库而提出。因此,本研究基于本族语口语会话料库和学术写作语料库,对比学习者语料库,从词块结构的角度进一步分析我国大学生英语学术写作口语化倾向的问题。

二、研究设计

(一)研究问题

研究:具有口语特征和学术文体特征的词块结构是否在我国大学生英语学术写作中出现,大学生的学术写作更倾向于哪一种文体。

(二)语料库和研究方法

本研究的语料来自中国学生万篇英语作文语料库(TECCL)、当代美国英语语料库(COCA)中学术写作和口语会话两个部分的语料库。本研究剔除TECCL 中的中学生作文、演讲和记叙文,选出大学生的议论文写作5,081 篇(相当于初级学术写作),随机选出2012 年COCA 语料库中的学术文本300篇,口语会话文本300 篇(见表1)。本项研究分析最常见的三词和四词构成的词块,因为它们最能表现出文本模式的书面语和口语特征[4]。把频率(frequency)和离散率(dispersion)作为识别词块的两个基本标准[18]。采用 Biber[18]对词块的计算方式,即频率为每百万字发生40 次,并出现在至少5 篇文本中。分析软件使用AntConc3.4.0,在三个语料库中分别检索出前100 个高频次出现的三词和四词词块,作为本研究的目标词块,并对三个语料库的词块结构特征进行对比分析。

表1 语料库的构成

三、分析与讨论

(一)语料分析结果

Biber[7][18][19]认为虽然许多词块具有结构不完整的显著特征,但它们可以根据语法特征被识别和分类。在表达个人意见的口语会话中,更多地使用动词、人称代词和疑问句。相比之下,学术文本则更倾向使用名词和介词短语,因为它们的结构特征能更好地传达各种特定信息。因此,本研究根据Biber[7][8][18][19]和 Conrad[8]的分类,分析具有口语和学术文体特点的四种主要词块结构类型,即人称代词+动词短语(补语从句)(Personalpronoun+lexicalVP(+complementclause))、动词(具有主动涵义)短语((aux+)activeV(+))、介词加名词短语(Preposition+NPfragment)和名词短语加介词后修饰成分(NPwithpost-modifierfragment),其他不具有典型学术文体和口语语体特征的词块结构类型在本研究中不作讨论(见表2)。

表2 三种语料库中主要词块结构类型的百分比(%)

(二)我国大学生英语学术写作中的口语化倾向

两种具有典型会话特征的词块占TECCL 总词块的46%(见表2)。相比之下,它们占COCA 会话中的词块为56%。然而,这些结构在COCA 学术文本中仅占11%。语料研究发现,在TECCL 中出现大量与第一人称代词捆绑在一起的词块,因此TECCL中人称代词+动词短语(补语从句)的词块数量达到32%,明显高于COCA 学术文本的2%,与其相差30个百分点;趋近COCA 会话中的41%,与其相差只有9 个百分点。在TECCL 中,我国大学生作为英语学术写作的新手,过度地使用含第一人称代词的词块,如I believe that;I don’t know;I think it等,这些词块结构和表达方式属于明显的口语会话结构词块。传统意义上讲,学术文体不鼓励频繁使用第一人称代词来陈述作者的观点,这可以解释COCA 学术写作中含有第一人称代词词块和含有人称代词的词块比例很少的原因。其次,由于母语作者与二语习得者相比,拥有更广泛的表达方式和掌握更多的词块结构类型,因此在表述作者自身想法的时候,可以取代人称代词,使用其它词块结构比如the author thinks。在一些学者[10][12]的研究中印证了这个观点,即母语作者比二语习得者在学术文本中使用的词块更广泛。此外,在COCA 学术文本中,I 或We之后的动词短语的多样性也导致包含第一人称代词词块集中出现的频率较低,而不同于TECCL中高频出现的I think that。具有会话特征的另一个词块结构是动词词块,在COCA 会话、学术文本和TECCL 中的比例分别为15%、9%和14%。COCA 学术文本中的百分比最低,COCA 会话的占比最高,与TECCL 的百分比接近,二者仅仅相差一个百分点。具有会话特征的人称代词词块和动词词块在COCA会话中占比最高(见图1),高出COCA 学术文体45个百分点,足以说明在不同语体中本族语者使用不同结构的词块,而我国英语学习者在学术写作中过度地使用了口语会话词块,在总量上更接近COCA中的会话词块总量。因此,TECCL 中两种典型的会话词块结构类型与COCA 会话中的结构类型相似,我国大学生的英语学术写作具有明显的口语化倾向。

图1 在三个语料库中具有会话特征的词块总量(a)和具有学术写作特征的词块总量(b)

两种具有典型学术文体特征的词块也出现在TECCL中,名词短语具有后修饰短语和介词加名词短语的词块作为学术文本的典型结构特征,在TECCL 中占词块总百分比的32%(见表2),而在COCA学术文本中占67%,明显低于英语母语者的学术文体,高于COCA 会话文体的20%。具体来说,TECCL只包含11%的名词短语加后修饰成分,接近COCA会话中的10%,但在COCA学术文本中达到38%。学术文体的另一个突出特点是常用的介词短语词块,在COCA 学术文本中达到31%,在其口语文体中占10%,在TECCL 中占百分比为21%,处于二者中间。由于这两种结构的词块在TECCL中达到32%,但它们的比例权重明显低于COCA 学术文体的67%,接近COCA 口语文体的20%。具有学术文体特征的两种词块类型,在COCA 学术文体中占比最高(见图1),高出COCA 会话47 个百分点,同样可以说明在不同语体中本族语者使用不同结构的词块。而TECCL 比COCA 学术文体少35 个百分点,但多出COCA 会话12 个百分点,说明我国大学生在学术写作中,初步显现出使用学术文体特征的词块结构的趋势,但在使用数量上还远远少于本族语者,使得其在具有学术文体特征的词块使用总量上更接近COCA 口语会话中的词块数量。因此,我国大学生英语学术写作中的词块在结构上接近于会话文体,缺乏学术文体特征。

(三)口语化倾向的原因

造成我国大学生英语学术写作口语化倾向的原因有很多。首先,在学生写作中,会话词块的误用可以通过他们过多的接触口语会话来解释。由于我国经济和国际交流的需要,在过去近二十年的英语教学中,我们强调对学生口头交际能力的培养,注重口语形式的大量输入。这种输入开始于中国幼儿早期的英语口语学习,输入的渠道多种多样,如英文歌曲、线上外教英文口语课、在线或电视上观看英语节目和英文电影。这样大量的语言输入使口语表达方式深深植入学生的头脑中,必然导致在大学生学术写作中出现口语化倾向。其次,在我国的《大学英语课程要求》中,对书面语和口语的语体区别没有提出明确要求,也就使教师们在英语教学中忽视对两种语体区别的教育,导致学生对学术文本的规范性缺乏应有的关注。在整个学习英语的过程中,学生对词块的结构性差异所知甚少。

四、结束语

本研究的结果表明,具有口语特征和学术文体特征的三词和四词词块结构都出现在我国大学生英语学术文本写作中。在词块结构上大学生倾向于误用和过度使用口语会话词块结构,具有很强的口语语体特征,学生们词块结构的使用不同于本族语的学术文体特征。口语会话和学术写作作为两种不同的语体形式,区分是相对而言的,但不是完全对立的,二者有词块重叠的现象,但差异也是显著的。

因此,在教学中,我们既要重视英语口语的实际交流作用,关注它与学术文体的共性,更要重视它们的差异性,区分两种语体在词块结构使用方面的异同。首先,词块学习比语法学习更重要[20][21],学习者英语语言使用得是否准确和地道与词块的使用有直接关系[22],二语学习者有意识地通过学习和训练[23]才能掌握大量的词块,才能在交流中趋近于本族语者的选词能力。在教学中,通过鼓励大学生多阅读学术期刊、文献、论文等方式,增加学术英语词块的输入量。引导学生在阅读的过程中,尽可能多地掌握具有学术文体特征的词块结构类型,扩充词汇量。其次,引用语料库等计算机辅助教学手段,引导学生主动思考和识别具有学术文体特征的词块,有意识地在口语会话语料库和学术写作语料库中区分词块的语体特征。鼓励学生在识记和背诵词块的过程中,从语体角度重视词块结构特点,学会在语体中正确地使用词块,逐渐地使我国大学生英语学术写作口语化倾向的问题得到改善。

致谢

特别感谢Susan Conrad为本研究提供的当代美国英语语料库(COCA),和她在2017-2018年为本人在波特兰州立大学访学期间对原稿提出的建设性意见。

猜你喜欢

语体词块语料库
基于语料库的清末民初日源外来词汉化研究
如何在高中英语词汇教学中运用词块理论
新时代新闻播音主持的语体变化特点
言语交际中语体的得体性探讨
词块在英语写作教学中的应用
运用语料库辅助高中英语写作
英语专业学生与本族语名人演讲中词块使用特点探究
高中英语词块教学现状调查研究及应用策略分析
语体语法:从“在”字句的语体特征说开去
汉代语体思想浅谈