大学英语四六级阅读语言难度对比——基于语料库的研究
2013-09-20陈建生
刘 冰, 陈建生
(天津科技大学 外国语学院,天津 300222)
一、引言
大学英语四、六级考试是全国大学英语四、六级考试委员会设计和开发,与教育部考试中心共同实施的一项大规模标准化考试,其目的是准确衡量我国在校大学生的英语综合应用能力,为实现大学英语课程教学目标发挥积极作用。在大学英语四、六级考试各项技能的考核中,阅读理解部分占有很大比重(均为35%)。阅读部分短文词汇丰富,语法覆盖全面,是检测学生词汇、语法及语篇理解能力的重要手段。近年来,国内学者针对阅读理解部分的研究涉及诸多方面,主要包括阅读感知、理解过程、阅读教学、阅读模式等,但阅读测试难度方面的研究较少。判定阅读测试难度涉及诸多因素,包括阅读篇章的题材、体裁、语言难度(包括生词量大小、词汇与结构的复杂程度等)以及测试问题的形式、数量,甚至包括阅读部分的测试时间等。
目前,国内针对阅读测试的语言难度研究刚刚起步,研究方法和标准不一。唐美华从文本结构、语义复杂性(语法隐喻视角)和可读性三个层面对2004年英语专业四、八级新考试大纲施行后TEM 4和TEM 8中阅读理解部分的难度进行了对比研究[1]。该研究使用的两个语料库——英语专业四级和专业八级英语语料库分别由12篇短文构成,语料明显不足,研究结论有一定的局限性。
本研究基于语料库语言学的方法,对大学英语四级和六级考试中阅读部分理解部分篇章的语言难度从不同层面进行对比分析。采用的语料来自1990—2011年间全国大学英语四六级考试阅读理解部分的语篇。通过语料库语言学方法,对四六级考试阅读理解部分语篇的语言难度进行分析,为大学英语四级和六级考试中阅读部分语言难度差异的研究提供了一个全新的角度,对今后四六级测试检测及英语教学工作提出建议。
二、研究方法
(一)研究方法与步骤
本研究通过定性和定量相结合的统计方法,以语料库语言学手段对大学英语四六级阅读部分的语言难度进行整体对比。
词汇特征和语法特征是语料库语言学用来衡量语言难度的主要手段。以词汇层面为界,本研究分为两部分:一是词汇层面的研究,包括词汇密度和词汇难度;二是词汇以上层面的研究,包括平均句长和语法隐喻(被动语态和名词化)。
(二)语料库及研究工具
本研究的数据来自两个语料库:大学英语四级考试阅读语料库(以下简称四级库)和大学英语六级考试阅读语料库(以下简称六级库),两个语料库分别包含1990—2011年大学英语四级和六级考试阅读理解部分的短文。四级库有168篇短文(50052词),六级库有157篇短文(58389词)。为了便于研究,删除了两个语料库中所有短文内超纲词的中文注释。此外,还对这两个语料库分别做了自动词性附码,采用的是分类详细的CLAWS7词性附码集①。
使用的研究工具包括 WordSmith Tools 4.0,UltraEdit 32,AntConc和 Range32等软件。
三、数据对比与分析
(一)词汇层面
1.词汇密度
词汇密度(lexical density)是区别语体正式程度的一个标准,语体越正式,词汇密度越高;反之,语体越接近自然口语,词汇密度越低。词汇密度的一般计算方法是统计语篇中实词和总词数的百分比[2]。
根据胡壮麟对实词和虚词的分类,实词包括名词、动词、形容词和副词[3]。通过对四级库和六级库的检索统计得出,四级库中实词总数为29350个,其中名词12833个,动词9365个,形容词4044个,副词3108个;六级库实词总数为35174个,其中名词15747个,动词10397个,形容词5345个,副词3685个。四级库的实词和总词数的百分比为58.6%;六级库的实词和总词数的百分比为60.2%。相比之下,六级库的词汇密度明显高于四级库。卡方检验的结果也验证了两个库中实词的分布具有显著性差异(见表1)。
表1 四、六级库词汇密度的对比
2.词汇难度
对于大学英语四六级考试阅读部分词汇的难度,本文通过语料库工具Range32(Nation et al.1995)进行分析。Range32的基本原理是将某一文本中的词汇与某一词汇表相比较,观察哪些词出现在该词汇表中及其出现的比率,找出该文本的用词情况。Range32自带三个基础词表,表一是高频词,难度最低;表三是相对的非高频词,难度较表一大。在处理输入的目的文本时,该软件会自动以这三个词频表为参照,输出目的文本的词频等信息。表2和表3分别是四级库和六级库词汇的分布情况。
表2 四级库词汇分布
表2的数据表明,四级库中共出现49255个形符,其中有38880个形符属于基础词表一,3339个形符属于基础词表二,2920个形符属于基础词表三,剩下4116个形符不在三个词表内。四级库词汇在三个基础词表中所占的比例分别为78.94%、6.78%和5.93%,基础词汇以外的词占8.36%,说明四级库的词汇以基础词表一中的词汇为主。
表3 六级库词汇分布
表3的数据表明,六级库中共出现58722个形符,其中有45367个形符属于基础词表一,3529个形符属于基础词表二,4317个形符属于基础词表三,剩下5509个形符不在三个词表内。六级库词汇在三个基础词表中所占的比例分别为77.26%、6.01%和7.35%,基础词汇以外的词占9.38%,说明六级阅读库的词汇也是以基础词表一的词汇为主。
虽然四级库和六级库的词汇都是以基础词汇表一中的词汇居多,但从表2和表3数据对比的结果可以看出,四级库词汇在基础词表三和未列入基础词汇表中的词所占的百分比比六级库低。由此可见,四级库词汇的难度低于六级库词汇。
用语料库方法衡量词汇难度的另一个手段是词长(word length)的统计。词长是指一个单词所包含的字母的数量,单位为字母,如great一词的词长为5个字母。英语中的常用词多为词长较短的词,往往为1—7个字母,8个或8个以上字母的词可以算作长词。长词除了包括一些本身就很长的词,如 etiquette、exaggerate、fertilize等以外,绝大多数是通过不同构词法构成的合成词或派生词,如aluminum-coated、irresponsible、philosophically、unaffordable 等,因此,长词无论从记忆还是从理解角度看都是具有一定难度的词。
使用WordSmith Tools对四级库和六级库的平均词长进行统计,结果四级库为4.76,六级库为4.88,表明两者的平均词长差别不大。但是我们不能因此得出结论,认为两个库中词汇的难度相当。WordSmith Tools在词长的统计结果中详细列出了各词长单词的数量,我们可以据此来对比两个库在词汇难度方面的差异。表4是两个库中8个字母及以上的长词在总词数中所占的百分比和卡方检验的结果。
表4 四、六级库词长词分布的对比
表4的数据表明,两个库在长词的数量上具有非常显著的差异,说明六级库的词汇比四级库难度大。
(二)词汇以上层面
1.平均句长
平均句长是指一个语篇中句子的平均长度,以词数为统计单位。一般来说,简单句的句长较短,容易理解;并列句、复合句或并列复合句的句子较长,较难理解。因此,通过对平均句长的统计和对比可以从一个侧面了解语篇的难度。通过对两个语料库的总句子数和平均句长统计,四级库共有2623个句子,平均句长为19.18词(标准差是10.00);六级库共有2915个句子,平均句长为20.31词(标准差11.19)。独立样本 t检验的结果(t=3.95,df=5536,p<0.0001)表明两个语料库的平均句长存在非常显著的差异,六级库的平均句长比四级库长。
2.语法隐喻
语法隐喻是影响语言材料难度的重要因素。Halliday区分了两种语法结构对语义的体现关系,一种是一致式,即语言结构直接反映现实世界;另一种是隐喻式,即语言结构不是直接反映现实世界,体现出了不同的语言单位之间的转换过程[4]。这种语法结构对语义的不一致体现就是语法隐喻。
语法隐喻阻碍了学生阅读理解的过程。范文芳分析了决定语篇难易度的因素,认为在其它因素相同的情况下,语篇中语法隐喻的含量越高,语篇的难度就越大[5]。Ravelli指出,外国学生在掌握英语语法隐喻时会比较困难。造成这些问题的根本原因就是语法隐喻的复杂性[6]。Lassen在研究专业技术手册时,曾提到语法隐喻的五种体现形式:名词短语、被动语态、定冠词省略、非限定动词V-ing形式和省略句[7]。通过韩礼德对语法隐喻的定义,语义的不一致表达形式都属于语法隐喻的范畴。以下针对语法隐喻的几个主要形式(被动态和名词化),分别对四级库和六级库做统计分析和对比。
被动语态通过设计完善的正则表达式检索项,在经过词性附码的两个语料库中检索被动语态谓语的使用情况。表5是两个语料库中被动语态谓语使用情况的对比。
表5 四、六级库被动语态谓语的对比
表5的数据表明,两个库在被动语态谓语的使用上没有显著性差异(p=0.9)。
名词化是指把别的词类加上-tion、-ment、-ness、-ity(包括其复数)等后缀转化成名词的语言现象。Halliday认为名词化是语法隐喻的主要体现,指出“名词化是创建语法隐喻的唯一最强大的手段”[4]。名词化表达抽象的概念和过程。名词化程度越高,语言越抽象,语言难度越大。由于统计两个语料库中全部名词化现象有一定困难,本文只对几个高频名词后缀进行统计和比较。表6是四级库和六级库名词化情况的对比。
表6 两个语料库中名词化使用情况的对比
表6的数据表明,在对所选的几个常用名词后缀的统计中,六级库的名词化现象与四级库有非常显著的差异。因此从名词化的角度分析,六级库语言难度高于四级阅读。在名词化统计的过程中,检索结果中存在噪音(noise),如nation是以-tion结尾的名词,但不属于名词化。考虑到对四级库和六级库均采用未排除噪音的方法统计,因此结果仍有效,且具有可比性。
四、结语
本研究基于语料库语言学的方法,通过词汇和词汇以上两个层面对大学英语四级和六级阅读的语言难度进行比较。
词汇层面上主要从词汇密度和词汇难度两方面进行分析比较。在词汇密度方面,六级库的词汇密度明显高于四级库。卡方检验的结果也验证了两个库中实词的分布具有显著性差异;在词汇难度方面,通过语料库工具Range32进行分析,得出四级阅读的词汇主要集中在Range32的基础词表一和基础词表二,而六级阅读的词汇主要集中在Range32的基础词表三和基础词以外的词。总而言之,在词汇层面上,六级阅读部分语言难度高于四级。由此可见,四级库词汇的难度低于六级库词汇。在平均词长方面,本研究使用WordSmith Tools对四级库和六级库做了统计,结果表明,两者的平均词长差别不大。但是,两个库中8个字母及以上的长词在总词数中所占的百分比和卡方检验的结果表明,两个库在长词的数量上具有非常显著的差异,再次说明了六级库的词汇比四级库的难度大。由此可以看出,四六级库的语言难度在词汇层面上有着显著的差异,六级库语言难度明显大于四级库。
词汇以上层面主要从平均句长和语法隐喻两方面进行分析比较。在平均句长方面,结果表明两个语料库的平均句长存在非常显著的差异,六级库的平均句长比四级库长;在语法隐喻方面,六级库语言的名词化现象大于四级库,说明六级库语言难度明显大于四级库。然而,四六级库的被动语态现象没有显著区别。出现这种结果的原因,可能是因为四六级库篇章的体裁没有固定的比例,在不同体裁下被动语态的使用率不同。综合以上结果,在词汇以上层面,六级库语言难度远远大于四级库。
综合上述两个层面,大学英语四六级阅读部分的语言难度具有显著差别,六级阅读部分语言词汇使用更广,语言的客观抽象程度更高(本文主要从语法隐喻角度出发),句子的复杂程度也更高。由于篇幅所限,本研究除了从词汇及词汇以上两个层面对四六级阅读语篇的语言难度进行研究外,并未涉及到语篇体裁和语言难度的关系,这一点有待继续研究。
本研究通过语料库语言学的研究方法对大学英语四级和六级阅读部分的语言难度进行了分析比较,从词汇和词汇以上层面证明六级阅读语篇的语言难度大于四级,对今后的大学英语教学有一定的指导意义。在今后的大学英语教学中,教师应针对不同学习阶段,让学生集中掌握本阶段范围的词汇。此外,教师应该意识到语法隐喻在语篇中的大量存在增加了语篇自身的难度,同时降低了学习者的阅读速度,进而引发了学习者情感上的焦虑,最终阻碍了学习者对阅读材料的理解,极大地制约了学习者语言能力的发展。在教学过程中,教师应重视句子的复杂性和语言的抽象性,学生应逐渐掌握复杂的句子,重视语言之间的逻辑关系。除教学启发外,本文研究大学英语四六级阅读语言难度的方法也可以作为一种全新的、检验测试难度的方法。
注释:
①有关自动词性附码和附码集的详细情况请参见http://ucrel.lancs.ac.uk/claws7tags.html。
[1]唐美华.英语专业等级考试中阅读理解对比分析[J].吉林省教育学院学报,2009(1):75 -77.
[2]Ure J.Lexical density and register differentiation[M]//Perren G,Trim J L M(eds).Applications of Linguistics.London:Cambridge University Press,1971:443 -452.
[3]Hu Zhuanglin.Linguistics:An Advanced Course Book[M].Beijing:Beijing University Press,2002.
[4]Halliday M A K.An Introduction to Functional Grammar[M].Beijing:Foreign Language Teaching and Research Press,2000.
[5]范文芳.语法隐喻对语篇阅读难易度的影响[J].北京大学学报:外国语言文学专刊,1996(3).
[6]Ravelli L J.Grammatical metaphor:An initial analysis[M]//Steiner E,Veltman R(eds).Pragmatics,Discourse and Text.London:Frances Pinter,1988.
[7]Lassen Inger.Accessibility and acceptability in Technical Manuals[M].Philadelphia:John Benjaminis B.V.,2003.