基于语料库的阅读语篇复杂度对比研究
2021-09-10原蓉田兴斌
原蓉 田兴斌
摘要:阅读理解因其占据较大的分数比例,在语言测试中一直占有重要的地位。作为选拔高质量研究生的语言测试和目前国内最为广泛的检验大学生英语能力的全国性统一标准化考试,研究生入学考试英语一和大学英语六级的重要性不言而喻。本研究运用语料库软件Range和Readability analyzer从词汇、句长、语篇长度以及可读性层面对这两类考试的阅读语篇进行对比分析。
关键词:研究生入学考试英语一;大学英语六级;语篇复杂度
一、引言
据统计,2021年全国考研人数已突破400万,而研究生英语入学考试(下文称为英语一)在考研中占据着重要的地位。英语一适用于全部学术型硕士研究生以及部分专业型硕士,如法律、汉语国际教育、建筑学、临床医学、口腔医学、护理和公共卫生等专业型硕士。英语一试卷共包括英语知识运用、阅读理解、英译汉和写作四种题型。其中,阅读理解所占分值最多,比重最大,同时也是考生们最为关注的部分之一。那么,在英语一的阅读理解部分中所需要的词汇量和语篇理解能力与大学英语六级的阅读理解有什么异同呢?
目前,关于研究生英语入学考试阅读部分的研究很多,如王立阳和申如冰于2019年对比分析了考研英语一和英语二阅读语篇的难易度,分析出考研英語一的阅读语篇要难于考研英语二。李鹏和赵妍于2014年通过评估研究生入学英语试卷一,探讨其中存在的问题并提出解决的建议,为准备考研的学生提供了一定的参考。杨旭和裴学梅于2018年对研究生入学考试英语一与托福阅读语篇的复杂度进行了对比研究,研究发现无论是在单词长度、句法、深度衔接还是相邻段落之间的潜在语义交叉,二者都存在着显著性的差异。但是研究者们很少研究中国大学生英语六级考试的阅读理解与考研英语一阅读理解之间的联系。中国大学生英语六级考试是由国家统一出题的全国性考试,用于评定已修完大学英语六级的学生是否达到了教学大纲的要求。那么,学生在准备大学英语六级考试时所习得的词汇和英语知识是否能为其考研英语一服务呢?因此,为探讨这一问题,本研究运用语料库工具readability analyzer和range,以大学英语六级考试的英语阅读为参照,分析研究生入学考试英语一阅读语篇在词汇、句长、语篇和可读性层面上的复杂度,探讨二者之间的异同。
二、阅读语篇的可读性和测量方式
阅读语篇的可读性或者易读性指的是阅读语篇的难度,即语篇难以理解的程度。影响阅读语篇难度的因素主要是语言的词汇复杂度、句子复杂度、语篇的长度以及文本复杂度等。
词汇复杂度可从平均词长、词目比率、词的形符类符比和标准形符类符比、词目的形符类符比和标准形符类符比六个维度来衡量。词汇复杂度将通过语料库软件Range进行测量,并搭配readability analyzer软件一起使用。Range软件是一个用于分析文本中词汇广度和深度的语料库工具,它自带若干个基础词表,也就是高频词表,可以统计出语篇中的词数、词目数、词群以及这些词在不同的词表中所出现的频率和占比情况等指标。
两项考试阅读语篇中句子的复杂度、语篇长度以及文本可读性便从由贾云龙和许家金开发的语料库语篇分析软件readability analyzer中获取。这一软件能计算一组传统的可读性数值,像弗莱士易读度和金凯德难度等级以及一些其他测试语篇词汇复杂度的指标,如形符类符比、标准化的形符类符比、平均单词长度、平均句长以及词或形符的描述性统计,其中弗莱士易读度数值越小,易读度越高,而金凯德难度级数越大,难度越高。
三、分析和讨论
本研究使用的语篇有两组,分别包括2005年到2020年考研英语一的阅读理解语篇和大学英语六级考试的阅读理解语篇60篇和66篇。为了使研究结果具有可比性,排除了选词填空、快速阅读和考研英语一中的新题型,仅保留了阅读之后需要做单项选择题的语篇。随后,运用语篇整理器统一两组语篇的格式,如删除两组语篇中阅读的标题、标注、英语释义、汉语释义以及更改标点符号为英文输入等。接下来将从词汇特征、平均句子长度、语篇长度和可读性四个方面对两组语篇的特征进行分析:
(一)词汇特征
考研英语一和大学英语六级阅读语篇中的词汇特征主要从词汇覆盖率、词频分布、平均词长以及词汇密度四个层面来体现。其中,词频和词汇覆盖率的数据由range语料库软件进行统计分析,得出如下结果:
大学英语六级的阅读语篇共计30382个词,可分为6016个词类,这些词类来源于1754个词组。其中,在基础词表一中,大学英语六级阅读共有21620个词,这21620个词占阅读文中总词量的71.16%,而在基础词表一里有1960个词类,占语篇总词类的32.58%。除此之外,这些词类又可划分成一些词群,如care,careful,careless等词同属于一个词群。从基础词表一的统计结果来看,这1960个词类来源于864个词群。且在这一词表中,词汇覆盖率达到71.16%。
同样,在基础词表二中,六级阅读有1698个词,占总词数的5.59%,有763个词类,占总词类的12.68%,从属于472个词群。而在词表三中,有2108个词,占总词量的6.94%,共有816个词类,占总词类的13.56%,从属于418个词群。此时的词汇覆盖率为基础词表一的词汇覆盖率加上基础词表二和三的词汇覆盖率,即为83.69%。
此外,大学英语六级的阅读语篇中有4956个词不在上述三个基础词表中,占总词量的16.31%。而在这一词表中的词汇共分为2477个词类,占总词类的41.17%。
Range软件的三个基础词表是按词汇频率由高到低统计而成的,由此前三个词表是使用频率最高的词。正如上文对统计数据的分析,83.69%的词来自于前三个基础词表,而低频词的词汇覆盖率仅有16.31%。
考研英语一在基础词表一、二和三中分别有 19774、1502和2140个词,占总词量的比例分别为71.81%、5.45%和7.77%。由此看来,前三个词表的词汇覆盖率为85.03%,而低频词的共计4121,占14.97%。
综上,在大学英语六级考试的阅读语篇和考研英语一的阅读语篇中,高频词分别占据83.69%和85.03%,而低频词分别占16.31%和14.97%。因此,大学英语六级的阅读理解比考研英语一的阅读语篇含有更多的低频词和较少的高频词,那么可以粗略地说,考研阅读理解的词汇复杂度更高,更难,且词汇丰富度更高。此外,前人研究中指出高频词的覆盖率达到95%是能基本理解语篇全文的一个阈值。而两组语篇均未达到这一阈值,说明无论是六级阅读语篇还是考研英语一的阅读语篇对于考生来说都有一定难度,且考研阅读要更难一些,拥有更广泛的词汇覆盖率和词汇复杂度。
然而,为了得到关于词汇复杂度或词汇丰富度更详细的信息,需要使用readability analyzer语料库工具对两组语篇的平均词长、词目比率、词的标准形符类符比、词目的形符类符比以及词目的标准形符类符比进行进一步的分析,随后使用SPSS软件进行独立样本T检验,结果如下:
两组语篇在以上几个指标中均无显著性差异,即P值大于0.05,但是两组语篇在某些层面中仍有差异。具体分析如下:两组语篇中AWL的平均值相等,没有差异,说明六级阅读语篇和考研阅读语篇的平均词长一致。而六级中的Word TTR、Word STTR和Lemma TTR略高于考研阅读语篇,也就是说六级阅读语篇的词的形符类符比和标准形符类符比以及词目的形符类符比均要略高于考研英语阅读语篇。其中词目比率、词的形符类符比和标准形符类符比以及词目的形符类符比和标准形符类符比常用于测量词汇密度的,在这几个指标中六级阅读语篇略高,就说明六级阅读语篇中词汇的重复率要高于考研英语一阅读,即六级阅读语篇词汇丰富度略低。同时,这也证实了Range统计分析出的结果,考研英语一的阅读语篇拥有更广的词汇覆盖率,词汇丰富度更高。
总之,在词汇特征方面,六级阅读有更多的低频词汇,更少的高频词汇,而考研阅读词汇量更广泛,词汇丰富程度更高。
(三)平均句长和语篇长度
平均句长影响句子的难度,并且与阅读语篇的易读度相关。从readability analyzer的统计结果来看,与考研英语一相比,从2005年到2020年六级阅读中平均句长的整体变化趋势较为平稳且句子长度略短。但在经过独立样本T检验之后发现,二者平均句长P值大于0.05,因此二者的平均句长并没有显著地差异,但总体来讲,考研英语一阅读语篇的句子长度要略长于大学英语六级阅读。
在2005至2020年间,英语六级的语篇长度在1592至1801间波动,最低的是在2009年,最高的是在2010年,波动幅度比较小,仅有209个字。而考研英语一阅读语篇的长度在888至7521间波动,最低的是在2008年,最高的在2017年,波动幅度极大,高达6633个字。从变化趋势来看,英语六级阅读语篇的较为平稳,而考研英语一阅读语篇的波动幅度较大,特别是从2005年至2008年字数极剧锐减,虽2008年至2016年逐渐平稳过渡,但到2017年又攀至顶峰,而从2017至2020年又逐渐下降且趋于平缓。总体来看,考研英语一的阅读语篇要长于六级阅读,且每年的语篇长度变化较大。
然而,在进行独立样本T检验之后发现,英语六级阅读语篇的长度与考研英语一的阅读语篇长度虽有差异但并没有显著差异。
(四)可读性
为了分析两组阅读语篇的可读性,本研究运用readability analyzer软件分别计算了两组语篇的弗莱士易读度和金凯德难度级别。正如上文中提到的,弗莱士易读度数值越小,语篇越难。数值在0-59之间为难,60-69为标准,70-100为简单。金凯德难度等级与句子中的词数和每个词的音节数有关。它与弗莱士易读度相反,金凯德难度等级越高,语篇越难。
同样的,在可读性方面,大学英语六级阅读和考研英语一阅读并没有显著性差异,但是二者存在差异。具体来看,大学英语六级的易读度常在40-50之间波动,2010年有一篇易读值非常接近30,而考研英语的易读度多在30-50之间波动,2012-2015年间有两篇阅读易读值低于30,2016年有两篇非常接近50。根据弗莱士易读度的规定,低于30为非常难,30-50之间为较难,因此无论是大学英语六级阅读还是考研英语一阅读的平均难度均为较难,有个别年份为特别难,总体来看,考研英语一的阅读要比大学英语六级的阅读要难。且从金凯德难度等级来看,考研英语一的阅读语篇和大学英语六级的阅读语篇的难度等级基本一致,但是考研英语一阅读难度略高一些,这一结果与弗莱士易读度的结果一致。
结语
本研究运用语料库工具Range和Readability Analyzer从词汇特征、句子长度、语篇长度和可读性四个方面对大学英语六级阅读语篇和研究生入学考试英语一阅读语篇的语篇复杂度进行了对比分析。研究发现,二者在这四个方面均有一定差异但没有显著差异。在词汇层面,六级阅读和考研阅读平均词长是一致的,但六级阅读语篇中词的形符类符比和标准形符类符比以及词目的形符类符比均要略高于考研英语阅读语篇,这说明考研英语一阅读语篇中词汇的重复率要低于大学英语六级阅读,且拥有更广泛的词汇量。在平均句长和语篇长度方面,考研英语一阅读语篇的平均句长要略长于大学英语六级的阅读语篇,语篇长度亦是如此,但考研英语一阅读语篇的语篇长度波动比较大,语篇复杂度变化较大。在可读性方面,考研英语一的可读性要略低一些,有几篇阅读的难度值甚至接近30,为非常难。
总之,考研英语一的阅读难度在以上四个层面均要略高于大学英语六级阅读,但同时二者的阅读难度也非常的相近,所以在准备大学英语六级时所习得的英语知识对考研英語一来说是有一定帮助的。需要注意的是,考研英语一的词汇量要更广泛,句子长句要更长,语篇也要略长一些,在准备考研英语一的过程中,考生定要重视扩大词汇量,加强对句法知识的练习,提高分析句子的能力,并通过记时练习阅读以适应其语篇长度。
参考文献:
[1]黄娟,虞程远,彭莹莹.全国硕士研究生入学考试(英语一)阅读理解测试内容效度研究(2012-2016)[J].考试研究,2017(05):64-71.
[2]曹琳爽.基于语料库的雅思作文Task 2词汇复杂度研究[J].英语教师,2017,17(14):23-25+30.
[3]许智坚.信息技术环境下的文本易读性分析及其工具[J].龙岩学院学报,2014,32(06):44-51.
1.贵州大学外国语学院 贵州省 贵阳市 550025
2.铜仁学院 国际学院 贵州省 铜仁市 554300