APP下载

大学英语精读教材与CET4阅读材料易读性的比较

2019-04-11潘筱

文教资料 2019年2期

潘筱

摘 要: 结合潜伏语义分析技术,Coh-Metrix是一项可以测量文本衔接性和文章难度的自动分析工具,它突破了以往传统的易读性公式仅限于对文章表层形式特征的统计的局限性,可以在线同时测量文本特征、衔接手段、词汇多样性、句法复杂度和文本可读性等106个文本特征。本研究尝试利用这一工具对大学英语精读教材和四级阅读理解部分的语言难度进行量化分析,了解目前非英语专业大学生使用的英语教材和阅读考试的语言难度差异。实验发现大学英语精读教材第一、二册的文章易读性远低于CET4阅读材料,且精读教材第一、二册之间没有明显的难度差异。

关键词: 易读性 Coh-Metrix 潜伏语义分析

1.研究背景

难度系数不是衡量阅读难度的唯一标准,文章难度还与体裁和话题有关。尽管如此,难度系数仍然可以作为语言复杂性的量化指标[1],我们有必要探讨文章阅读的难度系数。传统计算文章难度系数的方法主要依赖于易读性公式,其中应用最广泛的是弗莱士易读性公式Flesch Reading Ease[2]。Flesch Reading Ease=206.835-1.015*ASL-84.6*ASW,其中ASL指平均句子长度,由文中单词总词数除以句子数量得来;ASW指每个单词的平均音节数,由总音节数除以单词总词数得来。但是该公式只考虑了语言材料的形式要素,如单词长度和句子长度,这些指标只能反映文本的一部分表层特征。Carrell, P.L. (1987)[3]也指出传统的易读性公式是基于句子长度和单词长度的简单算法,它们对于母语使用者阅读文章难度有一定的预测效果,但对于二语学习者来说,因为没有考虑读者因素、句法复杂度、修辞手法及命题等因素,所以预测效果差;Brown, J.D. (1998)[4]测试了传统易读性公式对于测量二语学习者阅读文本难度的信度,并得出结论传统公式不能精确地预测文章难度。

我国过去有关教材易读性的研究多利用的是Flesch Reading Ease公式,如辜向東,关晓仙(2003)[5]利用该公式对大学英语四六级考试的阅读测试和大学英语的阅读材料进行了易读度抽样研究;邓微波(2013)[6]用该公式比较了新老《21世纪大学英语》读写教程的易读性,指出新教材的优点及不足之处;郭苏颖,卢水林(2014)[7]也利用该公式对人教版高中英语教材阅读文本进行了易读性调查,并结合学生访谈探讨了高中英语教材的整体现状。

然而,计算语言学、语料库、信息提取和检索技术的进步使得人们在计算易读性的过程中可以将诸如连贯性、意义建构和词汇解码与句法解析等认知因素考虑进来。Coh-Metrix正是一项可以从语言、话语和概念分析等不同角度测量文章连贯性和难易程度的计算工具。Crossley et. al (2008)[8]利用Coh-Metrix提出了适合二语学习者的二语易读性指标(Coh-Metrix L2 Readability,简称RDL2),它在计算过程中主要考虑以下三个方面:实义词的对数平均数,相邻句子间的句法相似度和实义词的重叠。二语易读性指标数值越高,代表文本阅读难度越大。Crossley et. al (2011)[9]通过实验证明二语易读性指标日本学生英语完形填空得分的相关度(r=0.93)高于弗莱士易读性(r=0.86),在衡量二语学习者文本难度时更为有效。因而本文尝试利用Coh-Metrix二语易读性指标量化比较大学英语精读教材中的课文与CET4阅读材料的难度系数。

2.研究设计

2.1研究问题

本研究通过抽样选取并分析对比我校大一新生使用的公共英语精读教材中的课文和近几年全国大学英语四级考试中的阅读材料,主要回答以下几个问题:

1)我校大一新生使用的公共英语精读教材中的课文阅读难度是否与全国大学英语四级考试中的阅读材料难度相当?

2)如果难度有差异,主要体现在与易读性相关的指标中的哪一方面?

3)我校大学生使用的精读教材在不同册的文本阅读难度的设置上是否有显著的差异?

2.2语料选取

因为我校绝大多数学生在第一学年(两个学期)学习公共英语时使用的教材是复旦大学出版社出版的《全新版21世纪大学英语读写教程》第一册和第二册,大部分大一新生会在第一年结束后参加全国大学英语四级考试。本文比较的两个子语料库分别为:数据库一(TEXTBOOK)是从我校大一新生使用的复旦大学出版社出版的《全新版21世纪大学英语读写教程》第一册和第二册教材中随机选取了16篇课文(其中包括TEXT A和TEXT B);数据库二(CET4)是从2012年-2016年间CET4的阅读文本中随机选取了16篇文章作为分析样本。

2.3数据标注

我们通过将这些阅读文本逐一输入Coh-Metrix 3.0分别得到原始的108项指标,又从中选取九个指标并加以标注:其中包括二语易读性指标RDL2和Graesser(2011)[2]通过主成分分析法证明的与衡量二语学习者阅读文本难度相关的八个因素:叙事性(Narrativity),句法简单度(Syntactic Simplicity),单词具体性(Word Concreteness),指称衔接(Referential Cohesion),深度衔接(Deep Cohesion),动词衔接(Verb Cohesion),连接性(Connectivity)和暂时性(Temporality)。本文中对这个八个因素的标注如下:

(1)叙事性(PCNARz):叙事文本讲述的故事中有读者熟悉的人物、事件、地点和事物,且和日常对话密切相关。因此,这一指标与单词熟悉度、世界知识和口头语言密切相关。

(2)句法简单度(PCSYNz):这一指标反映了文中的句子包含的词汇量较少且使用了更简单和读者熟悉的句法结构,意味着处理难度更低。

(3)单词具体性(PCCNCz):因为含有具体的、有意义的并能让人产生联想意象的文章更容易为读者处理和理解,所以,一篇文章中含有的抽象词汇越多意味着理解难度更大。

(4)指称衔接(PCREFz):一篇文章指称衔接值越高,其含有的句子间和整个文本间相互重叠的单词和思想也就越多,可以帮助读者更清晰地理解文本。相反,衔接值越低,文本就更难理解。

(5)深度衔接(PCDCz):表示因果关系或者逻辑关系的连接词可以帮助读者更好地理解文中的因果事件、过程和行为。深度衔接值越高,代表文中的因果关系和衔接机制更明确。

(6)动词衔接(PCVERBz):这一指标代表了文中动词重叠的程度。当文中有重复动词出现时,代表其可能包含一个可以促进和增强情景模型理解的更连贯的事件结构。

(7)连接性(PCCONNz):这一指标反映了文中包含的转折词、并列连词及表达句子间关系的各类连接词,相当于文中明确表达的逻辑关系的数量。

(8)暂时性(PCTEMPz):文中含有的时间提示词越多或者时间的连续性越强,读者越容易处理和理解。此外,时间的衔接还有助于读者对文中事件的情景模型理解。

3.数据分析与结果

3.1课本阅读材料与CET4阅读材料难度对比

表1 课本与CET4易读度均值差异

表2 课本与CET4易读度t检验结果

为了比较两个子数据库中的二语易读性指标RDL2,我们利用独立样本t检验的方法,如果t检验产生的结果在原假设正确时看起来不可能(即发生的可能性小于5%),那么拒绝原假设,否则不拒绝原假设。从实验结果来看,第一个表格中教材中的课文阅读易读性指标数值(均值=17.7874)高于CET4(均值=12.1966);再看第二个表格,Levene检验结果显示p=0.930,因而我们假设方差相等,我们将使用标有“假设方差相等”的第一行数据,对应的p值小于0.001,所以均值相等的原假设被拒绝,结论为两组数值的易读性指标有显著差异。

3.2八个因素均值差异对比

表3 八个因素均值差异

表4 八个因素Levene检验结果

表5 八个因素one-way ANOVA输出结果

为了检验教材中的课文与CET4阅读材料在衡量二语学习者阅读文本难度相关的八个因素中差异最大的项目,我们对其进行了一维组间方差分析(ANOVA)。其中表4显示八个因素的p值均大于0.05,因此不拒绝原假设,假定总体方差相等;再看ANOVA输出结果,有两组p值小于0.05(分别是PCNARz p=0.001, PCSYNz p=0.001),这两组方差不相等,其他六组p值均大于0.05,因此判断这六组方差相等。我们得出结论:教材课文和CET4阅读之间的难度在PCNARz和PCSYNz这两个指标上差异最显著,其他六项指标之间无显著差异。

3.3第一册和第二册课本阅读材料易读度对比

表6 课本第一册与第二册易读度均值差异

表7 课本第一册与第二册易读度t检验结果

我们从表7可以看出,Leneve检验中0.584的p值大于0.05,假设两组具有相等的总体方差,按第一行数据解释t检验;t检验中的p=0.077,同样大于0.05,不拒绝原假设,因此组间没有显著差异,即第一册和第二册课本阅读材料难易度没有明显差异。

4.讨论

尽管教材编著不应该完全以应试为导向,但四、六级考试仍然是现阶段中国大学生参与范围最广的一项英语测试,也是绝大部分企事业单位招聘毕业生时衡量学生英语水平的一项重要指标,因此学生对通过四、六级考试或者说在考试中取得高分的需求仍然存在。我们在课堂上使用的英语教材是大多数大学生获取英语输入和提高英语能力的主要来源,因此,从学生的需求分析出发,大学英语课堂上使用的教材中的课文难度应该参考四六级考试中阅读材料的难度。我们从上文第一个实验(第3.1节)结果可以看出,大学英语教材第一、二册中的课文易读性指标明显高于CET4中的阅读材料,因此我们判断如教材中的课文阅读难度远低于考试中的阅读难度,这种差异容易造成学生难以应付考试的现象。

接下来我们通过第二个实验(第3.2节)发现,在衡量二语学习者阅读文本难度相关的八个因素中,两个数据库中差异最显著的是前两个指标,即叙事性和句法简单度。也就是说,教材中的课文在叙事性和句法简单度上的得分都明显高于CET4阅读材料。这可能与语料库中的文章体裁有关,据统计,教材中选取的16篇课文中有6篇是记叙文,其他10篇是议论文和说明文;CET4中选取的16篇阅读材料中仅有一篇是记叙文,其他15篇均为议论文和说明文。这说明对于二语学习者来说,记叙文相对其他体裁更好理解。

最后,第三个实验(第3.3节)证明教材第一册和第二册在文章的阅读难度系数上没有显著差异。辜向东,关晓仙(2003)[5]指出根据分级教学的特点,理想的阅读教材的模式应该是不同册的阅读材料难度有明显区分。陶丽,王腊宝(2013)[10]也提到同一册教材内部的课文难度系数应保持稳定,但不同册的教材之间应具有一定的难度梯度,以保证学生能力能够稳步提高。因此,我们认为该教材的编写在不同级别选取的文章难度上应该有更明显的区分。现行可参考的关于教材中的课文难度与四六级考试中阅读文本的难度对比的文章不多,而笔者也是首次尝试利用Coh-Metrix分析文章的易读性,因此本文提出的观点和看法未必准确。另外,笔者只是抽样选取了我校使用的教材第一、二册中的部分文章,样本数量较少,可能会对实验结果造成影响,希望日后能补充更多的样本数据验证结论的准确性。

参考文献:

[1]樂眉云.介绍一种测定英语教材难度的科学方法[J].外语教学与研究,1983(4):47-49.

[2]Graesser A. C., Mcnamara D. S.. Computational analyses of multilevel discourse comprehension[J]. Topics in Cognitive Science, 2011(2):371.

[3]Carrell P. L.. Readability in ESL[J]. Reading in A Foreign Language, 1987(4):21-40.

[4]Brown J. D.. An EFL Readability Index[J]. JALT Journal, 1998(20):7-36.

[5]辜向东,关晓仙. CET阅读测试与大学英语阅读教材易读度抽样研究[J]. 西安外国语大学学报, 2003(3):39-42.

[6]邓微波.新、老《21世纪大学英语》读写教程对比研究[J].长春大学学报,2013(1):118-121.

[7]郭苏颖,卢水林.人教社高中英语教材易读性调查[J].云南师范大学学报(对外汉语教学与研究版),2014(4):25-32.

[8]Crossley S. A., Greenfield J., Mcnamara D. S.. Assessing Text Readability Using Cognitively Based Indices[J]. Tesol Quarterly, 2008(3):475-493.

[9]Crossley S. A., Salsbury T., Mcnamara D. S., et al. Predicting Lexical Proficiency in Language Learner Texts Using Computational Indices[J]. Language Testing, 2011(4):1-20.

[10]陶丽, 王腊宝. 新一代大学英语教材的需求分析与反思[J]. 外语学刊, 2013(6):109-113.

[11]Crossley S. A., Greenfield J., Danielle S.. McNamara. Assessing Text Readability Using Cognitively Based Indices[J]. TESOL Quarterly, 2012(3):475-493.

[12]Greenfield J.. Readability Formulas For EFL[J]. Japan Association for Language Teaching, 2004.

[13]Klare G. R.. Assessing readability[J]. Reading Research Quarterly, 1975(1):62-102.

[14]翟象俊.全新版21世紀大学英语读写教程[M].上海:复旦大学出版社,2013.