英语议论文作文质量与词汇多样性的相关关系研究<br/>——基于人工评分、句酷批改网评分和Coh-M etrix的分析

英语议论文作文质量与词汇多样性的相关关系研究
——基于人工评分、句酷批改网评分和Coh-M etrix的分析

2018-09-01谢耀晶

文化创新比较研究 2018年11期

谢耀晶

（广西外国语学院，广西南宁 530222）

英语写作是外语学习者语言水平的重要体现，而写作水平可以通过作文中的文本特征来体现，因此对英语作文中文本特征的研究一直是国内外研究的热点。有关作文文本特征的研究多涉及词汇、句法和连贯三方面。近年来，不少研究使用Coh-Metrix来检验词频，词汇多样性，指称衔接，连接词以及句法复杂性等多个文本特征。然而，使用Coh-Metrix来检验文本特征和写作质量之间的关系的研究还处在初级阶段，值得对这一领域进行更加深入的探索。近年来，句酷批改网（简称“批改网”）在英语作文自动评价方面已经获得了较高的认可度。然而，早期的许多研究中很少发现同时使用批改网和Coh-Metrix这两个文本分析器对英语议论文写作中的文本特征进行相关研究的论文。

1 Coh-Metrix和批改网的简介及理论概述

1.1 Coh-M etrix

Coh-Metrix（Automated Cohesion Metric Tool）是美国孟菲斯大学的McNamera等学者在2002—2011年间开发，不断完善和试验并最终成功投入应用的以计算机技术为平台，能对文本进行多维度测量的自然语言处理软件。作为一个先进的自动文本分析器，Coh-Metrix拥有大量的测量指标，可以更加全面地考察作文的指示衔接、潜在语义分析、词汇多样性、句法复杂性、语篇正式性等多个文本特征。McNamera et al.指出Coh-Metrix 3.0中有106项指标，其中包括词汇多样性的四项指标 “LDTTRc,LDTTRa,LDMTLDa和 LDVOCDa”。

1.2 句酷批改网

写作自动评价系统（Automated writing evaluation,AWE;automated essay scoring,AES）起源于20世纪60年代的美国，主要用于水平考试作文评分。近年来，北京词网科技有限公司推出的批改网(http：//www.pigai.org)在国内高校得到了广泛的使用，该自动作文评分系统运用了云计算技术，建设了标准语料库。蒋艳和马武林指出批改网将学生作文视为一个学习者语料，每篇作文的成绩由192个子维度构成，通过对比学生的作文和标准语料库，将测量出来的距离通过映射转化成学生作文分数、评语和反馈。

2 词汇多样性及相关研究

2.1 词汇多样性的内涵及Coh-Metrix中词汇多样性的相关研究

关于词汇多样性的内涵，许多研究者进行过有益的探讨，普遍认为词汇多样性是评估学习者词汇知识应用的有效手段。词汇多样性反映了学习者的词汇水平，甚至一定程度上体现了语言水平。尽管词汇多样性的测量在教育和语言研究中使用较为广泛，它却很难被准确的量化。目前，大多数已经被提出的词汇多样性的指标都涉及类型（type）和标记（token）的统计学上的关系，人们普遍知道的词汇多样性的测量方法是计算类型标记比(TTR)。McNamara et al.认为“词汇多样性指的是文本中类型数与标记数之间的关系，即文本中出现的词型数和实际出现的词数的比值（type/token ratio，TTR），这一比值的获得只需要将文本中词型的数量除以文本中出现的所有词的总数就可以得到。比如，如果“cat”这个词在文中出现了8次，它的标记值就是8，而它的类型值就是1。当文本中的类型数等于标记数时，类型标记比等于1，意味着文本中所有的词都是不一样的。也就是说，如果每个单词在文本只出现一次，词汇多样性最复杂，文本相对比较难理解和处理，因为有许多新词需要被解码并融入到篇章语境中。相反，如果文本中出现相同词的数量越多，类型标记比率就越低，词汇多样性就越简单，文本处理就会更容易更快。然而，类型标记比（TTR）受文本长度的影响，所以为了克服TTR测量词汇多样性的这一缺点，McCarthy&Jarvis指出需要使用MTLD和VOCD这两个指标来更好地计算文本的词汇多样性。McNamara et al.指出LDMTLDa这一指标在议论文写作的高分组和低分组中存在显著差异，它能用来很好的区分议论文写作质量的不同水平。McNamara etal.指出由VOCD产生的LDVOCDa这个指标的数据是由一个计算机语言分析软件的程序来计算的，该程序能使经验的TTR值曲线拟合理想的TTR值曲线，从而更准确地计算文本的词汇多样性。

McNamara et al.指出Coh-Metrix有四个指标来测量词汇的多样性，他们是实词词元的类符/标记比例(LDTTRc),所有词汇的类符/标记比例 (LDTTRa),所有词汇的语篇方面的词汇多样性 (LDMTLDa),以及所有词汇的由VOCD这一电脑语言程序计算的词汇多样性(LDVOCDa)。在这四个缩写词中，小写字母“c”表示这个指标是为计算实词（如：名词，动词，形容词和副词等），小写字母“a”则表示该指标是为计算所有的词汇而设计的。本文主要是通过分析LDTTRc,LDTTRa,LDMTLDa和 LDVOCDa这四个指标来探究词汇多样性与写作质量的关系。

2.2 词汇多样性测量与作文质量的关系

现有的很多关于词汇多样性测量的研究主要集中在词汇多样性测量指标的有效性和可靠性以及如何使用这些指标来测量作文的词汇多样性等，有关词汇多样性与作文质量之间的关系的研究不是很多。Alderson系统探索了词汇知识和语言水平之间的关系，结果发现词汇与语言技能有显著的相关关系，尤其是写作能力，相关度r=0.70～0.79。Engber研究ESL作文质量与词汇水平的关系，结果发现词汇部分在整体评分法中的关键作用，并指出作文质量与词汇变化在统计意义上显著相关。然而，Jarvis指出词汇多样性与语篇的信息量之间有显著的关系，但词汇多样性与作文质量之间的关系却更复杂得多。综上所述，关于词汇多样性和写作质量之间是否存在显著的直接的相关关系还需要我们进行进一步的研究。

3 研究设计

3.1 研究问题

本研究主要涉及两大问题，即英语议论文中词汇多样性与作文质量之间是否存在相关关系？就英语议论文写作而言，人工评分和批改网评分在评价作文质量时对词汇多样性这个文本特征的关注度是否存在差异？

3.2 研究语料

本研究所用语料取自中国学生英语笔语语料库（Written English Corpus of Chinese Learners,WECCL 2.0）。该语料库是一个大型合作项目，全国有20多所各种层次的高等学校英语专业及部分非英语专业学生限时及非限时作文共4,950篇。语料来源广泛，可以较为准确地反映学生作文的真实情况。本研究从该语料库中随机选取了550篇议论文，为了确保研究结果的准确性，所选的语料分别选自五个主题，每个主题110篇，每篇议论文的字数大约300字。

3.3 数据收集

首先，笔者把550篇议论文放进批改网进行自动评分，然后分别邀请3位富有经验的专业老师依据统一的评分标准对550篇议论文进行评分，为了保证评分的效度和信度，他们先对前10篇作文进行预打分，然后就每篇作文的优缺点和最终得分进行了集体讨论，并用皮尔逊相关对三位老师的评分进行统计，所有作文评分完成后，三位老师的评分相关度为r=0.735**、0.747**、0.764**,显著水平均为P＜0.01。所以把人工评分的三个分数的平均值视为人工评分的最终得分，再结合句酷的评分结果分出人工评分的高分组和句酷评分的高分组（分数大于或等于80且小于90）以及人工评分的低分组和句酷评分的低分组（分数大于或等于70且小于80），由于人工评分的高分组只有193篇文章，所以为了公平起见，其他各组随机分别选择193篇文本，然后使用Coh-Metrix分别对这几组文本进行自动评估，获得Coh-Metrix自然语言处理软件的相关语言特征的量化数据，并结合本研究的问题，挑选出有关词汇多样性的各项指标的量化数据。最后，使用统计工具19.0统计分析软件通过单因素方差分析和皮尔逊相关系数分析等对所有数据进行统计分析。

4 数据分析与讨论

4.1 高分组和低分组作文在词汇多样性方面的差异

正如前面提到的那样，词汇多样性一般是通过类型(types)/标记(tokens)比来测量的。本文主要是通过测量Coh-Metrix中涉及词汇多样性的四个指标来分析议论文写作中的词汇多样性，它们分别是实词词元的类符标记比指标(LDTTRc),所有词汇的类符标记比指标(LDTTRa),所有词汇的语篇方面的词汇多样性指标(LDMTLDa),以及所有词汇由VOCD这一程序计算的词汇多样性指标(LDVOCDa)。为了详细描述各组之间的差异，笔者对所有数据进行了单因素方差分析。单因素方差检验要求各组方差相等（一般来说如果概率值P值大于0.05，就视为各组之间的方差相等），方差齐性Levene检验的结果显示词汇多样性四个指标的概率值分别是P=0.161,P=0.408,P=0.523,和P=0.945，P值均大于0.05，说明所有指标各组之间的方差是相等的，满足了单因素方差检验的方差齐性条件，也说明了单因素方差检验结果是有效的。单因素方差检验结果显示 F值分别为 16.188，6.543，5.015，8.219，显著水平均小于 0.05（分别为 P=0.000,P=0.000,P=0.002,P=0.000）,说明测量词汇多样性的四个指标各组平均值之间有显著差异。

为了进一步探究具体是哪些小组之间存在显著差异，需要查看事后多重比较检验结果。根据相关数据，就LDTTRc和LDTTRa这两个指标而言，人工评分高分组（Group 1）和批改网评分高分组（Group 3）之间在统计上存在显著差异，平均值差异的概率分别为0.002(P=0.002＜0.01)和 0.025(P=0.025＜0.05),均达到了较高的显著水平；这两个指标人工评分低分组（Group 2）和批改网评分的低分组（Group 4）之间也存在显著差异，平均值差异的概率分别为 (P=0.002＜.01)和 (P=0.026＜0.05)；此外，批改网评分的高分组（Group 3）和低分组（Group 4）之间也达到了很高的显著水平，平均值差异的概率分别为(P=0.000＜0.001)和(P=0.003＜0.001)，而人工评分的高分组（Group 1）和低分组（Group 2）之间未发现有显著差异，平均值差异的概率分别为(P=0.920＞0.05)和(P=0.123＞0.05)，这意味着在实词词元的类符标记比和所有词汇的类符标记比这两个指标上，人工评分和批改网评分之间具有显著差异，同时批改网评分时会比较关注这个指标，而并没有统计数据表明人工评分时也同样会关注这个指标。

就LDMTLDa和LDVOCDa这两个指标而言，在统计上存在显著差异的只有批改网评分的高分组（Group 3）和低分组（Group 4），平均值差异的概率为0.002(P=0.002＜0.01)和 0.000(P=0.000＜0.001)，均达到了很高的显著水平，而这两个指标在人工评分的高分组（Group 1）和低分组（Group 2）之间均不存在显著差异(P=0.958＞0.05)和(P=0.372＞0.05)，这从另一个侧面也说明了就词汇多样性的这两个测量指标而言，人工和批改网评分之间具有显著差异。

综上所述，测量词汇多样性这一文本特征的四个指标都能很好地区分批改网评分的议论文作文质量，词汇多样性与批改网评分的议论文质量显著相关，而与人工评分的作文质量之间不存在统计上的相关关系。此外，人工和批改网在进行议论文写作评分时对词汇多样性这一文本特征的关注度有显著差异。

4.2 词汇多样性与写作质量之间的关系

词汇多样性和写作质量的相关关系可以从表1和表2的数据中看出来。在人工评分中，词汇多样性中只有一个指标(即LDTTRa)显示与作文质量有相当低的负相关(r=-0.177**,P＜0.01),该相关系数的绝对值表示相关程度。秦晓晴认为统计学中一般绝对值低于0.20以下的相关系数称为最低相关，一般可以忽略不计。从这些数据中我们可以推断出在某种程度上词汇多样性和人工评分的作文质量不相关。这一发现与先前杜慧颖和蔡金亭的研究结果相一致，他们指出在基于Coh-Metrix的研究中，词汇多样性和写作质量之间没有发现有显著关系。后两项研究中的作文质量都是通过人工评分得来的，所以从统计意义上来说，人工评分的过程中并没有过多关注文本的词汇多样性，词汇多样性与人工评分的作文质量之间没有显著相关关系。

表1 词汇多样性指标与人工评分的作文质量的相关关系

然而，在批改网评分中，所有测量词汇多样性的指标都与作文质量成正相关关系因为他们所有的P值都是0.000，表明达到了统计意义，意味着变量之间不相关的概率几乎为零。他们的相关系数分别是r=0.369**,r=0.202**,r=0.234**,和 r=0.281**，相关系数右上方有两个*号，表示显著水平达到了0.01的显著水平。相关系数都是正数，所以他们变化的方向是一致的，也就是说当词汇多样性中任何一个指标的值增加时，批改网评分的作文质量也相应提高，反之亦然。这一结果反映了批改网评价的作文质量与词汇多样性在统计上显著正相关。此外，就议论文中的词汇多样性这个文本特征而言,人工评分和批改网评分之间存在显著差异，这一发现与前文中单因素方差分析的结果相一致。

表2 词汇多样性指标与句酷批改网评分的作文质量的相关关系

5 结语

本研究的结果显示人工评分的作文质量与词汇多样性这个文本特征下的所有测量指标没有显示存在相关关系，换句话说，人工评分员在进行议论文写作评分时并没有过多的关注词汇多样性这个文本特征，也不会把词汇多样性作为议论文写作质量的评判标准。然而，与人工评分相反，批改网评分的作文质量与测量词汇多样性的所有指标都存在显著关系，这一文本特征能很好地区分批改网评分中议论文写作质量的差异。相关数据显示，批改网评分的高分组较低分组而言包含有更加丰富的词汇，词汇多样性在批改网评分中扮演着重要的角色。Coh-Metrix所有测量词汇多样性的指标中，LDTTRc这个指标与批改网评分的相关系数最高，在一定程度上说明了议论文写作中实词（如：名词，主动词，形容词，副词等）的多样性会对批改网评分的作文质量产生积极的影响，高分作文中包含有更加丰富的实词。另外，本研究还发现在词汇多样性的关注度上，人工与批改网在进行议论文写作的评分时具有显著差异，这说明人工评分和智能化方面的批改网评分仍然不可同日而语，今后还要进行更多的研究来探索人工评分和批改网评分之间其他方面的异同。基于以上的结论，本研究建议在评价英语议论文的写作质量时，教师可以建立双重评价机制，把教师评分和网络自动评分结合起来更客观地评价学生的作文质量。