APP下载

英语写作中词汇丰富性测量维度、方法与指标研究综述❋

2023-01-30杨洋

外语与翻译 2022年4期
关键词:丰富性复杂度学习者

杨洋

马来西亚博特拉大学

张飞

广东培正学院

张善富

玉溪师范学院

【提 要】本文在梳理词汇丰富性测量维度的发展脉络基础上,总结了过往文献中测量词汇丰富性的维度、方法和指标及其适用范围和优缺点。此外,本文总结了可以自动计算这些维度和指标的计算机软件或系统。最后,本文尝试提出测量词汇丰富性的未来研究方向:一是在理论和操作方面从新的思路或角度研究能够更全面反映英语写作水平的词汇丰富性测量方法;二是考虑基于中国英语学习者写作语料库通过因子分析、路径分析、比较分析、判别分析等途径梳理出一套适合测量中国英语学习者词汇水平的指标模型。

1 引言

词汇丰富性(lexicalrichness)从狭义上讲是指语言使用者或学习者所产出的词汇多样性,从广义上讲是指词汇的复杂程度和范围。在英语作为外语的教学背景下,词汇丰富性是英语水平的一个重要指标(Malvern&Richards2013;张会平2020),它们之间存在显著的相关性(Treffers-Daller,Parslow&Williams2018;Xie&Shen 2015)。

较早的词汇丰富性研究主要关注以下四个方面:词汇密度(lexicaldensity)、词汇复杂度(lexical sophistication)、词汇变化度(lexical variation)和词汇独特性(lexical originality)。与此不同,Engber(1995)认为词汇错误(lexical errors)也是词汇丰富性的一个重要维度,并认为测量词汇丰富性应该考虑有错误的词汇变化、无错误的词汇变化以及词汇错误的比例。

Read(2000)在其专著中解释了将词汇错误作为衡量词汇丰富性维度的必要性。同时他还指出词汇独特性在衡量英语写作中词汇丰富性时具有不稳定性。所以,Read(2000)认为好的英语写作应该具备以下四个特点:1)较高比例的词汇词(lexicalword);2)恰当使用适合主题和文风的低频词;3)丰富的词汇量:不重复使用有限的词汇;4)较少的词汇错误。这些特征正是Read所主张的词汇丰富性的四个维度:词汇密度、词汇复杂度、词汇变化度和词汇错误。

Daller、Milton和Treffers-Daller(2007)等学者在其专著中提出了“词汇空间”的概念,并详细阐述了词汇知识的维度。他们将词汇知识划分为三个维度:词汇宽度(lexicalbreadth)、词汇深度(lexicaldepth)和词汇流畅度(lexical fluency)。按照各维度的含义,上述一些衡量词汇丰富性的维度可以划分到词汇宽度和词汇深度两个维度中,而词汇流畅度反映的是语言学习者能够以多快的速度从其记忆中检索并使用一个单词。然而,一些学者对相同的词汇丰富性测量维度提出了不同的测量方法。有些学者用一篇作文中不同单词的数量(numberofdifferentwords;NDW)来衡量词汇变化度。而有些学者,如Astridya(2018)用类符(type)数和型符(token)数的比值来反映词汇变化度。还有学者在测量同一词汇丰富性维度时,提出了不同的指标。鉴于此,本文将系统梳理以往词汇丰富性研究文献中出现的测量维度、方法以及指标。

2 词汇丰富性测量维度、方法与指标

第二语言或外语学习者的英语词汇知识可以从以下三个方面来评价(Dalleretetal.2007)。一方面是词汇广度,它描述了一个学习者能掌握多少词汇,其表现形式就是词汇密度、词汇变化度和词汇独特性。第二个方面是词汇深度,它与学习者对词汇的掌握程度有关,表现在词汇复杂度和词汇错误的比例两个维度。第三个方面是词汇流畅度。

2.1 词汇密度

词汇密度是指一篇文章中实词或词汇词的数量占总单词数量的比例(于涵静2017),通常用来衡量文本的信息容量和阅读难度(金秋、高媛媛2022)。这里的词汇词可以简单理解为名词、动词、形容词和副词。词汇密度代表着信息含量程度:一篇文章的词汇密度越大,代表着这篇文章能够相对传递更多的信息。词汇密度计算公式如下:

2.2 词汇复杂度

词汇复杂度指的是语言学习者在其口语或书面语产出中使用复杂或高级词汇的程度。不同的学者在计算词汇复杂度时所使用的指标和词频表或者对“复杂词”的界定并不相同。Linnarud(1986)和Hyltenstam(1988)用一篇文章中复杂词汇词数量(Nslex)与总词汇数量(Nlex)的比值来计算词汇复杂度。这种计算方法在“词汇复杂性分析器”(LexicalComplexityAnalyzer)(Lu 2012)中用“词汇复杂度I”表示,其计算公式如下:

Laufer&Nation(1995)提出了词频概貌来分析词汇复杂度。通过词频概貌,可以导出一篇文章中所有类符在以下四个词表中的分布:最常用1000词表、次常用1000词表、学术词表以及不在上述三个词表中的单词词表——表外词表。Laufer将后两个词表中的词汇看做复杂词汇,用复杂词汇类符数除以总类符数来计算词汇复杂度,这种计算指标被称作“词汇复杂度II”,其计算公式如下:

还有一些学者用写作中特定词性词汇的复杂程度来衡量词汇丰富性,比如动词复杂度指标是将最常用200动词之外的动词认定为复杂动词,用复杂动词类符数与总动词类符数的比例来计算动词复杂度。为了消除这种计算方式中样本量的影响,Wolfe-Quintero、Inagaki&Kim(1998)等改进了动词复杂度的计算方式,并提出了新的动词复杂度指标。各动词复杂度指标计算公式如下:

2.3 词汇变化度

词汇变化度是词汇丰富性的核心,反映了语言学习者的词汇知识在语言运用中的范围。词汇变化度有以下测量方法:不同单词的数量、型次比(Type-TokenRatio;TTR)以及参数D等。

2.3.1 不同单词数量及其变型

衡量一篇文章词汇变化度的基本方法是不同单词的数量(NumberofDifferentWord;NDW),也就是类符数。然而,NDW的一个关键问题是它严重依赖于文本的长度。为了消除这一弊端,以往文献中出现了几种标准化的NDW指标。例如,“NDW-50”计算一篇文章的前50个单词中的类符数。“NDW-ER50”(NDW-期望随机50词)是从一篇文章中随机选取50个单词,选取10次,然后求10次的平均类符数。“NDW-ES50”(NDW-期望序列50词)是从一篇文章中随机截取10个50词的序列片段,然后计算10个片段的平均类符数。

2.3.2 型次比及其变型

词汇变化度的另一个经典测量方法就是“类符-型符比”(Type-TokenRatio;TTR),也叫型次比,即一篇文章中类符(T)数量与型符(N)数量的比值。然而,有研究表明,TTR是词汇变化度“一个并不令人满意的测量方法”(Covington&McFall2010:94),因为它对文本的长度很敏感,所以用TTR来反映词汇变化度并不可靠(Lu2012)。

为了避免TTR对文本长度的敏感性,Johnson(1944)提出了“平均片段TTR”(Mean SegmentalTTR;MSTTR),该方法将文本分成一定数量的等值长度片段,并计算所有片段的平均TTR。MSTTR有效地解决了TTR的样本量敏感性问题(朱慧敏、刘艳梅2021),但会造成数据的浪费。为了解决这一问题,Covington&McFall(2010)提出了“移动平均TTR”(Moving AverageTTR;MATTR)的概念,其计算原理如下:首先选择一个“窗口值”(windowsize),即移动片段的长度,例如50个单词。然后计算第1-50、2-51、3-52……个单词片段的TTR值,以此类推,直到文本结束。最后,MATTR的值就是这些移动片段TTR的平均值。

TTR虽是词汇变化度研究中的经典测量方法,由于其局限性,很多学者提出了不同的校正指标,比如“平方根TTR”(RootTTR;RTTR)、“校正TTR”(CorrectedTTR;CTTR)、“对数TTR”(BilogarithmicTTR;LogTTR)以 及“Uber指标”等。TTR及其几种校正变型的计算公式如下:

TTR的其他一些变型尝试考察文中某一类词的词汇变化程度,如“词汇词变化度”(lexical wordvariation)和特定词性的词汇变化度。词汇词变化度即一篇文章中词汇词类符数与词汇词型符数的比例;动词变化度(verbvariation)即一篇文章的动词类符数除以动词型符数。同样的,为了消除样本量大小的影响,动词变化度这一指标也得到了校正:“平方动词变化度”(squared verbvariation)和“校正动词变化度”(corrected verbvariation)。上述指标计算公式如下:

2.3.3 参数D及其变型

除上述指标外,参数D采用曲线拟合的方法(curvefittingapproach)来测量词汇变化度。之后,参数D得到了进一步的改进,新的方法可以通过一个名为vocd(Mckee,Malvern&Richards 2000)的计算机软件自动计算参数值。Mckee等(2000)提出的参数也被称为vocd-D(Šišková 2012)。

然而,vocd-D还是受到了一些学者的质疑。比如McCarthy和Jarvis(2007,2010)对vocd-D提出了两点质疑:一是vocd-D会受文本长度的影响;二是vocd-D和他们提出的另一个词汇变化度指标HD-D高度重合,却没有HD-D精确和稳定。HD-D是计算一篇作文中每个类符在一个随机抽取的42词样本中出现它的型符的概率。

2.3.4 MTLD

上述词汇变化度的测量方法与指标都没有考虑到文章的内部结构(Šišková2012)。为了填补这一空白,McCarthy&Jarvis(2010)引入了“文本词汇多样性测度”(MeasureofTextual LexicalDiversity;MTLD)。其原理是计算具有特定TTR值的连续字串的平均长度。

2.4 词汇错误

Engber(1995)引入了“词汇错误”这一术语作为衡量词汇丰富性的另一个维度。她从词汇密度、词汇变化度、不含词汇错误的词汇变化度和词汇错误百分比四个维度来研究词汇丰富性。桂诗春和杨惠中(2003)也认为词汇错误是研究外语写作的重要维度,经过深入分析中国英语学习者的作文,他们将中国英语学习者所犯的词汇错误分为词性错误、动词短语错误、名词短语错误、代词错误等10个大类、52种错误类型。

2.5 词汇独特性

词汇独特性衡量语言学习者或使用者与其写作小组其他成员的写作表现,具体指一篇作文中特有词汇数量的比例。它是用一篇文章中没有出现在同一组其他作文中的特有词汇所占的百分比来衡量的。然而,Reed(2000)认为词汇独特性并不是研究学习者词汇水平的一个维度。因此,词汇独特性的实用性和通用性不强。其计算公式如下:

2.6 词汇流畅度

词汇流畅度表示语言学习者在给定时间内的写作中产出的词汇数量(Goodfellow,Lamy&Jones2002)。它反映了语言学习者在必要时是否能快速地从其记忆中检索到所需词汇的含义和形式。简单来讲,在限时作文考试中,词汇流畅度可以用作文长度即单词数来衡量。

3 结论

本文并没有穷尽过往文献中出现的所有词汇丰富性指标,比如Laufer&Nation提出的词汇密度指标是计算词汇词类符数与总类符数的比值。由于这些指标在近几年的文献中已很少使用,本文未做赘述。上文中提到的指标总结在下表1中。

表1 词汇丰富性测量维度、方法与指标

经过文献梳理可知,词汇丰富性研究中出现了词汇密度、词汇复杂度、词汇变化度、词汇错误、词汇独特性和词汇流畅度等测量维度。其中,词汇流畅度和词汇独特性具有很大的使用局限性。词汇流畅度仅适用于限时写作中;词汇独特性依赖于同组其他作文,仅限同一组作文间相互比较,在近几年的词汇丰富性研究中鲜有提及。前四个维度是目前词汇丰富性研究中的主流测量维度,即Read(2000)所主张的词汇丰富性测量模型。

在Read(2000)所主张的词汇丰富性测量模型中,词汇密度也受到过很多学者的质疑。例如,Malvernetal.2004)认为词汇密度作为评估写作水平的指标并不是特别适宜,路小飞(Lu 2012)和Šišková(2012)认为词汇密度和写作质量关系不大,但是这些都不影响词汇密度作为一个重要的的词汇丰富性测量维度(张晓东、任娇娇2018)。此外,词汇密度还可以用来区分口语和书面语、区分不同体裁的作文、反映译者风格(朱珊2021)、衡量翻译质量(王金铨、于香、吴万能2021)以及在话语分析中区分不同的语式(程喜2021)。

词汇复杂度是词汇深度的重要维度之一,如果说词汇密度和变化度测量的是语言学习者掌握词汇的“量”,词汇复杂度测量的则是词汇掌握的“质”(王华2021)。词汇复杂度各指标中对“复杂”词汇的认定都是基于词汇使用频率,即使用频率较高的词汇被认定为基础词汇,使用频率较低的词汇被认定为“高级”或“复杂”词汇。然而,这一基本理念也并非公允:有些高频词也不容易掌握,有些低频词反而易学易用。理论观点和实证研究都表明,频率并不是学习和使用一个单词的难易程度的唯一决定因素。到底什么样的词汇才算“复杂”,这是一个词汇复杂度研究需要考虑的问题。

词汇变化度是词汇丰富性研究的核心,是学者们最为关注的一个维度,所以文献中词汇变化度的测量方法和指标最为丰富。正是由于词汇变化度的测量指标纷繁复杂,在研究中要慎重选择指标的使用。TTR虽为众多指标的基础,但其基本变型对文本长度过于敏感,需慎重选择。根据不同指标的原理和计算方法可知,MATTR、MTLD和HD-D的值相对独立于文本长度,也是最近文献中较多使用的几个指标。尽管如此,需要指出的是大部分关于词汇变化度指标和文本长度的关系研究使用的是2000词左右的长文本,而中国英语学习者作文长度一般在100-400词之间。对于哪些指标更适用于这类短文本,还需要做进一步的研究。

最后,相比于上述三个维度,词汇错误是较晚提出的一个词汇丰富性研究维度。目前词汇丰富性研究文献中,词汇错误的研究比重并不高。词汇丰富性的研究多为量化研究,缺少较为深入的词汇质性分析,而词汇错误正是从质性角度深入研究词汇习得的一个重要方向。

目前,词汇丰富性的大部分指标都可以通过计算机软件或系统自动计算。比如,通过上传作文文本,“词汇复杂性分析器”可以计算并导出表1中词汇密度和词汇复杂度所有指标的值以及除参数D和MTLD外词汇变化度其他的指标值。vocd-D和MTLD可以通过CohMetrix自动计算;通过CHILDES系统中的CLAN软件也可以计算vocd-D。基于词频概貌而设计的Vocabprofile和Range除了可以生成词频概貌外,还可以计算词汇密度和词汇复杂度。WordSmithTools和AntConc可以计算词汇密度和词汇变化度。结合WordSmith Tools和Vocabprofile则可以计算词汇独特性。

尽管词汇丰富性的测量维度、方法和指标经过多年的研究和发展已较为丰富和成熟,但这些方法和指标均各有利弊。词汇丰富性的测量在理论和操作方面还需要新的研究思路或角度。比如,近几年有些学者(如Grabchak,Zhang&Zhang2013;Rajput,Ahuga&Riyal2018)提出了基于“熵”的(entropy-based)词汇丰富性测量方法。基于熵的方法不仅考虑词汇的变化性,还考虑类符在一篇作文中的分布是否均衡,这样就能更全面地反映语言学习者在写作中的词汇水平。但新方法的提出需要在理论和操作层面对其信度和效度进行充分的研究论证。

此外,由于词汇丰富性的测量指标纷繁复杂,在对中国英语学习者语言能力的研究中,对词汇丰富性的测量指标的使用存在着不统一的现象。例如,李璇(2021)从词汇密度、词汇复杂度、词汇变化度和词汇独特性四个维度对中国大学生英语写作中的词汇进行了研究,并使用标准化TTR指标来计算词汇变化度。然而,其他学者如万丽芳(2010)和张亚(2021),在研究词汇丰富性时没有考虑词汇密度和词汇独特性两个维度,而是研究了词汇错误,而且他们使用Uber指标来测量词汇变化度。因此,在将来的研究中,可以考虑基于中国英语学习者写作语料库通过因子分析、路径分析、比较分析、判别分析等途径梳理一套适合测量中国英语学习者词汇水平的指标模型。

猜你喜欢

丰富性复杂度学习者
你是哪种类型的学习者
十二星座是什么类型的学习者
青年干部要当好新思想的学习者、宣讲者、践行者
一种低复杂度的惯性/GNSS矢量深组合方法
求图上广探树的时间复杂度
基于语料库的英语作文词汇“丰富性”现状分析及对策
电视新闻报道如何摆脱平淡
某雷达导51 头中心控制软件圈复杂度分析与改进
高校学习者对慕课认知情况的实证研究
出口技术复杂度研究回顾与评述