二语词汇测试工具研究综述

2023-01-04过君琰

汕头大学学报（人文社会科学版） 2022年7期

过君琰

（奥克兰大学文学院，新西兰奥克兰 1010）

引言

词汇是语言的重要组成部分，它不仅对理解、掌握和表达语言至关重要，同时对促进语言背后思辨能力的发展也起着举足轻重的作用。了解学习者的词汇水平是衡量他们语言水平的重要指标。自二十世纪八十年代起，学者们就开始对词汇测试工具进行了初步探索。随着语料库的普及和计算机技术的发展，大量词汇测试工具不断涌现。目前国内有关词汇测试工具的综述类文章较少，仅有针对测试词汇知识的单一方面如广度[1]、深度[2]，亦或是对少数测试工具的综述[3]。本文从词汇知识的内涵和维度出发，深入剖析主要的词汇测试工具，并对未来词汇测试工具的开发进行展望。本研究还结合《中国英语能力等级量表》中词汇知识运用能力子量表，为开发适用于国内大学生的英语词汇测试以及如何用词汇测试促进词汇教学提供一些建议和思考。

一、词汇知识的内涵和维度

词汇知识是一个多维度的、相对开放的领域。关于词汇知识的内涵，最具综合性且应用最为广泛的是Nation 提出的框架，该框架涵盖词形（口头、书面、词汇部件）、词意（词形和意义、概念和指称、联想）和使用（语法功能、搭配、语境制约）三大类，共九个小类，展示了一个单词内部具体且相互联系的组成部分[4]。Nation 将框架中的每一个小类分为接受性和产出性两个方面。接受性词汇知识是指学习者能够在阅读和听力中理解词汇，而产出性词汇知识是指学习者能够在写作和口语中表达词汇[5]。除了接受性/ 产出性这种基于技能的区分方式，另一种方式是把词汇知识分为广度知识和深度知识。广度知识指的是学习者所知道的单词数量，深度知识指的是学习者对这些单词各方面了解的程度[6]。

对于学习者的词汇知识有三点值得注意：第一，学习者各个方面词汇知识的发展并不平衡，比如学习者的产出性词汇知识水平的发展落后于接受性词汇知识；第二，这些区分之间有交叉的部分，比如形意关联普遍被认为属于词汇广度知识层面，它包含词形识别、词意识别、词形召回和词意召回四个方面，其中词形词意识别属于接受性知识，词形词意召回属于产出性知识。对于词汇深度知识内涵的界定，学者们看法不一。Henriksen[7]和Schmitt[6]把接受性和产出性知识的区分归类于词汇深度知识；第三，对词汇知识内涵的不同界定模式产生了相应模式下不同的测试方法和工具。但由于词汇知识的多面性，迄今为止没有一个词汇测试工具可以涵盖词汇知识的各个方面，或是全面地测量词汇知识的某一方面。本文将从广度和深度这两个涵盖更为广泛的维度出发对主要的测试工具进行分析。

二、主要词汇测试工具及其相关研究

（一）词汇广度测试

词汇广度测试是目前词汇测试开发成果最为丰硕的领域，主要是测试书面形式的接受性词汇知识。按照测试的类型主要分为词汇量测试和词汇层级测试两大类。

1.词汇量测试

词汇量测试目标是测试学习者所掌握的词汇总量。目前主要有两种测试形式：是否测试和大小测试。

是否测试（YES/NO，YN）是介于自我测评和测试之间的一种形式。它给学习者呈现一份词汇清单，学习者需要勾选出所有他们知道含义的单词。它最早用于测试母语学习者的词汇量。然而，这种自我报告的方法不能准确地反映学习者的词汇知识，学习者可能会勾选他们不认识的单词从而夸大自己实际的词汇量。为了解决这一问题，虚构词被引入清单，如果学习者勾选出这些虚构词，他们的分数则会向下调整从而更好地预测他们真实的词汇量[8]。学者们将这种方法运用于二语词汇测试并开发了不同版本。

YN 测试中的虚构词主要有两种虚构方法：改变真实单词里的一两个字母和改变真实单词的词缀。根据受试者的回答，共有四种计分类型：命中（hit）即选择真实词、错过（miss）即未选真实词、错误警报（false alarm）即选择虚构词和正确拒绝（correct rejection）即未选虚构词。根据命中和错误警报的比例运用一些公式对原始分数进行校正从而计算出受试者真实的词汇量。这些公式包括命中的个数减去错误警报的个数、基于信号探测理论的猜测矫正（correction for guessing,cfg）[8]、两个指数Δm[9]和ISDT[10]以及回归公式（regression formula）[11]。经过三十年的更新迭代，YN 测试在内容和计分方式方面也进行了不断的调整。

YN 测试最显著的优点是便捷、高效。对受试者答题、测试者编制和评阅测试来说都相对简单，能够在较短的时间里测试大量的词汇。其设计方法也适用于其它语言词汇测试的开发。此类测试没有明显的负面反拨效应[12]。不过，YN 测试也有其不容忽视的缺点：这种测试形式只测试了单词一个方面的词汇知识（被动认知）。而且虚构词存在的必要性也存疑。对虚构词的构词原则、词汇属性缺乏深入研究，虚构词的比例缺乏统一标准，对于精准有效的校正公式存在分歧。另外，YN 测试也受到与测试构念无关因素的影响，如测试形式本身、测试环境和答题偏见等[13][14]。

针对YN 测试信度和效度研究主要围绕以下方面展开。学者们对YN 测试和其他形式的词汇测试（如匹配、选择、填空、翻译、访谈等）以及水平测试的关联度展开了一系列研究，然而各项研究的结果并不一致：从不相关或弱相关[15][16]、到中等相关[13]、再到高度相关[17][18]。导致研究结果不一致的原因之一是错误警报的比例不同。研究者们尝试探索一些避免猜测、调整错误警报比例的方法，从而增强YN 测试的信度和效度，比如：进一步明确测试任务的要求；改变测试形式，如用电脑版本取代纸质版本、基于识别的词汇测试（Recognition Based Vocabulary Test）[16]；研究虚构词的词汇属性[18]；探索除虚构词法以外的其他方法，如反应时间法等[17]。

第二种词汇量大小测试（Vocabulary Size Test,VST）是以单选题的形式呈现的[19]。它主要有三大目的：衡量学习者是否拥有足够的词汇量来完成一些英语学习任务，比如阅读英文小说、报纸等；横向和纵向追踪学习者词汇量的成长；比较母语学习者和非母语学习者的词汇量。

跟YN 测试以词元（lemma）为基础不同，VST选择涵盖面更为广泛的词族（word family）来展现，它以Bauer &Nation 编制的词族层级6 级为标准[20]，采用分层随机抽样法从最高频的前14，000个英国国家语料库（BNC）词族表中每1，000 个单词层级选取10 个目标词，共140 个。VST 通过测试词汇的形式和含义关系考查学习者书面形式的接受性词汇知识。题干是考查的目标词和一个包含该单词的非限定语境的句子，目的是让学习者无法通过语境来猜测该单词的意思，选项包含一个正确答案和三个干扰项。干扰项的含义所指向的单词和考查单词基本同频，且和考查单词的正确含义通常会有一部分重叠，学习者必须对所考查单词的含义有一定程度的了解才能够选出正确的选项。每选对一题得1 分，学习者的词汇量为总分乘以100。

VST 的不同版本开发及研究主要集中在三个方面：（1）测试的词汇量。14，000 高频词族版本的VST 测试的对象主要是英语非母语学习者以及12 岁以下的英语母语者。基于此，研究人员开发了面向英语母语者的20，000 高频词族版本的VST 以克服天花板效应[21]。（2）测试的语言。双语版本的开发主要是为了避免单语版本中与构念无关的变量以及与词汇知识无关因素的影响。双语版本的形式为题干是英语，选项是学习者的母语。到目前为止，已开发的语言版本包括汉语在内共十个语种。对各个版本的内部效度研究包含用Rasch 模型和经典测试理论对单语和双语版本的效度研究。研究表明，单语和双语版本都有较好的信度和效度，明确测试单一因素（书面形式的接受性词汇知识），且能够很好地区分不同水平的学习者。双语版本对于英语非母语学习者而言更直接、省时，且能更精准地预测低水平学习者的词汇量。但是对于中低水平学习者是否需要用完整版还是只需要缩减版（比如前8，000 词频）还有待进一步研究。（3）围绕VST 变体展开的研究，旨在通过修改VST 减少猜测等考试策略，从而更准确地测量学习者的词汇量，比如不定选项、通过网页版设置不同数量的干扰项[22]、在选项中加入“我不知道”（I don’t know,IDK）这个选项等[23]。

2.词汇层级测试

层级测试（Vocabulary Levels Test,VLT）属于诊断性测试，主要测试学习者是否掌握某一具体频度的词汇。层级测试不仅可以了解学习者所具有的词汇资源是否能够完成特定的语言任务[24]，而且可以定位学习者具体层级的词汇缺陷从而更好地帮助他们确立学习目标、调整学习材料和学习策略。

层级测试也是测试学习者的书面接受性词汇知识。它有较多版本（表1），主要有以下四个特点：（1）表中前两个VLT 选用的词汇语料库较为陈旧，采样率比较低，但涵盖的词汇频度宽，高、中、低词频均有涉及。后三个测试选用的语料库更新，采样率更高，但涵盖的频度密集，主要集中于高频和部分中频词汇。Nation 认为层级测试的目标不是测试词汇总量，因此设定最高频的3，000词或5，000 词更为合适[25]。（2）前三个都是匹配形式，UVLT 虽然也是匹配形式但稍有不同，它将词汇和含义设置成更为清晰的网格形式。后两个则是和VST 一样的单选题形式。（3）前四个以词族方式展现，而最后一个则以修饰过的词元（modified lemma 或称为flemma）展现。（4）相关的效度研究较为缺乏。即便是后三个最新的测试，编者们也只进行了初步的效度验证。

表1 不同版本的层级测试

3.小结

以YN、VST 和VLT 为代表的词汇广度测试工具自研发以来得到了广泛应用，然而围绕广度测试依然有三个值得关注的问题。

（1）目标词汇的选择。目前的词汇广度测试都是以词频为选择标准，采取随机分层抽样的方法。这种选择标准默认同频度的词汇难度是一样的，然而即使是同频词汇，单词的难度不一。因此，面对测试工具中的低采样率，某频度少量词汇的掌握是否意味着对相应频度所有词汇的习得，这一点学者们依然存疑。

（2）词汇的展现方式。广度测试工具以词元或是词族为单位来展现词汇。词元包括词干及其曲折变化，词族包括词干及其曲折变化和派生变化。学习者对一个单词的正确作答则被认为他/ 她掌握了该单词的词干以及所有相关变化。Nation认为以词族方式展现词汇更适合测试接受性词汇知识[25]。另外一些学者认为对单词词干接受性知识的掌握并不意味着对该词所有派生变化的习得[41]，因此以词族方式展现的词汇测试结果实际上夸大了学习者的实际词汇知识水平，以词元为单位可能更合理。而Webb 则认为以词元为单位的词汇数量比以词族为单位的多很多，会让测试可行性受到影响[42]。

（3）测试形式和分数解释。词汇广度测试考查的是书面形式的接受性词汇知识，也就是阅读所需要的词汇，但是以上测试工具所测试的词汇知识层面（识别）与阅读所需要的词汇知识层面（词意召回）并不对应。识别层面的词汇知识要求远比词意召回层面低，所以即便学习者能够在这些词汇测试中选对单词的含义，在实际阅读中仍然会存在想不起这些单词意思的情况。另外在现行的词汇测试形式（判断、单选、匹配等）中，学习者能够通过猜测或其它与构念无关的考试策略来答对，导致这些测试结果显示的学习者词汇水平偏高。但是考查召回层面的词汇知识需要学习者写出该单词的含义，这样的形式费时费力，也会影响测试的可行性。

（二）词汇深度测试

Yanagisawa &Webb 概括了界定词汇深度知识内涵的三种模式：发展模式（词汇知识的发展程度）、网格模式（词与词之间的联结）和成分模式（词汇知识的方面）[43]。

1.发展模式下的词汇深度测试

基于发展模式的词汇知识量表（Vocabulary Knowledge Scale,VKS）[44][45]最初是用来追踪阅读材料中新单词的习得，它的设计理念是学习者每个单词的知识是遵循一定发展模式的，从对单词完全不认识到正确地符合语法和语义规范地运用该词。按照这个理念VKS 把词汇知识分为5 个层级，学习者根据这5 个级别来呈现他们的词汇知识水平。

VKS 自研发以来其效度不断受到质疑[46][47]，主要集中在以下三点：（1）填写和评分费时，只能在有限的学习者中测试有限的单词。（2）5 个层级涵盖的词汇深度知识依然有限，而且层级之间的难度并不均等[5]。VKS 测试的维度并不单一，且测试构念区分不明确。（3）学习者的词汇知识并不一定是遵循这样的线性发展模式。

2.网格模式下的词汇深度测试

网格模式编制理念为词汇深度知识是单词与单词之间能够在大脑中形成网络联结。词汇联想测试（Word Associate Format,WAF）[48][49]是使用最为频繁的词汇深度测试。第一版WAF 是用于衡量大学层级的学术英语学习者的词汇学习，两个平行版本100 个目标词汇来源于UWL。词性包括名词、形容词和动词。学习者根据目标词汇在8 个关联词中排除4 个干扰词，选出4 个正确的关联词。关联词与目标词的关系包含以下三种之一：横聚合（paradigmatic）、纵聚合（syntagmatic）和分析（analytic）。第二版40 个目标词汇全部为形容词，主要选自Barnard 2，000 和3，000 词表[50]，并将8 个单词（4 个正确关联词和4 个干扰词）随机分成左右两组，此版本的开发仅用作研究工具。

WAF 的不足在于：（1）它虽然测试了词汇知识的三个方面（同义词、搭配和多义词），但本质上还是以形意关联为中心的接受性测试，因此它对词汇深度知识的涵盖面依然具有局限性[47]。（2）尽管选项中的关联词和目标词展现了不同的关系，但是在计分方面没有区别，WAF 的分数无法代表某个具体方面的词汇知识，而且测试结果所反映的学习者的深度知识仅限于被测词汇，无法将其外推到同频度的其它词汇。（3）它的测试形式（选择）依然会受猜测等因素的影响。

Lex 30 是另外一个网格模式下的深度测试[51]，它测试的是学习者的自由词汇产出能力。Lex 30共有30 个目标词（均选自最高频的1，000 个词族），针对每一个目标词，学习者写出自己能想到的与之相关联的词（最多4 个）。计分方法是将学习者写出的所有单词根据词频进行分类，每一个低频单词（第一个1，000 词以上）得1 分，满分120 分。随着语料库的发展，统计词频的对照词表也在与时俱进。最近的研究开始使用词汇分析工具VocabProfiler 中的BNC/COCA 词表来统计词频[52]。共有两种计分方式：总分（低频词总数）和百分比（低频词的总数÷所写单词总数）。

Lex 30 在一些研究中其效度得到了一定程度的验证[53][54]。Fitzpatrick&Clenton 从广义的产出词汇知识角度出发编制了词汇测试能够涉及的词汇知识模型[54]。该模型包括学习者产出词汇知识的四个方面：能够产出这些单词词形；能够使用这些词汇来替代合适的指称和母语词汇；能够在语境中使用这些单词并符合语意规范；能够在语境中使用这些单词并符合语意和语法规范。他们认为以上四个方面Lex 30 测试均能涉及。然而产出性词汇深度知识包含词形、使用、语域、搭配、词意等多个方面，Lex 30 只测试了学习者对单词的词形召回能力，即使上述研究认为它的测试范围能包括学习者四个方面的词汇知识，但它能测试到什么程度依然无法清晰地界定。可见，如何解释Lex 30 的分数是一个问题。

3.成分模式下的词汇深度测试

因为词汇深度知识所涵盖层面的广泛性和多样性，既要能全面衡量学习者的词汇深度知识又要考虑到实际操作性，仅靠单个词汇测试工具很难实现，因此学者们尝试从词汇知识的不同方面入手，测试学习者对某一词汇深度知识成分的掌握情况，比如搭配：Collocation test[55]和词的组成部分Word Part Levels Test[56]等。然而上述测试的应用并不广泛，而且因为它们的开发是独立进行的，词源不一致，所得结果无法直接进行平行比较。学习者对每个单词各个方面的知识不尽相同。

4.小结

测试学习者的深度知识要比广度知识复杂和困难许多。学习者对每个单词各个方面的知识不尽相同。测试学习者的深度知识首先要选择需要被测的词汇以及这些词汇具体需要被测的方面，然后再用成分模式下对应的测试将学习者所掌握的词汇知识的各个方面进行测试汇总，才能更好地了解学习者对这些词汇掌握的深度。

三、结论与建议

词汇测试工具是词汇测试研究中的重要课题。纵观这些主要的测试工具，我们发现：（1）现有的测试工具普遍缺乏系统且严密的效度证据。（2）这些测试工具主要聚焦于学习者的显性陈述性词汇知识，即学习者词汇知识的准确度。（3）词汇深度测试工具较少。虽然词汇广度测试工具较多，但集中于考查接受性词汇知识（词意认知），其它方面的广度知识较少涉及。（4）在现有的词汇测试工具中，无法用不同的工具来衡量同一词汇的不同知识层面，因此使用这些工具所得到的结果不能平行比较。也有少数例外，比如Stuart McLean等学者用同一词源开发了两种形式的词汇等级测试：前文所提及的书面形式的NVLT 和听力形式的Listening Vocabulary Levels Test（LVLT）[57]。而同为书面形式的VLT 和Productive Vocabulary Levels Test（PVLT）[58]则可以比较同一词汇的词意认知和词形召回情况。（5）目前的词汇测试所关注的词汇多为通用词汇，学术词汇较少涉及。

基于此，对于未来词汇测试工具的研究，我们可以从以下几个方面进行尝试：（1）继续对现有的测试工具进行进一步的效度论证研究，例如明确测试目的、测试语言和形式、不同的学习者和教育环境、不同分数的解释等[59]。（2）除了陈述性词汇知识以外，Godfroid 拓展了Nation 的框架[60]，增加了词汇知识使用的流利度和自动性维度，未来可以加强在这方面测试工具的开发。（3）针对词汇广度测试，我们可以研究开发测试产出性词汇知识的工具（例如考查词形词意召回）。虽然这种方法费时费力，但随着人工智能的发展，未来可以尝试开发此类测试的自动打分系统。针对词汇深度测试，我们可以系统地、有针对性地开发测试工具来测试学习者各个方面的词汇深度知识，如词缀、多词单位等。（4）开发词汇测试组合模块，用一组测试工具来衡量学习者同一词频的词汇知识或同一词汇不同层面的知识[43]。（5）尝试开发单独的学术英语词汇测试工具，而不是仅仅将学术词汇的考查作为通用词汇考查的一部分。除此以外，词汇知识的考查还应该与语言技能相结合，加强语言技能词汇测试工具的开发，包括细分这些技能词汇知识的层级，如听力词汇、口语词汇等。

因为不同的母语学习者在词汇习得和测试的表现不尽相同，我们迫切需要在对标教学大纲、教学目标、课程指南和教材基础上，改编现有英语词汇测试、开发新的测试以适应不同学段、不同语言水平的母语为汉语的英语学习者，衡量他们的词汇水平、追踪他们的词汇发展。以大学阶段的英语教学为例，首先教师可以让学生用词汇量测试（如YN、VST 等）进行自测。根据测试结果对标大学英语教学和英语专业教学大纲的接受性词汇量要求，对于词汇量偏低的学生，教师应积极鼓励其扩大词汇量，例如关注NGSL 和AWL 等词表，而非仅仅局限于四六级单词表。其次，教师应重视中高频词汇的教学。教师可以用不同形式的词汇层级测试（如口头、书面）来诊断学生对于中高频词汇的掌握情况。除了形意关联层面，《中国英语能力等级量表》中词汇知识运用能力子量表（大学阶段5-7 级）的描述语强调了产出性词汇知识，并涵盖了概念、联想、搭配和语境等方面知识。因此，教师可以选定需要测试的目标词汇，设计符合教学要求和学生需求的词汇深度组合测试。教师应该根据测试结果，定位学生的词汇知识缺陷，在教学过程中，加强培养学生的词汇深度知识。