词汇自由联想测试构念效度的初步探究
2022-06-14罗运久
罗运久
一、引言
词汇测试是语言测试的重要领域,有两个重要的构念效度:词汇量和词汇深度[1]。词汇量即学生知道的词的数量,词汇深度代表着学生对目标词汇掌握的水平。词汇自由联想测试(以下简称词汇联想测试)作为一种产出性词汇测试,纸质版本和电脑版本均得到了广泛的应用。大多数词汇联想测试用于测试学生词汇量的大小,但这些测试基本没有提供构念效度的证据,也无法准确给出学生对目标词汇的了解情况,因此很难说是合格的词汇测试工具。为解决这一问题,本研究使用有声思维方法收集调查了学生在完成词汇联想测试时的心理活动过程,意图为该测试提供构念效度的证据。
二、相关文献回顾
(一)产出性词汇知识的构念效度
词汇测试中有两个重要的构念效度:词汇量和词汇深度[2]。词汇量是指学生所知道的词汇总数,学生至少要掌握这些词汇的意思,即看到词汇可以辨认出词的意思,或者给出词汇意思能够辨认出词。相比之下,词汇深度是指学生对目标词汇的掌握情况。一般而言,学生最浅的知识是只掌握词汇的发音,而最深的知识是掌握词汇的使用限制,即什么时候该用,什么时候不该用[3]。除了以上两个维度,词汇知识还可以分为接受性知识和产出性知识。简单来说,接受性知识表示学生会认这些词汇,而产出性知识则表示学生会用这些词汇。因此,对产出性词汇知识而言,词汇量就是学生能够回想起来的能说或者能写的词汇数量,而词汇深度就是学生对目标词汇的掌握程度,即能在不同的语境下使用词汇。产出性词汇知识具体构成如表1。
表1 词汇联想测试所涉及的产出性词汇知识
(二)词汇联想测试的相关研究
作为一种广泛使用的产出性词汇测试,词汇联想测试主要着眼于学生回答与目标词汇的语义相似性,即两个词词义和使用语境的相似程度。理论上说,词汇联想测试至少涉及了三方面的词汇深度知识:词汇关联、语法功能以及词汇搭配。然而,目前很少有研究将词汇联想测试作为一种词汇深度测试进行设计和验证[4]。
在词汇联想测试中,所展示的词汇被称为刺激词(the stimulus word),考生需要根据刺激词写出一个或多个词汇[5](如附录1)。目前大多数研究聚焦在对学生产出性词汇量的评估上,通常的做法是计算考生答案的中级和高级答案个数,从而对考生的词汇量做出大致的估计。例如,Walters[4]在2012 年的研究中给考生答案中每个中级(第二千个最常用的英文单词)和高级(学术及其他高级词汇)词汇打一分(见表2)。
虽然将词汇联想测试视作测量词汇量手段的研究者不在少数,但其在构念效度上仍有无法解释的问题,即考生似乎更依赖他们的词汇深度知识来得到答案。具体来说,考生可能首先想到的是与刺激词语义相近的词汇;如果没有,再去寻找和他们字形相近或者发音相近的词汇。也就是说,比起想到的词汇数量,考生更关注刺激词和答案之间的语义相似度[5]。
此外,如果研究者将词汇联想测试用于测量考生词汇量,他们很可能无法判断考生是否真正掌握了目标词汇。Fitzpatrick[6]指出,她曾遇到一位考生对“习惯”这一刺激词给出三个答案:红眼睛、青草以及大耳朵。研究者直到看到第三个答案才发现考生错把“习惯”当成了“兔子”一词。
表2 词汇联想测试作为词汇量测量手段的概况
整体来看,国内外词汇联想测试的研究主要缺乏构念效度证据,这直接影响到测试工具的效度以及考试的具体设计。鉴于此,有必要使用有声思维来探究考生在完成词汇联想测试时的心理活动,从而为其提供坚实的构念效度证据。
三、研究方法
(一)研究问题
在以往的研究中,词汇联想测试都是作为产出性词汇量的测量工具在使用,一般提供的效度证据是效标关联效度(如和其他词汇量测试的相关性)。为了探究该工具的构念效度的证据(即评估的目标知识能力),本研究提出了如下问题:
1. 词汇联想测试所衡量的是哪一个维度的产出性知识:词汇量还是词汇深度知识?
2. 如果词汇联想测试评估的是学生的词汇深度知识,学生更可能回想还是使用词汇知识来得到答案?
(二)研究受试
受试为43 位在中国学习汉语的留学生。这43位学生来自三所不同的大学,有着不同的母语背景(见表3)。他们均为中高级的汉语学习者。(《HSK考试大纲》对汉语水平划分如下:1-2 级为初级水平、3-4 级为中级水平、5-6 级为高级水平)。大部分学生来自哈萨克斯坦、秘鲁、白俄罗斯以及日本。
表3 受试的基本信息
续表
(三)研究设计
研究设计分为两个方面:(1)研究材料和工具的设计;(2)实验步骤。
在研究材料的设计上,研究者根据Meara 和Fitzpatrick[5]在2000 年提出的词汇联想测试,从《HSK考试词汇大纲》中选取了22个4级词汇作为刺激词,占4 级实词总数的4.6%(见附录2)。每位考生都需要根据刺激词写出至少10 个答案。《HSK 考试词汇大纲》中包含六个等级的词汇,其中1 级和2 级词汇为常见的高频词,而3 到6 级词汇为学术词汇[7]。选取这22 个词汇是基于两方面的考虑,一是选取中高级词汇作为目标词能够使学生的答案更加多样[8];二是中高级的汉语学习者被认为掌握完成产出性词汇测试所必需的读写能力[9]。
在实验步骤上,为了了解学生答案与刺激词的关联,研究者让每一位考生采取有声思维法来报告他们在完成测试题目时的心理活动。在正式开展有声思维报告之前,每位考生都参加了15 分钟的演练。在演练过程中,考生需要根据不在考试范围中的刺激词作答,并向研究者报告他们是如何得到答案的。整个正式环节持续1 到2 个小时。在考生解释不清或者陷入沉默的时候,研究者会提出如下的问题:“你为什么要联系这两个词,能不能稍微再解释下你的理由?”有声思维环节是用中文进行的,并在征得学生许可的情况下进行了录音。
使用有声思维收集到的数据作为考试的构念效度证据,是语言测试的普遍做法[10]。为了更好地帮助研究者理解考生在完成词汇联想测试时的思维过程,有声思维语料将按照两个系统来进行编码:(1)Fitzpatrick 提 出 的 词 汇 联 想 测 试 答 案 分 类[6];(2)Nation 对产出性词汇知识的分类[3]。另外,考虑到中文没有类似英文的词族(如mends、mended 和mending),有关单词组成部分的答题策略也被相应删除。
四、研究结果和讨论
针对第一个研究问题,从两个角度进行分析:一是学生答案的平均数量,二是学生运用不同词汇知识回答问题的具体情况。
首先,对于学生回答数量这一描述性统计量,研究发现,三个水平的学生平均能够给出2.65个答案。其中3 级水平学生所能给出的答案最少,约为1.75个。相比之下,4 级和5 级水平学生答案数量有所增加,分别为2.25个和3.95个。初步来看,三个水平学生给出的答案数量远低于测试要求(10个答案)。
导致学生答案数量远低于研究要求的原因有两个:一是学生更关注答案和刺激词之间的语义相似度,而不是答案的数量。如果学生仅能找出3 个和刺激词相关联的答案,学生宁可只写3 个答案,而不是强行填满10 个答案。二是中文产出性词汇测试对考生有不小的难度。考虑到中文书写系统的独特性,目前大多数中文词汇测试题为单项选择题,即不要求学生“会写”词汇,而是要求学生“会认”词汇。本研究中的词汇联想测试属于产出性测试,要求写出词汇,这对学生造成了不小的挑战。
其次,对于学生回答问题的具体情况,有声思维收集到的语料显示,学生会采用不同层次的词汇知识来完成测试,而不仅仅局限于对刺激词词义的理解。表4 是学生运用不同词汇知识回答问题的具体情况见:
表4 考生有声思维使用策略节选
1. 使用发音策略回答问题
节选1 中的学习者来自日本,她之所以给出“漂亮”这一答案是因为该词的日语发音和刺激词“可怜”的发音非常相似。在这个过程中,学生首先回想到与刺激词发音相似的日语词汇,然后给出其中文翻译作为答案。总的来说,这种答题策略并没有获得考生的青睐,很少有考生通过这种策略来回答问题。
2. 使用拼写策略回答问题
在节选2中,考生3是因为刺激词和答案中都有一个“理”字得到的答案。从后面考生给出的解释不难看出,考生并没有掌握刺激词的词义,而是通过构成该词的字义来推测词的意思。大多数时候,考生是在缺乏对刺激词或答案词义了解的情况下使用拼写策略回答问题。
3. 使用词性策略回答问题
在节选3中,考生1将刺激词和答案作为一对单词进行记忆。在词汇学习过程中,学习者常常将语义相近、词性不同的词汇成对记忆,而不是根据词汇表死记硬背[11]。总体来看,考生很少通过这种策略来得到答案。
4. 使用词义策略回答问题
学习者对词义的掌握程度有高低之分。当词义掌握程度低的时候,学生通常只能对词汇的大致印象进行描述,如“不好的词”“贬义词”。相比于大致的描述,在有声思维语料中,大多数考生其实更倾向于对词义下相对准确的定义。在节选4中,考生5分别对刺激词和答案下了定义。尽管该考生对两个词下了定义,由于答题策略在功能上的一致性,这段节选仍然被编码成使用了一次词义策略。
5. 使用多义词策略回答问题
在节选5中,考生22提到刺激词有两个意思,这是典型的使用多义词策略回答问题的例子。虽然在节选的后半部分,考生有提及过该词的词性(形容词),这段节选并没有被编码成使用词性策略回答问题,原因在于该考生的目标是介绍刺激词的其中一个意思,而不是介绍它的词性。
6. 使用词汇关联策略回答问题
之前的研究显示有三种描述词汇组织的方式[12]:(1)近义词;(2)反义词;(3)上位词。其中,最受学生关注的是词汇的近义关系。在节选6 中,考生1 明确指出了刺激词和答案是一对近义词。除了明确使用“近义词”这一条目外,学生同样会使用“差不多”“A 就是B”这样的方式来指明词汇之间的近义关系。
7. 使用造句策略回答问题
这一策略指的是学生能够用自己原创的句子将刺激词和答案联系起来,这种策略的使用在一定程度上反映出学生在语境中使用词汇的能力[13]。由于这一策略事实上缺乏较为准确的定义,在实际的编码过程会出现编码重叠的现象(如将学生给出的句子编码成解释词义或使用搭配)。考虑到这一现象,这一策略的编码要符合两个条件:一是句子中不包含连系动词(如“是”),二是句子中刺激词和答案至少要相隔两个词以上。在节选7 中,考生3造的句子将刺激词和答案联系在了一起。在句子中,该考生试图向研究者传达一个观念,即同情心是觉得他人可怜的前提。这个句子既没有连系动词,刺激词和答案也没有相邻,符合使用造句策略回答问题的条件。
8. 使用词汇搭配策略回答问题
词汇搭配策略是最受考生青睐的答题策略之一。一般有三种方法判断学生是否使用搭配知识回答问题:(1)基于形式的方法;(2)基于心理词汇储存的方法;(3)反例。首先,基于形式的方法要求刺激词和答案相邻,考生6在节选8中给出了包含刺激词和答案的短语,这是在句子或短语中使用搭配的典型例子,因此研究者将其编码为使用词汇搭配策略回答问题。相比之下,基于心理词汇储存的方式要看学生是否明确指出是将刺激词和答案作为搭配进行记忆的。反例是则指学生指出目标词不可以和某些特定词汇搭配。
9. 使用词汇使用限制策略回答问题
这种策略和词汇的使用场合以及正式程度有关。有声思维语料显示,学生会在选择书面语和口头语的情况下使用该策略。在节选9 中,该名学生明确指出了该答案是适合书面表达这类正式场合使用的。
从上面的有声思维语料中不难看出,学生在完成词汇联想测试的时候,使用了不同方面、不同层次的产出性词汇知识。再者,根据以往对词汇量测试的研究,学生并不需要使用深度的词汇知识,仅仅需要了解词义就可以正确回答题目[14]。这都说明词汇联想测试更应被看作为词汇深度测试,而非词汇量测试。
针对第二个研究问题,研究者对20 位考生使用的答题策略频率进行了分析,其中高水平学习者10人(5 级学习者)、低水平学习者10 人(3 级学习者)(见表5)。结果显示,相比于词汇的回想知识(如词汇的拼写知识),两组考生都对词汇的使用知识更为关注(如词汇的关联知识)。考生的汉语水平越高,就越有可能将答案和刺激词在语境中联系起来。这进一步说明了词汇联想测试所测量的是学生深度的、高水平的词汇知识,而非简单的回想。
表5 学习者考试策略的比较
五、结语
本研究初步探讨了词汇联想测试的构念效度,主要得到了以下结论:(1)词汇联想测试所衡量的是学生的词汇深度知识;(2)相比于回想知识,学生更关注词汇的使用。
本研究结果有助于在二语习得领域更好地开发和利用词汇联想测试,对其作为词汇深度测试的设计和开发也有着启示意义。初步看来,学生更关注词汇的使用而非回想,如果能对代表使用知识的答案给出较高的分数,而对代表回想的答案给出较低的分数,则词汇联想测试作为深度测试的实用性和可操作性将大大增强。