学术定义测试的适用性研究

2022-03-13徐伟

铜陵职业技术学院学报 2022年4期

徐伟

（湖北中医药大学，湖北武汉 430070）

一、词汇深度和广度

许多词汇研究人员都认为词汇知识可以分为词汇量和词汇深度。词汇量大小（vocabulary size）或宽度涉及与单词形式和主要含义有关的定量知识，词汇量大小也称为形式和含义关联。研究人员使用了各种类型的评估工具，这些工具具有不同的格式来衡量词汇知识的这一维度[1]。John Read在他的2007年词汇评估概述中指出，测量学习者的词汇量一直是大多数词汇测试的重点，诸如产出性词汇量测验Laufer和Nation的Productive Vocabulary-Size Test，Nation 和 Beglar的 Vocabulary Size Test词汇量测验，Nation2001年的Vocabulary Levels Test词汇量测验和 2006年 Meara和 Miralpeix的Y Lex测验等测试都具有低语境的共同特征，旨在衡量考生对单词含义的了解，通常使用语料库得出的频率信息来推断总词汇量。通过将词汇测试的分数与技能导向的能力测试的分数进行比较，对词汇量测试的研究还显示出词汇量和语言熟练程度之间存在正相关关系[2]。Nassaji（2004）指出，评估词汇量大小的一种广泛使用的方法是词汇水平测试（简称VLT），它具有词义匹配格式，并且由代表不同词频水平的词组成，范围从高到低。频率（2000字级）到低频字（10,000字级），VLT已被验证具有良好的内容有效性[3]。词汇知识的深度是指语言学习者对单词的了解程度，词汇深度涉及与“学习者对单个单词的了解程度或单词在学习者心理组织方式的程度。学习者深度掌握单词需要了解各种各样的词汇知识，从其发音，拼写以及风格和形态特征的知识[4]，还需要了解单词与语言中其他单词的句法和语义关系，包括搭配含义以及对反义词，同义词和下位词的认识[5]。一些探索词汇知识深度的测试包括Read开发的单词联想测验（Word Associates Test），测量单词的语义和搭配知识，以及Paribakht和Wesche的词汇知识量表，该量表试图通过自我评估和词汇注解项目混合格式来衡量知识的深度。Word Associates Test（WAT），由 Read 开发，使用单词联想的原理来制作单词联想的格式，要求学习者选择对刺激词汇的反应。目标词和联想词具有三个基本关系：“范式（上位词，同义词），搭配成分和解释含义词（代表目标词含义的关键词）”[5]。尽管该测试仅利用形容词的知识，但鉴于测度的设计要求识别与所测得的形容词搭配的名词，可以间接测试名词。

二、词汇深度和广度关系研究的二个维度

许多研究人员研究了L2词汇研究中词汇量与深度之间的关系。Schmitt[6]（2014：941）在关于词汇大小和深度研究提出了以下问题：“词汇量大小和深度是否表现为独立的结构”，这个问题是迄今为止关于词汇研究的基础问题。Koizumi Rie使用结构方程模型（SEM）对于这个问题进行建模，使用常规建模和贝叶斯SEM方法以研究日本成年英语学习者第二语言词汇知识的大小和深度的因素结构。结果表明，在两因素模型中，词汇的大小和深度密切相关，但词汇量大小和深度可以被认为是单独的结构[7]。另外一个涉及词汇深度和广度关系的问题是需要考虑词汇测试参与者的语言水平因素。Nurweni和 Read（1999）研究了一所印尼大学一年级学生的英语词汇知识，以350名学生为样本，进行了单词翻译测试以评估词汇量，并通过单词联想测试来测量词汇深度，总体两个测试的相关系数为0.62。但是，一旦根据学习者英语成绩将学生分为三类，则其相关性会根据熟练程度的不同而有很大差异。高组（样本的10%）的相关系数为0.81，中组（42%）的相关系数为0.43，低组（48%）的相关系数为0.18[8]。语言水平的阀门效应在本文作者关于思辨阅读与词汇深度的相关性研究也有类似的结论。[9]

综合而言，词汇测试研究表明，第二语言用户的词汇（接受性知识和产出性和多样性）与一般语言能力呈正相关且与语言水平因素相关，但对于未知学术词汇以及学术定义语境含义理解知之甚少，研究不足。

三、学术词汇测试（ADT）

词汇知识被认为对阅读理解极为重要。在这一领域，最重要的研究是词汇推理，或者读者如何推断文本中未知单词的含义。Nassaji[3]发现，尽管发现了词法推理成功，词法知识深度和策略使用质量存在一定关联，但学习者在确定文本中新词的含义上通常不理想。最近一个著名的例外是Gablasova[10]，他通过熟悉词汇的学术文章调查了L1和L2对技术术语的学习，通过延后测试发现L2读者在学习术语和保留术语知识方面不太成功。在学术环境中，第二语言（L2）用户需要阅读文本以用于多种目的，包括理解，综合和评估。学术阅读的另一个目的是要熟悉特定学科中的关键词汇，专门针对特定学科的词汇，学者们的关注不足。当词汇条目嵌入流行的学术阅读测试（例如新托福IBT）时，通常数量很少，并且通常会根据现有知识和词汇量做预测，所以并没有考察语境综合信息推测词义的能力，有关在上下文中形成新单词知识理解的能力少有研究。认识到常规词汇量的局限性，学者们呼吁在特定领域进行词汇测试。作为回应，学术定义测验（ADT）由 Daniel Richard Isbell设计并做了检验，该测验用于衡量在大学教科书也就是学术篇章的特定语境中识别特定学科中定义含义的能力。ADT试图对词汇和阅读能力很少关注一个方面进行推论：考生识别学术课本中定义的能力。高能力的考生应该能够阅读学术文章并认识到文本提供的关键术语定义，这在许多学术阅读环境中都是很常见的关键能力。

本项研究的目的是采用英语专业本科生大学生二语学习者数据，检验考察学术定义测验（ADT）的结果，为能够识别学术文本中未知技术词汇定义能力的观点提供初步支持，以提供评分标准的细节。本研究具体研究问题为：1.考生的回答是否表明ADT可以测量预期目的？2.ADT是一种可靠的词汇测试方式吗？选项检验的可靠度如何？

四、研究方法

1.研究对象：英语专业学生和程序

对象为湖北中医药大学英语专业和商务英语专业大一至大三学生，参与者为115名应试者，参与者的总体英语水平范围从中等水平（大一新生水平）到高水平（通过英语专业四级考试）。

研究工具开展形式为学院组织的第一届学术词汇大赛，时间为2021年3月，ADT词汇测试时间为20分钟，测试数据采集平台为学习通软件在线测试平台，并通过线下组织监考方式开展，采集数据的方式正式可靠，学术词汇测试（ADT）的评分员由二名从事词汇研究的教师负责评阅。使用Cohenkappa评分用于评分员一致性问题，ADT的一致性平均值为0.79。

2.研究工具:学术词汇测试（ADT）

ADT包含一个阅读段落，其中包含10个一分得分的简短答案项目[11]。阅读文章摘录自一所大学的100级生物学课程中使用的一本教科书（《生命：生物学科学》（第7版）,摘录的长度为768单词，以使文本定义中支持十个关键术语。Isbell注意到显式下定义结构通常用于使读者熟悉新的词汇项目，并通过示例和说明等解释信息来熟悉新的词汇，这两种方法都可以在ADT中找到。此外，学者指出，经济学教科书中几乎所有文本内词汇熟悉的实例都针对名词，这反映在ADT词汇项目中，它们都是单个名词或名词短语（形容词+名词或名词+名词）。在ADT中，目标技术术语用虚构单词代替，在多词技术术语的情况下，第二个词（通常是技术专业级别较低的词）未更改，例如，energy budget中的 budget未更改，以便避免引入虚构单词可能引起混淆的形态信息。例如，在日常活动中的 “physical”一词被kerepal（虚构单词）代替，保留了“ -al”后缀，该词后缀可被识别为形容词。为了控制现有词汇知识影响效果，将原始的技术词汇的核心语义模糊化处理，从而增加了项目的上下文相关性。换句话说，项目的构建方式可以防止考生仅仅碰巧知道一个术语或不考虑文本内的猜测而混淆测试结果。以下表1列出了每个技术术语如何更改的逐项说明。考生通过对简短的定义（从一个单词到一句话或两个句子的汉语翻译）做出回应，并允许使用原文直接引用，本文研究中使用了翻译的方法要求考生给出解释定义的中文版本。如果回答在段落中反映了单词的 “核心含义”，则认为这些回答是正确的，部分回答被认为是不得分答案。

表1 学术词汇构念表

3.研究结果和数据

表2中提供了项目统计信息，包括选项难度（P）和选项区分度，表底部是均值。难度范围为0.22（难度大）至0.80（简单），整个测试的平均难度为0.53。判别值范围为.42至.84，平均值为.46。从选项难度来看，选项3和7难度大，选项6简单，其他选项适中。

表2 选项难度与区分度分析表

从作答情况分析来看，难度大的选项为选项3。Moffen的语境定义为a unit of measure that tells the amount of heat necessary to raise the temperature of 1 gram of water 1 degree Celsius或者a measure of heat。（定义翻译期待答案为表示将1克水的温度提高1摄氏度所需的热量的度量单位/热量的度量或者评估值）。学生回答版本：1）一种估测的热力值；2）一种测量单位，表示使一克水升温一摄氏度所需要的热量；3）动物的需求和食物热量中的能量含量；4）卡路里或者热量评估值；5）一种度量动物能量需求和食物能量含量的热量单位。以上5种接近关键成分，即热量和评估单位，匹配度高。在错误的回答中，如果核心成分错误被认定语境定义理解不成功。学生错误回答：能量消耗（核心部分错误）。以此核心成分来分析预期答案和实际作答，例如第一题 telpon，不接受答案为：1）动物；2）吸收太阳能来为组织器官补充能量（organism词汇不理解）；3）获取营养的器官；4）一种依靠其他有机体生存的依存型生物；5）消费者。正确答案需要出现核心成分：通过吃其他生物/生物而获得营养/能量的动物；或者猎食其他生物（例如植物）获得能量和营养的动物。通过Item difficulty分析得出过于简单的选项6的预期答案和实际作答分析：sceltel budget:for any animal,a comparison of moffens(calories)consumed with calories expended（对于任何动物，摄入的卡路里与所消耗的卡路里的比较），可以接受的学生答题正确版本为：对于热量消耗和摄入的一种计算体系；不接受答案：1）一种对动物任何行为进行成本—收益分析的办法将成本—利益分析各种行为上的指标；2）预计耗能。出现错误原因在于考生对于核心部分comparison的理解不当，同时受到budget汉语翻译“预算”影响，考生无法作出定义的语境推测。

五、结论

总而言之，发现ADT的描述性统计数据意味着选项测试效果较好，选项的难度基本符合要求，区分度好。回答显示出对任务的理解，并且清楚地表明了测试对象与学术文本有互动，显示出受试者尝试理解文本和推测语境中定义含义的努力，ADT具有足够的可靠性。每个选项的难度值都落在合适的范围内（即.25-.80），所有项目都具有理想的区分度值。分析应试者的回答也为得分推断提供了证据，错误的答案通常可以被描述为误解，过于含糊，不考虑语境推测或缺少定义的关键要素导致，结果还表明，应试者做猜测作答受到限制，部分考生直接放弃作答。另外一方面，ADT学术语篇定义测试也有一些缺陷，例如，ADT本次测试文本仅代表生物学一门学科的一篇文本。虽然任务具有较高的真实性，每个术语在丰富连贯的文本中多次出现，供考生推测使用。但是，这种方法限制了学术领域的代表性，需要一种更具分析性的测试格式，采用多个学科的较短摘录语篇同时增加选项的个数，另一种选择是将ADT任务集成到传统的学术阅读测试中，例如融入现有的新赛达阅读考试科学语篇阅读测试设计或考研英语阅读测试。

ADT学术定义测试可以衡量学习者识别文本中未知学术定义的能力，目前的选项分析和预期回答得分要素分析为测试的推广提供了一定的支持，可以为研究者更好的理解学术阅读，阅读策略，词汇推断和词汇概念的特征提供新的视野。ADT利用了一般阅读理解测试中未表现出的能力，凸显了学术阅读中的学术定义理解这一核心要素，值得研究并将其设计嵌入融合至高风险的学术阅读测试中。未来语料库研究也许能够阐明学术课本中用于提供定义的最常见模式，为ADT的教学和修订提供思路，同时也需要扩大ADT测试的文本多样性和选项设计研究，开展ADT测试和传统词汇测试相关性研究，为学术英语教学例如医学，生物，工程等提供实证研究的支撑。