学术英语词表研究管窥<br/>——三份医学英语词表比较分析

学术英语词表研究管窥
——三份医学英语词表比较分析

2020-05-21焦培慧刘传江

江西理工大学学报 2020年2期

焦培慧，刘传江

（1. 赣南医学院，江西赣州341000；2. 广东金融学院，广州510521）

一、引言

词汇量是一个人的教育程度、智力高低或阅读面的反映[1]，外语学习者的词汇量则是其目标语言能力高低的重要决定因素。因此，语言教学专家长期致力于词表（wordlist）或词汇表（vocabulary list）的研制，以期为语言教学大纲制定、教材开发和试题编制等提供参考依据。在早期开发的众多英语教学词表当中，Thorndike[2]开发的《教师词汇手册30000 词》及West[3]开发的《通用英语词表》（General Service List of English Words，GSL）影响力最大[1]。这两份经典词表被证明在当今仍具权威性，对BNC 和JDEST 语料库的覆盖率都达到95%以上[4]，对当前的英语教学仍有指导意义。特别是GSL，不仅对教学的指导作用经久不衰，而且是后人研究和开发词表不可忽视的标杆。可见，一份科学的词表对语言教学及其研究的深远影响。

得益于现代科技而迅速发展的语料库语言学为词表研究和开发提供了便捷，新的词表因此不断涌现。特别是21 世纪以来，不仅通用英语词表推陈出新，而且学术英语或专门用途英语词表也遍地开花。自Coxhead[5]发布通用学术英语词表（Academic Word List，AWL）以来，ESP 教学研究者相继推出了其他专业领域的英语词表。这些ESP/EAP 词表不仅有助于课程教学大纲的设置，也有助于教材的编写与评估，特别是对教材中生词和重点词汇的遴选、释义及词汇练习的设计有着极其重要的参考价值。

值得注意的是，研究者对医学英语词表的开发有着非同一般的兴趣。自我国第四军医大学医学英语课题组[6]在国际权威期刊English for Specific Purposes发表医学英语学术词表（Medical Academic Word List，MAWL）后，又有我国台湾义守大学徐文华[7]教授在Language Teaching Research发表医学英语词表（Medical Word List，MWL），我国华中科技大学雷蕾[8]教授在Journal of English for Academic Purposes发表医学英语学术词汇表（Medical Academic Vocabulary List，MAVL）；同时，AWL 的开发者Coxhead[9-10]教授也高度关注医学英语词表的研制，并发表了相关成果。根据金檀、刘康龙和吴金城[11]的研究，学术英语词表的研制范式可归为三种——总体语料驱动、个体课文驱动与具体词网驱动。三种范式因词表研制的目标不同，因此方法各异。其中，总体语料驱动范式旨在通过大容量语料库确定学术英语的高频词汇，为学术英语教学指引方向；个体课文驱动范式旨在计算单篇课文的词汇覆盖率，确定课文生词表；具体词网驱动范式旨在生成与具体话题相关的词汇，帮助学习者提高输出技能[11]。上述医学英语词表均遵循总体语料驱动范式研制而成，目标在于确定医学英语高频词汇，为医学英语教学提供方向指引。

问题是，既然有多份采用同一范式研制的医学英语词表，那么医学英语课程教学及研究人员该如何选择呢？不同研究者在不同时期针对同一学科开发词表，反映了词表研究的什么趋势，对将来的词表研究有何启示？为回答上述问题，有必要对不同医学英语词表及其研制过程加以比较分析。鉴于MAWL、MWL 和MAVL 三份词表的研究成果均在国际权威期刊发表，而且公布了词表全文，下文对三份词表进行比较分析，以期为词表的选用及将来的研究提供有益参考。

二、三份词表比较

语料驱动范式的学术英语词表研制由四个步骤组成，即构建总体语料、生成初始词表、比较词汇频率及生成词汇总表[11]。尽管四个步骤的具体操作可能因为词表研制的目标有所不同，但基本流程大同小异，造成最终所得词表存在差异的主要因素在于两个方面：一是语料库的容量和语料来源，二是选词标准。此外，词表研究者对词汇单位的定义也可能不同，因而最后所得词表的呈现方式会有差异。以往的词表开发者通常以词族（word family）为词汇单位，但最近一些词表的开发者则倾向于以词元（lemma）为单位，其主要理由是与词族相比，词元能体现词汇的基本语法信息，而且语义透明度（semantic transparency）更高[12-13]。下文考察的三份词表中，MAWL 和MWL 以词族为单位，MAVL 以词元为单位，在概述三份词表的基本样貌之后，再分别考察构建各份词表所用的语料及选词标准。

（一）基本样貌

三份词表的基本信息见表1。MAWL 收入的词汇数量为623 个词族，MWL 为595 个词族，MAVL为819 个词元。MAVL 的开发者[8]曾将MAWL 转换为词元形式，得出的词元数量是1751 个，亦即MAVL 的长度不及MAWL 的一半。据此，则从词表的长度看，更晚开发的词表更经济。但是，用Familizer 把MAVL 转换为词族形式，得出的词族数量是665 个①Familizer（网址https：//www.lextutor.ca/familizer/）转换结果为663 个词族，但另有2 个（cytokine 和pathway）未归类，故总数为665 个。。由此，因三份词表所用词汇单位不同，仅通过词族/词元转换的方法比较其长度，未必完全可靠。

表1 三份词表基本信息

覆盖率的高低是词表是否具有代表性的直接体现。从三份词表开发者汇报的覆盖率看，MAWL对自建语库的覆盖率为12.24%，MWL 为10.72%，MAVL 对两个自建语库的覆盖率分别为19.44%和20.18%。 MAVL 的开发者还检验了MAWL 在他们的两个自建语库中的覆盖率，分别是10.52%和12.97%[8]。从以上数据看，前两份词表的覆盖率较为接近，第三份词表则几乎是前两份的倍数。然而，由于用于生成和检验三份词表覆盖率的语料库并不相同，仅从各自汇报的数据难以断言覆盖率的高低。事实上，词表的形式特征和覆盖率不足以判断词表的科学性，还需要追溯生成词表的语料构成及选词标准。

（二）语料构成

三份词表的研究者均构建了较大规模的语料库，所选语料涵盖了众多医学分支领域，见表2。三者当中，生成MAWL 的语料库容量最小，但也超过了百万词，语料来源为96 篇Science Direct 在线数据库中的医学学术论文，涵盖32 个医学分支领域（每个领域选取3 篇论文），论文作者均为英语母语者。生成MWL 的语料库规模最大，达到1500 万词，语料来源为155 本医学专业教材，涵盖31 个医学分支领域（每个领域选取5 本教材）。MAVL 的研究者构建了两个语料库，一是用于生成词表的学术论文语料库（MAEC），库容为270 万词，语料来源是在Elsevier 期刊库收藏的SCI 医学期刊中随机选取38 份刊物后从中选取的760 篇学术论文（每份刊物选取20 篇论文），涵盖21 个医学分支领域；二是用于验证词表覆盖率的教材语料库（MTEC），库容为350 万词，语料来源是牛津大学出版社发行的3 卷本医学教材，共33 章，涵盖所有医学分支领域。

表2 三份词表的语料构成一览表

三个语料库虽然库容大小不一，但用于生成词表的语料都具有代表性，MAWL 和MAVL 的语料来源都是通过分层随机抽样获得的医学期刊论文。MWL 的语料来源与其他两份词表不同，未采用期刊论文，而是医学专业教材，其理由是医学专业本科生在学习期间以阅读教材为主，而非学术论文，也有其合理性。三份词表的语料来源涵盖了医学的主要分支领域。尽管MAVL 的研究者构建的词表生成语库MAEC 涵盖的领域为21 个，比另两份少，但若所得词表在验证参照语库MTEC 中有较高覆盖率，则语料代表性也不构成问题。实际上，构建词表验证参照语库的做法已经为词表研究者所推崇，Coxhead 的相关研究[10]即为明证。简而言之，三份词表的研究者构建的总体语料库满足生成词表的语料需求。

（三）选词标准

MAWL 和MWL 的研发者均采用Coxhead 开发AWL 所设置的三个词汇筛选指标[5]，即专业特性（Specialized Occurrence）、覆盖范围（Range）和频次阈值（Frequency），但设置的筛选标准稍有不同，见表3。在专业特性方面，两个词表研发者所用的通用词汇参照词表不同，前者以GSL2000 为参照排除通用词汇，后者则以BNC3000 为参照排除通用词汇。两者设置的覆盖范围相同，均要求入选词汇涵盖半数以上的分支领域。两者设置的频次阈值差异较大，前者参考Coxhead 开发AWL 的标准[5]，要求入选词汇在总体语库中出现的频次不少于30 次①生成MAWL 的语料库容量为100 余万词，是生成AWL 的语料库容量（350 余万词）的三分之一，故MAWL 开发者取AWL 频次阈值（100 次）的三分之一，设置为30 次。，后者并未以AWL 的标准为参照，而是以MWL 与BNC3000 及专有名词列表组合后的覆盖率必须达到98%为最终目标，反复调试词汇的频次阈值，将其设定为863 次。

MAVL 的研发者设置了6 个词汇筛选指标，除D 值（Dispersion，即离散度）外，其他5 个指标均可纳入Coxhead 设置的三个指标，见表3。从表3 可知，MAVL 开发者设置的覆盖范围与另两份词表一样，但对专业特性和频次阈值两个指标做了更加精细的处理。在专业特性方面，MAVL 的开发者并未参照通用词表排除通用词汇，而是借鉴词表研发的新方法[12]，首先观察词汇在总库和子库中的频次比例，要求入选词汇在总库中出现的频次不超过其在任意3 个子库中出现的期望频次的3 倍，以确保入选词汇是医学领域通用的词汇，而非某个医学分支领域的专用词汇；在此基础上，开发者在参照Brezina 和Gablasova 研制的new-GSL[13]及医学英语词典排除非医学通用词汇。在频次阈值方面，开发者首先参照AWL 的阈值，将之换算为28.57 次/百万词，先后在两个语库中选取符合最低阈值要求的词汇，然后又以BNC 非学术语料库的词频为参照，进一步筛选在自建语库中出现频率高出在BNC 非学术语库出现频率50%以上的词汇，其目的在于排除在医学语篇中出现的高频通用词汇，从而选出具有代表性的医学词汇。

表3 三份词表的选词标准

三份词表开发者设置的选词标准，MAVL 最为严谨，在专业特性和频次阈值两个方面都设置了双重标准，而且还增加了离散度这一指标，以保证入选词汇在各子语库中分布均匀。值得注意的是，三份词表开发者用于排除通用词表的通用词表并不相同，MAWL 参照的是历史较久远的GSL 词表中的2000 高频词，MWL 参照的是BNC 词表中的3000 高频词，而MAVL 则是新近开发的new-GSL。三者采用的参照词表都具有权威性，但是对通用词汇设置的门槛不一样，MAWL 仅排除GSL2000 高频词，导致生成的词表中仍有较大比例的通用词汇，而且与通用学术英语词表AWL 有较高的重合率，这也是MWL 开发者之所以研制新词表的缘由之一[7]。 MWL 开发者采用BNC3000，因此过滤了较多通用词汇，这也部分解释了MWL 比MAWL 所含词汇数量少的原因。MAVL 开发者并未首先参照通用词表排除通用词汇，其理由是在医学文本中出现的高频通用词汇可能具有医学意义[8]；理论上，结合通用词表和医学词典排除非医学通用词汇的做法可以增强词表的代表性，提高词表的覆盖率。

三、讨论

鉴于医学英语课程的词汇学习负担十分沉重[10，14]，研发具有代表性的医学英语词表是十分必要的，这方面的努力势必持续下去。从不同词表中选出适用的词表，可以帮助教学人员明确教学目标，提高教学效率。

（一）根据教学目标选用合适词表

从上文对三份词表的基本样貌、语料构成和选词标准的比较分析可知，由于词表开发者用于建库的语料不同，语料库规模不一，而且设置的选词标准存在差异，因而词表的内容、长度及覆盖率存在差异。实际上，造成词表差异更深层的原因是开发者对词表设定的目标，即服务于何种教学目的。开发者是根据词表目标构建语料库和筛选词汇的。因此，教学人员应首先判断词表目标与教学目标是否一致，从不同词表中选择适用的词表。

从三份词表的名称可以看出，MAWL 和MAVL定位于服务医学EAP 的教学，因此开发者用于生成词表的语料库由学术论文构成；而MWL 定位于服务医学专业本科生的ESP 课程教学，故语料库由医学专业教材构成。三份词表开发者设置的选词标准，也受制于词表目标。开发者都试图选出能够体现医学学科共性的词汇，因此尽可能排除无法体现医学和通用文本特征的通用词汇。但是，开发者排除通用词汇的方案有差异。比如，MAWL 的开发者将GSL2000 高频词排除在外；MWL 的开发者则认为GSL2000 门槛过低，由此得出的词表包含较多通用词汇，故而参照BNC3000 排除通用词汇；而MAVL 的开发者为了避免将带有医学意义的通用词汇排除在外，所以另辟蹊径，结合new-GSL 和医学词典排除不具有医学意义的通用词汇。尽管理论上MAVL 的选词标准和方法能够确保把具有医学意义的高频词汇选入词表，但是这些词汇在通用语域和医学语域中的用法可能重合或高度相似，因此，在词表使用过程中，还是应根据学习者的水平和需求及具体的教学内容和目标对这些词汇灵活处理，做到因地制宜、因材施教。

（二）采用第三方语料库验证词表

从上文对三份医学英语词表的比较分析，可以看出语料库驱动范式学术英语词表开发的基本走向：一是建库的规模逐渐壮大，二是选词的标准越来越严密。计算机硬件和软件的不断升级迭代，为构建大型语料库、实施复杂选词运算提供了方便。可以预见，将来会继续涌现从更大规模语料库精选出来的、覆盖率更高的词表。然而，面对多份词表，尽管教学人员可以根据词表目标、语料来源和选词标准从中选出适用于教学目标的词表，但是，以词表研发者汇报的研制过程和基本数据为判断依据未必是万全之策。

如前所述，MAVL 的开发者使用自建语库比较了MAWL 和MAVL 的覆盖率，尽管数据显示后者大大超越前者，但是两份词表的生成语库不同，使用其中一份词表的生成语库比较该词表与另一词表的覆盖率，有可能出现偏好问题。因之，有研究者尝试根据教学目标构建第三方语料库，对两份同类词表进行验证。比如，有研究者[15]就将一门课程所用教材的50 篇课文汇集为语料库，比较了AWL与AVL 两份学术英语词表的覆盖率。这样的验证方法不但可以有效避免上述语料偏好问题，也有助于在不同词表之间做出合理的选择。

另外，对三份医学词表的比较分析显示三份词表开发者在通用词汇是否入选词表方面有不同见解，因而设置了不同的遴选标准。关于通用词汇是否选入医学词表的问题，有研究者[16]曾提出不宜仅以其在通用词表中的位次或频率高低为依据，而还应深入考察其在医学语料库中的共选特征，从而做出更为精确的判断。观察词汇在搭配、类联接、语义趋向和语义韵多个层次的共选特征是否因语域不同而出现差异，不失为验证学术词表效度的有效途径。

四、结语

新形势下，ESP/EAP 教学已经成为我国高校英语教学的重要组成部分。 ESP/EAP 教学探索始于制定合理的教学大纲，而参考词表又是教学大纲不可或缺的内容。因此，开展ESP/EAP 词表的开发和研究十分必要。经过长期探索，语料库驱动的词表开发已经形成一套成熟的范式。词表研发者可以参照该范式构建较大规模的语料库，设置严密的选词标准，生成符合目标的词表。面对多份类似词表，教学人员可以结合教学目标自建语料库或采用第三方语料库，比较词表的覆盖率，同时观察词汇在通用语域和目标语域的共选特征，决定是否将词表中的通用词汇纳入教学范围。当然，借助语料库研制和选择服务于课程教学目标的词表只是在教学实践中应用语料库的一种方式，教学人员还可以参照个体课文驱动和具体词网驱动范式，构建服务于课文教学目标和输出技能提高的教学词表。