汉英内外型词典义项精细度对比研究*
2020-12-29焦子桓艾红娟
焦子桓 艾红娟
(西南大学文学院 重庆 400715)
“中型语文词典可以分为内向型词典和外向型词典,内向型词典是供母语为本族语学习者使用的词典,外向型词典是供母语为非本族语学习者使用的词典。”[1]本文涉及的内向型汉语词典有:《现代汉语词典》(第7版)、《现代汉语规范词典》(第3版)、《现代汉语学习词典》;外向型汉语词典有:《当代汉语词典》、《现代汉语学习词典》(孙全州版)、《商务馆学汉语》;内向型英语词典有:《牛津简明英语词典》(第10版)、《韦氏大学词典》(第10版)、《柯林斯英语词典》(第13版);外向型英语词典有:《牛津高阶英语词典》(第9版)、《韦氏高阶英语学习词典》、《柯林斯高阶英语学习词典》(第9版)。
义项精细度是指语文词典中多义词义项划分的粗疏与细密程度。本文以李仕春《汉英中型语文性词典义项精细度对比研究》“中型语文性词典义项精细度比较表”为参照对象[2],建立“汉英内外型词典义项精细度比较表”,分别统计出100核心词在汉英内外型词典中的义项精细度,并分析造成汉英词典义项精细度差别的原因。
一、 汉语内外型词典100核心词义项精细度
(一)汉语内向型词典100核心词义项精细度
《现代汉语词典》是我国第一部真正意义上的现代语文词典,主要是为推广普通话,促进汉语规范化服务的,具有“共时性、简明性、语文性和规范性”[3]的特点,该词典初版于1978年,第7版于2016年出版。《现代汉语规范词典》是一部以促进全面推广语言文字规范标准为中心工作的词典,该词典初版于2004年,第3版于2014年出版。2010年出版的《现代汉语学习词典》与通用型词典功能不同,它是以指导学生学习应用汉语为主旨的,立足于实用,目前还没有修订版。100核心词在以上三部词典中的平均义项如下:
100核心词在《现代汉语词典》中共有549个义项,平均每个词有5.49个。
100核心词在《现代汉语规范词典》中共有568个义项,平均每个词有5.68个。
100核心词在《现代汉语学习词典》中共有590个义项,平均每个词有5.9个。
上述三部内向型词典编纂目的是不同的,这应在辞书文本中有所体现,但上述数据显示它们的义项精细度非常接近。
从词典微观方面分析,我们发现上述三部词典不但义项数量非常相近而且义项相似度也很高。究其原因在于:“经典辞书的影响力和权威性大,后出产品的智力投放很难超越积累多代人智慧的经典辞书。”[4]这就有可能造成了后起的辞书借鉴之前出现的优秀辞书。我们随机选取了30个词,将上述三部词典相同词目的释义进行对比,发现《现代汉语学习词典》《现代汉语规范词典》与《现代汉语词典》的释义相似度都分别高达80%以上。这表明《现代汉语规范词典》与《现代汉语学习词典》的释义在很大程度上借鉴了《现代汉语词典》。
(二)汉语外向型词典100核心词义项精细度
1995年出版的《现代汉语学习词典》是我国较早一批的对外汉语学习词典,收录词语约23000个,它最大的特色是将汉语语法归纳为几十个句法模式,并配有详细的说明,有学者称其“填补了我国对外汉语学习词典的空白”[5]。2005年出版的《当代汉语词典》是一部为外国学习者编纂的初级汉语学习词典,主要收录《汉语水平词汇与汉字等级大纲》中的甲、乙级词。在体例上对词不做释义,而是通过示例使读者理解词义、掌握语法。《商务馆学汉语》是2007年出版的新作,被誉为 “迄今为止我国第一部专门为具有中级汉语水平的外国人编的汉语语文词典”[6]。这三部外向型词典到目前为止尚无修订版。100核心词在以上三部词典中的平均义项如下:
100核心词在《现代汉语学习词典》中共有456个义项,平均每个词有4.56个。
100核心词在《当代汉语词典》中共有153个义项,平均每个词有1.53个。
100核心词在《商务馆学汉语》中共有330个义项,平均每个词有3.3个。
上述数据显示,汉语外向型词典中100核心词义项收录的非常少。这是因为汉语外向型词典的义项通常是在汉语内向型词典基础上删减而来的。以“坏”字为例,对比《商务馆学汉语》《现代汉语学习词典》和《现代汉语词典》的释义:
更多类似例子显示,《商务馆学汉语》《现代汉语学习词典》等外向型词典在很大程度上沿袭了《现代汉语词典》相同词目的释义。正如章宜华所说:“《现代汉语词典》作为内向型普通语言词典,其释义的科学性和规范性使之成为汉语辞书的典范,在学界和广大用户中最具权威性,而这种权威性在辞书编纂中产生了很强的‘蓝本效应’,无论是汉语学习词典、对外汉语词典、还是汉外双语词典的编纂大多以《现代汉语词典》为‘蓝本’,不管它是否符合潜在用户的实际需求。”[7]因为作为“蓝本”的《现代汉语词典》自初版以来义项几乎没有明显增长,从而间接使得以它为“蓝本”的其他词典在义项收录上也难以取得进展。
二、英语内外型词典100核心词义项精细度
(一)英语内向型词典100核心词义项精细度
《牛津简明英语词典》初版于1911年,第12版于2011年出版。《韦氏大学词典》初版于1898年,第11版于2003年出版。《柯林斯英语词典》被称为“英国词典的里程碑”,因为它是第一部采用计算机数据库编纂和排版的词典。该词典初版于1979年,第13版于2018年出版。100核心词在以上三部词典中的平均义项如下:
100核心词在《牛津简明英语词典》中共有1284个义项,平均每个词有12.84个。
100核心词在《韦氏大学词典》中共有2395个义项,平均每个词有23.95个。
100核心词在《柯林斯英语词典》中共有1982个义项,平均每个词有19.82个。
上述数据显示,英语内向型词典义项较多,均在10个以上,且数量相差较大。这主要是因为:一、内向型词典面向母语用户,需要“广泛收录消极型词汇,义项的收录要考虑用户阅读会涉及的语义范围,因此它的义项一般要比积极型词典多得多”[8]。二、各品牌词典义项的分合有各自的认定标准,虽然会相互借鉴,但总体上都保持着自身的释义特色,避免被其他词典同化。
(二)英语外向型词典100核心词义项精细度
《牛津高阶英语词典》首开外向型词典编纂先河,该词典初版于1948年,第9版于2016年出版。《柯林斯高阶英语学习词典》被誉为“语料库驱动的词典编纂的最早习作”[9]。它的面世标志着外向型词典开始了激烈的竞争。该词典初版于1987年,第9版于2018年出版。100核心词在以上三部词典中的平均义项如下:
100核心词在《牛津高阶英语词典》中共有1046个义项,平均每个词有10.46个。
100核心词在《韦氏高阶英语学习词典》中共有1308个义项,平均每个词有13.08个。
100核心词在《柯林斯高阶英语学习词典》中共有796个义项,平均每个词有7.96个。
从上述数据可以看出,英语类词典收录的义项普遍较多,其中一个很重要的原因是英语词典修订者非常重视利用语料库技术来发现新的义项。李仕春从历时的角度统计了《牛津高阶英语词典》1-8版100核心词的平均义项数量分别是:7.55、7.91、7.03、8.25、8.47、10.2、10.47、10.61个。发现《牛津高阶英语词典》从第4版开始义项数量有了明显变化,到第6版时义项数量趋于稳定。从出版时间来看,第4版出版时处于20世纪80年代末,这个时期牛津大学出版社开始为词典编纂建立大型语料库,并将利用语料库技术丰富和补充常用词的义项作为修订重点。到21世纪初,第6版出版之时,已经完成了利用语料库技术丰富和补充常用词义项的工作。
“与传统凭借语感编纂的词典相比,建立在语料库技术基础上的英语类中型语文词典在多义词义项的划分方面更加细化、义项的收录更加全面,在词典编纂史上实现了里程碑式的跨越发展。”[10]应用语料库编纂词典的历史可追溯到塞缪尔· 约翰逊编纂《英语词典》时期,他利用前人在150年间收集的资料建立了第一个用于词典编纂的大型手工语料库[11]。200多年后,这种词典编纂方法被《牛津英语词典》沿用,来自世界各地的2000多名志愿者为《牛津英语词典》的编纂贡献了超过500万张词语卡片,主编默里甚至为整理将近2吨重的卡片专门搭建了“缮写室”。上世纪50年代以后,随着现代计算机技术的发展,使语料库从手工收集转向键盘输入成为了可能。第一个具有代表性的百万级计算机语料库——布朗语料库于1964年在布朗大学建立。 随后,各大出版公司陆续建立了自己的词典语料库,例如柯林斯出版公司和伯明翰大学联合开发的语料库(The English Bank)已积累了超过64500万词次,内容涉及英、美、奥、加等国家的英语,取材覆盖书刊杂志、电视广播、日常交谈等正式或非正式语体;麦克米伦出版公司依托含词2亿的“世界英语语料库”(World English Corpus);朗文和牛津出版公司使用拥有1.17亿词汇的“英语国家语料库”(British National Corpus),此外朗文公司还自建拥有3000万词汇的“朗文兰开斯特语料库”(Longman Lancaster Corpus)和拥有500万词汇的“朗文学习者语料库”(Longman Learner’s Corpus);韦伯斯特出版公司依托超过1亿语词的引语数据库。“这些语料库以多元的语料题材、惊人的信息存量、超强的客诉能力、高超的反应技术、简易的分档归类、便利的检索引导、稳定的工作性能等为特征,从根本上颠覆了传统的词典编纂理念,使词典编纂方式发生了革命性的转变”[12]。因此,王宗炎指出:“现代新出的重要英语辞书,一般都有个庞大的语料库做依据”[13]。
三、汉英内外型词典100核心词义项精细度对比分析
从上文的统计数据可以看出,英语内向型词典的义项精细度约是汉语内向型词典的3倍,英语外向型词典的义项精细度也是汉语外向型词典的3倍。出现这样巨大差距的原因在于汉语词典漏收了大量的义项。为此,李仕春先后撰写了《语料库视野下的现代汉语“绿”字义项分布研究》[14]《语料库视野下的现代汉语“黄”字义项分布研究》[15]《语料库视野下的现代汉语“狗”字义项分布研究》[16]等一系列论文,证明:“现代汉语中100核心词和现代英语中对应的100核心词的平均义项数目基本相当(也即汉英中型语文性词典中100个对应核心词的平均义项数目基本一致),出现差距的原因在于英语词典编纂者在修订词典时有意识地注意运用语料库技术丰富并补充常用词的义项,而汉语词典编纂者对此没有意识。”
从词典修订的频率来看,语料库技术的应用在很大程度上缩短了词典修订周期。以《柯林斯高阶英语学习词典》为例,从它的英文名称《Collins COBULD Advanced Learner’s English Dictionary》可以看出,这是一部基于语料库生成的学习词典,21世纪以来,《柯林斯高阶英语学习词典》以平均2.5年/周期的速度修订,在激烈的词典市场中占尽先机。相比之下,我国词典市场显得非常被动,本文分析的汉语类词典,除了《现代汉语词典》《现代汉语规范词典》还在以稳定的步伐进行修订外,其他词典至今都没有修订版,这就意味着那些没有信息更新的词典很快会被市场淘汰掉。事实上,我国自上个世纪90年代起,就相继建立了一批汉语语料库,如国家语委的“现代汉语平衡语料库”,北京大学的“CCL语料库”和“BCC语料库”,其中“BCC”语料库已超过150亿字符,语料涉及口语、书面语、科技、政治、经济、法律、文学、报纸等多个领域,按张志毅先生“学习词典必须以足量、平衡、针对的语料为前提。收10000条、20000条、30000条的初级、中阶、高阶学习词典,其语料必须3亿、6亿、9亿字符”[17]的说法,BCC语料库已经能够胜任国内任何足本语文词典编纂的重任。然而遗憾的是,到目前为止,国内尚无一部真正基于汉语语料库开发的汉语词典。正是因为没有对语料库技术的足够重视,导致我国的词典编纂水平远远落后于发达国家。
通过汉英内外型词典义项精细度的对比,可以说明基于语料库编纂的英语词典义项收录更加全面,义项划分更加细化,更具科学性。不仅如此,语料库在词典编纂中对义项描写,使用频率统计,语法信息描述等方面也具无可比拟的优越性。在英美等辞书强国,几乎所有著名品牌的英语词典都是基于语料库技术编纂而成的,语料库技术早已把词典编纂推向了一个新的高度,事实证明建立语料库已经是编纂当代原创性词典的必要条件。然而,在我国这方面的技术还处于初级阶段,利用语料库技术编纂词典还没有引起词典编纂者的足够重视,真正符合词典编纂标准的大型语料库又屈指可数,这一现状与辞书强国形成强烈的反差。把语料库技术和词典编纂结合起来成规模地、系统地研究现代汉语常用词的义项分布规律问题,是一项待展开的、需要成千上万人参与的重大基础应用研究项目,它是一项非常宏大的工程。