APP下载

语料库时代的汉语中型语文词典出版状况研究*

2017-01-26李仕春

中国出版 2017年3期
关键词:多义词义项语料

□文│李仕春

释义是词典的灵魂,多义词的释义更是重中之重,古今中外辞书最大的差别就在多义词的释义方面。文章主要在汉英语文词典的视角下,以多义词的释义为切入点,研究汉语中型语文词典的出版状况。

在中国辞书史上,一词多义的现象首先见于汉代《说文解字》,其释义特点是据形释义、一词一义,偶尔涉及一词多义,多义词和单义词的区分并不明显。此后,经历代字书、韵书的发展,汉语辞书中多义词和单义词的区分越来越明显,清代《康熙字典》则已收录了大量多义词。古代词典对多义词的释义基本是随文释义性质的,很不科学。20世纪以后,中国出现了以《现代汉语词典》(下文简称《现汉》)为代表的一批具有现代意义的词典,这一时期多义词义项的划分比较科学、合理,缺点是由于靠语感确定多义词的义项,因此词典中多义词义项存在收录不全的情况。以上便是汉语多义词义项划分在中国历代词典中的缩影,也可以说它是20世纪80年代以前,世界各国词典对多义词义项划分从无到有、从释义不科学到释义科学的一个缩影。然而,世界语言学自20世纪五六十年代进入语料库时代后,词典编纂发生了革命性的变化。

一、英语中型语文词典的出版状况

张志毅先生指出:“ 语料库理念萌生于1959年伦敦大学语言学教授夸克(R. Quirk),几年间建起涵盖多种语体的上百万字的‘英语用法语料库’。1961年美国布朗大学建起第一个机读的逾百万字的‘布朗语料库’。从20世纪80年代起,柯林斯等出版社和伯明翰等大学合作,创建了‘CO-BUILD(资源共建)语料库’,由此开发了《柯林斯COBUILD英语词典》。《牛津高阶英语学习词典》《朗文当代高级英语辞典》《钱伯斯基础英语词典》等的最新版本,也都是以语料库为依托编写而成。”[1]语料库的重要作用就在于可以让词典编纂者在短时间内占有大量语料,进而通过对海量语料的穷尽性分析使词典中多义词义项的收录更加全面、科学、合理,因此语料库的诞生使20世纪的词典编纂明显分为两个时期:靠语感编纂的时期和运用语料库技术编纂的时期。20世纪80年代以前,由于没有大型语料库,词典编纂者占有的语料有限,因此英语中型语文词典中常用词的义项划分往往比较粗疏、存在漏收的情况;20世纪80年代以后,由于词典编纂者能够占有足够的语料,英语中型语文词典中常用词义项的收录往往比较全面、基本不存在漏收的情况,这种现象可以用数据来证明。为了便于操作,笔者以100核心词在英语多部中型语文词典中的平均义项为例做说明。

《牛津高阶英语词典》(本文简称《牛津》)1948年发行第1版,此后,分别在1963年、1974年、1989年、1995年、2000年、2005年、2012年出了修订版,共有8个版本。从历时角度看,《牛津》第1~8版中100核心词的平均义项分别是7.55个、7.91个、7.03个、8.25个、8.47个、10.2个、10.47个、10.61个,这表明《牛津》第1~8版的修订者20世纪八九十年代把用语料库技术丰富补充常用词的义项作为重点修订对象,其标志是出版于1974~2000年的第3、4、5、6版中100核心词的平均义项数目变化较大,而这段时间正是语料库技术运用于词典编纂中的时间段。以此作为分界线,出版于1948~1974年的第1、2、3版中100核心词的平均义项数目基本没有变化,这是由于这段时期大型英语语料库还没有建成,所以这三版中多义词义项的划分还处在靠语感编纂的阶段。2000~2012年的第6、7、8版中100核心词的平均义项数目基本稳定下来,这说明经过20多年的修订,《牛津》词典编纂者在2000年就已经完成了用语料库技术丰富并补充英语语文词典中多义词义项划分的任务。

从共时的角度看,其他英语中型语文词典的编纂也大致经历了与《牛津》同样的过程。例如,在最新出版的英语类中型语文词典中,100核心词的平均义项分别是:《牛津简明英语词典》(第10版)12.81个,《麦克米伦高阶英语词典》(第2版)11.68个,《韦氏高阶英语词典》(2009年)11.43个,《郎文当代英语词典》(第4版)10.35个。这说明,目前占据英语辞书主要市场的牛津、韦氏、朗文与麦克米伦等英语词典的最新版本都是在语料库的基础上编成的。

与传统凭借语感编纂的词典相比,建立在语料库技术基础上的英语类中型语文词典在多义词义项划分方面更加细化、义项收录更加全面,在词典编纂史上实现了里程碑式的跨越发展。

二、汉语中型语文词典的出版状况

20世纪90年代以来,中国相继建设了一批汉语语料库,最有代表性的如北京大学中国语言学研究中心研制的语料库(Center for Chinese Linguistics PKU,简称“CCL语料库”),截止到2016年9月6日规模已达7.83亿字;北京语言大学汉语国际教育技术研究中心研制的北京语言大学现代汉语语料库(Beijing Language and Culture University Chinese Corpus,简称“BCC现代汉语语料库”),规模已达100亿字。可以说,目前我国的语料库已经初步具备了词典编纂所需要的规模,尽管如此,在当今中国,用语料库技术发现汉语多义词新义项的方法还没有引起汉语词典编纂者的足够重视。为了说明这种情况,笔者以与英语100核心词相对应的汉语100核心词在有代表性的汉语中型语文词典中的平均义项为例做说明。

《现代汉语词典》是一部中型语文词典。该词典1956年由国家立项,1958年6月正式开编,1960年印出“试印本”征求意见,1965年印出“试用本”送审稿,1973年内部发行,1978年正式发行第1版。《现汉》正式出版后,分别在1983年、1996年、2002年、2005年、2012年出了修订版,共有6个版本。从历时的角度看,《现汉》第1~6版中100核心词的平均义项分别是4.85个、5.20个、5.18个、5.18个、5.20个、5.42个,上述数字说明《现汉》第1~6版中100核心词的平均义项数目基本没有变化,这表明《现汉》第1~6版的词典修订者并没有把丰富补充多义词的义项作为重点修订对象。

此外,进入21世纪以来,中国先后出版了几部有代表性的汉语中型语文词典,主要有由李行健主编,外语教学与研究出版社、语文出版社联合出版的《现代汉语规范词典》(2004),先后出版3版;商务印书馆辞书研究中心编,商务印书馆出版的《现代汉语学习词典》(2010)等。从共时的角度看,在最新出版的汉语类中型语文词典中,100核心词的平均义项分别是:《现代汉语规范词典》(第3版)5.68个,《现代汉语学习词典》(2010版)5.7个。由此可见,在汉英100核心词中,汉语中型语文词典中每个核心词的平均义项比英语中型语文词典少5或6个。这说明,在最新出版的汉语中型语文词典中,100核心词乃至更多多义词义项的划分并没有建立在大型语料库的基础上进行成规模地系统修订,从而导致汉语中型语文词典义项的划分比较粗疏、存在漏收的情况。

三、汉语中型语文词典的修订建议

目前英美等辞书强国已经完成了用语料库技术研究英语常用词义项分布情况的工作,而中国的语文词典还没有展开这项工作,因此,这是一项亟待展开的工作。与以往凭借语感,划分多义词义项不同,用语料库技术划分多义词义项有以下优点。

1.方法先进

用语料库技术研究常用词义项分布的最大贡献就在于把语料库技术也即把上百亿倍的搜集语料的方法引进到词汇学、词典学研究中来,这在中国词典学史、词汇学史乃至语言学史上具有里程碑式的、划时代的方法论意义。

以“黑”为例:用语料库检索的方法可以在16毫秒的时间内得出“黑”在北京大学CCL现代汉语语料库中有130831条。假设用人工阅读的方法查找1条含有“黑”字的语句需要用1个小时(实际上有时候不止1个小时),那么要找130831条“黑”字语料则要用130831小时。经过计算可以知道查找同样多的语料,用语料库技术的方法约是人工阅读的290多亿倍,简直是神速。

2.语料海量

已有汉语类中型语文词典的释义基本依靠语感通过做卡片的方式编纂,每个词占有的语料非常有限,而用语料库技术的方法可以在极端的时间内获得海量语料。对大多数常用词义项的考察,可以根据具体情况的不同,分类下载语料。例如,对于诸如像走、跑、跳、红、黄、绿等使用频率高、构词能力强、义项丰富的核心词,我们只有在下载3万条共计160多万字语料的基础上进行研究,才能研究清楚其义项分布情况;而对于像思、抓、咬、讲、紧等使用频率较高、构词能力较强、义项较丰富的常用词,可以在下载2万条共计100多万字语料的基础上进行研究,就可以发现其全部义项了;对于像猪、牛、羊、芽、树等常用词,只要下载1万条共计50多万字的语料进行研究就可以了。

李仕春《基于语料库的现代汉语“黄”字义项分布研究》[2]等系列论文就介绍了运用语料库技术研究现代汉语常用词义项分布的具体方法。总之,我们的系列论文证明汉语类中型语文词典核心词的平均义项与英语类中型语文词典核心词的平均义项基本一致。

新理论新方法是推动一门学科进步的两大引擎,正因为用语料库技术研究常用词义项分布具有划时代的方法论意义,所以把语料库技术和词典编纂结合起来成规模地、系统地研究现代汉语常用词的义项分布,是一项亟待展开的重大基础应用研究项目。只有这样,才能尽快完成丰富并补充汉语中型语文词典中多义词义项的目的。

四、结语

相对于以往汉语词典靠语感确定多义词义项的情况来讲,充分利用语料库资源和计算机强大的计算功能研究现代汉语中常用词的义项分布情况,是一座非常诱人的学术富矿,有着巨大的挖掘潜力。张志毅先生指出:“今天的语料库已经成为能量巨大的语言样本集。它正在印证、充实、修订、改写甚至颠覆以往的辞书释语。它也正孕育出、孕育着更现代,更可信的辞书。”[3]真正建立在语料库技术基础上的汉语词典,必将会在中国辞书史上留下浓重的一笔,成为中国辞书史上具有里程碑式性质的辞书。

猜你喜欢

多义词义项语料
体认原型范畴视域下多义词延伸及对学科英语研究生培养的启示
基于归一化点向互信息的低资源平行语料过滤方法*
多义词
中、英多义词的翻译识别劣势效应及其影响因素
濒危语言与汉语平行语料库动态构建技术研究
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
两用成语中的冷义项
国内外语用学实证研究比较:语料类型与收集方法
Enhanced Precision