国际辞书现代化技术的新理念:辞书语料数据化*
2012-02-23章宜华
章宜华
以前,“辞书现代化技术”使人联想最多的是借助语料库编词典,或者是把纸质词典装进计算机或芯片。在国内,以语料库为代表的辞书现代化技术的研究方兴未艾,检索“中国知网”发现,近五年来有关语料库的论文有2341篇,与词典或辞书相关的有1011篇,仅《辞书研究》就刊登有关辞书语料库的论文20余篇。在近年召开的中国辞书学会辞书编纂现代化专业委员会历次年会上,语料库的功能、特色、建设和管理,以及语料应用等个案研究都是重要议题之一。而在国际词典学的会议上,有很多新理念已经取代了这类语料库的话题,其中之一就是语料库的深加工或数据化研究及开发。
一、辞书语料数据化的新理念
在语料库发展的初级阶段,信息数字化程度很低,语料完全靠人工录入,建设成本很高,因此语料库的规模都不大。但人们对语料的评价和期望都十分高,似乎有了语料库,词典的一切问题都解决了:释义和义项划分有了依据、例证的采集可以变得轻松、词典的编纂效率可以大大提高,等等。而实际情况是,每天都会产生大量的电子信息,其数量越来越庞大,语料库的建设变得很容易;而另一方面,在大规模语料库环境下,海量语料往往会让词典编者无从下手,甚至会大大增加其工作量,影响辞典编纂的进度。因此,西方词典学家早在上世纪八九十年代就开始了语料的数据化加工,早期的有WordNet、MindNet、FrameNet等,近期有Word Sketch Engine(词汇特性速描)、DANTE(英语词汇数据库)和Corpus Pattern Analysis(CPA:语料库模式分析)等。这些词汇数据库大多是在语料库的基础上,利用数据挖掘技术从海量的语料中提取有用的词汇数据,以描述词汇的各种语言属性。下面将对近期的几个语料数据化项目做一介绍。
二、词汇特性速描
1.词汇特性速描的主要功能
词汇特性速描(Word Sketch Engine)是建立在语料库基础上的词汇语言属性的处理和描述平台,对词汇语法和搭配特征进行全面、详尽的归纳和展现。主要功能有:
(1)一定分布模式中的词汇语料检索。用户可以查询语词、短语、搭配和语法模式,并根据各种规则区分出不同文本来源(口语、书面语等)的相关索引行。
(2)词汇的处理和特征速描,如词位化处理、词类标注、数据输入格式、搭配结构和搭配特征、语法关系的定义与表述等。
(3)同义词或近义词的检索和显示。根据语料库中大量的语法关系结构,利用统计分析和结构相似性的方法,自动生成近义词集合,譬如根据〈object,drink,beer〉,〈object,drink,wine〉,即可以把“beer”和“wine”看作近义词。
(4)词汇速描的对比。当你查询近义词时,可以通过对比其释义和不同的语言属性来发现它们的区别特征,达到语义消歧的作用,以便正确理解和使用。
(5)语词搭配显著性的计算和描述。利用搭配词在语料库中各自出现的频率和共现频率及其关系来计算语词搭配关系的显著性。后来又吸收了互信息(MI,即mutual information)的计算方法(Church&Hanks 1989),把语词搭配关系的显著性视为互信息I和频数对数(log joing frequency)之积,这种算法既便于词典编者发现互信息较高的语词搭配,同时也便于他们发现高频语词的搭配方式。
2.词汇特性速描的方式
速描系统包含多个语料库,各个语料库可单独运行。当进入查询界面后,首先选择语料库,然后在查询窗口输入要查询的词,如选择BNC(英国国家语料库),输入deliver,就会弹出主显示页面,分页显示出deliver所有6368条索引行(每百万56.8条)。在显示框左边有一排功能链接键,包括“索引、词汇列表、词汇速描、同近义词、词汇速描对照”等。点击“词汇特性速描”,再次输入deliver,选择词类(动词),点击“显示词汇特性速描”便得到图1所示结果[1]。
图1显示出deliver的各种属性速描数据,共计17种关系,全面描述了词目词的语义角色,包括共现宾语(object)、主语(subject)、限定词(modifier)、and/or并列成分、接宾语小品词(part trans)、不接宾语小品词(part intrans)、一元关系(unary rels)、介词词组(PP)、介词with in短语(pp within-p)、介词to短语(pp to-p)、介词by短语(pp by-p)、介词at短语(pp at-p)、介词on短语(pp on-p)、介词in短语(pp in-p)、介词of短语(pp of-p)、小品词up接宾语(part up-a obj)、宾语带形容词补语(np adj comp)、形容词补语(adj-comp)等。这些与被释义词共现的成分按照特定的语法规则形成不同的横聚合关系,而且各种关系的词项后都提供了共现频率及其搭配的显著度,这为词典编纂者提供了极具操作性的数据支持。
图1 英语动词deliver的词汇特征速描数据
该词汇特性速描网站有49个大型语料库支持,覆盖30多种语言;最大的enTenTen英语语料库有32.68亿个词例(token),27.59亿个词形(type)。值得一提的是,Kilgarriff在2006年与我国台湾研究机构合作,推出基于汉语语料库的词汇特性速描平台,语料库有4.55亿词例。现以“傳遞(传递)”为例做一说明:
图2 汉语动词“傳遞(传递)”的词汇特性速描
词汇特性速描中各种共现角色是根据对语词的语法结构及分布位置的统计归纳出来的,它过分强调搭配项的语法结构和词的屈折形式,对搭配项的语义限制考虑不足,因此出现了一些“噪音”信息,譬如在“主语”和“介词by短语”的共现成分中出现了“L.j”、“J.”等外国人名缩写,而在“修饰词”中甚至出现了“to,than,then”等介词和连接词。而在汉语中,这种情况就显得更加突出,因为汉语没有屈折形式,词在句子中的位置比较灵活,难以根据语词的形式特征和分布位置确定其共现成分的性质。譬如:在“傳遞(传递)”的“宾语”中出现了“路程、英里、白冰冰、路线、行程、幅员”等,在“修饰语”中出现了“能够、能、要、来”等;特别是在“主语“中,所列成分大多不是主语,而“傳遞(传递)”在这样的结构中往往也不是动词,“接力、微博、军情、公文”等都是“傳遞(传递)”的修饰语。
二、英语词汇数据库
英语词汇数据库(DANTE Database)是建立在语料库基础上的一种新型词汇知识库。它提供了9.2万词和短语的粒度精细的综合性语言特征记录,其中包括4.2万单词、2.7万习语或短语、2.05万复合词、2500个短语动词、62.2万从语料库中提取的例句。英语核心词汇的特性分析都建立在17亿词的用户语料库上,系统地描写了英语词汇的意义、语法、搭配特征及文本特性。从语料库中提取的语言实例分为40个数据类型,每一语言属性都与词目词的某一义项相关联,并有两个以上的原始例证支持,用户可以按需摘取。
1.英语词汇数据库的信息结构
英语词汇数据库有40种基本数据类型,此外还有词目类型、拼写变体、屈折变化、句法模式、搭配结构、翻译对等词、语用说明、语法说明和功能说明等内容。这些类型都是用来描写词目词的语言属性的,在数据库中都有详细的标注。该数据库采用的是XML格式,而数据类型和注释内容都是通过文件类型定义(Document Type Definition—DTD)来描述的。下面是DTD定义的数据库信息项,共94项。由于信息项数量太多,这里仅列出其中的部分属性,以资说明。
表1 DTD定义的数据库信息项
(续表1)
2.英语词汇数据库的数据结构
数据库的数据信息大致是按词典宏观和微观结构体例组织并构建起来的。词目,包括单词、复合词、短语和缩略语词头,组织起宏观结构的框架,同形异义词目按序号排列;词头有拼写变体、屈折变化形式,然后是义项及句法结构、搭配词项、语块、例句等。中间还穿插各种类型的注释和说明,最后是用法说明、短语和习惯表达等内容。图3就是measure词条的语料数据结构(部分截图)。
图3 measure的语料数据结构(部分截图)
measure下列出了18个义项和近10个短语(部分内容参见图3),而且每个义项都有详细的属性注释和丰富的例句(略)。这个数目高于一般的词典义项,如著名的《牛津高阶英汉双解词典》总共只有11个义项,其中名词8个,动词3个。在这个信息结构中,除为每个义项提供语义解释外,对句法结构和搭配的描述尤为详细;此外,还给出了不少语块。数据库的显示页面是XML文本,内容超过一页的界面右边会自动出现滚动条,滑动滚动条即可查看全部内容。
三、语料库模式分析
1.模式分析的理论构想
语料库模式分析(Corpus Pattern Analysis)是一种把词汇意义投射到特定语词文本的一种方法,旨在构建英语动词的模式数据,用于计算语言学、语言教学和语言认知方面的研究。该方法的倡导者是《新牛津英语词典》的主编Patrick Hanks,其理论基础是“常态与拓展理论”(Theory of Norms and Exploitations)(Hanks 2004;Hanks&Pustejovsky 2005)。该理论吸收了生成词库(Generative Lexicon)(Pustejovsky 1995)和生成语义学(frame semantics)(Fillmore&Atkins 1992)等理论。常态与拓展理论认为,孤立的词其意义是十分含糊的,或者说是没有“意义”的,它只有“意义潜势”(meaning potential)。人类大脑中存储的不是孤立的词项,而是词的各种使用模式或短语模式(phraseological pattern)以及与该模式密切相关的原型特征。要理解一个词在语言交际中的意义,关键是要知道其模式,并要区分常规模式(norms)和拓展模式(exploitation)。要想了解语词如何获得意义,就要分析语词的分布位置及语境:配价和搭配。
2.模式分析的数据结构
模式分析的标注工作一直在进行当中,凡标注完成的条目会立即入库,并上网供用户免费查询。模式分析库的显示结构共三层:第一层是词表,第二层是用法模式,第三层是相关语料。表2为第一层。
表2 语料库模式分析查询词表
在表2中,从左至右分别是动词表、模式数、OEC词频、BNC词频、成稿时间。用鼠标点击左边的词项,便可以进入语词的模式分析界面。如点击bite,便弹出第二层界面(如图4所示):
图4 bite的22个用法模式截图
动词bite共22个用法模式(义项),截图只显示出8个。在图4中,左侧数字是序号,百分数是每一个模式占该词总用法(或词频)的百分比。每一个义项上方的粗体单词标示的是语料模式,其下是该模式的释义。最右边的是模式类型:conc为常规模式,exploit为拓展模式;用鼠标点击相关模式可以进入第三层语料界面(图略)。
3.常规模式分析的步骤
通过分析可以看出,语料库模式的分析有以下方法和步骤:
—语料分析:以统计的方法整理语词用法实例,根据目的词的搭配项以索引行为单位分类,抽象出每一句子类型的模式,并把意义投射到相应的用法模式;分析工具是词汇特性速描(Word Sketch Engine)。
—模式分析:语言交际中的原型被视为常规用法模式,而常规模式通过新的隐喻、转喻和非常规措辞,或在特定的语境中都会获得具有个性的特色意义,这就被视为扩展模式;而同一模式要分析出不同变体结构(包括句法结构交替、词汇交替和语义交替),同时还要区别偏误用法(error)。
—为每一动词模式配置一个语义结构(implicature),它用不同的动词和短语表达与词目词相同的意义,而且该模式相关的论元或语义角色都要出现在这个结构中。
—挑选例句:从语料库(BNC)中为每一个目的词挑选出一定数量的索引行,一般为250~500个例子。这些句子按不同的模式放在被释义词的各个义项中,以强化其分布结构。下面举例说明:
(1)translate[8]
当一个动词有两个或两个以上论元,且这些论元语义类型相同、形式相同但语义角色不同时,可以用数字编码加以区分;而一个模式有两个义项的,则按序列出:
(2)bite[22]
有一些动词的语义角色在某些模式中要求有特有的语义类别,可以用注释的方法在模式中标示出来;对释义的补充说明,则可以直接放在语义解释下方:
(3)abate[5]
(4)abuse[5]
例(3)模式1和模式2中的主语语义类型分别是[事件=暴风雨]和[事件=洪水],这种注释使释义更加具体化:处于危险状态的水位下降了。例(4)中的主语语义类型是[人类=坏家伙],宾语的语义类型是[人类=受害者],后面的注释说明该结构并不总是用于性侵犯,有时也用于表示主语角色羞辱或侮辱受害人。
四、结 语
在信息化时代,辞书现代化的关键是计算机技术和数字化技术的应用,其实质就是文字处理与传输的智能化和信息化;辞书的编纂、编辑、出版和发行都必须充分利用这些技术,以适应信息时代的需要。国内辞书界早已意识到现代化技术在词典编纂和出版中的重要性,但由于种种原因主要研究仍集中在是否建立或如何建立语料库的问题上;而实际上,由于现代网络无时无刻不在产生大量的电子文本,语料库的建设已变得十分容易,况且国际互联网上出现了越来越多免费使用的大型语料库(特别是英语语料库),因此语料库的建立和使用已经不存在技术和资源问题。鉴于此,辞书现代技术的应用应该多关注语料库数据化的研究和开发,利用数据挖掘技术在语料的基础上建立汉语、英语、法语、日语等语种的词汇数据库,研究和开发辞书编纂、编辑、出版专用的文字处理平台和数据库。这些内容才是辞书走向载体电子化、检索智能化、发行网络化的核心问题,这些问题解决好了自然会加快我国辞书现代化的进程。
附 注
[1]由于显示内容很多,难以在一个截屏中全部显现,故归纳成此表。
[2]OEC指Oxford English Corpus(牛津英语语料库)。
1.Church K,Hanks P.Word Association Norms,Mutual Information,and Lexicography.∥Computational Linguistics,1990(1):22 -29.
2.Fillmore C J.et al.Towards a Frame-based Organization of the Lexicon:The Semantics of RISK and Its Neighbors.∥Lehrer A,Kittay E F.(eds.).Frames,Fields,and Contrasts.Mahwah:Lawrence Erlbaum Associates,1992.
3.Hanks P.The Syntagmatics of Metaphor and Idioms.International Journal of Lexicography,2004(3).
4.Hanks P,Pustejovsky J.A Pattern Dictionary for Natural Language Processing.Revue Francaise de linguistique appliquée,2005(2).
5.Pustejovsky J.The Generative Lexicon.Cambridge:MIT Press,1995.