术语词典知识组织模型及辅助编纂系统设计
2015-05-11宋培彦等
宋培彦等
摘 要 文章基于知识组织理论,提出了术语词典知识表示的基本模型,作为术语词典编纂系统的知识框架。对术语词典辅助编纂的系统架构进行设计,分解为三个核心功能模块,将基于语料库的术语计算、数据可视化、用户交互模块紧密结合,直接服务于术语词典的编纂,提高知识生产效率。
关键词 术语词典 知识组织 用户交互 术语计算 数字出版
一、引 言
术语词典是面向专业领域提供知识服务的重要工具。然而,现有术语词典的编纂还存在一些问题。例如,术语词典的知识内容大多较为简略,主要提供释义、英文翻译等内容,对于深层知识的组织和描述需要提高。术语词典的编纂自动化程度偏低,不少术语词典的编纂仍然沿用传统的手工方式,术语搜集、整理、分类、排版、校对流程主要由人工完成,缺乏必要的自动化辅助工具。这些简单重复的手工劳动极易出错而且效率低下,导致术语词典编纂滞后于科技的发展和语言事实的变化,且难以实现资源共享。(解海江,章黎平 2010;冯志伟 2006;赵刚 2011;张爱朴 2012)如何从知识组织的角度对术语知识进行深度描述,进而设计半自动化的术语词典编纂系统,是当前术语词典研究领域的重要课题,无疑具有十分重要的意义。(王惠临,吴丹,石崇德 2006;赖茂生,屈鹏,谢静 2009)
从本质上来说,术语词典编纂是进行知识生产的重要环节,是词典学、术语学、图书情报学、计算语言学等多个学科的前沿交叉领域。术语词典编纂系统的设计首先要以知识组织为依据,准确揭示术语背后的各类知识,形成统一、规范的知识表示框架,这需要词典学、术语学和知识组织理论的相关成果。其次,术语词典实现半自动化编纂、提高知识生产的效率,需要积极吸收计算语言学在语料库建设、新词发现、术语计算等方面的成果。最后,术语词典编纂带有浓厚的知识工程特征,需要以工程管理的观点,实现知识的共建共享、交互式协同与动态更新等。
本文首先对术语的知识表示框架进行描述,突出知识组织的内聚性和关联性。再对术语词典辅助编纂系统的功能模块进行设计,借助知识组织科学、计算术语学、计算词典学的成果,研究术语词典编纂自动化的相关技术,并对术语词典编纂中的相关机制进行讨论。
二、相关研究
知识组织 (Knowledge Organization,简称KO)是对人类知识进行有序化处理的过程,通过一定的描述方式揭示知识之间的逻辑关系。随着人类知识的迅猛增长,人们吸收了图书馆学、情报学、计算机科学、知识工程学、现代语言学、认知心理学等学科的成果,编制了百科全书、叙词表、分类表、本体、术语列表等各种知识组织工具,为术语词典的编纂提供了丰富的经验。在国际上,国际术语信息中心TermInfo(http:∥www.infoterm.info)、国际知识组织协会ISKO(http:∥www.isko.org)等将术语与知识组织紧密联系,召开学术会议,使术语与知识组织的结合日益紧密。
术语词典编纂系统的设计要以知识组织为依托,形成较为规范的、半自动化的知识生产流程。术语词典是提供专业知识服务的工具,需要对术语所指称的客观事物或知识内容进行深度揭示。因此,术语词典编纂要求编者不但要有语言知识,而且更重要的是要有专业知识。术语词典注重的是术语的概念,且以语词来表达这些概念,一般按照主题顺序排序。术语的概念范畴、范畴成员之间的关系是术语词典研究的一个重点,术语词典编纂以术语学和词典学为基础理论,应用知识组织、计算语言学的基本方法和技术,经过词汇收集、术语规范、知识描述、知识链接等,形成人机两用的知识资源。(Zeng Marcia Lei 2008;宋培彦 2012;傅爱平,吴杰,李芸 2009)
术语词典编纂的研究在国内外学术界得到了广泛的关注,在理论研究和具体实践方面取得了丰富的成果。西方国家已有大量术语词典出版并热销,例如《美国国防部军语及相关术语词典》(U.S.Department of Defense Military Language and Related Terminology Dictionary)、《简明牛津文学术语词典》(The Concise Oxford Dictionary of Literary Terms)等。我国自20世纪90年代至今,已出版了《膜技术术语辞典》《涂料术语词典》《新编美国军事术语词典》《英汉法律缩略语词典》等。在此期间,还研制了一些双语词典辅助编纂工具,例如,商务印书馆与南京大学联合开发的“CONULEXID词典编纂系统”、上海交通大学陆汝占教授等开发的“汉语词典编纂一体化环境”、广东外语外贸大学词典学研究中心开发的“基于微观数据结构的双语词典生成系统”(简称DICTGenerator系统)等,这些系统主要用于语文词典的辅助编纂,一定程度上实现了编纂的半自动化,对于术语词典的编纂也有较大的启发意义。不过总体而言,术语词典的知识组织架构、编纂流程和相关技术有特殊之处,需要进行深入研究。(赫迎红 2006;王际洲 2010)
三、术语词典知识组织结构
术语词典的知识范围较宽,具有较强的学科专业性特征。不同专业的术语词典由于应用领域、编制思路、技术手段不同,其知识描述方式也有较大的差异,归纳已经出版的术语词典可以发现,术语词典最重要的结构元素是词目词及其释义,围绕词目可以扩展到其他相关知识属性。术语词典知识组织结构模型如图1所示。
本模型对术语知识进行结构化处理。词典由词条构成,词条是词典的基本单位。术语知识可分为五部分:词目、同义词、释义、范畴和知识链接。下面对这些内容分别进行介绍:
(1)词目。词目的选择必须覆盖术语词典的学科知识体系,选词立目要受词典的性质、规模、预定的服务对象等多种因素制约,考虑收词的均衡性和使用频度,提供准确、规范的专业术语。同时,术语词典中的词目具有语言学属性,往往表现为词、词组(可以为固定搭配或自由搭配)或字符(例如:O代表氧、A72代表72号汽油)。(叶其松 2010;何瑞清 2011;亢世勇,王兴隆,谢晓艳 2012)词目是知识概念的载体,用于表示特定的专业概念。词目一般选择术语的规范名称,对于部分容易引起歧义的术语可以通过注释进行处理。为了便于使用术语,往往还需要加注外语翻译(英语、日语、俄语、拉丁语等多个语种)。对于部分罕用的术语词目,必要时需要注明拼音。
(2)同义词。同义词是指向同一概念的多个术语的统称,在术语词典中用“亦称”“又称”“又名”“亦译”“旧译”等来标注。一般术语词典将缩略语也视为其同义词。
(3)范畴。综合性的专业词典中标注该术语所属的具体专业分类。例如,对于“层次分析法”这个术语,在运筹学、语言学中都有出现,但意义差别很大,可以通过术语的范畴加以区分,消除歧义。
(4)释义。释义是术语词典的核心内容之一,用于对术语知识进行深度的揭示和描述,如对其形状、构成、成分、特性、用途等进行详细解释。释义主要是描述性的,通过下定义、举例子、画图表等方式,对术语的内涵和外延进行描述,帮助用户了解术语的知识内容。对于不便用语言描述的定义,可以通过图片、表格等进行诠释,帮助用户掌握术语知识。
(5)知识链接。在电子词典和网络词典中,术语之间的相互链接更为便利,可以将具有相关性的各类知识点进行有效的关联,帮助用户进行知识发现和查阅,例如图片、图表、公式、音频、视频等可以用更专业、更形象的方式进一步揭示术语知识。在网络环境下,术语链接具有更强的动态性特征,基于语义实现跨领域、跨介质的知识关联。
采用上述术语知识描述结构,可以形成人机两用的知识资源。它将传统的非结构化的文本信息转换为以词条为核心的树形结构,清晰显示数据结构各个部分的关系,为术语词典的描述提供了一个相对统一的模型,这就为术语知识的共享和术语词典辅助编纂系统的研制提供了相对稳定的框架。例如《膜技术术语辞典》的词条“镍铁蓄电池”:
镍铁蓄电池 nickeliron accumulator;Edison accumulator
又称爱迪生蓄电池。碱性蓄电池的一种。负极为铁,正极活性物质为氧化高镍,以金属镍为导电材料,30%氢氧化钾水溶液为电解质。电池中反应为:
Fe+Ni2O3+3H2OFe(OH)2+2Ni(OH)3
工作电压约为1.3V;实际能量密度10~20(W·h/kg)。广泛应用于汽车、电车和实验室等方面和启动、牵引动力。
转换为树形结构表示,如图2所示。
四、系统总体设计
术语词典辅助编纂系统是进行词典编纂的技术平台,包含了术语收集、审核发布、更新维护等传统功能,实现无纸化的数字出版,提高术语词典的质量可控性。(章宜华 2004,2007;Landau 2001)借助网络环境下的海量文献资源和计算机自动处理技术,实现术语的半自动挖掘、推荐和更新,有利于缩短词典编纂周期、降低词典编纂成本、减轻专家工作强度、提高术语词典质量。同时,采用用户交互机制,使专家的主导作用与普通用户的广泛参与相结合,实现在线、实时的知识互动,将知识生产过程从封闭式的、少数精英模式扩展到开放的、普通大众模式,有利于增强词典的用户体验,形成良性的互动编制模式。
系统以流程管理为主导,以语料挖掘与术语计算、用户协同与交互为支撑,主要包括词条采集、词条编审、词典生成、词典更新、语料管理、语料挖掘、工作管理、用户协同与交互模块等。如图3所示。
(1)流程管理。包括词条采集、词条编审、词典生成和词典更新四个模块。系统中涉及词条采集人员和各级编审人员、学科专家,可以根据权限进行控制。词条采集主要是录入词条的所有信息,包括词形确定、范畴、拼音、外文、释义等,在词条提交到一审之前,采集人员具有添加、删除、修改词条的权限。词条编审包括一审、二审、三审,这三个级别是循环迭代的过程,本层次审核不合格的词条可返回上一级修改,也可在本层自行修改,但是三审(三审人员具有专家级别)后的数据不允许任意修改,作为最终信息存入术语词典数据库中作为词典脚本,经过人工校验合格后可自动生成术语词典批量出版。
(2)语料挖掘与术语计算。语料库是以一定的标准存放真实存在的语言材料,可采用专业文献数据库、学术网站等为基础制作语料库,为术语词典编纂提供资源。语料管理指对语料库中的语篇文本、例证数据、声音数据、图形文件等进行系统管理,对语料文件进行导入、转换、入库、导出、浏览、查询、编辑、备份存储及更新等操作,由于在术语词典数据库中的正文均以句子为记录单位,语料管理还可以对原始数据进行词频统计,为词目的确立提供可量化的数据基础。术语计算技术是术语词典编纂的重要技术手段。例如,采用机器学习方法,从语料库中自动发现新词,为编纂人员推荐新的术语语词;以可视化的手段监测术语的流通度,通过统计词频及语词的生命周期,推荐规范的术语语词作为词典立目参考,以可视化方式(纵轴为频率,横轴为使用生命周期)的形式显示出术语的使用规律;利用计算同义词模块自动识别词目词的同义词,供人工参考选取合适的同义词。
(3)用户协同与交互模块。术语词典编纂是一项复杂的知识工程,需要众多的专业人员参与。Web2.0技术为实现用户之间的交互和协同工作提供了便利条件。用户(专家用户或一般用户)可以为术语词典补充新概念、新术语,或纠正词典中的问题术语信息,经由编审人员审核后及时修改。用户协同与交互模块为用户提供了开放的平台,将大众智慧融入到词典知识的生产过程中。
五、结 语
术语词典编纂需要较为通用的知识组织模型,为词典编纂系统的设计提供框架。进而,将知识组织研究中的用户交互、动态更新、术语计算等理念引入到词典编纂过程中,设计具有半自动化功能的术语词典辅助编纂系统。这种设计将流程管理、术语计算、用户交互等进行适度的融合,有助于提高术语词典编纂的质量和效率。将现有的专业文献数据库作为粗语料库,方便编纂人员进行词汇选择、量化分析和知识抽取,提高工作效率。将词典数据按照知识组织的语义结构进行多维链接,形成多媒体表现形式,帮助用户理解不同概念之间的关系,提高知识学习效率。加强术语计算、科技语料库建设等方面的研究,形成面向术语的自动处理方法和技术,是需要进一步加强研究的课题。(张东,王惠临 2010;冯志伟 2008)
参考文献
1.冯志伟. 术语学中的概念系统与知识本体. 术语标准化与信息技术,2006(1).
2.冯志伟. 一个新兴的术语学科——计算术语学. 术语标准化与信息技术, 2008(4).
3.傅爱平,吴杰,李芸. 汉语语文词典的词条结构模型. 辞书研究,2009(2).
4.赫迎红. 浅谈大型汉英词典的词条和义项设立. 辞书研究,2006(2).
5.何瑞清. 术语多元化、通俗化的限度与词典编纂的对策——以“法人”英译名为例. 北京:术语标准化与信息技术,2011(4).
6.亢世勇,王兴隆,谢晓艳. 我国计算机辅助词典编纂系统初步调查研究. 辞书研究,2012(3).
7.赖茂生,屈鹏,谢静. 知识组织最新研究与实践进展. 图书情报工作,2009(2).
8.宋培彦. 术语知识表示模型研究. 情报理论与实践, 2012(8).
9.王惠临, 吴丹, 石崇德. 语言技术和知识技术——知识服务的重要技术基础. 图书情报工作,2006(9).
10.王际洲. 专业术语词典编辑的几点思考——以军事术语词典为例. 科技信息,2010(32).
11.解海江,章黎平.词典编纂理念的二度转向. 辞书研究, 2010(6).
12.叶其松. 术语、专业词汇与词典. 辞书研究, 2010(2).
13.张爱朴. 从《新编英汉语言学词典》的编纂看专科词典学的重要性. 辞书研究,2012(1).
14.张东,王惠临. 关于建立中国国家科学技术语料库的思考. 图书情报工作,2010(6).
15.章宜华. 计算词典学与新型词典.上海:上海辞书出版社,2004.
16.章宜华. 关于计算词典学理论框架的探讨. 辞书研究,2007(6).
17.赵刚. 略论国内大型汉英词典编纂和出版中的一些问题. 编辑之友,2011(4).
18.Landau S L.The Art and Craft of Lexicography. Oxford:Oxford University Press,2001.
19.Zeng Marcia Lei. Knowledge Organization Systems. Knowledge Organization,2008(2—3).
(宋培彦,李静静 中国科学技术信息研究所信息资源中心 北京 100038)
(刘宁静 上海交通大学图书馆 上海 200240)
(暴二平 中国航天建设集团有限公司 北京 100071)
(责任编辑 王慧敏)