术语数据库建设之我见
2015-11-23郭剑
郭剑
摘 要:术语是概念的载体,术语规范统一是科学研究的基础。全国科技名词委作为中国官方术语审定机构,多年来代表国家进行术语审定工作,已经取得了丰硕的成果。为了方便用户检索,全国科技名词委建立了术语数据库,但是,现有的术语数据库存在诸多问题,亟待解决。
关键词:术语,术语数据库,数据库建设
中图分类号:N04;G250.74 文献标识码:A 文章编号:1673-8578(2015)05-0057-04
引 言
术语是在某一特定专业领域内表达一个特定科学概念的语词形式,是科学概念的语言符号,也是科技信息交流传播的载体。对各学科术语进行审定规范并整理出版,以供使用者查用,是十分重要的。全国科学技术名词审定委员会(以下简称“全国科技名词委”)自1985年成立以来,一直代表国家进行术语审定工作,截至2014年底,共审定了近40万条术语,出版了百余本名词书。
40万条术语需要精心管理。从本质来看,术语是科学概念的载体,具有科学性、系统性、简明性等特点。术语出版物实际上可以认为是专科词典,具有辞书的性质,其编写者需要有辞书学的知识[1]。因此,辞书传播之规律,一定程度上可以为术语传播所借鉴。
中国是辞书古国,也是辞书大国,但不是辞书强国。在辞书编纂手段、观念等方面,与发达国家比还有距离[2]。发达国家的重要出版集团如不列颠百科全书出版公司、励德·爱思唯尔出版集团,从工具书到重要科技成果的出版,基本上完成了数字化,绝大部分是通过数字化形式来展现的[3]。
鉴于此,全国科技名词委开发了术语数据库。2014年7月,全国科技名词委官网改版上线,整体给人耳目一新之感。然而,从用户查询结果来看,术语数据库数据不够优化。本文从中国现存术语语料库现状、语料优化等角度进行论述,以期为术语的数字化传播献计献策。
一 全国科技名词委术语数据库介绍
全国科技名词委现有的数据库分为两个部分,一个是“审定公布名词数据库”,一个是“海峡两岸名词对照数据库”,二者的学科体系划分如图1所示。
“审定公布名词数据库”主要是根据全国科技名词委历年审定公布的科学名词制作,合计词目25(38)万余条,包括中文规范名、英文名和所属学科,部分词目附有异名及释义。“海峡两岸名词对照数据库”以海峡两岸科技名词对照工作为基础,合计4(15)万余条,包括大陆名、台湾名、英文名和所属学科。
图1 全国科技名词委术语数据库学科体系
现有的数据库查询方式主要包括官网(http://www.cnctst.cn)查询、微信(cnctst)查询、光碟(第三版更新中)查询,三种方式都是向用户免费开放的。
此外,考虑到学科的发展会不断产生新的术语,全国科技名词委在新版网站中加入了“新词征集”版块,希望借助受众的力量来搜集新词,以保证及时收取新术语。
尽管全国科技名词委在其术语词条的数字化建设进程上已经迈出了坚实的一步,但是术语数据库建设是一项精益求精的工作,从用户的角度来看,尚存一些问题,比如名词书出版与数据库更新不同步,行业新术语收录不及时,数据库内容亟待优化,术语衍生服务开发不足等。
这些虽然不属于核心问题,但若不尽早解决,小则丧失数据库用户,大则影响规范术语的推广普及。因此,笔者根据个人思考,对全国科技名词委的术语库提出几点优化措施。
二 术语数据库建设的若干建议
1优化数据录入流程
学科交叉现象的客观存在,导致交叉领域的术语为两个甚至多个学科所共有,这就出现了同形异义或者同义异形的情况;同一学科不同版本之间,也存在词条的变更不够明确、不同版本术语冲突的现象,类似的问题亟待解决。
笔者认为,造成数据库存在上述问题的源头在于审定环节,这是极其复杂的问题,这里不做讨论。至于如何解决目前数据库中的问题,笔者建议先清空所有数据,然后制定严密的数据录入流程(比如同一学科版本变更应该配以详尽的词条变更说明),引入质量评价体系,最后逐个学科录入术语词条。既然数据库中现有的术语数据问题很多,一一解决需要很多人力物力,不如采取这种录入方式,虽然简单,但行之有效。
2从免费赠阅到免费查阅的意识转变
全国科技名词委代表国家进行各学科术语审定工作,审定公布的规范术语具有公益性质,可以免费供受众查阅使用。但是,“免费”也是需要区别对待的:对于全国科技名词委提供的规范术语查询服务,受众不需要付出任何代价;但是,针对术语词条开发的产品,是不应该免费提供的,比如出版的名词书、开发的术语光碟、开发的应用软件等。根据消费心理学,对于免费提供的产品,在消费者心里形成了免费的印象之后,一旦改为有偿获取,消费者对产品价值的接受是十分困难的。尤其在中国,由于数字版权意识整体薄弱,受众对于付费内容基本上是不“感冒”的。
因此,笔者不提倡免费赠阅名词出版物的行为。取而代之的是,培养社会整体使用规范术语的氛围,通过有效的传播活动,宣传全国科技名词委品牌,提升全民使用规范术语的意识,建设术语生态圈。现有的针对编辑出版行业的规范使用科技术语培训活动,在这方面就有很好的效果,笔者认为全国科技名词委应该致力于将此培训打造成行业内的品牌。
3围绕术语词条进行深层次的知识挖掘
语言与知识的关系决定了数据库不仅是语言的集合,同时也是知识的集合,语料库不仅可用来研究语言,而且也可用来挖掘知识[2]。
术语层面的知识挖掘,可以围绕规范术语词条建设同义词、近义词、反义词、上下位词等词语之间的关联,帮助梳理“词际关系”。术语数据库对于词目选定、词语关联、词语释义、例句选裁等都具有重要作用,因此拥有高品质的术语库,就等于拥有了高品质的术语知识资源建设基础。endprint
全国科技名词委应该尽快在这个思路下,开发术语知识应用产品。在更好地服务受众的同时,也推进了规范术语的普及。
4建立社会新词快速审定发布流程
对于社会热点术语的处理能力,直接决定了受众的体验度。据笔者所知,国外在这方面的探索已经取得了很大成果,比如《不列颠百科全书》目前已经能够做到将最新学科的最新名词,在36小时内完成同行评审和相关鉴定,并立刻发布到网上,以便用户查阅。背后体现出来的是整个机构处理社会热点术语的应变能力。
全国科技名词委应该尽早建立社会热点词审定发布流程。笔者尝试提出图2所示流程:
科技新词的来源有三个方面,即专家、媒体和科技出版物编辑人员,全都提交至全国科技名词委术语审定平台,经过专业人员初步审阅分类,按学科发给各学科审定编辑,经过各学科审定编辑审读后再提交各学科专家,经过专家审定,入库发布。
通过这种方式可以最大范围地收集科技新词来源,即收全;同时又能保证对每一条科技新词都实现三审制,即收准。
图2 全国科技名词委热点名词审定发布平台流程图
三 结 语
术语作为概念的载体和科学发展的基础,已经得到了出版界的充分重视。
1990年,国家科委(现国家科学技术部)、国家教委(现国家教育部)、中国科学院、国家新闻出版署联合发文〔(90)科发字0698号〕,要求各编辑出版单位出版的有关书刊、文献、资料,使用公布的名词。特别是各种工具书,应把是否使用已公布的规范词,作为衡量该书质量的标准之一[4]。
2015年1月29日,新闻出版广电总局印发了关于批准发布19项行业标准的通知,科学技术名词作为学术出版规范纳入其中,标准号为:CY/T 119—2015 《学术出版规范 科学技术名词》。
在新近召开的《全国出版专业职业资格考试辅导教材》审订会上获悉,新版教材将增加《科技名词及其规范》,作为一个独立章节。
中国要建设文化强国,弘扬民族优秀文化。术语作为概念的载体,必须统一和规范。探索如何利用数字技术处理术语词条,充分利用数据库,开发为受众服务的软件系统,是术语工作未来的重要方向。
参考文献
[1] 章宜华.《辞书研究》与新时期词典学理论和编纂方法的创新[J].辞书研究,2010(1):57-69.
[2] 李宇明.关于辞书现代化的思考[J].语文研究,2006(3):6-11.
[3] 邬书林.提高辞书出版水平,建设辞书出版强国[J].辞书研究,2011(1):1-9.
[4] 名委办公室.科委、教委、科学院、新闻出版署联合发文要求使用名委公布的名词[J].科技术语研究,1990,(1):69.endprint