基于Web 2.0的术语库构建:QuickMerger文件信息管理术语库构建案例研究
2012-11-09徐小棚安小米代晓明
徐小棚 安小米 代晓明
(1.数据工程与知识工程教育部重点实验室,北京 100872 2.中国人民大学信息资源管理学院,北京 100872)
一 术语库工作及其研究现状
随着术语学的发展和完善,各行业内部的术语数量急剧增加,如何有效管理庞杂的术语条目成为术语学关注的议题之一。同时,计算机技术的产生和发展,为术语的规范化管理提供了一种全新的方式,在这样的条件下,术语数据库应运而生。
世界上最早的术语数据库是1963年建立的欧洲经济共同体委员会术语数据库(EURODIOAUTOM),用于翻译工作,可以在法语、德语、意大利语、英语等语言之间进行术语互译。
80年代初奥地利国际术语信息中心主任、国际标准化组织术语技术委员会秘书费尔伯(H.Felber)教授和加拿大国家术语数据库专家等来华,介绍了国际上建立术语库的动态和建库经验,随即国内有关学者开始了调研和建立术语数据库的工作。1989年以来,中国许多部委或所属的研究单位陆续开始建立不同类型的术语数据库[1]。在国际标准采标的基础上,中国发布了《GB/T 13725—2001建立术语数据库的一般原则与方法》和《GB/T 15625—2001术语数据库技术评价指南》。
但是当前对术语库的研究还没有引起足够的关注。笔者利用中国期刊全文数据库,以术语库为关键词进行标题检索,共命中文献14篇,且逐年平均分布,变化趋势不明显。由此可见,目前学界鲜有对术语数据库构建的探讨。进一步研读相关文献发现,在对术语库进行研究的文章中,其探讨的主题主要集中在术语自动抽取技术等对于数据来源方式的讨论,而并未对术语库构建技术本身进行探讨。
通过研读术语学相关书籍,发现其对于术语数据库构建技术的探讨往往停留于理论层面,并且时间已较为久远。且与互联网技术飞速发展相悖的是,2000年之后的书籍中已罕有与术语库构建相关的段落出现。
二 传统术语库存在的主要问题分析
目前网络上分布着一些术语库,其中较为典型的有:ISO Concept Database,IATE,NORMATERM,GLOT-C和中国百科术语数据库。其中ISO Concept Database是国际标准化组织为存储其术语而建立的术语数据库。IATE是用于欧盟机构间的术语数据库,从2004年至今,IATE一直在搜集、传播、共享与欧盟管理相关的专业术语。NORMATERM是法国标准化协会(AFNOR)研制的标准术语数据库,旨在控制和存取AFNOR日益增加的术语。中国百科术语数据库是新闻出版总署的重点科研项目,以《中国大百科全书》为资源开发研制。
这些数据库都以传统的交互方式建立,数据来源权威准确,用户通过浏览器,可以完成对术语定义、上下位词、同义词等的检索和查询。同时,数据库后台管理员能够定期对数据库内容进行维护与更新。
虽然,现有的网络术语数据库具有数据权威性高、操作和维护简单等优点,但这种简单的人机交互方式也带来了一些问题,如:网站交互性不强、网站内容无法实时更新、知识的再利用性不高等。
作为世界上最为权威的术语库之一,ISO Concept Database创建于2009年10月,目前已更名为ISO Online Browsing Platform(以下简称为IOBP),提供更加简洁的图形界面供用户使用。虽然术语库构建原则中,对术语类目有诸多要求,但IOBP却采用了更加简洁的办法进行处理——对于每一个术语条目都只设置了术语全称、术语简称、术语描述、备注、术语来源五个类目。但其术语描述(description)类目却包含了诸多功能,比如既能描述术语的内涵和外延,也能根据需求加入公式、示例。
IOBP的强大来自于其丰富的资源,但作为传统术语库,其提供的功能依然非常有限,存在的问题主要有以下两点:
一是术语概念体系未能得到体现。一方面从术语的来源上看,ISO提供的术语大多只包含名称、描述与术语来源三大部分,并未包含描述术语概念体系的类目;另一方面从术语库的结构来看,IOBP亦未提供描述术语概念体系的字段。
二是术语库交互性与动态性差。IOBP只允许用户对数据库中的数据进行检索和查阅,而不允许用户对已有数据进行修改和标注。术语类目结构单一,不利于信息的索取,此外,对于同一词语在同一来源中的演变,以及同一术语在不同来源中的聚类都无法很好地体现。
三 QuickMerger文件信息管理术语库构建案例研究
Web 2.0自2004年3月被明确提出以来,其所具有的以个人为中心的信息发布与获取的主动性、信息组织与管理的自组织性、信息利用与共享的低成本性等显著特性,为信息的有效传播和利用提供了一种新的可行方法[2]。
目前,互联网上已经出现了基于Web 2.0的Wiki网络词典,然而尚未有基于Web 2.0理念的专业术语网站出现。而Web 2.0的典型应用带来的动态更新、互动性强的优势,为术语库的构建与发展带来了新的可能。
1.理论上的支持和技术上的支撑
相较于 Web 1.0,Web 2.0 具有如下特征[3]:
(1)参与性——去中心化,互联网成为平台(参与体系),用户作为开发者,在获取更多信息的同时,为用户提供更高的参与性,为网站带来更大的关注度。
(2)协同性——自组织协同创作,充分利用集体力量和智慧。该特性能够为全球范围内术语的发展和沿袭提供一个方便快捷的平台,只要有互联网介入,就能够协同进行术语的更新和修改。
(3)集成性——通过带动分散的、独立的开发者把各个系统和网站汇集、聚合。由于进入门槛低,界面友好,使用方便,Web 2.0能够极佳地整合和汇集原有网站的信息,使其继承性得到提升。
(4)平台独立性——不同应用平台具有通用的界面、服务和通信等开放应用程序接口。这将会使网站的通用性得到极大的提升,方便使用软件导出数据库内容并进行分析。
术语数据库按其功能区分,基本上有三种类型:一是面向翻译的,能够实现双语或多语对照;二是面向标准化的,术语库里每条术语都经过权威机构审定和公布,术语具有单义性、科学性特点;三是面向知识的,充分利用术语作为知识的节点和知识关联,向知识库方向发展。
应该说,面向知识的术语库是术语库发展的主要趋势。而构建这样的大型多功能的术语库仅靠一个部门或机构的力量是很难完成的,需要广大用户和网民的参与。Web 2.0的上述主要特征正好契合了这一要求,同时大众分类(也叫分众分类)技术、Wiki技术为构建面向知识的术语库提供了技术应用基础。
通过文献研究发现,目前Web 2.0在术语库领域的应用依然很少,但是国外术语库已经就此进行了一定尝试。例如英国约克大学提供的考古数据服务(archeology data service)中,就对Web 2.0技术应用进行了一定尝试,其做法是将不同的词条用自定义关键词进行标引,然后在主页上对于搜索热门关键词进行展示[4]。除此之外,基于Wiki的网络百科全书的兴起,也为术语库的发展带来一种新的思路。
2.QuickMerger设计方案
针对上述的分析,课题组以构建文件信息管理领域的术语库为目标,应用Wiki技术进行设计。
在数据来源方面:由于术语的选取与认定工作一般由专家来承担,专业性较高,且自动抽取技术尚未有大规模应用,因此,QuickMerger术语库的主要术语来源依然是直接从标准文本中抽取,即抽取标准中的术语和定义章节的内容。由于文件信息数据库构建的应用对象主要为国际标准化组织信息与文献委员会档案与文件分技术委员会(ISO/TC46/SC11)的专家用于支持《ISO 30300:2011信息与文献文件管理体系:基础与术语》的研制工作,因此术语库内容以英文为主,术语资源来源于国外权威性组织的75个术语表或术语词典。同时,QuickMerger术语库也为专家与大众的参与保留了相应接口。由于术语的发展是一个不断演进的过程,因此在系统设计时,保留了用户自行修改与添加术语的功能,以便让QuickMerger变成一个术语聚合与再发掘的平台。
在数据质量控制方面:如前文所论述,如何进行有效的质量控制是使用Wiki技术进行术语库构建所需解决的关键性问题,QuickMerger的设计方案从术语描述、权限控制两个方面对术语库进行有效的质量控制。
规范术语描述参照GB/T 13725—2001的需求,QuickMerger术语库将描述术语的数据项分为术语描述、来源元素和术语管理事务三个元素集,如表1所示。由于数据库中的术语主要来源于各标准,大部分只包含名称(全称与简称)和描述两部分,参照ISO Concept Database的解决方案,对于术语及其来源,均采用“名称+描述”的方式加以定义。
QuickMerge中术语审定流程,主要依靠Wiki对用户权限的控制来实现。首先,系统设置管理员、用户和访客三种不同身份。用户可对数据库有完全的浏览权限,且可对术语条目进行修改和完善;管理员除了拥有用户的权限外,还能添加和删除用户,确保用户为可信群体;访客仅拥有对数据库有限的浏览权限。
表1 QuickMerger中的数据项
表2 QuickMerger中不同的用户权限列表
在数据结构控制方面:Wiki管理数据的方式为页面,每个页面都有一个用标题和基本元数据标识的条目,这样的方式方便编辑与修改,却不方便规范化的检索与阅读。在传统Wiki的构建中,为了规范Wiki页面的数据结构,常常使用规范命名空间、页面分类与命名以及使用自定义信息模板等方式。在QuickMerger中,使用了一种更为简单的方式对页面结构进行固化,称为Half-Wiki。其实现方式是将Wiki页面固化为传统数据库的“增删改查”页面,用户不以页面为单位对信息进行编辑,而是以条目为单位,编辑条目中的每一个数据项。这样的结构能够规避Wiki对页面复杂的规则设定,简化用户的工作量,最大限度保证页面的同一性,同时又能让用户参与到词条的编辑修改过程中来。
3.QuickMerger方案的实现与评价
QuickMerger以Media Wiki为基础,采用MySQL+PHP框架构建,其系统体系结构如图1所示:
图1 QuickMerger系统体系结构图
4.QuickMerger功能介绍
(1)浏览与搜索功能
如图2所示,QuickMerger提供按术语表(Glossary)和词典(Dictionary)浏览、搜索术语的功能。术语按照字母顺序降序排列,可按照字母顺序进行查找,也可以在搜索框中直接点击进行搜索。
(2)编辑术语表功能
图2 QuickMerger浏览与搜索界面截图
点击左侧分栏中的Source glossaries右侧的New即可创建新的术语表,需要填入术语表的名称、简写及描述信息。完成之后点击Create即可创建。
术语表创建完成后,点击左侧Imported by me可以查看由用户自己创建的术语表,然后点击Edit或者Delete即可进行相应的修改与删除操作。
(3)编辑术语表中的术语功能
如图3所示,点击Add Terms按钮即可进行术语添加,添加完成后可进行修改和删除(Remove按钮)等相应操作,完成之后点击Submit即保存本次操作。
(4)创建词典功能
图3 编辑术语界面截图
QuickMerger最大的功能便是能将名称相同且存在于不同术语表中的术语条目组合在一起。点击屏幕左侧Dictionaries右边的New按钮即可创建新词典。
词典创建完成之后,可使用Merge功能,将所选术语表下所有的术语进行整合,如图4所示。整合完成后,在词典中搜索任意一条术语,将可显示其在不同术语表中的描述信息。
5.QuickMerger 的优势
与传统术语库相比较,QuickMerger具有4个方面的优势:
(1)有效的用户权限控制。与传统术语库只看不动、单向交流的模式不同,QuickMerger通过有效的用户权限控制,让更多用户可以使用并参与到
图4 QuickMerger Merge功能截图
术语库的编辑过程中,使得信息的流动从单向变为双向,提升了网站整体的互动性。同时,通过有效的权限控制,让除了用户和管理员之外的人员都无法浏览术语资源,术语资源的访问权限得到了限制,避免了可能带来的版权纠纷,保护了术语库这一知识成果。
(2)能够实现术语资源动态更新
不同于传统术语库资源静态不变的模式,在QuickMerger中,术语资源可以简单快捷地得到更新,有利于紧跟术语的发展动态。
(3)具有更大的自由度与升级空间
使用Wiki进行术语库开发,在后续使用和维护中可以方便地添加与更改相应的数据项、改变页面结构与显示模式,有利于术语库后续的开发与升级。
(4)具有更标准化的接口
使用主流MediaWiki进行Wiki搭建,为Quick-Merger未来进一步发展带来了更多可能性,Media Wiki提供的标准化接口将有益于利用术语资源进行有效的二次开发利用。
6.QuickMerger 的局限性
QuickMerger目前也存在一定局限,主要体现在两个方面:
(1)跟踪术语发展变化规律的方式有待改进
在QuickMerger目前的设计中,并未设置跟踪术语修改记录的存储单元,对术语条目的每一次编辑都将覆盖上一次编辑的结果。因此,使用Quick-Merger跟踪术语发展变化规律的方式还有待改进。
(2)权限管理有待规范和完善
QuickMerger的权限管理的基础是:所有的用户都是经过培训的专业人员,所有的术语资源都来自权威的标准。据此,QuickMerger并未设置内容审核流程,权威术语资源之外的更多有价值的术语资源的参考有待完善。
四 对基于Web 2.0术语库未来发展的建议
本文对基于Web 2.0的术语库构建提出以下4点未来发展建议:
1.完善术语库术语演变规律展示功能
建议在描述术语表的著录项中加入时间与版本信息,利用词典功能将所有术语表组合在一起之后,将术语释义按时间顺序排列即可直观展现术语演变规律。
2.建立术语提交与删除审定长效机制
借鉴维基百科的方针,依托Wiki权限控制功能,为术语库建立术语提交与删除审定流程。参照维基百科,术语库应设置系统管理员及术语仲裁委员会,并建立相应的术语收录范围,术语词条可以由用户自行修改和提交,但必须有严格的描述和出处,提交和删除词条的权力应由术语仲裁委员会判定和赋予。
3.利用链接,有效体现词间关系
可以借鉴维基百科中对分类的展示方法,利用页间链接来展现词间上下位、同反义关系。研究发现,现有术语资源对于词间关系缺少描述,建议在结束维基术语提交审查后,可以召集专家(术语仲裁委员会)手工添加词间关系与分类等数据项,更好体现词间关系,让术语库的内容更趋完善。
4.引入大众分类机制,提高用户的参与性
可以借鉴大众分类在照片分享、网站收藏等网站中的成功应用案例,开发为术语库网页加标签的功能。引入大众分类机制不仅能极大提高用户的参与性,也能极大改进术语网站的交互体验。同时,用户可利用标签对术语对应的通俗词汇进行标注,更方便用户找到所期望的术语。
[1]刘青.中国术语学研究与探索[M].北京:商务印书馆,2010.
[2]朝乐门.Web 2.0在组织知识管理中的应用研究[J].情报资料工作,2010(2):49-52.
[3]王伟军,孙晶.Web 2.0的研究与应用综述[J].情报科学,2007,25(12):1907-1913.
[4]王莉,梁冰,郝春云,等.基于Wiki技术的标准术语库的设计与实现[J].数字图书馆论坛,2011(3):44-51.