标准文献语料库构建研究
2013-12-10李国鹏程永红
●李 景,李国鹏,汪 滨,刘 华,程永红
(1.中国标准化研究院;2.中国科学院 文献情报中心;3.中国科学技术信息研究所,北京 10088)
语料库,指存放原始语言材料的数据仓库。一般的语料库其语料加工来源非常广泛,包括丛书、词典、专著、辞源等。标准文献语料库的加工主要以标准文献和技术法规为主。知识库,是用于知识管理的一种特殊的工具,以便于有关知识领域知识的采集、整理以及提取。知识库中的知识对象,是求解问题所需专业领域知识的集合,包括基本事实、规则和其他有关信息。
语料库、知识库和知识组织体系的构建,是知识管理和知识服务的基础、前沿和热点,语料库的根本目的是为实现语义标引、机器翻译、知识关联、数据挖掘、智能检索等功能和模块提供基础和支撑。国家标准馆作为国家重点支持、面向全国服务的国家级标准文献服务机构,不但在迅速实现馆藏资源数字化、服务模式网络化的转变方面负有责无旁贷的重任,而且面临着以国家级馆藏文献资源提供知识服务,满足全国企业和用户标准信息需求的使命。以国家标准馆数字资源为用户提供知识服务,直接关系着国家的标准文献资源建设能否持续稳定发展,关系着全国用户能否更加便捷、高效的利用标准文献数字资源,也关系着国家标准馆能否顺应知识经济时代要求,实现可持续发展。
1 研究和构建方法
现代网络条件下,语料库的构建通常以基础术语数据库和相关领域文献素材中的叙词为素材,辅以专业词典,提炼语料。对已提炼的语料进行标注和注释,通过审核后,录入语料库,并逐步建立和完善语料素材间的关联关系。标准文献语料库的构建分为两部分:一是语料数据库(简称“语料库”)的构建;二是语料库原型系统的开发。
1.1 语料库构建方法
(1)文本抓取和准备:标准文本和Web信息的获取和数字化文本的准备。(2)语料提取:从标准文献中提取语料信息。(3) 标注和注释。① 标注:将文本信息中的语料(概念,知识对象)进行标记和表示,分为词法标注,语义特征标注,双语(中英文)的对应。② 注释:为概念添加定性描述。(4)建立数据库:将语料素材录入数据库,并建立双语语料映射表。(5)更新、维护和修复:不断补充完善语料素材,填充数量,提高质量,校正语料(知识对象)之间的关系,使之更加符合逻辑性。
1.2 语料库原型系统的开发
原型系统总体设计采用通用的B/S(客户端/浏览器)结构,系统支持通用格式数据库的导入导出。(1) 客户端(实现):语料的录入、注释,语料库的编辑、校正,中英文文本的对照,实现对语料库中语料素材(知识对象)的调用,对文档的管理与标引,对译文模板进行调用。(2)服务器端(实现):语料素材(知识对象)的集中存储、语料库版本的管理与配置。
1.3 国家标准馆进行标准文献语料库的构建基础
在标准文献资源方面,依托“标准文献译文数据库建设”项目,国家标准馆拥有经过筛选鉴别的国家标准和等同采用 (IDT) 国际标准的数字化文本10956件的数据库,拥有译文数字化资源文本36519件 (BS:2161件;DIN:3957件;GOST:4312件;IEC:3577件;ISO:10289件;ITU:5649件;JIS:674件,截至2011年1月27日),拥有中英文对照叙词表等语料素材38663条。等同采用的标准文本经过比对后,可以提炼出规范的译文模版和准确的双语种术语对照,叙词表则可以作为构建语料库的素材和基础。
2 标准文献语料库构建的功能需求分析和功能实现
2.1 浏览功能
原型系统中实现了分专业领域浏览语料资源,点击图1页面左侧菜单可以分专业领域导航,浏览不同专业领域的语料(见图2)。
原型系统中实现了对逐项语料进行浏览,在图1显示的界面中点击一条语料,如“中医学”,能够显示该条语料的详细信息。
图1 分专业浏览语料的原型系统页面
图2 对逐项语料进行浏览的原型系统页面
2.2 检索功能
(1)功能需求。① 模糊检索功能:实现双语输入的模糊检索功能。② 关键词检索功能:输入中英文关键词,查询对应的语料。③ 标准号检索功能:输入标准号,查询该标准中包含的语料素材。
(2) 功能实现。功能需求 ① 的实现见图3,该功能通过原型系统主页面检索框实现。功能需求 ②的实现见图4。通过在查询界面输入关键词,“启用模糊匹配”功能,如输入“中医”,可以查询到包含“中医”的“中医学”和“中医基础理论”两条术语。需求功能 ③ 的实现见图5。在查询界面输入标准号,可以显示该标准中包含的语料素材。
图3 原型系统首页(简单检索界面)
图4 关键词检索功能的原型系统页面
图5 利用标准号检索的原型系统页面
2.3 语料录入和编辑功能
(1)语料录入功能,能够在原型系统中增加新的语料记录。
(2)语料编辑功能,能够对系统里有的语料进行修改、编辑、操作、保存等功能。
3 系统架构
图6 原型系统架构图
以语料数据库为中心数据库,实现检索、语料记录概览(列表展示)、详情浏览、语料录入和编辑、以及后台管理(数据的批量导入和导出),见图6。其中的检索、语料记录概览(列表展示)、详情浏览、语料录入和语料编辑、以及后台管理(部分)功能为已实现功能。后台管理中的用户管理、角色管理、授权管理、资源管理、统计分析等功能,以及馆内接口和对外接口,由于经费和时间所限,留待后续研究中实现。
4 标准文献语料库的应用前景
4.1 支持标准文献翻译
本文的研究,促进标准化术语信息资源的建设和标准化术语应用系统的研发,可以有效帮助标准制定人员的工作,促进我国标准化工作整体水平的提升。同时为广大用户(包括政府部门、企业、个人)提供便捷、高效、准确、全面的标准术语编写和信息服务,以保证标准文本中术语的协调性和一致性,从而促进标准质量的提升。
通过实施本课题完善标准术语数据资源、标准文献语料库及其相关的资源建设,为进一步开展标准中术语的推广普及和相关研究构建了一个技术支撑平台。研究形成的提供支持翻译功能的语料库,能够在翻译服务中,提高翻译文本的质量。同时还能够提供翻译文本与原标准文本的比对功能,达到校核质保的目的,提高译文质量。
从国家层面来讲,希望能推动我国的国家标准走向国际,提供有力的工具。目前国标英文版的转化工作困难重重,没有大规模开展。虽然有多种原因,但缺乏多语种版本的语料和适当工具,是一个重要因素。通过这个课题建立标准文献语料库,希望对国标走向国际化产生实际的推动。同样,语料库的建立,对于国外标准翻译成中文,或者是对我国的采标工作也将有所裨益。
4.2 支持标准文献信息加工
可以将已有的语料加工合并入标准文献信息加工流程中,增加标准文献标引的深度和精度,改善数据加工质量,提高标准文献的检全率和检准率。
4.3 支持标准文献检索
如将完备的语料记录输入数据库底层,可以完善检索用词库,增加用户输入检索式时模糊匹配的精度,提高标准文献的检全率和检准率。完备的语料库,能够反映词汇的语义映射关系和语义限制。
如果仅仅按照用户输入的检索词进行检索,肯定会造成“漏检”。用户输入的检索词和用户自身的知识背景、检索能力以及检索经验相关,可能只是某一概念的若干同义词、近义词或是相关术语中的一个。研究者可以利用本体规范概念集自动地将检索词映射到它的同义词、近义词和相关词上,利用一组规范的概念进行检索。[1]
另一方面,一个词可以有多个含义,用户进行检索时往往只是针对它的一个含义。如果只进行简单匹配,会造成“误检”。例如,用户输入“牡丹”,可能会查找到花卉牡丹,也可能会找出牡丹江市、牡丹牌电视机等信息。就算是查找“植物”&“牡丹”,这两个名词也是用于多种不同科、属植物的别名,如野牡丹科植物、毛茛科-芍药属-牡丹组植物,或者是一种名为“绯牡丹”的仙人掌科多浆植物,还有菊花品种“绿牡丹”等。这时,可以利用本体来分析用户检索词汇和信息资源语义类型以及二者的语义匹配程度。在分析用户检索词的语义时,可以直接向用户提供输入词汇的语义类型或语义关系,让用户通过选择加以明确。也可以利用用户模式、用户检索式和用户所选择的信息资源的词汇构成等,根据概念关系来判断具体检索词的语义。[1,2]
4.4 支持标准文献知识关联
基于本体的语料库(或称知识库)能够表示信息内容与知识组织体系之间的链接。可以将本体知识库与信息系统进行链接,从而使用户在使用信息的过程中,更加便捷地利用本体来理解具体的概念(知识对象)并链接相关概念(知识对象)和相关资源。链接方式可以是静态的(即有关链接事先嵌入到信息单元中,不能进行修改),也可以是动态的(即在需要时,由系统析取词汇和链接相应的本体)。这类应用一般多用于专业领域,所以进行语义分析和选择本体的工作都相对明确和简洁。
[1]张晓林.走向知识服务——21世纪中国学术信息服务的挑战与发展[M].成都:四川大学出版社.2001:22-50.
[2]李景.本体理论在文献检索系统中的应用研究[M].北京:北京图书馆出版社,2005:99-122.