防震减灾公共服务知识图谱构建探究
2022-07-22何玉杰林健富何少林
何玉杰,林健富,何少林
(1. 中国地质环境监测院, 北京 100081;2. 深圳防灾减灾技术研究院, 广东 深圳 518003)
0 引言
防震减灾公共服务是指地震部门使用各种公共资源或公共权力,为决策部门、社会公众、专业部门、专项建设或重大活动提供地震安全信息和技术的活动[1]。为提升中国防震减灾公共服务水平和能力,中国地震局正在积极推进中国地震局防震减灾公共服务平台建设,为更准确地分析服务对象的需求,实现精准服务、产品高效配送、重点对象定向推介等智慧化服务功能。需要服务平台具有一定的语义分析和智能推理功能,这将必然需要构建防震减灾公共服务的知识图谱,以作为其智慧化服务功能实现的技术支撑。
目前,防震减灾领域知识图谱开展工作较少,中国地震台网中心在地震科学专业知识服务系统中,针对图书期刊定义了由主体、领域专家、科研机构和类别等构成的地震图书期刊知识图谱。本文尝试对 防震减灾领域的知识图谱开展研究 。
1 知识图谱
1.1 知识图谱定义
知识图谱(Knowledge Graph)是Google在2012年提出的概念,其本质上是一种语义网络,是用图的方式表现概念和实体,以及二者关系的知识库[2]。知识图谱表达方式的提出主要是将传统的基于关键词的搜索方式向基于语义分析的搜索方式转变,以更准确地查询复杂的知识关联信息,即从语义层面更好地理解用户的需求,提高搜索结果的准确性。
知识图谱最显著的优势在于对数据及其关系的描述能力异常强大。相比较,各种机器学习算法虽然在预测能力上较好,但是在描述知识关系方面却显的不足,知识图谱则填补了这方面的不足。
知识图谱是以知识实体/概念作为节点,通过语义关系关联各种知识。通过分析实体之间的相互关联关系,可将半结构化、非结构化的各种知识数据统一整合,以便于计算机准确理解数据、解释现象,进而进行知识推理,从而发掘知识之间的深层关系、实现智慧搜索与智能交互。
知识图谱是语义搜索、智能问答、知识推荐、决策支持等智能服务的基础技术之一,基于建立的知识系统,使数据产生智慧,完成数据→信息→知识→智慧的转变过程,能为服务对象提供更切实的、更有价值的参考。
1.2 知识图谱分层结构
知识图谱由模式层和数据层构成。
模式层是知识图谱的概念模型和逻辑基础。通常采用本体作为知识图谱的模式层。本体是知识图谱的知识表示基础,可以形式化表示为O={C,H,P,A,I}。其中,C为概念集合,如事务性概念和事件类概念;H是概念的上下位关系集合;P是属性集合,描述概念所具有的特征;A是规则集合,描述领域规则;I是实例集合,描述实例—属性—值。
知识图谱通过本体定义的一系列规则和公理约束知识图谱的数据层,知识图谱的数据层是本体的实例。在不需要支持推理的应用中,知识图谱可以只有数据层而没有模式层。
知识图谱中,本体由节点和边2个要素组成,节点用来表示本体概念,即实体/资源、属性,边则表示概念间的相互关系,即表达实体和实体之间的关系以及实体和属性的关系。本体的描述语言众多,主要有RDF、RDFS和OWL。
在数据层, 采用“实体—关系—实体”或“实体—属性—属性值”的三元组方式存储,形成图状知识库。其中:实体是知识图谱的基本元素,关系是两个实体相互之间的语义关系;属性是对实体的具体说明,是实体与属性值之间的映射关系。一个实体允许有多个关系,知识图谱就是由多条三元组构成的知识库。
1.3 数据类型和存储方式
知识图谱的原始数据类型,按数据结构不同可分为3类:结构化数据,如关系数据库、已有知识库;非结构化数据,如文本、图片、音频、视频,普通网页;半结构化数据,如表格、XML、JSON、百科网站。存储这3类数据一般有2种选择,一个是通过RDF(资源描述框架)进行规范存储格式的存储,比较常用的有Jena等;另一种方法,就是使用图数据库来进行存储,常用的有Neo4j等。
图数据库可认为是一大堆的三元组,用关系数据库来存储也可以,尤其是存储简单的知识图谱是完全可行。但是,一旦知识图谱变复杂,图数据库在关联关系查询的效率方面比传统的关系数据存储方式有显著的提高。若涉及到2或3层的关联查询,基于知识图谱的查询效率将高出几千倍、或几百万倍。其次,基于知识图谱的存储在设计上也非常灵活,一般只需要局部的改动即可适应需求变化。因此数据量较大,直接用图数据库来进行存储比较合适。
2 公共服务知识图谱构建
本文中公共服务知识图谱是指为支持防震减灾公共服务功能更好地实现而构建的地震行业内专项知识图谱。其实体是行业内现有各业务系统产出的服务产品,本节中的数据均指服务产品。
2.1 构建方法
根据知识图谱的分层结构,其构建方法主要有3种:自底而上的构建方法、自顶而下的构建方法、混合构建方法。不同的方法适应于不同的知识图谱构建阶段,在知识图谱技术发展早期或知识图谱构建初期,主要采用自顶向下的方式构建基础知识库,如Freebase。随着自动知识抽取与加工技术的不断成熟以及知识的不断积累,知识图谱大多采用自底向上的方式构建,如Google的Knowledge Vault和微软的Satori知识库。
对防震减灾公共服务来说,考虑到尚未构成较完整的历史数据集,且其知识内容较明确、数据关系类型少且较清晰,故本文中选择自顶向下的方法快速构建公共服务知识图谱,其构建流程如图1。将来可根据收集的大量数据,自动抽取信息,对数据模型进行修正,也就是前期采用自顶向下方法构建,后期采用自底向上方法完善。
图1 自顶向下构建知识图谱的流程
2.2 模式层构建
本文中,按常用的做法,采用本体作为防震减灾公共服务知识图谱的模式层。本体则定义组成防震减灾领域词汇表的基本术语及其相互关联关系,以及结合这些术语和关系来定义词汇表外延的规则。
本体可以采用人工编辑的方式手动构建,也可借助流行的本体编辑工具构建,如斯坦福大学医学院的protege,其提供了一个图形化和交互式的知识本体开发环境,支持RDF、RDFS、OWL等本体语言在系统外对本体进行编辑和修改。
本文中的领域属于防震减灾工作中的公共服务领域。
2.2.1 术语提取
本文中的术语限于给定领域-防震减灾公共服务领域中的概念。术语之间的关系主要指术语相互间的层次关系,有并列关系、上下位关系等。
地震国家标准和行业标准中已规定了常用术语,自1999年地震标准发布以来,截止2020年4月30日,各项标准定义术语1 096个(不包括引用术语)[3],在其定义中已含有了术语间的关系。以地震速报为例,其涉及的术语及关系如图2。
防震减灾公共服务可分为决策服务、公众服务、专业服务和专项服务等4类。未定义的几个重要概念是:①公众服务是利用多媒体、多平台等手段向社会公众发布地震监测预警、地震风险区划和科学普及等公益性信息的服务;②决策服务是为党中央、国务院及相关部委与各级党委、政府及相关部门制定发展规划、组织地震应急救援、开展地震灾后重建、国防建设以及重大社会活动保障、重大工程建设等方面的科学决策所提供的信息与技术咨询服务;③专业服务是针对专业用户的精细化需求提供的专业技术服务;④专项服务是为重大社会活动保障、重大工程建设以及国防安全和军事活动等提供的专项信息与技术服务①中国地震局.推进防震减灾公共服务的工作思路[R]. 2019.。几个概念中,公众服务、决策服务、专业服务和专项服务是并列关系,都是公共服务的子类。
词汇表外延的规则包括属性、值约束、不相交描述、对象间逻辑关系的规定等。本文中涉及的服务产品是由成熟的业务系统生成,其概念的外延已由业务系统负责确定。
2.2.2 本体描述
自顶向下构建公共服务知识图谱的重要一步是构建本体,也就是模式层的构建。对公共服务知识图谱,将以服务产品为中心构建模式层。实际构建中,先采用人工编辑的方式手动构建,未来再根据累计收集的服务产品,以数据驱动,自动对模式层修正、补充。根据公共服务的功能要求,构建的公共服务本体如图3。
图3 公共服务知识图谱模式层
对每一项产品,要构建其属性信息,如地震速报信息的属性如图4。
图4 地震速报服务产品属性
对每个类型产品,需要进一步定义其属性,如地震标准类产品,其属性如图5。
图5 地震标准类型产品的属性
2.3 数据层示例
构建了模式层或本体后,就可以进行数据层构建,即将模式层实例化。对公共服务系统,数据就是服务产品,以地震标准服务产品为例,实际的一条数据如表1所示。规定多值之间以“/”间隔。
表1 地震标准产品数据示例[4]
其他类型的数据也参照以上过程进行生成,或借助流行的信息抽取软件,根据模式定义,不断填充数据。
公共服务的数据包含了文本、表、数据记录,以及图片、音频、视频等多种形式产品,需要构建多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。因此,公共服务的知识图谱也将是多模态的知识图谱。
3 讨论
1)重视防震减灾公共服务词汇知识的挖掘。词汇知识,包括术语、缩略语、同义词等是构建一个领域知识库的基础,也是领域知识图谱构建的第一步,应全面梳理相关的词汇术语,并明确词汇术语之间的上下位关系,为相关知识图谱构建奠定坚实的基础。
2)产品(数据)的分类。防灾减灾公共服务的产品是一个不断增长的过程,随着业务系统能力的增强,产出产品的数量和种类都会增加。因此,产品分类及属性定义需要不断完善。可以先建立一个树状图结构,再逐层进行分类补充,保证公共服务知识图谱中的所有产品都可以在树状图中有对应的节点。
3)产品(数据)的属性。对于产品组织体系,在分类到末端节点,即叶子节点,需对每个叶子节点(具体产品)进行描述,即属性描述,可以从多方面、多层次来描述。
4)模式层的建立过程。在构建模式层时,可以先根据类似的知识体系,或者以粗略的产品(数据)分类体系为基础进行扩展;或找一个知识图谱的中心数据,首先选取那些相关性强的类和属性,再逐次展开。模式层的建立是个逐步迭代的过程,需要随着产品分类和属性的不断丰富,修改补充模式的描述。当然,模式的建立既要考虑完备性,但也无需无限扩展,要注意边界的确定,取舍的标准就是满足服务对象的需求,不需要的属性可在后续需要时再建立。
5)知识图谱的构建。针对公共服务知识图谱构建,在前期工作中,为了尽快建立知识图谱,可采用人工手动或半自动方式构建小规模的、基本的知识图谱,后期随着具体数据的大量积累,应采用自动构建的方式,即采用自底向上的方式对前期知识图谱进行补充和完善,以及构建新的知识图谱。
目前,地震行业内相关知识图谱研究和应用工作开展相对较少,主要有中国地震台网中心在提供地震科学专业知识服务中,对图书期刊定义了由主体、领域专家、科研机构和类别等构成的地震图书期刊知识图谱。随着中国地震局行业内逐级成立公共服务机构,全方位推进防震减灾公共服务事项,公共服务方式也应充分利用新技术。可以预期,知识图谱将在防震减灾科普宣传,及业务系统产品集中供给、高效配送、重点推介、交互服务中发挥精准、高效、快捷的作用。