基于知识图谱的结构化应急数据展现研究
2019-08-12黄征张雪超刘长弘
黄征,张雪超,刘长弘
(1.解放军31682 部队,兰州730020;2.国防大学联合勤务学院,北京100858)
0 引言
所谓“知识”,是人脑对外部信息总结、提炼、概括后的抽象性表述。近代以来,随着科学技术研究的飞速发展,各学科领域的研究成果呈爆炸性增长,学科分类和研究领域越来越细化,文艺复兴时代的“通才”越来越鲜见,想对某一研究领域有一个全景式认识越来越困难。知识图谱(Mapping Knowledge Domain)应运而生,最初目的是对科技文献进行可视化描述,以图形化建模的方式来直观表达知识和知识间的关系。图谱中的节点表示知识的实体,图谱中的线段表示实体间关系,节点和线段构成的拓扑结构图直观描述了某一领域的知识资源及其实体,显示了知识以及它们之间的相互联系。随着信息技术和计算机技术的发展,人们发现知识图谱在地理认知、知识表达、数据挖掘、信息展现等方面有独特的价值,特别是挖掘和表达复杂数据的规律性认识方面有独到的优势。
近年来,随着各级对突发事件应急处置的高度重视,应急管理部门积累了大量业务数据,由于这些数据通常运行在特定信息系统上,需要在专有环境下使用和展现。当出现突发事件时,一方面大量信息和数据短时间内汇聚于应急指挥机关,有时通信信道都为之阻断;另一方面各级指挥员又常常困扰于真实有效信息过少,可用信息被垃圾数据所淹没的现象屡见不鲜,特别是用于辅助决策的综合信息严重不足[1],信息与决策之间存在着的巨大鸿沟。基于知识图谱对应急数据进行组织是解决这个难题的可行途径。
1 知识图谱用于应急数据的价值
1.1 搜索信息将更准确
当发生突发事件时,指挥员和联合指挥机构需要迅速掌握事件情势,及时定位突发事件发生区域,划分影响地区,指定疏散地域,定下处置决心,制定处置方案,各应急部门根据指挥机构命令,启动紧急情况下交通、卫生、消防、工程应急救援预案和各类保障计划方案,在这些决策和计划的制定过程中,借助基于知识图谱标准化数据组织形式,态势图系统能够将空间数据与非空间数据进行有效集成,对不同来源、不同格式的应急数据统一管理,并以图层的形式存储,方便进行复杂查询。应急数据能够以各种图、表的形式直观展示,快速生成应急决策方案专题图,在分秒必争的突发事件应急处置中将发挥重要作用。
1.2 查询理解将更智能
构建应急知识图谱之后,以突发事件中应急部门的任务、目标、行动等特征赋予关键字(实体或任务)字符串新的属性,当选中需要展现的实体后,搜索引擎会以实体在特定时空、资源以及人力等条件下实现特定目标为过程,查询涉及到的实体及属性,集合任务行动所需要的数据,保证了用户搜索获得信息的连续性。以灾后群众疏散方案为例,目前应急方案可能只提出未来可能的疏散地位置、空间容量,而不可能给出疏散距离、疏散路径,就是给出了疏散路径,由于无法确定事件发生时的道路真实情况,可能造成受灾群众撤退过程中道路拥挤等。借助应急知识图谱,在态势图系统中搜索疏散线路时,应急知识图谱可将事发地域的地理空间数据进行分级,明确出受灾区、影响区,聚合这些区域内道路交通路况信息,将以专题图形式展现,直观给出灾区道路通行能力,为指挥员和联合指挥机构定下处置决心提供及时、准确的参考。
1.3 信息展示将更全面
知识图谱能够比较全面地描绘实体以及实体之间的关系,各级应急部门可以通过应急知识图谱全方位了解所需的业务知识。从突发事件应急处置的实践看,各级决策者不仅关心数据所包含的基本信息,更关心这些数据背后蕴含的扩展信息甚至是规律性信息。指挥人员在定下决心时,思维首先会集中一些表面的基本信息上,进而需要了解扩展信息以全面掌握任务情况,最终在规律性信息指导下做出决策。知识图谱的构建符合指挥员思考和认知顺序,与传统的文本方式进行业务信息分析模式相比,可以进行更加有效的数据挖掘,智能化选择出指挥员关心的实体,自动关联其属性(或能力),并以图示方式进行展示,大大提高了分析的精确度和时效性,决策将更科学、更准确。
1.4 信息数据将更规范
要想构建关键紧密、数据交链的应急知识图谱,就必涉及对所有相关的实体及其关系进行规划化描述,对行业领域内的知识节点进行全面清晰梳理,对知识节点之间关系(边)进行准确概括,这就要求提高应急信息的标准化程度,各应急信息系统要在一个统一规范的集成框架内提供数据,应急装备也要进行规范化管理[2],倒逼各应急部门规范内部信息交互和对外信息服务;与此同时,应急知识图谱中庞大的实体库也为应急信息系统提供了统一的、全面的数据模型,为应急理论研究、数据开发、模拟仿真等提供了可用的集成标准。
2 应急知识图谱的数据构成模式
围绕突发事件会有多方面的描述信息,这些信息以什么样的顺序和样式展现出来,影响到对突发事件应急处置的效率。应急数据组织最根本的是将分散存在于各应急部门的信息有序化[3],从这个过程中获取有价值的信息,进而发现规律。以地震灾害后救援为例,首先要了解的是震情基本信息,如地震中心定位信息、震级强度、涉及区域、房屋受损情况、被困人员情况、水电供应等;在此基础上,需要进一步掌握扩展信息,如专业应急救援人员数质量、应急资源需求信息、灾区交通道路信息、可供应的应急物资及储备量等[4];进而可能需要知道的是规律信息,如震区场地质水文情况、气象条件,从历史上看,这些条件对当前救援会有什么影响,救援物资、资金调拨数量和最低投入规模,进出灾区道路受损情况对救援车辆通行能力影响多大,等等。
图1 基于知识图谱的应急物资供应的实体结构图
如图1 所示,在地震灾害发生后,指挥员和指挥机关除了要了解震情基本信息外,就物资供应这一任务而言,迫切想要掌握的是:震区当前需求物资种类是什么;是否可以划分出具体需求地点,需求量如何预计多少,需求物资的是否能给出优先级排序;当前储备的应急救援物资有什么(及数量),储备在哪里;如果不能满足需求,应如何筹措,如何运输到灾区;事发地域周边有多少可以使用的车辆,运输车辆的装载量为多大;车辆维修、加油站等保障能力有多强;震区中心位置在哪里,影响区域有多大,周边气象水文对交通道路的影响有多大,等等。很明显,这些知识涉及民政、交通、运输、卫生、电力、水利、物流等多个行业部门,任何一家都只能提供部分信息。
知识图谱以一种更符合人的认识习惯或思维方式的形式对知识和知识间关系进行重新编排、建模。依然以地震灾害为例说明,从地震信息作为一级实体,从这里出发,在领域知识专家的帮助下确定能够说明震情实体的概念网络导航树,树上的每一个节点就是该实体的子实体或属性,如在震情实体导航树上,可以分解出救灾资源子实体、交通运输子实体、医疗卫生子实体,等等。针对每一个实体再向下分解出多个层次结构的子实体或属性,每一个子实体就是一个关键字,这些关键字在和应急系统信息中可以作为搜索的条件,映射得到的就是逻辑上相对独立的信息包,将这些信息包以适应的形式封装后可供应急指挥信息系统调用。
这样一种从上到下的层次化细分知识体系,体现了知识到数据层的有向映射,是将数据中蕴含的基本信息、扩展信息乃至隐含性信息,以规律性的图示展现了出来,而这种能够直观表达信息之间关系的图,更利于指挥员认识和决策。结合地理信息系统进行图层叠加、分级显示、对比分析,形成面向不同对象的系列专题图[5],为依附于地图上的多种格式的应急数据存储、调用及处理提供了途径,将极大提高应急救援指挥的正确性、现实性和实用性。
3 应急知识图谱的信息搜索模型
由于目前信息系统中绝大部分数据通常以结构化方式存储于关系数据库中,本文重点分析基于结构化数据的应急知识图谱构建和查询处理过程。对于其他半结构化数据,乃至非结构化数据的可视化显示,更多属于大数据可视化的范畴,由于篇幅关系,这里不做深入讨论。
利用关系数据库中数据构建知识图谱的过程,实际上是关系数据库中“关系”与知识图谱的“实体”建立某种映射的过程。实体是对领域知识的概念化描述,包含一系列属性和关系。例如,应急消防救援力量实体应当包含:单位名称、人员数量、特种车辆、携带装备、救援能力等属性,救援装备实体应包含装备类别、装备数量、战技性能等属性。实体关系描述了不同概念和实体的分类,以及继承、并列等关系。由于关系数据库中大多数据构造完整,可较好地对应知识图谱中的实体属性、词性特征等要素,在深入了解结构化数据的基本结构,特别是库表结构、表间关联、列名关系基础上,通过D2R 语言(Relation Database to RDF)可以把结构化数据中的表格与知识图谱中的概念或实体相关联,这样就把关系数据库的表、列与知识图谱的概念实体及实体属性建立了对应,便于形成应急数据知识图谱。
若数据库D 中有表A 记为TA,以该表建立概念节点CA,表TA中的记录TAj建立实体EAj,则可以假设实体EAj包含表TA定义的列。
如果在关系数据库中定义的约束关系,例如,表TA的列RA是表TB中列RB的外键:
关系R(A,B)记为表TB中记录TBj实体EBj间的关系:
在现实情况中,实体间的关系可能是较好识别的显性关系,但大量的自然言语下的关系可能并不好识别,需求从隐性表达中挖掘出实体关系。不过,由于应急数据运用场景单一且确定,所涉及的专业可提前预知,预案数量有限,查询条件可控,应急知识图谱的建立,不需要像基于互联网的知识检索那样面对复杂多变的语义环境。经过对比与分析,笔者认为,采用以词性特征为基础的关系识别方法,就可以满足映射需求。通过深入分析各部门应急预案内容,提炼常见分词及问题,人工预先设定关键词典,基本可以涵盖应急知识图谱查询的条件,这样就能够较好地把利用关系数据库表间关系,建立实体关系。用户提出的自然语言查询条件经过表述归一、语义解析、词典匹配后形成标准的检索条件,对关系数据库进行检索,反馈的知识将更能体现指挥员最关心的问题。
以概念R(C)标记表数据库D 中表TA与表TB之间的多对多关系,并在表TC中体现,则实体EAi到实体EBj之间的关系:
把知识检索定义为属性值(V)、关系(R)、实体(E)和概念(C)等几类要素,分析建立关键词库,表1 给出了知识检索条件与关系数据库SQL 查房的对应关系。
例如,查询“震中50 公里内可用的应急救援卫勤力量有哪些”?可将查询条件中的要素值“地域范围、医疗、部署、单位”等要素值与查询条件相对应:<地域范围,V>、<应急医疗,C>、<单位,E>、<部署,R>,得到查询语句为:Q(‘地域范围=50 公里’).IN(‘部署’).AND(Q(‘单位’).OUT(‘应急医疗’))。执行这条查询即可得到周边50 公里的应急医疗实体。
表1 关系数据库要素与知识图谱查询条件转换表
当然,上述查询语句的匹配适用于简单的自然语言查询,如果需要处理复杂语义的查询,就涉及人工智能和机器学习,这里不做深入研究。
4 应急知识图谱的构建步骤
在突发事件应急联动处置中,所有信息、数据都应当围绕某一特定的任务来组织,这些信息数据中,既有基本信息、扩展信息,也有蕴含的规律性知识,这些信息可能是来自于多数据库之间的关联查询、扩展查询,也可能是跨行业部门的统计查询或任务查询,需要综合考虑突发事件应急处置需要、指挥员思维习惯和应急数据缺陷等,满足多种信息展现需求。
4.1 构建实体库
通过对任务内容进行理论抽象,结合底层数据的分析,提炼出相关的实体。例如,根据突发事件发生地位置,定位事件地点,以该点为中心,根据事件类别、危害等级、影响范围等参数,结合各专业基础数据图层,包括可用的应急救援力量图层、医疗卫生力量图层、疏散地点容量图层等,根据震级大小启动不同等级的应急预案,依据方案中明确的处置要求,确定可以参与应急救援的救援力量、储备物资、交通管制,以及相应的救护力量编组、物资提供、装备调拨、交通调度、道路疏导,等等。
实体库是后续建设应急知识图谱的基础,在构建实体库的过程中要做好规约性工作,包括数据融合集成工具的选择、各类格式数据的统一规范等,遵循统一的标准和规范不仅有助于信息数据的准确性,更利于数据查询、信息展示、知识总结等方面的信息运用。
4.2 构建知识节点导航网
对于提炼出的知识,按照关联度大小或者是人们的认知顺序,根据与该知识节点有关联度的其他主题任务组织成一副网络的节点图,查询指令从这个节点出发按照特定的路径流转,每到一个节点就会显示相应的内容,这就对终端用户的扩展查询提供了支持。
以地震灾害后建筑物损毁统计这个业务概念为例,震后救援中首先需要准确了解建筑物的抗震性能,如果能够及时知道建设物结构分类(砖木结构建筑、砖混结构建筑、钢筋混凝土结构建筑、钢结构建筑)、耐久年限(一级100 年以上、二级50-100 年、三级25-50年、四级15 年以下),等等,并在地图上进行标识,对于确定指挥中心研究确定救援重点将大有帮助。根据震中位置及地震强度,以震感影响范围确定灾情分级救援半径,构建震情影响区域,再根据周边应急力量部署,得出可参与应急救援力量的距离、能力等知识,为指挥员快速定下救援决心提供科学的数据支持。如果根据计算,依靠本级应急力量明显不足时,可及时向上级要求增援,力争在最短时间内,得到适时、适量、适地的救援保障。
图2 基于知识图谱的应急数据组织模型示例
4.3 明确节点间的关联信息
节点间关联关系有时不仅仅是数据之间的语义关系,如包含关系、空间关系、时间关系、逻辑关系,更多的可能是业务逻辑关系,如工作流程、信息流转、业务协作等。所以在定义节点间的关联度时要综合考虑语义关系、业务逻辑、节点颗粒度等,以提高信息的可用性。在对数据进行处理时,如果存在E-R 关系则利用E-R 关系定制,对于不存在关联关系但是现实语义和业务逻辑中存在的,可以进行数据提取和配置。
4.4 形成知识节点的应急数据段
将应急预案内容、应急数据查询分解规范后,映射为知识图谱查询要素库,当用户查询时,结合上述要素库中的语言分词算法,将查询语句分割成要素和要素值,得到知识化的、便于理解、易于图示的信息。
建立知识节点到数据层的映射,也可以按照逻辑概念进行细分,直到与底层数据建立关联,形成层次关联树,对每个节点的查询显示内容进行定制封装。对于结构化的数据可以通过对特定表进行组合查询、更新等数据库操作,把特定资源实体封装为信息包;对于非结构化数据类型主要是通过封装调用。所有的信息封装,对外提供标准的接口,供输入特定的查询条件,将主题任务转化为查询的实例。
4.5 数据显示及调用
以主题任务为单元进行发布,形成信息调用服务,以方便其他业务应用的信息查询和调用。数据提供者通过WSDL 文件将信息组合封装成接口标准的服务,并在元服务器上发布这些服务的接口特征。用户在需要某项主题任务信息时首先向服务注册中心提交申请,查找特定的数据服务,如果注册中心查找到所需的服务,就会返回查询后的结果,服务使用者就可以根据返回的结果进行调用。
5 结语
本文简要分析了知识图谱用于应急数据的价值,研究了应急知识图谱的数据构成模式,构建了应急知识图谱的信息搜索模型,提出了应急数据知识图谱的构建步骤,对于突发事件应急处置决策将提供有力的支持。