APP下载

国防交通领域知识图谱构建与应用探索

2022-01-24冯俊池安丰亮尹党辉

国防交通工程与技术 2022年1期
关键词:本体图谱国防

冯俊池, 安丰亮, 尹党辉

(军事科学院系统工程研究院后勤科学与技术研究所, 北京 100071)

近年来,随着数据的重要性与日俱增,各领域数据量迅速增长,如何有效利用数据、实现数据到知识的转化,成为研究热点。传统关系型数据库存在字段多、关联复杂、查询困难和呈现方式不直观等缺点,而知识图谱具备注重语义表达、机器可理解、关联清晰、结构灵活、查询高效和可视化程度高等优势,通过语义网络对现实世界的事物及其相互关系进行形式化地描述,将结构化、非结构化多源异构信息孤岛集成,提升应用效能,实现数据增值[1]。

国防交通业务领域涉及规划计划、交通工程设施、运载工具、国防运输、交通保障、物资储备等多方面[2],领域范围广、数据来源多、形式复杂。借助知识图谱的优势,实现分散孤立的数据到聚合关联的知识转化,可以深化数据资源利用,更好地为国防交通业务提供支撑保障。

1 知识图谱需求分析

随着国防交通信息化及大数据建设的发展,铁路、公路、水路、航空、通信、邮政等各行业信息系统越来越多,数据资源日益丰富,在数据处理利用方面面临更大的挑战。主要包括以下几个方面:

(1)数据组织处理难。国防交通业务领域数据从内容上,包括但不限于相对规范的业务表格数据,通知、批复、报告等文件数据,位置、轨迹等地理信息数据,图片、视频等多媒体数据;从来源上,包括业务信息系统、电子文件、网页资源及外部信息系统等;从形式上,包括数据库、文本、图片、视频、文件、超链接等多种形式;从类型上,涵盖结构化数据、非结构化数据及半结构化数据。数据资源具有典型的大数据特色[3],形式、来源复杂多样,质量水平参差不齐,有效组织形成体系比较困难。

(2)数据关联融合难。国防交通业务范围广,彼此之间关联关系复杂,机构、人员、运力、设施设备、地理位置等对象之间彼此均相互关联,例如特定路段的转弯半径会限制运输车辆通行,从而影响特定装备的运输路线。如何将数据有机整合实现关联搜索查询存在困难。

(3)数据挖掘利用难。数据存储以传统数据库形式为主,且大量数据以文档等非结构化形式存在,呈现方式不直观、数据分析困难,无法有效利用。

通过采用知识图谱技术,可整合大量分散孤立的异构数据,将国防交通领域的业务数据库结构化数据以及文件、图像、视频等半结构化、非结构化数据进行融合,并根据真实世界的实体、属性、关系进行建模,建立语义层面关联;在搜索查询中识别搜索内容为知识图谱中的实体,并根据实体的类别、关系及相关性等信息找到关联的实体,实现精确化及关联查询;通过以人类认知为基础的可视化技术,以图形方式清晰高效地展现数据,支持开展交互探索式分析,深化数据资源挖掘利用。

2 知识图谱整体框架

从内容与适用范围角度,知识图谱主要包括通用知识图谱和领域(行业)知识图谱二类。通用知识图谱注重广度,面向全领域;而领域知识图谱则面向特定领域,注重深度,通常涵盖更细粒度的知识,且对质量有着更为苛刻的要求,在构建过程中专家参与的程度较高,计算操作和应用较通用知识图谱也相对复杂。针对国防交通业务领域建立的知识图谱则是典型的领域知识图谱,其整体框架如图1所示,主要包括知识来源、知识表示、知识获取、知识融合、知识存储和知识应用6个层次。

图1 国防交通领域知识图谱整体框架

2.1 知识来源

针对来源不同、接入方式不同的异构数据进行统一的集成与管理[4],为后续数据处理提供统一入口。首先通过数据接入接口,针对不同格式、结构、规范、来源的数据进行数据汇聚;然后开展初步数据清洗,主要针对一些特定的常用字段类型设定规则,如时间、标准代码等,对将要进行存储的数据进行预处理;最后根据数据资源分类体系进行数据存储,并为后续数据向知识的转化提供数据访问接口。

2.2 知识表示

知识表示将国防交通业务相关概念进行形式化表示,为数据建立统一标准,形成领域知识图谱的概念层。以国防交通业务顶层为例,国防交通主要活动可分为国防交通规划、国防交通工程设施、民用运载工具、国防交通物资储备、国防运输和国防交通保障;行业领域可分为铁路、公路、水路、航空、管道和邮政;涉及单位主要包括国防交通主管机构、有关军事机关、政府交通主管部门和交通企业事业单位等。以具体业务运载工具管理中的船舶为例,其属性包括船舶类型、船舶名称、唯一识别号、载重等,与之相关联的包括管理使用单位、建造单位等。

2.3 知识获取

知识获取是将数据转化为知识即建立知识图谱数据层的主要过程,将较低语义层次、多种采集和描述规格、质量参差不齐的数据处理为高语义层次、规范统一、高质量的数据。主要通过数据抽取转换、机器学习、深度学习等技术,将数据转换为实体、属性以及实体间相互关系的三元组,如国防交通专业保障队伍实体,包括人员数量、装备数量、所在位置等属性,其与国防交通工程设施存在保障与被保障的关系。

2.4 知识融合

知识融合指融合来自不同数据源的关于同一个实体或概念的描述信息,实现多源数据下知识的整合和消歧。通过知识抽取得到的国防交通领域实体、属性等内容来自不同数据源,其中包含大量的冗余和错误信息,如业务系统中的交通设施等数据和外部来源中的数据会存在重复和分歧,同一设施之间也未关联,形成的知识子图互相独立,缺乏层次性和逻辑性,需要经过清理和整合汇聚形成知识图谱。

2.5 知识存储

国防交通领域知识图谱由互相关联的实体形成的图结构组成,采用图数据库Neo4j作为知识存储的主要数据库,可以简单快速地检索难以在关系数据库系统中建模的复杂层次结构,具有嵌入式、高性能、轻量级等优势。此外,业务过程中产生的文档数据可采用MongoDB文档型数据库存储,交通工程设施、运载工具、交通保障任务等相关图片、视频非结构化数据则依赖HDFS存储,通过知识图谱实体属性中的链接形式实现访问。关系数据库主要用于支撑知识图谱平台软件的运行,以及存储概念和实体的基本信息等相对固定的数据。

2.6 知识应用

知识应用层对软件系统或用户提供知识图谱应用接口,包括语义搜索、查询推荐、智能问答、数据分析、图谱可视化等。用户可使用图形界面访问相应功能,精确查询相关业务知识,获取国防交通保障所需资源,并根据业务之间关联以图形化方式跳转浏览相关内容,以可视化分析手段实现资源与需求匹配。同时,借助提供的应用访问接口API,相关软件系统可快速集成图谱所提供的功能,从而利用领域知识提升业务保障支撑能力。

3 知识图谱构建流程方法

知识图谱构建从数据源开始,包括领域本体创建、知识获取、知识融合、知识存储、图谱绘制等步骤,如图2所示。原始数据通过人工及自动化方式建立领域本体,在知识获取阶段将数据转换为三元组形式,经过融合及存储,形成知识图谱;图谱绘制阶段将知识以图的形式表示,以实体作为节点、关系作为边,可视化展现实体及关系。

图2 国防交通领域知识图谱构建流程

3.1 领域本体创建

领域本体描述国防交通领域内实体概念及相互关系,作为知识图谱的概念层,明确知识结构,避免构建过程中出现过多冗余和错误。本体构建中涉及的相关概念有:类、对象、属性,属性又分为对象属性和数据属性。类代表了个体的集合,与面向对象设计中的概念相似,类通过由父类和子类构成的结构层次图表达。对象(实体)则是类的实例,对应着现实世界事物。属性具有指定的域和范围,并将其关联,对应到三元组即是<域,属性,范围>。对象属性表达类之间的关联关系,域和范围均为类,如管理属性,涉及交通工程设施和单位两个类,代表交通工程设施由单位管理的关系。数据属性表达某个类所具有的属性及值,范围一般为值域,如车辆的长度属性,范围则为一定区间的正整数。

本体构建主要有两种方法:一是利用现有文献和领域专家的背景知识用手动方式创建概念和关联形成数据模式;二是基于行业标准进行转换或者从现有的高质量行业数据源中进行映射[5]。针对国防交通领域知识图谱本体,采取两者结合的方式,针对顶层概念,在领域专家的帮助下,基于领域概念知识,通过人工建模的方法构建;针对数据规范化程度较高的具体业务对象,通过数据库表结构映射到类和属性,以自动化或半自动化方式构建本体。

本体构建可采用本体构建工具Protégé辅助进行[6],如图3所示,其中展示了国防交通领域部分顶层概念,包括国防交通规划、交通工程设施、民用运载工具、单位和机构、国防交通储备物资等。其中,交通工程设施包括国防交通工程设施和其他交通工程设施2个子类,相关属性有管理单位、地点位置、设施类型、保障能力,管理单位为对象属性,与单位和机构相关联;单位和机构则包括国防交通主管机构、有关军事机关、政府交通主管部门和交通企业事业单位等子类;国防交通物资储备相关属性则包括管理单位、物资类型、物资名称、储备地点、技术参数、数量等。

图3 国防交通领域本体编辑

针对结构化数据,以关系数据库表中的船舶基本信息为例,通过自动提取数据结构,以表的主题作为类,与外表关联字段作为对象属性,其他字段作为数据属性,依据字段数据类型确定属性值域范围,构建船舶本体如图4所示。

图4 船舶本体

3.2 知识获取

知识获取过程依据本体,将数据转换处理形成三元组。处理的关键内容是“实体—关系—实体”和“实体—属性—值”三元组的构建。根据知识来源的不同,分为数据抽取转换、包装器适配、自然语言处理三种方式。

3.2.1 数据抽取转换

针对国防交通领域已有业务信息系统或引接外部信息系统中的关系型数据,可通过基于规则的数据抽取转换实现数据记录到实体、实体间关系及实体属性的映射,从关系表中快速提取信息。以3.1节中的船舶基本信息表为例,根据建立的船舶本体模型,可将指定字段的数据内容与本体自动对应提取,并生成三元组。

3.2.2 包装器适配

针对相关行业外部资源和业务网站中的HTML、XML等半结构化数据,其内容格式相对固定,可使用包装器适配方法,针对同一类模板设计实现数据提取工具,实现数据的自动提取。

3.2.3 自然语言处理

从业务工作中产生的大量文本等非结构化数据中获取知识则包括命名实体识别、关系抽取、属性抽取等过程,其中涉及分词、词性标注、语义解析、语义角色标注、语义相似度计算等自然语言处理技术,主要采用机器学习、深度学习等方法实现。

3.3 知识融合

知识融合主要包括实体对齐、实体链接、属性融合、值规范化等。实体对齐识别不同来源、语义相同的实体并进行合并,例如根据船舶名称或唯一识别号,将战略投送支援队伍中的船舶与船舶基本信息表中的船舶进行一一对应,实现逻辑关联。实体链接则将文本中抽取得到的实体对象,链接到知识库中已有的对应实体。属性融合识别同一属性的不同描述,如船舶总长和船舶长度,并进行合并。值规范化针对不同来源、不同格式的数据值或者不同的描述形式,进行统一规范。

3.4 知识更新

知识图谱形成后,随着新数据的不断出现,需要获取新知识融合到原有图谱中,即对知识进行迭代更新。知识更新包括概念层更新和数据层更新,主要采用增量更新的方式,以当前的新增数据作为输入,向现有的知识图谱中添加新增知识,相对于全面更新对于资源消耗更少,更新所需的时间更短。

4 知识图谱应用模式

4.1 业务知识关联搜索

通过将业务实体有机关联,知识图谱可以提高用户搜索的深度和广度,展现更加详细全面的信息。例如在查询某一道路的基本信息时,根据转弯半径属性,可查看受其影响无法通行的车辆类别,并通过车辆运输装备情况了解哪些装备无法通行此路段,此外还可以浏览查看通行受限时相关处理措施等业务知识内容;在针对港口设施信息的查询中,不仅能查询到指定港口设施的属性信息,还可以通过关联关系展现管理单位、周边进出道路、保障力量分布、船舶停靠情况、视频多媒体资料等相关内容,使用户获取信息路径更短,更有助于发现有用信息。

4.2 业务辅助决策

领域知识图谱将国防交通各业务及外部资源相关知识深度关联,融合各方面要素信息,通过语义链接实现对业务的智能理解,从知识体系中系统挖掘关键内容,提高分析的精确度和可行性。如针对交通保障任务需求,根据数据资源和业务规则相关知识,可以辅助分析所需保障人员、物资、车辆、设施设备等方面要求,供业务人员参考。

通过实现基于知识图谱的业务智能问答,可将用户的问题理解转化为对知识图谱的查询,提供用户所关心的问题答案,提高准确率。以查询内容为“XX型装备运输保障”为例,通过问题识别进行深层次的知识挖掘与提炼,反馈该型装备性能参数、运输要求、对人员车辆需求以及相关保障方案、历史案例等数据,如加上任务地域等详细信息,则会进一步聚焦包括道路情况、周边可利用资源等内容,为实际保障业务提供智能辅助。

4.3 可视化分析挖掘

知识图谱提供了图形化的数据表示形式,分类整理的结构化知识符合人类认知,更易于业务人员理解和选择需求目标,并可在总体全局和具体对象视角切换,同时支持以交互探索式分析方式进一步挖掘、搜索,通过业务对象实体之间的关联,挖掘隐含知识。以查看储备仓库实体数据为例,业务人员以可视化方式浏览其地理位置、人员情况、交通情况、物资储备等信息,并可查看全部仓库总体情况、关联对比其他类似仓库,有助于从仓库布局、储备物资类别及数质量分布等角度发现存在的问题,从而从现有知识中发掘新的关注点来改进提升业务。

5 结束语

知识图谱技术实现由数据到知识的转化,能够有效利用数据资源,提升业务智能决策水平,在国防交通领域具有重要价值。本文提出的框架及构建流程方法可为国防交通领域知识图谱建设提供参考。下一步将针对其中涉及的文本数据实体识别等关键技术点开展深入研究,提高知识图谱构建效率和准确性。

猜你喜欢

本体图谱国防
高清大脑皮层发育新图谱绘成
基于图对比注意力网络的知识图谱补全
全民国防 筑梦国防
国防小课堂
眼睛是“本体”
国防小课堂
绘一张成长图谱
一种基于社会选择的本体聚类与合并机制
知国防 爱国防 等
主动对接你思维的知识图谱