APP下载

作战试验数据知识图谱构建方法研究

2022-05-18王小龙刘小朋王磊王宏

中国军转民 2022年3期
关键词:知识图谱

王小龙 刘小朋 王磊 王宏

摘要:为解决作战试验信息化过程中出现的信息过载、知识搜索效率低下等问题,提出将知识图谱应用于作战试验知识库的构建。利用作战试验内部数据源进行关键信息的抽取,给出作战试验知识图谱的构建流程;知识图谱技术利用海量数据建立知识库,可有效整合分散的数据信息,来提高作战试验领域知识的利用率和使用价值,具有重要的军事应用前景。

关键词:作战试验;知识图谱;本体构建

引言

目前作战试验还存在很多问题需要解决,通过作战试验采集、积累了大量的试验数据,这些海量试验数据包括表格、文本文件、音视频、运动轨迹等各种类型数据,其以原始数据的形式存储起来,没有进行有规划地存储和处理,使数据不能成为可以利用的数据资源。当面对海量试验数据时,相关业务人员无法从中获取有用知识,也无法依据数据进行更精准的分析决策。导致价值信息继续沉睡的首要问题是,在海量数据中人们还不能找到其关键知识及相互关系,导致数据挖掘无从下手。

知识图谱(knowledge graph)提供一种可以从海量文本数据中抽取结构化知识手段,从而成为数据分析关键技术,目前在各个领域均有广泛应用,因此,将知识图谱技术引入到作战试验领域是解决目前无法从大量维度的数据中获取关键知识的创新思路。本文将从作战试验数据知识图谱构建方法开展研究,充分利用现有已采集数据资源进行知识图谱构建,并分析其在作战试验领域的应用。

1 知识图谱的定义与架构

1.1 本体的概念

随着知识图谱技术的不断发展,本体建模技术已应用于众多领域,准确地建立本体模型有助于领域知识的存储、表达和管理。由于军事领域的特殊性,其知识体系复杂,要实现本体模型与领域之间表达一致,机器与军事指挥技术人员之间理解一致,必须为知识体系构建准确、专业的本体。本体定义其中较著名的是由Gruber等人提出的:“本体是概念化的明确的规范说明”。

对于本体的形式化定义,得到广泛认可的是Gruber 在1995年提出的本体形式化五元组:

{C,R,HR,Rel,A}(2.1)

其中,C代表本体的概念,R代表本体关系的集合,HR代表概念间的层次关系,Rel表示概念间的非层次关系,A为公理。

结合作战试验知识的自身特点以及未来知识体系、知识库的扩展和进化需求,在本研究中,采用如下形式定义本体模型:

O={C,A,R,X,TI}(2.2)

即一个本体模型O包括了如下5个方面:C(Concept)表示本体中的概念,A(Attribute)表示概念及其实例的属性的集合,R(Relation)表示概念间的关系集合,X(Axiom)表示本体的公理与规则集合,TI(TypicalInstance)表示本体的典型实例集合。

其中,概念集合C结合知识结构与元素与顶层概念模型产生;关系集合R分为分类关系Rt和依赖关系Rd两大类,分类关系如继承关系(is-a、kind-of)和整体部分关系(part-of)等,依赖关系表示概念间存在的其他语义关系。

采用这种定义的优势在于,强化了“本体-属性-关系”这种常用于表现事物和事件的整体逻辑关系,将关系、属性和规则公理划分为独立的方面,使得本体模型中的定义更加模块化,利于实际工程化构建本体模型。

1.2 知识图谱的概念

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。知识图谱从逻辑上可以划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实为单位存储在图数据库中。图数据中主要有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,所有数据构成庞大的实体关系网络。模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层。

知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工。目前,在这三个阶段的方法研究中,有大量的自然语言智能处理算法,可以支撑信息抽取、知识融合以及知识加工。

2 作战试验知识领域构建方法

围绕作战试验知识,按照知识体系构建范围,可将知识划分形成6大知识板块,分别是:军事概念知识、武器装备知识、战场环境知识、作战运用知识以及试验评估分析知识。作战试验知识结构与要素构建,主要是梳理构建每个划分领域的知识要素、要素层级以及要素关系,最终形成该领域的知识结构,为后续的概念模型、本体模型设计提供专业化、系统化的基础知识。如表1所示。

以试验评估要素为例,试验评估知识结构与要素主要围绕试验、评估与研讨分析及相关业务展开,其中,试验评估分析知识包括4个方面的核心要素:仿真试验、实装试验、作战评估以及试驗分析。每一点核心要素下又细分为多个子要素。这些要素之间有些相互关联,具备一些递进、包含关系,详细结构与要素如表2所示。

又如武器装备知识结构与要素主要围绕武器装备分类体系、描述模型展开,形成的知识结构与要素,其中,武器装备知识包括7个方面的核心要素:装备分类体系、装备属性与能力、装备战技指标、装备作战效能、装备使用保障要求、装备编配关系以及装备演化关系。每一点核心要素下又细分为多个子要素。这些要素之间有些相互关联,具备一些递进、包含关系,详细结构与要素如表3所示。

3 武器装备领域本体模型设计

通过对武器装备知识结构与要素进行概念分析,可以发现,武器装备知识领域中,存在如下本体概念:武器装备、装备能力、装备战技指标、装备保障环境、装备保障岗位以及装备使用岗位。其中,武器装备、装备能力、装备战技指标是装备领域主要的本体,装备保障环境、装备保障岗位以及装备使用岗位是和组织编制领域、战场环境领域交叠的本体。

下面将以履带自行榴弹炮为子类本体模型举例:

定义:履带自行榴弹炮本体模型

O<履带自行榴弹炮>={ C<履带自行榴弹炮>,A<履带自行榴弹炮>,

R<履带自行榴弹炮>,X<履带自行榴弹炮>,TI<履带自行榴弹炮>}

其中,各元素详细定义如下:

① 概念 C<履带自行榴弹炮>:自行榴弹炮的一种,采用履带式机动方式。

②属性 A<履带自行榴弹炮>:

③ 关系 R<履带自行榴弹炮>:

④ 公理规则 X<履带自行榴弹炮>:暂无

⑤典型实例TI<履带自行榴弹炮>:【155mm自行榴弹炮】等

4 知识库结构设计

在逻辑上,通常将知识库划分为两个层次:数据层和模式层,也可称为实体库和本體库。

数据层:数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储,通常通过(头实体,关系,尾实体),(实体,属性,属性值)这样的三元组来表达事实。

模式层:在数据层之上,是知识库的核心,存储经过提炼的知识,通常通过本体模型来构建这一层(本体模型可以理解为面向对象里的“类”这样一个概念,本体模型形成的本体库就储存着知识库的类)。例如:

模式层:实体-关系-实体,实体-属性-性值;

数据层:斯特赖克步兵营-配备-M1127装甲侦察车 M1127装甲侦察车-最大公路行驶速度-100km/h。

4.1知识库构建技术路线

从原始的领域数据到形成知识库,必须经过数据整合与处理、知识抽取、知识融合、知识加工等步骤。

对于领域内的结构化、非结构化以及半结构化数据,通过一系列自动化或半自动化的技术手段,利用对应工具进行数据整合与处理。然后根据建立的本体模型以及相应的智能模型库,从整合后的数据中提取知识,包括提取实体、属性和关系。接着将对提取到的知识进行知识融合,将提取的知识与知识库进行匹配融合,形成可以入库的知识。然后对可以入库的知识进行加工,从中发现新的本体、推理新的知识以及校验评估知识的质量。完成加工后,即可将知识入库存储。

4.2知识库构建流程

构建知识库是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含知识抽取、知识融合和知识加工三个阶段:

4.2.1知识抽取

领域知识提取是领域知识图谱构建过程中最核心的一环,是后续围绕领域知识图谱开展应用研究的重要基础,能够有效提取领域知识直接关系到最终系统应用的效果。领域知识提取主要包含:实体抽取、关系抽取和属性抽取。

4.2.1.1实体抽取

实体是知识图谱中的基本单元,实体抽取是指从文本数据集中自动识别出命名实体,是自然语言处理中的一个经典问题,其目的就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型。在军事领域中,命名实体识别的作用是识别出领域内各种非结构化文档中的军事相关实体,具体包括基本军事概念、作战运用、组织编制、作战能力、武器装备、作战评估、教育训练、战场环境、试验评估等多类实体。比如在下面一段文本中,通过实体抽取我们可以从其中抽取出实体——“斯特赖克旅”“旅部”“旅部连”“斯特赖克步兵营”“旅保障营”和“步兵连”,其类型都为组织架构。

“斯特赖克旅下辖旅部及旅部连,3个斯特赖克步兵营和一个旅保障营,斯特赖克步兵营由三个相同编制的步兵连组成,是该旅的作战主体,保障营向作战营提供伴随保障,向全旅部队提供后勤与维修保障。”

实体识别包括预处理阶段、特征向量的选取、模型训练、结果评估和模型改进五个阶段:

①处理。包括空格处理、字符大小转换、复杂数据结构的解析和格式转换、上下文异构的消除等。

②特征向量是指能够识别实体的属性集合。特征向量的选取方法包括领域专家手工指定和机器学习方法等。

③对于处理好的数据作为输入,构造训练集,进行模型的训练,以便能够对实体进行识别。

④对于提取出的实体的结果,主要根据两个评价指标衡量实体识别模型的性能:召回率和准确率。召回率(REC)等于系统正确识别的结果占所有可能正确结果的比例;准确率(PRE)等于系统正确识别的结果占所有识别结果的比例。为了综合评价系统的性能,通常还计算召回率和准确率的加权几何平均值,即F指数,计算公式如下:

其中,β是召回率和准确率的相对权重。β等于1时,二者同样重要;β大于1时,准确率更重要一些;β小于1时,召回率更重要一些。

⑤根据实体识别结果的评估,如果存在指标过低的情况,需要对模型进行改进。

4.2.1.2关系抽取

实体之间的关系是知识图谱中不可或缺的部分,不同的关系将独立的实体连接在一起编织成知识图谱。如何从非结构化的数据中识别出实体之间的关系是知识图谱构建的核心任务之一。军事领域实体关系抽取的主要目的在于通过各种关系抽取模型和技术手段将非结构化文档中的各类军事相关实体之间的关系抽取出来,诸如,组织架构和武器装备之间的配备关系,武器装备之间的配套关系,组织架构之间的隶属关系,武器装备与军事环境之间的适用关系。通过关系抽取技术,将彼此孤立的各类军事相关实体相互连接起来形成军事领域知识图谱,为之后的智能问答,知识推理,知识推荐,智能决策辅助等应用提供重要的知识支撑。

关系抽取任务被广泛应用于数据简化和构建知识图谱中。在上阶段正确识别实体的基础上,抽取它们之间的关系就是亟待解决的重要问题。该任务的定义是,给定标注了两个实体的句子,返回两个实体之间的语义关系。比如,给定句子“斯特赖克轮式装甲车是美国陆军最新一代主战装备,也是陆军部队转型的重要标志。”,其中,“斯特賴克轮式装甲车”代表武器装备实体,“美国陆军”代表组织架构实体,返回关系“武器装备-配备给-组织架构”。关系抽取任务得到的结果常用于问答系统和知识图谱等应用,是基础且重要的自然语言处理任务。

文本语料经过实体抽取之后,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。

关系抽取包括数据标注、模型训练、结果评估和模型改进四个阶段:

①数据标注:是对识别出的实体和实体之间的关系进行标注。

②模型训练:使用已标注好的数据集进行模型训练。

③关系抽取的结果,也是根据两个评价指标衡量关系抽取模型的性能:召回率和准确率。为了综合评价系统的性能,通常也计算召回率和准确率的加权几何平均值,即F指数,计算公式如式(5.1).

④根据关系抽取结果的评估,如果存在指标过低的情况,需要对模型进行改进。

4.2.1.3属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对美国陆军装备主战坦克“M1A2主战坦克”,可以从网络公开信息中得到其长度,高度,行动距离,重量,乘员等属性信息。将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务,因此可以通过关系抽取方法来进行属性抽取。常见的抽取方法包含:

①基于规则和启发式算法,抽取结构化数据。

②基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。

③采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

4.2.2知识融合

通过知识抽取,已经能够将军事领域内各种内部,外部海量数据中的实体,关系,属性抽取出来,但是由于领域数据采集的来源广泛,知识质量良莠不齐,存在不同数据源知识重复,层次结构缺失等问题,必须进行知识的融合,使得不同知识源的知识在同一框架规范下进行异构数据整合,消歧,加工,推理验证,更新等步骤,形成高质量的知识库。知识融合的技术主要包括共指消解结束和实体链接技术。

4.2.2.1共指消解

共指消解是自然语言处理的重要问题,旨在发现非结构化文本中指向同一实体的不同文字表达(指称语)。

从军事领域内各种内外部文档中提取出的实体,在文档中往往存在不同的指称语,比如,在段落“斯特赖克旅下辖旅部及旅部连,3个斯特赖克步兵营和一个旅保障营,斯特赖克步兵营由三个相同编制的步兵连组成,是该旅的作战主体,保障营向作战营提供伴随保障,向全旅部队提供后勤与维修保障。”中,对于组织编制类实体“斯特赖克旅”,在文中存在另外两个不同的指称:“该旅”,“全旅部队”,确定不同指称语在真实世界中所指向的同一实体的过程称为共指消解,共指消解对于知识图谱的构建十分重要,它能检测出同一实体在文本中的的各种不同或相同的表述,包括普通名词短语,专有名词和代词等,丰富了实体在文本中的上下文环境,完善了实体的属性,关系等信息,同时避免了在进行知识图谱构建时,误将同一实体的不同指称当做不同的实体而存储到知识图谱中,保证了知识图谱中实体的唯一性。

4.2.2.2实体链接

实体链接是指将文本中的实体链接到指定的知识库。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。通过将外部非结构化文档中的实体与现有知识图谱中的实体进行链接,然后融合二者的属性关系到现有的知识图谱中,可以帮助现有知识图谱的不断更新和完善。

4.2.3知识加工

4.2.3.1本体自动构建

本体可以人工手动构建,也可以采用数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。自动化本体构建过程包括三个阶段:

①实体并列关系相似度计算

②实体上下位关系抽取

③本体的生成

4.2.3.2知识推理

知识推理,就是根据已有的数据模型和数据,依据推理规则,获取新的知识或结论,新的知识或结论应该是满足语义的。知识推理,依据描述逻辑系统实现。一个描述逻辑系统由四个基本部分组成:最基本的元素:概念、关系、个体;TBox术语集:概念术语的公理集合;Abox断言集:个体的断言集合;描述逻辑涉及到的内容也比较多,比如,根据句子中的实体关系“M1A2主战坦克是美国陆军装备的主要的主战坦克。”,“美国军队由美国陆军,美国海军,美国空军,美国海军陆战队,美国海岸警卫队所构成”可以直接推理出关系:“美国军队-武器装备-M1A2主战坦克”。通过推理发现新的知识,应用比较多,说明知识图谱很多时候会应用推理。

4.2.3.3质量评估

质量评估,就是对最后的结果数据进行评估,将合格的数据放入知识图谱中。对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。质量评估的方法,根据所构建的知识图谱的不同,对数据要求的差异而有所差别。总的目的是要获得合乎要求的知识图谱数据,要求的标准根据具体情况确定。比如对于公共领域的知识图谱,知识的获取采用了众包的方法,对于同一个知识点,可能会有很多人来完成,如果这个知识点只有一个答案,可以采用的一种策略是,将多人的标注结果进行比较,取投票多的结果作为最终的结果。当然,这是不严谨的,因为真理往往掌握在少数人的手里,特别是针对一些行业的知识图谱,表现尤为突出。行业内的一条知识,可能只有行业专家能够给出权威正确的答案,如果让大众投票来决定,可能会得到一条错误的知识。所以,针对行业知识图谱,可能会采用不同于公共知识图谱的策略,来进行知识的质量评估。

5 结束语

作战试验实施过程中的海量数据带来了信息过载的问题,降低了参试人员获取知识的效率。作战试验知识图谱提供了一种管理与利用海量异构数据源的有效方式,大量的作战试验数据能够得到良好的表达与组织。将其应用到作战试验领域内的智能搜索、深度问答、辅助决策等方面,有助于决策和分析人员快速准确地获取知识,增进知识的共享,提高信息化条件下的决策分析能力。本文在对知识图谱的定义及架构进行阐述的基础上,研究了作战试验数据知识图谱的构建技术流程,能够支撑作战试验大规模分析、统一筹划、辅助决策等多种应用,具有重要的军事应用前景。

参考文献

[1]陈乘风,何宇,赵伟.加强作战数据建设的思考[J].军队信息化建设,2012,(2):16-17.

[2]张引, 陈敏, 廖小飞. 大数据应用的现状与展望[J]. 计算机研究与发展, 2013, 50(s2):216-233.

[3]曹会智, 李沛, 刘俊杰, 等. 大数据时代背景下装备保障建设发展研究[J]. 中国管理信息化, 2014(17):52-54.

[4]阮彤, 王梦婕, 王昊奋, 等. 垂直知识图谱的构建与应用研究[J]. 知识管理论坛, 2016(3):226-234.

[5]徐增林, 盛泳潘, 贺丽荣, 等.知识图谱技术综述[J].电子科技大学学报, 2016, 45(4):589-606.

[6]刘峤, 李杨, 杨段宏, 等. 知识图谱构建技术综述[J].计算机研究与发展, 2016, 53(3):582-600.

[7]严红, 黄颖, 应励志. 面向军事信息系统结构化数据的信息汇聚方法[J]. 指挥信息系统与技术, 2015, 6(1):29-34.

[8]李涛, 王次臣, 李华康. 知识图谱的发展与构建[J]. 南京理工大学学报(自然科学版), 2017, 41(1):22-34.

(作者单位:王小龙,中国人民解放军陆军工程大学;刘小朋,中国人民解放军陆军工程大学、中国人民解放军63861部队;王磊,中国人民解放军63861部队;王宏,中国人民解放军陆军工程大学、云南省临沧军分区)

猜你喜欢

知识图谱
国内外智库研究态势知识图谱对比分析
国内信息素养研究的知识图谱分析
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
国内酒店品牌管理研究进展的可视化分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
专家知识图谱构建研究