APP下载

军事领域知识图谱的构建及应用

2020-07-27杨朝红毕建权

指挥控制与仿真 2020年4期
关键词:图谱实体军事

邢 萌,杨朝红,毕建权

(陆军装甲兵学院,北京 100072)

知识图谱概念起源于语义网络,于2012年由Google提出,是一种用于其搜索结果优化的辅助知识库。随着知识图谱技术的快速发展,目前已开始应用于各垂直领域。领域知识图谱(Domain-specific Knowledge Graph,DKG)是指聚焦在特定垂直领域的知识图谱,其中,大都是跟该领域相关的实体和概念[1]。

领域知识图谱与通用知识图谱(General-purpose Knowledge Graph,GKG)的区别主要体现在知识表示、知识获取和知识应用三个层面。一是从知识表示层面看,GKG对知识的覆盖范围远大于DKG,而DKG在知识的深度上更深,尤其体现在图谱的层级体系上,并且,两者在知识表示的粒度上也有很大区别,比如,通用知识图谱的表示粒度可以是计算机中的一个文档,而领域知识图谱的粒度通常要精细到文档中的一个段落、一个知识点等;二是从知识获取层面看,领域知识图谱对前置数据模式有更严格的要求,应用场景的严谨性要求数据具有更高的准确度,比如医学领域、军事领域、高精尖科技领域等,所以,在领域知识图谱的构建中,专家参与度更高,自动化程度较低;三是知识应用层面上,DKG的推理链条通常比较长,主要是因为领域知识图谱的实体分布较为密集,相对于GKG,它在单个实体的相关知识覆盖面更广泛,在这样一个实体密集的知识图谱上进行长距离推理之后的结果大概率仍是有意义的,因此,领域知识图谱能够胜任类似深度推理、复杂查询等应用[2]。

领域的知识图谱是用来辅助各种复杂的分析应用或决策支持,不同领域的构建方案与应用形式有所不同。知识图谱作为人工智能技术中的知识容器和孵化器,对未来AI领域发展起关键性的作用。未来全军作战样式将全面向基于网络信息体系的联合作战样式转变,信息已经成为链接各作战部队、武器装备、信息系统等各类作战单元的重要纽带,亟须对这些信息资源进行组织关联及共享开发,以打通信息隔阂,取得战争信息优势。

本文初步探讨了军事领域知识图谱当前面临的机遇和挑战,从新的领域知识图谱角度提出了军事领域知识图谱构建及应用技术架构,给出军事领域知识图谱的应用场景,针对军事领域特点,对知识全生命周期的各个环节的关键技术流程进行专项研究,旨在推动军事领域知识图谱的落地应用,对网络信息体系建设中的数据关联构建、数据组织和知识管理具有一定的指导意义。

1 领域知识图谱研究背景和相关工作

当前,国内外对领域知识图谱的研究热点主要有领域大脑构建、大规模领域知识图谱的存储与计算、知识图谱交互以及领域知识图谱应用等几个方面。

在领域图谱构建方面,由于通用知识图谱的知识来源于多种结构的数据,其可看成一个面向通用领域的“结构化的百科知识库”,而领域知识图谱又称为行业知识图谱或垂直知识图谱,面向某一特定领域。领域知识图谱基于行业数据构建,通常有严格而丰富的数据模式,对知识的深度、准确性要求较高,亟须解决增强领域知识的表示能力、对领域实体进行识别和关系抽取、隐性关系发现等关键问题。

在大规模领域知识图谱的存储与计算方面,由于大部分领域除了实体关系数据外,还有时间、空间、规则、标签等重要的知识数据,单独使用图数据库已经不能满足多种数据结构的存储要求,基于图数据库的混合存储模型研究成为热点[3];基于通用知识图谱的推理技术并不能很好地移植到领域知识图谱中,一些学者开始从程序性知识的角度研究领域内的知识推理,如何将这种人类的思维以程序性知识的形式转化为机器的路径是当前的一个研究重点[4]。

领域知识图谱的应用研究主要有智能搜索及问答、辅助决策及个性化推荐等方面。目前,领域知识图谱已经在医疗、电商、金融、军工、电力、教育、公安等多个领域开展应用,例如,在金融领域的信用评估、风险控制、反欺诈方面的应用,以及医疗领域的智能问诊等的应用[5]。

当前,国内对军事领域知识图谱的研究成果较少,车金立等对基于百科知识的军事装备知识图谱构建与应用进行了研究,构建了军事装备领域的知识图谱,实现了知识问答功能[6],但只是基于公开的半结构化的百科数据,数据源单一,数据类型少,且研究成果中没有明确知识抽取的准确率、自动化程度以及知识问答结果的准确率;周丽娜等人研究了网络信息体系知识本体的构建方法,认为当前的问题是解决本体的自动构建和更新,知识图谱无法涵盖所有军事活动[7];国内还有对基于知识图谱的日本西南防卫力量的研究,利用图数据库进行存储提升数据的扩展性和处理效率,研究成果可以辅助军事决策和军事侦察等[8],但同样存在数据源单一、节点间关系过于简单等问题。刘丽、葛斌、蒋锴等人对军事数据组织技术进行了研究,描述了基于知识图谱的军用数据组织技术框架,但尚未体现军用领域知识图谱的专用技术[9-11]。

2 军事领域知识图谱应用场景需求分析

按照部队的作战状态可以将应用场景分为平时和战时。平时应用场景主要包含基于军事知识的智能问答、个性化推荐、隐蔽知识推理等基于知识图谱的辅助数据分析及决策功能;战时应用场景主要包含情报保障、作战筹划与行动控制、战时辅助判断与决策推荐等战时指挥控制典型功能应用。

2.1 平时应用场景

当前,基于领域知识图谱的智能问答类应用从简单场景延伸至复杂和多元化的应用场景,从智能搜索发展为智能推荐、知识问答等复杂任务。应用到部队平时训练场景中,例如,在坦克射击训练时,从对战斗室的了解与使用到实现战斗瞄准射击,共有两百余项练习内容,每项练习内容的步骤数量从三到十余步不等,每步均有相应的完成条件与实现标准。如询问“射击前检查”的练习内容与方法,基于知识图谱的智能问答系统应能返回准确的练习内容,如火控计算机自检、安全保护功能检查、液压闭锁功能检查、各种工作模式功能检查、夜视仪功能检查等,并为用户智能推荐进行该练习时可能用到的装备及辅助工具,在操作过程中可以进行相关问题的解答与解决方案推荐,如“炮控系统检查需要哪些准备工作”、“建议在进行功能检查前应将夜视仪检查完毕”等。

从用户提出的问题来看,除传统的陈述类问题之外,领域知识图谱重点解决的是解释类的问题。像“what”、“who”、“when”、“where”这样简单的陈述类问题只能满足用户对知识图谱最基础的要求,现在,越来越多的场景要求解决“why”、“how”等解释类问题[12]。

作战人员对于作战数据的需求是多元化和个性化的,通过以搜索引擎为代表的信息检索系统获得的结果并不能很好地满足作战人员的个性化需求,此类问题可通过基于领域知识图谱的个性化推荐解决;由于领域知识图谱可以支撑推理链条较长的应用场景,能够推理出基于更深层次关系的隐蔽知识,还可以根据用户的统计数据描述用户习惯,进行隐蔽知识推理。基于领域知识图谱的智能问答、个性化推荐、隐蔽知识推理等应用,可以显著提高部队日常训练的组织效率,节约装备及人力资源。

2.2 战时应用场景

战时应用场景主要是以典型作战任务为牵引,在部队现役指挥信息系统基础上进行基于知识专家经验的升级改造,以支撑作战人员进行作战筹划与行动控制、辅助判断与决策推荐等为目的应用场景。

在战场作战指挥的过程中,对战场情况的辅助判断与决策推荐等应用场景,领域知识图谱通过学习军事指挥作战条例,深度分析指挥作战制胜机理,通过研究经典案例的指挥决策机制,提供基于蓝军相似度的作战方案推荐与决策支持,从而形成基于部队作战经验及实时态势数据的辅助判断与决策推荐模型,可实现对战场情报进行多体系、多维度、多层次的分析,支撑复杂战场态势的综合研判和决策推荐,图1是知识图谱在作战指挥中的应用模型。

图1 军事领域知识图谱在作战指挥中的应用模型

3 军事领域知识图谱构建及应用技术架构

通用的知识图谱主要强调知识的广度,是运用百科数据自底向上的方法进行构建。而领域知识图谱面向不同的领域,其数据模式不同,应用需求不同,需要通过一套通用的标准和规范来指导构建,基于行业特点及专家经验定制实现。军事领域知识图谱构建及应用是一个系统工程,其从无到有的构建过程分为六个环节,本文称其为领域知识图谱的全生命周期,其设计的关键技术流程主要包含知识表示、知识存储、知识抽取、知识融合、知识计算、知识计算与演化、知识应用[13-14],如图2所示。

图2 军事领域知识图谱构建及应用技术架构图

数据层是整个领域知识图谱构建的基础,与传统互联网数据不同,军事领域数据的来源与类型不同,含军用数据库、作战文书、情报文本、图像、流媒体等多源异构的军事数据,主要来源于军用标准数据库及已有/在研型号信息系统上获取的目标情报等信息。

3.1 知识表示环节

知识表示定义了领域的基本认知框架,明确基本概念以及概念之间的语义关联,提供机器认知的基本骨架及数据结构,以达到对知识的合理组织[17]。

军事领域中,知识表示环节需要关注两个问题。一是通用知识图谱并不足以表达所有语义,比如,在军事领域中的装备维修及配置等应用场景,对于if-then规则的表示比较困难,如规则if A and B then C,知识图谱很难表达关系复杂的原子表达式。一些军事领域的应用场景增加了时空维度等表达要素,远远超出知识图谱的三元组所能表达的简单关联事实。二是细粒度知识表示是军事领域应用的强需求之一,但不代表所有应用场景都需要细粒度表示,粒度越细表达能力越强,同时获取代价越大。

3.2 知识存储环节

知识管理主要是进行知识的存储、建立索引并实现知识的高效查询。军事领域知识图谱还有多样异构知识,具有多源性、异构性、时序性、实时性、冗余性、强关联性和闭环性等特征。知识表示存在如下难点:一是传统的XML存储方式不适合非结构化、半结构化和结构化数据的分析和建模;二是领域知识图谱中的概念、实例等之间的关联关系非常复杂,传统的本体编辑工具以RDF或OWL形式存储,由于数据都在内存中存在副本,不适应大量数据的存储场合;三是通用知识图谱使用的图数据库(Neo4j)在支持军用中文知识图谱的复杂使用场景时会影响各类数据查询和修改的速度,综上,必须使用合理的存储机制,以满足高并发、高速度的查询。

3.3 知识抽取环节

知识抽取环节是对知识框架的知识实例进行填充,需要注意的是获取知识的质量和完备性问题。一是各级各类大型军事信息系统在多任务复杂的使用环境下产生了大量的军事数据,此类数据存在数据来源不同、数据格式多样性的特点,需要针对不同数据的特征设计提高知识抽取的准确率和召回率的关键手段,例如,军用数据库存在数据表示不一致,数据无法完成汇聚及智能检索的问题;作战文书具有复杂程度高,特殊数据多,数据规则性强,需要提前注入相应军事规则。二是由于军事领域的应用场景极端严肃,对知识获取的质量要求非常苛刻,知识获取方案要兼顾要求和成本,避免知识库的缺漏、错误、信息陈旧等问题[15-16]。

3.4 知识融合环节

由于数据的来源多样,抽取方式和手段不同,从知识抽取获得的实体、关系及属性结果中存在数据冗余、噪声、非完备和不确定等问题,同时,数据间的关系无层次及明确的逻辑关系,此类问题通过知识抽取的清洗环节无法解决,迫切需要构建基于一体化的实体关系表示模型。面向不同领域、数据模式、应用需求,对海量异构数据资源完成数据的语义标准和链接,以及进行实体消歧、实体对齐,实现多个领域图谱的跨域语义融合,形成全局统一的知识表示和关联[17-18]。

3.5 知识计算与演化环节

为了提高军事领域知识图谱的实际应用价值,需要对实体间存在的大量隐含关系进行挖掘。由于军事领域知识图谱的实体分布较为密集,单个实体的相关知识覆盖面广,需针对其知识表示的粒度及深度更深的特征,过增量知识和规则的快速加载,完成长距离的推理,以保障推理的延展性及正确性,挖掘语义层面的更多关联信息和知识[19]。

此外,军事知识图谱的构建是一个不断迭代更新的过程,作战方案、策略、手段是不断变化的,需要及时进行知识的置信评估及新知识的完善。

3.6 知识应用环节

知识应用需要考虑技术成熟度,同时还要避免“为了图谱而图谱”,因此,应该谨慎选择应用场景。军事知识应用需明确应用场景与知识的应用方式,即明确要解决的问题。一是什么样的应用场景下可以使用知识图谱。知识图谱作为一种面向人机协同的开放知识管理机制,有特定价值和成本,对于不同应用问题,知识图谱不总是最好的解决方案[21]。二是军事领域知识图谱的应用场景比通用知识图谱的应用场景复杂得多,当前领域知识体系在建立时大多以领域数据的基本概念、实体为中心,这在理解复杂应用场景中的用户需求时存在天然缺陷。如何才能更好地设计出复杂的作战应用场景并弥补这种语义鸿沟,是知识应用环节中需要重点关注和解决的问题。

4 军事领域知识图谱构建关键技术

根据上文提出的军事领域知识图谱构建及应用技术架构,以及在知识全生命周期各环节关注的典型问题,对部分关键技术进行设计及介绍。

4.1 面向复杂知识的知识表示技术

增强复杂知识的表示能力可以通过构建附加信息模型的方式(除了仅仅依靠知识库中的三元组构造知识图谱表示模型外),将一些模型外的附加信息进行表示提升。在军事领域知识构建过程中,通过增加实体类型来更清晰地表示实体之间的关系。在军事知识库中,给每个实体设定相应的类别,例如,歼-20具有战斗机的属性。在军事领域知识图谱构建过程中设立类似IsA这样的可以表示实体属性的复杂关系,例如,(歼-20,IsA,战斗机)的三元组。当进行知识图谱表示的时候,利用具有实体属性的三元组将属性信息考虑到向量表示中,增加复杂知识的表示能力。

此外,针对一些跨多媒体数据表示的实体,如包含了声音、图片、视频等军事实体,通过对实体增加语义文本描述信息以提高知识表示质量。为表示向量化军事实体之间的关系,采用RESCAL语义匹配模型,用h代表头实体,r代表关系,t代表尾实体,在实体和关系向量化过程中,将三元组向量化为(h,r,t)。为了表示向量化后的实体之间的关系,构造如下函数

其中,Mr表示关系的权重向量,模型将知识图谱形式化为三维张量,该张量包括一个因子矩阵和一个核心张量,因子矩阵中每一行代表一个实体,核心张量中每个二维矩阵切片代表一种关系,由因子矩阵和核心张量还原的结果被看成对应三元组成立的概率,若三元组正确,则实体之间满足关系h+r≈t。

4.2 基于混合存储的军事知识存储技术

军事领域知识图谱的内容形式及格式丰富,在存储结构的设计上,需兼顾各类数据内容的查询与修改操作的速度,采用多类存储媒介以实现军事知识的混合存储,包含关系数据库、图数据库、内存数据库、文件索引系统等,将非结构化、半结构化数据在知识图谱中以HDF格式和RDF格式分布式图存储并进行标注,通过内存数据库及关系数据库对多源异构数据进行有效融合,实现多源异构知识的统一存储管理,对视频、图片、声音等文件利用文件存储系统进行存储。该框架包括源数据存储管理器、数据处理器、数据提取引擎、消息队列、存储和索引接口及订阅服务6个部分。

4.3 基于本体映射及机器学习的军事知识抽取技术

针对军事领域知识图谱对知识质量要求严苛,本文提出在保证质量的前提下尽量降低成本的原则:首先,明确数据来源,按照避难就简的原则,尽量选择质量较好、结构化程度较高的数据源,之后,通过非结构化数据逐步扩大规则集,并进行知识的跨域迁移,复用相近领域知识。

1)结构化数据是军用数据建设过程中产生的规则性较强、业务性强的基础数据,对其提出一种基于网络本体语言的关系数据本体抽取方法,构建从军事领域关系数据库到本体的映射,通过元数据库或军用关系数据库中的元数据抽取关系数据的模式,将关系数据库中存在的表转换为网络本体语言模式中的同名类,表中字段转换为对应属性,表中数据记录转换为类的实体对象,并参照表间的相应关系设定类间、属性间的关系以及属性的对应约束条件。利用数据库表中的数据为本体的实例进行赋值,将数据库表中的元组映射到本体实例,实现军用结构化数据的本体抽取,获取可用的知识单元,生成语义的初始参考集[22],如图3所示。

图3 军事领域结构化数据抽取流程图

2)在对作战基础数据和业务数据抽取的基础上,对非结构化的军事数据进行知识抽取,通过增量迭代的方式逐步扩大知识规则。军用领域的非结构化数据或者半结构数据主要包含作战文书、情报文本以及战场的图像及视频数据,且业务特征较明显,适合采用机器学习的采样方法。军事领域知识图谱与通用知识图谱不同,它在构建过程中需要根据军事应用的需求定义明确的命名实体以及实体关系。因此,对于军事领域中的知识抽取任务均是有监督学习任务。在对作战文书和情报文本等文本数据进行知识抽取时,选择采用基于深度学习的有监督方法。例如,在作战文书的抽取上,采用一种基于序列模型并结合位置注意力机制的实体和关系联合抽取模型,实现了对重叠实体关系的抽取,提高识别重叠实体的准确率。此外,对于图像、视频及语音等数据,首先使用深度学习算法进行模型转换,将其描述为文本,并以此与现有知识进行规则匹配。

4.4 基于多特征的跨域知识融合技术

知识融合的过程中,主要涉及实体消歧、实体对齐、属性融合和值规范化等技术。其中,实体消歧和实体对齐在知识融合中发挥了重要作用。基于多特征的知识融合如图4所示。

图4 军事领域知识融合主要技术

共指消解通过实体对齐方式,将多个图谱中多特征数据表示为同一实体进行对齐,消除歧义。对多特征的数据完成不同来源、不同形态的知识融合,以完成不同军兵种及不同武器装备平台的知识融合[23]。

1)实体消歧

实体关系消歧的本质是衡量候选实体与上下文的兼容性,考虑军事领域实体关系的特殊性,需要保留实体关系的相关信息,并根据上下文信息推测当前词汇指向的具体实体。

2)实体对齐

针对现有单一特征实体对齐方法有歧义、效率低的问题。融合多种特征的实体对齐算法是较有效的方法。融合实体名称、实体类别、关键词集、实体属性等多种特征计算相似度,最后,得到实体对齐结果。实践证明,其效果要好于基于实体属性和上下文对齐及人工标注对齐结果。

4.5 军事领域知识图谱推理及演化技术

知识推理利用已有种子集中的本体关系,完成实体之间关系的推理,产生实体间新的关联关系,实现知识图谱的补全。军事领域知识图谱还存在小样本问题,需解决具有数据稀疏特性的知识图谱的推理问题,因此,提出一种协同过滤机制下的混合远程监督和深度学习的知识推理方法。一是知识推理过程中加入协同过滤机制后,在保证推理结果可靠性的同时,有效改善了深度学习推理结果的可解释性,实现优势互补, 提升推理性能;二是通过远程监督在知识推理中加入外部知识来构建数据集,提供附加学习样本,有效解决军事领域的小样本问题;三是通过深度学习方法利用已知三元组,构建并训练双向循环神经网络(BiLSTM)深度抽取器,从更多的实体相关文本中抽取新的三元组,提高了知识图谱补全的效果。

此外,在知识推理的基础上,设计一种基于反馈调节机制的维护流程,采用知识网络知识可信度测度技术进行军事知识的评估验证,完成知识的推理和补全,形成迭代循环。

4.6 面向平时/战时应用场景的知识应用

知识图谱在具有以下特点的应用场景中更容易成功:领域知识相对封闭,较少涉及常识,涉及知识简单。应用场景涉及知识的简单程度如何,具体可以通过设置三类问题来进行判断。第一类问题:是否用到元知识,是否单一模型,是否长程推理,是否涉及多样知识类型;第二类问题:知识是否容易发生变化,是否涉及复杂过程描述,是否涉及分支繁复的推理;第三类问题:是否有知识资源积累,如领域本体、叙词表、领域词典等[24]。

军事领域知识图谱在应用上应重视“三性”:专业性、高效性和独立性。专业性表明在相对封闭且涉及军事背景较深的图谱构建需要军事专家经验的渗入,高效性意味着图谱的构建的确提升了作战指挥、情报保障等方面的效能,而独立性则体现出图谱的应用应尽可能减少对其他电子信息系统的影响。

5 结束语

随着军队信息化建设的深入开展,新型指挥信息系统已经成为作战指挥的基础平台。但是,通过信息系统体验使用、部队建设培训等活动与部队指挥员研讨交流,指挥信息系统基本上还停留在辅助“劳力”而非辅助“智能”阶段,对于指挥员亟需的态势理解、决策辅助或对抗推演等智能化程度要求较高的问题都无法给出好的解决方法。构建军事领域知识图谱是军队作战指挥智能化发展的基础,是提高作战数据的辅助决策水平重要技术之一。本文提出了军事领域知识图谱构建及应用技术架构,描述了军事领域知识图谱的知识全生命周期各个环节的难点及相应的关键技术,希望能够为军事领域知识图谱的设计与构建提供理论和方法支撑。

猜你喜欢

图谱实体军事
基于图对比注意力网络的知识图谱补全
实体书店步入复兴期?
图表
2017实体经济领军者
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱
军事幽默:局
军事
军事幽默