军事知识图谱构建技术

2016-10-31葛斌谭真张翀肖卫东

指挥与控制学报 2016年4期

葛斌谭真张翀肖卫东

随着战场信息的爆炸式增长,传统的搜索引擎和查询方式已经无法满足战场信息以及大量军事知识的捕获和理解,而知识图谱技术在解决知识查询的精度以及可扩展性方面展现出了巨大的优势,成为人们研究的热点问题.但是现有的知识图谱多为通用的知识图谱,针对性较强的领域知识尤其是军事领域的知识图谱并没有较好的构建以及表示方法,因此,建立军事知识图谱意义重大.军事知识涵盖范围广泛,本文定义的军事知识图谱主要面向军事情报分析领域.

军事情报分析在作战指挥、情报研判、目标分析等专门业务工作中起到重要作用,情报之间的关联是各类情报间进行综合分析的桥梁和手段,军事知识图谱是解决情报关联分析的有效工具和手段.

1 构建军事知识图谱的必要性

传统的数据库和网页检索手段在面对用户精确化的查询时存在诸多的不足,现阶段以Knowledge Graph[1]为主的一系列知识图谱为精细化的查询奠定了基础,而军事领域作为科技领域的最前沿,构建起专有的知识图谱能够很大程度上提高作战的效率,为作战指挥人员提供更为夯实的情报.下面从不同角度来阐述构建军事知识图谱的必要性:

1.1 知识图谱能够整合大量分散孤立的情报

随着计算机技术以及计算机网络技术的不断推广使用,情报部门搜集到的越来越多的信息以文本信息的形式被保存下来.知识图谱的出现使得信息可以在语义层面上进行整合,这种语义层次的关联技术能够为情报的综合分析研判提供强有力支撑.

1.2 知识图谱能够让计算机理解情报语义

理解情报语义的基本任务是要知道情报的主题和涵义,并能够抽取情报的自然属性和社会属性,其本质是对情报数据的主体、场景、行为、情感等要素进行建模.基于语义对中文文本进行智能处理需要情报领域知识的支持,情报领域知识描述情报业务范畴内的各种概念以及概念之间的关系,是对情报进行智能处理的基础.而知识图谱利用三元组的形式使不同实体之间的语义关系一目了然,在一定程度上摆脱了传统的语义分析方法,提高了语义查询效率,使大规模的语义级查询成为可能.

1.3 知识图谱能够在语义层面将大量情报关联起来

情报关联的基本任务是根据主题、形式、自然属性、社会属性等,链接相关情报,其本质是对各种情报数据的自然属性和社会属性之间的复杂关系进行建模.在各种情报关联类型中最关键的是关联数据模型.传统的情报数据模型着重解决的是情报数据个体的存储组织与管理问题,而关联数据模型不仅要能够存储组织和管理PB级的非结构化实时情报数据,还要能够存储组织和管理情报之间的逻辑关联,能够存储组织和管理每个情报数据的多维属性以及每个关联的多维属性,能够反映情报数据及其关联的时空属性、语义涵义、权重、概率等特性.以知识图谱为基础构建数据模型,在此基础上,才能够更好地实现传统数据模型所不能支持的多种智能分析,如时空关联分析、逻辑关联分析、语义相似性搜索、数据世系管理与分析、数据溯源与核查等,提升我军情报综合系统的能力水平.

1.4 知识图谱能挖掘关联情报中的新知识

挖掘知识的基本任务是洞察真相、因果推理和规律探寻,其本质是对目标或事件的来龙去脉、前因后果、特点规律进行建模和表现.比如:目标画像,即对目标人物和组织的真实情况、行为模式、社会关系等进行“全景成像”;事件拼图,即通过证据链拟合,按时间轴将事件发生、发展与演变的真实过程进行反演;因果推理,即揭示事件间的因果关系,包括概率因果推理、基于统计相关的预测型因果推理、从海量文本中自动获取因果规则进行因果推理、事件之间发展脉络因果链生成等;规律探寻,即通过模式识别、可视化分析等揭示潜在规律或行为模式.以知识图谱为基础可以更好地在语义层面跟踪探测不同时间的起因、发展以及关键节点,挖掘语义层面的关联信息和知识,提高军事知识图谱的实际应用价值.

2 典型的知识图谱

知识图谱的研究正处于起步阶段,成熟的知识图谱屈指可数,以谷歌为首的互联网公司构建了一系列面向应用的知识图谱,知识图谱以三元组为基础,将各个领域的知识以结构化的方式存储在知识库中.当前典型的知识图谱有以下几个:

2.1 Knowledge Graph

Knowledge Graph[1]在2012年5月16日正式发布,为用户提供除了网页列表以外的其他信息,在最大程度上将用户的查询内容以结构化列表或者知识卡片的方式返回.Knowledge Graph中的知识来自与多种数据源,主要由Freebase、维基百科以及CIA的世界概况等构成.在其发布时,就已经包含超过570亿个对象、18亿个三元组以及不同对象之间的各种链接关系.

2.2 WordNet

WordNet[2]是一个人工构建的表达英语词汇之间的语义网络,可以认为是一个专业领域的知识图谱.对于其中的任意名词、动词、形容词或者副词之间具有相似语义关系的词语组织各自的同义词集合,并对每一个集合设定各自的语义概念.到目前为止,WordNet共有超过15万词汇、11万个同义词集合以及20.6万个词汇语义对.WordNet目前已成为自然语言处理中不和或缺的重要资源.为了使资源得到广泛的应用,Global WordNet Association创建了一个讨论、分享不同语言WordNet的平台[3].其中就包含由台湾中央研究院构建的中文Wordnet[4].

2.3 DBpedia

DBpedia[5−8]是为LOD项目开发的跨语言的综合性数据库.其基本思路是从维基百科中抽取现有的结构化知识,并用RDF格式对其进行存储,在此基础上利用SPARQL对存储的知识进行查询.到目前为止,DBpedia包含超过30亿条的RDF元组.该项目存在的主要问题是无法抽取页面中非结构化知识.除了DBpedia以外,YAGO[9−11]也从维基百科中抽取知识,除此之外YAGO还将WordNet的语义信息也考虑在内,以此构建更丰富的实体关系,该知识图谱包含超过1000万个实体及1.2亿条知识,并对这些实体和关系进行了详细的分类.

2.4 搜狗“知立方”

在国内搜狗知立方[12]是第1个将知识图谱引入搜索引擎的互联网企业.在具体的构建过程中“知立方”划分为5个步骤,分别是:本体构建、实例构建、异构数据整合、实体重要度计算和推理数据完善.在具体的操作过程中通过对异构数据源的整合合并,得到了一个较为完善的知识图谱.

2.5 百度“知心”

2013年2月,百度基于知识图谱,正式推出了新一代搜索引擎技术,即百度“知心”[13].该搜索引擎技术采用的知识图谱在构建的过程中包含4个部分:命名实体挖掘、属性值对挖掘、上下位关系挖掘和相关实体挖掘.其中实体挖掘分为传统命名实体挖掘和互联网新型命名实体挖掘两类,挖掘过程主要采用的数据源包括搜索纯文本、日志和网页等.

2.6 复旦大学GDM实验室的知识图谱

复旦大学的知识图谱[14]主要对问答系统和中文分词等领域提供支持.构建过程主要由实体和概念抽取、实体评估、实体消解和关系抽取4个部分.在实体概念抽取的过程中利用人工标注以及现有的知识作为生成种子知识,也就是所谓的核心实体集,利用迭代式的方法对知识图谱进行丰富;实体评估对一个实体的可靠程度进行衡量;实体消解分为跨数据源实体消解和跨语言实体消解,其本质是在一个异构多元信息网络中抽取特征并合并到一个因子图模型中.

由上述的知识图谱可以看出,现有知识图谱构建主要是利用已有的结构化知识,对半结构化和非结构化的知识并没有较好的处理办法.如何自动化或者半自动化地对非结构化的数据进行处理,在此基础上进行知识图谱的构建是现阶段的研究重点.而对军事知识图谱而言,结构化知识比较稀缺,开放的数据源也很难获取,半结构化和非结构化的数据处理也需要极强的专业知识和技巧,一系列的问题对军事知识图谱的构建提出了严重的挑战.

3 军事知识图谱的基本架构

本节描述了面向情报分析的军事知识图谱构建技术的基本架构,如图1所示.

图1 军事知识图谱的基本架构

基本架构总共分为4个部分,知识存储与表示、智能推理与检索、数据映射以及知识图谱管理.其中,知识存储与表示为系统提供可靠的分布式存储环境以及可推演的知识图谱模型;智能推理与检索为系统提供一个检索和推理的引擎,为查询和推理的服务提供可靠的接口,并利用深度学习和正向推理技术为知识体系提供多种演化途径,为知识图谱自动构建技术提供可靠的接口;数据映射模块为系统提供多种数据解析方式,将结构化、半结构化、以及非结构化的数据映射成为知识图谱可以理解的数据类型;知识图谱管理负责对知识图谱进行维护,例如维护系统日志和用户管理权限等.

1)知识存储与表示.主要分为军事知识本体建模与大规模知识图谱分布式存储.军事知识本体建模主要考虑各个实体和关系之间的逻辑关系、实体之间的隶属关系以及实体关系的定义域和值域;在大规模知识图谱的分布式存储过程中,主要研究知识图谱的分块管理技术使得知识图谱在各个机器上的查询访问达到负载均衡.

2)智能推理与检索.主要为外界和知识图谱之间的交互提供多元化的接口.其中图检索主要负责对上层提出的各种查询需求进行分析,并对其中的难点问题进行研究,如大规模知识图谱可达性查询、子图结构查询、频繁模式挖掘等关键技术.在图检索的基础上对查询分析后的逻辑关系进行反向推理,以便于得到更为精确的查询结果.正向推理主要利用现有的推理技术对结构化和半结构化的数据进行推理和分析,得到知识图谱可以存储和理解的数据格式.而深度学习主要负责对非结构化的数据进行抽取,以得到知识图谱可以理解的数据类型,深度学习还可以从现有的知识图谱中提取潜在特征,加强知识图谱的表示和演化能力.

3)数据映射.主要包括QA映射、关系型数据映射以及文本知识挖掘.其中QA映射主要研究如何将自然语言处理成知识图谱可以理解的语言,也就是所谓的查询理解;关系型数据映射主要利用现有技术将现有的结构化数据以及半结构化数据转换成知识图谱所能理解的语言;文本知识挖掘则主要处理互联网或者内网上的情报,并抽取出其中的知识,也就是知识图谱自动构建.

4)知识图谱管理.对知识图谱进行维护,例如维护日志,对用户进行管理,对知识图谱的实体或者关系进行增删改操作等.

4 军事知识图谱构建中的关键技术

在军事知识图谱构建过程中需要涉及数据采集、知识抽取、知识消歧、知识推理等技术,总体流程如图2所示.下面就其中的关键技术进行简要介绍.

图2 军事知识图谱构建总体流程图

图3 知识存储流程图

4.1 知识存储框架

在进行知识图谱构建之前,必须构建一个存储知识图谱的框架,在一个完善的知识图谱存储框架上进行知识图谱的构建、表示以及应用将会大大提高知识图谱的使用效率.

随着知识图谱中包含的实体和关系个数的急剧增加,单一的机器已经无法满足知识图谱存储的需要,因此,分布式存储就成为人们关注的重点.在分布式存储技术中,分块管理技术就是保证知识图谱高效运行的保证.所谓分块管理是指将大规模的知识图谱如何进行有效的分割,以便于达到系统的负载均衡,也为后续的多模式查询提供高效的存储基础.针对分块管理的问题,本文提出一种基于多约束条件的分块管理框架,优化影响查询效率的多种因素.首先需要优化最小割边数,最小割边越小分块之间查询的通信开销越小,查询效率会越高;其次优化总的通信量,分块间的通信量越大,查询效率越低,最后优化分块内节点数,每个分块的节点数要保持大致均衡,达到各个分块在查询过程中负载均衡的目的.由于篇幅的关系具体的分块细节就不在此展开叙述.

传统的知识库只简单地存储实体和关系,并没有存储实体和关系的语义信息,也无法描述不同实体关系之间的相关性.针对这一问题,将传统的知识表示框架与基于潜在特征的知识存储框架相结合,提出一种全新的知识存储方式,对每一个实体或者关系添加其特有的潜在特征,提高每一个实体和关系的语义信息,也为上层的多模式查询奠定了基础.具体的知识存储框架及存储流程如图3所示.

在具体的操作过程中对采集到的数据进行两种处理方式,一种利用现有的数据分析工具将数据表示成知识图谱可以直接存储的三元组,另一种是利用深度学习对采集到的数据进行训练,得到对应实体和关系的潜在特征并存储在潜在特征库中.

4.2 知识抽取模型

在完成存储框架构建之后,需要对已有的数据进行处理,抽取数据中包含的知识,知识抽取一般分为实体抽取和关系抽取.现阶段,实体抽取的准确率较高,已经可以在实际的工程中应用;关系抽取是得到知识单元的过程,是构建知识库的基础,目前主要从非结构化的文本中抽取关系,而对于大部分关系其实体之间特征不明显,因而相对于结构化数据和半结构化数据处理准确率较低,无法满足实际应用需求.针对此技术难点,提出一种面向非结构数据的弱监督关系抽取技术.

弱监督关系抽取技术,是指通过给定少量已有的关系实例,通过语法分析获取实体词汇的各类标签以及语法分析结果,并从现有知识库中匹配得到实体特征标签,从而利用少量实例完成对语料的标注和关系的抽取.利用弱监督进行关系抽取,在军事知识图谱构建中极具优势.首先,不需要大量人工标注,可避免大量非军事人员涉及军事知识图谱构建;其次不需要外部互联网知识库支持,适用于大量涉密军事实体.

4.3 知识表示模型

知识表示模型是军事知识图谱的重要基础,也是知识图谱应用的必要条件.知识表示是指把知识客体中的知识因子与知识关联起来,便于人们识别和理解知识.由于知识图谱本身是一个维数巨大的稀疏矩阵,用传统的矩阵存储方式来表示知识图谱是不可行的,针对这一问题,提出一种基于深度学习的知识表示方法,将高维矩阵通过深度学习的方式进行维度压缩,用一个低维度的向量或矩阵来表示实体和关系的语义,根据深度学习的模型不同,每个向量或矩阵所包含的语义信息有所不同.

知识表示模型以TransE[15]为训练框架,用h表示头实体,r表示关系,t表示尾实体,对指数图谱中的每一个实体和关系都有其对应的特征向量.假设对于任意三元组(h,r,t),其对应的特征向量(h,r,t))之间存在h+ r≈t的关系.为了更加合理地描述实体之间的关系,对每一个关系添加一个权重向量Wr,以此增加不同关系之间的区分度,使得训练结果能够更加准确地描述实体和关系包含的语义信息.优化函数如下所示:

在训练的过程中,采用基于差距的排序损失(Margin-based Ranking Error)函数,并利用随机梯度下降对优化目标进行训练.

其中,[.]+=max(0,.),∆是黄金三元组集合,∆0是区分不正确三元组的集合,γ是区分正负三元组的差距.最终对于每一个实体和关系都有其对应的特征向量并且任意三元组之间近似满足h+r≈t.

4.4 知识图谱的智能推理与检索

在完成军事知识图谱构建之后,需要利用图数据检索技术来提高知识图谱的查询效率,为大规模实时动态查询和推理奠定基础.

1)精确查询

在大规模知识图谱的多模式查询中,除了传统的图数据查询模式以外,可达性查询是最基础也是最重要的一环,和传统的图数据可达性查询技术相比,大规模知识图谱可达性查询需要解决分布式查询以及分布式可达性索引构建技术.在可达性查询的过程中,需要将问题分为两个部分,分块内部查询以及分块间查询.为了不影响查询效率,可达性查询需要尽量减小分块间通信开销与访问次数,这是所要解决的技术难点.因此,如何构建一个高效的分布式大规模知识图谱可达性索引是构建军事知识图谱中亟待解决的问题.在具体的实现过程中,利用一种基于坐标的距离计算框架,其基本流程如图4所示.

通过最短路径索引可以快速获取不同实体之间的相关程度和可达路径,提高查询效率.由于篇幅关系,不再描述其他精确查询策略.但是不管是何种精确查询策略都存在一个很明显的缺陷,就是无法返回知识图谱中不存在的三元组,也无法返回相似的查询结果,针对这一问题在具体的查询过程中,需要添加一种模糊查询方式作为补充.

2)模糊查询

根据4.3节的知识表示模型,提出一种基于相似度的模糊查询方式来补充精确查询所存在的不足,在具体的操作过程中,利用已有的实体向量加上关系向量得到目标实体可信度最高的向量,以此向量为圆心获取与其最相似的向量,取相似度高的实体作为有效结果返回.这种查询方式突破了传统的精确查询方式,为战场情报查询提供了更为丰富全面的语义信息.

4.5 知识图谱更新与维护

知识图谱的更新与维护是知识图谱鲁棒性的重要保证,但是在大数据背景下传统的人工维护方式远远无法满足系统的需求,针对这一问题,本文设计了一种半自动化的维护流程,具体过程如图5所示.

在知识图谱的自动更新与维护的过程中,首先利用分布式爬虫采集置信度较高的数据源,例如新添加到数据库中的结构化知识、总结报告等,在此基础上对实体进行抽取,而由于军事情报领域所涉及的关系相对固定明确,可人工进行关系的操作.对新产生的三元组,通过多个数据源进行验证,最终实现对军事知识图谱内的现有三元组进行更新和维护.