基于知识图谱的军事知识演化技术研究*
2019-07-08
(海军驻大连地区第一军事代表室 大连 116000)
1 引言
2012年,谷歌官方博客发布了谷歌知识图谱(Google knowledge graph)智能化搜索功能。知识图谱旨在描述真实世界中存在的各种实体或者概念,每个实体或者概念可以用一个全局唯一确定的标识符来标识;每个属性-值对用来刻画实体的内在特征;关系则用来连接两个实体,刻画它们之间的关联。知识图谱则可被看做是一张巨大的图,图中的节点表示实体或概念,图中的边由属性或关系构成[1]。与谷歌知识图谱搜索类似,微软在必应(Bing)的基础上提供了Satori,社交网络Facebook也推出了类似的基于知识图谱的搜索功能。与此同时,国内著名的搜索引擎也相继推出了类似的产品,例如百度的实体搜索通过查询词直接触发得出相关的实体推荐,搜狗的知立方则侧重于基于图搜索知识索引的逻辑推理计算[2]。
目前知识图谱的成熟系统多来自于民用领域,主要来自于搜索引擎公司或者大型互联网平台企业,然而对于军事指挥,军事情报分析等特殊领域,军用知识图谱的构建工作则发展相对缓慢,一方面受限于军事百科知识库资源以及专业军事领域的海量用户检索日志等信息资源的相对匮乏,导致知识学习过程中的样本资源不足,另一方面也源于在面向特殊领域知识图谱演化技术有待突破。
军事大数据环境下不仅数据的规模大,而且数据更新频繁,传统基于线下处理的方式很难获得时效性的数据,难以满足面向作战的军事知识图谱的时效性信息需求。另一方面,互联网上的数据常常以不同的模态存储于不同的站点,比如事件相关的百科信息和视频信息通常来源于不同的垂直站点。为了获取及时更新的大规模数据资源,不仅需要挖掘多源、动态、异质、碎片化知识,更需要以一种在线学习的方式动态地融合不同来源、不同模态和不同结构的知识,因此,本文对基于知识图谱的军事知识演化技术进行研究,以支持用户即时的精准化信息需求。
2 知识演化技术
2.1 信息抽取技术
战场军事信息呈指数级地增长,如何对这些多源异构的数据进行有效地组织管理及利用成为一个亟需解决的问题。自动数据分类技术就是一个解决该问题的有效技术手段。面对军事知识图谱不断增加的新数据,传统的对全部数据进行学习的方法将会耗费大量的时空资源。在线学习作为一种增量的机器学习技术,在对数据的更新上比传统方法更加灵活、轻量和高效[3]。本文采用在线学习技术对动态化的军事知识抽取结果进行分类。面对军事大数据知识处理需求,知识分类模型需要解决以下优化问题:1)目前对样本权值计算方法都是在基于确定样本批量学习模式下设计的。将这些方案直接推广到在线学习无疑会产生许多问题,如何设计鲁棒而高效的在线加权方法[4];2)网络更新速度快,就要求在线学习算法拥有低时间复杂度和快速的收敛率[5]。此外在线学习和传统的数据分类方法要求训练数据与测试数据的同分布,这就使得仅通过在线学习分类的应用受到限制[6~7]。迁移学习作为一种新的学习机制,放松了数据分布相同的要求,能够从相关领域发掘对目标领域有用的知识,进而帮助完成目标任务[8~12]。
2.2 语义特征关联方法
获取军事知识图谱知识单元的复杂关联语义链网络的主要目的之一,就是希望以此为“情景”载体,对军事知识图谱知识单元演化机理进行研究。对复杂关联语义链网络统计与语义特征的研究,是全面了解与深入分析军事大数据知识体系演化过程的切入点;其可为军事知识体系演化机理的定量分析提供最原始的变量。进而,还要对复杂关联语义链网络所呈现出的统计与语义特征的关联机制进行分析;以期能发现复杂关联语义链网络的统计特征及其与语义特征的关联函数,为面向作战的军事大数据知识体系演化技术提供理论支撑。
3 军事知识图谱演化技术研究方案
军事知识图谱演化技术采用关联语义链网络,通过语义互联将松散的不断更新的军事知识有机融合的军事知识图谱中区,并且给予关联语义进行语义链的构造。作为一个数据的组织模型,军事知识图谱演化技术框架如图1所示。
图1 军事知识图谱演化技术框架
军事知识图谱演化技术框架主要包含以下几个部分:
1)军事知识语义抽取模块。该模块主要负责抽取军事信息网络中不断新增的多源异构军事信息。和网络爬虫相类似,该模块通过在线学习和迁移学习融合的信息抽取技术,收集关联语义链网络的相关知识信息,详见4.1节。
2)语义表示模块。该模块主要负责将抽取到的军事知识进行基于语义的表达,以使军事知识富含语义,并且符合人类的认知表达方式。本文采用模糊认知图(Fussy Cognitive Map,FCM)来对军事知识进行语义表示。
3)规则挖掘模块。该模块主要用来挖掘关键词之间的关联关系,以挖掘出的关联关系为基础,来构建不同层面的关联语义链网络。
4)关联语义链网络生成模块。该模块是关联语义链网络的核心模块,用来对抽取的军事知识进行关联语义链的构造。同时利用一些构造范式对原始关联语义链网络进行简化等操作。使得关联语义链网络能够更好地将新增的军事知识融入军事图谱中现有的知识结构。
5)关联语义链应用模块。该模块主要将构造好的关联语义链网络应用到实际的知识服务任务当中。并且按照用户的认知机理与其进行交互。可以看做是关联语义链网络与军事战场环境的一个中间件模块。
6)物理空间存储模块。该模块主要起到数据存储的作用。将抽取的军事知识进行相应数据库存储,包括索引建立等。
3.1 军事语义信息抽取方法
不断更新的军事知识经过基于主题模型的信息抽取和知识表示学习,从原先规模庞大的原始数据,已经转化为稠密低维实值向量,但是不同来源的数据质量仍然参差不齐,需要清理低质、高噪声数据,并且需要对抽取的碎片化数据进行结果判定,使复杂数据中的隐含规律更加突显,找到真正有用的知识。传统的人工知识构建方式和静态知识获取方法已经不能满足需求,基于在线学习的知识抽取方法应运而生。在线学习方法的核心是利用新的带标注训练数据不断更新现有分类器。由于在训练过程中只需要访问新的数据,使得在线学习的方法既能适用于不断更新的数据又能保证学习效率。本文在融合基于主题模型的信息抽取和知识表示学习基础上,围绕如何在已有知识框架的引导下,结合表示学习向量化结果,从多源、动态、异构、高噪声的大数据环境中,采用在线学习获取碎片化知识并对动态化知识进行抽取结果分类。
但是,在线学习过程要求测试数据和用于训练模型的样本数据独立同分布,这一定程度上限制了在线学习对不断更新的数据的学习效率。通过将迁移学习对数据分布的宽松性引入到在线学习中,有效地提升了军事知识图谱对新增的军事信息的抽取效率。
3.1.1 在线学习机制
图2 信息抽取在线学习框架
在线学习的应用场景为样本序列学习。数据基础是逐渐产生的新的训练数据和之前训练数据所学到的最优解(决策模型)。最终结果是随着对数据的不断访问而逐步逼近的某个最优解(决策模型)。其基本框架可以描述为:每轮中,在线学习机都被询问一个问题并要予以作答,例如学习机接收到一个向量表示的实体或者三元组信息,问题是实体或者三元组是否为知识?为此,学习机需要应用预测模型将问题集映射为答案集。例如,我们可以将其映射为输入x(实体或者三元组的向量表示),输出y(是否为知识)的形式。在给出预测答案后,学习机将得到问题的正确答案。这时学习机回答的精确性则由衡量预测答案与真实值间差异的损失函数评估。学习机的最终目标是最小化每轮中累积的损失函数值。因此,每轮中学习机选择更新预测机制以求在之后的过程中做出更精确的预测。本文对军事知识信息抽取所采用的在线学习框架如图2表示。
在线学习框架主要分为三个模块:
1)预测模块
预测机制的输入为样本数据序列X,输出为预测结果Y。预测机制的主要功能是根据输入样本x,产生对应的预测值y(x)。
2)评估模块
评估模块的输入为预测模块的预测结果Y和真实结果Y^,输出为损失函数评估值。损失函数的主要功能是衡量预测模块做出不正确判断时,所遭受的损失。y(x)与y^(x)的差距越大,损失越大。
3)更新模块
更新模块的输入为损失函数的评估值,输出为更新策略或数据请求信号。更新模块首先通过触发更新条件判断是否要对预测机制进行更新,若需要,则通过更新预测机制产生合适的更新策略对预测机制进行更新,之后请求下一样本数据。否则,直接请求下一样本数据。依次循环,直到找到最优的预测机制。
3.1.2 迁移学习机制
正如前文所述的,将迁移学习融入到在线学习信息抽取的目的是,利用辅助训练数据去帮助源训练数据来构建一个更可靠的分类模型,使得这个模型在测试数据上的分类准确度尽可能地高。本文是从辅助训练数据中找出那些适合测试数据的实例,并将这些实例迁移到源训练数据的学习中去。采用AdaBoost的改进算法,Transfer AdaBoost算法(简称TrAdaBoost算法)解决该问题[4]。
TrAdaBoost算法的关键思想是利用Boosting的技术过滤掉源领域数据中那些与目标领域中少量有标签样本最不像的样本数据。传统的AdaBoost的基本思想是,当一个训练样本被误分类后,它认为这是一个比较难的训练样本。于是,AdaBoost增加这个训练样本的权重,用来强调这个样本。下一次分类训练的时候,这个样本被分错的概率就会减小。在AdaBoost推广版本TrAdaBoost中,AdaBoost仍然被应用在源训练数据集上。但是,对于辅助训练数据,当它们被误分类后,我们认为这些数据是和目标数据很不同的,因此,我们减小这些数据的权重以降低它们在分类训练中的影响。这就相当于建立了一种自动调整权重机制,于是重要的源领域样本数据权重增加,误分类的辅助训练数据权重减小。这一降低权重的操作是根据Hedge(β)来设计的。基本思想和算法机制分别如图3、4所示。
图3 TrAdaBoost基本思想
图4 TrAdaBoost算法机制
从上述分析中不难看出,AdaBoost和TrAda-Boost的区别在于对辅助训练数据的权重调整策略。一个严格的TrAdaBoost算法描述在算法1中给出。从中,我们可以看出,在每一轮迭代中,如果一个辅助训练数据被误分类,那么这个数据可能和源训练数据是矛盾的。那么我们降低这个数据的权重,因此,在下一轮迭代中,被误分类的训练数据就会比上一轮少影响分类模型一些。于是,在若干轮迭代后,辅助训练数据中符合源训练数据的那些数据就会拥有更高的权重,而那些不符合源训练数据的权重会降低。那些拥有更高权重的数据将会帮助源训练数据训练一个更好的分类模型。
算法1:TrAdaBoost算法
输入:源领域样本集:Da={(xa,ya)},目标领域样本集Db={(xb,yb)},
合并的训练样本集D=Da∪Db,基本分类算法fb,最大迭代次数M
输出:各个测试数据的分类结果和置信度
1:初始化权矢量 (ωa,ωb)
3:for t=1 to M do
4:调用fb,寻找最终分类器,使得合并训练集D的误差最小
5:利用Hedge(β)更新源矢量以减少错误分类样本的权重
7:将合并训练集D的权重归一化
8:end for
3.2 军事知识的语义特征关联函数研究
语义特征函数可以通过关联语义链网络模型来表示。关联语义链网络是一个多层次的语义模型。多层次语义模型最底层为语义元素层。由于关联语义链网络模型的主要应用环境为大数据环境,因此首先我们介绍如何挖掘这些大数据的语义元素。
语义区分能力可以帮助我们挖掘出一个给定文本集合的关键词,并且可以将这些关键词集合进行相应的语义区分能力排序。我们可以认为那些具有较高语义区分能力的关键词应当可以作为关联语义链网络模型中的语义元素。语义元素的挖掘流程如图5所示。
图5 关联语义链网络语义元素挖掘流程图
从图5我们可以看出,关联语义链网络语义元素的挖掘流程大致为
1)词性标注。采用词性标注的原因是去除那些不必要的废词,介词等没有实际意义的词汇。词性标注的目的是将文本集合中的名词都保留下来,以此来作为文本集合的语义元素集合。
2)语义区分能力计算。将词性标注节点保留的名词,计算其语义区分能力,并按照语义区分能力进行排序。语义区分能力高的关键词可以用来较好的描述文本集合。通过语义元素的挖掘,我们可以构造出文本空间中的关键词集合,并按照这些关键词的语义区分能力对其进行排序。
在提取了文本集合的语义元素之后,我们对语义节点进行相应的语义表示。由于关联语义链网络是基于关联语义的模型,因此如何对语义节点进行富含语义的表示,并且有利于节点之间关联语义链的构造,便是关键问题。原子模糊认知图(Element Fuzzy Cognitive Map,E-FCM)是一个模糊认知图(FCM),它的基本概念由关键词(Keywords)来表示。
相较于语义元素的挖掘与语义节点的表示,语义规则的挖掘同样重要。因为有了关键词层次的语义规则,我们才能构造知识层次的关联语义链网络。同时,如何使语义规则具有关联语义,符合人类的认知特点也是另外一个需要考虑的问题。我们利用关联规则挖掘算法来挖掘语义元素之间的关联语义规则。具体算法流程如图6所示。
图6 关联语义规则挖掘流程图
关联语义链网络模型的核心问题是如何构建知识之间的关联关系,换句话说,就是如何建立语义节点之间的关联语义链接。前面我们分别提取了语义元素,对语义节点进行了表示,并且挖掘出了语义元素之间的关联语义关系。如何将关键词之间的关联语义关系扩展到语义节点层面,如何使得这种扩展在保证准确度的情况下又适合于军事大数据环境,是需要考虑的两个问题。图7给出了语义节点之间的关联语义链构造算法的示意图。
从图7中可以看出,由于语义节点已经由关键词进行了语义的表示,因此建立两个语义节点之间的关联语义关系,等价于寻找它们所拥有的关键词之间的关联规则。图7中语义节点P有三个关键词,语义节点Q有四个关键词。通过查询规则库,发现两个语义节点之间存在三个关联语义规则,因此语义节点P与语义节点Q的关联语义链可以由这三个关联语义规则的和得到。
图7 语义节点之间的关联语义链构造算法示意图
4 结语
本文从复杂网络统计特征和语义特征切入,研究了基于知识图谱的军事知识演化技术。研究主要包括:1)基于在线和迁移学习的信息抽取机制;2)复杂关系语义特征的关联。给出了基于关联语义链网络的军事知识图谱演化研究方案和技术体系架构。但是,目前所作的工作还处于起步阶段,演化模型的完备性的还需要更进一步的研究,以面对不断更新的、复杂多变的军事知识。