APP下载

面向军事领域的动态本体构建技术研究*

2023-02-01李墈婧胡建军吴迪礼冬雪叶亚峰

现代防御技术 2023年6期
关键词:本体军事图谱

李墈婧,胡建军,吴迪,礼冬雪,叶亚峰

(北京计算机技术及应用研究所,北京 100854)

0 引言

军事领域知识图谱是建立指挥员、指挥信息系统以及作战单元之间沟通的重要手段。其中,知识本体是广义的领域知识框架,用于定义事物的类型、用于描述它们的属性以及事物之间的关系,是知识图谱构建的基础。针对军事领域数据来源广泛、专业性强、保密性要求高等特点,现有的领域本体构建多是基于专家知识的静态本体构架方法。刘丽等[1]针对态势感知、作战筹划、指挥控制等功能需求,将军事本体体系分为基础本体、领域本体和应用本体3 层,实现对数据的统一建模。车金立等[2]通过挖掘百科数据中的装备类型、装备型号及装备参数等数据,构建了军事装备领域知识库。付雨萌等[3]梳理了军事活动中涉及的事件、军事人员、武器装备、战法等关键要素,完善及扩展了军事活动事件本体模型。王震南[4]从两栖登陆作战领域场景出发,构建了包含装备体系、作战事件、作战能力等实体的知识体系模型。刘梦超[5]针对面向海战场的知识模型构建问题,定义了海战活动、海战装备、军事政治事件、专家先验知识等核心概念的本体模型。赵文正等[6]通过定义军事事理模式,开发了基于交互式分析工具的事理图谱可视化系统。刘朝畅等[7]针对伪装方案场景下的兵力、时间、资源等关键要素进行归类,设计伪装目标本体化模型,从而辅助军事推理。

随着信息增速、新概念的诞生、概念关系变化等,传统基于手动构建静态本体的方式已无法满足海量数据动态更新的需求,现有的自底向上的本体构建方法存在噪声大、准确性不高、适应性差等问题。近年来,国内外学者开始研究动态本体的构建问题[7-10],在理论上,利用已有资源实现概念、关系更新的本体映射技术受到广泛关注;在应用上,主要集中在医学领域[11-12]以及制造领域[13]的应用研究。目前,在军事领域,尚缺乏对战场数据进行刻画的系统化动态本体更新策略,从而难以指导军事智能在作战数据上的实际应用。因此,本文在基于动态本体研究的基础上,设计了一种基于军事领域的动态本体构建方法,通过设计领域内实体、关系及属性更新方法,改善了传统知识建模对专家知识依赖性强、可扩展性差等缺点,并基于该动态本体更新方法,以俄乌冲突知识图谱为案例,验证了动态本体在知识图谱构建、更新和分析上的重要性,为充分挖掘军事数据的价值提供了基础。

1 军事领域知识图谱需求分析

智能化战争形态下,战场瞬息万变,作战数据来源广、规模大、更新快,侦察监视预警需求多维全面,需要指挥员对重大战略问题快速做出响应,而正确快速的战略决策前提是必须了解和掌握大量的信息以及进行深入的信息挖掘。知识图谱作为一个庞大的语义网络,能够对各类军事实体、关系进行有效链接,对知识进行快速梳理整合并进行深层次挖掘,从而辅助指挥人员快速理解实时战事,做出正确的指挥命令。

1.1 多源异构军事领域数据融合处理的需求

随着信息化时代背景和我军获取信息渠道的不断升级,各种情报数据量呈现指数级上升。多源异构军事领域数据除结构化数据外,还包括作战指令、文书、战场环境、敌情、我情等文字、图像、音视频数据。面对数据量和数据复杂度的爆炸式增长,如何从海量数据中挖掘关键信息,并进行高效组织管理成为军事领域数据处理和分析的关键问题。知识图谱在多源情报数据的处理方面展现出了极大优势,已经发挥出重要作用。然而随着战场新的作战对象、装备的出现,其对应的概念体系也会发生变化,而同系列的装备随着新型号的研发,其性能和参数属性也会随之发生变化,导致知识图谱的动态融合更新成为难点。因此,需要建立能够动态更新的知识本体建模方法,实现大规模军事情报知识图谱的自动融合更新,形成战场情况综合态势,进而解决作战人员对知识的个性化搜索推荐和隐含知识的推理需求。

1.2 军事事件演化推理的需求

目前,军事领域重大突发事件的案例整编和复盘反演通常依赖情报分析人员人工从各类情报数据中梳理关键要素。随着事件的发展演化,需要动态地从各类情报中检测多维度的各类事件实体,解析事件要素,构建事件从开始、发展到结束的演化脉络,形成军事事件的整体描述。通过人物、装备与作战事件的关联分析,能够快速分析出其规律,提供精准的信息保障。如美国在抓捕恐怖分子本·拉登的行动中,通过Palantir 公司动态本体技术和工具,基于世界各基地头目的通信和事件数据构建情报知识图谱,并采用人物关联分析、行为分析、事件演化分析等分析方法,最终挖掘出本·拉登的藏身地点,实现战略目标,该行动突出了知识图谱在军事领域的重大效用。因此,亟需构建一套动态更新的军事领域本体体系,基于该技术构建的知识图谱才能够打通系统底层功能域,根据战场态势的变化,对各类数据进行动态组织,从而完成作战决策的智能推荐,辅助指挥员对战场态势进行综合研判。

2 面向军事领域的动态本体构建方法

军事领域数据来源广泛,专业性强。主要包含相关业务系统中的结构化数据、开源情报数据(新闻、百科、论坛、社交媒体等)、内部军事情报数据(敌情、我情、战场环境等)以及相关指令问答请求数据等。其中开源情报数据具有传播速度快、信息多样化、交互复杂等特点,如何从海量信息中自动化筛选出符合要求的信息,并与专有军事领域知识进行融合更新一直是研究的难点。此外,随着信息内容随时间的变化,对问题的关注点也会有所不同,提取的语义信息会发生较大变化。因此对于指挥员日常作战中的指令问答请求数据的处理也是本研究的关键点。

文本提出一种面向军事领域的动态本体构建方法,实现知识本体的动态更新,具体架构如图1 所示。主要包括初始本体设计、数据映射、形式背景合并、本体更新4 个部分,其中初始本体设计部分主要基于专家知识、基础数据库、历史案例、军事领域书籍或标准等进行抽象设计形成初始本体O1;数据映射部分主要将结构化、半结构化、非结构化等数据进行知识挖掘,映射为易于处理的结构化数据D;随后,形式背景合并部分将初始本体O1转换为形式背景K1,将结构化数据D转换为形式背景K2,然后将K1和K2进行合并形成形式背景K;最后本体更新部分利用形式概念更新将形式背景K处理形成新的本体O2,实现本体的动态更新。

图1 军事领域动态本体构建方法架构图Fig.1 Architecture of dynamic ontology construction method for military field

2.1 初始本体设计

军事领域本体的构建往往依赖专家经验来完成,本文在总结前人工作经验以及相关知识的调研后,构建了军事领域初始本体。

(1)确定实体分类体系

本文在借鉴第三方知识体系[14]的基础上,通过综合专家知识、基础数据库、历史案例等数据,并参考相关行业标准[15-18]中的军事分类及基本概念,结合军事领域特点,完成本体的知识分类。在本文中,通过领域分析,把军事数据分为装备、人物、组织机构、物资、环境、设施、理论法规和军事事件,具体分类方式如图2 所示。

图2 军事领域数据实体分类体系Fig.2 Entity classification for military field data

(2)定义军事实体属性及实体间关系

基于以上实体分类体系,设计对应的实体属性,主要有共有属性以及专有属性,部分属性示例如表1 所示。

表1 军事领域部分实体属性示例Table 1 Examples of entity attributes for military field

此外,定义各实体类之间的关系,主要有隶属关系、部署关系、参与关系、指挥和挂载等关系,对应的主要实体间关系如表2 所示。

表2 军事领域实体之间主要关系示例Table 2 Examples of relationships between entities for military field

2.2 数据映射

数据映射主要是将多源异构数据进行信息抽取后统一映射处理。业务系统的结构化数据映射主要利用关系型数据库(包括业务数据、武器装备等实体库、同义词库),抽取涉及原始数据之间的强语义关系,将语义信息进行关系映射;内部军事情报等文本数据主要通过分词、句法分析、语义分析等自然语言处理技术完成文本知识的挖掘,形成结构化数据存入关系型数据库;开源情报数据涉及范围较广,需要先基于匹配规则进行筛选,去除数据噪声后,再通过文本知识挖掘进行处理;指令及问答请求数据主要通过问答查询理解映射抽取问题的关键信息点。

2.3 形式背景合并

基于构建好的初始本体,通过本体本身的语义信息以及概念之间的推导,将其转化为形式背景K1=(G1,M1,I1),其中G1代表对象,M1代表属性,I1代表关系。同理,可以根据2.2 节数据映射后的结果,得出形式背景K2=(G2,M2,I2);根据形式背景合并,求出合并后的形式背景K=(G',M',I')。

形式背景合并算法主要由相似度算法计算对象、属性和关系间的相似性,判断生成新的元素或元素合并。由于军事领域有很多相似的表达,如“航空母舰”可以表达为“航母”,“歼-15”可以有“歼15”“J-15”等多种相似表达,此处采用基于知网的词语语义相似度概念[19]来计算。知网中,每个词语均可以由概念集合来描述,每个概念又由相应的义原来定义。

(1)词语相似度。当词语w1涉及n个概念:s11,s12,…,s1n,词语w2涉及m个概念:s21,s22,…,s2m,则词语的相似度为各概念相似度的最大值,即

(2)概念相似度。每个概念由相应的义原来描述其语义,由概念的语义描述包含第一基本义原、其他基本义原、关系义原、符号义原,故2 个概念s1和s2的相似度为

式中:βi为可调参数,代表不同类型义原的占比。

义原相似度计算公式为

式中:p1,p2表示2 个义原;d为两义原在义原树中的距离;α为可调参数。

通过以上计算可求出形式背景中词之间的相似度,设定阈值,判定其大于阈值,代表2 个词相似度较高,假设其中一个词已经在形式背景中,则不需要添加,如小于阈值则将其添加到新的形式背景中去。

2.4 本体更新

在本体更新部分,文本采用基于形式概念分析[20]的本体更新策略。形式背景合并后得到对象与属性之间的联系,形式概念分析则是对实体、关系、属性的泛化后的抽象表达,通过泛化表达形成概念格。已知形式概念的相关定义如下:

定理 1.对于形式背景K=(G,M,I),G的元素代表对象,M的元素代表属性,I代表关系,gIm表示对象g和属性m值之间的关系为I。

定理 2.假设A为对象集合G的子集,则A中对象共同属性集合为

假设B为属性集合M的子集,则具有B中相同属性的对象的集合为

如果f(A)=B且g(B)=A,则称C={A,B}为形式背景K的形式概念。

形式概念的更新包括对象的更新和属性的更新,以属性更新为例,假设初始本体对应节点的形式概念为C={A,B},新增属性为m',具有该属性的对象集合为g(m')。形式概念更新过程如下:

同理可以完成对象的更新,本方法基于初始本体构造的基础上,完成初始形式概念的形成,进而基于合并后的形式背景完成本体的更新,利用形式概念更新算法,自动生成新的本体。

3 案例分析

为了更好地验证动态本体对知识图谱构建过程的影响以及本文动态本体构建方法的可用性,本节以俄乌冲突为背景,收集来自网络开源新闻数据作为样本集。首先依据初始本体抽取部分数据完成初始知识图谱构建,随着事件演化,新数据也层出不穷,利用本文所提出的动态本体构建技术对形式概念和本体进行判定更新,最终完成图谱的实例化构建,构建结果使用Neo4j 图数据库进行存储和可视化展示,最后结合构建的知识图谱进行应用分析。

3.1 基于初始本体的知识图谱构建

以俄乌冲突为背景,结合事件背景及第1 次冲突升级为例,利用爬虫技术获取公开网页新闻、公众号等相关数据,通过数据预处理及结构分析,形式化地表达了事件的发展脉络,实现知识的结构化展示,部分初始实例结果如图3 所示。

图3 基于初始本体的知识图谱示例Fig.3 Illustration of initial ontology-based knowledge graphs

如图3 所示,每个节点代表一个实体。由图中示例可以看出:“俄军首次集结兵力”的背景原因主要包括“克里米亚事件”“新明斯克协议”和“北约扩张”。“俄军首次集结兵力”事件的下位事件主要有“顿涅茨克人民共和国获准‘先发制人摧毁’乌克兰军事要地”“俄军直升机跨过乌克兰边境”“俄军从西部及中部调运大量兵力进入克里米亚占领区”和“俄军准备‘西部2021’军演”事件。其对应的相关事件有“乌克兰总统签署‘2021 年第117 号令’”。根据第2.1 节中的初始本体模型可以得到每个事件关联的时间、人物、装备、组织机构等实体。以上构建的知识图谱以“俄军首次集结兵力”为检索对象,展示了相关事件之间的逻辑关系,根据时间线梳理使得事件的始末更加清晰,对于今后的事件发展演化分析具有较大参考价值。

3.2 基于动态本体的知识更新

随着冲突的进一步升级激化,新闻数据也在不断扩充细化,在实验中,参考文献[19]中的参数值进行计算。参数设置为:α=1.6,β1=0.5,β2=0.2,β3=0.17,β4=0.13。

假设现有形式背景中武器类实体已有“战斗机”元素,对于新增同类型实体元素“歼击机”、“直升机”是否要加入该背景进行判定,基于2.3 节形式背景合并算法,查找知网词库[21]“战斗机”涉及的概念为:[No.134930|fighter| 战斗机,No.134931|fighter plane|战斗机],“歼击机”涉及的概念为:[No.173130|fighter plane|歼击机,No.173128|fighter|歼击机,No.173129|fighter aircraft| 歼击机,No.173127|attack aircraft|歼击机],“直升机”涉及的概念为:[No.212666|chopper|直升机,No.212667|helicopter|直升机]。

每个概念由相应的义原来描述其语义,可通过义原树的形式展示概念的层次关系,如图4 所示。

图4 概念对应的义原树Fig.4 Semantic trees corresponding to concepts

经过计算得出“战斗机”和“歼击机”两个词语之间的相似度为0.865。“战斗机”和“直升机”的相似度为0.486。本实验中,阈值设置为0.5,则将“直升机”判定为新元素加入该形式背景中。同理,可获得更新后的形式背景。

利用本文动态本体构建方法进行本体模型的扩展更新,实例化后将新的三元组信息融合到知识图谱中,部分示例结果如图5 所示。

图5 基于动态本体的知识图谱示例Fig.5 Illustration of dynamic ontology-based knowledge graphs

针对冲突类事件“乌克兰海军炮艇与俄罗斯的一艘舰艇爆发冲突”,需要抽取乌方和俄方的装备、组织等实体信息;针对战争类事件,则需要抽取军事行动、外交谈判以及影响等实体。知识图谱不仅可以实现数据的关联查询展示,还可以实现关联关系挖掘,事件演化推理。基于图数据库的路径查找算法和图算法,对于海量数据和关系的查询及推理具有极高的效率。在该案例中,根据俄乌冲突中事件之间的关联关系所生成的路径,可以挖掘出揭示事件的演化方向和逻辑线索。

3.3 结果分析

通过动态本体构建的知识图谱克服了静态本体适应性弱、可扩展性差的缺点,实现知识的关联融合更新及扩充,使得构建大规模知识图谱成为可能。本节基于动态本体构建的俄乌冲突知识图谱中包含多条事件演化路径,且存在顺承、并发、相关等关联关系。通过事件关联分析、事件时序分析和事件关联实体对象分析,可以得出事件演化路径的特点、演化原因、关键事件以及决策行动的底层逻辑。详细解读如下:

(1)基于构建的知识图谱,提供信息的检索和基础计算功能。首先,对事件关联的特定装备(如“Giurza-M”小型装甲炮艇、伊斯坎德尔短程弹道),可快速从知识图谱中的装备信息查询其服役时间、装备属性、隶属部队、衍生型号等基础信息,从知识图谱中的历史行为信息查询其过往行动记录,掌握装备的作战性能和使用规律。

(2)可根据图算法构建包含军事装备、时序(不同事件发生的时间)、位置信息(地点)的子图结构,依据这些关键要素进行子图匹配和挖掘,查找历史相似事件,为后续行动预测提供参考。

(3)可发掘本次事件不同于过往事件的新模式、新属性等信息。例如,“乌克兰海军炮艇与俄罗斯的一艘舰艇爆发冲突”判定为冲突事件,则可根据需要抓取俄乌双方的装备、组织等信息;而“入侵乌克兰”为战争类事件,则可挖掘分析军事行动、外交谈判和后续的影响。

(4)可根据知识图谱中的知识和数据进行高效关联分析。例如,根据事件之间的关联度分析,整理出事件主线“暴力活动持续升温”-“俄军第2 次集结”-“俄罗斯承认顿巴斯独立”-“俄军第3 次集结”-“入侵乌克兰”,根据当前行动态势和历史数据并利用图谱中的大量关联信息进行快速实时的事件预测预警,同时为后续事件发展提供可解释依据。

4 结束语

本文对军事领域知识图谱本体构建的研究现状和需求进行调研和分析,总结出目前研究存在的不足,提出一种军事领域动态本体构建方法,同时利用该方法构建了俄乌冲突知识图谱并进行分析,验证了动态本体在军事领域知识图谱中所发挥的重要作用,为构建大规模知识图谱提供了理论支撑。具体研究内容及创新点包括:

(1)考虑军事领域数据量大且专业化程度高,结合军事场景设计基于形式概念分析的本体更新算法,提出面向军事领域的动态本体构建完整流程。

(2)结合目前研究现状和专家知识构建初始本体模型,使用开源情报数据和本体更新算法进行动态本体构建,验证了本文提出的军事领域动态本体构建方法的可行性。

(3)以俄乌战场实例为背景,基于动态本体构建俄乌冲突知识图谱,进行图谱可视化,并对图谱的应用场景进行详细分析,验证了本文提出的军事领域动态本体构建方法的实用性。

但是由于数据的敏感性,本文的实验数据仍显不足,无法全面覆盖所提到的军事本体模型,未来需要查找更全面的数据,扩充知识图谱规模,进而完善动态本体自动更新的流程。

猜你喜欢

本体军事图谱
Abstracts and Key Words
绘一张成长图谱
对姜夔自度曲音乐本体的现代解读
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
《我应该感到自豪才对》的本体性教学内容及启示
Care about the virtue moral education
杂草图谱
军事幽默:局
军事