装备领域多模态知识图谱技术研究

2022-12-14彭京徽

兵器装备工程学报 2022年11期

彭京徽,汪振,李越,侯萍

(1.复杂系统仿真总体重点实验室，北京 100101； 2.海军装备部驻上海地区第一军事代表室，上海 201913；3.中国人民解放军92767部队，山东青岛 266100)

1 引言

装备一般指军事装备，是用于作战和保障作战及其他军事行动的武器、系统、设备等的统称，主要包括武装力量编制内的舰艇、飞机、火炮、车辆和工程机械等[1]。在现代信息化联合作战背景下，军事装备数据关系到作战行动的部署与决策。随着互联网的发展和移动终端的普及，军事装备数据呈现出文本、音频、图片、视频、电磁、光谱等多模态的特点，并广泛存在于各类武器数据库、网站和平台。军事装备数据的特点造成数据管理和使用的困难，为了满足对装备数据的科学管理和有效使用，知识图谱成为当前行业的首选。

韩戈白等[2]分析了装备大数据的特点，以及构建装备知识图谱面临的问题和重点研究内容。车金立等[3]基于百科文本知识爬虫，探索了军事装备知识图谱构建过程中的知识抽取、知识融合、知识储存与更新等关键技术，并在构建的知识图谱基础上实现了军事装备领域的知识问答。丁君怡等[4]基于开源数据源，从数据信息抽取与图谱绘制2个方面，探索了领域本体建模等武器装备知识图谱构建的具体方法。薛坤[5]系统性介绍了从数据爬虫到三元组获取和知识存储的图谱构建过程，在军事领域知识图谱上开发实现了军事实体的识别和查询、关系查询、军事知识概览、军事知识问答和图片检索等6个功能模块。邢萌等[6]从训练和作战的应用场景需求分析出发，探索了军事领域知识图谱全生命周期构建及应用技术架构。吴云超等[7]以仿真推演为切入点，研究了军事领域知识体系构建、知识图谱构建等，涵盖领域通用知识和领域专业知识。谭玉珊等[8]从广义角度对知识图谱概念提出新的认识，从典型通用图谱剖析知识图谱的内在关系、建设模式和途径，分析存在的现实问题。尹亮等[9]探索了利用复杂网络模型将装备、标准化要素和标准三者进行有机结合的装备-标准知识图谱构建方法。任梦星[10]针对舰船知识的领域命名实体嵌套、关系抽取语料少、误差累计等问题展开研究，提出了基于规则和触发词的混合关系抽取和实体-关系联合等方法。韩丹[11]重点关注文本中蕴含的装备实体和关系，研究基于深度神经网络进行表示和提取的方法。

通过对上述军事装备知识图谱构建的相关研究分析可知，基本是围绕文本知识图谱展开，涵盖构建的基本流程、体系架构、本体建模和三元组抽取以及下游应用任务的探索，但未涉及对多模态装备数据的处理和研究。本文重点是针对装备的多模态数据管理和应用，探索多模态知识图谱的方法。基于前人构建知识图谱的基础，围绕多模态知识图谱结构特性，分析多模态装备数据和组成要素，给出装备多模态知识图谱构建流程和本体设计方法。

2 多模态知识图谱

2.1 知识图谱

知识图谱作为人工智能的基础性技术，具有极强的数据表达能力和建模灵活性，尤其是处理关系密集型数据。通过建模数据与数据之间的关联关系，可有效组织碎片化的数据，让分散的数据得到更好地使用。利用知识图谱管理军事装备数据，不仅能有效消除军事装备存在的装备种类杂、规模大、属性多，以及数据不全、分布散、管理乱、利用率低、相关性差等问题，也能提供统一的模型和标准以规范数据，实现数据的多维呈现。知识图谱的组成元素来自上游任务的输出，知识图谱的本质是语义网络的一种表现形式，实际上属于一类关系型数据连接方式；具备依赖关系路径与属性标签的推理的优点。同时，知识图谱具有信息存储、管理和中转的特点，为下游应用任务服务。

2.2 多模态知识图谱

多模态知识图谱是针对数据的模态多样性提出的一类新型知识图谱，在学界得到广泛关注[12-13]并具有广阔的应用前景[15-16]。它以文本、图片、视频、以及音频等多种模态数据为元素，是具有跨模态、类属关系、有向、非交叉的关联路径网路，本质是一种语义网络形式的关系型数据连接方式，结构特点如图1所示。

图1 多模态知识图谱的结构特点示意图

图谱领域普遍认为“多模态”是数据媒介呈现形式上的差异，但学界仍有不同的观点，其中O’Halloran[16]认为模态是细粒度的，同一媒介可以同时存在多种模态。在大数据时代，不同行业领域的知识图谱研究对数据分析的关注点不尽相同，导致多模态分类存在的差异，这种差异通常是模态分类更加细化和分析更加细粒度。面向军事领域的装备多模态知识图谱主要是以文本、图片、视频、以及音频等模态形式划分，围绕军事装备数据分布、特点、联系、规模等开展图谱构建技术研究。

3 装备多模态数据

3.1 数据源

数据源是提供装备多模态知识图谱构建所需要的各种模态数据，为了保证数据质量和完备性，选择百科数据、开源数据库为主要数据源。考虑百度百科装备词条已参考军事装备类词条编辑指南进行了整理，因此以词条“尼米兹级航空母舰”为例介绍数据源的特点，词条样式如图2所示。利用网络爬虫获得军事装备词条中的概念实体及其属性、文本实体与预定义的相关属性、图片实体与名称及其相关参数、视频实体与主体及相关参数。因为词条内容中包含了相关装备的超链接，所以可以获得一个较大规模的数据集，这里可通过设置起始爬虫装备名的数量、装备的军种与作战属性、超链接的深度等进行有效控制。

图2 百度词条样式与数据类型示意图

为了更加全面的获得百科词条中军事装备数据，基于“在线查询网”中“武器大全”栏目的《武器名录》，作为词条的搜索输入。由于军事装备具有很强的专业性，导致不同数据源对装备的命名产生差异，因此采用全站搜索，并对同一装备不同命名建立等价关系，保留装备专业性以提升图谱使用效果。

3.2 要素组成

装备多模态知识图谱由节点与边的组成，节点对应实体，边对应关系。依据数据来源，实体主要分为5类：概念、文本、图片、视频、音频。图3表示了不同实体对应的不同属性组成，其中，概念实体包括固有属性和环境属性，例如F-35是概念实体，其固有属性包括：乘员、长度、翼展等，它的环境属性是指在特定场景下的属性，如尼米兹号航空母舰搭载F-35战机6架，此时搭载数量为环境属性；文本实体的属性包括：爬取时间、来源网站、保存的原始HTML文件、目录与章节，以及文本内容的参考文献；图片实体的属性包括：图片的长度和宽度、分辨率、存储格式和拍摄时间；视频实体的属性包括：视频的主题、制作时间、像素、时长、存储格式、视频分离出的音频，以及音频转化成的文本；音频实体的属性包括：音频主题、时长、录制时间、存储格式和音频文本。

图3 装备多模态知识图谱要素组成示意图

3.3 数据规模

通过网络爬虫采集到多模态装备实体的数据，经过数据清洗、实体消歧、去重等操作后，得到的各类实体总数如表1所示。随着数据采集的不断进行，数据集的规模会进一步扩大，不同类型实体的占比也会发生相应改变。

表1 各类实体数量

4 装备多模态知识图谱体系架构研究

4.1 构建流程

装备多模态知识图谱构建涉及文本、图片、视频、音频等模态数据。考虑音频可以转化成文本、视频可以分帧为图片，因此，这里围绕图片和文本2种模态的知识图谱构建过程进行介绍。通常，围绕图文构建知识图谱的思路方法有3种：第一种是基于文本知识图谱为文本实体配上对应的图像实体，做一个跨模态的对齐和其他属性关系的预定义。每个文本实体都具备图像实体，图像作为一个单独的节点存在多模态知识图谱之中，这些图像带有自身的属性信息，并且关系是直接预定义的，关系的类型较少。第二种通过采集大量的图片数据，利用人工或机器学习的方法得到对图片的语义描述，基于图像实体识别和描述文本进行实体、关系和事件的抽取，得到图文的一致性关系，从而构建多模态的知识图谱。在描述文本中发现关系，受到图片数据的来源、多样性和描述的详细程度等影响，实体间关系的丰富度高、类型多，此时关系是间接得到的。第三种是基于预定义关系的基本多模态知识图谱结构，针对特定图片和对应的描述文本添加局部特征的实体间关系。构建流程如图4所示。

图4 图文多模态知识图谱构建流程框图

图4主要包括5个阶段：图片获取与描述文本生成；预定义关系与抽取关系的视觉化表示; 图像KG构建；文本KG构建；2个子图谱融合。

利用已有的外部知识图谱的实体名搜索图片建立数据库，利用网络爬虫、人工标注、深度学习算法得到图片的描述文本。在描述文本中发现实体和进行关系抽取，把外部知识图谱中的关系和文本中抽取出的关系，以及预定义的关系进行视觉表示，用于对图片的关系检测。将从图片中识别出的图像实体、特征图像、视觉关系和原图片构建图像知识图谱。同时文本知识图谱也由外部知识图谱、新发现的实体和关系，以及描述文本共同构建。然后将2个不同模态的子图谱进行跨模态的实体对齐，得到多模态知识图谱。图像和文本的融合过程包括：关系的视觉表示和跨模态实体对齐，从而形成图文交互的不同模态知识网络结构。

4.2 本体设计

不同于单模态的装备知识图谱，装备多模态知识图谱的本体设计需要解决多模态和装备类属的关系。因此，它不仅包含类属关系，也包含模态之间的关系。图5是装备领域多模态知识图谱本体设计过程示意图，包含关系类型和属性种类。根据实体之间可能存在的状态，关系类型包括：相同实体的映射关系、实体内部的属性关系，以及实体间的外部关联关系。在实体的关联关系中主要有包含、共现、相关、相似和跨模态实体对齐，其中相关包括：空间位置、多特征和时序关系等。在多模态知识图谱中除了传统概念实体间的三元组关系，其他实体间的关系是预定义的。

4.3 图谱结构

根据数据模态类型和本体设计，结合预定义的关系和属性种类，图6为装备多模态知识图谱示例。图中包含各种模态实体之间复杂的网络关系，如概念实体F-35与其对应的固有属性(乘员、翼展等)以及环境属性(数量)；图片实体与视频实体以“包含”关系连接；F-35图片实体具有多特征(起落架结构图等)和相似的关系；视频与音频之间也存在“视频语音”的关系；语音和转化的文本之间存在“语音文本”的关系；概念实体与文本实体之间也存在“包含”和“关联文本”的关系。通过场景图的空间位置可以将不同图像实体进行关联，这里F-35停在尼米兹航母的飞行甲板上。

图6 装备多模态知识图谱结构示意图

4.4 应用示例

基于研究构建的装备多模态知识图谱，以包含文本、图片、音频和视频的多模态数据进行知识推理和文本生成为例，简单介绍装备多模态知识图谱的实际应用。图7来自真实的新闻报道，多模态数据有一张包含两艘军舰的图片、一小段的音频、一段军舰编队的动态航行轨迹以及一段简短文本。其中音频内容为“/4月4日上午8时许，有航母编队进入南海/”；文本内容为“美舰进入南海”。在上述4种模态信息输入构建的多模态知识图谱中，可以快速识别和确认图片中的舰船信息为美海军“罗斯福号”航母和“拉塞尔”号驱逐舰，由此进一步可以确定该航母编队是“罗斯福号”航母编队；根据航迹动态图与马六甲海峡在多模态知识图谱中的地理位置图高度匹配，通过对视频模态的处理和时序分析，知道该航母编队从马六甲海峡进入南海。因此整合4种模态可知：2021年4月4日上午8时许，美“罗斯福号”航母编队自马六甲海峡进入南海。对以上4种模态，如果缺失文本模态，依然能够得到上述分析结果，这充分体现了多模态信息的互补性。

结合图7和多模态知识图谱工作机理，对图片信息的处理首先是定位其中的目标对象并提取出图像特征，然后将其与多模态知识图谱中的实体图像做相似度计算，得到对应的图像实体，从而确定图像对应的实体名称，从图谱中找到该图像对应实体的关联属性信息获取图像实体的信息。因此，红色框图中2个目标对象分别与多模态知识图谱中的图像实体“罗斯福号”航母和“拉塞尔”号驱逐舰对齐，通过识别匹配得到图片中的军舰名称，根据图谱中已有信息可以掌握关于目标对象的其他属性信息。视频采用分帧级图像处理，得到静态对象和动态对象，图7中静态对象是马六甲海峡的位置图，动态对象是编队运动的航迹点，动态对象要通过时序分析，确认编队从印度洋自马六甲海峡进入中国南海。音频处理有2种方法，一种是利用音频单模态知识图谱得到文本，另一种是通过语音文本转化技术得到文本，再针对文本进行实体、概念和关系的抽取和其他重要信息的捕获。最终输出一段完整的描述文本：4月4日上午8时许，美海军“罗斯福号”航母和“拉塞尔”号驱逐舰组成的编队，从印度洋自马六甲海峡进入中国南海。