电子战领域知识图谱系统设计与实现方法研究
2022-10-24张宏军徐有为申秋慧李大硕
王 航,张宏军,程 恺,徐有为,申秋慧,李大硕
(1.陆军工程大学 指挥控制工程学院,江苏 南京 210007; 2.中国洛阳电子装备试验中心,河南 洛阳 471000)
0 引 言
随着现代科技的不断进步,作战手段不断发展,各国在电子对抗领域的争夺也越来越激烈,研究电子对抗发展的前沿,分析对手的强弱点,审视自身的发展情况就显得尤为重要[1]。目前,不断革新的电子战技术和电子信息装备的广泛使用,使数据产生速度呈指数增加,电子战领域正在面临着来源广泛、格式多样、数据价值密度低、数据体量大、种类繁多的数据困境[2],如何充分挖掘领域数据资源中有价值的信息,是电子战研究需要解决的问题。近年来,由于人工智能、知识工程等技术的高速发展,知识图谱在知识的自动获取、知识表征和推理学习、基于图的深度挖掘等方面取得了突破性进展[3],已经被用于解决公安、医疗、金融、军事等垂直领域的相关问题。作为一种高效、智能的知识组织手段,知识图谱可以帮助用户快速、准确地获取自身关注的信息[3],这些特点使其成为现阶段解决电子战领域知识体系化的最佳方案。
电子战领域知识图谱的构建不是一次性的工作,随着领域数据资源的快速累积,需要不断对知识图谱进行更新。因此,系统需要建立规范的知识图谱构建流程,协助技术人员进行规范构建;需要设计统一的数据标准和接口,提供数据全生命周期的存储与管理,确保新加入知识的准确性和规范性。从而使电子战领域知识图谱能够不断积累知识,丰富完善领域知识体系,更好地满足领域业务需求。主要完成了以下工作:通过研究电子战领域数据资源特点,分析了系统建设需求;参照垂直领域知识图谱构建方法,进行系统总体架构、系统设计,阐述了系统从总体架构到技术细节的设计方案,包括系统功能模块设计和数据的混合存储策略;研究了系统关键技术及实现方法,进行了数据存储、可视化、知识应用等工程实现方法实践。
1 系统需求分析
1.1 电子战领域数据资源特点
在现代战争中,几乎每个作战单元都配备有电子设备和电子对抗装备,大量电子技术装备运用于军事领域以后,极大地拓展了电子战的范围,使其已上升为重要的战略要素,成为一种相对独立的作战手段和方式,贯穿于现代战争的始终[4],电子战数据资源也随着电子战的飞速发展呈指数级增长。
1.1.1 数据资源分类及特点
电子战领域数据资源类型繁杂,按照来源可分为如下3类:一是电子装备产生的工作数据,这一类型的数据主要包括电磁频谱数据、装备运行参数、装备工作日志等,具有极强的专业性。二是内部数据库,这一类型数据主要包括各单位自建的面向本单位具体业务需求的小规模数据库,数据结构化程度、准确性较高,具有较强的业务倾向性。三是互联网数据,这一类数据主要包括互联网上的百科、新闻、论文、图书等资料,数据资源庞大、价值密度稀疏[5]。
1.1.2 数据资源应用存在的问题
根据电子战领域业务需求,结合领域数据资源分类及特点进行分析可发现,目前电子战领域数据资源应用存在以下需解决的问题:
专业门槛高。电子战领域从专业上可以分为雷达对抗、通信对抗、光电对抗、战场信息网络对抗等多个专业领域[6],专业领域覆盖面广、知识繁杂、专业性较强。大多数军事人员自身不具备系统的电子战知识体系,面对海量电子战领域数据资源时难以从中快速获取有用信息,导致电子战领域数据资源不能完全发挥出应有作用。
存在信息壁垒。电子战领域资料存在的形态主要包括各类纸质和电子文档资料、网页资料以及各单位自建的数据库,公开数据较少,有效集成困难,由于军事领域数据安全的重要性,所采用的传统数据共享手段效率低下,很难支持频繁的数据交换,缺少一种有效且安全可靠的数据管理、使用和共享方法。目前,除了一些市面上发行的书籍报刊和互联网上存在的少量公开资料,其他诸如装备参数、性能指标、应用方式等关键数据共享难度较高。
研究工作相对滞后。电子战是针对性极强的斗争,一种干扰或一种反干扰样式一旦被对手侦测获取,就会失去作战价值,装备需要不断更新以适应作战需求。因此,更新周期短是电子对抗设备的生存规律[7]。这导致电子战领域数据资源随装备和技术更新速度较快,而这种更新很难在第一时间被领域研究人员察觉,导致相应的研究工作则相对滞后,难以跟上技术发展。
1.2 电子战领域数据资源建设需求
根据电子战领域数据资源特点,需要将数据资源整合成一个统一的、结构化的知识体系,提高电子战领域数据利用效率。知识图谱和人工智能在各领域的广泛应用为电子战领域需求提供了解决思路。目前,知识图谱在电子战领域的应用尚属空白,电子战领域知识图谱构建及知识应用技术有助于把现有领域数据资源整合成统一的、结构化的、准确全面的电子战知识体系,以满足电子战数据的快速检索与深层次的数据挖掘与应用,解决电子战领域数据高效应用问题,为用户提供准确、高效、智能的知识服务,支撑军事专家和技术人员开展相关业务。
为满足上述需求,所构建的电子战领域知识图谱系统应具有以下三个特点:
知识易更新。为适应电子战领域数据的更新速度,知识图谱构建完成后能够根据数据源的改变自动更新,快速扩大知识积累的广度和深度,降低知识运维的人工成本,确保知识的时效性。
知识易共享。用户登录系统后,能够通过内部网络浏览知识图谱,并根据不同的用户权限,获取相应权限的知识和服务。
安全可靠。由于电子战领域数据资源较为敏感,系统应具备安全可靠的数据管理机制,确保每一环节的数据都在系统管控之中。
2 系统总体架构
根据系统需求分析,按照高内聚、低耦合的系统设计思想,并充分考虑系统可靠性、安全性和易用性等原则[8],系统总体架构如图1所示。
图1 系统总体架构
从功能实现的角度设计,系统自底向上分为数据层、业务层、应用层。数据层利用混合存储策略,存储知识图谱构建全生命周期中的各类数据,包括原始资料、基础语料、算法模型等系统基础数据和最终形成的知识图谱产品;业务层提供系统实现的具体业务逻辑,包括系统所用到的自然语言处理技术和知识图谱构建技术,能够将数据进一步处理形成结构化、体系化的知识,为电子战领域知识应用提供支撑;应用层提供电子战领域知识应用,提供频谱管控、情报分析、辅助决策等方面的具体业务应用。
3 系统设计
3.1 系统功能设计
电子战领域知识图谱对构建准确性、知识深度和更新便捷等方面要求较高,因此,系统采取自顶向下和自底向上相结合的方式构建知识图谱,该方式的核心步骤如下:首先进行知识建模,通过电子战领域专家人工编制,定义电子战领域本体,完成顶层概念到下层概念的逐步细化,形成结构良好的分类层次结构;再通过知识抽取,将通过知识抽取模块得到的实体及属性添加到定义好的概念体系当中;最后,在知识更新过程中通过知识融合和知识计算[9]进行本体和知识图谱的迭代更新。这种方式既能保证电子战知识图谱构建的准确性,又有利于抽取出新的知识,从而适应不断发展的电子战领域装备和技术,提高知识图谱构建准确性和知识更新的自动化程度。
以上述知识图谱构建方法为基础,设计数据管理、电子战领域知识图谱构建、电子战领域知识应用等3个子系统,系统功能架构如图2所示。
图2 系统功能架构
3.2 系统数据模型设计
系统中的数据层是多层体系中最为关键和重要的一层,数据建模是对数据进行分析和设计的一种有效手段[10],应当结合知识图谱系统中知识图谱构建和知识更新等下游任务,对系统数据进行数据模型设计。以特征库的概念模型设计为例,设计如下:
特征库存储语料的原始特征集合包括原始特征集合和特定任务的特征子集。其中,原始特征集合包括原始语料特征、电子战军语词典特原始语料字典特征及文本统计特征。特定任务的特征子集是指面向特定自然语言处理任务和知识图谱构建任务所需要的特征子集,这些任务包括命名实体识别、关系抽取、属性抽取、本体对齐、实体匹配和知识推理等,每个算法和模型可根据需要,从原始特征集合中经特征工程处理获取所需的特征子集,以减少知识图谱构建过程中的重复计算,降低系统开销。特征库ER图如图3所示。
图3 特征库ER图
4 系统关键技术及实现方法研究
4.1 系统开发技术框架
系统采用B/S架构,以MTV模式构建,使系统组件之间保持松耦合关系[11]。目前,系统开发常用的PythonWeb三大框架中,Django的受欢迎程度最高。Django具有前后端分离的MTV框架模式、模型和数据库连接的ORM机制和自带的Admin管理系统,这些特性提高了系统开发效率,增强了系统的稳定性和易维护性。本系统采用Django作为系统开发的web应用框架,来实现业务层的中各个业务逻辑。系统开发技术框架如图4所示。
图4 系统开发技术框架
4.2 数据存储
系统采取Mysql和Neo4j相结合的混合存储的策略来存储系统数据,知识图谱存储在图数据库中,用于查询和可视化展示,其他知识图谱构建全生命周期中所需要和用到的数据,如相关资料、语料、提取出的特征等,依托关系型数据库存储,便于数据分类和管理。
4.2.1 基础数据的存储
系统基础数据存储在Mysql数据库中,作为一款关系型数据库,Mysql难以应对复杂的关系数据,对于2度以上的查询请求,其反应时间较长,因此关系型数据库并不适合存储关系复杂、知识深度较深且查询需求较多的电子战领域知识图谱,但其具有高度结构化的数据存储方式及较低的空间占用等特点[12],适合作为系统存储基础数据的数据库。系统所构建的资料库、语料库、特征库等基础数据库数据量大、种类较多,但数据间关系并不复杂,系统调用数据时执行的查询请求较少,所以本系统选择使用Mysql数据库存储系统基础数据。
4.2.2 知识图谱的存储
系统采用Neo4j图形数据库存储系统所构建的电子战领域知识图谱。目前,图形数据库由于其包含的节点、关系及属性三种元素可以与知识图谱中的关键知识很好的映射,在储存知识图谱方面获得了很好的效果,成为了主流方式[13]。Neo4j作为图形数据库的典型代表,可轻松稳定地储存及管理上亿的节点及关系,具有较高的可靠性及扩展性,并支持完整的ACID事务,可高效地完成对知识图谱的储存、更新、管理与检索。
为了确定API设计的应用效果,展示实现方法的可行性,假设系统已完成知识抽取并以Mysql数据库表存储抽取出的实体、关系和属性,设置以下实验过程:随机生成12类共50个实体和5类共280个关系,考虑到保密问题,实体名称、属性、关系都随机生成且采取无实际意义的编号表示,系统调用知识存储API将知识存储在Noe4j数据库中。示例如图5所示。
图5 Neo4j存储示例
4.3 可视化
系统前端框架采用jQuery,UI框架采用Bootstrap,图可视化引擎采用AntV G6。jQuery和Bootstrap是常用的前端框架,具有强大的功能和良好的兼容性。拓扑框架采用图可视化引擎AntV G6,它由蚂蚁集团数据可视化团队提供,可支持图的绘制、布局、分析、交互、动画等图可视化的基础能力,对关系复杂的数据具有强大的表现能力。基于AntV G6,可以快速搭建图分析或图编辑应用,支持大规模图数据的交互与探索[14],与本系统的知识图谱可视化需求十分契合。
系统后台将经过可视化模块处理完成的数据以json格式返回给前端,前端接收到数据后进行可视化处理,并将可视化结果在web页面显示。可视化模块API伪码如图6所示。
图6 知识图谱可视化模块API伪码
系统采取的可视化方案对知识图谱的实体、关系和属性等要素的展示效果较好,可以充分满足系统需求。另外,基于此可视化方案的可视化接口设计简单清晰,提高了系统开发效率。
4.4 知识应用
根据电子战领域数据资源特点和主要业务需求,目前,电子战领域知识图谱的应用主要包括频谱管理[15]、情报研究[16]、辅助决策[17]等三大方向,结合具体应用场景可细分为频谱智能管控、智能用频推荐、电磁态势分析、电磁目标识别、领域情报分析、领域知识问答、领域热点预测、配属方案推荐、对抗方案生成等。由于不同应用场景对知识图谱构建的要求不同,在此只选取情报研究场景,构建知识图谱并利用测试数据实现知识应用。
以情报查询为例,电子战领域的情报分析较为关注知识间的关联关系,期望可以从现有情报中挖掘出隐藏的关联关系或者新的知识,而不是简单地查询到某个孤立的知识。例如检索某支作战力量时,用户希望获取此作战力量所拥有的电子战平台的种类、数量等情报信息,以此判断该作战力量的电子战能力。因此,系统提供的情报查询服务除了需要能够准确查询到某个知识,还应提供与该知识存在关联关系的其他知识。
情报查询模块功能如下:系统后台获取用户在前端搜索框内输入的内容,通过调用Cypher语句查询相关节点和与此节点相邻的关联节点,并将节点信息传递给可视化接口,在前端用户页面高亮显示。情报查询模块API伪码如图7所示。
图7 情报查询模块API伪码
5 结束语
根据电子战数据资源特点及实际应用需求,对系统的整体设计和工程实现关键技术进行了探索,提出了系统总体架构和功能架构,设计了对系统全生命周期数据进行规范存储和管理的混合数据存储策略,形成了系统开发技术框架,研究了知识图谱在电子战领域的应用方法,并通过示例数据验证了系统设计和开发技术的可行性。这项研究工作对电子战领域知识图谱的构建方法及系统的落地应用具有一定的参考价值。在下一步的研究工作中,还需要进一步完善数学模型和算法实现细节,根据实际应用效果对系统进行进一步的改进,并结合应用需求和知识图谱构建技术改进现有算法,提高知识图谱构建的准确性和产品的可用性,拓展其在电子战领域应用业务范围,为电子战领域数据资源的充分利用提供切实可行的解决方案。