基于知识图谱的电子对抗本体知识模型构建方法研究
2023-09-05高墨昀陈金炜
高墨昀,柴 恒,陈金炜
(中国船舶集团有限公司第七二三研究所,江苏 扬州 225101)
0 引 言
2012年Google公司为加强智能搜索能力,提出知识图谱的概念[1]。概念提出后知识图谱逐渐获得各大公司及科研机构的重视。各行业各领域的众多机构先后开发了面向不同专业和应用的知识图谱。目前知识图谱已被广泛应用于互联网、金融、医学等领域,在智能搜索、智能决策和智能问答等方面发挥着重要的作用[2]。
由于电子对抗领域的知识具有高度专业性、封闭性、数据导向等特点,同时当前电子目标识别、电子对抗决策等方面高度依赖专家知识和经验,智能化程度低,因此电子对抗领域的知识图谱在目标识别、对抗决策等方向具备极大的应用潜力。对电子对抗知识进行合理准确的建模是电子对抗知识图谱应用实现的重点和难点。运用本体的方法进行建模的领域知识库具有概念包容多、概念描述准确、关系表达充分、开放性好、机器可读、推理能力强等优点[3]。本文对电子对抗知识进行基于本体的建模研究,并对电子对抗多源数据和知识进行抽取,构建电子对抗领域知识图谱。
1 本体模型构建
知识图谱基于图的数据结构进行存储,是语义网络的技术之一[4]。按照金芝提出的本体逻辑三元组结构[5],本体组织模型的逻辑结构如下:
O=〈C,R,A〉
(1)
式中:C表示概念,是指电子对抗知识领域中,一组共享某些相同属性的对象的集合,例如雷达类,就包括了战略预警雷达类、警戒引导雷达类、炮瞄雷达类、制导雷达类、战场监视雷达类等子类;R表示概念之间的关系,是指战场电磁环境中概念之间的交互关系和逻辑关系,交互关系反映的是概念之间的相互影响,诸如雷达侦察、识别、干扰等;逻辑关系反映的是概念之间的内在联系,诸如概念之间的继承关系、属性关系等;A表示属性,是指电子对抗知识领域中概念所具有的战术指标和技术指标,诸如雷达的频率、作用距离等都是电子对抗知识领域中雷达本体的属性。
本文在上述逻辑结构的基础上,引入知识推理语义元模型(KRSM)的概念[6],并结合多粒度的思想进行电子对抗本体模型设计。KRSM能够全面、形式化地表征电子对抗领域知识。
定义面向知识推理的语义元模型KRSM由不同的4个元素组合而成,如图1所示。
KRSM的形式化表达为K={L,A,I,D},各元素的具体含义如下:
(1)L={l1,l2,…,ln}表示语义元连接边的有穷非空集合,用于描述各类型语义元之间的关联关系,集合中的元素li可以是实例语义元之间的联系,可以是概念语义元间的联系,也可以是实体语义元和抽象语义元间的联系,如:attribute-of表示属性关系,instance-of表示实体类型和抽象类型的关系,kind-of表示节点的父子类关系,part-of表示整体和部分的关系等。
(2)A={a1,a2,…,an}表示抽象语义元的有穷非空集合,集合元素ai可以表示为本体层中的概念类型抽象语义元,例如雷达和电子对抗装备,或有源干扰技术模型以及相关数理模型等,也可以表示实体层中实例化类型的抽象语义元,例如某种具体雷达或电子对抗装备等。
(3)I={i1,i2,…,in}表示具体实例语义元的有穷非空集合,集合元素ij主要由参数实例和语义实例组成,其中属性参数实例主要以可量化和可比较为基础的实例语义元,而语义实例是指以非参数化属性相对应的语义实例。
(4)D={d1,d2,…,dn}表示业务逻辑语义元对象的有穷非空集合,集合中di表示某一个具体的业务运用逻辑语义元对象,例如干扰决策推理逻辑等。其形式化表达如下:
di={Issuei,Solutioni}
(2)
以电子对抗知识语义元为基础,构建的知识图谱在逻辑上由本体层、实体层和交叉映射关系层构成纵向关联关系,由各层相应的概念、属性、特征参数和关系图谱等构成横向的网络化关联关系,如图2所示。
图2 电子对抗知识图谱逻辑结构
在模型设计过程中,将专家知识以及多源知识融合提炼后,形成电子对抗知识图谱本体模型。
以有源干扰领域为例。有源干扰领域本体的主要组成可以分为2类,一类是有源干扰设备的主要组成部件及属性(上层属性、总体属性、干扰参数、指标、天线、发射机、接收机),一类是有源干扰的具体干扰样式(压制干扰、欺骗类干扰、组合干扰)。对有源干扰知识进行枝叶衍生时,将上述各组成部分建立成独立的枝叶节点,依此类推,再以上述枝叶节点为父节点,继续对其组成部件(或属性)进行枝叶节点的衍生。由于不同部件(枝叶节点)间并无交集,因此各分支呈树状关系,无需连接。最终形成的电子对抗知识图谱本体模型的基本结构如图3所示。
图3 电子对抗知识本体模型结构图
2 实体知识抽取
2.1 知识抽取
针对不同电子对抗知识和数据来源,包括电子对抗原理等书籍、Wiki互动百科等公开数据源、专家知识、已经生成的情报数据等,设计不同的抽取方案,以满足不同类型数据的自动化知识抽取需求。最终完成雷达对抗目标的组成、属性、隶属、使用、抗干扰技术等相关知识,雷达有源干扰装备的组成、属性、隶属、使用、干扰技术等相关知识,雷达有源干扰设备交战逻辑知识、干扰与抗干扰技术博弈关系、技术体制与干扰技术对抗关系知识的抽取。
针对互联网来源数据难以获取的问题,采用网络检索与模板匹配辅助的冷启动方式。首先通过调研得到记录部分雷达信息的相关互联网网站,通过网络检索匹配方式抽取其中重要部分,得到实体关系信息,并经过机器翻译、数据消歧、数据清洗等处理手段,得到质量较好的知识抽取数据。
针对存在于公开数据源中的文本段落、电子对抗原理等书籍中的知识,即非结构化的知识,由于知识源形式杂乱,其中的书籍内容为图片形式的PDF,因此难以用通用的自动化抽取工具进行抽取,则由人工处理这些知识源,从中提取有用信息构建本体库及知识图谱。在构建本体库的过程中,以专家知识为指导,构建本体库中的上层枝干;对于叶子结点,则通过手工的方式从非结构化的知识(包括书籍文献和部分公开数据源)中提取出公式、属性集、系统框图等信息,其中图片无法存储在知识图谱中,因此将图片制成静态数据源,而在本体库中仅存储静态数据源的uri链接。其它信息包括雷达组成、功能、体制、发射机、接收机、数据处理、信号处理、上层属性等,均以文字形式在知识图谱中直接存储,如图4所示。
图4 知识抽取数据组织形式示意图
2.2 知识融合
针对抽取的多源数据的不同特点,首先将不同的数据源统一为中文,然后采用基于规则的方法对各数据源的属性进行去重操作,完成多个数据源的实体属性融合。
下一步需要对同一实体进行多源知识补齐,如多个数据源含有同样的表头,先判断内容的属性相似性,相似性高的情况下再把来自不同数据源的数据进行合并。接着对合并后的数据进行实体消歧,使用Rule-based方法进行指代消解。完成合并后的数据仍然可能存在实体重复的问题,需要将实体进行统一和去重。
最后去除稀疏属性和稀疏实体,以此提高数据的存储效率。设置1个阈值,统计表格中的每行(实体)或每列(属性)中数值不为空或不为"NaN"的槽的数目,当该数目少于阈值时将该行或者该列删除。
2.3 知识评估
知识评估主要实现的功能是对已抽取的三元组形式知识的权威度、冗余度、多样性、一致性进行评估,以生成权威、无冗余的知识图谱数据。其中需要解决的核心问题是如何对于这些权威度、冗余度、多样性、一致性进行定义,并选择合适的评估方式。
权威度这个概念在不同领域里的含义不尽相同。大体上可以理解为在领域内权威知识或者专家的评估下,知识准确的程度。冗余度可以理解为以三元组形式储存在知识图谱中的实体节点是否存在重复,冗余度低的知识图谱往往节点互异,逻辑结构更加合理,从而要求抽取的三元组知识能做到完备而不冗余。多样性可以理解为对专业领域的知识调研是否充分,抽取实体来源是否多元,是否涵盖领域内的现有研究成果,从而达到实际应用需求。一致性可以理解为抽取的实体是否与其本体概念相匹配,评估一致性是对实体抽取与本体建模的双向反馈,以完善知识图谱的专业性。
为保证对已抽取知识的权威度、冗余度、多样性、一致性进行合理评估,设计并实施了符合功能需求的评估方案,具体如下:
(1) 从专业领域角度出发,对已抽取知识进行抽样评测,构建标准测试集。首先评估测试集中的知识实体的抽取来源是否满足多源性,从而评估其多样性。实体知识来源应包括但不限于:电子对抗原理等书籍、公开数据源、专家知识、已经生成的情报数据。为评估抽取知识的权威性,对测试样本进行源头回访,调研其信息是否专业权威。
(2) 从工具链角度出发,利用知识图谱可满足功能需求的程度,对抽取知识进行质量评估。为了评估知识冗余度,我们对抽取知识节点人工添加规则后缀,并对节点互异性进行评估,在冗余度评估过程中不断完善知识融合方法,最终得到了低冗余度、节点互异的实体集。
(3) 从构建方法角度出发,利用电子对抗知识图谱的自顶向下性,通过已经构建的概念本体,评估实体知识的一致性。基于Python编写“实体—本体”匹配代码,通过规则匹配方法,评估实体知识是否与本体概念保持一致。
通过上述知识评估功能,对已抽取知识的权威度、冗余度、多样性、一致性进行了有效评估,以生成权威、无冗余的知识图谱数据。
3 知识表示与知识存储
按照前述步骤获得了完备的本体建模模型,以及有效的实体与关系三元组数据,下面将此模型与三元组数据导入知识图谱系统中,以便进行存储、展现和利用。通过Protégé本体建模与知识统一表达技术,运用开源工具Protégé可进行知识表示。生成的三元组数据以owl文件格式存储,该格式可直接作为输入导入到Neo4j图数据库中进行存储和使用。Neo4j具备高质量的图像化展示以及知识图谱操作功能,是一种高性能NoSQL图数据库。其底层为嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,将结构化数据存储在图中而不是表中。将owl文件导入Neo4j数据库后,其基本结构如图5所示。在Neo4j数据库的基础上,可以进行展示图谱、关系推导、图谱导出等功能,以及进行定制化开发,基本能满足实际运用中的各类要求。
图5 电子对抗知识图谱结构示意图
4 知识应用
不同于关系型数据库所使用的结构化查询语言(SQL),基于Neo4j的知识图谱,利用图数据库查询语言(Cypher)进行查询和使用,通过设计过程查询模式,将数据库中组成三元组的节点和关系编码为所需要的查询逻辑。现以已知信号对抗决策为例,说明知识图谱应用设计过程。
在信号参数和样式已知的条件下,可以获知准确度很高的信号样式识别结果。通过该结果在知识图谱的知识库中进行查询,能够获取针对使用该信号样式的雷达进行对抗所需的信息和知识,进而通过决策算法和逻辑生成决策结果。
在此情形下,查询起点位已知信号识别结果,包括雷达型号和体制、雷达工作状态等。如果知识库中相关雷达知识较为完整,并且知识库中包含此前成功对抗的经验知识或仿真结果,则查询终点包括针对此雷达的有效干扰样式和参数。如果针对该雷达或者该信号样式的知识库不完整,知识存在缺失,或此前没有相关对抗经验,则查询终点包括可能有效的对抗干扰样式。最终查询结果为一组包含干扰样式和参数的对抗策略的集合,其中每一条对抗策略均有一个可信度估算值,查询结果按照估算的可信度进行排序,从而形成系统推荐的对抗策略集。
5 结束语
本文对电子对抗领域知识进行基于本体的建模研究,并对包括电子对抗原理等书籍、Wiki互动百科等公开数据源、专家知识、已经生成的情报数据等在内的电子对抗多源数据和知识进行抽取,设计构建了电子对抗领域知识图谱。在后续的研究中,可以结合多种数据分发中间件,包括各类消息队列和数据分发系统(DDS),以及基于web技术的RESTful访问接口,实现对知识图谱的扩展和利用。基于电子对抗知识图谱,设计基于规则的决策或推荐系统,可以在已有设备的基础上,通过增加小规模智能处理单元,实现非智能化设备的智能化升级,同时也能够应用到新一代智能化设备当中,帮助新设备形成跨代优势。