基于语义匹配的作战体系仿真想定生成方法
2021-07-27曾广迅龚光红
曾广迅, 龚光红, 李 妮
(北京航空航天大学自动化科学与电气工程学院, 北京 100191)
0 引 言
随着武器装备智能化和信息化的程度越来越高,未来战场的军事行动将不再局限于传统的单一军兵种独立作战或者几个军兵种共同作战,而是趋向于武器装备体系与体系之间的对抗,因此体系研究逐渐成为了国内外学者研究关注的重点内容[1]。
目前,国内外在面向作战体系的体系结构设计以及建模仿真方法上取得了迅猛的发展,如美军的国防部体系结构框架[2-4](Department of Defense Architecture Framework,DoDAF)、英军的国防部体系结构框架[5-7](Military of Defense Architecture Framework,MODAF)、基于多Agent建模方法[8-10]等。作战体系概念模型作为体系结构设计结果,其中存在大量有价值数据并可在体系仿真模型建模环节中进行重用,而体系仿真模型可用于作战体系仿真想定中,并在仿真过程中运行。然而,由于作战体系概念模型和作战体系仿真想定两类模型数据表现形式不一致等原因,目前两者之间相互割裂、衔接性不强,存在一定的数据壁垒和映射差距。而通用的数据复用方式为专家人员在理解作战体系概念模型设计原则和内容后,人工操作想定编辑器设置并形成相应的仿真想定。此类方法数据重用率高,但存在体系仿真系统开发周期长、开发成本高等弊端。因此,目前需要研究从作战体系概念模型到作战体系仿真想定的自动化映射方法。
同时,国内外尽管在智能映射及语义匹配方面取得了很多研究进展,但用于作战体系概念模型到作战体系仿真想定的具体映射应用还比较少,在实际实现过程中仍然存在着很多需要研究解决的问题。因此,在作战体系建模仿真领域展开语义匹配相关的研究是极其具有意义的。
本文运用本体理论构建了一个作战领域知识库,并基于此设计了一套面向作战领域的语义匹配算法,开展作战体系概念模型到作战体系仿真想定的映射工作,从而实现作战体系仿真想定的生成。
1 基于本体的语义匹配技术
基于本体的语义匹配方法是根据已经建立好的本体网络,通过本体间的组织结构关系和本体自身的属性、实例等信息进行语义相似性的计算。目前,基于本体的语义匹配方法主要分为4类:基于路径距离的语义匹配方法[11-14],基于信息内容的语义匹配方法[15-18],基于特征的语义匹配方法[19-22]和混合式的语义匹配方法[23-26]。
基于路径距离的方法是最基本的计算方法,也是最直观的计算方法,主要利用了本体知识库中的上下位关系,计算方法简单,易于实施,但计算的准确性相对于其他方法较低,且结果较为离散,一般应用于对结果准确性要求不高的情景。基于信息内容的方法源于信息论,本体节点所包含的信息量可通过其在语料库中出现的频率来衡量,频率越高,信息量就越贫乏;反之,所含的信息量也就越丰富。但该方法存在计算信息量需要依赖额外语料库、不同的语料库存在着较大差异的问题。基于特征的方法主要考虑的是两个本体节点之间公共的属性或特征,如果两个本体节点中包含的公共特征信息越多,两个本体节点的相似性越高,反之,其相似性越低。而混合式的方法利用了两种或两种以上的语义信息进行语义相似度的计算,具有较高的准确性,但混合式的计算方法往往需要进行参数的调节,需要耗费一定的时间。
2 作战领域知识库的构建
作战领域知识库是开展基于本体的语义匹配工作的基础。本文依据武器装备的名称、性能参数、同义词等信息,构建作战领域知识库,包括作战领域本体知识库和作战领域同义词库,为后续的语义匹配计算提供支持。
2.1 作战领域本体知识库的构建
本文建立的作战领域本体知识库包含武器装备的类别、武器装备本体间关系、武器装备的名称、性能参数等数据,上述数据均来自于互联网中开源武器装备数据网站。本文通过网络爬虫技术对武器装备数据进行定位、筛选和处理,最终获取得到2 148个飞行器类武器装备数据、1 642个船类武器装备数据、274个潜艇类武器装备数据。
本文根据作战领域内武器装备本体的分类原则和类间关系,建立作战领域概念本体树状知识结构,如图1所示,并将其与武器装备数据进行整合。最终形成作战领域本体知识库,包括本体结构库、飞行器类知识库、船类知识库和潜艇类知识库。
图1 作战领域概念本体知识结构
其中,所述本体结构库为5层结构,前4层结构中的本体均为概念本体,第5层结构中的本体为实际武器装备本体。结构库中第1层具有1个作战装备本体,第2层具有海军装备、空军装备、陆军装备等3个本体,第3层具有船、潜艇、飞机、机场等4个本体,第4层具有49个本体,包括驱逐舰、护卫舰、歼击机等概念本体,第5层具有4 064个本体,包括052C驱逐舰、054A护卫舰、J-10A等具体型号的武器装备。第5层结构中本体的具体性能参数存储于飞行器类知识库、船类知识库和潜艇类知识库中。飞行器类知识库具有2 148个飞行器本体,包括最大飞行速度、最小飞行速度、高度、长度、翼展、最大载荷、空重、最大重量、传感器探测距离、最大载油、载人数等11维性能指标;船类知识库具有1 642个船本体,包括最大航行速度、船宽、吃水深度、长度、满载排水量、空载排水量、传感器探测距离、载人数等8维性能指标;潜艇类知识库具有274个潜艇本体,包括最大航行速度、最大下潜深度、船宽、吃水深度、长度、排水量、传感器探测距离、载人数等8维性能指标。
2.2 作战领域本体同义词库的构建
随着作战领域本体知识库的构建完成,新的问题也随之出现:知识库中本体名称单一。由于体系结构建模人员在建模时使用的武器装备名称不一,往往出现同一本体有多种表述形式的情况,如歼-15战斗机又有英文名J-15、中文绰号飞鲨、英文绰号flying shark等。在这种情况下,多种本体描述名称都指向同一本体,给实际使用知识库处理作战体系概念模型中数据的工作带来很大困扰,若是无法解决此类问题,则无法有效实现后续的语义匹配工作。
因此,本文采用网络爬虫技术通过维基百科网页数据获取武器装备本体名称的同义词信息。本文将获取到的武器装备本体同义词名称和武器装备本体名称共同存储在作战领域本体同义词库中,同时以武器装备本体名称作为名称标准型。若武器装备本体没有同义词,其也将被记录在同义词库中,但其同义词数据为空。因此同义词库涵括作战领域本体知识库中所有武器装备名称及其同义词。
3 面向作战领域的语义匹配算法
(1)
在语义匹配算法的路径距离方面,本文认为两本体间最短路径长度应与总路径距离存在正向关系,而知识库最大深度和与总路径距离存在负相关关系。因此,本文参考文献[27]提出的语义相似度计算方法,采用本体知识库中深度信息和两个本体的最小公共包含节点信息,提出了一种路径距离算法:
Simp(SE1,SE2)=e-Lp(SE1,SE2)
(2)
Lp(SE1,SE2)=α1×Distance(SE1,SE2)α2·
(3)
式中:Lp(SE1,SE2)表示本体SE1和本体SE2之间的权重距离;α1、α2、α3表示待定参数,均应大于零;Distance(SE1,SE2)表示本体SE1和本体SE2之间的距离;LCS(SE1,SE2)表示本体SE1和本体SE2的最小公共包含节点;Depth[LCS(SE1,SE2)]表示本体SE1和本体SE2的最小公共包含节点的深度;Maxdep表示本体知识库的最大深度。
在语义匹配算法的本体特征方面,本文认为如果两个本体中包含的公共特征信息越多,两个本体的相似性越高,反之,其相似性越低。因此本文拟采用文献[10]中基于特征的语义匹配计算方法,定义特征有关函数:
(4)
(5)
(6)
(7)
由于目前国内外面向作战领域武器装备知识语义匹配方法开展的研究工作相对较少,因此缺乏面向作战领域的特有数据集和大型语料库供语义匹配算法测试实验使用。但在自然语言处理领域,语义匹配研究方面已经有着数十年的研究积累,各类数据集和语料库都已相对完备和准确,语义匹配算法的实验方法也趋于成熟。因此本文将语义匹配算法应用于自然语言处理领域,根据自然语言数据库WordNet开展语义匹配方法调参实验工作确定参数的最优取值。
在语义匹配计算领域中,通常使用皮尔森相关系数绝对值的大小来衡量方法的优劣;通常使用R&G数据集和M&C数据集来衡量语义匹配方法优劣。而在实验方法上,已知的大部分通过皮尔森相关系数求取参数的语义匹配方法实验中都采用无监督的实验方法,即直接调节参数,计算在M&C数据集上皮尔森相关系数的最大值,从而确定参数。本文采用此实验方法得到:当α=2.26、α1=9.60、α2=2.93、α3=8.26、β=-0.58、μ=0.46时,本文所提出的的语义匹配算法与M&C数据集的皮尔森系数取得最大值为0.860。通过对作战领域装备知识的分析,可得两装备本体间的语义相似度数值必定与装备本体间特征集合的重合程度成正相关,即β>0,因此取β=0.1。此时,新语义相似度算法与M&C数据集的皮尔森系数取得最大值为0.855。图2为语义匹配算法在α、μ取不同数值下对M&C数据集的语义相似度计算结果与人工打分的皮尔森系数分布。图3为语义匹配算法在α2、α3取不同数值下对M&C数据集的语义相似度计算结果与人工打分的皮尔森系数分布。将实验参数取值代入语义匹配算法公式后在R&G数据集上进行实验,得到语义匹配算法与R&G数据集的皮尔森相关系数为0.857。将本文方法与其他语义匹配计算方法在人工打分结果M&C和R&G数据集上计算皮尔森系数,得到算法计算结果与人工打分结果的拟合程度,列入表1中。
图2 皮尔森系数关于α和μ的分布
图3 皮尔森系数关于α2和α3的分布
表1 不同方法在M&C和R&G数据集上的皮尔森系数
从表1中可以看出,本文所提出的语义匹配算法计算结果在与M&C数据集的相似程度上明显好于其他只依赖路径距离信息的语义匹配算法,同时在R&G数据集的相似程度上也保持了较好的结果。
4 作战体系仿真想定的生成方法
本文所构建的作战体系仿真想定中数据来源于DoDAF 2.0理论指导下使用UML语言构建的作战体系概念模型,该模型在文件格式上遵循XML规范。同时,拟生成的作战体系仿真想定的描述规范为MSDL[32-33],应包含8个内容模块:ScenarioID、Options、ForceSides、Organizations、Environment、Plan、TacticalGraphics、Installations。该想定记载想定名称、作战方信息、参战单位数据、作战计划等作战体系信息。因此,本文提出生成作战体系仿真想定的整体流程如图4所示。
图4 生成仿真想定的整体流程
在解析作战体系概念模型的概念数据前,必须要首先确定作战体系概念模型解析的数据范围和数据表现形式。本文提出确定作战体系概念模型与作战体系仿真想定之间可复用数据的流程。
步骤 1根据想定描述内容的5W原则(Who,What,When,Where,How),结合现有仿真平台模型库内作战模型的具体性能参数,明确作战体系仿真想定文件中记载数据的类型、属性等;
步骤 2根据DoDAF 2.0理论对各视点下不同模型描述范围和内容的规定,明确作战体系概念模型中数据的类型、属性等;
步骤 3将作战体系概念模型中数据与作战体系仿真想定中数据进行比对,确定作战体系概念模型中作战概念数据;
步骤 4根据作战体系概念模型文件的内容与格式,确定作战概念数据的XML标签及节点便于后续数据筛选工作的进行。
经过上述研究流程,确定概念模型中数据与仿真想定中内容模块的对应关系如表2所示。
表2 概念模型数据与仿真想定内容模块的映射关系
仿真想定中缺少数据来源的节点将分配缺省值填入想定。确定可复用数据后,本文采用文档对象模型(document object model, DOM)技术结合Xpath语法在概念模型中定位、筛选目标数据参与语义匹配。因此,本文提出了生成仿真想定的具体流程。
步骤 1调用DOM技术,依据作战体系仿真想定的标准模板构建对象节点;
步骤 2将通过语义匹配的装备数据,按照模板规定插入到指定的对象节点中,若对象节点没有对应数据,则插入默认值;
步骤 3重复步骤1和步骤2直至所有节点均已构建完成,至此形成完整的仿真想定DOM树;
步骤 4将DOM树逆向生成为XML格式文件的方法,导出作战体系仿真想定文件;
步骤 5作战仿真推演平台读取仿真想定验证是否导出正确。
5 仿真想定生成实例及结果分析
为了验证本文提出方法的可行性,构建红蓝双方对抗背景下的编队突防体系进行测试。其中,红方为编队防御体系,作战体系概念模型中红方OV-4组织关系图如图5所示。红方兵力构成共包括052C驱逐舰等15个作战实体模型,以及飞行中队等9个组织概念模型。蓝方为编队突袭体系,其OV-4组织关系图如图6所示。蓝方兵力构成共包括伯克利级驱逐舰等9个作战实体模型,以及飞行中队等5个组织概念模型黑箭头表示模型间关系为“组织”关系,白箭头表示模型间关系为“聚合”关系。
图5 红方组织关系图
图6 蓝方组织关系图
在所规划的红方初始态势中,飞行中队1在空中沿指定路线进行掩护巡逻任务;飞行中队2在机场待命,准备接受指挥所指令升空拦截;预警机KJ-2000在空中指定位置执行预警指挥任务;干扰机JH-7C在空中执行干扰掩护巡逻任务。而在蓝方初始态势中,飞行中队在机场待命,侦察机E-2T已经升空并在指定位置执行预警指挥任务。
本文所规划的红蓝双方对抗过程为:蓝方飞行中队在机场待命结束后,升空对红方空军机场进行空对地攻击任务,并由侦察机E-2T为其提供指引,同时蓝方两艘驱逐舰也向红方防区进行移动;当蓝方飞行中队进入到红方预警机KJ-2000的侦察范围时,该信息传说至红方指挥所,由指挥所智能决定巡逻的飞行中队1或机场待命的飞行中队2进行拦截任务,同时由红方驱逐舰发射导弹对蓝方侦察机进行对空防御性拦截;空中拦截编队执行完任务后返航修整,同时红方两艘驱逐舰也向蓝方进攻的驱逐舰所在区域进行移动。整体作战活动流程如图7所示。
图7 编队突防体系作战活动图
将作战体系概念模型经过数据解析、语义匹配后,得到的结果如表3所示。
表3 编队突防体系的语义匹配结果
依此生成作战体系仿真想定,并导入到仿真推演平台中进行读取。仿真推演平台成功读取作战体系仿真想定,兵力执行活动如图8所示,可知作战体系概念模型中兵力组成关系生成无误、红蓝双方兵力执行活动及顺序关系生成无误。
图8 红蓝双方兵力执行活动
仿真运行开始后的整体态势如图9(a)所示,红方飞行中队1和飞行中队2分别沿指定路线进行掩护巡逻任务,红方KJ-2 000执行预警指挥任务,红方干扰机JH-7G在空中执行干扰掩护巡逻任务,红方2艘052C驱逐舰进入预定路线航行;蓝方飞行中队已经升空按指定路线向红方机场进行突袭,蓝方2艘基隆级驱逐舰也向红方防区航行。随着仿真进程的推进,蓝方飞行中队进入到红方预警机KJ-2 000的侦察范围内,预警机将探查到的信息上报给红方指挥所,由于飞行中队1在对敌方距离上较飞行中队2更近,指挥所派遣飞行中队1前往拦截目标。如图9(b)所示,红方飞行中队1已经偏离原有巡逻轨迹,向着蓝方飞行中队接近。当红方飞行中队1接近蓝方飞行中队后,发射导弹对目标进行打击,如图9(c)所示,蓝方飞行中队已被全部摧毁。拦截任务完成后,红方飞行中队1朝机场方向返航,与此同时,红方驱逐舰发射导弹对蓝方侦察机进行打击,且成功摧毁蓝方E-2T侦察机。最终如图9(d)所示,红方飞行中队1已正确返航。
图9 仿真平台运行结果
通过仿真推演平台运行结果可以看出,本文所生成的作战体系仿真想定得到了有效的执行,且仿真推演进程与作战体系概念模型的设计一致。综合分析,本文所提出的方法有效地克服了作战体系概念模型到作战体系仿真想定之间的数据壁垒。在保证数据有效重用的基础上,通过语义匹配算法将体系顶层设计中的武器装备匹配为仿真平台已有的武器装备模型并参与到仿真想定的构建中,快速生成了作战体系仿真想定。
6 结 论
本文通过网络爬虫技术在开源武器装备网页中进行数据采集形成了作战领域本体知识库,再通过对维基百科页面进行武器装备名称同义词的数据采集,形成了作战领域本体同义词库。文中基于作战领域知识库中的知识,设计了一套面向作战领域的混合式语义匹配算法,并通过自然语言库WordNet对语义匹配算法中的参数进行了实验调整。同时,本文给出了基于语义匹配技术,将作战体系概念进行解析并快速生成作战体系仿真想定的方法。最后通过构建编队突防体系作为仿真演示,经过语义匹配后生成作战体系仿真想定,运用仿真推演平台软件对该仿真想定进行了仿真运行,仿真结果与体系设计预期相符,验证了本文提出方法的有效性,为实际作战体系仿真想定的生成提供了可行的解决方案。