基于多层次LSTM 网络的多智能体攻防效能动态预测模型

2023-02-27丁伟明振军王国新阎艳

兵工学报 2023年1期

丁伟，明振军，王国新，阎艳

(北京理工大学机械与车辆学院，北京 100081)

0 引言

在未来作战过程中提前预知装备体系的作战效能，是对体系作战方案进行优化并最终赢得胜利的重要前提。装备体系可视为一种典型的多智能体系统(MAS)［1］。近年来，多智能体系统在交通管理［2］、信息处理［3］、导弹防御［4］等方面表现出良好的环境适应性和鲁棒性。该类系统通常由共享同一个公共环境、具备自主交互能力的智能群体组成，利用传感器感知环境并通过执行器输出动作，能够彼此协作完成指定的复杂任务。如何基于MAS 仿真准确地动态预测作战效能，一直是未来战争面临的重要课题，其目标是通过探索效能演化过程规律，为指挥人员提供更全面、更准确的体系效能评估，从而提高作战过程的决策能力和应对突发事件的调整能力。

作战体系效能预测是多智能体攻防(MAAD) 问题中克敌制胜的重要手段，通过综合评估历史效能数据来预测我方的作战效能及战场走势，可为作战决策提供有力的保障。若战场缺乏效能预测辅助支持，将不利于作战指挥者做出准确且全面的即时决策。

在作战对抗方面，相关专家学者对表征作战效能的相关数学模型进行了研究。例如，牛德智等［5］从飞机作战效能评估的角度出发，建立了能够表征数据链效应的改进Lanchester 方程航空作战模型，为空战决策提供了参考依据。Peng 等［6］采用基于系统动力学理论建立作战仿真和损耗预测模型，分析了影响红蓝两军作战效能的因素，为有效实施战场援助提供了科学分析。无人集群作战效能方面，齐智敏等［7］从群体能力、作战条件和群体条件三个维度，建立智能无人机群体作战效能空间，为下一步构建智能无人机群体作战效能评估模型、优化评估方法奠定了基础。刘显光等［8］提出了一种基于多层次指标权重和灰色理论结合的有人/无人机反舰作战效能评估模型，为智能战场效能评估研究提供了新思路。

在地空作战效能评估方面，也取得了颇多成果。魏武臣等［9］从快速响应需求、平台安全性需求、投放灵活性需求、任务效率、效费比5 个方面进行分析，提出了基于作战仿真推演的空-地制导弹药效能评估方法，为指挥员提供了辅助决策支持。郭雷平等［10］采用指标聚合方法评估合成部队主要光电装备在体系对抗中的作战效能，分析基于观察、判断、决策、行动(OODA) 环的光电装备作用，面向侦察打击全过程建立了光电装备作战效能评估模型。王瑛等［11］针对无人机作战编队问题，使用美国国防部体系结构框架(DoDAF) 构建了无人协同作战体系框架，建立了协同作战能力指标体系，突破了单项效能指标的局限性。韩月明等［12］梳理了集群协同作战效能评估方法，阐述了各自特点及适用性，并对作战效能评估研究领域的发展动向进行了展望。随着人工智能的迅速发展，效能预测方面也获得了巨大的研究潜能。刘国强等［13］对炮光集成武器系统的作战效能进行了有效的评估和预测，建立了相应的效能评估模型和反向传播神经网络(BPNN) 预测模型。任俊等［14］针对武器装备体系效能评估在高维噪声小样本数据条件下准确性不高的问题，提出一种基于堆栈降噪自编码与支持向量回归机的混合模型。

综上所述，当前研究提出了诸多效能预测模型和估计算法，为解决作战效能预测问题提供了有效支撑。然而，现有文献多为个体能力到作战效能两层之间的直接映射，缺少从多层次角度深入探究自底向上涌现过程中个体决策、群体结构和作战效能三层间的映射关系。此外，在攻防体系效能预测技术方面也欠考虑作战过程中动态时序性因素的影响，从而难以达到对攻防作战效能的定量预测精度要求。

针对上述问题，本文基于自底向上和OODA 环建立攻防体系的总体框架和作战流程，采用多主体NetLogo 平台获取MAAD 过程的多层次动态演化数据，利用善于处理时序数据的LSTM 网络，构建个体决策、群体结构和作战效能三层间的定量映射关系，最终通过所建映射关系来准确预测未来攻防作战效能。

1 问题描述与分析

在多智能体攻防过程中，同构或异构的双方智能体处于跨域/全域的作战环境，智能体数量的增加往往会导致模型的输入更为复杂［15］。与此同时，随着攻防作战的推演，作战效能也随时间不断更新变化，突发事件时常发生。因此必须对体系作战效能进行提前准确预测，才能使其具备快速的响应能力和精确的调整能力。

事实上，MAAD 可看作是个体间通过预设初始行为而产生复杂模式的无规律涌现现象。本文希望通过所建立的MAAD 作战效能预测模型来揭示这种涌现过程的不可预知性，并进一步预测未来时刻攻防作战效能。为了实现从多层次角度深入探究在涌现过程中个体决策、群体结构和作战效能三层间的映射关系，并在技术上提高对攻防效能的精准预测，所构建的模型应满足以下特点:

1) 多层次: 由图1 可以看出，MAAD 过程本质上是自底而上由个体决策层汇聚到群体结构层，并最终演化为整个作战效能层的涌现过程。每个层次的参数之间存在一对多、多对一、多对多的耦合映射关系。多层次的MAAD 总体框架既有利于梳理各层次的相关参数，也揭示了中间层在效能预测过程中的内部映射关系。

图1 所构建模型的多层次特征Fig.1 Multi-level characteristics of the established model

2) 时序性:通过整合具有非线性和时变性的时间因素，揭示个体决策、群体结构和作战效能之间的演化规律。随着个体决策参数的改变，形成新的群体拓扑网络结构，最终导致不同的作战结果。

3) 定量化: 从数学定量化的角度，分析并实现个体决策、群体结构和作战效能之间的函数关系映射，并基于该映射来预测未来攻防效能，为下一阶段探索装备作战性能的优化设计奠定基础。

如图2 所示，横坐标表示时间，纵坐标表示每个层次的有效参数，同一条颜色线表示一个完整的自底而上的攻防作战涌现过程，反映了模型具有时序性特征。从图2(a) 到图2(b)，给定多组仿真中不同底层参数(速度、攻击等) 的预设初值，通过自底而上自发涌现产生相应的中间层参数(密度、距离等) 。图2(b)、图2(c) 显示了从中间层参数到顶层参数(如效率、成本等) 的涌现过程。其中，所建立模型的量化水平是通过实际值曲线与预测值曲线的吻合程度来衡量的。由此，本文希望通过定量化手段来揭示攻防作战过程中的复杂涌现现象，并以此进一步提高对作战效能的预测精度。

图2 所构建模型的时序性定量化特征Fig.2 Temporal and quantitative characteristics of the established model

2 MAAD 体系的动态预测模型

2.1 攻防作战环境的构建

围绕MAAD 问题，首先定义多智能体集群的总体框架，其次设计攻防的作战流程，最后使用NetLogo 仿真平台［16］搭建所需的作战攻防环境，为接下来的获取训练数据做准备。

2.1.1 总体框架

多智能体攻防是一个多层次的动态复杂无规律涌现过程。顶层作战效能参数与底层个体决策参数之间虽然存在一定的相关性，但智能体彼此通过交互通信形成群体结构的这一过程并未体现。为揭示这种涌现行为的因果关系，使得更加准确地反映多层次MAAD 攻防作战过程，基于自底而上涌现机理［17］，将总体框架分为个体决策、群体结构和作战效能3 个层次，如图3 所示。

图3 基于自底而上涌现过程的MAAD 总体框架Fig.3 Overall framework of MAAD based on bottom-up emergence

个体决策层包括底层参数，如每个智能体的通信、移动、攻击和侦察等属性。在群体结构层上采用Boids 策略，根据周围智能体的位置和速度移动其位置。作战效能层相当于一个指控中心，用来记录实时攻防效能。该总体框架有助于解决MAAD 建模中层次不清的问题，将智能建模技术融入框架中，充分体现多智能体集群的自学习特性。

2.1.2 攻防流程

攻防作战采取OODA 循环，从观察、判断、决策、行动4 个步骤出发，对MAAD 的作战流程进行分解。在MAAD 过程中，一定数量的多智能体集群M1执行OODA 循环，并向多智能体集群M2发起进攻。与此同时，M2针对M1的策略来执行自身OODA循环。由此，M1与M2的OODA 环之间形成交互状态，如图4 所示。

图4 基于OODA 循环的MAAD 作战流程Fig.4 Operational process of MAAD based on OODA loop

本文MAAD 的作战流程具体如下:

1) 观察:当M1进入到M2的观察范围内时，M2以一定概率观察到M1的入侵;同样地，当M2落入M1的观察范围内时，M1也以一定概率观察到M2。

2) 判断: 当观察到M1后，M2经过判断响应时间，完成对M1的定位;同样地，当M1发现M2后，M2的定位也就此完成。

3) 决策:当M2完成对M1的定位后，经过决策响应时间，形成对M1的决策;同时，当M1完成对M2的定位后，形成对抗M2的行动决策。

4) 行动: 当M2完成对M1的决策后，M2根据Boids 策略采取行动;此时M1也以一定的攻击概率攻击M2。

5) 当所有M1或M2被全部消除时，红蓝双方作战仿真结束。

2.1.3 环境构建

本文使用的NetLogo 平台能够很好地建立微观个体行为与宏观模式涌现之间的关系，特别适用于模拟随时间发展的复杂系统。在本文构建的攻防环境中存在两组多智能体集群，即红方和蓝方。红蓝双方按2.1.1 节的总体框架进行设计，按2.1.2 节所制定的攻防流程执行。

如图5 所示，所构建的MAAD 环境分为5 个区域，即控制区域、显示区域、顶层参数可视化区域、中间层参数监测区域、底层参数初始化区域。其中，C、R 和A 分别表示指控、侦察和攻击基地，用于生成相应智能体。五边形图案代表指控智能体;方形图案代表侦察智能体;箭头图案表示攻击智能体;黑色、绿色和黄色虚线分别表示每个智能体之间的攻击、指控和通信指令。其中，指控和攻击指令是单向的，通信指令是双向的;白色数字表示每个智能体的编号。

图5 使用NetLogo 平台构建的MAAD 动态环境Fig.5 Dynamic environment of MAAD reconstructed using NetLogo platform

2.2 多层次数据的获取

首先明确3 个层次上个体决策、群体结构、作战效能的参数含义和表达形式;然后随机选择初始个体决策参数模拟攻防过程;最后，基于2.1 节所建立的MAAD 环境，通过时间轴连续快照方式，获得群体结构、作战效能随时间的演变过程数据。

2.2.1 个体决策参数

攻防智能体的个体决策参数如表1 所示。

个体决策参数可分为3 类:

1) 静态参数。其定义拟采用〈属性: 能力指数〉二元组的形式表示，例如静态参数记为［〈攻击:85〉，〈防御: 70〉，〈速度: 60〉，…］。

2) 交互参数。每个智能体从攻防过程中获得奖罚值，实现与环境的不断交互。其中，回报是指攻防所带来的奖励，成本是指攻防所消耗的资源，士气则可以反过来影响智能体的能力。

3) 动态参数。包括以下3 类:影响个体决策的总效用值、反映个体密度的涌现系数和防止智能体碰撞的避障系数。如表2 所示，本文将总效用分为自我效用和协同效用两部分，尽可能地满足智能体自我收益与群体协同收益的最大化，再使用Sigmoid函数将总效用值设定在(0，1) 之间。

表2 多智能体攻防过程中的效用部分Table 2 The utility part of multi-agent attack and defense process

自我效用:

协同效用:

总效用:

式中:自我效用U1取决于个体的参与范围Pr、参与数量Pn和参与时长Pt;协同效用U2取决于多智能体在攻防过程中己方彼此合作和双方彼此竞争的相关参数，包括合作范围Cr、合作范围内的智能体数量Cn、合作时长Ct、竞争范围Br、竞争范围内的智能体数量Bn、竞争时长Bt，其中两种效用的参数彼此耦合，例如个体的参与范围Pr与己方合作范围Cr、以及双方竞争范围Br是相互影响的。

除此之外，尽管每个智能体所采用的效用函数类型可能相同，但由于其输入不同(例如周围智能体的数量不同、距离不同、作用效果不同等)，且侦察、打击、指控单元因初始参数设定不同，由此获得的效用值也是不相同的。

值得注意的是，本文只研究同质智能体，即红方、蓝方的初始化参数相同。通过NetLogo 软件中的滑块功能灵活地调整个体决策参数，为获取下一级参数做准备。

2.2.2 群体结构参数

借鉴数学中的图论思想［18］，将每个攻防智能体看作是一个节点，节点间是否存在连边取决于智能体间的通信范围，定义以下群体结构参数:

1) 群体规模(PS) :群体规模取决于节点的个数N 和连边的数量E，

2) 群体密度(PD) :群体密度通常定义为在具有N 个节点的群体中，连边数与节点两两组合总数的比值，

式中:Emax表示节点两两排列组合总数。

3) 聚类系数(CC) :某节点聚类系数与其相邻节点之间的连边数呈正比，与其相邻节点数的二次方呈反比，整个群体的聚类系数是所有节点聚类系数的平均值，

式中:ni表示为第i 个节点的相邻节点数;ei表示这些相邻节点数之间的连边数。

4) 均匀系数(UC) : 某节点的均匀系数等于其相邻节点之间的连边数，整个群体的均匀系数是所有节点的均匀系数的平均值，

5) 整体跨度(OS) :整体跨度指群体结构中最大路径的连边数，

式中:P 表示最大路径中的连边数。

6) 连通指标(CI) : 其值越小，说明群体孤岛现象越严重，彼此间节点联系越弱。

7) 平均距离(AD) : 在图论的基础上，通过引入了真实距离来表示建立通信的智能体之间的空间分布，

式中:Di表示两个节点之间的距离。

图6 为用来解释群体结构参数的多智能体分布图。图6 中:黑色圆圈表示智能体(数量为5)，用大写字母表示;阿拉伯数字表示两智能体之间的实际距离;绿色虚线表示各智能体的通信范围;实线表示两智能体之间的通信连边，其中红线表示能够建立通信的连边(数量为3)，黑线表示无法建立通信的连边(数量为7)，故Emax为10。

图6 用来解释群体结构参数的多智能体分布图Fig.6 Multi-agent distribution diagram for explaining the population structure parameters

从整体跨度和连通指标的定义看，OS=3 和CI=2。进一步，智能体A 只能与E 建立连边，智能体E 的连边数量为2;而智能体E 可与A 和B 建立连边，智能体A 和B 的连边数量分别为1 和2，由此可得nA=1，eA=2，nE=2 和eE=3，其中，nA和nE表示与智能体A 和E 的相邻节点数;eA和eE表示与智能体A 和E 之间所建立的连边数。

根据2.2.2 节定义的式(4)～式(10)，通过数据代入计算，得到式(11)～式(15) :

利用AutoCAD 辅助工具将NetLogo 平台中显示区域(见图5) 描述的攻防过程转换为更直观的示意图(见图7)，用于分析攻防智能体的群体结构，并利用2.2.2 节的方法计算相应参数。在图7 中，可以方便地测量智能体间的距离，并快速得到智能体的数量和连边。

图7 利用AutoCAD 辅助工具绘制的攻防群体结构示意图Fig.7 Schematic diagram of attack and defense population structure drawn by AutoCAD

2.2.3 作战效能参数

将任务完成率、作战效率、作战成本视为作战效能参数。

1) 任务完成度(TC) :指对方智能体的改变量占集群总数的百分比，公式如下:

式中:TCM1表示多智能体集群M1的任务完成度;表示集群M2中智能体的损失数;表示集群M2由相应基地所产生的智能体数;表示集群M2中智能体的总数。

2) 作战效率(OE) : 指单位时间内智能体的变化量。

式中:OEM1表示多智能体集群M1的作战效率;表示集群M1中智能体的损失数;表示群集M1中智能体的生成数;t 表示时间长度。

3) 作战成本(OC) : 指对方智能体改变量与我方智能体改变量的比例。

式中:OCM1表示多智能体集群M1的作战成本。

2.3 定量化代理模型的映射

2.3.1 代理模型:LSTM 网络

LSTM 网络［19］具有处理长期时序信息的能力，在给定序列xt=(x1，x2，…，xn) 的情况下，预测序列yt=(y1，y2，…，yn) 可表示为如下形式:

式中:下标t 表示时间序列;ht=(h1，h2，…，hn) 为隐含层序列;f 表示非线性激活函数，如tanh 或ReLU函数;下标x、h、y 分别表示输入层、隐含层、输出层;Wxh表示从输入层到隐含层的权重矩阵;Whh表示隐含层的权重矩阵;Why表示从隐含层到输出层的权重矩阵;bh表示隐含层的偏置向量;by表示输出层的偏置向量。

LSTM 网络在循环神经网络隐含层的神经节点中增加记忆单元来存储历史信息，并增加输入、遗忘和输出门来控制历史信息的使用。图8 中，i、f、o、c分别表示输入门、遗忘门、输出门和单位状态。W为相应的权重矩阵，b 为偏置向量。

图8 LSTM 网络结构图Fig.8 Structure of LSTM networks

式中:Wxi、Whi、Wxf、Whf、Wxc、Whc、Wxo、Who分别为输入门i、遗忘门f、单位状态c、输出门o 所对应的输入层x 和隐含层h 的权重矩阵。

2.3.2 函数映射关系

在NetLogo 获取攻防数据的基础上，利用2.3.1 节的LSTM 对关联关系进行定量分析，建立个体决策、群体结构和作战效能间的多层次映射函数(见图9) 。

图9 MAAD 多层次间的关联逻辑和映射关系Fig.9 Correlation logic and mapping relationship between multiple levels of MAAD

1) 个体决策-群体结构的映射函数

将个体决策层次上的静态参数、交互参数、动态参数作为输入数据X，以时间轴连续快照方式获得的群体规模、群体密度、聚类系数、均匀系数、整体跨度、连通指标和平均距离等7 个群体结构参数作为输出数据Y。考虑时序因素，采用LSTM 对X、Y 间的非线性关系进行拟合，建立映射函数Y=f(X，t) 。

2) 群体结构-作战效能的映射函数

将输出数据Y 作为该阶段的输入，以时间轴连续快照方式获得的任务完成度、作战效率、作战成本作为输出数据Z。同样采用LSTM 对Y、Z 间的非线性关系进行拟合，建立映射函数Z=g(Y，t) 。

3) 个体决策-群体结构-作战效能的映射函数

结合上述两种非线性函数，形成个体决策、群体结构和作战效能三层间的映射关系。该模型考虑了底层个体决策行为、中层群体结构特征和顶层作战效能变化，建立三者间的关联逻辑。与两层间函数映射相比，从自底而上涌现的角度解释了多层级间的映射关系，揭示了MAAD 的总体设计机制，可基于该映射关系来预测未来攻防作战效能。

2.3.3 多层次LSTM 的使用方法

进一步介绍多层次LSTM 的使用方法，揭示其数据存储方式、训练预测过程和中间数值变化。

2.3.3.1 数据存储方式

图10 揭示了LSTM 网络在预测多智能体攻防作战效能过程中的数据存储方式。本文将200 组通过NetLogo 仿真获得的数据集按照6∶2∶2比例划分为训练集、验证集和测试集，这些数据存储在同一个元胞数组中，其中元胞数组的每个空间存放1 组仿真结果，包含20 ×T 维个体决策变量矩阵、7 ×T 维群体结构变量矩阵和3 × T 维作战效能变量矩阵(矩阵横向表示相应参数，列向表示仿真周期) 。由于每次攻防过程的仿真结束时间不同，每组序列T1，T2，…，Tn的长度各不相同。

图10 多层次LSTM 网络的数据存储方式Fig.10 Data storage method of multi-level LSTM networks

2.3.3.2 训练验证过程

图11 显示了LSTM 网络对作战效能的训练预测过程。首先基于120 组训练集数据构建LSTM 模型，以个体决策变量为输入、群体结构变量为输出训练第1 层个体决策-群体结构LSTM 网络;然后采用40 组验证集数据进行调整模型的超参数，并对模型的能力进行初步评估;在每个epoch 完成后，利用40 组测试集数据测试当前模型的准确率，并评估最终模型的泛化能力，预测下一次仿真的群体结构变量。同理，以预测得到的群体结构变量为输入、作战效能变量为输出构建第2 层群体结构-作战效能LSTM 网络，实现对下一次攻防作战效能的预测。

图11 多层次LSTM 网络的训练预测过程Fig.11 Training prediction process of multi-level LSTM networks

2.3.3.3 中间数值变化

如图12 所示，ct-1维度S=(1，units)，其中units为前一个单元传入的神经元个数;xt和ht-1通过水平拼接构成一个向量S=(xt+ht-1，1) ;每个逻辑门的权重W 维度S=(units，xt+ht-1)，偏置b 维度S=(units，1) 。

图12 多层次LSTM 网络的中间数值变化Fig.12 Middle-value change of multi-level LSTM networks

3 基于NetLogo 平台的攻防作战效能预测

利用本文建立的多层次映射关系对MAAD 过程的作战效能进行预测，并给出实验对象、仿真数据、评价指标、参数设定、仿真结果、统计分析。实验仿真通过NetLogo 6.2.0 平台获取数据，在Window 10下使用MATLAB 2021a 进行回归拟合。

3.1 实验对象与数据

为更直观地观察MAAD 情况，将基于NetLogo平台的红蓝双方完整攻防过程分为8 帧，如图13 所示。图13 中:第1 帧中红蓝双方智能体均由相应的基地随机生成，并遵循Boids 策略采取行动;在第2 帧中，红方首先发起进攻指令，蓝方则继续搜索目标;在第3 帧中，红方已经消灭一部分蓝方智能体，而蓝方才刚刚发现目标准备反击;从第4 帧到第7 帧，红蓝双方不断移动自身位置，相互攻守;第8 帧显示红方几乎被完全消灭，作战仿真结束。

图13 采用NetLogo 平台的红蓝智能体攻防仿真流程Fig.13 Simulation of the attack and defense of red and blue agents using NetLogo platform

在训练LSTM 网络前，必须先明确数据集并进行相应的预处理［20］，将其200 组数据集按照6∶2∶2比例分成训练集、验证集和测试集。其中，训练集包含120 次NetLogo 仿真得到的训练输入集(input_train) 和训练输出集(output_train) 。同样地，验证集包含40 次仿真的验证输入集(input_validation) 和验证输出集(output_validation)，测试集也包含40 次仿真的测试输入集(input_test) 和测试输出集(output_test) 。根据训练集建立回归模型，再通过验证集调整模型超参数，使用测试集得到预测输出(output_pred)，比较与测试输出(output_test) 之间的误差来衡量所建立模型的精度。

表3 为120 次NetLogo 攻防模拟中第N 次个体决策参数的初始化情况，其中个体决策参数的静态参数、交互参数以及动态参数的取值范围不同，本文按照均匀分布uniform 对参数进行随机初始化，并通过所构建NetLogo 平台中底层参数初始化区域的滑块功能来设置参数。表4 为记录第N 次仿真中红蓝双方群体结构和作战效能层次下的动态数据。

表3 第N 次仿真中个体决策参数的初始化Table 3 Initialization of decision-making parameters in the N-th simulation

表4 第N 次仿真中多智能体攻防的群体结构和作战效能参数Table 4 Parameters concerning population structure and operational effectiveness of the MAAD in the N-th simulation

由于120 次攻防过程的仿真时间不同，每个序列的长度各不相同。为减少小批量的填充量，在使用LSTM 网络之前将训练数据按序列长度排序，指定小批量大小为24。图14 显示了未排序序列和已排序序列的填充情况。

图14 数据预处理:对训练数据的小批量分割Fig.14 Data preprocessing: dividing the training data into mini-size batches

3.2 评价指标与参数设定

本文使用均方误差MSE、平均绝对误差MAE 和相关系数R 指标来评价模型性能，NetLogo 平台和LSTM 网络参数设定见表5。

表5 模型参数设定Table 5 Parameter settings of the model

3.3 仿真结果与统计分析

在40 组测试仿真中随机选取第4 组、第21 组和第35 组，并对3 个作战效能参数的预测进行可视化。表6 给出了基于本文所建效能预测模型的测试数据拟合效果图，图例中真实数据为通过多智能体NetLogo 软件获取的红蓝双方攻防作战的测试数据，而预测输出为在已知个体决策数据的前提下，通过多层次LSTM 网络得到的新一轮预测输出。

由表6 可看出，随机选取的三组测试仿真，无论对红方还是蓝方进行预测，都取得了很好的拟合实验结果。这也说明本文构建的多智能体攻防效能预测模型能够实现较高的预测精度，进而指导多智能体做出更全面、更准确的决策。

表6 作战效能参数中测试数据与预测输出的比较Table 6 Comparison between the tested and predicted output concerning operational effectiveness parameters

为清楚地观察红蓝双方作战效能参数的绝对预测误差，利用频率分布直方图的形式进行可视化，除了个别预测点外，总体误差大致呈现中高两端低的高斯分布(见表7) 。通过学习，预测在可接受的误差范围内有效完成。其中，红蓝智能体的任务完成度预测误差基本在［-1.5，1.5］之间。同时，作战效率和作战成本的预测误差范围分别为［-0.1，0.1］和［-0.06，0.06］。

表7 用频率分布直方图表示作战效能参数的绝对误差分布Table 7 Distribution of absolute errors concerning operational effectiveness parameters using frequency distribution histograms

表8 表示作战效能参数的平均相对误差MRE，从第4 组、第21 组和第35 组测试仿真，可看出双方作战效能参数的平均相对误差百分比分别在6%、7%、5%、4%、6%、5%以内。至此，可以证明本文所建模型在攻防效能预测方面是稳定的。

表8 作战效能参数的平均相对误差Table 8 MRE of operational effectiveness parameters

表9 给出了分别以多智能体红蓝方攻防对抗中任务完成度、作战效能、作战成本为对象的6 种模型方法的性能指标比较结果，并分别列出了7 个评价指标，包括最大值Max、最小值Min、平均值Mean、标准差Std、误差平方和SSE、均方误差MSE 和均方根误差RMSE。由表9 可以看出:本文所使用的LSTM建模方法比同类方法BPNN 和RNN 的各项误差指标较小，说明该方法的预测精度较高，这主要是因为多智能体攻防数据具有时序性，LSTM 相比于BPNN在处理该类数据时具有优势，且避免了RNN 网络中的梯度消失问题;可看出单层次LSTM 与多层次LSTM 的预测误差指标相差不大，后者略优于前者，但多层次LSTM 网络能更加有效地梳理各层次的相关参数，也揭示了中间层在效能预测过程中的内部映射关系。为了进一步证明本文方法的有效性，以多层次LSTM 网络为参考目标，采用Wilcoxon 符号秩检验进行非参数检验，相应结果见表9。上述结果表明，本文方法明显优于其他方法，在预测多智能体红蓝方攻防过程中作战效能方面可达到较为全面的精度指标和映射要求。

表9 不同方法的性能指标比较Table 9 Comparison of performance indicators using different methods

续表9

为避免外界干扰对所建模型的偶然因素影响，表10 综合分析了40 组测试集预测结果的相关评价指标，可得出以下结论: 1) 蓝方的预测精度普遍高于红方;2) 作战效率的参数预测优于其他两项;3) 从相关系数基本在95% 以上可以看出，本文建立的模型具有一定的稳定性和鲁棒性;4) 表10 中数据证明了本文体现基于多层次动态特征的模型可应用于多智能体的攻防效能定量化预测。