APP下载

复杂任务下的多智能体协同进化算法

2021-04-13刘家义岳韶华姚小强

系统工程与电子技术 2021年4期
关键词:全局协同状态

刘家义, 岳韶华, 王 刚, 姚小强, 张 杰,*

(1.空军工程大学防空反导学院, 陕西 西安 710054; 2.空军工程大学研究生院, 陕西 西安 710054)

0 引 言

多智能体系统建模以图论相关知识为基础,利用点状态与边状态之间的关系对多智能体之间的信息关系与交互博弈进行描述,当前主要针对多智能体系统的一致性与降阶问题进行研究探讨[1]。文献[2]利用基于事件的控制策略,研究了具有时滞的线性有向多智能体系统的一致性问题。为了避免智能体间通信的连续性和控制器更新的频繁性,提出了一种基于事件触发函数的控制策略,该函数由测量误差和基于邻居离散状态的阈值组成。同时,在事件触发函数中引入时变偏移量,以排除接近一致的潜在吊诡行为与减小的理论阈值。文献[3]针对一类高阶非线性多智能体系统,结合回溯技术,提出了一种基于观测器的自适应一致跟踪控制策略。该方法通过对每个跟踪器建立基于神经网络的状态观测器,解决了高阶非线性多智能体系统的不可测状态问题。文献[4]研究了异构线性多智能体系统的最优一致跟踪问题。通过引入跟踪误差动力学,将最优跟踪问题重新表述为求解多智能体博弈的纳什均衡解与关联耦合哈密顿-雅可比方程。设计了一种基于数据的误差估计器,用于实现多智能体系统基于数据的控制。利用二次函数逼近每个智能体的值函数以及利用最小二乘意义上的迭代技术,学习算法通过输入-输出得到最优协同控制。该理论不依赖于多智能体系统的模型,而是利用实测的输入输出信息来解决多智能体系统的最优一致问题。文献[5]研究了分数阶多智能体系统通过采样数据事件触发控制的一致性。首先,利用采样状态定义事件触发算法,可以避免Zeno行为。在此基础上,提出了一种分布式控制协议,保证了分数阶多代理系统的一致性,以确保多代理系统中的所有代理都达到指定的参考状态。利用线性矩阵不等式,获得保证分数阶多智能体系统一致性的充分条件。

本文基于学者已发表文献的基础上,就已经构建好的智能体系统内部博弈模型与分布式多智能体指挥控制系统的基础上,讨论在多智能体系统处理复杂任务时的协同算法设计。针对多智能体系统的协同优化问题,提出了复杂任务下的多智能体协同进化算法,算法主要应用于多智能体协同处理的复杂任务上,从复杂任务的角度研究多智能体系统的协同优化问题。

本文主要研究内容有:首先提出复杂任务下的多智能体系统协同优化问题并建立数学模型,基于问题提出解决方法与基础算法;接着针对算法设计基本流程,根据适应度函数选取、确定学习步长、状态转移方向确定、智能体状态更新、多智能体系统群进化操作这些步骤对算法进行具体描述;最后针对已经提出的算法进行仿真实现,以全局收益作为分析对象,分析算法模型的有效性并加以证明。

1 复杂任务下的多智能体系统协同优化问题

1.1 问题提出

多智能体系统具有优越的自主性和不可预测性,在处理复杂问题方面具有解算能力强、收敛速度快、鲁棒性强等优势[6],但是由于多智能体系统内部各智能体的自利性与多智能体系统的能力调度问题过于复杂[7],导致该问题至今还没有一个合适的算法模型进行合适的求解。文献[8]通过分析飞行器航线规划的技术特点,结合多智能体系统的分布式背景,引入协同进化机制,提出了基于多智能体协同进化的飞行器航路规划算法。文献[9]提出当前Markov决策存在随机不确定性与态势信息不完全,通过模仿生物间共生互利的特点为多智能体协同提出了新的思路,用一个神经网络表示一个智能体获得的态势信息映射,通过协同进化神经元方法进化单个智能体,为多智能体系统的协同机制提供了新的思路。

由于战场态势变化复杂且信息量巨大,本文将基于现有的理论基础,针对该特点设计了复杂任务下的多智能体协同进化算法,目的是提高多智能体系统解决复杂任务的速率并降低系统复杂度,消除多智能体系统在处理复杂问题的短板。算法期望是在一定时间内,利用计算能力较强的多智能体系统快速获取全局最优解,实现战术目标。以多智能体系统的损失值为对象,通过分析损失值的迭代递减特性,证明了算法的有效性。针对防空反导领域的分布式协同作战指控问题,结合强化学习开发架构,设计开发了多智能体指控系统,并针对强化学习网络进行具体分析,对系统进行体系架构分析,并对迭代训练后的多智能体指控系统进行数据演示。

1.2 数学方法与模型

1.2.1 智能体状态转移模型

在本节中,将对多智能体系统处理复杂任务过程中通过智能体的状态转移进行模型构建,研究利用多个智能体的协同状态转移问题。

(1)

(2)

式中,假设ηi j(t)满足sup|η(k)(t)|≤ρk,ρk(k=0,1,2,…)为正实数序列。

1.2.2 多目标优化方法

由于各个目标之间可能存在冲突或者制约关系,且多目标优化问题不存在唯一解,而是存在最优解集,多智能体系统中的多目标问题主要求解方法如下[11]。

(1)线性权重加和法

该问题的求解难度在于权重如何分配,具体如下:

(3)

(2)奖惩函数方法

使用奖惩函数作为优化问题的求解方法,其设计思想来源于单智能体系统与杆平衡系统,杆平衡系统的奖惩函数设计方式过于单一,主要为在智能体转移状态后,失败的奖罚值为-1,成果的奖罚值为0。该系统存在几个明显的缺陷:① 智能体执行任务过程中无法定义其状态转移是否为最终的收益做出贡献,且无法确定具体的贡献有多大。② 奖惩函数的基本设计原则是智能体在最大化收益的同时完成任务目标,设计奖惩函数是给定任务目标,而不是指挥智能体一步步完成任务目标,如果按照状态转移的步骤给予奖赏,则智能体很有可能偏离方向,片面地朝着奖赏方向发展,不利于任务目标的实现。修改后的奖惩函数具体如下:

(4)

本文将基于原有的奖惩函数进行优化设计,增大全局收益最大化对于智能体收益影响的效果,尽可能减弱智能体的自利性[13]。

2 多智能体协同进化算法

2.1 算法基本原理

本文基于差分进化(differential evolution, DE)算法进行算法[14-16]优化,设计出多智能体协同进化算法(multi-agent co-evolutionary algorithm,MCA),主要分为两个阶段。

第一个阶段借鉴了人类在全局搜索中的学习行为,结合启发式搜索算法[17-18]的理念,在优化问题求解中融入智能搜索行为,其主要思想为:以一个优化解为基础,在该解的附近领域内可能存在更优解,所以当搜索到更优解的时候,则进行迭代继续搜索更优解,当不存在更优解的时候,则停止搜索,完成状态更新,获得优化问题的第一阶段求解[19-20]。

MCA算法第一阶段基于模拟人类的搜索行为,主要由自利行为、全局收益最大化、不确定性推理等组成:① 自利行为[21]。智能体系统通过协同机制完成复杂任务,其协同方式是基于自身利益进行状态的改变,根据历史经验向最佳位置移动。② 全局收益最大化。全局收益最大化可以促进个体与全局之间的协同,通过态势共享、信息交互、历史经验交互、基于一个共同的全局收益不断优化自身的行动[22]。③ 未知行为推理。针对最优解获取问题,常采取集中搜索,即缩小较优邻域,继而采用自适应机制搜索领域内的最优解。在这种不确定性问题求解中,一般人类的思维是构建模糊系统,基于这一特点,利用人类对于行为控制和语言描述的模糊性特点构建模糊系统,同时制定模糊推理规则[23-24]。

MCA算法第二阶段基于第一阶段对多智能体系统进行迭代优化后,进一步提升优化效果。对系统内智能体参数进行比较,适当修改智能体的个别或者部分参数,对智能体采取变异操作,观测变异后的智能体能力是否有所提高,如果有所提高则保留修改,反之能更换参数进行修改,继而增强全局搜索能力。当智能体系统能力趋于收敛时,则将智能体系统重新迭代会至第一阶段,如此反复,直至智能体系统能力趋于平稳,从而获得多智能体协同优化问题的全局最优解[25-26]。

接下来将对MCA算法进行基本流程的表述,进一步清晰地构建算法模型。

2.2 算法基本流程

MCA[27]以自身为中心采取全局利益最大化行为,必要时牺牲自身利益,从而确定下一状态。当获取局部最优状态后,以此时的多智能体系统作为初代群,按照一定的概率对智能体内部的参数进行修改,完成变异操作,根据贪婪准则进行淘汰与保留,实现群进化。进化后重新进行状态转移,如此反复趋于收敛,直至获得全局最优解。

2.2.1 适应度函数的选取

MCA算法在搜索进化过程中仅仅以适应度作为指标参数评价智能体个体的能力强弱,并作为智能体状态转移的重要依据之一,使得解逐步靠近最优解。定义误差的绝对值作为最小目标函数,引入控制变量防止解空间过大导致过拟合,则目标函数为

(5)

式中,e(t)为误差项;w1、和w2分别为权值常数,取值范围为[0,1];u(t)为输出项。

2.2.2 学习步长确定

MCA的不确定推理采用正态分布表示学习步长的模糊变量:

uA=e-(x-u)/2δ2xuδ

(6)

式中,uA为基于高斯的隶属函数度;x为输入变量;u和δ为隶属函数参数。根据线性隶属函数,使隶属度与目标函数值成正比,定义umax=1;umin=0.003,则当u<1时,其不确定推理可表示为

ui j=rand(ui, 1)

(7)

式中,ui j是j维空间基于目标函数值i的隶属度;ui是基于目标函数值i的隶属度。根据行为预测推理可得步长:

(8)

式中,ai j是j维学习空间的学习步长,此时求解δi j高斯隶属函数参数如下:

(9)

式中, iter和itermax分别是当前迭代次数和最大迭代次数;xmax、xmin分别是多智能体系统中的极大极小函数值;w是惯性权值。

2.2.3 状态转移方向确定

通过对智能体的自利行为、全局收益最大化、不确定性推理的分析与建模,可以得到第i个智能体的自利方向di,ego(t)、全局收益最大化方向di,alt(t)和不确定性推理方向di,pro(t),具体表示如下:

(10)

对上述3个因素进行随机加权,最终可得状态转移方向:

di, j(t)=sign(ωdi,ego(t)+φ1di,alt(t)+φ2di,pro(t))

(11)

式中,xi(t1)和xi(t2)分别是{xi(t-2),xi(t-1),xi(t)}中的最优状态函数值。

2.2.4 智能体状态更新

确定学习步长与状态转移方向后,对智能体进行状态更新:

(12)

2.2.5 多智能体系统群进化

(1)变异

(13)

(2)交叉

即利用交叉算子生成新的智能体作为候选项与初代进行比较,其二项式表达为

(14)

(3)选择

本章的选择操作基于贪婪准则,根据目标函数的适应度作为参考指标,并将适应度更优的智能体替换原有的智能体并迭代到新的智能体系统中。具体数学表示如下:

(15)

式中,f(·)为适应度函数,一般将所要优化的目标函数为适应度函数。

2.3 MCA算法流程设计

MCA算法通过获取社会经验和个体认知经验,并结合群智能体的自组织行为将分布式协同作战环境下的多智能体系统[28]作为初代群,计算群内每个个体的适应度函数,确定其学习步长,通过对智能体的自利行为、全局收益最大化、不确定性推理的分析与建模确定其转移方向之后再更新智能体状态,再对初代群进行变异操作之后,将多个初代智能体按照一定的规则进行交叉重组生成新的智能体,实现群进化。再如此反复循环,直至获得全局最优解。具体流程图如图1所示。

图1 MAC算法流程图

MAC算法的基本步骤如下。

步骤 1根据数学模型,确定智能体系统的适应度函数,即目标函数。

步骤 2初始化MAC算法的基本参数,即智能体系统中智能体的个数、角色、能力、约束限制、空间维数、群规模NP、缩放因子F、变异因子CR、空间维数N等。

步骤 3令t=0初始种群,随机定义s个初始坐标:

{xi(t)|xi(t)=(xi1,xi2,…,xi j,…,xiM)}

(16)

式中,i=1,2,…,s;j=1,2,…,M;M是解的维数。

步骤 4评估并确定状态转移策略:计算每个智能体i的目标函数值与其在维度j的状态转移方向di, j(t)及学习步长αi, j(t)值。

步骤 5状态转移:令t=t+1,按照公式计算更新智能体状态。

步骤 6根据适应度函数判断是否停止智能体状态更新,当适应度函数趋于平稳时,则对多智能体系统进行进化操作。

步骤 9终止算法判定:当进化后的多智能体系统适应度函数值达到最优且趋于平稳则转至步骤3,直至全局适应度趋于平稳,停止算法,输出结果。

其中,每次状态转移的步长t分别计算每个智能体i在j的转移方向di j(t)和学习步长αi j(t),且αi j(t)≥0,di j(t)∈{1,0,-1},i=1,2,…,s;j=1,2,…,M。按照公式进行状态更新,通过不断更新智能体状态,获得更好的状态函数值。接着对智能体系统采取变异进化操作,如此反复迭代,直到达到算法终止条件,得到较好的结果。

2.4 MCA算法实现

基于前文对算法原理的分析,本论文采用MCA算法对指挥控制系统进行多智能体协同优化模型进行求解。在对多平台协同问题进行求解的基础上,通过对每个目标进行优化、变异、交叉、选择等步骤建立最优解集,最后生成决策方案。

MCA流程如图2所示,将每一个作战单元视为一个智能体,通过计算个体自利行为、全局收益最大化等更新计算个体,使得种群最优个体随着迭代次数更新保存下来。具体求解步骤如下。

图2 算法实现过程

步骤 1初始化算法参数。即智能体系统中智能体的个数、角色、能力、约束限制等。

步骤 2计算每个智能体个体在每个维度的搜索方向与学习步长。

步骤 3个体更新。

步骤 4初始化种群。在可行解域内随机产生s个初始位置,每个智能体种群个体为

{xi(t)|xi(t)=(xi1,xi2,…,xi j,…,xiM)}

(17)

步骤 5变异操作。对初始化智能体种群进行变异操作,得到变异智能体与候选智能体。

步骤 6交叉操作。对变异智能体进行交叉,从父代智能体与变异智能体中选出最优的遗传到下一代的基因。

步骤 7选择操作。对当代个体的适应度进行选择。

步骤 8当进化后的多智能体系统适应度函数值直至全局适应度趋于平稳,停止算法,否则返回步骤3。

步骤 9生成并判断选择最优解集合。

3 多智能体指控系统的训练网络

3.1 训练网络结构

本节将介绍多智能体指控系统的强化学习训练网络设计,主要分为对训练网络结构与其中部分重点问题的解析,以及对多智能体系统的协同演化训练算法的设计。针对其中的博弈决策、协同进化算法进行介绍,后文将对该部分内容进行优化与深入研究,使本文设计的多智能体指控系统可以更符合分布式协同作战环境。

其中多智能体指控模型的神经网络结构如图3所示。网络结构可以划分为3部分:态势输入,决策计算,决策输出。态势输入数据分为4类:第一类为红方要地的状态,包括要地基本信息,要地正在受攻击的状况;第二类为红方防空营的状态,包括防空营当前的配置情况,雷达的工作状态,发射车的工作状态,雷达受攻击的状况,防空营能够打击的敌方单位信息;第三类为敌方单位的状态,包括敌方单位基本信息,被红方导弹攻击的状况;第四类为可被攻击的敌方单位的状态,包括可被红方防空营打击的状况。每类数据的单位数量不固定,随着战场形势而变化。决策计算部分:每类态势数据各自经过两层全连接网络提取出态势特征,然后全部组合连接起来组成全局态势特征,再经过一层全连接网络进行决策推理,再经过一个门控循环单元(gated recurrent unit, GRU)层保留需要记忆的数据。

图3 训练网络结构

决策输出部分:GRU层一方面输出动作谓语,另一方面与备选敌方单位计算attention分数,输出动作宾语。

3.1.1 门控循环单元网络

门控循环单元网络是循环神经网络中的一种。在原有基础上,引入门机制作为信息更新的方式。在双向循环神经网络中,输入门和遗忘门是互补关系,用两个门的比值作为冗余。GRU将输入门与和遗忘门结合生成新的门机制:更新门。同时,GRU直接定义当前状态ht和历史状态ht-1之间存在线性依赖关系。

(18)

GRU网络的隐状态ht更新方式为

(19)

式中,z∈[0,1],定义为更新门,用来判断当前状态是否保留上一状态的部分信息,以及是否更新候选状态信息,且Zt=σ(Wzxt+Uzht-1+bz)。

当zt=0时,当前状态ht和上一状态ht-1之间不存在线性关系。若同时存在zt=0,r=1时,GRU网络退化为普通的循环网络;若同时存在zt=0,r=0时,当前状态ht只和当前输入xt相关,和上一状态ht-1无关。图4是GRU循环单元结构。

图4 GRU单元

3.1.2 状态数据的标准化与过滤

状态数据标准化是输入网络之前的一个必要步骤。状态的原始数据包含各类数据:例如雷达车位置、飞机速度、飞机载弹量、敌方单位的威胁度等。此类数据的单位和量级各不相同,在输入神经网络之前,必须进行归一化处理。战斗过程中,某些作战单位后来加入战局中,某些单位被打掉,其数据就没有了,神经网络需要兼容这些情况。

不同单位在不同时间点有不同的状态,因此决策选择某些单位执行某项任务时,需要剔除那些在此时间点上不能执行此项任务的参战单元。例如,导弹发射车两次发射导弹之间必须有一定的时间间隔,导弹车必须连接上雷达车才能发射导弹。

3.1.3 偏好度机制与目标选择

偏好度机制是一种让智能体在某个时间点重点关注某些信息,忽略其他信息的机制,它能够让智能体在局部区域更快速更精确的做出更优的决策。

当神经网络面临大量输入的态势信息时,也可以借鉴人类的注意力机制,只选择一些关键的信息进行处理,偏好度机制也可称为注意力网络。模型中,我们可以将最大汇聚、门控机制来近似地模拟,看作是自下而上的基于显著性的注意力机制。除此之外,自上而下的会聚式注意力也是一种有效的信息选择方式。以输入大篇文字为例,给定一篇文章,然后对其内容进行提取并假设一定数量的问题,提出的问题只和文中部分内容相关,与其余部分无关。为降低解算压力,仅需要把挑选相关内容让神经网络进行处理。

定义X=[x1,x2,…,xN]为N个输入信息,首先计算在给定q和X下,选择第i个输入信息的概率ai,则定义ai为

(20)

式中,ai为注意力分布;s(xi,q)为注意力打分函数,计算模型如下:

(1)加性模型:s(xi,q)=vTtanh(Wxi+Uq);

(21)

此公式称为软性注意力机制,图5给出软性注意力机制的示例。在防空反导红蓝对抗的场景下,计算动作中的主语和宾语均可以采用注意力机制。例如在计算宾语时,输入数据x为当前可选的所有敌方目标,而q为网络前面部分输出的查询向量。

图5 偏好度机制

3.2 多智能体指控系统的协同训练算法

3.2.1 就近策略优化算法

就近策略优化(proximal policy optimization,PPO)属于Actor-Critic强化学习优化算法中的一类[29],其与Q-Learning等value-based方法不同,它是直接通过优化策略函数,计算累积期望回报的策略梯度,从而求解出使得回报整体最大化的策略参数。

定义PPO的累积期望回报的目标函数为

(22)

式中,

(23)

At为优势估计函数:

s.t.δt=rt+γV(st+1)-V(st)

(24)

算法1 PPO算法描述初始化策略参数θ,θold重复每轮更新重复每个Actor重复T步每步使用旧的策略参数θold产生决策计算每一步中的优势估计A迭代K步求解累积期望回报函数的策略梯度,每次使用小批量数据用策略梯度更新θ策略参数更新新的策略参数至θold

算法1中的θold与θ分别指的是策略近似函数的旧参数与新参数,也可描述为更新前的策略函数与当前新的策略函数,PPO的主要思想是在旧策略函数的基础上进行多次更新,但又不让更新后的策略偏离原来的策略函数过大。

在每次迭代中,算法并行运行N个Actor,每个Actor运行T步,共收集NT步的数据,在每一步中会计算优势估计A1…AT。在完成数据的获取后,将会用来更新策略参数,其中累积期望回报的目标函数如上面的L(θ)。在每轮中更新时迭代K次,每次选择小批量的数据集,M≤NT。

3.2.2 协同行为的马尔可夫决策过程

传统的多智能体协同决策研究[30]主要集中在基于模型的研究上,即理性智能体研究。传统的研究存在过于依赖背后模型准确度等缺点,只关注从模型到执行器的设计,而不关注模型的产生过程。智能对抗环境中,智能体种类多样,对于多智能体难以获得精准的决策模型,且复杂的任务环境和态势扰动,环境模型呈现一定的随机性和时变性,这些都需要研究智能体模型在信息缺失下的控制方法(见图6)。

图6 多智能体协同行为决策模型研究框架

此研究框架中,其实质是在转移概率模型未知的条件下求解马尔可夫决策过程(Markov decision process, MDP)[31]问题。

设MDP四元素(S,A,r,p):状态(S),动作(A),奖励函数(r),转移概率(p);马尔可夫性:p(st+1|s0,a0,…,st,at)=p(st+1|st,at);策略函数π:S→A或π:S×A→[0,1];

优化目标:求解最优的策略函数π*,最大化期望累积奖励值:

s.t.st+1~p(·|st,at),at~π(·|st),t=0,…,T-1

(25)

其方法是利用强化学习算法在p(st+1|st,at)未知情况下求解MDP,核心思路是采用时间差分算法估计动作-值函数:

(26)

Qπ(st,at)←Qπ(st,at)+

α[r(st,at)+γmaxaQπ(st+1,a)-Qπ(st,at)]

(27)

π′(s)=argmaxaQπ(s,a)

(28)

在该研究框架下,对于智能体状态进行了设计,满足合理性、完整性等条件。合理性要求物理意义相近的状态在数值上差异也较小,以发射车的发射角度θ为例,由于θ是周期性变量,直接将θ作为状态的一部分存在数值不合理性,应将发射角θ→[cosθ,sinθ]。

完整性要求状态包含了智能体决策需要的所有信息,比如智能体的轨迹追踪问题中,需要加入目标轨迹的趋势信息,但是如果这一信息无法观测,则需要扩充状态包含历史的观测值,如舰船的观测尾迹。

对于智能体行为决策的奖励函数进行了设计,根据实际任务中不同的控制目标进行设计,如最高精度、最小损伤、最短反应时间、拦截与条件限制等。

如某智能体奖励函数:

ρ3w2(拦截概率限制)+ρ4q2(其他条件约束)+

uTRu(最大生存概率)]

(29)

对于智能体的动作进行了设计,根据施加控制量的数值特点设计离散或连续的动作值。

3.2.3 协同行为决策中的策略梯度

建立协同行为MDP决策模型,定义了MDP中的状态、动作、奖励函数之后,多智能体的控制问题就转化成求解一个MDP过程,即寻找最优的策略π*。

由于智能体的运动通常采用连续的物理变量描述,因此建模的MDP也是状态连续,动作连续的,此类问题适合采用策略梯度求解。

连续动作空间情况下,假设一个参数化的策略函数πθ(a|s),沿着优化目标的梯度更新θ,保证每步迭代获得一个“更好”的策略,传统的策略提升步骤效率很低。

随机策略梯度理论中策略函数形式满足随机分布的形式πθ(a|s),其优点是采用随机的策略函数形式自带探索机制,不容易陷入局部最优,但是策略函数的形式一般受限。确定策略梯度理论的策略函数形式为确定的函数a=μθ(s),其优点是策略梯度形式简单,确定的函数形式更灵活,易与神经网络结合,缺点是需要人工添加噪声来提供探索机制。

两种策略函数形式的策略梯度均满足某个分布的期望形式—随机逼近。策略梯度转化为如何沿着实验轨迹采样获得{s_1,a_1,s_2,a_2,…s_N,a_N}的问题。采样过程中,样本不独立,存在时序相关性。采用不独立样本估计的期望可能不是无偏的。可以设计一个经验池R存储每次实验采集的转移数据,计算策略梯度时从经验池中随机抽取N组样本。

当前深度强化学习算法基于actor-critic策略,构建迭代更新的(环境、动作、反馈、策略),重点解决反馈函数的构建、策略更新机制。当前满足实践检验的智能体策略演进机理分为多智能体深度Q值网络(multi-agent deep Q network, MADQN)、智能体深度确定策略梯度(multi-agent deep deterministic policy gradient, MADDPG)以及智能体近似策略优化(multi-agent proximal policy optimization, MAPPO)3类算法。

4 算法一体化应用

4.1 测试函数与参数设定

本章选定RosenBrock函数作为测试MCA的标准测试函数,函数如表1所示。

表1 无约束优化测试函数

4.2 结果分析

本文选取的实验数据是公共数据集中的部分算例,参数设定为:初始种群个数为500,交叉概率为0.8,变异概率为0.1。图7是MCA算法的收敛趋势函数。从图7可以看出,当迭代到4×103左右时,种群多样性短暂平稳,迭代到10×103左右时,多样性函数进行平稳状态,迭代10×103~30×103,函数值存在短暂振荡,但是大体平稳,但是当迭代到30×103时,算法函数值下降至7.7左右,并趋向于平稳。MCA算法能够有效的维持种群的多样性,避免了算法早熟收敛,极大程度提高了算法的搜索性能。接下来将以损失值作为研究对象,通过分析损失值的变化特性验证算法的可靠性,具体如图8所示。

图7 MCA收敛趋势

图8 算法损失值迭代分析

通过分析可知:随着迭代次数增加,损失值呈跌宕递减,但是总体平均值呈递减趋势,当迭代到1 500×103左右时,损失值开始趋于平稳。由此可以证明算法的可靠性,提高了原有多智能体系统处理复杂任务的效率。

5 指控系统仿真

5.1 仿真战场环境

智能体在训练过程中需要与环境交互,这也是限制军事智能发展的主要原因。因此,必须将物理环境较好地映射到虚拟环境中,针对性的打造数字战场,提供仿真训练的基础保障,本文空地对抗数字战场要素设置如下。

5.1.1 红方兵力设置及能力指标

(1)保卫要地2个:指挥所、机场;

(2)预警机1架:探测范围400 km;

(3)远程火力单元组成:1辆远程火控雷达车(可同时跟踪8个蓝方目标,制导16枚防空导弹,最大探测距离200 km,扇区120°)、8辆远程导弹发射车(可兼容远程/进程防空导弹,每辆发射车装载3枚远程防空导弹和4枚近程防空导弹);

(4)近程火力单元组成:1辆近程火控雷达车(可同时跟踪4个敌方目标,制导8枚防空导弹,最大探测距离60 km,扇区360°)、3辆近程导弹发射车(每辆发射车装载4枚近程防空导弹)。

若火控雷达被摧毁,该火力单元失去作战能力;制导过程雷达需要全程开机;开机时会辐射电磁波,从而被对手捕捉,暴露自身位置;火控雷达受地球曲率及地物遮蔽等物理限制,存在盲区。

防空导弹飞行轨迹为最佳能量弹道,拦截远界为160 km(远程)、40 km(近程)。针对无人机、战斗机、轰炸机、反辐射导弹、空对地导弹在杀伤区的高杀伤概率为75%,低杀伤概率为55%,针对巡航导弹在杀伤区的高杀伤概率为45%,低杀伤概率为35%。

由4个远程火力单元加3个近程火力单元扇形部署保卫红方指挥所,由2个远程火力单元加3个近程火力单元扇形部署保卫红方机场。共12个火力单元,144枚远程导弹,264枚近程导弹。

5.1.2 蓝方兵力设置及能力指标

(1)巡航导弹:18枚;

(2)无人机:20架,每架携带2枚反辐射导弹和1枚空对地导弹;

(3)战斗机:12架,每架携带6枚反辐射导弹和2枚空对地导弹;

(4)轰炸机:4架;

(5)反辐射导弹射程110 km,命中率80%;空对地导弹射程60 km,命中率80%;

(6)干扰机:2架,进行防区外远距离支援干扰,干扰扇区15°,红方雷达受到干扰后,降低一半杀伤概率。

5.1.3 对抗过程

蓝方共展开3个波次的进攻,第一个波次由18枚巡航导弹分为两条突防路线攻击指挥所及机场,巡航弹飞行高度100 m进行超低空突防,受地球曲率影响,红方火控雷达截获目标的距离仅有40 km左右。因此,需要红方合理规划资源,在保证拦截的同时,尽可能减小弹药消耗。巡航导弹超低空突防如图9所示。

图9 巡航导弹超低空突防

第二波次为20架无人机掩护下12架战斗机超低空突防攻击要地,同时摧毁暴露的防空阵地。如图10和图11所示。

图10 无人机突防

图11 发射反辐射导弹

对于更具有对抗性第二个波次进攻,将增强蓝方的对抗性。如图11所示,战斗机在无人机的掩护下突防。无人机飞行高度在2 000~3 000 m之间,诱使红方火控雷达开机,战斗机在100~150 m的超低空突防(受地球曲率保护,在火控雷达盲区安全飞行)。如图12所示,当红方火控雷达开机后,战斗机爬升到达击区域,与红方火控雷达形成通视,发射反辐射弹攻击;攻击之后下降高度机动逃逸,进入游猎状态,组织再次攻击。对于红方而言,防御压力很大,既要拦截无人机和战斗机,也要拦截所有作战飞机发射的大量空对地导弹和反辐射弹。由于红方火控雷达跟踪目标数量及制导导弹数量受限制,资源很容易进入饱和状态。这时,第三波次的4架轰炸机紧随其后,突防轰炸保卫要地。如图13所示。

图12 机动逃逸

图13 轰炸机突防

5.2 系统训练数据演示

本节将从强化学习网络、全局收益函数、全局损失函数3个方面对系统进行演示分析,当迭代次数为2 500~3 000×103之间,基本达到全局收益最大值,并趋于平稳。由图14可得出结论,随着训练迭代进行,全局收益由一个低水平持续一段时间后逐渐递增,期间存在小范围的跌宕,最后达到全局收益最优点,并趋于收敛。具体如图14所示。

图14 全局收益函数

图15为强化学习网络的图形化展示,对强化学习网络进行三维的坐标系建立,图中每个点都代表智能体的一个性能指标,所处位置则代表该指标的具体参数值,代表此时智能体的状态函数。随着迭代次数增加,智能体进行状态转移,点的坐标信息也会随之发生变化,本文指控系统中针对多智能体系统共定义两千余参数,具体由图15所示。

图15 训练学习网络

随着迭代次数增加,全局收益增加,随着对应的全局损失值逐渐减小,当算法趋于全局最优时,损失函数趋于平稳,存在小范围浮动,函数变化轨迹与图14相对应,以保证战场态势总量不变。具体损失值函数如图16所示。

图16 全局损失函数

由图16可以得出,迭代初始,损失值呈快速下降的趋势,当迭代到500~1 000×103时,损失值开始小幅度跌宕,但是平均值缓速下降,当迭代到1 500×103左右时,损失值开始趋于平稳,达到全局损失函数最小值。

6 结 论

本文基于分布式协同作战的复杂任务处理过程中效率过低的问题,对多智能体系统设计了协同进化算法,构建了对应的状态转移方程并确定了学习步长,最后对算法模型进行了损失值的仿真实验,证明了算法的可靠性,并将此算法作为指控模型仿真中的核心算法之一。

猜你喜欢

全局协同状态
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
蜀道难:车与路的协同进化
状态联想
“四化”协同才有出路
落子山东,意在全局
生命的另一种状态
三医联动 协同创新
坚持是成功前的状态
新思路:牵一发动全局