深度强化学习及其在军事领域中的应用综述

2024-03-27张梦钰豆亚杰陈子夷杨克巍葛冰峰

系统工程与电子技术 2024年4期

张梦钰, 豆亚杰, 陈子夷, 姜江, 杨克巍, 葛冰峰

(国防科技大学系统工程学院, 湖南长沙 410003)

0 引言

近年来,随着大数据、云计算、物联网等一系列新兴技术的大量涌现,人工智能技术不断取得突破性进展。作为21世纪的顶尖技术之一,人工智能给各个领域的发展都带来了前所未有的机遇和挑战,在军事领域也不例外。文献[1]对大数据时代的军事信息体系与发展战略进行了重点研究[1],军事智能化已不再是一个陌生的概念,其正在全面影响着军队建设和未来战争形态[2]。从应用角度来看,军事智能化主要体现在以下5个层次[3]:以无人机、无人车等仿生智能为主的单装智能;以人机融合、集群、协同等概念为核心的协同智能;以智能感知、决策、打击、防御等多要素作战力量综合运用的体系智能;以通信、网络、电子、舆情等专业领域管控的专项智能;以作战体系基于数据、模型、算法获取涌现效应为目标的进化智能。人工智能技术为这些应用的落地提供了坚实的基础。

深度学习(deep learning, DL)和强化学习(reinforcement learning, RL)作为实现人工智能的先进技术,分别在信息感知和认知决策领域有着出色的表现[4-5]。深度RL(deep RL, DRL)[6]则是近几年提出的新兴概念,其结合了DL与RL的优势,是人工智能的最新成果之一,在机器人控制、计算机视觉、自然语言处理、博弈论等领域中都取得了重要研究进展。在军事领域中,针对作战任务规划、智能军事决策与智能博弈对抗等问题的解决,DRL也有着巨大的应用潜力,引起了研究人员的广泛关注。

目前,关于DRL的研究已经取得了较大进展,有一些关于DRL的综述性文献陆续发表[6-7],但其更加偏向于对DRL算法的总结。除此之外,也有一些关于DRL在领域应用中的综述,如无人机[8]、通信与网络[9]、智能制造[10]等领域,然而关于DRL在军事领域中的应用,并没有专门的综述性文献对其进行深入梳理和总结。基于此,本文首先回顾了DRL的理论发展历程;然后对DRL的基本算法及改进算法进行了归纳总结;最后对前人研究中DRL在军事领域武器装备、网络安全、无人机编队、智能决策与博弈等问题的应用现状进行了系统性的梳理和总结,并展望了其发展方向和前景。

1 DRL的基本原理

1.1 DL

DL是机器学习(machine learning, ML)领域中的一个研究方向,致力于自动学习样本数据的内在特征与规律,完成数据信息的提取工作,使机器能够像人类一样具有分类和识别等能力。大多数DL的模型都以人工神经网络(artificial neural network,ANN)为基础[11-12],其结构如图1所示。人工神经元支撑着整个神经网络的工作,组成相互连接的输入层、隐藏层和输出层。其中,信息通过输入层进行获取,在隐藏层进行特征提取后,再通过输出层输出结果。两个神经元间的连接称之为权重θ,每个神经元接受来自其他几个相连接的神经元的输入,这些输入被乘以分配的权重θ后相加,接着将总和传递给一个或多个神经元。一些神经元可能在将输出传递给下一个变量之前将激活函数应用于输出。需要注意的是,这里的输入值和输出值是相对的,较低层的输出将作为更高一层的输入。通过这种多层非线性运算,最终实现DL从训练数据中提取特征的目的。

图1 ANN的结构Fig.1 ANN’s structure

深度神经网络(deep neural networks, DNN)被定义为具有多个隐藏层的ANN。前馈神经网络和反馈神经网络是两种DNN模型。前馈神经网络中各个神经元分层排列,每个神经元的输出仅由当前的输入和权重θ决定,各层之间无反馈。而反馈神经网络中神经元的输出不仅与当前的输入和权重θ有关,而且与之前的网络输入也密切相关。与此同时,每个神经元还将自己的输出作为输入反馈给其他神经元,因此反馈神经网络需要经历一段时间的工作后才能实现稳定。卷积神经网络(convolutional neural networks, CNN)和循环神经网络(recurrent neural network, RNN)分别是前馈神经网络模型和反馈神经网络模型的典型代表。在DRL中,将CNN和RNN与RL相结合的算法较多。

CNN是一种多层的监督学习神经网络,在隐藏层中通过卷积、激活和池化的操作实现图像特征提取的功能,近年来在数字图像处理领域应用广泛。目前,常用的CNN包括AlexNet[13]、视觉几何组(visual geometry group,VGG)-Net[14]、NIN[15]、深度残差学习[16]等。

RNN的神经元之间的连接形成有向循环,隐藏层的值既受当前时刻输入值的影响,也受上一时刻隐藏层值的影响,这使得RNN非常适合处理具有时间组件的应用问题,例如时间序列数据和自然语言处理。然而,随着网络层数的加深,RNN常常会出现梯度消失或梯度爆炸的问题[17],因此有学者提出使用长短期记忆(long short-term memory, LSTM)[18-19]来解决这个问题。LSTM通过合并内存单元,能够使网络学习在某时刻“遗忘”先前的隐藏状态,以及在某时刻给定新信息的情况下更新隐藏状态,所以LSTM能够学习RNN无法完成的长期复杂时间动态。

1.2 RL

1.2.1 RL基本过程

RL又称为增强学习[20],其核心思想是试错机制,即让智能体在与环境的交互过程中不断学习和反馈,以获得最大的累计奖励。通常可以使用马尔可夫决策过程(Markov decision process,MDP)对RL问题进行建模,表示为一个五元组(S,A,P,R,γ),其中S代表一个有限的状态集合,A代表一个动作集合,P代表一个状态转移概率矩阵,R代表一个回报函数,γ代表一个折扣因子,具体的学习过程如图2所示。

图2 RL基本过程Fig.2 Basic process of RL

智能体根据环境的即时状态st,为了获得环境反馈给智能体的最大奖励,选择并执行其所认为的最优动作at。环境接受动作at后,以一定概率转移到下一状态st+1,并把一个奖励rt反馈给智能体,智能体根据奖励rt和当前状态st+1选择下一个动作。而t时刻的累计奖励Rt就是即时奖励rt与后续所有可能采取的动作和导致的环境状态的价值之和。由于距离当前状态越远,不确定性越高,需要乘以一个折扣因子γ,来调整未来的每个即时奖励对于累计奖励的影响。累计奖励Rt的公式可表示如下:

(1)

RL算法根据环境模型是否已知可以分为两大类,分别是基于模型的方法和无模型的方法。基于模型的RL指创立环境模型,让智能体在虚拟环境中进行学习和训练。当建立的环境模型可以精准描述真实世界,那么就可以直接基于模型进行预测,而不需要与真实的环境进行交互,可以大大提高问题求解速度。基于模型的RL方法可以分为学习模型和给定模型两类。学习模型中比较典型的方法是World Models[21]和I2A[22]。给定模型中比较典型的方法是AlphaGo[23]、AlphaZero[24]和Expert Iteration[8]。由于学习模型的方法对模型的精确性要求较高,在实际应用中很难达到,因而有学者提出将无模型的方法与基于模型的方法相结合[7]。但是,很多实际问题的环境都是复杂未知的,这导致建模困难,因此无模型的方法在实际中应用更加广泛。对于无模型的方法,又可以分为基于价值的RL、基于策略的RL,以及两者的结合。

1.2.2 基于价值的RL

基于价值函数的RL通过构建具有适当参数的函数,来近似计算状态或行为的价值,而不必存储每一个状态和行为的价值,大大提高了算法效率。基于价值函数的RL方法可以分为在线策略和离线策略两类。两者的区别在于在线策略一般直接使用学习获得的当前最优策略(目标策略)作为行为策略,即只有一个策略进行价值迭代。因此,在线策略可以对策略进行实时评估,在应用场景中边训练边使用。而离线策略一般有两个策略,目标策略与行为策略不同,可以进行更充分的探索,在产生丰富样本的同时并不会影响目标策略。

文献[25]的算法基于在线策略的典型算法,迭代公式如下:

Q(st,at)←Q(st,at)+
α[rt+1+γQ(st+1,at+1)-Q(st,at)]

(2)

Q-Learning算法[26]是基于离线策略的典型算法,并且被大量应用于军事决策过程中[27-28]。Q-Learning算法通过Q值表对“状态-动作对”的值进行记录,并且通过公式迭代对Q值表进行更新,迭代公式如下:

(3)

式中:Q(st,at)表示t时刻的状态动作价值,α为学习率;r为奖励,γ为折扣因子。两个公式的区别在于:式(2)用t+1时刻的状态和动作共同决定的Q值来更新Q(st,at),而式(3)用Q值最大的动作来更新价值函数Q(st,at)。

1.2.3 基于策略的RL

基于策略函数的RL和基于价值函数的RL在处理具有连续行为和庞大空间的问题时能力不足,难以求解随机策略的问题。通过将策略看作是关于状态和行为的带参数的策略函数π(a|s,θ),不同于对价值函数进行迭代计算,而是通过迭代的方式直接更新参数值θ。当累积回报期望最大时,θ对应的策略就是最优策略。通常使用基于策略梯度的算法[29]求解,首先通过逼近器函数π(a|s,θ)逼近策略,然后对策略参数进行梯度下降求解,当梯度收敛时得到最优策略。基于策略函数的RL省去了对状态价值的学习过程,而是直接输出具体的行为值,策略梯度可以在连续分布上选取行为,因而可以处理具有连续行为的问题,但是在一些复杂问题的求解中,基于策略函数的RL计算难度较大,迭代时间过长。

1.2.4 基于价值策略结合的RL

Sutton等[30]综合基于价值函数的RL和基于策略函数的RL,提出了一种新的RL算法——行动者-评论家(actor-critic, AC)算法。其中,行动者表示基于策略函数的网络,在与环境交互过程中根据状态选择策略,而评论家表示基于价值函数的网络,对行动者选择的策略进行评价,并指导行动者进行策略的改进。AC算法可以综合多种价值函数方法和策略函数方法,汲取二者优点,收敛速度更快。

2 DRL主要算法

DRL是近几年提出的新兴概念,其将DL与RL的优势结合,是人工智能的最新成果之一。DRL主要有两种类型:基于值函数的DRL和基于策略梯度的DRL。

2.1 基于值函数的DRL

在基于价值函数的RL方法中,针对状态和动作空间较小的问题,Q-Learning算法较容易获得最优策略。但是,当状态空间或者动作空间变得庞大时,继续使用Q值表对状态-动作对进行存储给内存和时间都带来极大压力,使算法很难达到预期的效果。因此,引出了深度Q网络[31](deep Q-networks, DQN)算法来克服这一缺点。DQN将DNN与Q-Learning相结合,本质上是利用DNN逼近值函数,通过拟合一个函数,代替Q值表对Q值进行更新。除此之外,DQN还对传统的Q-Learning算法进行了如下两处改进。

(1) 经验回放:算法首先初始化一个回放内存池,收集样本并存储。每次从回放内存池中随机采集小批量样本训练DNN,使用梯度下降法更新参数θ后得到新的值函数,再获取新的样本并存入池中。由于每次训练的样本通常来自于多次交互序列,大大降低了样本之间的关联性,进一步提升了算法的稳定性。

(2)目标网络:在Q-Learning算法训练过程中,Q值是通过当前时刻的奖励和下一时刻的价值估计进行更新的。由于每一轮迭代都会产生价值偏移,偏移影响会继续传递给下一轮的迭代计算,很容易造成算法的不稳定。为了解决这个问题,DQN另外设置了目标网络来产生目标Q值,通过行为网络和与环境交互获取估计Q值,将估计Q值与目标Q值进行比较后得出目标值并更新行为网络。每经过一定轮数的迭代,把行为网络的参数复制给目标网络,再进行下一阶段的学习。通过这种方式,减轻了模型的波动。

在DQN的基础之上,人们又做了许多研究工作,先后提出了Narure DQN[32]、Double DQN[33]、Dueling DQN[34]、Double Dueling DQN(D3QN)[35]、Rainbow DQN[36]等一系列改进算法。基于值函数的DRL主要算法如表1所示,本文对其提出时间、改进和优势做了简单阐述。

表1 基于值函数的DRL主要算法Table 1 Main algorithms of DRL based on value function

2.2 基于策略梯度的DRL

尽管DQN及其改进算法在许多领域都取得了不错的应用效果,但是对于连续动作空间的问题还是无计可施。Lillicrap等[37]提出了深度确定性策略梯度(deep determi-nistic policy gradient,DDPG)算法。DDPG算法集成了DL、DQN以及AC算法,采用DNN建立AC的近似价值函数,行动者网络生成确定的行为,评论家网络评估策略的优劣,同时采取经验回放机制以避免振荡。可以说,DDPG算法是目前应用于复杂、连续控制的重要算法,在机器人控制和无人机编队等领域都有广泛应用。为解决DDPG算法Critic对行为Q值过估计的问题,Haarnoja等[38]提出双延迟DDPG(twin delayed DDPG,TD3)算法。针对策略梯度方法中存在的无法保证步长而影响训练效果的问题,Schulman等[39]提出一种信任域策略优化(trust region policy optimization, TRPO)方法。TRPO以优势函数为核心,通过计算旧策略与更新后策略之间的差值,保证策略始终朝着好的方向持续更新。由于TRPO算法计算复杂,近端策略优化(proximal policy optimization, PPO)[40]和分布式DPPO(distributed PPO)[41]等改进算法被先后提出,用以改进训练效率。

此外,基于AC算法、优势函数和异步算法,Mnih等[42]又提出一种异步优势的AC(asynchronous advantage AC, A3C)算法,在AC算法基础上,采用优势函数判断行为的优劣,让多个智能体同时对环境进行探索,单个智能体独立工作并在线更新整体的策略参数。通过这样的方式缩短学习训练的时间,提升训练效果。优势AC(advantage AC, A2C)算法[43]去除了A3C算法的异步,中间过程采用同步控制,解决了A3C中不同智能体使用策略的累计更新效果可能不是最优的问题。基于策略梯度的DRL主要算法及部分改进算法如表2所示。

表2 基于策略梯度的DRL主要算法Table 2 Main algorithms of DRL based on policy gradient

3 DRL在军事领域的应用现状

随着现代科技的飞速发展,越来越多的人工智能技术被引入军事领域以解决复杂问题,DRL作为人工智能的最新成果之一,与军事领域的联系也日益紧密。为了进一步明确DRL技术对军队建设和未来作战模式的影响,以及在军事领域中的应用点,本文在知网和web of science上选取了近15年来相关的参考文献,并使用citespace进行处理。由于直接以“DRL”和“军事”为关键词对文献进行检索获取的文献数量较少,难以进行深入分析,本文扩大了搜索范围,以“人工智能”和“军事”为关键词进行了检索和分析,最终检索和分析结果如图3所示。另外,由于分析得出的英文关键词图谱基本与中文关键词图谱一致,本文不再重复展示。

图3 人工智能技术与军事领域结合应用图谱Fig.3 Application map of artificial intelligence technology combined with military field

从图3中可以明显看出,智能的概念已经深入到军事领域的各个方面,尤其是武器装备、无人机编队、网络安全、指挥控制、智能博弈与决策等与人工智能结合得最为紧密。除此之外,当前对于军事训练、情报侦察、自主无人系统等问题的研究也与智能化不可分割。从图3中还可以观察到,“机器学习、DL、RL、大数据、云计算、虚拟现实”等关键词语所代表的新兴技术为军事智能化的应用落地提供了强有力的技术支撑。

DRL是DL和RL相结合的产物,集成了DL的感知能力和RL的决策能力,对于解决复杂问题具有巨大潜力。基于此,本文对上述提及的军事领域中与人工智能结合最为紧密的几大问题进行了讨论,分别就DRL在这几大问题中的应用研究现状进行了梳理和总结。

3.1 DRL在武器装备组合选择问题中的应用

武器装备组合选择问题是军事领域中的一个研究热点。组合选择与运用是武器装备发挥体系效能的核心,也是武器装备体系顶层发展规划中的关键问题[44]。不同学者对此进行了大量的探索和尝试,分别提出了异质网络模型[45]、差分进化算法[46]、遗传算法[47]、代理模型[48]等理论方法对武器装备组合选择问题进行优化。科技进步促使武器装备持续更新发展,由于武器装备组合选择涉及到多个阶段和多个周期,并且受到不同的作战意图和作战环境的影响,具有不同属性武器装备的组合维度爆炸,大大增加了武器装备组合选择问题求解的复杂性。张骁雄等[49]将Q-Learning方法用于求解多阶段的装备组合选择与规划问题,虽然相比传统的多目标决策方法在方案选择中效果更优,但是对回报函数的设置仅考虑了装备组合效能和成本,而实际武器装备组合选择问题还涉及到目标状态、战场环境等多方面因素,数据维度不断提升,采用Q值表存储运动状态值无法解决维度爆炸的问题。除此之外,军事领域具有特殊性,很多数据无法获取,战场态势瞬息万变,大量信息无法被完全观测也给武器装备的组合选择带来困难,如何在环境复杂和数据信息不完备条件下快速生成武器装备组合选择方案成为未来研究的重点。DRL是在传统的RL算法中加入DNN形成的,对于解决高维输入问题具有良好效果。同时,DRL具有无需数据样本、无需环境模型、无需提取特征等优势,解决了数据信息依赖问题。因此,越来越多的学者考虑结合DRL的方法对武器装备组合选择问题进行求解。文东日等[50]将装备组合运用问题视为在离散动作空间的RL问题,提出了基于PPO的装备组合运用方法的模型及仿真框架。在武器装备的动态目标分配问题中,黄亭飞等[51]考虑到完成目标摧毁任务之后不具有下一状态,使用当前状态的Q值替换公式中下一状态的Q值对DQN算法进行了改进,同时结合不同类型拦截装备的属性特征,提出了基于DQN的多类型拦截装备复合式反无人机任务分配方法。

总体而言,目前,将DRL技术用于解决武器装备组合选择问题的研究才刚刚起步,许多问题都是在想定的作战环境和作战意图之下进行讨论研究,而现代战场态势会随时变化,无法完全框定在给定的模型之中。因此,在动态条件下实时进行武器装备的组合选择是未来进一步研究的重点。

3.2 DRL在军事网络安全问题中的应用

新时代下战争观念发生转变,传统的以武器为核心的作战方式渐渐向以网络为中心的信息化作战方式发生转变。当前的网络化战争已经将情报侦察、指挥决策、武器控制、通信联络等信息系统通过计算机连接成通信网络,向着体系作战的方向发展[52]。随着复杂网络理论的发展和成熟,许多学者选择将军事通信网络系统抽象为复杂网络进行研究,即将各系统以及各系统中的实体视为节点,将关系视为边,建立军事通信网络的网络结构模型[53-55],并基于模型进行网络安全性、可生存性和可恢复性的研究。基于抽象的网络识别出关键节点,对其进行保护(或破坏)将最大限度地增强(或降低)网络的功能。近期蓬勃发展的图网络是一个将网络科学与DL相结合的领域,正被大量应用于复杂系统建模工作。目前,已有学者使用DRL和图神经网络结合的方法对网络安全问题进行处理,并取得了良好的效果。Fan等[56]使用归纳式图表示学习技术从邻域迭代聚合节点嵌入向量,这些向量被初始化为节点特征,用以描述状态与动作,使用连通性度量代替奖励,并利用DQN自动学习优化目标,综合上述方法提出了一个DRL框架FINDER。FINDER的提出也为复杂网络问题的解决开辟了新的研究方向。Xu等[57]在使用FINDER框架识别出军用通信网络中的关键节点后,通过改进遗传算法的编码规则和交叉变异算子,对军用通信网络拓扑结构进行了优化。在网络威胁检测问题中,Praveena等[58]首先利用黑寡妇优化(black widow optimization, BWO)算法对深度信念网络的参数进行优化,在此基础上将深度强化学习-BWO(deep reinforcement learning-BWO, DRL-BWO)算法用于无人机网络入侵检测。

总体而言,当前使用DRL的方法对军事网络系统进行优化,大多是与复杂网络理论相结合。除此之外,在计算机网络领域中,还有许多文献对使用DRL算法解决资源调度的问题进行了研究[59],如路由选择、任务调度和传输控制协议拥塞控制等,未来可以考虑通过迁移学习的方式将上述研究提出的解决方法迁移到军事网络中,对相关问题进行优化改进。

3.3 DRL在无人机编队问题中的应用

随着智能化控制技术和空中武器装备的迅速发展,空中力量在对抗程度和对抗节奏上都实现了升级,编队智能空战模式将成为夺取制空权的关键手段。当前,常用的编队控制方法主要有领导者-跟随者方法、虚拟结构方法和基于行为的方法3种[60]。但是,由于编队控制问题涉及的作战环境复杂多变,影响因素众多,使得状态空间庞大,这些方法或多或少出现了应用上的短板。DRL算法可以将作战过程中的态势信息直接映射到机动动作中,而无需构建模型,无需考虑众多影响因素之间错综复杂的关系,针对状态空间庞大的问题也可以有效解决[61],因此被逐渐应用于解决编队智能体机动控制和协同决策问题。针对无人机协同控制,Zhao等[62]基于PPO算法提出多智能体联合PPO(multi-agent joint PPO, MAJPPO)算法,对不同智能体的状态价值函数进行滑动窗口平均,计算出集中的状态价值函数并分配给每个智能体,解决了由智能体策略变化导致的非平稳环境问题。Hu等[63]提出一种双无人机协同自主机动控制方法,针对状态空间维度爆炸问题,首先对连续空战状态空间进行降维和量化描述,接着基于态势评估结果设计奖励函数,并提出了一种优先采样策略,以解决传统DQN算法训练时收敛速度慢的问题。实验表明,该方法显著提高了无人机的避障、编队和对抗能力。张耀中等[64]通过引入基于滑动平均值的软更新策略,降低了DDPG算法的参数震荡,提高了无人机集群协同执行追击任务的成功率。

总体而言,当前研究主要从多智能体DRL算法优化的角度对无人机编队控制问题进行改进,但是,大多数研究都弱化了多智能体间的交流协作,更加注重任务的完成速度。实际作战过程往往涉及多个主体,各主体之间的有效沟通对于提高任务的成功率有重要影响,这也是未来需要进一步着重研究的问题之一。

3.4 DRL在智能决策与博弈问题中的应用

2016年,AlphaGo[65]击败李世石成为DRL领域中一项里程碑式的研究成果,表明DRL方法能够有效解决完全信息博弈问题。2017年,AlphaGo Zero[66]的问世再一次刷新了人们对DRL方法的认知,AlphaGo Zero不再需要人类的经验作为先验知识,将原先独立的策略网络与价值网络合并后大大降低了神经网络的复杂性,实验表明AlphaGo Zero的能力完胜AlphaGo,展现出DRL方法在智能决策与博弈领域中应用的强大潜力。在军事领域中,基于DRL的的智能决策与博弈是通过数据信息、专家知识和一定规则,建立博弈对抗过程中各类行动实体的模型,针对复杂战场环境下动态不确定性的智能决策问题,利用模型进行决策分析,为指挥控制方案的确定提供了数据支撑[67]。Wang等[68]考虑到对手机动策略同样具有不确定性,使用DQN训练了用于双方飞机引导的机动策略智能体,同时通过奖励塑造的方法对算法进行优化,提高了训练收敛速度。智能体和对手通过交替冻结策略的方式进行训练,具备了更好的对抗能力。Zhang等[69]针对源自无人机作战场景的多智能体作战问题提出了3种训练技术,并分别将其与多智能体深度Q学习和多智能体深度确定性策略梯度相结合,提高了两种算法的收敛速度和性能。除了博弈对抗,DRL在智能决策问题中也有很大的应用价值,有学者利用DRL训练模型或改进算法,实现了作战过程中智能体的自主决策。Bai等[70]利用TD3算法对无人机自主机动模型进行训练,使无人机能够根据位置、速度、相对方位角等态势信息自主做出机动决策。Kong等[71]对DDPG算法做出了两个改进,一方面考虑到飞机传感器的误差可能会影响智能体的决策,在策略梯度中引入正则化器来加强策略网络的鲁棒性;另一方面利用最大熵逆RL算法对奖励函数进行规划,以加速算法的收敛。况立群等[72]分别采用优先级经验重放机制提升价值经验的学习率、采取奥恩斯坦-乌伦贝克噪声和高斯噪声相结合的探索策略加速算法收敛、采用多智能体单训练模式提升算法收敛速度和稳定性对DDPG算法进行改进,在解决复杂连续的军事决策控制问题中表现突出。

总体而言,虽然DRL在解决智能决策与博弈问题时具有很大潜力,但是目前针对军事领域博弈问题的研究仍然存在一些不可避免的问题。一方面,真实战场环境中大量信息是复杂未知的,属于不完备信息博弈,这是其与棋盘博弈最大的差别所在,给DRL解决战场博弈问题带来极大挑战;另一方面,不同智能体协同合作时可能会出现目标冲突的问题,如何权衡决策也是一大难题。针对这一问题,在2021年“决策智能与计算前沿”论坛上,有学者指出未来可以采用全局DRL、局部博弈论的方式进行优化处理,该设想有待进一步加强研究。

3.5 DRL在其他军事领域问题中的应用

除了上述问题,DRL在军事领域的其他问题上也有大量应用。情报侦察是军事博弈中关键的一环,掌握更多的情报信息是取得战争胜利的筹码,Ghadermazi等[73]站在攻击者的立场,通过建立对抗性的DRL模型使智能体做出重要的顺序决策,实现具有破坏性的目标任务,并基于训练的模型构建威胁检测器,通过分析具有不完整轨迹信息的对手的可疑活动来识别威胁信号。人是生成战斗力最具决定性的能动要素,军事训练有助于提高军人素质,Kallstrom等[74]使用多智能体DRL方法设计了具有高质量行为模型的合成对手,帮助人类飞行员进行训练,可以应用于复杂场景下的训练任务。在智能调度问题中,Feng[75]用图像表示资源利用状态,基于A2C算法为舰载机保障作战过程中的多种资源有效协调和调度问题提供了一种解决方案。除此之外,在路径规划问题中,文献[76-78]分别基于DQN、Double DQN和D3QN算法对机器人或无人机路径规划问题进行了求解。

虽然DRL算法在其他领域中已经取得了不错的应用成效,但是针对军事领域,许多问题的研究才刚刚起步。就上述提及的军事领域中的几大关键问题,结合DRL的研究程度也存在较大差异,有的问题才刚刚开始探索,有的问题已经有了较为成熟的算法,既无法一概而论,又很难针对军事领域下的每个子问题都展开方法的演化分析。

因此,本文从军事领域整体的角度出发,对目前重点关注的几大类问题进行方法关系和演化过程的梳理。为了更加清晰明了地呈现出问题与方法以及方法与方法之间的关系,本文一方面从问题视角切入,采用表格的形式分类介绍了不同问题使用的DRL方法,如表3所示;另一方面从方法视角切入,以演化图的形式介绍了各类DRL方法的发展过程以及相互之间的关系,同时对该方法目前可以解决的具体问题进行了标注,如图4所示。

表3 DRL在军事领域中的应用Table 3 Application of DRL in military field

图4 DRL方法演化图Fig.4 Method evolution diagram of DRL

3.6 DRL算法适应性分析

DRL发展至今,已经提出了许多算法,其中最基本的就是DQN。由于DQN提出时间最早,同时也最简单,大量算法都在DQN的基础之上进行改进。目前,应用比较广泛的算法都是以DQN、DDPG、PPO为基础的改进算法。其中,DQN主要应用于离散动作空间,DDPG主要应用于连续动作空间,而PPO既可以应用于离散动作空间,又可以应用于连续动作空间。

在这些算法的实际应用过程中,受到重点关注的问题之一就是模型的训练时长。现有的DRL模型通常需要消耗大量的时间进行训练,才能够实现自主决策。时间复杂度决定了模型的训练时间,若以一个episode表示智能体从开始执行任务到任务结束,以nm表示episode的数量,以nt表示一个episode中的时间步数量,当episode和nt的值非常大时,算法的时间复杂度取决于episode的数量和每个episode中的时间步数量,表示为O(ntnm)。

如果要将算法落地于实际工作,必须根据任务的特点选择合适的算法,并不是每种算法都适用于解决某一类问题。对于前文提及的军事领域中的不同问题,在依据动作空间的类型对问题进行分析后,再进行选择。对于武器装备组合选择问题,动作空间主要由单元、目标、离散化后的时间、任务和条令构成,属于离散动作空间,因此DQN系列算法和PPO算法在此类问题中较为适于应用。对于军事网络结构优化问题,动作空间主要由网络中的节点组成,同样属于离散动作空间,目前大多采用DQN系列算法识别关键节点后进行网络结构的优化。对于无人机编队控制和无人机机动决策这类问题,无人机的运动过程是连续的,目前主要有两种处理方式,一种是采用任务环境网格化的离散处理方式,采用DQN系列算法进行处理。这种处理方式虽然在一定程度上可以获得相应的解决方案,但是DQN系列算法只能处理小规模的问题,在大规模问题上适应性并不好,而且采用网格化处理之后,问题过于简单,不能完全模拟实际环境;另一种处理方式是采用连续的任务环境,用连续的空间位置坐标表示无人机的位置,采用DDPG算法进行处理。由于DDPG算法对于状态空间和行为空间的大小没有限制,因此算法的适应性更好,研究前景更加光明。除此之外,在调度、训练、路径规划这类离散动作空间问题中,DQN系列算法的适应性更好。

但是,无论是DQN系列算法还是DDPG算法,都存在一个共性的问题,即模型训练时间过长,特别是当问题由单智能体转向多智能体,动作空间和状态空间更加庞大,训练耗时大幅上升。针对这一问题,现有研究主要通过改进DRL算法进行改善,例如TD3和PPO等,但是也不能完全解决训练时长的问题。因此,未来需要就这一问题继续改进,这也是提高各类DRL算法适应性的关键所在。

4 结束语

DRL技术为解决军事领域的问题开辟了一条崭新的道路。本文在回顾了DRL基本原理和主要算法的基础上,对当前DRL方法在武器装备、网络安全、无人机编队、智能决策与博弈、情报、训练、调度和路径规划等问题中的应用现状进行了梳理与总结。

可以发现,虽然DRL技术在军事领域的应用日益广泛,但仍然处于刚刚起步和不断完善的阶段。需要注意的是,理论研究可行并不意味着实践一定会成功,考虑到人力、物力、财力与安全等因素,军事领域中的许多问题都难以在现实中进行方法的效果验证。除此之外,由于现实战场态势瞬息万变,实验中建立的问题模型可能无法与实际情况完全一致,进而影响问题的求解和方法的应用效果。因此,在实际推进DRL技术在军事领域的应用落地与具体实现中仍然面临着诸多挑战。

除了应用方面,在DRL的理论研究中也可以发现,当前仍然存在许多局限:军事领域部分问题的奖励函数设计困难,不合理的奖励函数难以实现预期的学习目标,例如军事领域中的无人机编队机动控制问题。每一架飞机的动作都受偏航、俯仰、滚动和推力等因素的影响,但是由于无人机在执行任务的过程中很难设定中间每步的奖励,只能使用全局奖励,引发奖励稀疏且滞后的问题,致使训练困难;基于DRL的端到端方法可以对具有相同分布特性的所有问题实例进行求解,但是现有的DRL模型通常需要消耗大量的时间进行训练,当面对需要即时决策而战场态势信息变化超出训练模型的预期设定等问题时,很难在短时间内完成模型的训练,严重时可能贻误战机;目前在军事领域中基于DRL算法所设计的多智能体协同模型很少考虑多智能体间的沟通协作,而真实的战场环境往往要求具有不同属性特征的作战主体协同配合,仅仅依靠单个主体很难完成目标任务等等。这些问题是否能够得到有效解决,是目前影响DRL技术在军事领域是否能被广泛应用的关键问题。

总之,在军事领域中,当前DRL技术应用的难点主要来自于方法的实际实现,以及军事领域特殊性导致的方法的应用缺陷,下面提出一些可以进行改进的思路和方向。

(1) 为了在军事复杂环境中建立更加真实的模型,可以借助一系列新兴的仿真技术来构建高逼真度、细粒度的仿真平台,如数字孪生和虚拟现实等技术,进一步开展DRL方法的效果验证。

(2) 考虑到真实作战要求不同能力的主体相互配合,为了加强基于DRL的多智能体间的协同合作,一方面可以加强对多智能体之间的通信算法的研究力度,另一方面可以充分利用多智能体协同研究的现有成果,与DRL进行充分结合。

(3) 对军事领域部分问题难以设置奖励函数的问题,除了继续对DL和RL的方法进行探索,还可以结合博弈论、统计学、复杂网络、信息论等理论进行奖励机制的设计和改进。此外,既然人为设置奖励函数十分困难,那么让系统通过学习和训练自行设置奖励函数也许是一个可行的办法。

(4) 最后,针对军事领域中的即时决策问题,基于DRL的端到端方法前期训练耗费时间长,很难立刻被用于解决现时问题,如果暂时无法通过算法的改进来缩短训练时长,可以尝试从硬件的角度出发进行技术的突破。