基于深度强化学习的作战辅助决策研究

2018-04-16靳晓伟郑益凯

空天防御 2018年1期

周来,靳晓伟,郑益凯

(上海机电工程研究所，上海，201109)

0 引言

现代战争中，交战双方的对抗不仅局限于武器装备的性能对抗，还包括在复杂战场环境下根据武器装备体系的效能覆盖原理，在具体作战条件下适时精确地利用各种装备完成各自作战任务的智力较量。作战成败的关键也不仅在于武器本身，更在于如何综合筹划、有效运用和精准控制兵力，做出一系列正确的指挥决策[1]。

目前，作战辅助决策推理机制主要有产生式的规则推理[2-4]和基于数据库的案例推理[5-7]两大类方法。两者从不同视角反映了作战指挥决策的运行规律，均取得了较好的效果，但与此同时也存在一定的局限。前者只有在作战指挥规则明确、完备，态势条件确定的条件下才能发挥效果；而后者所得辅助决策推理的可信度与效率受案例数据库的丰富程度的制约，当案例数据库较大时，可信度较高而效率较低，反之虽可提升效率但导致可信度降低。

随着人工智能技术的发展，在作战运筹领域“机脑对人脑”的博弈优势逐渐显现，AlphaGo战胜人类棋手李世石就是最好的例证。深度学习方法(Deep Learning，DL)[8-10]利用多层网络结构以及非线性变换，组合低层特征，形成抽象的、易于区分的高层表示，以发现数据的分布式特征表示。将DL方法应用于战场数据的智能化分析处理，可迅速自主地辨明战场形势，加强对战场态势的感知、分析和理解能力，高效辅助指挥员进行作战决策，提升指挥控制效能，从而将信息优势转化为决策优势。强化学习方法(Reinforcement Learning，RL)[11-12]通过最大化智能体(Agent)，获得的累计奖赏值，以得到学习过程的最优策略，因此RL方法更加侧重于学习解决问题的策略。

深度强化学习(Deep Reinforcement Learning，DRL)以一种通用的形式将DL的感知能力与RL的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制，因此非常适用于作战辅助决策领域。

本文通过梳理作战决策过程，将DRL方法引入到作战辅助决策过程中。其中，DL方法用于战场特征向量的学习，RL方法用于决策状态的评估，并将两者相结合用于最佳行动决策序列的搜索。

1 决策过程分析

决策，根据韦氏词典解释为“做出决定的过程”。显而易见，决策是一个动态的过程。指挥员做出决策的过程如图1所示，包括数据生成、信息生成、知识生成、战场理解与方案制定五个步骤。

图1 决策过程

1.1 数据生成

指挥员面对庞大且复杂的战场环境，需要借助各种手段获取、生成战场数据。这一过程受传感器、计算机、人员操作、时间约束等因素影响，其过程如图2所示。

图2 数据生成

1.2 信息生成

由于数据只是传递信息的载体，其本身不存在意义，需要指挥员建立数据与信息之间的映射关系，从而理解信息的真实含义，如图3所示。以雷达接收目标回波为例，当观测到相关数据时，将数据与雷达相关联，确定目标到雷达的距离，并通过雷达横截面大小确定反射强度，利用观测到的多个连续回波，求取目标速度矢量，从而才能将雷达所得到的数据解释为信息。

图3 信息生成

1.3 知识生成

所谓知识，是将得到的信息与其所处环境相结合，并进行关联性分析。如雷达信息给出目标以900 km/h的速度于3000 m高度处飞行，指挥员可以判断目标有可能为固定翼飞机。随着更多信息被转化为知识，指挥员对战场了解更加深入，但是当信息之间存在冲突或者是战场信息不完整时，对战场判断的不确定性也随之增加。指挥员需综合各方面因素提出相应假设，根据现有资源对假设进行评估，从中得出最符合现实的判断，此过程即为态势感知，如图4所示。

图4 知识生成

1.4 战场理解

在对战场环境具备一定程度的了解之后，指挥员根据自身判断能力、以往的经验、对环境的认知程度以及对行动的期望等因素，将感知到的情况与之前所做出的假设进行比对，从而将态势感知升华为态势理解，如图5所示。

图5 战场理解

1.5 方案制定

在态势理解的基础上，指挥员根据作战意图、自身的期望、交战规则以及诸如天气、地形等各种约束条件制订方案，再对各方案进行评估，选择最优方案展开行动，如图6所示。

图6 方案制定

2 基于DRL的决策

在复杂多变的战场环境下，对仿真推演平台得到的战场环境因素、红蓝双方武器系统参数、态势评估结果和演化流程要素等信息构成的状态特征向量进行量化处理，将其转化成一个序列多步决策问题。通过DL方法提高状态空间和动作空间的搜索能力，利用RL模型制定控制策略，使得决策行为产生效果的期望值最大。

2.1 基于DL的战场特征提取

在战场特征提取阶段，使用DL方法中的卷积神经网络方法。若将仿真推演过程分为10个阶段状态，每个状态对应两种选择。以此构建的卷积神经网络，如图7所示。该过程对由若干个感知节点 (24×24) 组成的输入层(每个感知节点对应一个战场状态参数或直觉量化信息)，交替进行卷积和子抽样，实现指挥员情绪、行为和战法演变过程状态与决策的特征向量的高度抽象。

图7 基于DL方法的战场特征提取流程

第一隐藏层进行卷积，它由4个特征映射(情绪空间、行为空间，状态空间和决策空间)组成，每个特征映射由20×20的神经元组成，每个神经元指定一个5×5的接受域。第二隐藏层实现子抽样和局部平均，由4个10×10的神经元组成的特征映射构成。第三隐层进行二次卷积，形成8个6×6的神经元组成的特征映射层，采用与第一卷积层相似的方式操作。第四隐藏层进行第二次子抽样和局部平均计算，进一步提取信息。第五隐藏层进行最后阶段的卷积，通过神经元个数和接受域大小设定抽象特征。最后是全连接层，得到输出向量。深度网络的计算在卷积和抽样之间连续交替，随着空间分辨率的下降，特征映射的数量与前一层相比不断增加，保证了特征关联映射的效果。

由此获得的输出结果是高度抽象的指挥员情绪、行为和战法演变过程状态与决策的特征向量，为学习得到影响作战辅助决策的最基本要素提供技术保障。

2.2 基于RL的决策行为评估

RL过程是一种随机过程，即整个决策是一个具有概率特性的过程，每一步的选择都是不确定的，是在一个概率分布中采样出来的结果。因此，在离散的系统中，整个回报函数是时序/路径的叠加，而在连续系统中，整个回报函数是一种沿时间轴进行的时序/路径积分，以此评价决策行为和所处状态的质量，进而实现整个系统的优化。

a) 离散系统

(1)

优化目标为：

Q*(s,a)=maxπE[R(st,at)|st=s,at=a,π]=Es′-ε[R(st,at)+γmaxa′Q*(s′,a′)|s,a]

(2)

其中，π为策略，Q(s,a)为状态动作值函数，Q*(s',a')为最优状态动作值函数。

通过迭代Bellman方程求解上述目标函数：

Qt+1(s,a)=Es′-ε[R(st,at)+γmaxa′Qi(s′,a′)|s,a]

(3)

当i→时，Qi→Q*，即通过不断迭代使状态动作值函数收敛，得到最优策略。

b) 连续系统

实际的战场环境因素大多都是连续的，特别是在人机结合的过程中，如人在指挥控制战场的过程中，其状态空间以及动作空间都是连续的。对于连续状态的演进控制，已无法选择动作，只能设计一种方法，使得输入状态后的动作输出对应的Q值最大。

为了避免收敛陷入局部最优解，利用Actor-Critic框架构造双神经网络。其中，Critic类似Q-Learning值函数方法，主要用于评估策略，而Actor是梯度方法，用于改进策略。Critic使得策略的评估得到改善，若给Actor一个更好的梯度估计值，能改善局部最优问题，Actor避免了值函数中低效的值估计过程，同时也能应对连续动作空间。

2.3 基于DRL的作战辅助决策

将DL与RL相结合，利用仿真推演平台对战场数据与作战辅助决策进行综合处理分析，建立双向信息流和决策流的共生体系。整个过程如图8所示，利用Agent(战法推演仿真平台)获取感知域(Perception Region)内的状态信息，然后将感知到的信息进行特征抽取及协同分析，并将其融合到状态St-1。为了找到状态与行动之间的关系，将当前人的行动空间也作为输入。经过深度学习网络，完成当前状态的评估，得到战场环境的策略空间，将评估得到的结果传输给人以实现人机共生的构建。在这个过程中，从战场环境中得到行动at的回报Rt，回报值的高低直接决定着当前行动质量的优劣。为了能够获得整个战场决策的胜利，需要对每一个策略节点(即状态下的行动空间)进行评估，直到寻找到最佳的行动决策序列。

图8 基于DRL的人机共生辅助决策

3 结束语

随着具有信息化、体系化、网络化、协同化特征的现代化战争的日益临近，利用智能化技术分析、理解、预测战争，并从中辅助指挥员适时、快速、准确地做出决策，可以确保将信息优势转化为决策优势，最终达成作战目的。

近两年，随着以深度学习和强化学习为核心的人工智能技术的突破和发展，为指挥信息系统的智能化开拓了新的技术途径，而基于人工智能的作战辅助决策也势必成为形成与对手不对称优势的关键。因此，需要更加重视人工智能技术未来的发展，充分利用深度学习和强化学习等智能技术的进步成果，促进指挥控制系统能力的跨越式提升。

[1] 樊延平,郭齐胜,穆歌.融合规则推理和案例推理的作战指挥决策建模[J].火力与指挥控制,2013,39(9):108-111.

[2] 郝立山,夏洪波,田书超,等.基于规则的CGF实体行为建模技术[J].火力与指挥控制, 2015,40(1):96-99.

[3] 吴扬波,贾全,王文广,等.基于规则推理的海战仿真实体决策方法[J].火力与指挥控制,2009,34(8):30-33.

[4] 谭亚新,王成,范锐,等.基于预定指挥规则的指挥决策模型研究[J].系统仿真学报,2008,20(14):3820-3824.

[5] 张洪钢,杨艾军,张勇.行为可变性在指挥决策仿真中的运用研究[J].军事运筹与系统工程,2008,22(1):69-74.

[6] 唐雪松, 郭立红,陈长喜.基于案例推理方法在态势分析中的应用研究[J].计算机测量与控制,2006,14(12):1723-1725.

[7] 于新源,许波,姜再明.军事辅助决策模型及其求解技术研究进展[J].战术导弹技术,2006(5):1-9.

[8] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究，2012,29(8):2806-2810.

[9] 余凯,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展，2013,50(9):1799-1804.

[10] 刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究，2014,31(7):1921-1942.

[11] Ipek E, Mutlu O, Martinez J F, et al. Self-optimizing memory controllers[J]: a reinforcement learning approach. Computer Architecture, 2008, 36(3): 39-50.

[12] Sutton R S, Barto A G. Reinforcement learning[J]: an introduction. Cambridge: MIT press, 1998.

[13] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529-533.