联合战役兵棋AI 体系框架设计及关键技术分析

2023-03-11贺筱媛陶九阳

火力与指挥控制 2023年1期

任航，贺筱媛，陶九阳

（1.国防大学，北京 100091；2.解放军31113 部队，南京 210008）

0 引言

兵棋系统是作战指挥及日常训练中不可或缺的有力工具，也是军事智能决策研究领域的重要平台。近年来，深度强化学习技术在围棋、纸牌、即时策略游戏中的尝试均获成功［1-7］，为兵棋智能化的实践探索提供了方向借鉴。目前深度强化学习与兵棋的探索尝试主要集中于战术兵棋［8-11］，在联合战役级兵棋中的尝试还鲜有报道。联合战役兵棋决策与游戏、战术兵棋决策并不完全相同，联合战役兵棋决策偏重于手段与时机的选择，游戏和战术兵棋侧重于行动的即时应对。这种差异集中反映出战役与战术、严肃军事对抗与娱乐游戏间的区别，同样也成为技术迁移过程中的主要制约。综合兵棋AI与现有技术发展情况看，仅靠深度强化学习技术并不能解决联合战役兵棋决策控制中的全部问题。联合战役兵棋AI 需要将传统方法与深度强化学习有机融合。本文的问题原点是在既有深度强化学习技术基础上如何更好地与战役兵棋融合，成功打造有效对接军事需求的联合战役兵棋AI。为此首先梳理强化学习概念原理，并对联合战役兵棋AI 的功能需求展开系统分析，在此基础上提出数据融合知识的混合兵棋AI 框架，并就其中的关键技术进行讨论。

1 强化学习方法原理概述

1.1 强化学习基本概念

强化学习是智能体在奖励信号牵引下通过反复交互试错学习，如何在不确定条件下进行序列决策的过程［12］。强化学习方法中信息交互可以概括如下：1）智能体主动进行环境探索；2）环境反馈评价智能体的探索行为；3）智能体根据反馈修正对环境的认知，改进动作选择以期达成最终目标。智能体在进行动作选择过程中，如果动作导致后续大的正向奖励，则智能体在类似环境下会对该动作更加青睐，反之则减小选择频次。强化学习原理如图1 所示。

图1 强化学习原理示意图Fig.1 The sketch map of reinforcement learning basic theory

标准强化学习用马尔可夫决策过程（markov decision process，MDP）五元组（S，A，r，f，γ）形式描述。其中S 为环境空间，A 为动作空间，r 为奖励函数，f 为状态转移函数，γ 为奖励折扣。在五元组形式之上智能体建立价值判断体系进行动作选择。价值判断体系建立于客观环境奖励函数之上，价值判断表现为显式的数值量化。价值判断体系有状态价值网V 和动作价值网Q 两种不同形式。奖励函数偏重眼前反映的是当前动作的优劣，价值评价体系重长远评的是累积奖励。智能体利用探索获得的经验更新价值判断体系，经典的更新算法有Q-Learning［13］和SARSA［14］算法。

1.2 深度强化学习相关概念

强化学习一值一更的方式无法在有限时间下遍历搜索空间导致泛化性较差，并且不适用于连续状态动作空间，为克服上述问题由此诞生了深度强化学习方法。深度强化学习大体区分为基于值函数方法与基于策略梯度方法两类。

基于值函数方法围绕价值网络求解展开，深度Q 网络（deep Q-network，DQN）［15］是其核心算法，后续方法大都是对DQN 的优化。DQN 使用深度卷积网络拟合动作价值，实现对状态空间的降维表征，同时引入数据存储与采样回放机制辅助网络训练。为提高训练稳定性在评估网络基础上，文献［16］引入目标网络扩展DQN 方法；文献［17］提出Double DQN，降低过估计对训练的影响；文献［18］根据经验质量确定抽取优先级，改变原有等概率抽样方式；文献［19］利用恒等变换将状态动作函数拆解，提升动作评估的精确性；文献［20］引入长短时记忆网络（long short-term memory，LSTM）将DQN 的应用范围扩展到时序信息领域；文献［21］引入视觉注意力机制，使智能体将关注的重心放在影响决策的重点区域上。

策略梯度方法使用近似函数直接对策略进行建模。与值函数方法相比，策略梯度方法适用于连续高维动作空间。连续高维动作策略函数被建模为确定性函数形式。在确定性策略梯度（deterministic policy gradient，DPG）［22］算法上形成深度确定性策略梯度（deep deterministic policy gradient，DDPG）［23］算法。离散动作策略建模为概率函数形式并动态确定更新步长，算法有置信域策略优化（trust region policy optimization，TRPO）［24］以及近端策略优化（proximal policy optimization，PPO）［25］算法等。

1.3 深度强化学习主要领域分支

在基础的深度强化学习之上，相继衍生出多智能体深度强化学习、分层深度强化学习等领域分支。

1.3.1 多智能体深度强化学习

多智能体强化学习（multi-agent reinforcement learning，MARL）将强化学习思想应用于多智能体系统。多智能体系统遵循马尔可夫过程，由多元组（n，S，A1，A2，…r1，r2，…f，γ）的形式描述。MARL 中单个智能体动作产生效果，既取决于环境也受其他智能体制约，状态转移是全体智能体共同作用的结果。MARL 中动作空间为联合动作空间A=A1×A2×…×An，全体智能体的策略构成联合策略。MARL 原理示意如下页图2 所示。

图2 多智能体强化学习原理示意图Fig.2 The sketch map of multi-agent reinforcement learning basic theory

在经典MARL 算法基础上引入深度神经网络由此形成多智能体深度强化学习（multi-agent deep reinforcement learning，MADRL）方法。复杂博弈场景中MADRL 的实践案例有：阿里巴巴提出的BiCNet网络成功在星际争霸1 的微观操控场景中学到团队协作策略［26］；OpenAI 公司开发的OpenAI Five［6］在Dota2 平台中击败了世界冠军战队；腾讯AI 基于王者荣耀平台开发的“绝悟”系统在5v5 模式下与顶尖选手对战中取得了不俗表现［27-28］。“绝悟”架构迁移开发的足球智能体WeKick，在首届谷歌足球Kaggle 竞赛中获得了冠军。

1.3.2 分层深度强化学习

分层强化学习（hierarchical reinforcement learning，HRL）借鉴人类解决复杂问题化繁为简、分而治之的思路，将分层思想引入强化学习之中。HRL 将原始问题分解成不同层次粒度的子问题，直至子问题态空间有限且易于求解。HRL 通常形成原始问题-子问题-原子问题的层级结构。在原始问题-子问题层级，动作定义为宏动作形式，即由多个底层动作向上抽象而成。HRL 的理论依据是半马尔科夫决策过程（semi-markov decision process，SMDP）。SMDP 相当于在时间维度上对MDP 的状态转移过程进行了折叠，图3 为其说明示意。在分级结构中高层状态的转移遵循SMDP 模型，底层状态转移完全遵循MDP 模型。

图3 MDP 与SMDP 状态集比较Fig.3 The state set comparison between MDP and SMDP

深度分层强化学习（deep hierarchical reinforcement learning，DHRL）方法脱胎于HRL，其中，分层DQN（hierarchy DQN，h-DQN）算法是其典型代表［29］。h-DQN 建立双层网络结构，顶层元控制器负责为下级指定目标，底层控制器根据目标进行探索直至达成目标。底层控制器接收内部评价器反馈的内置奖励，元控制器接收环境的反馈奖励，图4 为h-DQN的原理示意。h-DQN 在较难的Atari 游戏蒙特祖玛的复仇中取得了优于DQN 的实际表现。除h-DQN外DHRL 的理论研究工作主要包括层次的划分、底层策略复用等。在星际争霸2 的研究中腾讯AI、南京大学、UCLA 等均将DHRL 的思想加以运用［30-32］，整体动作任务设计上均区分为了宏动作与微观动作两个层级。在OpenAI Five 的结构设计中同样包含有DHRL 的影子。

图4 h-DQN 原理示意图Fig.4 The demonstration diagram of h-DQN principle

1.4 深度强化学习算法性能分析

强化学习技术善于在既定目标下进行决策学习与控制，试图建立从状态到动作的输出映射关系，底层数据是其主要的学习素材。深度强化学习端到端自底向上提取知识的方式，不可避免伴随学习效率问题，其展现出的学习能力无法与人类划等号。人类学习能力并非体现在基础知识的掌握程度上，而是对知识深层概括以及由此实现的跨领域迁移上。深度学习实现对提取知识的泛化，但这种泛化范围相对有限，无法像人类一样在看似风马牛不相及的事物中找寻出共性。强化学习方法偏重于有限目标下的策略实现，难以通过数据的综合学习提取到更为抽象的宏观策略。由于缺少如人类的抽象思维，加之强化学习方法探索-利用学习机制的内在作用，很容易造成策略在局部最优解附近震荡，在处理长程决策问题时表现尤为明显。

虽然MADRL 方法适用于解决多单元场景的博弈决策问题，但实践落地却面临诸多现实困难。智能体间的频繁交互打破了相对稳定的学习环境，不同智能体动作策略的交叠增大了对奖励的学习难度。智能体无法观测到全部状态信息，大量有用信息被折叠隐藏增大了转移概率的学习难度。智能体间的协同配合依赖于通信协调机制，有效通信信道的学习构建将占用大量的训练资源，导致模型复杂度的增长。

DHRL 方法的核心关键在于高层目标状态的确定。目标牵引智能体学习，一系列高层目标状态串联出整个问题域的求解通路。归根结底求解通路利用的是人类知识经验，反映的是人类对该类问题的应对之策。机器自身不具备发现定义高层目标的能力，基于高层目标的通路设计也非机器所长，因而高层目标主要还是依靠人工抽象方式定义。人工设置目标的方式也有自身问题，一方面复杂博弈场景中人工通路并非一定是问题的唯一或最优通路，过多的设置可能会限制新颖招法的涌现；另一方面高层目标的定义又需要大量领域知识的支持，为DHRL 的应用设置了门槛。

MADRL 实质是确定智能体的控制层级，DHRL则是确定智能体的任务设置层级。MADRL 及DHRL方法并不适宜直接运用于联合战役兵棋系统中。

对于MADRL，除实体单位数量与问题规模的因素外，MADRL 无法直接适用的原因还在与联合作战指挥决策机理，以及兵棋内置模型构模方式的作用影响。

联合战役兵棋面向战役指挥，战役指挥决策是其关注突出的重点。由于战役指挥决策重在实现稳局、控局，因而战役指挥决策建构在对作战全局的通盘考虑之上，决策面向的是联合战役指挥员及其指挥机关。联合战役指挥员作为战役宏观局势的最高掌控者，其根据全局态势信息进行决策。联合战役兵棋决策是由中心向下的垂直一体控制模式，各个智能体之间是地位平等的并列关系，不存在居于中心负责核心控制的顶端上层智能体。每个智能体仅能观察到探测视域内的有限信息，通过在各个智能体间建立专门的信息传输通道，在缺少中心智能体的情况下，借助MADRL 方式可以实现基于若干局部片段信息的有效决策。MADRL 的宏观决策效果通过自底向上的涌向实现，在不经上层智能体控制的情况下实现有效的功能自组织。兵棋特别是面向指挥决策的联合战役兵棋存在明显的指挥与被指挥关系，战役指挥员居于天然的核心位置，其通过融合汇聚下级单位信息，实现基于己方信息全图的自顶向下的指挥控制。负责战役指挥力量单元的智能体对其他力量单元构成绝对支配关系，满足MADRL 方法提出所着力弥补的场景条件。此外，MADRL 更注重底层动作“微操”，能够实现底层动作的精细化配合，这与联合战役兵棋关注指挥决策本身、突出决策质量的研究出发点存在一定方法适用性上的偏离。

综上分析，与兵棋想定实体单位一一对应不经抽象的控制层级设置将产生维度灾难。对于战役终局不经提炼的任务层级构设无法克服信度长程分配的问题。一种强化学习方法手段不能有效满足兵棋背景下复杂决策求解要求，在结合实际综合运用多种强化学习方法手段的同时，还需要与传统基于知识驱动的决策方法进行一定融合。与MADRL 以及HDRL 方法相比，由于问题研究重心的侧重，基于单智能体垂直分层控制并融合知识规则的强化学习建模模式，更适用于联合战役兵棋的智能决策建模。

2 联合战役兵棋AI 的系统功能分析

2.1 联合战役兵棋的功能及运用方式

联合战役兵棋具有兵棋博弈对抗的基本特征，重点关注刻画联合战役层级上的指挥对抗活动，可谓起点在联合落点于兵棋。联合战役兵棋用途大体区分为方案分析与指挥对抗训练两类。方案分析侧重于将兵棋作为检验方案的手段，突出评价的结果。指挥对抗训练侧重于将兵棋作为训练指挥员的工具，突出的是训练的过程。方案分析既可以融入指挥对抗训练中，也可以独立运用于作战筹划过程中。

作战筹划中引入兵棋推演反映战争认知方式从定性到定量的转变。有限次推演无法穷尽战争全部可能，兵棋推演的目的主要在于查找方案缺漏并分析不同方案的优劣短长。通过推演不同方案形成比较结论供指挥员参考。当指挥员确定某一具体方案后，随即组织多轮次精细推演以迭代完善方案内容。作为方案评估分析的重要手段，美军在联合出版物JP5-0 中明确规定了兵棋推演的地位作用。联合战役兵棋推演带有明确的目的指向，美军主要针对对手对威胁最大或最有可能的作战行动制定其自身的任务序列（course of action，COA）并展开推演。

方案分析重在发现问题，联合指挥训练重在向指挥员传递知识。借助联合战役兵棋进行指挥训练，指挥员一方面获取联合指挥的技能知识，另一方面熟悉掌握主要作战对手的作战样式和可能行动。背靠背推演训练形式能够营造逼真的对抗环境，深化指挥员对作战问题的认识理解，引导指挥员深入思考作战问题。同时，战役兵棋推演丰富了指挥员指挥实践的手段，通过沉浸推演指挥员获得了近乎实战的一手资料，快速完成从理论知识向实践能力跃迁，进而更好地适应战位的需要。

2.2 联合战役兵棋特点

作为真实环境在虚拟空间的映射，联合战役兵棋的特点更多反映联合战役与战术以及游戏间的区别。与战术对抗相比，联合战役时空背景涵盖陆、海、空、天、电、网等维度，涉及力量种类数量多元庞杂。联合作战指挥过程需要实现作战筹划与指挥控制相互衔接，战役设计与战术执行相互配合，当前行动与长远规划相互适应，局部利益与全局考量相互协调。在兵棋环境中同样需要以一体的战役设计有效统合各维度力量。

联合战役兵棋的专业指向性更强。无论是方案分析还是指挥对抗训练，联合战役兵棋服务的主体是居于联合作战领导核心的指挥员及其参谋团队。联合战役兵棋模型是一种粗粒度模型，战术兵棋或游戏那样细粒度的细节刻画在联合战役兵棋中既不可行也不可取。联合战役兵棋中战术细节让位于宏观决策，指挥艺术成为联合战役兵棋表现的重点。联合战役兵棋中一机一舰的得失，对战役全局并不足以产生根本性影响，胜负的关键更偏重于指挥员的全局谋划。由于联合战役兵棋推演中红蓝遵循相同的构模原理，在力量对比均衡的条件下，胜负的关键主要系于指挥员精巧的摆兵布阵、精心的作战设计以及灵活的处置应对。

根据OODA 循环理论，联合作战指挥是一个以观察、判断、决策、行动为核心的滚动迭代过程。获取战争主动权一方面要加速己方OODA 循环，另一方面要设法迟滞甚至打破对方OODA 循环。图5 为联合战役指挥OODA 循环示意。由于需要协调控制众多力量单元，方案计划对于联合作战组织的指导作用分外凸显，紧前设计事先筹谋的重要性不言自明。方案计划为兵力火力行动协调设置统一基准，以方案计划为主线链条串联起不同作战行动，在时域、空域、频域等方面实现作战组织同步。合理的方案计划能够规避行动间的可能冲突，使得无序的作战行动归为有序，进而降低作战行动自组织的复杂性。即以作战行动目标为纽带将指挥艺术渗透其中，实现作战行动间步调协调以更好体现战役章法，最终通过各力量单位的同频共振取得“1+1＆gt;2”的作战效果。

图5 联合战役指挥OODA 循环示意图Fig.5 The demonstration diagram of OODA cycle for joint campaign command

2.3 联合战役兵棋AI 需求分析

联合战役兵棋AI 的直接军事需求可以归纳为智能指挥官以及智能对手两类，亦即智能红军与智能蓝军。智能指挥官主要面向两类应用场景：一是方案计划智能生成辅助，从形成构想到拟制方案为指挥员及参谋人员提供有价值的参考；二是辅助指挥员快速推演作战方案，及时发现方案漏洞不足并加以完善。智能对手与智能指挥官有所区别，其定位是充当指挥员训练或方案检验中的条件对手。与智能指挥官相比，智能对手的构设要求及实现难度更高。在进行全维对抗的同时尽可能地展现出模拟对象的风格特质，为红方出情况、设难题。

从功能角色上来看，智能指挥官是指挥员思维的“助推器”，充当指挥员决策的辅助助手。智能对手扮演的则是“磨刀石”，即站在对手的角度为红方挑毛病、找缺陷；从核心功能上看，智能指挥官设计的核心理念在于“强”，击败对手是其根本出发点。智能对手往往是“像为优先”抑或“像强并举”，即在兵力编制、作战思想、风格特点等方面接近对手的前提下，通过恰当的招法选择充分发挥出模拟对象的体系效能。

从采用的技术上看，智能指挥官直接服务于指挥员的军事指挥，决策被指挥员认可有赖于坚实共通的知识理解体系作基础。因而智能指挥官的构建技术大多要具备可解释性，能够清晰描述决策的来龙去脉，无需另行逆向决策缘由。智能对手并不要求决策具有可解释性，只讲求决策结果不偏重决策形成过程，因而可以大量采用甚至完全依靠如深度神经网络这样的黑盒模型。

AI 智能表现形态上有强弱之别。弱智能仅仅能够解求解给定问题，强智能不但能求解问题还能够提出新问题。联合战役兵棋AI 中智能强弱的差别反映的是人与机的深层关系问题。弱智能的兵棋AI系统主要基于人机混合架构，AI 从属于指挥员外在表现，它只是指挥员思想的落实者，自身不会产生迸发类似指挥员的思想灵感。强智能的AI 系统建立在人机融合架构模式上，人与AI 处于平等地位，人的思维意图完全为AI 所理解。

自主性是区分兵棋智能强弱的重要标志。决策自主性在兵棋AI 中具体体现在自主态势理解、自主行动决策以及自主协同控制方面。弱智能的兵棋AI 无法真正理解态势只是机械地分类态势，通过训练学习相应分类与决策之间的函数关联。弱智能兵棋AI 无法完全独立于指挥员建构出整套决策逻辑，其所代替的是作战指挥中指令执行部门全部以及计划部门的部分。在协同控制上往往是基于人类既有规则进行，难以独立发掘出足够的协同规律。与之相对，强智能则能够在态势理解基础上实现态势的智能认知，具备对态势信息泛化抽象以及定义发现新态势信息的能力。在此基础上，强智能的兵棋AI 探索总结出决策及协同的共性规律，并运用于不同的场景中。

综合军事需求及其可能的智能表现形态。强智能是联合战役兵棋AI 所孜孜追求的长期目标，其实现需要依托人机融合、智能态势认知等领域的突破性进展。以弱智能为基础，带有部分强智能特征的智能形式，将是联合战役兵棋AI 当前的前进方向。

3 联合战役兵棋AI 体系框架及关键技术

3.1 面向联合战役兵棋AI 的体系框架设计分析

借助恰当的体系框架，联合战役兵棋AI 能够实现对诸多力量单元的有效控制。人类智能的作用表现为做正确的事，AI 的作用则表现为正确地做事。人类智能与AI 各有优长，人是具有情感、意识的生命体，能够完成AI 所不具备的价值判断。由于比之人脑AI 具有更强大的计算存储能力，因而更擅长在指定目标下进行相关动作的精细操控。

联合战役兵棋AI 面向的是复杂场景下的决策控制。构建联合战役兵棋AI 的重要任务之一就是使AI 具备出色的全局视野。为将宏观思维植根于AI，将数据驱动AI 作为动作控制核心的同时，引入以人的经验知识为核心的宏观知识型AI 负责高层策略设计，由此形成数据融合知识的混合兵棋AI框架，具体框架如图6 所示。

图6 数据融合知识的混合兵棋AI 设计框架Fig.6 The wargame AI design framework based on hybrid of data and knowledge

宏观知识型AI 与微观数据型AI 上下联动，宏观知识型AI 的输出即为微观数据型AI 的输入，微观数据型AI 的累积执行效果反向验证宏观知识型AI 决策。宏观知识型AI 负责战役进程规划，为微观数据型AI 描绘可能的路线图。微观数据型AI 以强化学习为技术内核，实现作战资源与任务的具体适配。宏观知识型AI 建构于作战原则、实战经验以及创造性思维之上。创造性思维体现指挥员的指挥艺术，用于指导AI 从整体上进行战役预设构想。作战原则用于解构指挥艺术，将抽象的战役设计具象化为一系列的序列选择及对应的任务集合。实战经验用以指导部分信息的选择设定，降低信息空间的不确定度。智能程度更高的AI 不但能进行前置规划，还能结合实时态势进行战役任务的重规划，即视态势偏离预想的程度进行干预。微观数据型AI 则通过反复学习对抗数据的方式形成相应的行动策略。从对抗数据中学习很有可能会形成一些违背实际的动作行为，为此将规则约束类数据引入以规范AI行为。

受限于作战场景以及模型粒度，不同策略中具体动作指令疏密分布不同，以致强化学习在底层动作的效果适用性上存在差异。剑走偏锋、险中求胜的策略选择，往往对作战场景范围、兵力部署、战机把控等方面限制近乎严苛。此外一些力量单元有其程式化且固定的运用模式。以上因素设置了AI 成长的上限，降低了AI 的学习效率。基于此将部分知识规则吸纳入微观数据型AI 作为过渡，以降低AI学习训练难度。知识规则部分与强化学习部分间保持浮动弹性，并结合课程学习思想由易向难、由浅入深依序进行渐进训练，逐步压缩知识规则直至底层AI 实现完全的数据驱动。

数据融合知识的混合兵棋AI 框架，实现了部分尤其是顶层军事设计过程的相对可解释，一定程度提升了AI 整体的可信性。该框架兼具灵活性考虑，指挥员可以通过介入宏观知识型AI 决策的方式影响微观数据型AI。层次化的框架设计与真实作战指挥层级建立了初步对应关系，同时实现了功能间的部分解耦，充分发挥了知识推理与符号推理两种知识组织运用形式各自的优势，并兼顾了对架构扩展性的可能需求。伴随人机融合技术的成熟落地，指挥员意图可以不经过多转换直接作为下层的功能指导，宏观知识型AI 中功能模块间的内聚性也将不断增强，与微观数据型AI 的联动也会愈发顺畅。

3.2 基于层次结构的决策空间划分

一体的决策任务划分是数据融合知识的混合兵棋AI 框架实现上下有机联动的前提。基于分而治之的条块分割思想，联合战役兵棋AI 的整体策略空间依序划分为宏观联合策略层、作战域任务层以及功能域战术执行层的3 层结构。其中，联合宏观策略层对应于宏观知识型AI，作战域任务层以及功能域战术执行层对应于微观数据型AI。

宏观策略层实现战略意图分解，即将战略设计转化为一系列联合战役任务集，进而转化为规范化的COA 输出。联合战役任务以诸军兵种共同的作战目标为组织纽带，目标类型作为任务划分的依据参考。联合宏观策略层向下对接作战域任务层，输出为陆、海、空等分域作战任务。作战域任务层将某一联合任务对应的分域中作战任务尽数囊括用以限定AI 决策的动作空间。功能域战术执行层上承作战域任务层，下启原子化的兵棋指令。宏观的战役设计落实为平台末端具体的指令动作。

联合战役兵棋重点关注作战体系效能发挥，战术行动的细微参数变化对作战体系效能并不产生决定性影响。为在功能域战术执行层中实现群体单位的综合控制，需要在兵棋原子指令基础上进行指令二次封装。相关封装内容包括两项，一是武器平台运用中的知识经验，以排除无效甚至错误执行指令的干扰。同时依据相应的条令条例、文件法规等在战术层面贴近己方或对手，为构建战役级“红军”或“蓝军”打好基础。二是引接智能算法进行兵器火力分配，完成兵力火力与任务的匹配，实现力量单元运用的合理规划，为高层智能的涌现创造条件。作战域任务层介于上述两层之间，是联合战役兵棋AI 的核心关键。作战域任务层输入为战场态势的综合信息，主要聚焦于对下层的综合调度控制。在封装指令之上根据COA 的信息输入，作战域任务层AI不断与环境交互探索综合效应最大化的行动策略。

3.3 基于作战任务划分的任务序列生成技术

宏观知识型AI 与微观数据型AI 基于不同的构建机理，COA 是两个AI 模块之间沟通的桥梁依托。美军将COA 表述为以作战任务及其时序关系所构成，并以实现战役目标企图为指向的路线方法或手段。就所关注的军事问题COA 提供了一个相对完整的解决方案。COA 由指挥员主导参谋人员配合完成。COA 的创造性开发更多基于植根在指挥员知识经验之上的感性认知，是一个集哲学、艺术、灵感与理性等于一体的复杂过程。宏观知识型AI 通过智能建模技术模仿指挥员思维，以利于流程处理的结构化方法将抽象的COA 生成过程转化落地。

常规的任务序列生成技术主要包括面向知识工程方法与机器学习方法两大类。面向知识工程方法通常以人工构建的逻辑规则集为基础，利用模糊规则匹配、决策树、层次网络等技术生成COA。机器学习方法通过对问题域的有效探索，寻找适宜的COA 生成路径。知识工程方法需要人工进行知识经验提取，人类的认知水平成为知识工程方法拓展的天花板。由于难以抽象出探索需要的简化模型，单纯依赖前向模型探索的机器学习方法面临效率的制约。宏观知识型AI 在层次化的决策空间划分基础上融合上述两种方式，形成人类知识引导下的AI作战任务序列生成模式。宏观知识型AI 所对应的COA 生成过程如图7 所示，即从历史推演数据构成的知识库中提取出枢纽态势用以分割约简整个战役场景；结合资料手册以及专家经验等建构知识图谱，立足知识库中的枢纽态势，推荐引导AI 进行任务序列的可能探索；对探索过程中出现的新的枢纽态势及时加入知识库进行完善，最终基于上述步骤循环探索出由初始场景到期望终态稳定的可达路径。

图7 COA 智能生成过程示意Fig.7 The intelligent process of COA development

宏观知识型AI 对作战任务序列的规划贯穿整个推演过程。针对实际与预想态势的差距，宏观知识型AI 中设计并引入重规划机制动态调整任务序列，根据对状态监测与评估的结果视情确定具体调整方式。任务序列的调整方式主要有3 种：一是基于既有知识的序列信息补全；二是针对部分分域任务的局部作战序列调整；三是针对整体目标变化等情况对整个作战过程的全局全域调整。对任务序列的重规划机制能够进一步提升AI 应对不确定因素的能力，将任务序列的规划与执行过程更好地统一起来。

3.4 基于深度强化学习的行动策略优化

作为底层微观数据型AI 的核心落地模型，深度强化学习模型利用深度神经网络分析态势，在奖励函数作用下进行动作的预测输出。面向联合战役兵棋的深度强化学习模型，其作用效果受限于与宏观知识型AI 的联动机制、态势输入及动作空间设计、奖励函数构建形式等。在联合战役兵棋中，一个单独的智能体难以对诸多差异性力量单元进行全面有效控制。宏观知识型AI 根据各力量单元的作用域对作战空间进行分解，微观数据型AI 在此基础上围绕相同的任务目标，构建若干功能独立彼此不发生交联的智能体。在一个决策周期内诸智能体基于自身因素考量同时进行决策，并根据相应任务的动作空间构建智能体具体的策略网络。每一个智能体控制能够执行某一特定任务的实体单位全体，策略网络输出为所要执行的具体任务，以及执行任务的具体主体与客体。上述输出共同组成一个完整的任务逻辑闭环。基于现代武器复合式平台化的设计理念，诸多武器装备单元能够遂行多样化作战任务并非仅针对特定任务的专器专用。由于各任务域智能体的执行主体可能会产生任务执行冲突，因而需要引入专门的冲突消解模块。冲突消解模块以知识规则形式对任务智能体执行任务的顺序关系等进行限定。

4 结论

联合作战是未来战争的主要样式。联合战役兵棋系统是进行联合作战问题研究的重要依托。联合战役兵棋对抗是基于不完全信息的复杂博弈，联合战役兵棋的智能化研究具有迫切而现实的军事需求。竞技游戏领域中大放异彩的深度强化学习技术并非解决军事博弈问题的万能良药。联合战役兵棋自身的复杂性为深度强化学习技术运用设置了障碍，机器与人类知识的融合是实现智能化兵棋推演的不二选择。本文所提出的体系框架既着眼技术的现实情况，又充分考虑未来技术的可能发展，能够适用于AI 整体联动、人机混合乃至人机融合等多种智能组织形式，具有一定适应性与较强扩展性。言而总之，数据驱动的建模方式与知识规则建模方式的高效协作，将为更高阶智能的涌现创造可能。寻找两种建模方式融合效果的最佳平衡点将成为未来一个阶段智能博弈技术研究的重要方向。