联合战役仿真环境对强化学习的挑战

2023-09-20胡晓峰

计算机仿真 2023年8期

李东,许霄,吴琳, 胡晓峰

(国防大学联合作战学院,北京 100091)

1 引言

随着DeepMind公司相继在Atari游戏[1]和围棋[3]中取得超过人类水平,以深度强化为代表的智能决策技术吸引了学术界和工业界的广泛关注。决策问题正成为继计算、感知后人工智能领域新的研究前沿阵地。

作为军事指挥训练和作战问题分析的重要平台,作战仿真模拟系统(也称兵棋)已成为各军事大国研究的主要途径之一[2]。由于历史和学科发展原因,兵棋系统当前主要用于对传统作战理论和试验方法的补充,即使用主体是人。将智能决策方法应用于战役推演环境的研究方兴未艾。

本文以联合战役推演仿真环境作为基础平台,从战役决策问题本身出发,结合联合战役仿真的特点,探讨将基于深度强化学习的决策技术应用到作战决策这一特殊问题的可能性,以及面临的困难和挑战,为智能决策在作战指挥中的研究提供参考。

2 相关背景

在取得围棋战胜人类顶级选手的里程碑式的成果后,DeepMind团队瞄准了多智能体实时交互这一领域,依靠自身在深度强化学习领域的技术积累以及Google公司强大的计算资源,一直引领着星际争霸2智能技术的突破,其开发的智能体AlphaStar[3]于2019年取得了战胜人类职业选手的辉煌成绩,成为第一个采用端到端的学习技术达到此水准的计算机程序。在深度强化学习取得瞩目之前,参加星际争霸游戏AI赛事的队伍们大多使用基于规则的技术尝试打败游戏内置程序,普遍达不到人类专业电竞选手的水准。

作战决策问题的研究一般基于作战仿真平台,按照仿真层次可分为战略级、战役级、战术级和武器平台级仿真。其中,基于计算机生成兵力(CGF)的战术级智能决策技术研究较为充分,可大致分为两类:面向知识工程的方法和基于传统机器学习的方法[4],如表1所示。知识工程的方法以专家系统为代表,在领域知识构建的规则集上采用模糊推理和决策树等技术,指导智能体产生行动。这些方法所采用的具体决策技术不尽相同,但共同缺点是规则组织难以维护,拓展性不强。基于传统机器学习的方法被用到一些电子游戏,采用树搜索、人工神经网络、基于上下文推理等技术,从收集的经验数据训练模型指导决策输出。这些方法的共同缺点是高度依赖训练数据,泛化能力弱,难以应对新情况。两种主要技术途径的局限阻碍了军事智能决策技术进一步应用更高的层次和更复杂的场景。

表1 传统智能决策技术及其局限

尽管强化学习及一般的人工智能方法在作战决策领域已有不少运用,但多是在军种和战术层级上进行的[5-7]。战术层级的决策及控制问题由于状态单一、动作可数、因果直接、反馈即时等原因,边界比较容易界定,给深入研究提供了很好的环境。而与之相对地,战役层级的决策问题状态广袤、动作众多、反馈延迟等因素,原因不仅在于战场规模及复杂度的增大,还在于高层决策本身的过程有其独特特点。联合战役层级相对于军种战术层级决策,决策层级变高,变量规模增大,以及过程的复杂性都给决策的智能化带来极大挑战,而且针对不同作战场景有多种个性化研究的需求,有进一步研究的空间。

3 联合战役仿真推演环境

联合战役仿真旨在利用计算机仿真技术,还原战役进程。联合战役仿真在仿真层级上处于中间位置,决定了它相对于纯战术仿真的抽象性,以及较战略仿真的具体性。一般认为,战役级仿真的层次应与其训练战役指挥员的目的保持一致,即避免底层过多的战术动作,因战役指挥员不能指挥到一机一舰;同时不能省略必要的体现战术素养的交战过程,才能客观反映战争的行进。

文献[2]定义了战争模拟的基本元素:实体、行动和交互,在联合战役仿真层面的特点可以概况为实体多样、行为异质和交互复杂,下面依次简述。

一般认为,由两个以上军种战役军团共同实施的战役称为联合战役。相应地,仿真实体应涵盖两个以上军种战役兵团,必然涉及多种性能差异较大的实体。

联合战役仿真一般模拟地面、空中、海上、情报和后勤行动的实施。为了模拟相对完整的联合作战进展,各作战活动应涵盖以下基本功能。

从表2中可以看出,不同行动在时间和空间维度差异性较大。当所有活动在同一世界观下进行时,必然呈现行动效果的缓急差异。例如同样是一小时时间,地面部队可能只能移动40公里,而空中任务可以在几千公里的广阔疆域上来回几趟。而海上单位可能移动更小。大部分地面或海上单位可能处于静止状态。情报后勤对战场态势的影响可能滞后或者不明显。这些行动效果的差异正是对客观世界的模拟造成的,反过来也影响在这样的世界观下进行的决策。

表2 联合战役仿真行动

在兵力交互方面,大型兵棋系统内部涉及众多参战兵力,交互过程异常复杂,一般采用离散事件仿真机制对交战结果进行等效,以此改变战场的形态。离散事件仿真方法用事件队列维持事件的生命周期,所有事件按事件顺序发生效果,将结果依次输出。当事件处理服务速度低于事件产生速度时就会出现排队现象,一般大量事件的涌入会造成交互效果的延迟。

4 对强化学习的挑战

从上节描述可以看出,联合战役仿真环境与即时策略游戏有很多共同点:大规模的状态和动作空间,复杂的任务完成设定以及需要长程决策等。受到AlphaStar等一些强化学习智能体在即时策略游戏中的启发,也尝试将类似的方法迁移到战役决策中来,然而实践并非一帆风顺。本节结合强化学习问题设定和联合战役仿真的基本特点,梳理战役决策对强化学习的挑战。

4.1 连续的状态空间和动作空间

联合战役仿真是对发生在现实世界中的战争活动进行模拟,整个战场不仅包含多种异构的作战单元和目标,还包含多种地形和天气信息,实体与实体之间、实体与环境之间的交互比较复杂,整个状态变化接近连续。由于战争迷雾的影响,参战一方往往只能感知局部战场态势,并且感知范围随着侦察能力变化而变化。从对战场环境施加影响方面看,能做出动作的作战单元差异巨大,有的能对局部战场造成显著影响,大部分只能影响其作用对象,通常是另一个作战单元或目标。

站在强化学习角度,代替作战指挥的智能体所面临的状态空间可用全部参战单元和战场环境的高维向量表示。由战争迷雾带来的直接影响是只能建模部分可观测的战场状态。而智能体作用于环境的动作则包含所有能做出行动的作战单元,以及行动参数,这些行动种类及参数共同构成巨大的动作空间。高维状态空间和多维离散动作空间对智能体策略学习带来可计算性的挑战。目前学术界前沿未见类似的强化学习环境作为基线。

4.2 状态变化的不确定性和奖励的模糊性

强化学习中的模型是对环境的高度抽象,最重要的两个功能是给出状态转移和释放奖励信号。然而这两项基本功能在联合战役仿真环境下都是默认缺失的。

由于战役仿真层次的抽象性和全局性,很难就整场态势在具体动作的情况下发生转移建立模型。联合战役仿真中,作战实体的交互通常只在瞬间改变相关实体的实力状态,但从长远看可能对战场态势造成重要影响,例如通信枢纽的毁伤可能影响下级作战单元的相应速度。但将其建模为可用的状态转移概率或者函数面临以下困难:1)状态表示问题,将战役全局态势表示成可转移的统一形式是前提,而全局态势的时空多样性和由感知真实带来的不完全性又给统一表示带来难题。2)状态变化的机理问题,在态势的统一描述下,难点在于如何解决局部态势变化受因果机理支配进而对全局态势的影响。3)交互效果的不定期延迟,来源为观测状态的延迟和动作实施的延迟。4)建模的不确定性和随机性对状态变化的影响,主要是战役仿真引擎内部对于交互的处理,加入了随机性因素和近似的等效化处理。

在奖励信号释放方面,战役决策中呈现模糊、延迟和可变的性质。奖励信号指引着强化学习智能体学习的方向,而战役决策通常由作战企图牵引,细化为作战目的,具体分解为一系列作战任务。表面看可用这些作战任务的完成度来近似战役决策的奖励信号,但对智能体做出的行动很难具体量化以及其对作战目的贡献度。由上述讨论可知,战役决策带来的不同领域的行动在时间上及空间上差异巨大,本身很难再同一量级下衡量其对战役任务完成的贡献。此外,异质行动混在一起带来的另外一个问题是奖励分配问题(credit assignment problem):如何分配不同性质的行动对同一作战目的的贡献度?例如一方发射导弹毁伤了对方的重要目标,前提是一个小时前派出的电子侦察机侦察到了该目标的存在,如何量化侦察部队和导弹部队的贡献?

在一定奖励信号可用的情况下,由于作战决策下达到作战任务完成可能持续很长时间,该奖励被高度延迟。其中,战役仿真的独特性体现在仿真机制的一定自主性以及作战行动交互效果的延迟性上。战场态势并非因指挥员做出决策而直接发生变化,战场态势经历决策-行动-交互的过程更加漫长。

更严重的是,作战目的本身往往随战役进程的推进而改变。改变的动力可能来自指挥员,也可能来自战场态势本身的突变。在目标可变情况下的强化学习本身是一个待突破的科学问题。

4.3 决策过程的非马尔科夫性

马尔科夫决策过程(MDP)为形式化强化学习问题提供了一般的数学基础。其中,状态转移的马尔科夫假设为强化学习提供了“一步一积累”的理想情况,反映了行动如何影响回报,进而为累积回报最大的目标提供一般的计算原则。其背后存在行为改变状态的单一因果律。然而该假设在真实世界中往往不成立,在战役仿真环境中尤其如此。主要体现在:1)战役进程的驱动因素问题,战役进程的发展表面是受参战方各自行动及其交互的影响,而参战方行动受各自企图以及作战规划影响。2)作战任务之间的路径依赖较为普遍,复杂任务的完成得以一系列子任务按照严格次序完成。

还有一些任务是持续性的,例如侦察。决策的执行只是触发该任务的起点,但发挥作用的时间却是随机的,有时根据战场态势自行改变任务状态,进而对战场环境产生持续性影响。对于这类任务的决策逻辑很难被智能体学习到。

4.4 决策过程的非均匀性

在联合战役推演中,因双方兵种、实力、武器平台等带来的不对称作战,再加上战场对抗激烈程度不一,大部分时间无需频繁决策。以3.3中描述的战役三个阶段为例,除第二阶段直接对抗以外,第一、三阶段的大部分时间无需决策。而一旦需要频繁决策,智能体无法在单个时间步长内控制大量单位执行不同类型的动作,这里既有仿真模型的限制,也有不同类型的动作所需时间差异大的问题。而为了规避此问题采用全场高频决策会带来大量没有反馈的空动作。另外,战役级仿真模型一般因采用离散事件仿真机制,若决策频率高于仿真模型调度事件的频率,则决策毫无意义。

决策过程的非均匀性导致了智能体除了要学习决策内容本身,理论上还要学习何时以何种频率进行决策,而后者相对于前者具有超越性,相当于在两个维度上同时进行学习,增加了策略优化的难度。如果推演过程的这种快慢决策具有一定模式,例如都是围绕3.3中的三个阶段固定模式进行推演,两个维度的学习并非不可能。然而这样的限定无疑与决策的泛化性要求背道而驰。

4.5 智能体训练难题

游戏智能中大量运用的有监督预训练、分布式训练、自我对抗(self-play)、联盟技术(league)等智能体训练方法对于联合战役仿真推演环境同样存在难以适配问题。

首先,战役仿真推演由于推演目的、想定等因素,未能有效积累高质量决策样本,难以提供有监督预训练的样本。对既定想定和场景,受专业性要求,人工标注决策过程的代价无法估计。

其次,大规模分布式训练是游戏智能领域中的基本手段,而战役仿真引擎受管理约束无法在在商用训练云中大规模展开训练。单位自建训练环境相对于战役层决策智能体训练的复杂程度,难以让有限的经费发挥作用。

自我对抗的训练模式同样无法实现。典型场景下参与对抗的作战双方由于历史和现实需求,通常配备较大差异的作战装备和能力,动作空间有显著的非对称性,无法直接应用自我对抗的训练方式。非对称的智能体也限制了大规模的联盟训练技术。

5 可能的解决方案

针对在广袤的状态空间和动作空间中学习难题,分层强化学习提供了一条可能的道路:压缩问题空间到可解的程度。无论是从状态或动作垂直分层的指挥控制角度,还是以目标牵引的时序抽象角度,都可以找到合适的途径解决部分问题。但基本维持在无模型的基于交互进行学习。

战役仿真环境带来更本质的挑战在于模型本身,例如战场状态变化带来的不确定性以、奖励的模糊性、决策过程的非马尔科夫性和非均匀性等问题,只能从环境模型层面加以解决。对于未知模型,大致可分为构造模型和学习模型两种途径,前者需要进一步提炼仿真经验,而后者需要大量高质量数据,是战役推演所欠缺的。重构精简环境模型的另一好处是进一步压缩问题规模,使得训练成本降低,但需要领域专家结合学习特点进行建模。

6 结论

本文从梳理了当前军事智能决策的研究现状,以及将智能化方法运用到战役决策的前景,从联合战役仿真推演环境的描述出发,分析了将强化学习应用到战役决策所面临的挑战。这些挑战来源于强化学习的问题设定和战役推演环境运行之间的鸿沟,并就可能的解决方案进行了探讨。这些问题不少是在将深度强化学习技术运用到战役层决策的实践活动中总结而来,旨在阐明问题的科学属性,并为类似的尝试提供一定的参考。