基于深度强化学习的防空反导智能任务分配*
2024-04-27刘家义夏智权王思远
刘家义,王 刚,夏智权,王思远,付 强
(1.国防大学联合作战学院,石家庄 050000;2.空军工程大学防空反导学院,西安 710051;3.解放军93126部队,北京 100000)
0 引言
强博弈对抗性是现代战争最大的特点之一,大规模博弈对抗是一个持续决策的过程,需要针对局势的变化,作出适应性较好的决策,发挥最大的作战效能[1]。任务分配改变了武器目标分配火力单元-目标的模式,形成任务-目标的分配模式,提高了对各个部分的协调能力,分配方案更加灵活,为最大化作战效能提供根本保证[2]。
防空反导作战体系是一个部署范围广且松散耦合、异构结构的系统,其面临的威胁可能是大规模的体系空袭,也可能是小规模的战术偷袭,整个战场态势充满了复杂性和不确定性[3]。为了更好地适应信息时代战争需求,防空反导任务分配的方法必须具有求解大规模复杂化问题的能力和应对突发性事件的动态处理能力。近年来,人工智能技术在即时战略游戏[4]、自动驾驶[5]、网络资源优化[6]等多个领域取得了较好的应用效果。其较快的反应性和较高的动态性正是信息时代防空反导任务分配所需要的。因此,本文讨论了当前防空反导任务分配的发展需求和所面临的挑战;基于OODA 理论和决策问题的本质,分析了防空反导智能任务分配方法的优势,提出了当前研究亟待解决的关键问题,并给出了有望解决这些问题的关键技术。
1 防空反导任务分配需求分析
1.1 防空反导任务分配
根据John Boyd 的作战指挥理论,可以将作战指挥的过程抽象为观察(Observe)、判断(Orient)、决策(Decide)和行动(Act)4个有序循环的过程[7],即OODA 环理论。基于这一理论,防空反导作战的具体流程如图1所示。
图1 防空反导作战流程Fig.1 Air defense and anti-missile operations process
武器目标分配对应其中的决策环节,是指根据目标运动参数、数量和火力单元的数量、性能、资源等,将目标分配给不同火力单元拦截,优化作战效能的技术[8]。任务分配在目标分配概念基础上提出,当作战任务被分解为不同类型的元任务后,目标分配将转化为任务分配。任务分配以不同类型作战要素的武器装备为完成任务的基本单元,将任务分解为作战要素可执行的元任务[9]。结合OODA 理论以及杀伤链和杀伤网中信息流转的概念[10],任务分配可以充分利用防空反导武器系统中的传感器和拦截器,构造一个严密的杀伤网,灵活性高、抗毁性强,更适合于分布式作战。具体流程如图2所示。
图2 防空反导任务分配过程Fig.2 Air defense and anti-missile task assignment process
目前,对于任务分配的研究主要从建模和求解两个方面进行。目前建模方法主要有基于Agent 建模方法[11]、UML和Petri网[12]等。任务分配求解方法主要有基于准则的启发式算法[13]、遗传算法[14]、粒子群算法[15]等智能优化算法,以及基于市场机制的拍卖算法[16]、合同网协议[17]等。
1.2 防空反导任务分配面临的挑战
随着作战远程化、要素化、智能化的高速发展,装备向着松耦合方向发展,作战过程越来越复杂,依靠人的判断决策很难适应快节奏、高强度的对抗要求,依靠传统解析模型处理也难以适应复杂多变的场景。
从敌方的角度来看,体系化、智能化的发展使其具有快速高效的OODA 过程,给我方带来巨大压力,面临的挑战是:
1)必须提高博弈对抗的应对能力。博弈的强弱体现在基于对方策略改变自身策略的程度。随着敌方博弈能力的提升,场景不确定因素增加,需要深入研究应对方法。
2)缩短OODA环的决策周期。需要在更短时间内知道更多的战场信息并且更快求解出任务分配方案,作出决策。并基于态势认知进行决策,通过预测未来时刻的态势来进行超前性决策,进一步压缩决策周期。
从我方的角度来看,传统火力单元-目标的模式逐渐被任务-目标的分配模式所取代,装备解耦合带来了更加灵活的分配方式,但同时也在建模和求解方面提出了新的挑战。
3)数学模型难以构建。在确定场景下,现有方法可以准确建模并找到最优解。但灵活的分配方式带来的组合爆炸问题,加上许多不确定因素无法量化,导致建立精确的数学模型十分困难。
4)求解速度不足。装备的解耦合让任务分配虚拟出更多火力单元,产生更多的分配结果,导致求解空间巨大,现有方法求解目标函数时速度不足,且双方的强博弈对抗导致态势复杂多变,需要不断求解目标函数,时间代价巨大。
1.3 防空反导任务分配智能化
为了解决上述问题与挑战,目前在任务分配智能化方面已经有了初步的探索,部分学者通过知识图谱[18]、多智能体系统[19]、深度强化学习[20](deep reinforcement learning,DRL)等方法对任务分配进行研究。其中,DRL 方法被认为是解决防空反导任务分配问题智能化的重要手段之一[21]。DRL 是深度学习与强化学习的结合,同时拥有强大的规则表征能力和最优决策能力,其将问题建模为一个马尔可夫决策过程,基本框架如图3所示。
图3 深度强化学习基本框架Fig.3 Basic framework for deep reinforcement learning
DRL 以智能体(agent)作为决策的主体,环境输出当前态势,由状态感知器将态势转换为状态(state),然后智能体作出相应的动作(action),由指令选择器将动作转换为对应各个要素的指令输入环境,环境输出对应的奖励(reward)和下一时刻态势。DRL 的决策存在时间关联,能让策略朝着未来收益最大化的方向优化,为解决任务分配这类非完备信息博弈问题提供了一种全新高效的方法。
1.4 基于深度强化学习的智能任务分配
在防空反导任务分配问题中,规则可以分为指导性规则和约束性规则,其中,指导性规则是求解的重点,现有的求解方法利用目标函数来表征,求解目标函数来得到最优策略;而基于DRL 的智能任务分配方法则使用神经网络的参数来模拟规则空间,利用奖励值引导智能体学习,通过强化学习算法在训练中寻找一组最优的参数,从而获得最优策略。对于约束性规则,传统方法使用各种约束函数来表示,而DRL 则是将约束添加在状态空间和动作空间以及环境中。因此,现有的传统方法与基于DRL 的智能任务分配方法在求解问题的本质上并无差异。
在问题求解的过程中,DRL 的智能表现在以下两个方面:
1)基于数据的学习能力。知识是智能的基础,DRL 不需要建立精确的数学模型,通过智能体与环境交互获得数据并学习其中的固有规则。在与环境的互动过程中,智能体通过不断探索与试错的方式,利用基于正∕负奖励的目标导向式学习,找到解决问题的最优策略。基于数据的学习方法能够改善在不确定场景中建模困难的问题。
2)高效快速的求解能力。DRL利用神经网络的参数将数据中的固有规则量化,利用强化学习算法在训练中不断调整参数使其能够准确表征规则,待训练完成后能够利用深度神经网络的快速计算能力求解出最优策略,可有效改善现有方法在解空间巨大时求解时间代价过大的问题,提高决策速度。
其次,在问题求解的结果上,DRL 的智能表现在以下两个方面:
1)强博弈对抗的适应能力。DRL 方法输出的其实并不是具体的动作,而是策略(policy),是由状态空间S 到动作空间A 的映射。即只要输入的状态属于状态空间S,都能得到最优的动作,这能很好地适应复杂多变的态势。并且策略通常是概率密度函数,DRL 通过训练能够提高最优动作的输出概率,但由于动作是随机抽样,我方决策依然具有不确定性,增加了敌方的决策难度。
2)基于态势认知的预测能力。在交互数据足够多的前提下,智能体能够根据,已有的态势信息和先验知识,通过观测和推理等过程预测出对手的意图、计划、策略等信息,预测对手行为并提前予以回击,将信息优势转化为决策优势。基于态势认知的预测能力,能快速适应敌方的行为模式,作出超前性决策,有效应对敌方快速高效的OODA循环。
2 DRL 应用于防空反导任务分配所面临问题
DRL理论上能更好地满足防空反导任务分配智能化的需求,但将DRL 实际应用于不确定场景下的防空反导任务分配,还有许多关键问题亟待解决。
2.1 交互环境仿真度不高
军事智能化存在训练数据不足、验证成本高等问题,DRL 通过引入智能体和环境的概念,智能体能够自主地与环境交互,获取训练样本。但是如何将物理环境较好地映射到虚拟环境中,构建一个高仿真度的对抗环境,依然存在许多困难。因此,急需针对性地打造模拟数字战场,提供仿真训练的基础保障。
2.2 智能体建模局限
早期的研究主要以单智能体方法为主,该方法具有很好的全局统筹能力,但随着对战态势复杂度逐渐提升及参与实体增多,决策过程将面临高维状态-动作空间,单个智能体的计算压力巨大,实用性不高。目前大多数研究从多智能体系统的角度研究该问题,每个智能体分别选择行为策略,能有效分担计算压力。但由于作战环境的特殊性与作战迷雾的存在,战场上没有一个位置可以观测到全局态势信息,因此,各个作战要素之间态势信息不完全共享,彼此之间存在博弈关系。每个参与的智能实体仅能观察到自身状态和有限的对手状态,在决策过程中容易产生冲突,对于随机事件的全局协调性较差,难以满足防空反导任务分配的需求。
2.3 训练前期效率低下
现代战场态势复杂多变及作战实体多,状态和动作数量的增加,交互试错的学习机制大大降低了DRL 的训练效率。从实际博弈对抗过程看,多步决策模型的状态空间和动作空间会随着其规模的扩大呈指数级增长,导致DRL 方法在训练的初期进行过多无效探索,这个过程需要消耗大量计算资源,甚至在复杂任务环境中无法学到有效策略。
2.4 奖励函数设计困难
DRL 使用神经网络的参数来模拟规则空间,但仍然需要合理的奖励函数作为配合。神经网络的参数表征是指导性规则中的隐性规则,而奖励函数则可以看作是表征显性规则的手段。在训练中通过奖励值来引导神经网络的学习,快速找到一组最优的参数。目前的实际应用中往往使用一些相对简单、直观的奖励值函数进行训练,在一定程度上导致DRL需要较多的训练回合,才能学到可用的策略。
3 基于DRL 的防空反导智能任务分配关键技术
3.1 智能对抗环境模型构建
智能对抗环境构建包括了指控可视化技术、红蓝双方行为树构建、博弈对抗性体现等。
指挥控制可视化能够方便指挥员理解指挥控制决策过程,通过对神经网络隐藏层的分析并抽取关键特征进行加工,以图像的形式表现出来,方便指挥员理解其决策背后的逻辑。
行为树构建包含红蓝方每个单位的所有可以执行的行动与这些行动之间的切换规则,每个单位的行为和行为切换规则共同组成了对应单位的行为树,在行为树的执行节点上同时包含多个动作,例如雷达照射、毁伤评估等内容。
博弈对抗性的体现程度,取决于能够根据对手策略来改变自己策略的程度。因此,在攻防双方中都需要考虑博弈对抗性。大规模不确定场景下,复杂的任务环境和态势扰动,环境模型呈现一定的随机性和时变性,进攻方作为环境的一部分,其博弈对抗性主要体现在突防路线、到达时间、分队编成等方面的随机性。因此,对抗环境必须能实现多样性的想定设计且符合智能体训练的需要,其基本框架如图4所示。
图4 仿真对抗环境基本框架Fig.4 Basic framework for a simulated adversarial environment
3.2 分层强化学习方法
分层强化学习是为解决强化学习的维数灾难问题而提出的,其思想是通过引入状态空间分解、状态抽象和时态抽象等机制[22]将一个整体任务分解为多层次的子任务,使得每个子任务能够在一个小规模的状态空间中进行求解,从而加快整个任务的求解速度。因此,可将防空反导任务分配问题的智能体进行分层建模,有望在保留单智能体全局协调能力的同时加入多智能体的高效优势。
3.3 模仿学习方法
模仿学习研究如何从专家的决策示例中进行学习,让智能体的决策快速接近专家水准。模仿学习能从决策示例中获得更为直接的反馈,可以分为行为克隆[23]和逆向强化学习[24]两大类方法。由于逆向强化学习需要多次采样来评估轨迹分布,而迭代求解过程需要消耗大量计算资源,故难以求解大规模问题。行为克隆的主要思想是直接克隆专家样本在各状态处的单步动作映射,即对专家样本进行监督学习。该方法具有较好表现的前提是有充足的样本,因此,可将人类知识与对战规则转化为知识规则库与环境交互,为模仿学习提供所需样本,有望提升DRL 方法初期的训练效率,基本流程如图5所示。
图5 模仿学习基本流程Fig.5 The basic process of imitation learning
3.4 安全强化学习方法
在强化学习的基础上,安全强化学习的目标是找到一个策略,在满足预先设定的一系列安全约束的基础上,最大化智能体在无穷时域内的累积奖赏的期望值。常用的框架是将安全强化学习建模为受约束的马尔可夫过程,表示为:
其中,c(st,at)为代价函数;d为代价阈值;r(st,at)为奖励函数策略目标,是在不超过代价阈值的约束条件下最大化长期奖励。大规模博弈对抗场景约束众多,单一的奖励函数难以充分表征这些规则,安全强化学习的约束函数可在很大程度上加强约束性规则的表征能力,且有望提升输出策略的可解释性。
4 防空反导任务分配方法的评价指标
智能方法与现有方法之间的比较,主要从规则表征和策略求解两个方面进行:
1)规则表征准确度。现有的遗传算法、蚁群算法、合同网协议等方法与深度强化学习、模仿学习、分层强化学习等智能方法,在求解任务分配问题的本质上都是研究如何准确地表征其中的规则,并在规则空间中寻找最优解。因此,规则是否能准确表征重要的评价指标,可以从最终分配策略的质量和合理性等方面来衡量。
2)策略求解速度。根据不同武器系统的特点和当前态势信息,快速有效整合作战资源,使之发挥最大作战效能是任务分配的关键。且敌方的进攻态势是实时变化的,对抗分配也需要具有很强的动态性以应对变化。因此,任务分配方法求解大规模复杂化问题的速度,和应对突发性事件的动态处理能力是重要的评价指标。
在复杂的不确定场景中,多种智能方法也存在差异。各种智能方法间的比较主要从训练过程和训练结果两个方面进行:
1)智能体训练效率。随着场景复杂度的不断增加,用于神经网络训练的时间成本也在不断提升,因此,训练的效率是智能方法的重要评价指标之一。在实际应用过程中,主要从相同训练时间内获得的奖励值、对抗的胜率、决策的合理性,以及资源的利用等方面进行衡量。
2)场景泛化能力。智能化战场存在的强博弈对抗使其充满不确定性,训练完成后的网络能否适应多变的战场是衡量算法优越性的重要依据。在实际应用中,主要从想定的变化程度、面对不同想定时决策的变化程度、合理性等方面进行比较。
5 结论
大规模复杂场景中,要素众多且作战过程复杂,防空反导任务分配智能化被认为是适应不确定场景的关键。本文分析了防空反导任务分配的要素和过程,讨论了当前的发展需求和面临的挑战,以及基于DRL 的智能任务分配方法的优势,提出了当前亟待解决的关键问题和对应的关键技术。为防空反导任务分配智能化研究提供了理论和技术支撑。