人机共生作战决策系统:发展愿景与关键技术*
2022-09-14郑少秋梁汝鹏张政伟
郑少秋,梁汝鹏,吴 浩,袁 翔,张政伟*
(1.中国电子科技集团公司第二十八研究所,南京 210007;2.中国电子科技集团公司信息系统需求重点实验室,南京 210007)
0 引言
当前,随着人工智能、云计算、先进通信等技术发展,作战兵力正朝无人化、智能化、模块化方向发展。无人自主装备快速切入战场前沿,极大地拓展了对抗的时空约束,模块化兵力支持面向任务的动态灵活组织,在为对手制造认知和决策困境的同时,极大提升了作战体系效能。作战兵力发展逐步引发战争形态、制胜机理的变革。战争形态日益复杂多变,分布式、多域联合、智能化的体系作战成为未来战争制胜关键。在此背景下,美军相继提出了“算法战”[1]、“马赛克战”[2-3]、“联合全域作战”[4]等新型作战概念。
随着无人化、智能化、模块化作战单元的广泛运用,作战兵力的可组合性和作战效能得到显著加强,但对作战决策的快速协同、精准聚优提出了更高要求。传统的以指挥员为中心的“指挥员决策、机器辅助计算”的作战决策范式,难以满足未来作战时效性、精准性要求,迫切需要研制与未来战争相匹配的智能作战决策能力。
1 相关工作
围绕智能化作战决策,许多研究者做了诸多工作[5-8],包括情报信息处理、作战态势研判、作战任务规划等方面。具体地,在情报信息处理方面,邢世宏等[9]提出将迁移学习应用于舰船目标识别;李婷婷等[10]提出智能订单方法进行态势产品服务;廖鹰等[11]分析了战场态势分层表示与理解机理,并据此提出了面向态势理解的复合架构深度学习模型。在作战态势研判方面,胡晓峰等[12]将注意力机制应用于态势认知,提出战场态势感知注意力机制框架;康凯等[13]基于贝叶斯网络推理模型进行态势相关估计,实现对陆战场的实时变化态势动态分析、理解与判断。在作战任务规划方面,邢思远等[14]将Apriori 数据挖掘方法应用于武器使用规律挖掘研究,支撑根据不同地形、协同规律进行兵力推荐;季军亮等[15]将启发式算法应用于兵力编组。总体而言,主要将人工智能技术应用到作战决策单一环节业务,提升其自动化、智能化水平。
近年来,随着AlphaGo[16]、AlphaStar[17]模型在围棋、星际争霸游戏对抗领域的成功应用,为联合作战决策提供新的技术思路,研究者逐步将深度强化学习技术应用到作战决策中。曹雷[18]对基于强化学习的博弈对抗方法进行了综述,并对军事决策应用进行分析。闫实等[19]将强化学习应用于多机载雷达传感器调度管理。曹雷等[20]提出将深度强化学习应用于作战计划优选。Toubman 等[21-22]基于空战行为规则,使用强化学习最优组合生成战斗机行为。Rijken 等[23]将深度学习应用到空战行为训练中,构建的智能体在空战对抗中成功击败人类选手。
然而,实际的作战要远比围棋、星际争霸等游戏对抗场景复杂,决策难度更高,错判的代价也更高。主要体现在以下方面,1)联合作战场景具有高动态、强对抗性,作战目标会动态调整,难以简单地将“高胜率”作为决策衡量的唯一指标,因此,需要人机高效、持续地进行交互式学习,机器必须能够理解指挥员动态变化的作战决心。2)联合作战兵力的种类、行为空间、协同策略规模等均远远高于游戏,导致决策模型的计算复杂度更高,迫切需要高效的模型学习方法提升模型学习收敛速度和鲁棒性。因此,需要研究面向作战的高效智能模型学习方法。
基于此,聚焦未来战场联合作战兵力智能组织难题,本文提出了人机共生的作战决策系统发展愿景,包括运行概念、系统架构,并深入分析实现人机共生面临的挑战,提出技术解决思路。在此基础上,从人机交互与理解、战场态势认知、智能作战决策、模型可信赖可解释增强等方面,提出关键技术体系,支撑指挥员高阶战场认知能力与机器强大搜索能力融合,最终形成准确、可信、全局(最)较优的兵力规划方案,为新一代指挥控制系统创新发展提供借鉴。
2 发展愿景
针对作战决策,人机共生作战决策系统发展愿景是通过人机的合理分工、充分协作,使得指挥员聚焦顶层的、模糊的、边界不确定的问题,并依托智慧和经验将其转换为具体的、清晰的、边界确定的优化问题,而后利用机器智能的强大搜索能力进行求解,指挥员根据机器快速求解结果,进行研判评估、迭代优化,其核心是通过人机协作,为指挥员提供更多的试错空间,进而大大提高作战方案发现概率。
2.1 系统运行概念
假定某时刻,红蓝双方在某地域正面开展作战对抗,红方指挥员依托人机共生作战决策系统,通过人机协同制定作战计划,人机共生作战决策系统运行概念如下页图1 所示,具体过程如下:
图1 人机共生的智能决策过程
Step 1:系统引接战场实时态势,进行多源态势信息处理融合,并在军事知识图谱的支撑下,完善补充态势信息要素,呈现于指挥员;
Step 2:指挥员基于语音、图像、文本、视频、虚拟现实等多模态的交互手段,进行态势感知、理解和干预;
Step 3:指挥员理解上级作战意图,研判敌方作战目标体系,开展作战任务分析和作战目标选择,形成敌方目标打击清单及毁伤效果要求,作为智能决策模型学习的目标状态;
Step 4:指挥员基于联合作战博弈对抗训练平台,开展兵力模型构建,设计作战想定,并进行大样本仿真对抗,形成大量仿真对抗样本,在此基础上,利用深度强化学习等技术,开展红方智能决策模型训练和生成,并将其引入到作战想定中进行自博弈,如此反复,直至在构设的作战想定中达到期望的作战效果,即智能决策模型学习的目标状态,输出作战决策模型;
Step 5:指挥员将战场实时态势接入作战决策模型中,依托联合作战博弈对抗训练平台,推演战场态势发展,生成作战决策计划建议;
Step 6:指挥员根据作战计划建议,开展计划干预或确认,如果不满足作战任务要求,则重新开展态势处理分析、作战任务分析、目标选择清单及毁伤效果调整等;如果满足作战任务要求,则进行确认或微调,形成最终的作战计划;
Step 7:指挥员将向作战兵力下达最终的作战计划,并密切监视战场态势变化。
人机共生智能决策核心能力主要体现在以下两个方面:
1)人机交互式协同决策,大幅度缩短指挥决策周期
在人机共生决策过程中,Step1~Step3 以人为主,Step4~Step5 以机器为主,而后在Step6 中进行人工判断,如果不满足作战任务要求,则重新从Step1 开始,否则进入Step7。一方面,通过采用高效、可靠的多模态人机交互手段,人机指挥载荷得到合理分配,分别发挥指挥员理解复杂战场态势、宏观趋势的优势,和机器智能在大规模、模式化快速方面的计算优势,同时规避人工指挥决策作业效率低、辅助决策系统缺乏指挥艺术性等问题,实现扬长避短。另一方面,通过人机交互式、迭代式协同决策,在决策过程中,指挥员持续对机器智能决策质量进行评估,快速形成决策质量优化的闭环,快速输出高效可行的作战计划,指挥员人在回路的干预能够确保最终输出作战计划的有效性,以及性能的持续提升。
2)机器遍历搜索决策空间,创新战法发现与全局优化
在人机共生决策过程中,在Step4 中,基于联合作战博弈对抗训练平台,能够超越人类脑力思考和战争实践的边界,根据自博弈或实际作战数据训练,训练形成智能体内生智慧,并持续演进。而后,面向作战任务,借助机器的强大搜索计算能力,通过遍历搜索,拓展战场决策容量空间,创新发现全新战法,实现面向任务的全局(局部)的最优方案搜索。在智能模型训练过程中,可以利用群体智能对抗技术、种群联赛机制等,实现持续对抗演进,可有效提升机器生成的决策建议的多样性、泛化性,以及对复杂多变战场环境的动态适应性。
2.2 系统总体架构
人机共生作战决策系统架构如图2 所示,主要包括人机交互层、指挥业务层、智能支撑层和硬件资源层。
图2 人机共生作战决策系统架构
人机交互层主要提供语音、文本、视频等多模态人机交互手段,支撑指挥员和机器高效交互与敏捷响应,并通过交互式迭代学习,持续提升人机互理解水平。
指挥业务层在人机交互基础上,智能理解指挥员动态变化的作战决心,结合多源战场实时态势信息,研判确定对敌打击目标清单及毁伤效果要求,基于智能支撑层提供的决策模型生成作战决策和行动控制指令建议。
智能支撑层主要由军事知识图谱、联合作战博弈对抗训练平台组成。其中,军事知识图谱实现作战条例、作战规则、作战兵力能力的形式化建模,联合作战博弈对抗训练平台在仿真空间为指挥业务提供数据管理、模型训练和能力持续成长服务。
硬件资源层,主要为系统运行、智能模型训练与推理、军事知识服务等提供计算、存储、网络、安全等资源支撑。
3 关键问题与解决思路
3.1 如何让机器理解指挥员动态多样的作战意图
当前,缺乏高效精准的作战意图解析方法,一是由于各军兵种文化差异,缺乏标准化的联合作战指令描述手段,机器无法理解形式不一的作战指令。二是战场情况多变,对作战意图的理解需要充分结合上下文信息补充,复杂度高。
针对此问题,一是提供作战意图规范化描述,通过构建联合任务清单,针对各类任务,确定任务的要素组成、描述规范,提出形式化描述方法和标准化的描述语言,通过作战简令的方式,降低人机交互的复杂度。二是,通过构建军事知识图谱,实现作战知识的显式描述,形成先验军事知识库,为指挥员作战意图理解提供上下文知识,提升对作战意图的动态理解能力。
3.2 如何实现对大规模兵力的决策空间高效搜索
智能决策模型训练本质是一个优化问题求解的过程,需要保持全局探索能力和局部挖掘能力的平衡。一方面,需要尽量保持解的求解过程的稳定性,提升解的泛化性与实际效能;另一方面,需要尽量降低解的计算复杂度,提升解的收敛速度。由于作战兵力逐步向模块化、分布式方向发展,作战体系构建时兵力的可组合性指数增长,使得基于联合作战博弈对抗训练平台进行作战兵力决策空间搜索复杂度极高,对当前算法、算力带来极大挑战。
针对此问题,一是通过多粒度兵力建模、分层建模方法,在联合作战博弈对抗训练平台中构建聚合级兵力模型,降低决策问题本身的搜索空间。二是采用更加高效的模型训练算法,如迁移学习、课程学习等技术,将模型训练问题分解为由易到难多阶段任务,逐步学习,提高决策空间搜索的收敛速度。
3.3 如何确保机器决策结果的可信赖、可理解
从军事伦理角度,军事问题决策要求高可信、高可靠和可解释,确保基于人工智能的机器决策结果的可信赖和可理解是需突破的难点问题。
针对可信问题,可构建分层决策模型,实现各层解耦,涵盖作战任务、交战规则、装备能力,通过分层隔离误差,构建多层次模型体系,涵盖基础规则、交战规则、战斗力计算、智能决策模型等多个层级,实现逐步可信。
针对可解释性问题,尤其是基于大数据的机器学习、深度学习方法黑箱问题,可采用“军事知识+作战数据”双重驱动机制,将知识嵌入到数据驱动的模型中,提升深度学习等新方法的可解释性。
针对可靠性问题,利用主动学习等人机交互式学习方法,通过人在环路干预,为模型训练增强引导信息,实现人机共生的作战决策新范式。
4 技术体系
围绕人机共生智能决策关键问题以及解决思路,从人机交互与理解、智能作战决策、模型可信赖可解释增强等方面,提出关键技术体系,如表1 所示。并围绕作战决心/指令机器理解、作战兵力状态表示、基于课程学习的作战决策模型训练加速、基于联赛机制的作战决策模型多样性保持策略等技术进行详细分析。
表1 技术体系
4.1 作战决心机器理解技术
指挥员作战决心是动态变化的,系统需要能够将其动态、准确、完整地转换成机器智能学习训练的优化目标和约束条件。
鉴于此,基于各类作战方案,构建联合作战任务清单,定位作战任务框架、关联关系,并利用自然语言处理技术对指挥员决心进行识别分类和关键要素(槽位信息)提取,确定作战任务类型、关联子任务,以及任务关键要素,即为打击目标清单及毁伤效果要求,明确各子任务主要内容与序列关系;利用模糊综合评判方法、知识图谱技术,对识别确定的任务及其关键要素进行量化完善,确定优化目标和约束条件,如作战初始态势、终极态势、边界条件、兵力规模等,形成机器可以理解的语言表示,支撑机器智能模型训练,具体技术路线如图3 所示。
图3 作战决心/指令机器理解
4.2 作战兵力状态表示学习技术
由于作战对抗的动态性,作战兵力之间会存在复杂的合作关系,一般采用分层强化学习进行模型学习,进而降低模型训练的计算复杂度[24]。其中,在分层强化学习模型中,针对低层次作战兵力状态表示,如何最大化利用邻域信息是一个值得研究难题,对作战兵力策略实际运行效能具有重要影响。
基于此,考虑利用图模型、注意力技术,对各作战兵力间交互关系进行建模,基于神经网络的注意力机制进行特征自动聚合和选择,能够自动选择并聚合有助于决策的关键信息,将所选特征汇集,得到智能体的状态表示,在传统兵力状态表示基础上,强化对兵力间交互信息的表达水平,可以更深度地挖掘作战兵力使用的实际环境信息,从而学习出更加高效的决策策略,具体作战兵力状态表示学习[25]如图4 所示。
图4 作战兵力状态表示学习
4.3 基于联赛机制的作战决策模型多样性保持策略
联合作战任务具有多样化、高动态复杂场景特点,对智能决策模型泛化性提出很高要求。
基于此,研究多样化对手池(各种风格)及价值回报的设计和构建方法,并基于种群进化思想不断迭代优化决策模型[3],直到模型效果稳定,以提升模型对不同作战场景、不同作战对手的适应性。
1)基于联合作战场景的价值回报函数设计
结合联合作战场景,借鉴人类指挥员经验,研究价值回报函数设计方法,使生成的决策方案能够逼近作战实际,并保持种群的多样性。
2)异构种群持续对抗方法
研究异构种群持续对抗方法、种群更新迭代方法,保证智能模型的多样性同时,能够有效提高决策模型的泛化能力,进而提升作战决策对不同作战场景、不同作战对手的适应性。
4.4 基于课程学习的作战决策模型训练加速技术
分布式模块化作战兵力广泛运用极大提升了决策空间搜索复杂度,使得模型训练难度大、收敛速度慢。
因此,可考虑使用课程学习、迁移学习技术,按照执行任务、对手等级、运行环境等由简(低)到繁(高)设计的思路,研究如何面向联合作战任务进行多阶段[25]、难度递增的课程设计方法[26-27],模型逐步训练,提升模型训练效率。如图5 所示,首先对简单任务进行学习,如红军仅使用地面防空武器摧毁蓝军指挥所。然后进一步加大任务难度,如红军使用多武器协同,摧毁蓝方指挥所;在经过逐步学习后,最终使用全部武器协同摧毁蓝军多个指挥所及全部兵力。
图5 基于课程学习的作战决策模型训练加速
5 结论
人机共生作战决策采用高效、可靠的新型人机交互手段,打造人机协作的作战决策空间,一方面充分发挥机器强大计算搜索能力优势,有效降低指挥员指挥载荷,另一方面,通过博弈对抗训练创新战法,采用人在环路的交互式学习机制保证决策可信,人机共生决策将成为作战决策系统的重要发展方向。本文提出了人机共生作战决策系统运行概念和总体架构,分析其关键问题和解决思路,并提出了作战决心机器理解、作战兵力状态表示、作战决策模型高效训练等关键技术及其实现路线,能够为新一代作战决策系统、智能指挥控制系统等发展提供借鉴参考。