基于强化学习的美军指控系统的发展及启示

2020-12-23吴宜珈

火力与指挥控制 2020年10期

吴宜珈，徐鹏

（1.陆军工程大学，南京 210000；2.解放军32526 部队，江苏无锡 214000；3.解放军31102 部队，南京 210000）

0 引言

信息化战争时代，随着科学技术的飞速发展，搜集信息的手段日渐多样，传感器等信息采集设备可在较短时间内获取大量态势信息，为指挥员在指挥控制过程中提供更加丰富、全面、准确的参考数据［1］。但同时，战场的高度不确定性、动态性和复杂性致使战场捕获数据数量远远超过人工数据筛查分析范围［2］。海量数据因失去时效性而流失价值，直接制约情报工作，并间接影响指挥官最终决策效率。

随着人工智能（Artificial Intelligence，AI）技术进入高速发展期［3］，强化学习（Reinforcement Learning，RL）与军事应用结合愈发紧密［4］。近年ALPHA AI、CVS、COMPASS 等系统的成功应用均展现了强化学习在数据搜集处理等方面的独特优势。2019 年2 月，美国防部（United States Department of Defense，US.DOD）发布《2018 国防部人工智能战略概要:利用人工智能促进安全与繁荣》［5］。《战略概要》重点阐述了关于AI 技术的5 项战略举措:一是在关键任务中使用AI 技术；二是加强关于AI 技术应用的基础设施建设；三是注重AI 技术人才培养；四是军民融合，强化合作；五是加强军事伦理道德体系建设、维护AI 技术安全［6］。作为美军智能化指挥控制系统建设的风向标，《战略概要》的提出充分说明以美国为代表的世界军事强国预见到了AI 技术在军事领域的巨大潜能，未来军事竞技场上AI 技术一定是御敌的利器。

当今世界各国展开军事竞赛，美军的发展方向为国内智能化指挥控制系统的建设提供积极的借鉴意义。本文结合人工智能发展历程，分析强化学习在美军智能化指挥控制系统中应用发展所取得的成绩和暴露的问题，针对我军信息化作战辅助决策系统建设现状，分析面临的难题，为未来发展提出建议。

1 人工智能技术发展历程

人工智能技术的发展经历了3 个阶段:计算智能阶段、感知智能阶段、认知智能阶段［7］。计算智能阶段［8］主要以记忆和存储功能为核心，通过数据存储、运算、挖掘等形式提取关键信息。超级计算机“天河”和“深蓝”就是AI 技术计算智能的具体应用成果。感知智能阶段［9］受人和动物的视觉、听觉、触觉等感知能力启发，以图像理解、语音识别、语言翻译等功能为代表，主动感知搜集环境信息。科大讯飞、百度翻译等翻译技术，人脸识别，软件识花等图像理解技术，苹果Siri、天猫精灵等智能交互技术运用的就是感知智能。认知智能阶段［10］模仿人的认知过程，主动接收信息、理解信息、推理思考信息，最终自主得出结论。AlphaGo 战胜人类围棋高手李世石［11］，《星际争霸2》中人工智能Alpha star 10∶1大胜人类顶级玩家均是认知智能的实际运用。

人工智能领域的主要目标之一是生产具备完全自主与环境互动能力的智能体。智能体在不断地接收环境反馈的信息之后，通过学习获得最佳行为。强化学习属于AI 技术的第3 阶段——认知智能阶段，智能体对环境反馈信息进行接收处理并进行自主有效学习。强化学习［12］由4 个基本部分组成:状态s，动作a，状态转移概率和奖赏信号γ，通常使用马尔可夫决策过程（Markov Decision Process，MDP）来描述:智能体在当前状态s 下根据策略π 来选择动作a，执行该动作并以概率转移到下一状态s'，同时接收到环境反馈回来的奖赏γ。强化学习的目标是通过调整策略来最大化累积奖赏。通常使用值函数估计某个策略π 的优劣程度。

强化学习可以分为无模型的强化学习算法（Model-Free Reinforcement Learning）［13］和基于模型的强化学习算法（Model-based Reinforcement Learning）［14］。无模型的强化学习算法运行原理如图1 所示。智能体在环境中互动学习，寻找到行动策略，学习优化策略。基于模型的强化学习算法运行原理如图2。抽象与环境交互产生的经历并建立模型，通过模型训练更新价值函数和策略，将策略与环境进行互动获得更多的经历。

图1 无模型的强化学习算法原理

图2 基于模型的强化学习算法原理

2 强化学习在美军智能化系统中的应用

现代军事领域，强化学习在战场情报搜集、信息处理、态势分析和辅助决策中日益发挥关键作用，极大程度辅助指挥员提高决策效率，是未来平台作战的核心［15］。美军对指挥控制智能化的研究起步最早，发展最快［16］。早在2004 年，美军就进行了以为指挥员提供作战行动方案为目的的RAID计划［17］，取得初步成功后又相继开发了以强化学习为主要方法的DEEP GREEN、TIGER、ALPHA AI、Maven、Alpha Zero、APF、CVS、COMPASS、MEADE、SLATE、ROBO pilot、ALIAS 等一系列智能指控系统:2007 年，美军联合国防部高级研究计划局（DARPA）开发DEEP GREEN 系统，采用最大化最小搜索算法构建通用机器学习引擎，基于实时态势动态仿真，对战场状态函数s（t）进行进行评估，得到态势函数v:s（t）→R，量化地估计未来某一时刻的战场状态。2009 年TIGER 计划实施，强化指控系统中战场情报分类判断［18］能力，在环境对智能体反馈状态函数s（t）过程中增加信息筛选处理步骤。2016 年美国空军实验室指导开发的Alpha AI 系统，在实验中成功击落美空战专家驾驶的训练模拟机。Alpha AI 使用遗传模糊树算法实现了对海量数据的实时处理。在功能上，Alpha AI 可充当人类战机僚机，在作战中搜集战场信息、控制无人机集群。2017 年美空军启动Maven 系统，在智能采集单元中根据无人机提供的视频信息，运用机器学习算法自动识别目标运动情况。著名的Alpha Zero 通过自学习的方式脱离专家系统指导自主生成博弈策略，展示了人工智能技术在解决博弈问题时的突出优势［19］。Alpha Zero 采用蒙特卡洛搜索树（MCTS）和神经网络模型进行训练［20］，过程主要分为3 个阶段:自学习阶段、训练神经网络阶段和评估网络阶段。同年，美军针对性开发自动计划框架（APF），指挥官虚拟参谋（CVS），“指南针”（COMPASS）等项目，结合认知计算和自动化技术，通过分析智能体（敌军）对环境采取不同的动作函数a（t）后产生的状态函数s（t）和奖励函数r（st，at）的值，剥离出影响态势的核心要素，帮助指挥官和参谋人员评估机动、后勤、火力、情报及其他作战行动过程。2018 年至今，美军先后开发应用数字企业多源开发助手（MEADE）、SLATE 训练系统、智能僚机、空战演进、机器飞行员（ROBO pilot）和座舱内机组自动化（ALIAS）等系统，通过仿真手段平行模拟战场博弈过程，抢先一步预测战场态势走向，为指挥员提供针对性行动方案，提升辅助决策效率。

美军智能化指挥控制系统［21］以作战信息管理软件系统为核心，是跨物理域、信息域、认知域三域的复杂模型，包含平台软件、技术支持软件、指控应用软件，如图3 所示。强化学习算法的应用主要集中在指控应用软件，核心在于“平行仿真”，即在作战指挥过程中实时搜集作战数据，通过仿真模拟快速分析预测战场态势变化，进行敌我双方战术推演，同时预测各种方案导致的后果［22］，系统量化分析战争走向，辅助指挥员快速制定、调整作战方案，缩短态势分析时间，抢先打破敌方OODA（Observe-Orient-Decide-Act）环［23］，赢得战争主动性。

图3 智能化指挥控制系统软件组成示意图

3 美军智能化指控系统发展暴露的问题

战争博弈对抗属于不完全、不完美信息博弈［18］，任何环境、战力、策略的变化都会影响战局走向，态势发展的多样性造成战争迷雾干扰指挥员判断，原始的战略较量变为战略和技术综合实力的较量，如图4 所示。

图4 战争较量元素变化

现有的智能化指挥控制系统只适用于时间短、确定性相对较强的战术层面的情况，主要适用于模型较为简单，火力运用规则较为基础、战局变化易于推演的战局。

3.1 定性与定量转换问题

信息化条件下的联合作战是一体化联合作战的初级阶段，是我军现阶段联合作战的基本表现形式。当前，各种打击力量多维聚能，武器类型多，打击方式多，毁伤效应多，战争面临的环境呈现出威胁日益复杂、作战节奏变快等特点。如何将复杂多变的战场环境、首长决心、作战计划抽象为能算、可信的数学模型，对我定性与定量转换能力提出了更高要求。美军发展指控系统初期并不顺利，其中一个重要原因就是缺乏标准化、规范化的定量方法。如何化繁为简，去伪存真，提取核心参数，并确定相应比例，量化影响战场态势发展的各个因素，同时将战术策略、武器使用映射成具体战斗力测评数值，是我国亟待解决的问题。

3.2 数据共享与使用问题

信息化条件下，制信息权成为作战双方关注的重点。美国分散的政党、复杂的数据保护规则使其在数据的收集、共享和使用上面临较大困难。与美国相比，我国的制度无疑更适合集中力量办大事，但各单位、各体系发展指控系统数据格式不通、平台接口不联、各类系统层出不穷等问题，导致数据无法得到有效共享与使用，各家敝帚自珍，客观上制约了信息系统的快速发展。同时，相较美军通过实战和装备报废得到的真实数据，我军在作战数据上的建设依然停留在实验室、演习场，没有通过实战检验，可靠性、科学性仍有待提高。

3.3 顶层设计与筹划问题

美军认为，现实期望对于维持一个以应用新技术为目标的计划至关重要［24］。美军在发展指控系统的过程中发现，为了减少不必要的开支，提高研发效率，良好的顶层设计必不可少。指控系统（尤其是人工智能）技术目前的能力和局限性尚未明确，可能导致研发过程中人力、物力的误用、滥用，事倍功半。我军不缺乏指控系统发展应用的理论指导和战略目标，但在实际落地方面，缺少系统化、科学化、流程化的指控系统发展规划与路线图，以及对应的测试评估技术。

4 美军智能化指控系统对我军信息化建设的启示

美军智能化指挥控制系统的建设预示着未来战场博弈的发展方向，将人工智能技术运用于指挥控制过程中的思路还会继续深入下去。美国与我国在人工智能的发展战略上有相似之处，通过比较双方国家结构、文化等方面差异，结合美国在科技创新与发展中遇到的问题，中美在人工智能发展中的关键点有以下5 个方面:基础技术研究、工业商业、军事应用能力、操作概念、VVT&E 技术（Verification，Validation，Test，and Evaluation）［25］。但在国家文化、结构、意识形态等方方面面都有较大差异，因此，不能盲目借鉴美国发展经验。为达成弯道超车、后发先至的目标，需要结合我国国情，查漏补缺，全面发展。

4.1 创建指控系统发展规划路线图

人们普遍认为，我国正处在信息技术发展的黄金时代。过度迅猛的发展使得信息技术泡沫存在可能性。为强化人力物力配置，明确指控系统发展规划，我军有必要创建动态的指控系统发展规划路线图。路线图应当与我军作战需求、研发需求协同发展，具备实时更新、临机操作的功能，能够确保我军装备现代化速度与装备研发、应用速度相适应。路线图应当包含优先级列表、操作需求、开发方向、开发原则、可操作性、可使用性、存在不足、成本估算等方面，能够优化资源配置，帮助研发人员明确研发流程与方向，为研发人员提供可行的路线。路线图应当按照我军指控系统发展的战略目标确定发展阶段，能够随我军作战需求和技术的发展而不断发展，确保路线图的准确性与先进性。

4.2 推进定性定量方法与测试评估技术进步

军事力量的突破往往需要领先的技术水平、准确的应用方向和有力的技术整合。当前，指控系统的基础技术仍集中于民用方向，中美在技术上的差异并不大，为夺取指控系统发展优势，我军必须发展更优越的算法与操作理念。有效的测试和评估对于充分发挥指控系统潜力至关重要。当前我军对于工程、技术的评估方法大部分仍停留在人工层面，以集中决议、专家评判为主。这些手段不可或缺，但主观因素占比较大，评判的可靠性有待商榷。军事运筹学方法对于复杂战争环境的建模比较理想化，假设因素较多，难以反映真实战场；数值模拟对于理论建模的要求较高，完全重现战场环境难度较大，因此，有必要进一步推进定性定量方法与测试评估技术发展，为指控系统进步奠定基础。

4.3 强化人才培养与使用

人才是推动技术发展、保障计划实施的基本元素与根本动力。为在指控系统发展与应用方面建立优势，我军需要大量训练有素的研究人员，需要一支有向心力、有上进心、有技术优势的人才队伍，而保证人才长时间不流失、人心不涣散比较困难。因此，建立相应的人才管理模式和综合评价手段十分必要。通过奖励为主的奖惩措施、优胜劣汰的机制激发人才队伍活力，确保人才队伍的竞争力。

5 结论

人工智能技术现已进入一个新的高速增长期，随着战场环境和对手的日益复杂多变，强化学习必然成为深入理解对手意图、增强战场态势理解、加快决策速度和提升战略战术科学性的强劲推力。以美国为代表的世界军事强国，预见到人工智能技术在军事领域的广阔应用前景，提前布局了一系列研究计划，发布第三次抵消战略，力求在智能化上与潜在对手拉开代差。本文以强化学习在美军指挥控制系统中的应用为线索，分析智能化指控系统发展面临的难题，同时对未来发展提出可行性建议。军事变革时代，如何充分利用人工智能技术提升战场指控系统辅助决策智能性，成为各军事集团共同面对的问题，积极借鉴、分析、改进美军先进指控系统，将有利于提高我军打赢信息化条件下战争能力。