外军无人系统自主行为决策技术发展研究*

2022-03-17司炳山董志明

舰船电子工程 2022年12期

司炳山董志明

（1.陆军装甲兵学院北京 100071）（2.中国人民解放军75130部队贵港 537100）

1 引言

随着无人系统在叙利亚冲突、纳卡冲突、俄乌冲突等近几场局部战争中的频繁亮相，意味着现代战争模式已经不可逆转地步入了智能化、无人化的时代。世界各国都将无人系统的发展作为提升未来部队战斗力的重要手段。无人系统在战争中的应用方式层出不穷，无人系统也从最开始的遥控控制单平台，单功能发展到现在的集群协同，综合性，智能化自主系统。其中自主行为决策技术的发展对无人系统应用的推动起到了决定性的作用。同时，随着无人系统在各国各军兵种中应用的不断深入，对其自主决策能力也不断提出了更高的要求。

自主决策能力是指无人系统拥有感知、观察、分析、交流、计划、制定决策和行动的能力，并能够完成人类通过人机交互方式布置给它的任务。自主系统的显著特征是在未知环境中的目标导向能力，它能基于一套规则或约束做出决策，并确定哪些信息对决策是重要的，因此其性能比预先确定运行方式的系统更优越［1］。

美国海军研究办公室及空军研究实验室（AFRL）为了深入研究无人机作战运用，便于对无人自主程度进行衡量。定义了10个无人机自主级别（表1）。NASA飞行器系统计划高空长航时部定义了6个自主等级［1］（表2）。可以看出，虽然无人系统的等级划分方法不同，但随着无人系统等级的提高，无人系统对自身状态和周围环境的感知能力在不断提高，同时无人系统的自主决策权限也在不断提高。

表1 10个无人机自主级别

表2 NASA飞行器系统计划高空长航时部定义了6个自主等级

2 自主行为决策理论与方法的发展

自主决策方法参考了现代作战广泛采用的OODA环。决策部分是依靠感知单元获取战场态势信息，然后通过与自身机动和攻击性能相结合来确定战术，自主生成机动指令。同时在此过程当中还需要在复杂战场环境下根据不同的任务场景实时生成机动指令。当前，针对决策问题，国内外学者已经取得了丰富的成果，如基于对策的决策方法、基于专家系统的决策方法、基于机器学习的决策方法等。

2.1 基于对策理论的方法

2.1.1 矩阵博弈方法

矩阵博弈法［2］最初是由美国学者Fred Austin提出，目的是为了解决空战的机动决策问题，原理是通过建立机动动作库为备选动作，建立优势函数，通过计算后采用最大-最小值原理进行决策。矩阵博弈方法比较灵活，有较好的拓展性，并且对计算资源的需求较小。但其决策只是考虑当前态势，决策结果并不一定是最优的。

2.1.2 微分博弈方法

微分博弈法［3］是20世纪50年代由美国数学家R.Isaacs提出的，主要用于解决拦截问题。其原理是将空战过程建立为追逃模型。在实际使用当中微分博弈法往往比较复杂要进行大量简化才能求解，而且对于条件要求比较严苛。并且只能在较为简单的空战情形下使用，灵活性和可移植性较差。

2.2 基于专家系统的方法

专家系统［4］是一个拥有特定领域内的大量专业知识与经验的计算机程序系统。它拥有人类专家的知识水平，并且能够处理特定领域内的专业问题。专家系统法被较早地应用于自主决策领域。美国NASA于1969年开始研发的AML自适应机动逻辑系统［5］，以及后续开发的Paladin系统能够基于当前空战态势，通过IF-THEN推理方式，可为飞行员提供多种场景的模拟训练。俄罗斯为SU-35战斗机开发的“决斗系统”是一种可以向飞行员实时提供作战建议的专家系统。2016年问世的“阿尔法”空战系统（Alpha AI）是一种采用遗传模糊树方法的专家系统，它融合了模糊理论和树结构的优势，可以高效处理复杂推理问题。

传统的专家系统法，它也存在一些不足，它依赖于人类空战经验，需要耗费大量精力进行建模，并且这种模型的完备性和精确性难以保证；并且难以发现全新的知识和规律。

2.3 基于机器学习的方法

随着人工智能技术的兴起，机器学习成为了其中的关键一环。机器学习方法可以利用、棋局、图片、视频、音频等人类相关数据进行学习以及通过自我对抗迭代训练，从而达到甚至超越人类的水平。谷歌deepmind团队采用注意力机制（Attention Is You Need）、深度 LSTM（LONG SHORT-TERM MEMORY）、指针网络（Pointer Networks）以及ResNet网络开发的AlphaStar达到大师级水平，完胜人类99.8%玩家。同样，Open AI开发的Open AI Five在DOTA2大规模即时策略游戏中战胜人类冠军选手。受此影响，将机器学习方法应用到自主决策中是必然趋势。经过国内外众多学者的研究与不断改进，其中的神经网络、遗传学习、强化学习等都有着不俗的表现。

3 自主决策典型项目的发展

3.1 飞行员助手项目

1986年DARPA启动“飞行员助手（Pilot's Associate Program，PA）”项目［6］，以验证人工智能技术在航空系统中的应用，增强战斗机的任务完成能力。PA项目包含了态势评估系统、任务规划系统、战术规划系统、人接口系统、系统状态系统等分系统。实现了对战机的故障诊断监控，对任务的主动规划，提供了良好的人机交互环境，态势的演变判断和评估。以飞行员助手项目为支撑，美军又相继启动了旋翼机飞行员助手（Rotorcraft Pilot's Associate，RPA）项目，自动伙伴（AUTO CREW）项目，并且最终成功运用于下一代战斗机设计当中。

俄罗斯在su-27战机上的机载任务专家系统，英国的任务管理辅助系统（Mission Manager Aid，MMA），认知座舱项目（Cognitive Cockpit Project，COGPIT）等都有类似的功能。

3.2 深绿

2007年DARPA启动“深绿（Deep Green）”计划［7～8］，旨在以仿真技术支撑军事任务。深绿包含了三大部分，“指挥员助手”是人机接口系统，“闪电战”是深绿的仿真系统，“水晶球”是深绿的控制系统。其中闪电战系统可以接收各方的行动方案进行仿真，并对各种可能结果继续仿真至分支终点，以此达到对未来战场态势的预测的目的。水晶球可以获取真实的战场态势信息并更新系统态势，最重要的是对未来的决策节点进行辨识，并提供决策方案。已达到对指挥员的高效辅助决策作用。深绿系统以创新的系统设计，将在线仿真决策支持变为可能。

3.3 虚拟指挥官参谋

美军2016年正式启动“指挥官虚拟参谋（Commander's Virtual Staff，CVS）”项目，指挥官虚拟参谋综合了认知计算技术，可以分析复杂战场态势，提供个性化作战规划流程，该系统集成了作战评估，分析预测、对策建议等模块，具备智能人机交互环境。重点是可提供未来态势预测，并且可基于人机协作方案进行推演评估。指挥官虚拟参谋项目是美军在深绿项目后推出的又一重大计划，是美军指挥决策系统智能化的一大举措。

3.4 Alpha智能空战系统

2015年美国空军启动Alpha智能空战［9］项目，该项目由Psibernetix公司负责开发，最终将实现的人工智能飞行员驾驶僚机配合有人驾驶的长机执行军事任务。并且在2016年的测试当中完胜了美国空军王牌飞行员。该系统采用基于“模糊逻辑”、“遗传算法”和“专家规则”的遗传模糊树理论，Alpha智能空战系统成功的将演化计算应用在求解连续实时决策的高维复杂问题。另外，Alpha智能空战系统在同等条件下响应速度达到了人类飞行员的250倍，其人工智能飞行员的训练平台在一台普通的个人电脑上就可以实现，并且系统的运行可以在几十美元的“树莓派”上进行。Alpha智能空战系统的初始策略结构依然与依赖人类的先验知识建模，所以其解空间搜索能力很大程度上受限于人类的设计。

3.5 Skyborg项目

Skyborg项目是美国空军重点发展的“先锋项目”之一。2019年3月美国空军研究实验室发布了自主无人作战算法验证平台项目（Skyborg），主要用来完成《2018年美国人工智能战略》和《2019年人工智能倡议》。2021年4月Kratos公司研制的UTAP-22“灰鲭鲨”战术无人机首次搭载Skyborg项目的“自主核心系统（ACS）”进行测试，6月，Skyborg团队在美军“橙旗”21-2演习当中再次成功测试了搭载ACS的MQ-20“复仇者”无人机。测试中无人机演示了基础飞行自主能力。

该项目将由两个系统组成，一是机载人工智能副驾驶，可以实现与人类飞行员的信息交互。二是可以自主驾驶无人机的人工智能系统。该系统为忠诚僚机项目的推进打下了技术基础。该项目集成了一系列人工智能技术，旨在融合无人机自主技术与开放式架构，实现无人系统的动态独立决策能力。可将其应用于“无人僚机”和完全自主型无人战斗机，实现有人/无人机编队高效作战。

3.6 “空战演进”项目

DARPA战略技术办公室在2019年5月提出了“空战演进（ACE）”项目［10］。这是美军“马赛克战”这一新型作战概念的重要支撑项目。该项目分为三个部分即：模拟环境研究，无人机飞行试验，有人-无人协同飞行试验。共分为四个技术领域：1）建立局部行为的作战自主权；2）建立和校准空战局部行为信任；3）将信任扩展到全局行为；4）全面建设空战实验基础设施。

该项目旨在开发具有自主开火决策权限的高级人工智能，实现空中近距离作战的智能化。通过这一手段，使飞行员的身份从单一的飞机操作员变为有人-无人集群的任务指挥官。该项目以实现自主能力为重点，弥补了物理自动化作战系统不足。同时该项目与Skyborg、拒止环境中的协同作战、忠诚僚机等项目有着强烈的相关性。

3.7 “忠诚僚机”项目

“忠诚僚机”［11］这一概念最早由美军在2013年提出，被人形象地称之为堂吉诃德的桑丘。2015年由美国空军研究实验室（ALRF）正式发起，该项目的初衷是对F-16战机进行智能化、无人化的改造后与有人驾驶的五代机进行高地搭配组合。由于F-16造价高昂且不具备隐身性，使得美军转而开发具有隐身能力的全新无人机来代替F-16的任务。随着无人机技术的迅猛发展，目前“忠诚僚机”这一概念也已经不是为美军一家所用，俄罗斯、澳大利亚、法国、英国等均开始着手研发自己的“忠诚僚机”。比较具有代表性的有美军的XQ-58A“女武神”无人机，澳大利亚的MQ-28A“幽灵蝙蝠”无人机，法国牵头的“神经元”无人机、“远程载机”无人机，俄罗斯的S-70“猎人”无人机、“猎户座”无人机、“雷霆”无人机，英国的“雷神”无人机、“LANCA”无人机。除了美国外，其他国家可能并没有明确忠诚僚机称谓，但从其研究的出发点、功能定位、核心能力上来看基本都具备了典型“忠诚僚机”的特征。

综合来看目前各国忠诚僚机的主要任务有：1）在作战中保护有人机的安全；2）充当有人机的弹药库，扩展有人机的载荷规模；3）代替有人机执行高风险性的任务；4）充当空中的信息节点，扩展体系的作战能力。忠诚僚机的优势有：1）可以有效避免人员的伤亡；2）大部分无人机作为可消耗产品，成本低廉，甚至低于一枚战斧导弹的价格；3）装备了高度自主的人工智能系统，具有很强的自主作战能力；4）无人机融合大量人工智能技术，大大缩短了OODA环响应速度，提高了作战效能。

3.8 “阿尔法狗斗”项目

2019年10月，通过前期的筛选DARPA选定了8支队伍参加“阿尔法狗斗（Alpha Dog fight Trials）”项目［10］的最终比赛。DARPA在主要以解决空中缠斗决策问题为出发点，进行了该项目。该项目同时ACE计划相关，但又相对独立于ACE计划。在2020年8月进行的比赛中，苍鹭系统（Heron Systems）公司开发的AI算法“Falco”操纵F-16模拟战机，击败了经验丰富的美国空军F-16飞行员。随后，DARPA授予五家机构算法开发合同，旨在该项目的基础上深入开发将该算法的应用扩展至“2v1”与“2v2”的视距内空战环境。

此项目中的人工智能飞行员“Falco”，采用了深度强化学习的技术，研发训练时间不足一年。在此期间经历过了至少40亿次的仿真训练，在比赛前已经相当于拥有30年作经验的F-16战斗机飞行员，在比赛中不仅战胜了其他参赛队的人工智能飞行员，还最终完胜了人类顶尖飞行员。其表现令人眼前一亮。

3.9 自主无人集群项目

无人机集群［12］以其廉价性、智能性等诸多优点。在无人系统中占据了重要地位。无人系统的自主决策能力的获得主要有两种模式：1）权限更高的系统的赋予；2）依靠无人集群的群体智能。其中第一种方式有人工干预，地面基站干预或者集群内部节点的干预等。第二种主要依靠群体智能的涌现性或者是分布式智能。关于群体智能的涌现性，国内外学者相继提出了蚁群算法、蜂群算法、狼群算法、鱼群算法、粒子群算法等群体智能优化算法，并不断加以改进。典型的自主无人集群有Perdix项目［13］、Gremlins项目、Locust项目、OFFSET 项目等。

4 自主决策技术展望

通过对自主决策技术发展的梳理，可以看出人工智能技术与自主决策的融合发展是当前的主要研究方向。它深刻影响今后的装备发展和技术创新，以及未来的作战形态。

4.1 从决策助手到决策专家

伴随着武器装备的不断发展和军事技术的更新迭代，现代战争的作战样式也呈现出前所未有的高动态性和不确定性。传统的辅助决策技术加人工决策的模式已经无法适应现代战争“高”、“强”、“快”的节奏。对于由人工智能和自主决策技术驱动的决策专家的需求将愈发强烈，其相比于人类有限的生理机能和局限的认知水平有着明显的技术优势，能够极大地压缩OODA循环周期。这对于未来作战体系和装备技术实现突破性的革新具有重要意义。

4.2 从以人类智能为主到以机器智能为主

随着时间的发展，自主决策技术也正在从传统的博弈理论、优化理论等方法开始和具备自主学习能力的人工智能技术相结合。传统技术往往受限于人类有限的认知与表达，所产生的决策结果也不尽如人意。而以人工智能技术为代表的新一代决策技术如Alpha Go等，已经在某些领域实现了对人类的超越，而这也将成为今后的一大发展趋势。

4.3 群体智能决策将成为主流

单个平台的效能面对复杂作战任务时往往显得捉襟见肘。并且在单个平台上的功能集中必将导致平台经济性的下降，同时降低了体系的抗毁性、鲁棒性。美军“马赛克战”就很好地诠释了这一现象。依靠群体智能就能很好地避免这些问题，同时群体智能有着单平台所不具备的智能涌现性，能够实现“1+1＞2”的颠覆性效果。所以在将来群体智能也必然会成为作战体系中的关键一环。