人工智能空战系统的发展及应用前景
2018-09-10汤一峰
汤一峰
人工智能空战系统ALPHA基于模糊逻辑树控制算法,通过整合模糊控制、遗传算法、级联控制结构的思想和原理,克服了神经网络算法运算量过大的缺点,同时又不失于精确性和鲁棒性。本文介绍了ALPHA系统的项目背景、研发历程、算法优势和实施框架。同时,结合美军现有“忠诚僚机”等预研计划,预测了人工智能空战系统在无人机编队等方面的应用前景。
项目背景
2017年,针对人工智能科技的爆发式发展趋势,英国广播公司(BBC)发布了一份最可能被人工智能取代的人类工作清单。其中,汽车驾驶员这一岗位在榜单名列前茅。未来,可能不仅仅是汽车,连超声速战斗机飞行员也将被无人驾驶技术所取代。2016年,美国空军研究实验室(AFRL)的信息透露,其研发了一套名为ALPHA的人工智能空战系统。同时,该系统在模拟空战中以无可争议的优势击败了经验丰富的美国空军退役上校吉恩·李。而此前,还没有任何人工智能模拟空战系统可以战胜人类顶尖的飞行员。
吉恩·李上校曾任美国空军高级教官,为美国空军培训了上千名飞行员,参加过越南战争,具有大量实际空战经验。他也参与了ALPHA的研制,对ALPHA人工智能空战系统的评价是:“这是我见过的最具敏捷性、侵略性、可靠性的人工智能系统”。
试验历程
2015年,ALPHA的早期版本出现在美国空军的先进仿真集成模型框架(Advanced Framework for SimulationIntegration Modeling,AFSIM)空战仿真平台上。该系统利用其VESPA可视化模拟工具和当时美国空军研究实验室正在使用其他空战系统进行了对战,并成功获胜。
在2016年11月举行的IQPCInternationalFighter会议上,ALPHA的主要研制项目负责人尼古拉斯·厄内斯特博士介绍,在击败了美国空军研究实验室所有的空战模拟系统后,ALPHA不但在一对一中战胜了吉恩·李,并且和多名美军飞行员控制的飞行编队进行了对战。在多次模拟中,ALPHA控制的战机只配备4发中程导弹,雷达所能扫描的俯仰和方位角分别被设定为15°和70°。而人类飞行员控制的战机配备了4发远程导弹和4发近程导弹,同时配备机载预警和控制系统(AWACS)。尽管ALPHA在武器数量和态势感知能力上处于弱势,但是其仍然在每次模拟中面对这些人类飞行员控制的战机编队中占据绝对优势。
研究团队
ALPHA人工智能空战系统由Psibernetix公司研制。该公司和美国赖特·帕特森空军基地、美国空军研究实验室保持了紧密的合作联系。从2013年起,尼古拉斯·厄内斯特博士等人的团队就利用基于模糊逻辑控制的人工智能技术,不断在无人机路径规划、无人机机群防撞、无人机机群协作决策、无人机控制和任务规划方面完成了关键性研究。
2017年,美国航空航天学会(AIAA)表彰了尼古拉斯·厄内斯特博士等人的研究團队在利用人工智能技术解决大规模复杂航空航天领域问题的突出贡献。目前,Psibernetix公司开发了ALPHA、EVE、LITHIA等投入实际应用的基于模糊逻辑算法控制的人工智能原型系统。
关键技术
常见人工智能算法
空战决策算法中,一类是模糊逻辑控制算法为代表的传统方法,另一类是以人工神经网络、遗传算法、影响图法等为代表的智能方法。
传统模糊逻辑控制算法应用非常广泛,最常用于工业控制系统领域,优势是对于噪声、不确定环境的鲁棒性较好,但扩展性较差。模糊逻辑控制算法不复杂,但是非常依赖“专家系统”提供的一整套规则。需要有大量预先设置的专业领域知识,这些知识通过一定的规则来影响系统做出判断,形成决策。当输入量有限时,模糊逻辑系统在趋势预测方面表现得十分出色,但一旦输入量变多(例如ALPHA系统目前的输入变量就超过150个)时,它就变得太过复杂,计算量呈指数级增长,即便是今日的计算能力发达的情况下,仍是难以完全实时处理。另外,直接将传统模糊逻辑控制应用于空战场景存在的问题包括:规则库比较复杂,需要不断调试;规则集很难覆盖所有的空战情境,对空战中的不确定性和动态特性适应较差。
遗传算法(Genetic Algorithm)以生物进化理论中的自然选择为模型,模拟了自然界中的进化过程。在优化控制、信号处理等问题上得到了广泛的应用,是解决随机搜索问题的有效方法。
人工神经网络(Artificial NeuralNefwork)以其优良的自学能力和存储能力,能够快速找到优化解,在人工智能领域使用十分广泛。战胜李世石的大名鼎鼎ALPHA GO上使用的就是深度卷积神经网络(匹配卷积网络的权重共享结构)和蒙特卡洛搜索树的算法。这一算法模拟了人类大脑的工作机制,但缺点是需要进行多层计算,计算量较大,人们通常很难理解或者破译出为何算法得出该结果。
算法原理
ALPHA人工智能空战系统中使用的核心算法被称为“遗传模糊逻辑树”(Genetic Fuzzy Tree,GFT)。该算法是“遗传算法”、“模糊逻辑控制算法”、“级联树状控制算法”的集成,继承了以上3种算法的优势,具有以下特性:
(1)遗传特性
ALPHA人工智能空战系统的训练过程是从大量随机参数版本的ALPHA开始,让这些自动生成的版本和经过人工调整参数的ALPHA版本进行对战。获胜版本的代码段将互相“繁殖”,以生成更加强大性能的下一代版本。即只有经过优胜劣汰的最优代码段会继承给下一代,每一代ALPHA都将表现更出色。这是遗传模糊逻辑树算法中,“遗传”的含义所在。
(2)模糊特性
目前,大多数人工智能空战系统采用的基于数值的控制算法,为操作提供了非常“精确”的参数。但是,模糊控制算法基于“语义”,并非基于“数值”,因此是一种“模糊”算法。
模糊控制算法依赖专家知识库,通过专家知识将输入和输出分组,应用一系列“if-then”规则来确定输出,将该输出转化为一个控制动作。
利用模糊控制算法可以降低算法难度:将控制问题的解空间离散化,形成一系列“语义词组”(Linguistic Term)。
(3)树状特性
模糊逻辑控制的控制器称为模糊推理系统(Fuzzy Inference System,FIS)。单个模糊推理系统在面对海量输入时,就变得异常复杂,产生无法处理的运算量。因此,在处理解空间巨大的问题时,需要将多个模糊推理系统组合成树状结构,形成所谓的模糊逻辑树( Fuzzy Tree)结构。在模糊逻辑树中,通过分解控制问题,让每个模糊推理系统处理整个问题的一小部分。通过生成模糊逻辑树,可以大幅减少系统规则库的规则数目,提高控制系统运行效率。
但是需要指出的是,遗传模糊逻辑树中的树状结构并不是传统的“自顶向下”模式(见图4左图),而是有着互连不固定的架构。下右图就是一种典型的遗传模糊逻辑树的级联树状结构形式。
综上,ALPHA人工智能空战系统采用的遗传模糊逻辑树算法更关注于模型构建,就像人们描述物体是使用“大、中、小”这样语意模糊词语,而一般不会用精确尺寸去描述。遗传模糊决策树也尝试在控制系统中引入这样的“模糊性”。同时,其遗传特性会让它在海量数据中不断进化,抛弃过时的解决方案。最后,级联树状结构使整个系统运算量降低到现有硬件可以接受的范围。
整个遗传模糊逻辑树算法演进过程如下图:
具体实现
前文提到,遗传模糊逻辑树中包含了许多模糊推理子系统。每个模糊推理子系统子系统都有多个成员函数,用于将输入输出按照“语言语义”(Linguistic)进行分类。“语言语义”表示:“很远”、“威胁很大”等并非精确的数值参数。同时利用“lf-Then”规则。例如:如果(lf)发射导弹击中目标的概率是中等的,并且毁伤精确度非常高,那么(Then)就发射导弹。通过将空战问题分解为多个子决策,那么整个解空间就将大大缩小。当然这样分解的潜在风险是可能有一些子决策之间存在耦合关系。
尽管大部分的复杂决策都由一组模糊推理子系统来完成,但是其他算法也可以很方便的添加进整个遗传模糊逻辑树系统。只要某个子问题存在最优算法,就可以将该算法纳入进来。下图是遗传模糊逻辑树系统的典型架构方式。
以ALPHA人工智能空战系统树状结构中的防御分支为例。防御分支在遗传模糊逻辑树中负责量化战机在面对特定进攻模式时的防御性能,其输出为0~100%。根据防御分支的输出,确定战机的规避机动方式和下一步战术操作。
防御分支可以由两层模糊推理子系统级联。第一层模糊推理子系统测量敌我间的水平和垂直距离,第二层测量威胁目标的方位角、角速度以及第一层模糊推理子系统处理后的有效距离数据。各个模糊推理子系统中的成员函数最后得到的结果帮助整个ALPHA人工智能空战系统决定:战机是否该开始机动规避动作、是否应该针对来袭威胁发射防御导弹。同时,防御分支下模糊推理子系统得到的有效距离数据也会被态势感知(SA)分支所用到。
Psibernetix在ALPHA人工智能空战系统之前研发过一套同样使用遗传模糊逻辑树算法的增强学习型战术处理算法(Learning Enhanced TacticalHandling Algorithm,LETHA),用于无人机编队控制。增强学习型战术处理算法的模糊逻辑树交联方式如下图。可以看到增强学习型战术处理算法系统被分解成3个分支:路径规划分支、武器系统分支、通信分支。每個分支自身又形成一个小型的级联模糊逻辑控制系统,同时3个分支之间存在连接。
目前来看,模糊推理子系统在应对不确定动态环境、深度学习等领域具有良好的潜力。同时,通过将模糊推理子系统系统级联形成遗传模糊逻辑树,分解空战中的复杂问题为各个子决策,解决了模糊推理子系统在输入数量比较大时会变得极端复杂的问题。不过,遗传模糊逻辑树算法也存在劣势:整体遗传模糊逻辑树系统的性能受单个模糊推理子系统子系统的限制,单个模糊推理子系统的性能表现决定了整体遗传模糊逻辑树的性能上限。
相比于神经网络算法模拟“大脑结构”来完成深度学习,遗传模糊逻辑树算法模拟的是“大脑思考模式”,即基于语义的方法。根据遗传模糊逻辑树算法建立起的ALPHA人工智能空战系统,通过对敌对目标的“速度”、“威胁等级”等参数区分,发展出一套应对的规则,例如,可以根据目标敌机的移动和威胁大小来确定是发射导弹攻击还是机动规避。
同时,ALPHA人工智能空战系统也可以接受来自人类飞行员的命令,而且人类飞行员可以在任意层面收回控制权,ALPHA人工智能空战系统只有当获得人类允许时才会进行相应攻击。针对ALPHA人工智能空战系统可能出现的误伤问题,AFRL的研究人员对ALPHA人工智能空战系统所有代码进行了检查。
目前,ALPHA人工智能空战系统可同时处理多达150项输入,包括我机速度、加速度、僚机位置、敌机导弹覆盖范围等等信息。同时计算速度要远远超过人类0.15s的极限目视反应速度(这还不包括在完成各种翻滚俯仰机动操作时会造成的反应延迟)。在之前进行的一次模拟中,每6.5msALPHA人工智能空战系统就能对4架飞机所有输入的传感器数据进行一遍处理,完成场景对应,分析当前行动方案并做出决策。这样的速度比“眨一次眼”快200多倍。接下来ALPHA人工智能空战系统将进一步提升对机体空气动力学、传感器建模的精确度、引入更多更复杂的机载航电和传感器模型。
未来应用
无人作战飞机(UCAV)若想实现完全远程控制,则势必需要零延迟的通信传输系统,而在目前环境下要想实现无人机图像、指挥控制等各种信息的零延迟传输几乎是不可能实现的。首先要面临卫星通信的带宽限制,其次数据链的安全性和抗干扰性也是非常大的风险。基于上述情况,使用ALPHA人工智能系统使无人作战飞机自主决策完成C41SR以及攻击任务,可以避免通信延迟带来的种种问题。
与此同时,美国空军正考虑今后使用无人作战飞机作为僚机,和人类飞行员组成飞行编队。为此,开展的“忠诚僚机”(Loyal Wingman)项目在2017年已经进行了第二阶段演示验证。洛克希德·马丁公司的臭鼬工厂团队和美国空军研究实验室开展合作,利用F-16作为无人平台,和有人飞机平台在爱德华兹空军基地进行了复杂空战环境下的编队操作。
接下来,“忠诚僚机”项目将会引入进一步成熟后的ALPHA人工智能空战系统,美国空军期望在2022年完成“忠诚僚机”项目并在5~1O年后正式部署。如果顺利的话,“忠诚僚机”项目能为F-35、F-22和下一代远程轰炸机B-21配备相应的无人僚机编队。实现人类飞行员发出指令,ALPHA控制的无人机执行较为危险的任务,而将安全程度更高的任务交给人类执行。
目前,美军发展的“忠诚僚机”、“小精灵”、“SOSITE”、“CODE”等多个飞行平台自主性项目分别面向不同的作战场景和平台,使用的核心算法技术也不尽相同。ALPHA人工智能空战系统是其中最具有巨大潜力的重要发展方向。今后,ALPHA人工智能空战系统能否走出模拟平台,进入实际空战,让我们拭目以待。