智能决策问题探讨
——从游戏博弈到作战指挥,距离还有多远
2021-01-06胡晓峰齐大伟
胡晓峰 齐大伟
AlphaGo 及其系列智能技术的突破,为智能博弈研究带来了新曙光,也为智能指挥决策研究指明了探索新方向[1].但是,游戏博弈毕竟不同于战争对抗,两者之间存在着巨大的鸿沟.智能指挥决策有哪些难题,有什么解决思路,正是本文讨论的主要内容.
1 从美军“决策中心战”说起
美军最近提出“决策中心战”,其主要逻辑起点是:美军过去主要与叙利亚、伊拉克、阿富汗这一类国家或恐怖组织对抗,但他们都没有对美军重大战争资产(比如航母、基地等)进行打击的能力,但在美军设想的未来大国对抗过程中,美军就不再占有绝对优势,这些资产就有可能被摧毁.所以,必须引入新的作战概念加以应对,比如分布式作战,把大平台拆成很多小平台参与作战,而这就需要能够作出更快更好的决策,而不是比消耗,这就是所谓“马赛克战”的由来.也就是说,“决策复杂度本身也是一种武器”.
要做到这一点,有两个问题必须解决.1)利用大量自主系统实现分布式作战,用小而多的平台建设作战体系.2)基于人工智能的方法建立决策支持工具,采用更智能化的指挥决策辅助手段.而无论哪一种,都需要智能决策技术来辅助,这就对智能决策技术提出了很多需求.
过去不是没有搞过这种工作,美军的“深绿”项目就是典型代表[2].美军于2007年启动这个系统的研发,试图在营连级层面上解决智能决策问题.现在回过头来看,虽然经过了十几年的努力,但除了个别技术取得了进展以外,基本上是以失败告终.这中间既有可能是智能技术不够成熟的原因,也有可能是技术路线过于简单和线性化的原因.
AlphaGo 近几年的进展为解决智能决策问题带来了新的曙光.以它为代表的深度学习方法,不仅在游戏上所向披靡,而且也揭示了实现智能决策的某种可能性[3].从最早的AlphaGo 打败李世石决策,到中间的AlphaZero 实现完全自主学习,再发展到AlphaStar 在星际争霸中战胜人类,给人们带来了一种感觉:好像通过深度增强学习方法,构建神经元网络,就可以实现决策博弈的智能化,而且可以自然而然地推广到作战指挥上.
近年来,举行了很多兵棋大赛和人机对抗比赛,也产生了很多成果,在不同层次、不同重点、不同类型的技术上也取得了许多进步.但总的来看,它们大多是模仿从AlphaGo 到AlphaStar 的方法,利用深度增强学习方法解决问题.不过也有特例,比如AlphaAI 飞行员,使用的是更经典的遗传模糊逻辑算法.但是这些号称战胜人类的系统是不是都实现了智能决策呢?总体来看,它们虽然重点不同,在决策上也存在着很大的差异,都号称自己战胜了人类,但是技术本质其实区别不大,并没有真正解决指挥决策问题.主要表现在:第1 类,比的大多是操作决策的速度,比如在对抗游戏中比的“手速”;第2 类,比的是简单判断和选择速度,比如AlphaAI 的250 倍“判速”;第3 类,比的是规划算法的计算速度,比如某海空兵棋的“算速”;第4 类,虽然有一定的自主决策能力,但是判胜准则却比较简单,比如只关注“损耗”或“占地”.这些决策虽然大多都是“自主”完成的,但与实际作战指挥决策相差甚远,很难体现出真正的”决策智能”.为什么呢?因为它们大多数都具有“即时反馈”“目标不变”“对称博弈”式决策的特点,决策类型比较初级.所以,美军认为,人工智能远远没有达到替人决策的程度.
一般说来,不同的层次,决策的内容和重点是不一样的.如图1所示,指挥层面分为指挥层、控制层和技术层,如果用技术/艺术三角形来看,它们所占有的技术和艺术成分是不一样的.技术层的技术性更多,即时反馈也非常快.而在控制层,则是技术和艺术并重.在指挥层,则艺术性更多,更多是非即时反馈,也就是说,决策需要很长的时间才能反馈,这就属于认知决策范畴[4].我们认为,决策智能研究的重点应该放在指挥层和控制层上,也就是说,非即时反馈类决策才是真正的智能决策.
人们研究这种决策的途径大多是利用游戏,但是游戏在我们看来还是过于简单,很容易沦落到前面的比各种速度方面.而专业兵棋系统可以提供一个更像智能的决策背景和试验环境.这是因为:1)决策空间大、选择多,单靠“暴力计算”根本无法完成;2)不完美、不完全决策更加突出,需要真正的“智能”而非简单判断;3)具有可测试的试验环境,通过仿真平台执行,问题可集中到决策;4)专业可信的推演模型和数据,更贴近于实战,成功后易于迁移,对作战指挥更具参考价值.
要解决智能决策问题,需要先搞清楚问题有哪些,在哪里,以及解决的思路.在这里不谈具体的技术问题,只谈问题和思路,它们揭示了问题的本质以及研究的方向.
2 决策智能研究的若干问题
指挥决策的基本过程是“观察、判断、决策、执行”过程(OODA 环),对抗双方每一次决策行动(无论层次高低)都是OODA 环的一次循环(如图2所示).其中第1 个阶段主要是观察态势和判断理解,这是态势理解;第2 个阶段是行动决策和实施行动,是决策行动.
图1 不同层次的决策内容和重点Fig.1 Decision content and key points of different levels
态势理解可分为两方面.1)“态”,即通过数据可得到的状态结果,这是客观的.2)“势”,是指挥员对趋势的认知判断,这是主观的.这是两种不同类型的智能,不能混为一谈.前面的“态”可以看成计算智能,而后面的“势”才是决策智能.
同样,决策行动也包含两个方面.1)理性方面,即指挥决策的规范化内容(科学方法),大多体现在指挥机制、作战流程、条令条例等理性内容上.2)感性方面,主要是指挥决策的创造性内容(即艺术创造),包括指挥决策中的灵感与创造、指挥员的个性与经验等.智能的产生主要在感性阶段而不是理性阶段,理性阶段实际上是智能的结果.
所以,美军认为指挥是一种艺术,它取决于指挥官的直觉、知识、经验甚至性格,每一名指挥官都有自己的特色.也就是说指挥是艺术、控制是科学.因而,决策智能需要理性和感性的结合,但对智能的研究更多的是在艺术性方面.那么,智能决策研究面临哪些难题呢?提出12 个难题.限于篇幅关系,只对前面6 个难题作简单介绍,其他难题不再详细阐述,只列出题名[5].
图2 OODA 环Fig.2 OODA ring
2.1 智能决策能否做到
智能技术有两种技术路线:1)基于符号模型的“算力法”.比如说“深蓝”项目,其基本思路是构建精确模型,建立知识表示或状态空间,然后在上述表示或状态空间中推理或搜索,通过暴力计算,找到问题的一个“解”,其核心关键在于待解决问题存在良好定义的精确符号模型.2)基于元模型的“训练法”.比如说AlphaGo,它首先构建问题的元模型,然后收集训练数据并标注,选择合适的神经网络和算法,根据数据拟合原理,用数据和算法对神经网络权重进行训练,从而使误差最小.其核心关键是需要具有充足的样本数据以及合适的算法.
这里有两个难题:1)脆弱性难题,即不在覆盖范围内或做少量的修改,就会导致严重错误;2)工程性难题,需要人工编写知识库或需要大量人工标注数据,建模过程变成了人的数据标注过程,没有这个标注过程,就无法生成AlphaGo 的神经元网络.AlphaGo Zero 可以自我训练并超越人类,是将“算力法”(简化决策论模型+ 蒙特卡洛树搜索)和“训练法”(残差网络+ 强化学习方法)结合起来,但仍有局限.
那么,这些方法可否直接用于指挥决策,比如战役战术兵棋推演中?先看一下战场时空的复杂性.1)空间复杂性,作战实体多样、空间连续、虚实交错;2)时间复杂性,动态微分博弈,不是棋类的序贯决策;3)信息复杂性,不完全、不完美、不确定,效果滞后;4)博弈复杂性,不对称、不合作、强对抗,充满迷雾.这一系列的问题使得作战决策成为最复杂的战场认知活动,尤其在中高层.从问题空间看,已经远远地超出了AlphaGo 的围棋不知道多少个数量级,也已经不是可以用计算能力与数据量多少可以衡量的了.而且,指挥员的决策目标会随着作战进程不断调整,评价准则也会改变.概括起来说,指挥决策还有一些独特的难点,1)解空间巨大,基本上没有进行全部探索的可能;2)非即时反馈:决策很长时间才能反馈,那怎么确定反馈必需的“奖惩函数”呢?3)多目标冲突,也就很难有“超级算法”可以把这些目标全都包含在内;4)专业性分工.每个都很复杂,如何实现“智能体专业分工”,向人类“模仿学习”可能就是关键.
这样看,似乎智能决策问题是无法解决的.但人怎么可以做到呢?这就是智能的奥秘之所在,还需要进行深入地研究.就目前的技术条件来看,解决问题需要新的思路.一般来说有3 种方法:1)应用场景封闭;2)理性与感性结合;3)利用“已有”知识.这3 种方法说起来容易,做起来其实都不容易.
应用场景封闭.很多智能问题无法解决,都是因为应用场景开放所致,所以应该将智能决策的应用场景封闭在可解决的范围内.不试图解决所有问题,而是限定应用场景范围,使得所有问题都在模型可解范围内,或代表性数据集也是有限确定的,这是封闭性准则.强封闭性准则对封闭性提出更高的要求,弱化通用性,即使该场景中出现失误也不具有致命性,即不会产生致命后果.具体封闭方法需要针对应用场景进行适当剪裁和处理,包括封闭化,改造场景使之具有强封闭性(如人工转为自动流水线);分治法,分解部分环节封闭,使其符合准则(如人工与自动线结合);准封闭化,将可能致命性失误的部分封闭,其余半封闭(如高铁).
将应用场景进行封闭,并定位为多个“智能助理”,可能是目前解决作战指挥智能决策问题唯一可行的技术路线.1)封闭化,可将其限定在专业兵棋场景下,未来再移植到指挥系统;2)分治法,可根据需要使其尽可能封闭在“可解”小问题范围内,比如“红军”“蓝军” 分治,“军兵种”“专业” 或“任务” 分治等;3)准封闭化,通过标准接口,将可能致命性的部分进行约束封闭.此外,智能决策过程中,必然需要保留人工席位,以弥补人工智能决策带来的不足,如上级决策、复杂决策等.所以,借助兵棋系统,规范标准接口,实现任务分治,以及人机协同决策等,通过实现一个个智能助理,最终在系统层面实现智能决策.
2.2 态势能否理解
理解态势是作战决策的基础.但是态势有简有繁,低层的战斗或战术级态势较为简单,而高层次的战役战术级态势就非常复杂.要理解态势,必须具有扎实的军事专业知识、作战指挥经验才行,而这恰恰是计算机最不擅长的.“人”的决策是建立在态势理解基础上的,但游戏不是,它们实际上只是做到了“知其然而不知其所以然”,决策并没有建立在“理解”的基础上,其原因就在于缺乏因果关系.比如,AlphaGo 通过大量数据得到的走子网络,只是通过胜率建立了“知其然”的对应关系,而并非真正对围棋有了所谓“深刻的理解”.作出的一些所谓“超人”的决策,其实也只是“随机性创新”起了作用.
Judea Pearl 在其所著的《为什么》一书[6]说到:“机器学习不过是在拟合数据和概率分布曲线,并没有触及问题的本质.” 只有自带因果的机器学习,才适合做推理和决策,而不能仅靠相关性.对非即时反馈决策而言,更应该采用因果推断模型,而非单纯数据拟合.《为什么》这本书里给出了一个3 层因果模型.第1 层是观察-关联,通过即时反馈就能得到.第2 层是行动-干预,在这一层的即时反馈已经变得不太可能了.第3 层是想象-反事实,比如人们会把作战方案在脑海里推一遍,思考这样做如何、那样做又会如何,不这样做会如何,不那样做又会如何,但不需要每个都去试.我们必须要解决上两层非即时反馈决策独有的因果关系,不能光解决底层的决策问题.
真正的理解必须建立在因果关系基础之上,而因果关系又有着不同的表现形式.第1 种,可用形式化知识库表示,这属于科学方法范畴,如公式、规则、流程等.第2 种,无法用形式化方法表示,比如复杂系统.如图3所示,复杂系统难以描述系统概念,说不清楚参数间关系,比如“猫”千姿百态,没办法描绘出来.“学习”的介入,可以通过“反推概念”的途径,拟合生成神经网络.有人说世界万物可以用4.398 万亿个参数表达,姑且不论这种说法是否正确,至少这个神经网络的因果是无法解释的.它只是用一个复杂代替另一个复杂,不过这个复杂是可以复制的.但如果决策都采用这种学习方式,则无异于每个人都经历“从猿到人”的过程,也是行不通的.
图3 复杂系统的“反推概念”途径Fig.3 The approach of“reverse reasoning concept”for complex systems
由此可知,真正做到态势理解是非常困难的.浅层次所谓的“理解”是可以做到的,比如建立起“知其然”的关系,但是这种理解也不是真正的理解,它是“程序员的理解”,而非智能体的“理解”.战场态势的真正理解更加困难,因为“理解”属于“认知”的范畴,最终还是要在“认知”上解决[7].“知其所以然”需要因果,自主理解更需要智能体的“人生”常识和体验.
2.3 不理解可否决策
不理解其实也可以做决策,甚至可以完美决策,难易取决于决策问题与方式.基于科学数据的决策,自动化系统就是如此,只要能够穷举;基于深度学习的决策,则是非形式化的自主决策,主要基于试错进行学习.重点谈一谈自主决策问题.深度学习下的认知是什么?其实就是通过试错学习,不需要任何已知知识,反复训练即可,如接抛球.但不是什么都可以随机试错的,有些需要承受代价,比如火星探测、战争.
试错学习有许多类型.1)随机试错,即无监督学习,是“随机选择”的进化学习;2)高效试错,即有监督学习,是“自带答案”的深度学习;3)反馈试错,则是行为反馈,是基于“奖惩函数”的强化学习.
AlphaStar 是先进行有监督的深度学习,达到基本水准,然后再通过强化学习,不断提高对抗的水平,最后引入多智能体学习,展开联赛式训练,优化它的决策方式.AlphaStar 给我们的启示是什么呢?1)模仿学习非常重要,不使用人类先验知识,很难成功,总得有一个起点;2)运用图神经网络,提高常规学习方法效率、泛化能力和可解释性;3)深度长短期记忆网络(Long Short-Term Memory,LSTM)是核心,用于捕捉决策的长程信息.最后,联赛式训练是支撑,也被称为“种族强化学习”,强化训练.
指挥决策有一个科学和艺术的转换过程,决策智能体现在科学和艺术两个方面(如图4所示).指挥控制的科学性体现在“知道怎么做时”,如流程、规划、优化等.指挥控制的艺术性则体现在“不知道怎么做时”,一旦知道了就变成公式、流程、规则了,是计算智能而不是认知智能了.真正的智能其实主要在做“例外”处理:权衡、选择和概括,这才是问题的关键.
2.4 如何利用已有知识
最直接的方式是采取知识图谱组织和使用“知识”.但建立知识图谱并不容易,许多人把知识图谱作为资料的堆砌,这是不对的.建立知识图谱的形式有两种.1)依托静态、形式化知识建立图谱.大量知识以条令条例、作战规则、活动流程等形式存在,而这需要经过知识数据化、知识网络化再到场景化知识图谱的转化过程,然后根据分析建立合适的知识网络,实现对作战行动进行推荐.决策知识价值,取决于知识所在的决策场景(context).同一个作战行动在不同行动场景下的含义可以不同(实体、行为、事件).所以,知识图谱的构建必须从基本作战场景(上下文)开始生成.但如果样本不足,对场景中“模式”的识别很难泛化.2)依托动态、形式化数据建立图谱.通过动态获取的海量战场态势数据(包括态势图、动态情报、部队报告和基础数据等),完成作战决策知识图谱的建立(场景、层次相关).建立作战决策知识图谱的前提是成为作战指挥专家,技术反而是其次.很多建图谱的人是技术人员,不懂得作战,结果建起来的图谱往往没有用.
图4 决策智能的体现Fig.4 Embodiment of decision intelligence
建立图谱有3 个难题:1)“常识” 难题,自主决策必须要有常识的支持.因为任何“自主”决策都应该假设在“人类常识” 限定下做出,所谓“智能” 才能成立,而“自动”决策则不需要.但是,作战决策的常识有哪些?在哪里?怎样才能建立?这是一个难题.2)“不断学习”难题,也就是决策智能必须与时俱进.决策知识图谱需要不断更新、学习和理解,既包括了解到的新情报,也包括学习到的新知识.这就要求知识图谱必须是“活”的,做到外部实时更新+内部认知改变.3)“融合”难题,就是与神经元网络的融合知识表示.知识图谱属于符号主义,效率高但能够表达的知识有限,怎么与神经元网络融合到一起,将两者的优点结合起来?解决“融合” 难题,需要将符号主义、连接主义甚至行为主义方法结合起来.DeepMind 公司研究将知识图谱与深度学习结合起来,形成“图网络”.许多学者也在研究图神经网络(Graph Neural Networks,GNN),用深度学习方法处理图谱.比如参考人的“快思考”和“慢思考”两种思维机制,把直觉系统与推理系统结合,建立图神经网络,这可以看成是“认知图谱”,实际就是图网络+推理.
还有一种方法是决策树和神经网络的结合,面向具体对象的决策行为学习与知识图谱.越高层的决策越抽象,越应该基于人类知识已知的因果.比如加州大学的“基于神经网络的决策树(Neural-Backed Decision Trees,NBDT)” 项目,它用神经网络进行低层次决策,而用决策树保持高层次的可解释性,兼顾准确性和可理解性[8].当建立图谱的时候,“理解”也就建立起来了.这提示:两者的结合,才能更好地适应指挥决策的特点[9].
2.5 决策智能如何获得
作战指挥决策是复杂智能行为,涉及到不同领域、不同专业,仅依靠训练单一“超级智能体”来实现是不可行的.原因有:1)有监督的深度学习样本很少,而且很难表达和训练;2)强化学习的奖惩函数在指挥层面是一个难题;3)各种决策准则在多目标下很难协调,还可能会相互制约;4)可能还需要“人”的介入,也需要进行协同和协调.
在指挥决策中,不管是理性决策(运筹与规划),还是经验决策(数据与灵感),实际上都是“涌现”出来的.根据复杂系统理论,“涌现” 的产生可以在简单条件下实现:1)只需感知局部的简单运算,不需要通晓全局,这样才不会导致僵化;2)要有足够多的智能体,并以非线性方式交互,这样行为才不会机械;3)创新产生在混沌和智慧的边缘且动态平衡,这样才会具有创造性.事实上,根据哥德尔定理,即使有更多的神经元网络参数,智能也只能在上一层次中涌现.
指挥决策也是复杂系统,只能靠多种适应、相关、因果和协同过程的非线性交互和综合,复杂智能才会涌现出来.主要是因为:1)这是多智能体交互的综合结果,通过非线性交互和群体协同,可以弥补简单线性算法的不足,既尊重个体,又有协调,还可能产生创新;2)这是采取“封闭”策略的结果,这必然导致系统会由很多智能体组成,减少个体难度,但需要共同完成复杂决策任务;3)联合指挥机构本就是群体决策,军兵种、专业、席位甚至个人都会是独立的“智能体”.所以,实现复杂决策需要很多个任务规划或神经元网络的智能体共同完成.
AlphaStar 中也采用了多智能体,采用基于多智能体强化学习方法,对不同任务进行独立处理,并采用多智能体组织联赛进行优化训练,这是区别于前代AlphaGo、AlphaZero 的一个重要的技术创新.智能决策需要将“OODA 环”转化为“OODA 螺旋”(如图5所示).把“学习”引入OODA 环中,使博弈具有了学习经验积累的过程,避免了“机械反馈式”简单循环.反应行动决策、战术行动决策、战役行动决策,3 个层次的内容是不一样,每一层学习上升一级,这种学习过程本身就是个螺旋过程.
图5 OODA 螺旋Fig.5 OODA helix
2.6 智能决策如何实现
自主智能决策有3 个环节:态势理解、行动决策、综合控制,即自主对复杂态势作出判断(目标识别、威胁估计等),并作出科学决策(局部方案生成),根据总目标对所有OODA 环实施全局优化(选择).这个过程需要一个起点,就是从“战场”“知识”和“决策”的抽象表征开始,没有表征就没有认知模型.
在解决指挥智能决策问题时,不能忘记已有科学方法,比如已有的线性规划、非线性规划、动态规划以及其他所有的科学方法,这些是作战智能决策的基础.决策就是根据变化,不断生成方案并优化的选择过程:理解上级决心,生成解决方案,选择最优方案.这些过程过去都有,如何组合起来才是最重要的.越是高层的决策,抽象过程就越多,最终其实就是各种“选择”“组合”和“调度”.高层“智能”可能是从众多选择、多层次综合中涌现出来的.
自主态势理解,是感知态势并自主得出对当前态势的理解和判断,是基于形式化知识基础与经验、直觉的结合,是一个“形式化知识+非形式化知识”的过程(如图6所示).在这个过程中,需要关注注意力机制和因果关系.
自主行动决策基于“科学化运筹+智能化决策”,是“科学+艺术”的结合.它是根据态势判断自主作出决策并下达行动命令,是科学运筹(自动)与智能辅助(自主)的结合.需要注意的是,决策中有许多只是运筹计算,并不需要真正的“智能”.
“智能”如何才能“涌现”出来?就是“局部优化+ 全局平衡+ 控制调度”,进而导致群体智能涌现.我们有很多个大大小小、相互嵌套、对抗的OODA环,跟踪每个实体、行动和效果,并调度和选择之后,分层次、分阶段、分不同目标进行调度运行,就有可能综合涌现出某种总体效果.在这个过程中,“例外”处理(权衡、选择或概括)以及“目标”调整(如根据SAGE 选择)也是非常重要的.
2.7 其余6 个难题
难题7:智能决策必须可解释?结论是有些可以解释,有些解释不了,不要强求所有的决策都可解释.
难题8:智能决策可否被信任?这个很重要,不信任怎么决策?
难题9:“智能系统”可否交钥匙?
难题10:“智能水平”如何评?
难题11:“智能程度”如何测?
难题12:“智能对手”是否一样?结论是不一样,蓝军和红军无论从技术上还是从系统上都完全不是一个概念,虽然有些方面很相像.
图6 自主态势理解过程Fig.6 Autonomous situation understanding process
3 结论
1)指挥决策智能目前只能在封闭场景内做到.由于决策空间指数级放大,无论是算力还是探索,既缺乏数据,也缺乏模型,至少近期限于条件限制,只能封闭应用场景,并用多智能体分别解决.
2)指挥决策应该是运筹算法和智能发现的综合.运筹规划和规则反映的本来就是“智能”的结果,没必要重新学习.任何决策的机器学习应该不是从零开始,而是必须有个学习起点.
3)决策智能的核心集中在对“例外”的处理,这是很重要的.我们要通过不同类型的智能体完成不同的工作,通过充分交互才能涌现真正的智能.目前只能解决有限问题,经费和资源也有限,所以必须突出重点.
决策智能还需要跨过4 道“大坎”.第1 道坎:可解释性.作战决策必须建立在可信赖的基础上,没有可解释性,就没有信赖.但复杂系统本质上是不可完全解释的,只能趋近“尽可解释”.第2 道坎:终身学习.“现实”决策与“围棋”决策截然不同,需要不断适应环境和学习.第3 道坎:机器常识.人类决策不是“就事论事”,常识是基础的基础,但常识又如何组织?第4 道坎:可被信任.到了战场上,你真的信任机器吗?出了问题算谁的责任?
总的来说,决策智能从游戏到作战,还有很长的路要走.好在现在已经起步了,希望将来会有比较好的、比较大的进展.