导师带徒式智能指挥决策应用模式及关键技术*
2023-02-01金欣
金欣
(南京电子工程研究所 信息系统工程重点实验室,江苏 南京 210007)
0 引言
指挥决策智能化的发展需求,已经提出多年。“十三五”初期,在第3 次人工智能浪潮推动下,在DeepMind 公司研发的AlphaGo[1]和美空军研发的Alpha 空战系统[2]两大重要突破的激励下,国内上下对指挥决策智能化呼声高涨,并将其列入到了各种探索性研究规划布局中。
技术突破催生新的作战概念,而作战概念的发展又牵引着技术发展。近年来在俄乌冲突和美智库报告中出现的认知欺骗战、决策中心战等新型对抗方式,以低透明性、高复杂性、高动态性为制胜手段,旨在利用智能化技术,制造真假难辨的信息和灵活多样的杀伤链组合,令对手陷入认知、决策困境。虽在技术上还面临诸多难题,但一旦实现将对其他国家构成降维打击。如今指挥决策智能化已成为迫在眉睫的需求,从用户单位到工业部门,再到军事院校,都在努力寻求突破。
1 现状
然而,实际发展情况却并不容乐观。美军在C4ISR(command,control,communication,computer,intelligence,surveillance,reconnaissance)系统技术领域独步天下,也是最早开展指挥决策智能化探索的。其2007 年的“深绿”计划[3-7]和2016 年的“指挥官虚拟参谋”计划[8],都是为了探索指挥决策智能化,但都因经费原因被迫中止,推测背后的本质原因可能是人工智能基础理论尚未成熟。因此,美国防高级研究计划局(defense advanced research projects agency,DARPA)近年来在知识推理、智能博弈、可解释AI 等基础领域布局了大量研究,但在应用领域取得的实质性进展仍然集中在情报处理、无人自主、运维保障、作业流程自动化等领域,而态势认知、作战筹划等指挥决策核心领域近乎沉寂状态。在充分认识到指挥决策复杂性之后,DARPA 启动了以可解释、人机互理解为核心的“下一代人工智能”计划,美智库CSBA(center for strategic and budgetary assessments)在决策中心战理论中也提出了“人指挥、机器控制”的思想[9-10]。
国内方面,“十三五”初,围绕人工智能技术在指挥决策领域究竟能做什么展开了大量讨论[11-12],并以各种挑战赛的形式推动了国内技术研究热潮,代表性的如装备发展部举办的智能博弈挑战赛、中国电科集团举办的机器阅读理解挑战赛等。五年来,在知识图谱问答、智能博弈等基础领域,以及情报信息关联推理、无人自主群体智能等应用领域,取得了一批代表性成果[13-14]。但在指挥决策核心领域取得的实质性突破仍然少之又少。渐渐地,国内研究人员也基本认识到指挥决策智能化要走“人机融合”的道路,但究竟怎么融合、融合起来怎么决策,尚未形成有效的方法。
2 问题剖析
指挥决策智能化之所以这么难,有两方面原因:
一方面,指挥决策本身就很难。指挥决策是一门综合性学科,覆盖领域极广。从敌、我、环境的态势综合认知、预测,到任务、目标、兵力、行动、保障、协同等要素的设计规划,再到行动过程中的方案计划临机调整等,都纳入指挥决策的范畴。从单兵到集群再到体系,研究的问题都不一样。庞大的问题域决定了没有统一的智能化技术路线。更重要的是,指挥决策是科学与艺术的结合。力量的精准投送、火力的精准控制、行动的精准协同,这些离不开精确计算。但博弈对抗、尔虞我诈的战争本质,又需要人的经验判断和艺术创造。笔者认为,将指挥决策智能化誉为“军事智能皇冠上的明珠”并不为过。
另一方面,当下主流AI 技术的特点,也与指挥决策领域现状不相吻合。
第1 类是以深度学习为代表的技术,特点是从数据中产生智能。代表性军事应用如侦察图像识别、文本情报理解等。这些领域可获得的数据还是相对成规模的。而在指挥决策领域,数据的采集积累难度很大,主要原因有2 个方面:①数字化建模难。例如态势研判结论、作战构想这类决策产品,大多是用抽象的语言文字描述,没有规范的内涵界定和表达模型。②专业性强。绝大部分指挥决策产品,非专业研究人员难以理解,无法模拟产生可用的训练数据。与缺数据相对的是极为复杂的问题域。指挥决策领域问题的输入变量往往极多。例如敌方意图研判,除了目标活动状态外,还要考虑敌我兵力部署、国际形势等十几维因素,且极难抽象,导致解空间非常庞大。相比之下,可获得的样本数量甚至不及解空间的1‰。对于深度学习技术而言,这是一片极度贫瘠的土壤,难以落地生根。
第2 类是以知识图谱为代表的技术,特点是运用知识产生智能。代表性的军事应用如智能信息问答、情报关联推理等。此类技术擅长从海量信息中挖掘隐藏的关系,和情报领域有着天然的结合。然而,指挥决策领域的知识远不止实体、关系2 种形式,更多的是业务逻辑规则、流程方法、分析框架之类。这些知识从哪里提取?各种教科书、条令规范中写的知识太抽象,只有人能够读懂。机器需要的是可实际操作的知识,而非抽象的“心法”。然而,最难的问题永远在操作层面,往往会细分出很多不同的情况,每种情况下的规则都会有细微差别。人在遇到不同情况时,经验会告诉他应该遵循哪条规则,但在事后没有任务驱动的情况下,要让他把这些细节完完全全地整理出来难度却非常大。
第3 类是以强化学习为代表的技术,特点是从探索试错中产生智能。代表性的军事应用如智能兵棋、智能空战等。强化学习确实能够做到在零样本基础上,通过探索试错产生智能。但目前主要在战术级以下发挥效果,战役级以上未见实质性突破。主要原因有两方面:一是建模问题。越往底层模型越好建,例如飞机、导弹等,都有大量靶场试验数据支撑。而越往上层,任务部队和蓝军的行动规则、行动效果模型都很难建。二是可解释性问题。机器难以将其学到的规则以人类可理解的方式呈现出来。目前主要的途径是用聚类等方法从大量对抗样本中自动挖掘模式规律,再人为提炼出战法规则,但还处在探索阶段。不可解释导致的结果就是“要么机器、要么人”,是一种替代而非合作的关系。然而战争是要付出生命代价的,单凭模拟训练胜率说服指挥员相信AI、为其失误买单是不现实的。
值得一提的是最近爆火的生成式AI 和大型语言模型技术,被普遍认为是迈向通用人工智能的里程碑。但就ChatGPT 的表现来看,具有不可解释性甚至欺骗性,且受技术路线决定,并非短期内能解决的问题,也无法直接用于严肃的指挥决策领域。
缺数据、缺知识、缺模型,让大部分主流AI 技术无法落地。而极高的可信度、可解释要求,又击中了主流AI 的“软肋”。这就是指挥决策智能化面临的尴尬。现在,大部分人都认同指挥决策智能化要走“人机融合”的路线。但“融合”并非简单的结合。在指挥决策业务背景下,“融”字究竟该如何体现,没有深刻的业务理解,不容易说清楚。
3 导师带徒式智能指挥决策
导师带徒或示教学习是人类学习模式中历史非常悠久的一种,早在人类有数据记载、有知识提炼、开始建立抽象模型之前,这种学习模式就已广泛应用了。它对大规模数据、知识、模型没有苛刻的要求,却能让学生快速上手。导师的水平虽然有限,但传授的知识却很实用,能直接解决实际问题。本文根据对指挥决策领域问题的理解,基于知识图谱、强化学习、聊天机器人等前沿技术,提出“学徒式知识提炼”“授徒式博弈推演”2 套导师带徒模式。
3.1 学徒式知识提炼
与缺数据相比,缺知识的情况相对好一些。指挥人员在平时工作和训练中会不断摸索积累经验知识,问题是如何将其提炼出来。知识不易提炼才是专家系统难以普及的根本原因。让指挥员将心中的知识体系完整地描述出来非常困难。即便是经验丰富的指挥员,千言万语落到纸面上,只能变为抽象的文字、宏观的概念,落实到具体应用还要靠个人理解。然而,面对特定任务场景、特定战场情况,指挥员很容易说出他的判断和决策是如何考虑的。因为一旦问题具体明确了,规则也就是具体明确的,只是这个规则可能仅适用于这一特定问题,但至少是一条能够解决实际问题的、机器可操作的知识。因此我们需要智能化系统扮演一个聪明的“学徒”,陪在指挥人员“导师”身边虚心求教,将他心中的知识一点点套出来,一个例子如表1所示。
表1 学徒式知识提炼示例1Table 1 Example 1 of apprentice-support knowledge extraction
通过这种方式,可以结合业务场景,提炼出一条条“碎片化”知识。因为与任务场景相关度高,暂且称之“场景知识”。在一定范围内,场景知识可以提炼成通用知识。例如下次遇到的敌方兵力构成和队形与此次稍有变化,但导师还是判断为同样战术,就可以对这条规则进行泛化,适应一类情况。
这种方法还有一个好处,可将每次提炼的知识,与对应的实际案例记录下来,便于后续追溯和查证。后续使用这条规则的人就可以知道这条规则是谁提出来的、他的权威性如何、是针对什么情况提炼出来的、是否适用于当前情况等。同时,记录在案也能降低规则提炼的随意性。
在掌握一些场景知识的基础上,学徒可以参与导师的指挥决策作业过程,运用已掌握的知识与导师实际的判断和决策相印证,发现矛盾并主动提出反问,引导导师发现已有知识存在的漏洞,并进一步细化完善,一个例子如表2 所示。
表2 学徒式知识提炼示例2Table 2 Example 2 of apprentice-support knowledge extraction
虽然看上去,这种方式增加了导师的工作负担,但提炼知识的同时,也会加深他的理解和思考,形成的知识体系既是学生的财富,也是导师的财富。其实知识提炼难还有一个原因,指挥人员也在不断摸索规则知识。学徒的出现可在一定程度上辅助、促进导师的摸索提炼过程,促进实现人机共同“耕种”智能、积累知识的发展模式。
学徒可以选择在导师忙于处置突发情况时选择静默,而将问题记录下来留待事后空闲时间再提出。此时导师仍沉浸在处置成功的兴奋或失败的总结中,此时套他的话不但不会引起反感,还能第一时间将其最鲜活的思路沉淀下来。
此外,如果这个学徒还能学会各种话术,做到察言观色、循循善诱,就可以让导师心甘情愿地去教他。大型语言模型中的最新成果ChatGPT 在情境上下文理解、聊天话术运用方面能力卓越,可让指挥人员产生像人类学徒一样的代入感。并且其人类反馈学习的理念也与学徒理念如出一辙,多轮对话的Prompt 教学模式已显雏形。这种技术能够运用进来,“师徒”间的交流就会变得更加轻松。在调节指挥人员情绪,为其减压的同时,还能学到知识,甚至还能加深人的思考。
在每天的值班工作和演练中,通过这种方式可以积累很多场景知识。然后再整理完善、举一反三、融会贯通。较之过去专家系统“自顶向下”的知识体系构建模式,这种“自底向上”的模式可操作性更强,不需要大数据积累,可以从零开始,一点点学习构建知识体系。
学徒式知识提炼还能促进新老指挥人员之间的经验传承。在过去,老参谋的经验只可意会不可言传,新参谋上岗后需要手把手带很长时间。现在,机器可以在和老参谋的共事中学习经验知识,并能以可解释的方式向用户展示所学知识,从而在后续任务中指导新参谋,起到传帮带的作用。
实现上述愿景,要开展以下几方面技术攻关:
(1)面向指挥人员的聊天机器人技术。聊天机器人技术现已发展到较高水平,但要结合指挥业务背景,准确理解指挥人员的专业表达,结合作战任务上下文理解深层含义,掌握“套出”专业知识的特定话术,其中还有很多技术难题需要解决。
(2)知识学习提炼技术。如何对指挥领域的战法规则、业务流程等知识进行结构化、形式化表达;如何从观察指挥人员和作业过程和结果中学习经验知识;如何结合新的作业任务,运用已掌握的知识发现矛盾,并在此基础上引导指挥人员思考完善,涉及到大量知识学习技术。
(3)知识融合技术。指挥决策领域的知识体系应该如何构建,包含哪些方面的知识,这是首先需要研究的。如何基于大量碎片化场景知识,关联印证、寻找共性、挖掘规律、归纳总结形成完整、一致的知识体系,需要大量借鉴目前在知识图谱领域的技术成果,并将其发展到更高的水平,确保指挥决策领域知识的准确性和一致性。
(4)知识可解释推理技术。如何运用学到的知识体系对新的任务进行推理求解,产生机器的判断结论和决策建议,同时将背后用到的知识和推导过程可视化地呈现出来。这其中既涉及到知识推理的可解释问题,也涉及到用户心理学的问题,需要结合具体的业务问题具体设计可解释分析内容的展现方式,突破其中涉及的关键技术。
3.2 授徒式博弈推演
探索试错是指挥决策过程中非常重要的一种思维方式,能帮助指挥人员发现和解决问题、探寻潜在的优化。但是缺乏高层级作战指挥模型,是导致探索试错抛不开“人在回路”,难以大规模重复开展的症结所在。
众所周知,强化学习的前提是对问题环境进行建模。战术级以下的问题,输入输出参数具体明确,战场装备和环境模型是简化的物理模型。而战役级以上的问题,输入(例如上级意图)和输出(例如作战构想)都没有明确的定义,指挥对象(通常是集团军规模)的能力模型难以量化,战场环境的模型不可能细到物理级别。无法建模也就无法使用强化学习技术,这是目前智能博弈局限在战术级以下的根本原因。战役级以上的指挥还得靠人。
另一个问题,是对于指挥人员而言,如何运用强化学习训练出来的AI?麻省理工学院的最新研究指出[15],强化学习训练的AI 可以完虐人类玩家,但却并不是人类玩家的最佳队友,甚至不如固定规则做得好。而原因是其对人类队友给出的暗示不予理睬,而其表现的行为又让队友不能理解。换个作战指挥的例子,如果指挥员把他的想法告诉一个用强化学习训练的AI:“按我的思路:先派支部队到这里去引诱,把他的主力吸引到这里,我方主力绕到它背后,打掉它的后援,让其首尾不能相顾,给他来个关门打狗。照这个思路,用哪支部队去引诱,什么时间、在哪里最好,你帮我探索探索”。这是目前指挥人员希望机器发挥的作用。遗憾的是,强化学习训练的AI 做不到这点,它听不懂人的意图,也不会去改变自己学到的模型。而它学到的模型,人看不懂,也改不了。不能合作,是强化学习技术应用受限的关键,它训练的AI 可以扮演一个得力的下级单元,或者聪明的对手,而恰恰不能扮演一个贴心的顾问。
因此,解决问题的关键,是要让机器学会与指挥人员合作,而“师徒关系”是对这种合作关系比较贴切的定位,即在导师思路的引导下去探索试错。核心是一套工具,能够将导师对于“这场仗该怎么打、对手可能怎么变、我方该怎么应对”等策略翻译成机器能够理解的语言,然后成为机器探索试错中用到的知识或条件约束。这种策略通常是比较宏观的,不会过多限定细节。其本质上可以理解为前面说的场景知识,告诉机器在哪一类情况下该如何行动。用知识描述导师的策略,导入到系统中就完成了“教授”的过程。
在导师策略指导下,机器可以运用强化学习训练的AI 单元、AI 群队,灵活地开展行动,同时探索各种各样的变量,寻求最佳的细节设定。导师的策略为机器限定了探索空间,可帮助它少走弯路。而从指挥员的角度,可以将细节放手交给机器去探索试错,发挥它的强项。前面说到了强化学习的可解释性问题,而这里将其用在指挥员并不关心的下级作战单元/群队层面,恰恰可以回避可解释性问题。
这样一来,人可以被彻底移出推演环路,只要事先把策略定好,剩下的交给机器。机器可以完成数百万次的探索试错,可以尝试各种敌我策略选项、随机战场事件、环境随机变化、随机行动效果等不确定因素对结果的影响,甚至可以通过启发式搜索提高探索效率。通过大量探索,可以确定一些细节的最佳设定,比如诱敌的最佳兵力、时机、阵位等,并通过统计数据告诉指挥人员为什么这些设置是最佳的,从而让指挥人员相信机器的建议。一个例子如表3 所示。
表3 授徒式博弈推演示例Table 3 Example of apprentice-support knowledge extraction
授徒式博弈推演是将指挥员的艺术与机器的算力相结合的一种可能途径,能够形成优势互补,同时也能拉近指挥员和机器的距离。机器可以从指挥员的行动策略框架中学习到具体问题知识,而指挥员也可以通过机器的探索试错加深对作战问题的理解,发现新的战法知识。伴随着人与机器的长期磨合,相互学习带来共同提升。
实现上述愿景,要开展以下几方面技术攻关:
(1)策略构想的知识表示技术。如何将指挥员作战构想中描述的各种作战活动流程、条件判断规则、策略选择规则、运筹计算方法等内容,采用知识的形式结构化地表达出来,并能够将草图、文字等形式描绘的作战构想自动解析成结构化的知识,可为机器自动执行,文献[16]在这种知识表达方法上做出了初步的探索。
(2)混合智能博弈对抗推演技术。如何将知识规则表示的策略构想,与网络模型形态的单元/群体智能相结合,采用战役级知识+战术级智能体的方式,2 种不同形态的智能如何有机结合、避免冲突、高效运作,共同完成博弈推演过程中的红蓝对抗行动指挥,从单元到群体再到体系,逼真模拟真实的红蓝对抗行为和过程。
(3)基于启发式搜索的并行推演技术。如何充分利用计算存储资源,通过大规模并行机制、高倍速仿真技术、多分支推演管控技术、抗毁容灾备份技术等,实现百万级以上规模的大样本推演,让指挥员在提出构想之后的数分钟到数十分钟内就能得到反馈。如何利用启发式搜索技术引导这种大规模并行推演,甚至让人看到机器自主探索的过程,并随时提供探索方向的引导。
(4)大数据分析挖掘技术。如何从海量推演数据中挖掘出对指挥人员有价值的信息,包括评估作战构想/方案的目标达成概率、平均战损比,寻找关键影响因素,挖掘关键策略的优选项、探索优化的行动方案等,为指挥员提供基于大数据的深层次见解,帮助指挥员优化作战构想、制定最佳行动计划。
4 结束语
作为军事智能皇冠上的明珠,指挥决策智能化发展已到了迎难而上的关键阶段。然而,缺数据、缺知识、缺模型的现状,导致当下主流AI 技术不能够有效解决指挥决策智能化难题。在AI 技术短期内难以获得革命性突破的前提下,指挥决策智能化需要走人机融合的路线。近年来,这一方向得到了广泛关注,但主要研究还是聚焦在基础问题层面。在指挥决策领域究竟如何实现人机融合,并没有形成有效的方法途径。
本文参考人类常见的教学模式,提出了导师带徒式的指挥决策智能化发展理念。在此基础上,围绕知识、博弈2 条主要技术路线,提出了“学徒式知识提炼”“授徒式博弈推演”2 套导师带徒式指挥决策应用模式,分别提供了示例性的解释说明,并指出了需要突破的关键技术,对指挥决策智能化攻坚具有一定指导意义。