美国:“第三次抵消”剑指人工智能
2017-12-06StrategicStudiesInstitute
□文/Strategic Studies Institute
美国:“第三次抵消”剑指人工智能
□文/Strategic Studies Institute
AI,将改变未来的一切,包括军事方面。近日,美国陆军军事学院(U.S.Army War College)旗下的战略研究智库Strategic Studies Institute(SSI)出版了一本名为《比你想得更近:美军第三次抵消的战略意义》(CLOSER THAN YOU THINK∶ The Implications of the Third Offset Strategy for the U.S. Army)的重磅报告。
报告大部分内容均围绕人工智能以及相关应用阐述对美国军事的战略意义。本刊挑选重点内容进行了编译。
围棋与人工智能:战略决策的潜力
相信大家都知道,围棋(Go)是世界上最古老的棋盘游戏。在一个19×19线的方格游戏棋盘上,两名玩家各执白色棋子或黑色棋子,轮番落子。将对方的棋子包围起来,就能够将这些棋子缴获。在游戏结束时,在棋盘上包围的空间最多且被缴获棋子数目最少的一方玩家获胜。其实,可以这样说,围棋的总体目标是掌握主动权,在戳中对手弱点的同时最大限度地发挥自己的优势,从而实现战略和战术上的包围,而不足之处就是导致了一个稳定和平衡的局面。
虽然看起来很简单,但实际上围棋是相当复杂的。它是一个涵盖主动性、策略性、平衡性以及人类想要控制棋盘地理位置的意志冲突性游戏。围棋,本质上来说就是一个具有2500年历史的“抽象战争模拟”。因此,一些著名的政治思想家认为,围棋是理解地缘政治和战略的可行性模式。然而,很少有人知道该如何将其应用于自己的决策中。他们可以把围棋看成是具有说明性的、内容丰富的,甚至让人大开眼界的事物,但却无法或是不愿意采取下一步措施,学习围棋所教授的知识,以便将其应用于自己的战略思维中。将人类和计算机化的人工智能结合起来是一个潜在的解决方案,它可以使人类在不需要经验或深入研究的情况下,就像专家一样,在围棋或类似的决策过程中充当专家。而最近在AI领域所取得的进展在不断表明,现如今,这些是可能实现的。
2016年,一个计算机程序成功地击败了两名世界上最好的围棋选手,引起人们的极大关注,这个程序就是AlphaGo,该程序是由谷歌旗下的人工智能研究公司Deepmind的计算机科学家编写的。是的,AlphaGo做到了这一点,但这并不是通过预先编程的游戏专家知识,而是通过从专家玩家对弈的游戏中进行学习,并不断通过自我对弈以实现能力的自我提高。这是一种既具有革命性又意义深远的做法。虽然人工智能在很多地方都能够发挥作用,但是它在围棋这种古老的战略游戏中的应用表明了它是如何帮助改善外交和安全策略决策的。把围棋的战略经验与人工智能结合起来,可以使这些检验更加广泛地得以应用,并在不需要文化背景或游戏专业技能的情况下提高决策能力。而这将使人类决策者能够更加专注于自己的长处并克服其认知上的弱点。通过创建一个基于围棋框架的世界模型,像AlphaGo这样的AI算法就可以成为那个世界的专家,理解一个给定的情况,然后在很多可能的行动方针(COA)中展望未来,以帮助人类决策者确定哪一个下一步行动将能够最好地实现其目标。通过与人类决策者合作,进行更快、更深入、更准确的思考,这种类型的人工智能可以为那些最愿意使用它的人提供决定性的战略优势。
人机协同决策
莫拉维克悖论(Moravec’s Paradox)指出,人类毫不费力就可以做成的事情,对于计算机来说是非常困难的。尤其是在运动技能、视觉或音频识别等基本任务更是如此。其实,这个说法反过来也是正确的,特别是在涉及到人类的认知思维的时候。一个复杂的战略环境可能会很(太)难让人类的头脑进行准确的处理。因为在一个情况中,可能会有太多的信息、太多的复杂性以及太多的变化。而这些却正是战略决策者所必须操作的确切环境。在这种情况下,他们承担不起犯错所带来的后果,也不能屈服于人类决策这个所固有的弱点。而这正是人机合作所能完善的地方。将AI计算机思维与人类思维结合在一起、将人类的优势与AI的优势结合起来,从而弥补两者之间的弱点。
其中,人工智能可能会遇到的难题是,当它遇到超出其学习经验或模型的情况时,除了数据库或固有编程之外,它可能很难进行创造性的思考。与此同时,它可能也无法进行伦理思考,特别是在最具伦理性的解决方案可能不是最高效或最有效的解决方案的情况下。另外,AI需要制定一个为之奋斗的目标(AI不是做白日梦)。这正是人机协作的人性化部分。在这种人机合作的模式中,人类将提供目标、创造力和伦理思维,而人工智能将提供自学得来的经验、直觉和预测能力。一个汇聚了这些元素的算法就是实现突破的关键,而正是这些使得AlphaGo超出了世界上最好的围棋选手。
右图左边的地图显示了一个基于欧洲和中东的相对影响的概念图构建的位置。白色代表美国和北大西洋公约组织(NATO),黑色代表俄罗斯和俄罗斯的盟友。右侧的地图显示了一个相对简单的围棋计算机程序操作的结果,它比AlphaGo要简单得多,通过计算机自我对弈来放置黑白位置。虽然这个非常基本的围棋模型有一些局限性,但是通过在中东、北非和北欧运用额外的影响力活动,计算机自我对弈确实意味着对俄罗斯的战略有利。它还强调,美国和北约应该在整个欧洲和中东加强自己的影响力。这个简单的实验说明了围棋作为在战略环境中理解和做出决策的基础和适用性。
通过人工智能进行的战略决策
像AlphaGo一样,一个决策AI工具将由三种思维组成。第一种是经验思维,它是基于一个经由人类战略家的经验、学说和范例进行训练的人工神经网络得到的,能够识别特定领域内的专家动作。其次是一个直觉思维,它是基于相关游戏模型,由一个经由强化学习训练的人工神经网络建立的,能够使用一个奖励函数,根据人类指定的目的或目标,从失败的情况中分辨出获胜的位置。而第三则是预测思维,它将利用经验和直觉思维来缩小可能的选项,预测多种可能的未来事件序列,并提出建议,从而实现既定的目标。
覆盖在欧洲和中东地图上的围棋游戏
可以说,前两个思维永远是处于学习状态的。经验思维将接收信息、情报和其他相关信息的持续更新;直觉思维将不断地通过强化学习自我对弈以及奖励标准来进行改进,其中,奖励标准能够随着目标的改变而更新;而预测思维将继续运行模拟,并随着情况的发展更新成功的可能性。它将不断地对决策树进行扩展,以涵盖更多可能的操作,并提高先前评估逼真度。其实,这就和人类的战略决策一样,总体的概念就是一个持续进行的评估和改进的循环。
建议
作为第三次抵消战略(Third Offset Strategy)的一部分,国防部(the Department of Defense,DoD)应该资助相关研究和开发工作,这将使得AI支持的人机协同成为战略决策的一部分。另外还要努力尝试将人工智能集成到各个阶层的决策过程中。这些努力应该是循序渐进的、在尝试更为复杂的方法之前想要展示其基本能力。
国防部和军队应该开始进行快速的原型设计,以确定AI的哪些方面能够取得最短期的成功。他们应该资助程序员、战略专家和军事专家小组,以探索这种AI辅助决策方法的可能性。对人机协作过程的研究应该确定集成、训练和扩展这些AI工具的最佳方式。使用这些人工智能工具的组织应该应用变更管理原则,以将其纳入到它们的过程和文化中。
人工智能的真正力量将在于把人脑与人工智能的结合过程。这种人机协作将把目标设定、创造力和道德思考的人类优势与通过自学的经验、直觉和深度预测得到的人工智能的理性思考结合起来。一个通过自学AI将人机协作涵盖在内的决策过程将克服人类决策中所固有的弱点,并为那些使用它的人提供独特和决定性的优势,而这些是那些不使用它的人所不具备的。这可以用来创建一个实时的预测COP,它可以为决策者提供下一步的最佳行动,同时预测对手的下一步动向。它可以帮助各级战略家迅速制定行动计划,并随着事实的变化迅速更新这些计划。最终,通过与人类决策者一起进行更快速、更深入、更准确的思考,这种类型的AI将为那些最愿意使用它的人提供决定性的战略优势。
博伊德周期框架:将人工智能集成到军事行动中
长期以来,美军在实施新兴革命技术方面一直处于领先地位。日益增长的自动驾驶汽车的使用就是一个很明显的例子。这些系统为美军提供了前所未有的态势感知(situational awareness)和作战能力。然而,有迹象表明,这些成熟的IT技术的采用尚未充分发挥其潜力。目前,自相矛盾的是,这些自动系统的使用广泛地依赖于用人力资本来对其进行维护,并对其产生的数据进行处理。
随着信息时代的日益成熟,处理和提炼信息的能力可能成为其新的界定特征。将信息收集、通信、存储和处理完全集成到及时而果断的行动中的能力,可能会产生新的技术和概念上的优势。而当这些技术体现在人工智能和自主系统发展中时,就可能累积起来形成所谓的第三次抵消(Third Offset)。然而,实现第三次抵消并不是必然的结果。
如果想要利用人工智能和自动系统的优势,这将需要更充分地集成到决策过程(循环)中,并增强对其在没有人工干预的情况下采取行动的能力的信任。为了检验它们在决策循环中的集成,博伊德循环(Boyd loop)可谓是探索AI系统的理想工具。博伊德循环相对简单,也被称为观察、定向、决定和行动(OODA)循环。其直观的四个步骤易于理解,并与人工智能的前四个主要元素——感知、理解、预测和操作(以及学习)紧密结合。OODA循环提供了一个清晰而明显的框架,以探索在竞争的军事环境中集成人工智能系统的意义。
结论
在文中,我们探讨了AI系统是如何执行四个主要功能的:感知、理解、预测(和选择)和操作(行动)。然后对在OODA决策循环中对这些功能进行检查。OODA循环包含四个主要步骤:观察、定向、决定和行动,与AI系统的上述四个要素紧密结合,并提供了一种未来人工智能系统在军事行动中应用的方法。
通过这个视角,我们可以发现,未来人工智能系统的集成有可能渗透到整个军事行动中。在这项研究中发现的关键问题涉及开发AI系统和应用程序的清晰类别的潜在需求。与此同时,这项研究也为未来的军事行动中人工智能系统的集成建立了一个连贯的框架。