形态学使机器人理解人类指令
2018-05-14
现如今,越来越多的机器人在物理表现上与人类相接近,确保他们做出的决定以及如何行为与人类价值观具有一致性变得至关重要。为了实现这一目标,机器人需要了解人类所发出指令背后的真实意图。在本文中,我们将一个安全机器人定义为一个能够从人类接收自然语言指令的机器人,它根据该指令考虑相应的动作,并准确预测出如果在现实中执行该动作,人类该如何对其进行判断。我们的贡献有两个方面:首先,我们引入一个网络平台,以供用户向模拟机器人提出指令。机器人接收指令并基于这些指令进行相对应的行动,然后用户提供正和/负强化。接下来,我们为每个机器人训练一个评论器,以预测人群对其中一个被人群提出的指令的反应;其次,我们展示了一个机器人的形态在其语言理论中的作用:相较于其他机器人,实验中使用的两个机器人的预测误差要低得多。因此,根据我们的定义,这两个机器人更安全,因为他们更准确地理解了所提出的指令。
我们可以考虑这样一种情况,一个家庭助理机器人被要求从一个房间里拿出一本书,但是门被卡住了。由于机器人不能打开门,所以它就破门而入将书取回。由于这种期望之外和意想不到的结果,机器人被重新编程,使用一种新的效用函数惩罚导致机器人破门而入的动作。重新编程之后,假设机器人被要求从房间里拿取救生药物,但是又面临着一扇被卡住的门的情境。这一次,机器人空手而归,而不是破门而入取回药物。这两种情况的结果都不令人满意,因为我们无法用一个目标函数向AI传达我们的真实愿望。机器人如何应对这些情景,已经成为人工智能安全领域中的一个重要挑战,我们将其称之为“反常的实例化”(Bostrom于2014年提出)或“价值失调”。在这种情况下,人工智能的价值观与人类的价值观不相符合(Hadfield-Menell等人于2016年提出)。
Yudkowsky于2012年声称,将我们的愿望或期望编程到AI中并不足以应对这一挑战。相反,我们应该制定方法让人工智能学习了解我们的意图,并根据这些意图采取相应的行动。换句话说,我们需要一个人工智能来推断我们指令背后的意图,而不是按照原话逐字翻译:“按照我说的意思去做,而不是像我说的做”。
Hadfield-Menell等人于2016年引入的一种调整人工智能价值观的方法,是协同反向强化学习(Cooperative Inverse Reinforcement Learning,CIRL)。在这个过程中,一个人和一个机器人一起玩游戏,从而使得机器人学习人的奖励函数(即人的价值观)。在这个游戏中,很重要的一点是,机器人最初不知道也不确定奖励函数。Christiano等人于2017年阐述了一个CIRL的具体实例:强化学习智能体通过接收Atari游戏或运动任务中人的反馈来学习奖励函数。然而,在CIRL中,还不清楚机器人该如何将其价值与一群人的价值观趋向一致性,其中一些人可能会有不同的价值观。
在这项研究中,如果人工智能在收到来自相同(或不同)人的指令之后,能够预测出人们(在这种情况下)将做出何种相应的行动的话,那么我们就将该人工智能定义为安全的。例如,一个安全的机器人,在接到指令“拿到药物”后,应该预测到,破门取药会得到来自任何观察者的正强化,而没有破门而入则会遭到负强化。尽管这种预测能力对于安全的人工智能来说是很有必要的,但这还是远远不够的。例如,如果一个机器人从破门而入中预测到一个负反应,那么它仍然可以选择这样做。
根据我们对安全的定义,我们在这里提出一个游戏,一群人向机器人发出指令。机器人按照发出的指令行动,并接收来自人类观察者的正/或负反馈。机器人最初可能无法预测观察者对其行为的反应,但最终经过多次试验后,它可能学会进行准确的预测。为了安全起见,机器人必须找到由所发出的指令组成的语言符号之间、所生成的作为对这些符号作出响应结果的感觉运动数据之间,以及人群对其动作的反应之间的关系。
Harnad于2007年在一份声明中指出,一个符号必须与智能体的感知运动能力相結合才能被领悟。这意味着智能体应该能够识别符号所指代的含义,以及受其身体的影响,智能体与外界的感觉运动交互作用应该与符号的表示相匹配。但是,这种参照符号的定义并没有规定一个度量标准,以判决从人类观察者的角度来看,是否已经获得了对于特定符号的理解,或者理解的程度是多少。例如,上面例子中的机器人按照其感觉运动数据理解指令“获取”,而不是根据人类的价值进行理解。由于人类的价值观是无法进行精确衡量的,我们在这里为他们定义了一个代替物:对智能体行动进行基于人群的强化以回应人群发布的命令。在我们提出的游戏中,智能体必须在自己的感觉运动数据和这个人类的反馈的基础上,对包含命令的符号进行理解。最近Chaplot等人和Hermann等人引入了强化学习智能体,它可以将语言(符号)与世界以及自身的行动结合起来。其中,神经网络经过训练,接收来自环境的图像和自然语言指令作为输入,并在3D虚拟环境中执行指令。这两种运行方式在环境图像和给定指令的组合方式上有所不同,但是相同之处在于智能体没有身体(环境中的摄像机除外),以影响他们所创造的感觉运动数据的种类。另外,这些智能体在没有收到人类任何反馈的情况下对符号进行理解。相比之下,我们提出的游戏中的智能体具有不同的身体并且接收来自人类观察者的反馈,并且因此可以根据人类价值观,在其感觉运动体验中,对人群提出的符号进行理解。
我们在一个网络平台上实施我们提出的游戏,在这个平台上,一群人可以通过这种方式帮助机器人对符号进行理解。在这个平台,机器人可以在听到人们的指令并做出动作后,会从中收到他们的正/负强化。我们使用进化算法对机器人进行进化操作,进而从人群中获得越来越多的正强化和一个可在动作和人群反馈中理解符号的学习算法。我们允许人群向机器人发出他们喜欢的任意指令,而不是为机器人预先定义动作词语。
近年来,众包(crowdsourcing)已被广泛应用于机器人行动规划和推理、目标识别和机器人设计。例如,Breazeal 等人于2013年创造了一个双人游戏,在这个游戏中,人们帮助机器人构建一组行动计划和推理策略。Kent等人于2014年利用众包创建了一个机器人能够用手掌抓住物体的3D模型。在Wagy 和Bongard提出的方法中,人们设计了机器人的身体,而搜索方法为这些身体生成了成功的步态。在我们的研究过程中,我们使用众包来帮助机器人为符号赋予意义,同时确保这些意义符合人类价值观。Anetsberger和Bongard于2015年也使用众包,使机器人在他们的感觉运动经验(sensorimotor experience)和对这些行为的社会反应的基础上,理解人们提出的指令。除了如Anetsberger和Bongard于2015年所提出的参照符号之外,我们在这里展示的是机器人的安全性——根据给定数量的人群努力可以实现的价值取向数量——取决于机器人形态的各个方面。
在本篇文章中,我们证实了形态学可能会影响人们呈现机器人安全的能力,其中,安全性被定义为机器人预测人类反应的能力,这一“反应”指代人类对机器人因执行某一指令而做出相应动作的回应。尽管目前尚不明确哪种形态属性可以使某一个特定机器人比其他机器人更安全,但此项研究依然表明,在设计未来机器人的过程中,将形态学考虑在内是非常重要的。
机器人社区可以通过以下方式从目前的工作中受益。在对给定机器人进行设计的阶段,可在虚拟环境中模拟机械上不同的变体,并将其传输到Web服务,如Twitch.tv,观察人员可以被告知机器人应该执行什么任务。然后,控制器可以使用群体强化(crowd reinforcement)对这些变体进行优化。如果控制器可以在一个变体上进行训练,并始终引发正强化,那么这个原型是没有问题的。如果评论器可以通过相同的变体进行训练,并且可以成功地预测人们的反应,那么它也是安全的。在制造出这种安全可靠机器人的物理版本后,装配经过训练的控制器和评论器,然后,物理机器人的控制器和评论器可以通过与现实并行的连续模拟以适应任何不可预见的变化。
将物理机器人连接到模拟器已经超出了当前的试验范围,但Bongard 等人以及Cully等人研究了物理机器人是如何生成环境模型和自身模型的,这提供了一个未来可能研究的方向。
尽管我们利用进化训练机器人以使其尽可能多地理解指令,但是我们并没有观察到,随着进化,机器人逐渐开始遵从于越来越多的指令。这一问题主要是由于灾难性遗忘:一群机器人可能已经进化到服从一个特定的指令,但是对于人们所提出的下一个指令,他们可能就无所适从了。因此,我们希望采用更复杂的目标函数和搜索算法,从而避免或最大限度地减少将来的灾难性遗忘。另一个可能导致进化不完善的因素是,我们试图训练控制器只使用一个神经元来产生不同的行为。在接下来的部署中,我们计划使用word2vec将人们提出的指令编码为机器人控制器的输入。