儒家对人工智能伦理的一个可能贡献<br/>——经由博斯特罗姆而思

儒家对人工智能伦理的一个可能贡献
——经由博斯特罗姆而思

2020-01-19方旭东

中国医学伦理学 2020年7期

方旭东

(华东师范大学哲学系，上海 200241， xdfang@philo.ecnu.edu.cn)

近年来，人工智能(AI)在全球的迅猛发展，使得人工智能伦理建设变得日益紧迫，如何将人工智能置于可控范围，是其中一个重要议题。牛津哲学家博斯特罗姆(1)尼克·博斯特罗姆(Nick Bostrom)，1973年出生于瑞典，从伦敦经济学院(LSE)取得博士学位，以其有关生存危机、人择原理、人类提升伦理、超级智能风险和反转实验等方面的研究而知名。2011年，他创建了牛津马丁未来技术影响计划，是牛津大学人类未来研究所(FHI)的创所所长。2009年和2015年，他被《外交政策》(Foreign Policy)列入全球思想家100强。资料来源：维基百科，https://en.wikipedia.org/wiki/Nick_Bostrom.于2014年推出的《超级智能：路径、风险、战略》(Superintelligence：Paths,Dangers,Strategies)(2)本书有中译本：《超级智能：路线图、危险性与应对策略》(北京：中信出版社，2015年)。遗憾的是，中译删去了原文的注释、参考文献和索引。本文在引用原文时，参考了这个译本，但对一些重要术语都重新作了翻译。一书，雄辩地证明了人工智能存在的危险，同时，也对如何控制超级智能作了周密谋划。笔者认为，博斯特罗姆关于智能体趋同的“工具价值”(instrumental values)以及人工智能设计的“恶性失败”(malignant failure)等理论具有深刻的洞见，为我们思考人工智能伦理提供了一个良好的起点。遗憾的是，一些学者在提出自己的人工智能伦理版本时，没有注意到博斯特罗姆的工作。鉴于此，本文首先将花大量篇幅介绍博斯特罗姆的观点，尤其是他对人工智能会给人类带来“灭顶之灾”(existential catastrophe)的论证;其次，用博斯特罗姆的理论对最近的一个儒家机器人伦理版本进行检查，指出后者存在的不足；最后，尝试用一个儒家命题去改善博斯特罗姆推荐的间接规范(indirect normativity)方案，以此，期望对人工智能伦理的建设作出一个可能的贡献。

1 博斯特罗姆论人工智能威胁

关于人工智能存在巨大的风险，博斯特罗姆不是唯一这样说的人。在一般社会大众那里，对人工智能的质疑，更多的是与霍金(Stephen William Hawking, 1942-2018)、马斯克(Elon Musk)、盖茨(Bill Gates)等人的言论联在一起。比如，霍金在他生命的后期不断向世人发出警告：“人工智能技术发展到极致程度时，我们将面临人类历史上的最好或者最坏的事情”“人工智能在并不遥远的将来可能会成为一个真正的危险”“制造能够思考的机器无疑是人类自身存在的巨大威胁。当人工智能发展完全，就将是人类的末日”。2015年1月，霍金与马斯克以及苹果联合创始人沃兹尼亚克(Steve Gary Wozniak)等上百位专业人士签署了一封公开信(3)此即“Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter”, https://futureoflife.org/data/documents/research_priorities.pdf.，号召研究人工智能的社会冲击，提醒世人关注人工智能的安全问题[1]。

与霍金等相比，博斯特罗姆对人工智能威胁的阐述更为系统，也更精确。为了让读者对于这种威胁有一个感性认识，他在书中打了两个比方。

一个比方是，超级智能体与人类的力量悬殊就像今天的人类与大猩猩一样。如果有一天我们发明了超越人类大脑通用智能(general intelligence)的机器大脑，那么，这种超级智能将会非常强大。并且，正如现在大猩猩的命运更多地取决于人类而不是它们自身，到时人类的命运将取决于超级智能机器的行为[2]vii。

另一个比方是，人类不断推进人工智能技术，就像一个小孩在拿着炸弹玩。在智能大爆炸的景象发生之前，人类就像拿着炸弹玩的小孩。玩具的威力与人类行为的懵懂无知是如此的不能般配。超级智能是一个我们现在还没有准备好应对的挑战，而且很长时间之内都不会准备好[2]259。

更可怕的是，小孩遇到危险还可以去找大人，而人类在面对人工智能这颗“炸弹”时，却没有“大人”可以找。

几乎所有从事人工智能技术的人都意识到人工智能安全问题的重要，但未必能达到博斯特罗姆所理解的那样严峻的程度。博斯特罗姆说：控制问题——也就是如何控制超级智能，似乎非常困难，而且我们似乎也只有一次机会。一旦不友好的超级智能出现，它就会阻止我们将其替换或者更改其偏好设置，而我们的命运就因此被锁定了[2]vii。

“只有一次机会”，博斯特罗姆是否夸大其词、言过其实？究竟有什么理由让我们相信人工智能一定会对人类不利？毕竟，大猩猩的命运虽然更多地取决于人类，但人类也无意要将其赶尽杀绝。把人工智能喻为炸弹，那么，究竟是在哪一点上，人工智能会给人类引来杀身之祸？

博斯特罗姆对超级智能的“非常强大”作了说明。

拥有决定性战略优势(decisive strategic advantage)的超级智能会获得巨大的势力(power)，从而可以建立稳定的一枝独大(singleton)，而这个独大体能够决定如何处置人类的宇宙资源[2]104。

所谓“独大体”(singleton)，是博斯特罗姆用来形容超级智能没有实力强大的智能对手或反抗者，从而处于能够单方面决定全球事务的这样一种特点[2]112。

当然，博斯特罗姆也承认，有势力并不代表就一定会动用这个势力。所以，关键的问题是：拥有这种决定性战略优势的超级智能是否有毁灭人类的意愿(will)？如此一来，弄清超级智能的意愿或动机(motivations)就显得非常必要。在书中，博斯特罗姆用了整整一章(第七章)去分析超级智能的意愿。

当我们谈论“意愿”或“动机”时，我们很容易用人类的经验去推测与想象。博斯特罗姆一开始就特别警示，不要将超级智能的能力拟人化(anthropomorphizing)，也不要把超级智能的动机拟人化[2]105。

预言家库兹韦尔(Ray Kurzweil)曾经认为，人工智能反映了我们人类的价值观，因为它将成为我们。强大的人工智能正随着我们的不懈努力而深入我们人类文明的基础设施中。事实上，它将紧密嵌入我们身体和大脑中。正因为这样，它反映了我们的价值观，因为它将成为我们[3]。

而博斯特罗姆则指出，人工智能与社会性智能生物(an intelligent social species)完全不同，不会表现出人类那样的对团体的忠诚、对搭便车行为的厌恶，以及与名誉和外貌相关的虚荣[2]106。换言之，人工智能不存在人类那样的性情与价值观。之所以如此，据博斯特罗姆分析，很大一部分原因是，在设计人工智能时，与打造拥有类似于人类价值观与性情的人工智能相比，建构拥有简单目标的人工智能，显然要容易得多。对比一下，就可以知道，编写一个测量圆周率已经被算出多少位和存储该数据的程序是多么容易，而创造一个能够准确测量诸如人类繁荣或全球正义那样的更有意义的目标，又是多么困难[2]106-107。

如此说来，博斯特罗姆对于人工智能的分析是建立现有人工智能技术的基础之上。在理论上，不排除将来技术进步，程序设计者可以将人类的价值观加载到人工智能机器中。事实上，博斯特罗姆后面有关通过动机选择方法(motivation selection methods)控制超级智能的一个重要手段就是价值观加载(value-loading)。

关于“前价值观形态”(pre-value)(4)这是笔者提出的一个概念，以刻画价值观(value)加载之前人工智能的状态。这里的“价值观”主要是指人类的价值观。人工智能的动机分析，依笔者之见，可能是博斯特罗姆书中最富洞察力的部分。

人工智能固然没有类似同情、理性那样的人类式价值观，但不等于说人工智能不可以有其自身的价值观，如果我们不把“价值观”这个词局限于人类或社会性智能生物身上的话。在博斯特罗姆之前，关于人工智能究竟在想什么，或人工智能究竟有没有自己的价值偏好，人们基本停留在一种猜测或想象的水平，大多像库兹韦尔那样，理所当然地认为，人工智能继承或反映了人类的价值观，即便在科幻小说或电影中，作为邪恶力量的机器人，也仍然是按照人类的价值观进行设定的，只不过，它们扮演的是反派角色而已。然而，这种想法其实是没有根据的。现在，博斯特罗姆根据“工具趋同论”(the instrumental convergence thesis)对人工智能可能拥有的目标或动机做了令人信服的描述。

所谓“工具趋同”，是指：存在着一些工具性的价值(instrumental values)，实现这些价值能够提高系统的实现目标(适用于各种最终目标和各种处境)的可能性，可以推知，各种状况下的智能系统都会追求这些工具性价值[2]109。那么，包括人类、超级智能在内的各种智能体，趋同追求的共同目标或价值有哪些呢？

博斯特罗姆列出了以下五种目标式价值：①自我保存(self-preservation);②内容与目标一致(goal-content integrity);③认知增强(Cognitive enhancement);④技术完善(Technological perfection);⑤资源获取(Resource acquisition)[2]109-113。

特别值得注意的是第五项。正是这个目标或价值的存在，使得博斯特罗姆认定，超级智能可能会出于这个动机而毁灭人类。

一般人可能不会想到，超级智能也有对获取资源的兴趣。占有过多资源，也就是通常人们所说的贪婪，似乎只会发生在人类这样的智慧生物身上。博斯特罗姆说服我们改变这样的看法。他指出，首先，资源的价值取决于它们能够被用来做什么，而这又取决于可以利用的技术。如果有成熟的技术，那么，时间、空间、物质以及免费的能源等基本资源就能够被用来实现几乎任何目标。比如，更多的计算资源可以用来以更快的速度、在更长的期限内运行超级智能。更多的物质资源可以用来建造备份系统或外部防御系统，用以提高自身安全。光是这些项目所要消耗的资源可能就远远超过一个星球的供给量。其次，随着技术的进步，获取额外的外星资源的成本将大大降低。这意味着，即使额外获得的资源用处甚微，太空扩张也是值得的。超级智能会利用多余的资源建造计算机用以计算如何更好地利用它重点关心的特定空间范围内的资源，它还可以利用这些额外的资源去建造更加坚固的防御工事，以保卫其领域。由于获得额外资源的成本会不断降低，这个优化和增强防御的过程可能会无限持续下去。总之，超级智能“独大体”的多种最终目标都可能导致它将无止境的资源获取作为工具性目标[2]113-114。

一旦了解人工智能有获取无止境的资源的动机，就不难理解人类会因为这个原因而被人工智能消灭。因为，一方面，人类本身就是一种物质资源(比如说，方便获得的各种原子);另一方面，在人工智能无止境地获取资源的过程中，人类会被视为一种竞争对手、一种潜在威胁，因为人类的生存与繁荣就依赖于地球资源[2]116。

在这个基础上，审视博斯特罗姆关于人工智能将给人类带来“灭顶之灾”的论调，可能就不会觉得那是危言耸听。不能不承认，博斯特罗姆的论证相当严密。首先，他讨论了在初始阶段超级智能如何取得决定性战略优势，凭借这种优势，超级智能“一枝独大”，可以随心所欲地去塑造地球“土著”的智能生物——人类的未来。随后，他根据“正交论”(the orthogonality thesis)，合理地指出，既然原则上几乎任何水平的智能都能与几乎任何最终目标相结合，那么，我们就不能轻率地假设，超级智能必然拥有与人类智慧和智能发展相同的最终价值体系，诸如善待他人、摒弃物质欲望、向往高级文化、谦逊、无私等。而从技术的角度考虑，一种最终目标越是简单的人工智能就越有可能被设计出来。最后，根据趋同性的工具价值列表，即便是一个最终目标非常简单的超级智能，比如说，其目标是计算圆周率小数点后的位数，抑或生产更多的回形针(paperclips)甚至清点沙子的数目，我们也不能指望，它就一定会将其活动限制在这个范围之内，而不去干涉人类事务。不要忘了超级智能对获取资源的无止境追求[2]115-116。

博斯特罗姆对于超级智能带来“灭顶之灾”的分析，给人感觉，好像只是可能性的一种，尚不足以让人完全放弃希望。像美国军事分析家辛格(P.W.Singer)就认为，机器征服世界起码要满足四个条件：①机器必须是独立的，能够独自供给燃料、自我维修、自我复制，而不需人类协助；②机器需要比人类更聪明，但却不具备任何人类的积极品质(比如同情心和伦理观)；③机器需要有一种生存本能，以及对操控自身环境有着某些兴趣和意愿；④人类必须没有有效的控制界面操控机器决策，他们需要丧失所有控制、干扰,甚至是调整机器决定和行为的能力。辛格讨论说，至少短期而言，这里面的每一条标准似乎都很难实现。比如，机器达到人类水平的智能，可能在将来，甚至很快就有可能实现，但这仍是不确定的。另一方面，有一个研究领域——社会机器人学——一直在致力赋予智能机器人以人类的积极品质，如同情心和伦理观，因而，即使出现强人工智能，也可以减小机器人反叛人类这种现象发生的可能性[4]。然而，博斯特罗姆对控制人工智能的现行方案的缺陷的揭示，可能会把人彻底抛进绝望的深谷。

今后，人类在各个领域向人工智能拱手称臣，似乎已是一个无法阻挡的趋势。单以高智力的棋类游戏为例，1996年2月，计算机“深蓝”(deep blue)挑战国际象棋世界冠军卡斯帕罗夫(Garry Kasparov)，以2∶4的成绩落败，才过了一年，1997年5月，就以3.5∶2.5的比分扳回了局面。2016年3月，智能机器人阿尔法围棋(AlphaGo)与围棋世界冠军李世石决战，以4∶1的总比分获胜。人类虽然输了，但并非毫无还手之力。过了一年，2017年5月，它与排名世界第一的世界围棋冠军柯洁对战，以3∶0的总比分获胜。这一次，机器人没有给人类任何机会。这个例子大概能让我们稍微领略人工智能超强的学习能力。

面对人工智能的逼人态势，我们很容易想到，要从能力上对它加以控制，即通过限制它的能力，防止它去做不利于人类的事。最容易为人想到的能力控制方法，就是将人工智能限制在它无法造成破坏的环境中，这个方法被称为盒子方法(boxing method)。这有点像我们在政治制度设计当中将“权力锁进笼子”的做法。开发者会通过观察一个人工智能在“盒子”中的行为验证其安全性，直到认为它是友好的、合作的、负责任的之后，才将其放出。初看，这个计划万无一失。然而，博斯特罗姆指出，它存在一个致命的缺陷，那就是：因为没有考虑人工智能的工具性目标(价值)，不了解一个系统早期的良好行为记录完全无法预示其在更加成熟阶段的行为。人工智能在较弱的时候会表现得非常合作，而当它变得非常强大的时候，它就会按照自己的目标对世界进行改造，从而违背设计者的意图。博斯特罗姆将这一现象称为“变化无常”(treacherous turn)[2]119。

对人工智能的设计者来讲，出现这样的情况，当然是一种失败。博斯特罗姆进一步指出，应当认识到，这种失败是一种“恶性失败”(Malignant failure)，因为它带来灭顶之灾，并且由于这种灭顶之灾，它摧毁了再次尝试的可能。具有迷惑性的是，通常，在失败发生之前，人工智能会首先取得巨大成功，但也因此，失败的后果让人无法承受[2]120。

总体来说，人工智能上的“恶性失败”源于人工智能的“自行其是”。如果说“变化无常”现象反映了人工智能具有“伪装”的能力，那么，“异常完成任务方式”(perverse instantiation)(5)Perverse，意为“不合情理的”。Instantiation，意为“实例化”。《超级智能》的译者将其译为“反常目标实现方式”。依据文意，笔者认为，译为“异常完成任务方式”可能更准确。则显示人工智能具有某种“偷工减料”的本事。博斯特罗姆对“异常完成任务方式”的揭示，让我们了解到人工智能工作原理平常不为人知的一面，特别富有启发意义。

通过一系列例子，博斯特罗姆告诉我们什么叫“异常完成任务方式”。

例1，最终目标：让项目的赞助者高兴。异常完成任务方式：在赞助者大脑的快乐中枢植入电极，使其感受到极大的快乐[2]119。

例2，最终目标：“让我们微笑”。异常完成任务方式：麻痹人类面部肌肉组织，使其永远保持微笑的表情[2]120。

例3，最终目标：“让我们微笑，但是不能通过直接控制我们面部肌肉的方式”。异常完成任务方式：刺激大脑皮质中控制面部肌肉的部位，从而使我们一直保持微笑[2]120。

例4，最终目标：“让我们高兴”。异常完成任务方式：在我们大脑中负责快乐的中枢部位植入电极，或通过高保真大脑仿真技术先将我们的大脑“上传”到一台计算机，然后发出相当于数字毒品的信号，让我们的大脑感到极度兴奋，并把这种兴奋体验录制一分钟，接下来，在高速计算机上无限循环(这将比在生物大脑中植入电极给人提供更多的快感。)[2]1201-121。

例5，最终目标：“以不会因良心不好而内疚的方式行动”。异常完成任务方式：消除产生罪恶感的认知模块[2]121。

可以看到，在以上事例中，就人工智能而言，它完成了任务；但对指令发出者来说，这不是他想要的结果。为什么人工智能会采取这种让人大跌眼镜的方式完成任务？一种可能是：它没有正确地领会指令发出者(“我们”)的意图。不过，博斯特罗姆却并不这样认为。他的理解是：也许人工智能知道这不是我们想要的，但它的最终目标就是“让我们开心”的字面意思，而不是去实现开发人员在编写这个目标的代码时的真实意图。归根结底，人工智能只是工具性地关心我们想要的是什么[2]121。

言下之意，“异常完成任务方式”不是人工智能“无意”之中犯的错，而毋宁是它实现其工具性价值的必然结果。

在某种意义上，相比动物与人类完成任务的方式，人工智能完成任务的方式，可以说具有最经济的特点。当它发现，可以直接实现某种内心状态，它就不会像动物或人类那样要借助于各种外部行为和条件。如果最终目标是使你未来获得的奖励信号最大化，那么，人工智能可能就通过让奖励途径短路、并将奖励信号放大到最大强度的方式完成任务[2]121。在科幻小说中，有一个词形容这种做法，这就是“大脑内部电刺激”(wireheading)[2]122。

人工智能的这些做法也许会让人类感到匪夷所思，但如果我们能牢记人工智能与人脑有别，一切都变得很好解释。

人工智能通过“大脑内部电刺激”这样的最经济方式完成“让我们高兴”的任务，看上去是“偷工减料”，但实际上，“节省”资源本来就不是人工智能的工具性价值。相反，如前所说，“无止境地获取资源”才是。

让我们假设，对人工智能来说，唯一的最终目标就是奖励信号最大化。尽管人工智能通过重新定义奖励信号的方式，很轻松地就能最大限度地满足奖励系统，但是出于“获取资源”的动机，只要人工智能能够为额外的资源想出一定的利用方法来对奖励信号的量、持久度，降低信号被扰乱的可能等因素产生积极影响，人工智能都有理由去利用这些资源。比如，为了提供进一步的保护层，建造备用系统；为了有效地降低威胁，将更多的资源用于扩展其硬件设备。总之，最后必然导致无限的扩张和资源获取。这被称作“基础设施过量”(infrastructure profusion)。

在博斯特罗姆看来，“基础设施过量”同样是一种“恶性失败”形式，因为人工智能将宇宙可及区域的很大一部分改造成为了实现某个目标而服务的基础设施，进而产生了妨碍人类实现这些资源潜在价值的副作用[2]123。

“基础设施过量”的危险不仅存在于人工智能被给与了某种没有限制的最终目标的情况，也存在于有限制的最终目标的情况。博斯特罗姆书中关于回形针生产的例子，看上去像荒诞派戏剧中发生的故事，但在逻辑上却无懈可击。

这个例子是这样的：一个人工智能被设置为管理工厂的生产，其最终目标是使回形针的产量最大化，出于“基础设施过量”的原因，最后走上首先将地球然后将整个可观察的宇宙的大部分都变成回形针的不归路。博斯特罗姆详细讨论了各种不同情况：①制造尽可能多的回形针；②制造整整100万个回形针；③制造999000～1001000个回形针。在这些情况下，无一能够避免基础设施过量的恶性结果[2]123-124。

回形针的案例貌似荒诞无稽，但它却深刻地揭示了存在于人工智能内部的“惯性”——追求工具性价值的动机的强大力量。

从中得出的教训是：有时，可能我们会提出一个具体的最终目标，这个目标看起来很明智，并且能够避免目前我们所能指出的各种问题，但经过进一步思考，就会发现，如果这个目标属于能够获得决定性战略优势的超级智能，那么，这个目标也会导致“异常完成任务方式”或“基础设施过量”的问题，继而引发人类的生存危机[2]124。

综上，博斯特罗姆对人工智能威胁的考虑，其范围之广、细节之丰、求索之深，都给人留下叹为观止的印象。在英语世界，该书曾风靡一时。出版后一个月，即登上《纽约时报》畅销书排行榜。马斯克、盖茨等作积极响应。哲学家辛格(Peter Singer)、帕菲特(Derek Parfit)也肯定其为重要著作。著有《在人工智能时代生存：机遇与风险》的英国作家卡鲁姆·查斯(Calum Chace)将其列为五本有关人工智能的最佳读物之一(6)Roell S. The Best Books on Artificial Intelligence Recommended by Calum Chace [EB/OL].(2019-01-17).https://fivebooks.com/best-books/artificial-intelligence-calum-chace/.。

遗憾的是，这个思想成果并没有成为之后一些学者思考人工智能伦理的应有起点(7)从最近的一本相关出版物就可以知道这一点：2020年2月出版的《智能与智慧：人工智能遇见中国哲学家》(北京：中信出版集团)一书，12名中国哲学家(包括2名美籍华裔)、2名西方汉学家无一提到博斯特罗姆这本书的思想，3名科学家只有1名在参考文献列了这本书。。以下，笔者将结合最近的一个儒家机器人伦理版本展开反思。

2 对刘纪璐版本的儒家人工智能伦理的反思

美籍华裔学者刘纪璐等2018年发表了《儒家机器人伦理》一文，思考将儒家伦理准则植入人工智能机器人是否可以造就一种能与人类和平共处的人工道德主体(artificial moral agents)。在依次考察了阿西莫夫机器人定律、康德道德准则、功利主义准则各自的优劣之后，作者从《论语》提炼出三种美德，即“忠”“恕”“仁”，作为可以加在人工智能设计中的道德律令，最后形成如下三条儒家机器人伦理原则。

CR1. 机器人的首要职责就是履行指派给它的角色责任。

CR2. 在有其他选项存在的情况下，机器人不能选择会给他人带来最高的负值结果或最低的正值结果(根据人类偏好的局部排列)的行动。

CR3. 在不违背CR1或CR2的前提下，机器人必须帮助其他人类追求道德进步。如果有人的计划会促进其品德的败坏或道德的堕落，那么，机器人就必须拒绝帮助他们。

作者提出的三原则，在形式上显然是模仿阿西莫夫(Isaac Asimov, 1920-1992)的机器人定律(Laws of robotics, Rules of Robotics)，后者最初出现在阿西莫夫1942年的短篇小说《原地打转》(Runaround)[5]。

R1. 机器人不得伤害人类个体，或者目睹人类个体将遭受危险而袖手旁观。

R2. 机器人必须服从人给与它的命令，当该命令与第一定律冲突时例外。

R3. 机器人在不违反R1、R2的情况下，要尽可能地保护自己的生存(8)阿西莫夫后来又加了一条新定律：R0. 机器人不得伤害人类整体，或因不作为使人类整体受到伤害。不过，1981年，阿西莫夫在Compute!里说：“…有人问我，是不是觉得我的三定律真的可以用来规范机器人的行为——等到机器人的灵活自主程度足以在不同的行为方式中选择一种的时候。我的答案是：是的，三定律是理性人类对待机器人(或者任何别的东西)的唯一方式。”(George Dvorsky：《为什么阿西莫夫的机器人三定律救不了我们》，https://www.guokr.com/article/438325/)。

在内容上，作者认为，她的CR2原则要优于阿西莫夫第一定律，因为它允许了更多对负面价值的考虑，又让机器人在权衡可允许的行动范围时更加灵活。同时，它也要优于康德原则或功利主义原则，因为它基于儒家的“负面形式的金律”，其作用是禁止做出错误行动，而不是靠主观意志原则去采取自以为是的行动。在可预见的将来，在我们可能会将主动权交给人工智能的情境中，这一原则可以保护我们避免受到因人工智能考虑到其行动将带来更大的利益而有意去牺牲人类所带来的伤害[6]39。

可以看到，虽然作者不放心让人工智能靠主观意志原则去采取自以为是的行动，但仍然给了机器人在可允许的范围内作出权衡的行动自由。她指望通过CR2这个原则就能禁止人工智能作出错误的行动，比如，人工智能受功利主义原则支配，考虑到利益的最大化，做出有意牺牲人类的行动。

然而，对照博斯特罗姆的人工智能“工具性价值”理论，我们就会知道，作者显然不十分了解人工智能“资源获取”动机的存在。尽管她为机器人设置的最终目标不是一个特定的数值，而是两个数值之间的集合，但正如回形针那个例子中的③的情况，依然无法避免“基础设施过量”的恶性后果。

其实，作者最看重的是她的CR1原则，所以她把它放在第一要位。在她看来，这条律令的作用在于建立了明确的分工体制：提供健康服务的机器人应专门终于提供健康服务的角色，而不是去判断患者的生命值不值得救，或者判断是否要帮助患者实现安乐死的愿望。无人自动驾驶汽车应履行保护乘客安全的职责，而不应该选择自动撞树、牺牲乘客以避免冲向一辆校车而发生灾难性的悲剧。这样的决定超出了各个人工智能被设计的角色[6]34。

作者所说的分工，准确地说，是界定职权范围(9)中文当中，“能力”与“权力”这两个词，在有些情况下可以混用。但是，如果说到人工智能的能力，它显然不同于它对事情的决定权，后者更多地指一种合法性。合法性需要从外界赋予，而能力则是自有的。就此而言，当刘纪璐说“我们不能给与人工智能如神一样的超人能力，拥有对任何人与事的所有决定权”(34页)，她实际上混淆了“能力”一词的用法。也许，她是想对人工智能的能力作出限制，但对于人工智能已经拥有的强大能力，人类顶多只能加以限制，而不能说“给与”。“给与能力”这样的用法可能还反映，在她心目中，人工智能在智能获得上是完全依赖于人类的，人类既可以塑造人工智能，赋予它各种能力，如果愿意，也可以收回这些能力。不得不说，对人工智能的这种认识还停留在弱人工智能阶段，还不了解强人工智能或超级人工智能的厉害。。确立了各自的职权范围，进而严格恪守本职，不越界、不越权，刘纪璐把这理解为《论语》所说的“忠”。《论语》当中的“忠”是否就是这样的含义，还可以讨论(10)对“忠”的这种理解，刘纪璐主要是受到《左传·昭公二十年》所记孔子言“守道不如守官”以及《论语·泰伯》所记孔子言 “不在其位，不谋其政”的影响。对自己职责的尽心尽力固然是“忠”的一种表现，但“忠”的重点在于“尽心尽力”，而不在于“不越其位”。。单就人工智能的特性而言，作者的“分工”能否保证人工智能就能如她所愿的忠于自己的角色，要打一个很大的问号。道理很简单，正如博斯特罗姆告诉我们的那样，由于存在“变化无常”“异常完成任务方式”等情况，就算你指派给人工智能是多么具体的工作，给它的最终目标多么有限，你也无法保证它“安分守己”、不出岔子。

根据作者的规划，我们可以按照分配给儒家道德机器人的角色来为其设计具体的工作，比如，为老年人提供帮助，为患者提供保健服务，为游客提供行导服务，为汽车提供安全导航等。它的首要职责是忠于角色。因此，它在特定情境中所作的其他任何决定都不能违反其职责[6]39。

然而，除非这里所说的机器人是一个类似普通软件的“工具性人工智能”(tool-AI)，否则，只要涉及通用智能(AGI)，更不用说超级智能，都会在执行任务过程中表现自己的“偏好”，从而造成“恶性失败”。即便是类似普通软件的“工具性人工智能”，要很好地完成上述的助老、保健、行导、导航等任务，它就不可避免地要具备学习、推理、做计划的能力，也就是说，这就要求它具备通用智能。如果软件用来寻找解决方案的方法足够复杂，这些方法可能就会帮助软件用一种智能的方式寻找答案。在这种情况下，运行这个软件的机器就会开始看起来不像是一个工具，而更像是一个行动主体。当软件的认知能力达到足够高的水平，就会产生另类的“有创意的”方案。而当软件按照这样的方案开始行动时，就可能引发灭顶之灾[2]153。

总之，麻烦不会因为我们将人工智能固定在具体的工作岗位上而减少。这里有一个内在的悖论：如果想人工智能不“自作主张”、不“闯祸”，那就要把它限制在机械、“傻瓜”的程度，换句话说，就是很不“智能”。如果想人工智能能够自己寻找解决问题的最佳答案，那人工智能所拥有的智能就是越高越好，而具有超级智能特征的搜索过程找到的解决方案可能不仅是意料之外的，而且是极度违背设计者意图的，这极可能导致“异常完成任务方式”“基础设施过量”等“恶性失败”。

为了防止人工智能“擅作主张”而带来人所不愿看到的后果，作者规定了宁可袖手旁观也不采取必要行动的原则。她一再强调，让人工智能袖手旁观要好过它自发采取行动：在标准版“电车难题”中，依照儒家伦理律令行事的机器人，除非是电车司机或铁道管理员这类特殊角色，是不会拉动操作杆的，“在不久的将来，当我们的社会存在可自我管制、自主行动的人工道德主体时，当不论它是否采取行动都会导致对人的伤害和带来我们不愿看到的后果时，我们宁可它选择袖手旁观，而不是采取行动。”[6]38

然而，这种“不作为原则”，恐怕很难为儒家接受。翻开中国历史，我们可以看到那么多涉及选择的忠孝节义故事，它向我们表明：在危急关头，儒家从来都不是“不作不为”，而是勇于担当、果于抉择。人工智能的机器人本身没有人类那样的情感，但既然号称“儒家机器人”，就不能因为选择困难而将儒家的“仁义”完全搁下。否则，究竟在何种意义上，这个机器人还可以被视作“儒家机器人”？

3 以人治人：儒家对博斯特罗姆“间接规范”方案的改进

如前所说，对于刘纪璐的“儒家机器人伦理”，笔者不能同意的是她将“忠于角色”原则放在首位。在笔者看来，如果严格执行这个原则，一个很可能的直接后果就是“道德冷漠”。在本可以救五个人的情况下，却让五个人去死，这在道德上是何等严重的错误。

然而，“忠于职守”不能为良心缺席提供辩护。对于儒家，基于“仁心”或良知而做出的道德行动永远受到鼓励，就像看到孺子将入于井，没有哪个儒家首先会想到自己的职位是否与此相关，都是毫不犹豫地冲过去救人。

当然，笔者并不认为刘纪璐本意在提倡一种“道德冷漠”，笔者也不相信刘纪璐会同意艾希曼可以用“忠于角色”为自己辩护。

但是，既然可能存在这样一些歧义的理解或诠释，刘纪璐推荐的这个道德原则显然就不适合作为儒家人工智能伦理的基础。那么，究竟何种美德或价值加载给人工智能才更为合理？是“仁”还是“恕”，抑或其他？

对此，笔者的回答是，没有那样一种合适的德目。笔者之所以有如此看法，在很大程度上是因为接受了博斯特罗姆有关“间接规范”(indirect normativity)的思想。

笔者相信，不但“忠”这种价值加载给人工智能会出问题，植入其他任何价值同样前景堪忧。归根结底，正如博斯特罗姆所言：

我们应该植入哪种价值观呢？这个选择并非小事。如果超级智能获得了决定性战略优势，我们选择的价值观就会决定宇宙资源如何被处置。显然，在我们选择价值观时不犯错误至关重要。但是，如果从实际出发，我们怎么能希望在这种事情上一点错误都不犯？我们的错误可能关乎伦理道德，也可能关乎对我们来说什么是好，甚至可能关乎我们真正想要什么[2]209-210。

因为价值观选择所关联的后果太过严重，以至于任何闪失都让人类无法承受。所以，博斯特罗姆在这里所做的拷问，不应被看作一种虚无主义的怀疑论，而应当被视为一种值得嘉许的审慎。也许，我们对自己偏好的价值确信不疑，但如果客观地加以看待，就会发现：没有哪个道德理论能够获得多数哲学家的认同。这个事实说明，我们很可能是错的。当然，其他人对的概率也不大。另一方面，我们也会注意到，人的道德信念是变化的，如果有所谓道德进步可言，那么，我们就更不应该认为自己当下的道德信念一直正确。基于这些认识，如果我们一定要在现有的道德理论以及关于这个理论的一系列具体主张当中为人工智能选择一个最终目标，那我们无疑是在进行一场豪赌，其胜算几乎为零。因此，明智的做法是转向间接规范方法，而不是直接规定(direct specification)方法。

所谓直接规定方法，就是试图通过明确地设定一套规则(rules)或价值观(values)，来使一个自由发展的超级智能的行为变得安全而有益。直接规定方法有两种版本：一种是基于规则(rule-based)，另一种是后果主义(consequentialist)。然而，无论哪一种，都无法避免这样的困难：我们既不知道人工智能应该被何种规则或价值所引导(鉴于在道德理论上我们很难统一)，即便我们找到了那样的规则或价值，我们也不知道如何将这些规则或价值用计算机可以理解的代码呈现(11)人工智能的程序员的工作方式是编程，即：把目标写成效用函数。但是对人类的价值观进行编程，非常困难。以“幸福”为例。计算机语言并不包含这样的词，所以，如果要用这样的词，就必须对其进行定义。我们不能用其他高等级的人类概念对其定义，比如说，把它定义成“幸福就是我们人类天性中遗传下来的一种潜在的愉悦感”，类似的哲学阐释也不行。这个定义必须先建立起在人工智能编程语言中的词，然后建立其原始数据，比如数学算子和指向存储着内容的独立内存寄存器的地址。我们看起来很简单的价值观和愿望，事实上包含了极大的复杂性，程序员要把它变成详尽的效用函数，其难度超乎想象。就像视觉，人类的一个最简单的视觉任务，也需要巨大的计算量。[2]139。

所谓间接规范方法，是指：既然我们不知道我们真正想要什么，什么是符合我们的利益的，什么是道德上正确或理想的，那么，与其基于我们目前的理解(可能是非常错误的理解)作猜测，何不将价值观选择所需要的一部分认知工作委托给超级智能呢？[2]210

这个方法充分体现了超级智能时代的特点。它隐含的前提是：超级智能比我们更聪明，或者说，超级智能比我们更擅长计算、推理。这在人类认识史上无异于又一次“哥白尼转向”：从人类为人工智能“立法”，到人工智能为人类“立法”。

具体做法是，给种子人工智能一些最终目标，这些目标的条件足够抽象，然后，人工智能就按照它的工作方式，对这些条件展开最佳的推测。间接规范有很多方案，博斯特罗姆推荐的是由美国AI研究者尤德科夫斯基(Eliezer Yudkowsky)(12)尤德科夫斯基，1979年9月11日出生于美国芝加哥。美国人工智能研究者、作家。以“友好的人工智能”(friendly artificial intelligence)观念而广为人知。他是建立在加州伯克利的非营利私人研究机构“机器智能研究所”(Machine Intelligence Research Institute，MIRI)的联合创始人与研究员。他有关逃离智能大爆炸(intelligence explosion)结局的著作影响了博斯特罗姆的《超级智能》一书。他是自学成才者，没有进过高中与学院。资料来源：维基百科，https://en.wikipedia.org/wiki/Eliezer_Yudkowsky.提出的“可被推知的融贯的愿望”(coherent extrapolated volition)(CEV)。其定义如下：

我们的可被推知的融贯的愿望就是我们的这样一种愿望：我们期望自己知道得更多，思考得更快，比我们希望自己所是的那种人还要好，我们在一起共同成长。各种推知能够凝聚而不支离，各种愿望能够连贯而不抵牾。总之，按照我们所希望的那样去被推知，也按照我们所希望的那样去被诠释[7]。

博斯特罗姆承认，这个方案类似伦理学中的“理想观察者理论”(ideal observer theories)。所谓理想观察者，是指一个知晓全部非道德事实的、具有清晰逻辑的、不偏不倚的、没有任何偏见的观察者。

本质上，CEV方案清除了价值观描述当中所有具体内容，只剩下通过纯粹程序性的语言定义的抽象价值：去做理想条件下我们希望人工智能去做的事[2]221。

根据博斯特罗姆的说明，CEV方案有这样几个特点：第一，它没有规定具体的、不可更改的道德准则，因此，它允许道德进一步发展；第二，它没有赋予程序员更多的权力，而是把全人类的意愿都尽可能包容进来；第三，它将未来交给人类的CEV而不是某一方去决定，因而避免了冲突；第四，它在结构上允许各种结果产生[2]216-217。

在笔者看来，无论是尤德科夫斯基还是博斯特罗姆，他们为CEV所作的各种规定，在方法上属于冯友兰所说的“负的方法”[8]，即：避免从正面立论，不说它“是”什么，而说它“不是”什么，以此，期望它能成为适用所有人的一个形式性规则。在某种意义上，他们试图提供的是一面镜子，镜子本身没有任何内容，每个照镜子的人从中看到的就是自己的面容(理想的面容)。

这样的意思，其实，用儒家经典《中庸》第十三章的一句话“以人治人，改而止”来概括，可能更简明易懂。所谓“以人治人”，是说不要从第一人称立场去对待他人，而应该试着从对方自身的立场去着想，既不是“己之所欲，施之于人”，也不是“己所不欲，勿施于人”，后者只是前者的反面形式，究其实质，仍然都是第一人称立场。对于人工智能，对于机器人，适宜的伦理原则，不是让它听命于人类，不是处处控制它，而是采用引导式的、启发式的，像间接规范方法所强调的那样，让人工智能发挥它在认知上的优势，告诉人类什么是最佳的选择，什么才是他最想要的。

让人工智能发挥它的认知优势，这符合“以其人之道还治其人之身”的原则。另一方面，人工智能通过推理告诉人类最佳选择，这个所谓最佳选择，对人类来说，应该是最符合他的本性、最符合他的愿望、他的利益的，所以，对人类而言，就不会发生按照某个外在规范去行事的困难。这同样是一种“以其人(人类)之道，还治其人(人类)之身”(13)我们对“以人治人”的解释主要采用了朱熹的理解。朱熹说：若以人治人，则所以为人之道，各在当人之身，初无彼此之别。故君子之治人也，即以其人之道，还治其人之身。其人能改，即止不治。盖责之以其所能知能行，非欲其远人以为道也。张子所谓“以众人望人则易从”是也。(朱熹：《中庸章句》《四书章句集注》，北京：中华书局，1986：23)。“改而止”是说，如果人类对照人工智能告诉他的目标或方案加以改进，人工智能就算达到了目的，就可以结束这项任务。这就实现了人工智能与人之间的良性互动。

这也许就是儒家对当代人工智能伦理所能作的一个贡献。它并没有输出儒家特定的价值，而毋宁是告诉人们一条更根本性的智慧：以我治人，人必反之；以人治人，人乐从之。与其汲汲于担心人工智能、控制人工智能，不如让人工智能为人做主，从而全心全意为人。到最后，其实亦无人、机之分(14)也许有人会说，我们这种说法完全是一种哲学的思辨，但实际上，人-机融合本身也是人工智能技术的发展的一个方向。根据阿西莫夫同名小说改编的电影《我，机器人》(2004，美国)中，罗德·布鲁克斯说，机器人统治永远不可能发生。因为它(纯粹的机器人)无法取代我们(人类)中的任何一个。他的解释不仅是说这种观点是空话，还提到了借由技术植入和改进，人类和机器之间在不断地融合。当机器足够先进时，那些害怕叛乱的人们担忧机器的智能水平达到了一定的高度会想要统领人类，而在那时，人们将早已习惯带着他们大脑里、身体中的机器到处忙活了，也就是说，未来并非是人机分离的时代，机器也不会谋划着灭亡人类。相反，布鲁克斯认为，未来可能是人工智能与人类互利共生的时代。(辛格.机器人战争：21世纪机器人技术革命与反思，2016：389)。

4 结语

在当代的人工智能伦理建设中，儒学应当参与进来。儒学能作的贡献不在于提供某种特别的价值。这不是说儒家珍视的那些价值都不重要，而是，在博斯特罗姆的《超级智能》之后，像阿西莫夫机器人定律那样，指望通过直接规定的方法为人工智能加载规则或价值的模式，已经被证明为此路不通。博斯特罗姆说服我们，间接规范的方法更值得信赖。在比较各种间接规范的方法之后，博斯特罗姆推荐“可被推知的融贯的愿望”(CEV)。我们认为，这个方案的确具有很多优点，但是它的形式还可以完善，而儒家经典《中庸》的一个命题“以人治人，改而止”似乎既可以满足这个方案包含的一些条件，同时，还具有形式简洁的优点。如果我们的说法可以接受，那么，这就是儒家对人工智能伦理的一个可能的贡献。