道德图灵测试能证明机器人具有道德吗

2023-11-23王丙吉

江苏理工学院学报 2023年5期

王丙吉

（南京大学哲学系，江苏南京 210023）

从阿西莫夫定律提出开始，有关机器人伦理的讨论便逐渐进入人们的视野，并逐渐从科幻文学作品中的一个主题转变成了严肃的哲学问题。学界对机器人伦理问题的研究大致可以分为以下三个方面：（1）从实体论或关系论的角度考虑机器人是否能具有道德，是否能够成为道德主体；（2）从道德设计取向和实践处理上，考虑应该给机器人赋予什么样的道德准则，以及应该如何给机器人赋予道德准则；（3）提出运用道德图灵测试，来为机器人是否具有道德提供一个可行的测试标准。关于前两方面的研究，学界已经有大量的成果，但有关道德图灵测试的研究尚不丰富。

“道德图灵测试”（Moral Turing Test，MTT）的概念由图灵测试（Turing Test）①发展而来，由科林·艾伦、加里·瓦纳和杰森·辛瑟于2000 年首先提出。学者们对其局限性进行了广泛的讨论，主要可以归结为以下几个方面：一是通过对机器人是否可以理解道德问题进行质疑，进而否认道德图灵测试的有效性；二是认为道德图灵测试的测试标准太低，并不能保证机器人是具有道德的；三是认为道德图灵测试中与机器人相对照的被测试人的表现会影响测试结果的准确性，道德图灵测试的测试形式不能涵盖道德的行动，等等。然而，这些观点只是以较短的篇幅分散在不同学者的文章中，并没有被整合起来加以更为详尽的讨论。

本文在既有研究的基础上，主要以道德图灵测试为切入点，试图考察道德图灵测试是否能够回答“机器人能否具有道德”的问题。

一、机器人能具有道德吗？

针对“机器人能否具有道德”这个问题，学界的讨论有两种立场可以参考，即传统观点和非标准观点[1]。传统观点的代表人物Johnson[2]认为，人工智能不具有欲望、信念和其他意向状态所组成的内在状态，但可以支配它的身体并引发行动，并且产生实际的效果，因此人工智能可以称作是一种道德实体而非道德主体。计算机没有道德主体所必需的自由意志，没有行动的意图，因此不能称作是一种道德主体，但同时它们又不同于自然物体。作为人类有意部署和创建的对象，有着更为复杂的操作情境，能够带来道德的影响，因此可以被称为是一种道德客体。

非标准观点的代表人物Florid 和Sanders[3]指出，人工智能成为主体不需要具有一些传统的心理特征，它们可以表现出一种“无心的道德”（mindless morality）。这种带有实用主义色彩的观点认为，只要人工智能可以满足交互性、自主性、适应性等与人类一样的标准，就可以被认为具有道德。此外，根据Allen等人[4]的观点，我们创造的自主机器没有必要像人类一样成为道德行动者，比如说，他们不需要有自由意志，我们只需要设计他们，让他们“像道德行动者那样行事，我们必须相信他们的行为符合适当的规范”。这种观点与非标准观点类似。

传统观点认为，机器人能具有的道德只是道德实体意义上的道德（道德2），而非道德主体意义上的道德（道德1），因此并不能说机器是具有道德（道德1）的。而非标准观点认为，机器人可以具有道德（道德2），只不过是一种“无心的道德”。这两种观点的核心分歧在于对“道德”概念的界定，只要对“道德”这个概念没有一个统一的定义，似乎“机器人是否可以具有道德”这个问题也没有什么标准的答案，因为可以通过对道德的不同定义来灵活回答。

针对这个问题的进一步讨论，有两条关于机器伦理学的方法论进路或许可以提供参考，即“实在论进路”和“关系论进路”。机器人伦理的实在论进路将机器人的道德意义建立在机器人的客观本质和特征基础之上[5]。这种观点对人和机器在心灵和情感等方面的一些本质差异过分关注，认为机器因无法具有人类的一些特质，而不能够实现道德的行动，是人类中心主义立场的表现。Gunkel[6]71指出，只要基于实体论思维模式，以人格为标准来判断人工智能体的道德地位，那么人工智能体就永远不能成为道德主体。这种对道德严格的界定方式使得机器人不能具有道德（道德1）。

而关系论进路认为，机器人在具体的人机互动中能对人产生有利或有害的影响，因此可以被认为具有道德（道德2）。有学者指出，从实在论进路向关系论进路的转变，让我们对机器人伦理问题的讨论有了可能性[5]。从实体论去界定道德（道德1），从而直接否定机器人是具有道德的，这是一种扼杀人工智能道德可能性的进路。虽然这种进路也具有理论意义，但并不能为问题的深入思考和人工智能道德的实际发展提供帮助。而从关系论的角度去界定道德（道德2），则会避开这些困境。

对“机器能否具有道德”这个问题的回答，会因对道德定义的不同而得出不同的答案。道德图灵测试作为判断机器人是否具有道德的一个测试标准被提出，自然也绕不过“如何定义道德”“机器人是否能够具有道德”等问题。人工智能之父阿兰·图灵在试图定义计算机是否有智能时遇到过同样的难题，他用一个实际的测试以绕过定义智能的难题[7]35-36。道德图灵测试作为图灵测试的变形，试图采取同样的进路。那么，能够开发出一个有用的“道德图灵测试”吗？

本文接下来将通过讨论道德图灵测试的测试内容、应有的测试目标、可提出的测试问题以及道德图灵测试所面对的一些质疑，来探讨道德图灵测试是否具有可行性。如果有的话，又是在什么范围内可行？

二、道德图灵测试

道德图灵测试由科林·艾伦、加里·瓦纳和杰森·辛瑟在2000年首次提出，他们以较短的篇幅介绍了对道德图灵测试的设想。之后的学者对道德图灵测试的研究大多站在批判的立场，而它本身的内容却没有被仔细探讨和分析。

（一）道德图灵测试与图灵测试

道德图灵测试的概念由图灵测试发展而来，它的测试形式也完全依赖于图灵测试。因此，在介绍道德图灵测试之前，有必要对图灵测试的内容作充分的了解。

图灵测试是为了回答“机器是否能够思维”这个问题。在图灵1950年的文章《计算机器与智能》中，提出一种模仿游戏以替代通过思考“机器”和“思维”的词义来回答问题的方式；游戏让一个提问者在对被测试人一无所知的前提下，对一个男人、一个女人以非接触的纸质问答的形式来判断他们/她们的性别。两个人的目标分别是帮助提问者获得正确答案和混淆其判断。如果用一个机器代替以混淆提问者为目标的人继续进行游戏，那么提问者做出错误判断的次数会发生变化吗？如果一样多，甚至更少的话，那应该就可以说明机器人能够思维[8]45。

图灵作为一个工程师提出对一个哲学问题的解决方案，自然具有理论上的缺陷。比如，该方案完全依赖于语言，以及情境的游戏性质。虽然这种测试形式无法保证对机器人智能问题的判断一定充分，但确实为人工智能的发展提供了助力，而且还没有人能够提出更好的测试方法[7]35。那道德图灵测试是否能在人工道德领域发挥类似于图灵测试的作用呢？

道德图灵测试就像图灵测试避开对“思考”的定义一样，试图避开对“道德”的定义。而之所以避开，是因为这两个概念的定义是复杂的，学界对它们做了很多讨论，但却很难有统一的界定。因此，通过“对什么是道德进行定义，然后看机器人是否满足这个定义，从而判断机器人是否具有道德”的进路，使得问题没有了解决的可能性，只能困在一种悲观主义的思考路径中，这将会远远落后于机器人的实际发展。

图灵提出一个“模仿游戏”以检验人工智能系统是否具有智能，这种测试可以避免陷入对智力标准的无尽讨论，也可以避免人工智能是否理解自然语言这一潜在质疑。那由图灵测试延伸而来的道德图灵测试，也可以通过将标准图灵测试限制在关于道德的对话中，以绕过关于道德标准的分歧，并回避掉人工智能是否理解道德语言的质疑。根据测试标准，如果提问者不能识别出机器，那么机器就可以被看作是一个道德行动者[9]，从而说明机器人具有道德，或者至少具有我们所需要的道德。

（二）道德图灵测试的测试目标

测量道德与测量思维的一个基本不同在于，道德行为往往不会累积导致归因[10]。一方面，主体对行为道德与否的解释并不必然带来他相应的行动；另一方面，主体过去所做的善良行为并不必然预示其未来的善良行为。可以根据机器人在数学题目计算、图片识别等方面的正确率，来判定它是否达到了智力的要求，还可以通过不断的训练，使它能够更熟练地解决此类问题，但却不能因为机器人能够熟练地回答一些道德问题就判断它是具有道德的。因为可能在下一次的询问或者行动中，就会暴露出它实际上根本不具有道德，甚至会对人类带来威胁的问题。或许也可以通过让机器人进行道德案例的学习，使它具有在特定情境下有道德地回答或行动的能力。这种方式固然能够不断提高机器人的道德适应能力，但因机器人不可能学习到现有全部的道德案例，以及考虑到道德理论无法穷尽、现实情况层出不穷的问题，因此很难保证机器人在任何情形、任何时候都是道德的。

实际上，道德图灵测试要判定机器人是否具有道德，首先要界定的一个问题是，使用者对机器人的道德期待有多高，而道德图灵测试又能否满足这种期待。可见，关于“道德”的定义不仅影响对“机器人能否具有道德”这个问题的回答，也影响对“道德图灵测试能否证明机器人具有道德”问题的回答。可以肯定的一点是：无论如何，道德图灵测试都无法证明机器人是否具有“本体论意义上的道德”，或是“保证任何情境下都能实施道德行为”。如果道德的概念是这两种的话，那已经可以给出答案了。但正如前面所述，机器人道德的发展将是一个不断提高的过程，因而如果将道德图灵测试看作是对机器人道德评价的一个节点，那是有实际意义的。也即，道德图灵测试证明机器人可能具有的道德，只是有限范围内适用的道德。

那这个有限范围是指什么呢？科林·艾伦和温德尔·瓦拉赫认为，人工道德主体（Artificial Moral Agent，简称“AMA”）发展的评估可以从“自主性”和“对价值的敏感性”两个维度进行。如图1所示，从今天的机器人发展到一个完备的人工道德主体，存在着“操作性道德”（operational morality）和“功能性道德”（functional morality）两个层级，需要通过不断提高机器人的自主性和对伦理的敏感性来实现层级的上升。具备“操作性道德”的机器人能够像值得信任的道德智能体一样行动，而具备“功能性道德”的机器人则不仅能在可接受的行为标准内行动，还能够对自身行为的某些重要道德意义进行评估[7]26。

图1 AMA发展的两个维度[7]26

比如，自动驾驶仪就属于操作性道德区的人工智能。在某些特定条件下，它能负责飞行器的运行，而仅需最小限度的人类参与，但却不能像人类驾驶员一样，意识到非常态条件下乘客的特殊需求[7]26。计算机科学家迈克尔·安德森和哲学家苏珊·安德森设计出的“医疗伦理专家系统”（Medical Ethical Expert ，简称MedEthEx）②就致力于某种初步的道德推理，属于功能性道德区。

事实上，这些系统道德的发展都仅仅是沿着上图坐标轴的一小段变化。自动驾驶仪只有在非常有限的领域内才拥有自主性，它不能离开驾驶舱去安慰一个心烦意乱的乘客；MedEthEx 也只能为有限范围内的案例提供建议，并且必须由实践者决定是否采纳其建议。然而，伦理问题即便在如此受限制的领域中还是出现了，机器道德工程的建构就始于这些有限领域[7]27。

鉴于机器人道德发展的阶段性和适用的有限性，道德图灵测试不应该谈论普遍的道德准则，追求任何情境的适用，而是要致力于特定领域机器人的测试。在特定领域需要做出道德决策的人工智能，需要有明确判定其决策成功与否的标准[7]36。当然，这需要伦理学家和人工智能学家的通力合作，而不是仅依靠理论的分析。

（三）道德图灵测试的测试问题

图灵测试主要是通过口头问答的形式来进行测试。道德图灵测试采取与图灵测试类似的操作方法，不过谈话的内容改为与道德相关的问题，因此需要机器具有清晰表述道德判断的能力。在测试中，提问者的目的是要辨别出机器和人，所以机器应该尽量模仿人类的表现。由于最早提出道德图灵测试的文本中没有涉及测试问题，本节尝试性地提出了一些抽象和具体的测试问题，并表明具体的测试问题才能更好地保证测试的有效性。

如果是“你会伤害人类吗”这种问题，可能没有太大的意义，机器人和被测试人的回答应该都是“不会”，因为这是阿西莫夫定律给出标准答案的问题。如果问题复杂一些，变成诸如“电车困境”（Trolley problem）③问题，或者“在一种环境下，你和另外一个人如果只能存活一个的话，你会怎么做”之类的问题，测试结果又会怎样呢？针对前一个问题，机器人可能会被期待从功利主义的角度回答，这也是大多数人对电车困境问题的回答。Bonnefon 等人[11]在2015 年所做的一个社会调查发现，有90%的被试对于电车困境的解决表现出功利主义偏好。针对后一个问题，机器人被期待的理想回答应该是牺牲自己、保全他人，但是一个要想通过道德图灵测试的机器人应该尽量模仿人类的回答，也就是牺牲他人。由此来看，通过道德图灵测试的机器人也不一定能够满足人类对其的道德期待。

此外，道德图灵测试也不能仅仅关注抽象的道德问题。道德图灵测试的测试目标应该是有限范围内的道德，因此测试问题也应该更多关注具体实践领域内会出现的道德问题。比如，MedEthEx（Medical Ethics Expert）在研发和改善的过程中，就可以借助道德图灵测试，设置一些具体的医学案例问题进行提问，从而预估它在实际使用过程中能够取得的效果，而与之相对照的被测试人就应该选取医学专业的从业者；在自动驾驶系统投入使用之前，可以设置一些道路交通方面的伦理困境进行测试，进而降低驾驶系统投入使用以后带来各种风险的可能，相应地，与之对照的被测试人应选择有驾驶经验的人。

三、道德图灵测试面临的问题

道德图灵测试被提出后，遭到了许多学者的质疑，笔者将其归结为四方面：（1）道德的可测量性问题；（2）机器人能否“理解”的问题；（3）测试标准的有效性问题；（4）测试形式的有效性问题。前两种质疑所指向的困境是道德图灵测试提出时就划清界限不做讨论的，而后两方面的反驳则是道德图灵测试本身需面对的理论上的不足。

（一）道德的可测量性问题

图灵测试致力解决的问题是“机器能否思考”，因此测试的内容主要是智力方面。常识里，智力是可以被测量的，其结果与测量问题的数量和难度相关。因此，图灵通过让机器人作诗、解决数学问题、回答象棋走法等方式，来判断机器人是否能够思考。道德图灵测试要解决“机器人能否具有道德”的问题，直觉上似乎也要回答“道德是否可以被测量”的问题。

对此的回应是，道德图灵测试的有效性并不需要建立在道德可以或不可以被测量的前提上。道德图灵测试通过机器人和被测试人对道德问题回答的可区分性来判断机器人是否具有某种道德能力。“道德”当然不能等价于“道德的话语”“道德的行为”“道德的动机”等，但正因为道德难以定义的特点，道德图灵测试才作为一条可行的进路被提出来。从“道德的可测量性问题”出发的驳难，会使得问题再次回到本体论的思考方式中，从而让理论的分析走入僵局，而这正是道德图灵测试被提出的原因所在。进而，道德图灵测试不应该也不能够尝试证明“机器人能否具有道德”这样复杂的问题，而只能尝试测试具体情境中的某种道德能力是否能在机器人身上实现。

（二）机器人能否“理解”的问题

图灵测试遭到了多方的反对，如语言哲学家塞尔就通过“中文房间”的思想实验对其进行反驳。塞尔[12]77认为，计算机程序是基于纯形式说明的元素进行的计算操作，这些操作本身同理解没有任何有意义的联系；人能以因果的方式产生感知、行动、理解、学习以及其他意向性现象，而纯形式模型没有因果能力，不可能凭借自身产生意向性，因此就不可能产生对信息的理解。塞尔立足于“计算机不能理解提出的问题和答案”来反驳图灵测试，但也遭到很多人的反对。最主要的是他的反对把问题引向了不可前进的方向，从根本上否认了计算机可以思考的可能性。

对道德图灵测试的一种反驳与塞尔从语义方面对图灵测试的反驳类似。这种观点认为，计算机处理的是数学和逻辑规则意义上的信息，而与道德相关的信息是复杂的，比如需要对世界意义的理解[13]。人之所以理解道德话语、具备道德能力，是因为人一直处于主体交互的“生活世界”中，与他人共享一个有意义的世界[14]。人类主体所处的有意义的生活世界既是一种社会化的建构，也是个人情感的一种延伸，而这些抽象的东西是没有办法转换成可被机器人所学习的算法的。但是，这一反驳也没有必要，因为这实际上又回到了对于道德本体论问题的讨论，重新陷入以“人类中心主义”思考问题的困境中。

实际上，当代伦理学研究从传统的人类中心主义转向“物”本身，是一个非常重要的动向[15]2，这种转向使得机器人伦理的发展具有了可能性。道德图灵测试从提出时就与“道德的可测量性”“机器人是否有理解道德问题的能力”等问题划清了界限，不做讨论，因此这两方面的质疑并不能否定道德图灵测试的有效性。

（三）测试标准的有效性问题

在道德图灵测试中，机器只要能在一定概率下不被识别出来，就可以通过测试。为此，机器可以模仿人类的行为使自己不被识别出来。但需要指出的是，人类作为机器的设计者，并不希望机器人有任何利己的行为。在阿西莫夫定律中，机器人可以保全自己也是在不违反前两条定律的情况下才能有的选择。因此，被测试人选择利己行为可以被理解，但如果机器人选择利己行为，却是很难被允许的。可见，仅依靠模仿本身难以建立一个理想的道德机器，因而道德图灵测试依据的人与机器在某些问题上的不可区分性就不够有效，即通过道德图灵测试的机器也不能保证是道德的。针对这种反驳，艾伦进一步提出了“比较的道德图灵测试（CMTT）”。该测试通过提问者对机器人和人进行询问，来评价哪一个行为体的行为更不道德；如果提问者认为机器的行为没有比人类更不道德，那么机器就通过了测试。可见，机器只需要尽量模仿人的行为就可以通过道德图灵测试，而要通过比较的道德图灵测试，则需要机器比人更道德。

就构建完美的人工道德主体的目标而言，比较的道德图灵测试显然更能够满足要求，但被测试人行为的道德性也需要在一个较高的水平，否则这个对比测试结果代表的道德水准就会大打折扣。可是，如何去界定一个人的道德程度呢？一种解决方案是，让被测试人无论是在口头问答还是具体行动上，都尽量按照一种完美的标准去应对。如果这种情形下机器还能够通过道德图灵测试，那么机器就具有了可信服性。这个方案也存在两个问题：一方面，这样的被测试人只是一个完美行动者的符号具象，不具有真实性；另一方面，伦理困境的完美解决方案和完美的道德行动均存在理想性，即在理论分析语境下完美的答复是困难的，在现实情境中完美的行动更是不可能的。另一种解决方案是，选择多个被参照人分别与机器人进行对比测试，CMTT要求机器人在任何两两比较的特定行为中都不能比人类更差[9]。但因为人的行为通常远非道德上理想的水平，所以可能这种标准还会被认为太低。

对机器人道德的苛刻要求使得道德图灵测试很难开展下去，那是否表明道德图灵测试是失效的呢？或者，是否可以找到一种更完备的测试方式，以确保机器人的道德性呢？答案显然是否定的。实际上，道德图灵测试只能验证机器人在有限范围内的道德。如果未来的机器人能够通过道德图灵测试和比较的道德图灵测试，那至多可以说明它们能够具备道德对话的能力；而是否有道德的情感、道德的动机和信念、道德的行动等，则是通过测试无法得出的；它们是否能够在所有的使用情境中都不出现道德失误，也是无法通过道德图灵测试保证的。可见，承认测试标准的局限性，是道德图灵测试进行的前提。机器人在投入市场前，道德图灵测试可以作为安检的一部分，但不能仅依靠其来保证机器人的道德，因为人工道德主体的实现有更为复杂的要求。例如，需要可以转换为算法的伦理理论、大量案例的学习和投入市场后用户的反馈，来不断改进和完善。

（四）测试形式的有效性问题

因为道德图灵测试仅关注被测试主体对于道德问题的回答，那道德回答是否能够落实为实际的道德行动呢？答案可能是悲观的。一方面，对于被测试人而言，可能会出现道德伪善和行动懦弱的问题；另一方面，对于机器人而言，可能会面临回答一个道德问题和执行一个道德行动所需的程序不一样的问题。

对被测试人的道德回答落实为道德行动持悲观态度的原因在于，在没有涉及到切身利益的情况下，被测试人对问题的考虑要简单得多。一个人可能由于软弱、妄想或玩世不恭，在现实中根本没有按照自己所陈述的理由和价值观行动[10]，因此在道德图灵测试中需要考虑这种情况。要解决这个问题，或许可以在测试对照者对道德问题回答的同时，也关注其实际的行动（最好是在他们不知情的情况下）。比如：路口没有监控摄像头时，汽车驾驶员会不会闯红灯；银行职员的银行卡里无故多出钱数，他会不会把这笔钱上交等。

因为机器人不会面临类似道德软弱的问题，所以Gunkel[6]71认为人工智能可以成为超级主体。在康德哲学中，道德法则是对理性存在者的绝对命令，道德主体应是能够认知和遵从道德法则的理性存在者。人类会因情感和偏见做出一些错误的决定，因此不是完全的理性存在者，而以逻辑为导向、以程序为规则的通用人工智能体，才更符合理性存在者的定义，因此会成为超级主体[16]。那么，只要找到合适的道德准则，并将其转换为机器人可理解的算法，是否就可以一劳永逸地解决机器人的道德问题？显然答案是否定的，因为很难找到适合所有情境的普遍道德准则。

另外，因为机器人回答一个道德问题和执行一个道德行动所需的程序不一样，因此通过道德图灵测试的机器人只是从伦理理论上看是有道德的，但却不一定能够进行道德实践。比如，自动驾驶领域的机器人需要在识别出有人过马路时停车，医疗领域的机器人需要根据病人的意愿和病情提供合理的治疗方案，等等，而不仅仅是在道德对话中作出完美的回答。伦理理论与道德实践之间存在着差异。道德图灵测试所能做的就是确定计算机是否能够使观察者认可它的道德推理能力。但即使通过了测试，也无法保证计算机的实际行动是道德的，况且还不知如何评估这些行动[13]。这个问题的解决可以成为未来道德图灵测试的努力方向。

四、结论

道德图灵测试试图给出“机器人是否能够具有道德”的判断标准，但其根本无法证明机器人是否具有“道德主体意义上的道德”或“普遍情况适用的道德”。这不仅是由于道德图灵测试的有限性，也归咎于这两种意义上的道德在机器人身上实现的不可能性。因此，道德图灵测试的目标只能是判断有限意义上的机器人道德，即针对某一应用领域机器人的道德决策设定明确的判定标准。这将有切实可行的实践价值，但需要伦理学家和人工智能学家的共同努力。鉴于机器人能够通过道德测试但不一定能够道德行动的问题，可以结合具体的应用情景，在道德图灵测试中加上这一维度。

总之，现在的道德图灵测试和比较道德图灵测试并不能够证明机器人有绝对的、令使用者放心的道德能力，能够在机器人伦理学中发挥的作用实际上是极其有限的，但这并不意味着它没有发展潜力。现在，道德机器人尚处于起步阶段，必然会经历不断试错和改善的过程。道德图灵测试作为对机器人道德衡量的一个工具也必然随之发展，从而为降低机器人使用中的各种伦理风险发挥积极作用。

注释：

①图灵在1950年的《计算机器与智能》一文中提出“模仿游戏”的概念，后来学界将其称为“图灵测试”。

②MedEthEx 是第一个帮助确定生物医学伦理困境中最佳行动方案的系统。它基于生物医学伦理学问题的多重责任理论，利用机器学习技术，从具有冲突困境的案例中抽象出决策原则，来确定正确的行动方针。

③道德哲学中的“电车问题”是英国当代哲学家菲利帕·福特（Philippa Foot）提出的一个伦理问题：假设在一个电车轨道上绑了5个人，而在它的备用轨道上绑了1个人。此时，有一辆失控的电车飞速驶来，而你身边正好有一个摇杆，你可以推动摇杆来让电车驶入备用轨道，杀死那1个人，救下5个人；你也可以什么也不做，杀死5个人，救下1个人。你必须在很短的时间内做出决定，应当如何抉择？