人工智能体价值对齐的分布式路径探赜

2024-01-01闫坤如

上海师范大学学报(哲学社会科学版) 2024年4期

摘 " 要：人工智能体价值对齐，源于人类的有限理性、人工智能体的自主性、不确定性和风险性。价值对齐需要在考察人工智能体的道德属性与调节作用的基础上，分析其必要性和可能性。为了实现人工智能价值对齐的目标，需要妥善处理好伦理共识与多元价值观、抽象价值规则与具体人工智能技术应用场景、人类终极伦理目标与短期价值追求之间的关系。在此基础上，应为人工智能体的研发设定基本的道德准则和伦理底线，明确人工智能体的设计边界，确保其不对人类的价值和权利造成干扰和伤害，避免AI系统偏离人类价值观，以引导和规范人工智能技术的发展方向。

关键词：人工智能体；价值对齐；有限理性；自主性

中图分类号：TP18 " 文献标识码：A 文章编号：1004-8634（2024）04-0131-（09）

DOI：10.13852/J.CNKI.JSHNU.2024.04.013

人工智能技术的迅猛发展深刻地改变着社会生产生活方式、思维模式和社会结构等。人工智能技术正在推动产业革命，重塑人类社会，改变人类理解世界的方式。布莱恩约弗森（Erik Brynjolfsson）和麦卡菲（Andrew McAfee）提出，人工智能技术是继18世纪末蒸汽机发明之后的第二次机器革命。正如蒸汽机技术超越了当时其他技术，人工智能技术正在帮助人类突破各种能力限制，并可能改变人类历史的发展轨迹。1 基辛格（Henry Kissinger）、施密特（Eric Schmidt）与胡腾洛赫尔（ Daniel Huttenlocher）在《人工智能时代与人类未来》中写道：“人工智能很可能会改变社会的轨迹和历史的进程。”2 人工智能技术除了具有革命性的影响外，也具有颠覆性作用，可能会引发隐私泄露、就业替代等问题，甚至导致学术研究范式革命。是否可以用人类的道德规范来引导人工智能技术的可控、向善发展，已引起学界的关注和讨论，本文的旨趣正在于此。

一、自为之物：人工智能体价值对齐的必要性

人工智能技术作为一种自主性智能技术，是人类发明和研发的成果。如何将人类普遍接受的价值观与道德标准转化为可执行的程序化道德代码，并将其嵌入人工智能系统，使其能够按照人类预先设定的价值理念、道德规范和伦理导向来“行为”，这是人工智能技术研发中追求向善发展的重要方向，同时也是人工智能体价值对齐（AI Value Alignment）问题。一般认为，人工智能体价值对齐原则是由人工智能研究领域的计算机科学家罗素（Stuart Russell）教授开创的。2015年1月，他在瑞士达沃斯举行的经济论坛上提出“我们如何才能建立与人类价值对齐的自治系统”这一问题。1 人工智能体价值对齐就是人工智能技术符合人类价值观，与人类价值观保持一致。人工智能体价值对齐源于人类的有限理性，人工智能体的自主性、不确定性和风险性。

1.人类的有限理性需要人工智能体价值对齐

人工智能体是人类创造出来的，是具有某种智能属性和智能行为的人工系统。人工智能体并非自然界本身所具有的“自在之物”，而是人类为了特定目的创造出来的自为之物。换句话说，它不是一种本来就存在的实体，而是人类通过科技和编程所创造出来的“自为之物”。人工智能体的设计和应用始终基于人类的意图和目的，因此它具有明确的目的性和意向性。人工智能体是人类为了满足自身需要而创造出来的人工物，在设计和应用过程中，人工智能技术不可避免地受到来自设计者、使用者以及学习数据偏见的影响。算法本身也是主体价值偏好以及决策偏见强化的结果。因此，人工智能体并非价值中立的，而是负载着人类的价值观和决策偏见。机器学习、深度学习或强化学习等技术都是基于数据统计的，然而，统计方法本身就包含着随机性，这导致人工智能算法在决策过程中产生偏好，这些偏好进一步使得人工智能体具有人类价值的负载性。

人类的有限理性进一步强化了人工智能体价值对齐的必要性。有限理性理论指出，由于认知能力的局限性、决策过程的复杂性以及环境因素的繁杂性，人类决策往往处于完全理性和不完全理性之间的中间状态，这意味着人类无法总是做出完全理性的决策。认知主体的理论框架、思维方法、认知结构的差异，以及价值取向、主观态度在认识过程中都可能导致认知偏差。人类还容易受到情绪和知识的有限性的影响，加上处理信息的能力有限，决策效率相对较低，也可能导致决策的公正性和准确性偏差。相比之下，人工智能体没有人类的偏见、情绪和欲望，它通过庞大的数据库和计算机技术，能够进行更加精细的扫描、研究和分析，从而做出更高效、准确和公正的决策。2这也意味着人工智能体具有自我决策和推理能力，与传统的机器或工具不同。由于人工智能体的这一特性，开发和使用过程中需要引入社会伦理和道德治理机制。这不仅涉及模拟人类智能，还需要确保人工智能体的“价值追求”与人类价值观相匹配，即“价值对齐”。“价值对齐”除了人工智能体与人类价值观相匹配外，还需要不同群体的价值对齐，以在自我决策系统中规避人类有限理性的弊端。在人工智能体中体现人类价值追求和道德素质是至关重要的。总之，人工智能技术不仅需要实现社会价值、环境价值的和谐统一，还应与人类的道德标准相匹配。人类在创造和应用人工智能体的过程中，应承担起相应的责任，包括研发责任、认知责任，以及伦理影响评估和规避风险责任。

2.人工智能体的自主性需要价值对齐

人工智能之所以被称为智能，其核心在于人工智能体的自主性。这种自主性使人工智能体能够根据其强大的数据分析、机器学习与计算能力，辅助人类进行高效预测和决策。瓦拉赫（Wendell Wallach）等人提出了人工智能体的三个特征：互动性、自主性和适应性。其中，自主性指的是在没有外部刺激的情况下，个体有能力改变自身的状态，而不是直接响应外部的互动，这种自主性带来了某种程度的复杂性和与环境的耦合。3 迪哥纳姆（V. Dignum）也指出，自主性是人工智能体的一种识别属性。只有当一个实体具备自主性时，它才能被视为人工智能体：“关于机器人权利的许多思想源于自主性概念，它是人工智能系统的一种识别属性。”4 在哲学意义上，自主性指的是人类自行决定制定、思考和选择遵循的规范、规则和法律的能力和权利。人工智能体的自主性由其自我决策的过程中是否需要人的参与来判定。如果需要人的参与，那么人在人工智能体的决策中发挥着重要作用，这被蒙纳多（Robert Monarch）称为“人在环路”（Human in the Loop）。1 如果不需要人的参与，人工智能体具有自我决策能力，那么它被认为具有自主性。人工智能的自主性还表现在它能够独立承担责任。只要人工智能体能够独立决策，就应该考虑为其嵌入道德，这与人工智能体是否具有道德主体地位、是否能够进行合乎道德的决策无必然联系，也与人工智能体是否具有意识和情感无必然联系。也就是说，只要人工智能体能够独立承担道德责任，就应该为其嵌入道德，从而前瞻性地规避其决策的不良后果。考克伯格（Mark Coeckelbergh）提出了一个观点：“不要问机器人是否有意识、理性、自由意志等，让我们把注意力转向机器人是如何表现的：它是否‘表现’出了人类应该具备的能力？如果是这样，那么无论机器人是否真的具有这些能力和心理状态，我们都应该将道德主体和道德责任赋予机器人。”2 可以说，人工智能体具有自主性是其不同于其他技术人工物的一个重要特征。由于人工智能体的自主性可能导致其行为偏离人类的控制，因此在人工智能技术研发初期符合人类价值观成为确保其合乎伦理发展的关键一环。

3.人工智能体的不确定性和风险性需要价值对齐

人工智能技术作为颠覆性技术，是人类为了达到某种目的而创造出来的。由于人工智能系统内在的复杂性和不确定性，人类很难预测其发展趋势及下一步行为。基于大量数据分析的人工智能技术具有多种技术路线，包括模拟人类推理的符号主义、基于控制论模拟人类行为的行为主义，以及基于大脑神经网络的连接主义。这些路线和算法的多样性，加上它们的复杂性和不透明性，使得人工智能技术在伦理上具有挑战性，这日益成为需要前置性思考的问题。

人工智能体具有不确定性。西蒙（J. Simon）提出：“我们不知道它们是如何工作的，我们也无法评估它们对我们收到的信息的影响。机器具有不透明性，算法黑箱导致机器人的行为的不确定性。”3 由于社会中存在的偏见数据被带入算法中，或者算法中的数据出现偏差、缺失，又或者算法本身的设计和参数设置有问题，导致算法难以避免的偏差出现：“算法不可避免地会做出有偏见的决定。一个算法的设计和功能反映了它的设计者和预期用途的价值，如果只是在某种程度上，一个特定的设计是首选的最佳或最有效的选择。”4 算法黑箱和算法偏见的客观实在性增加了人工智能体的不确定性。

当人工智能体被应用到经济发展和社会生产、生活中时，它可能会催生大量的伦理风险，如公共安全、就业替代、算法歧视和隐私侵犯等。这些伦理风险可能会对社会的和谐与稳定产生负面影响。人工智能技术重塑世界的同时，也带来了公共安全风险、算法歧视、数据泄露、责任伦理挑战、人类主体性的丧失等一系列问题。这些风险是人工智能技术的本质属性所致，具有普遍性、客观性、必然性的特征。人工智能体的风险性是由多种因素决定的，包括技术因素如算法黑箱等，以及人工智能体作为可以自我推理和自我决策的技术所带来的潜在伦理风险。人工智能技术是会聚性技术，其不可控性增强，使得风险概率增加。人工智能体的风险性不仅仅是其系统的本质属性，也与相关主体的价值取向和价值选择密切相关，这体现了不同利益相关者的价值倾向和利益考量。通过对人工智能体风险性的深入分析，可以明确伦理风险的必然性，以及风险主体之间的价值差异和价值冲突。如果人工智能体不嵌入伦理道德观念，其行为不符合人类伦理道德，或者其行为结果不合乎人类道德标准，那么随着其自主程度的提高，其潜在的伦理风险就会越来越大。这种背景下，人工智能体的不确定性和风险性更加凸显了对其道德嵌入的必要性。

二、道德主体考察：人工智能体价值对齐的可能性

与必要性不同（对价值对齐的需求与人工智能体是否具有道德主体地位无关），对人工智能体价值对齐可能性的分析则必须考察人工智能体的道德主体地位问题。人工智能体能否嵌入道德，关系到其能否成为道德主体（Moral Agents，又译为道德行动者、道德行为体、道德智能体或者道德代理等）。这不仅涉及对人工智能体潜在道德地位的考察，更需要对其道德调节作用进行分析。

1.人工智能体非人类主体但具有类主体地位

人工智能体（Artificial Agents）与人类主体（Subject）在许多方面存在显著差异，人工智能道德主体地位中的“主体（Agents）”，指的是人工智能体可以成为道德行为体，或者可能具有代理人类道德行为的能力，可以代理人类行动。

第一，人工智能体可以按照人类的道德标准行动。当谈到人工智能体是道德行为体时，通常是指那些受到一套道德规范指导的对象，并且它们可能不会改变这些道德规范。人工智能体虽然具有与人类主体同样的按照道德规范行动的能力，但与人类主体的属性截然不同，是因为人类道德主体依赖自己的独特属性，即具有意识和道德判断能力。正如塞尔（J. Searle）所说：“机器人根本没有意向状态，它只是受电路和程序支配的简单的来回运动而已。”1 并且，人类道德具有历史传承性，它是社会经验和人类智慧的累积，受历史文化的影响。相比之下，人工智能体没有意识和意向状态，人工智能体无法习得人类的社会经验、无法受人类历史文化影响，也无法累积人类智慧和道德规范。因此，在传统的占主导地位的伦理框架内，人工智能体被普遍认为不具备道德主体地位。有学者站在工具论立场反对赋予人工智能体道德主体地位，认为人工智能体只具有工具性价值，其伦理和责任只能由人类主体来承担，那么讨论人工智能体的道德主体地位没有意义。例如，约翰逊（D. G. Johnson）和米勒（K. W. Miller）指出，机器人技术的设计应确保责任分配仍然“与人挂钩”。2 他们认为，“人工物能否成为道德主体”根本就是一个错误的问题。由于人工智能体由人类研制和使用，归人类所有、所用，从这个维度而言，人工智能体与其他工具无异，因此，人类将对研制和使用人工智能体的后果负责。从这个意义来讲，人工智能体仅仅是“高级工具”，“无论程序的机械特性在多大程度上是透明的，人们都会把机器人当作仅仅是工具”。3 人工智能体在很大程度上仅是人类决策的辅助工具，特别是在机器仍由人类来控制和干预的时候。当人工智能体“做出”不良行为时，人类可通过现有的道德和法律规则来约束自身而非人工智能体。这是因为，错误的决策实际上是由人做出的，而非人工智能体——人工智能体只是人的命令和指令的执行者而已。错误决策应该由人类负责，而非人工智能体。工具论者还认为，如果人工智能体不具有道德主体地位，则人类不可能为其嵌入道德，让其符合人类价值观。但人工智能体绝非一般人工物，其具有自我推理、自我决策、自我学习能力，并且能够根据所学习的知识进行行动。因此，不能简单地将人工智能体视为简单的工具。卢西亚诺·弗洛里迪（Luciano Floridi）就反对工具论者的观点，并提出了“人工道德主体（Artificial Moral Agents，缩写AMAs）”的概念。这个概念包含两层含义：一是探讨一个人工系统是否有可能成为道德主体；二是探讨构造具有伦理意义行为的人工智能体的可能性。弗洛里迪的观点引起了学者对人工智能体的关注，机器伦理学（Machine Ethics）应运而生。机器伦理学是研究如何研发具有伦理意义和行为的人工智能体的学问，主张道德主体的行为受道德标准的支配，非道德主体的行为不受道德标准的支配，旨在论证人工智能体应该按照人类道德标准行动。有许多学者坚持认为人工智能体具有道德主体地位。比如，美国学者迈克尔·安德森（Michael Anderson）和苏珊·安德森（Susan Leigh Anderson）夫妇提出，“赋予机器人伦理原则或者促进机器人解决可能预见的伦理困境，在机器人自主做决定的时候，提高它们的道德考量比重”。4 瓦拉赫（W. Wallach）也提出，“具有道德决策能力的机器人将成为技术上的必需品”。5 过去，关于技术和伦理关系的研究主要集中在人类负责任和不负责任地使用技术、机器设计中的设计主体责任以及机器应用带来的社会伦理等问题。当人工智能体具有道德主体地位的主张引发关注后，人们意识到不仅人类才是道德主体，才具有道德推理能力，人工智能体也具有道德的主体地位，也可以受人类道德标准支配，即可以嵌入道德并按照嵌入的道德标准行动。简言之，虽然人工智能体与人类主体不同，但由于它绝非一般人工物，具有类主体地位，可以按照人类道德标准行动，因此，人工智能体价值对齐具有可能性。

第二，人工智能体具有类道德主体地位。当谈到人工智能体代理人类行动时，通常是指人工智能体代表人类实施道德行为并由人类承担道德责任。随着人工智能技术的迅猛发展，许多人开始质疑人类作为唯一道德主体的概念。“对许多道德哲学家来说，道德就是要求某人对自己的行为负责和对自己行为的正确性负责，然后关于道德地位和行为的问题才是核心。”1 丹尼尔森（P. Danielson）在1992年就提出“功能性道德”概念，2 他认为机器具有功能性道德。在《道德机器：如何让机器人明辨是非》一书中，艾伦和瓦拉赫区分了三类道德主体：操作性道德（Operational Morality）、功能性道德（Functional Morality）与完全道德主体（Full Moral Agency）。人工智能体不是完全道德主体，但其具有操作性道德和功能性道德，从理论上讲可以代理人类实施道德行为，从而具有潜在的道德主体地位。机器伦理学家将人工智能体视为实际的或潜在的道德主体，具有潜在的类道德主体地位。弗洛里迪和桑德斯（Jeff W. Sanders）在《论人工智能体的道德性》中指出，智能机器作为计算性的产物，与其他许多人工物不同，其行为具有某种程度的独立性，使其可以充当“人工智能体”。3 温斯伯格（A. Van Wynsberghe）和罗宾斯（S. Robbins）提出：“机器伦理学领域的行业领袖和学者会让我们相信，机器人在我们生活中发挥更大作用的必然性要求赋予机器人道德推理能力。以这种方式被赋予的机器人可以被称为人工道德主体（AMAs）。”4 美国学者摩尔（Jame H. Moor）将道德主体分为四类：道德影响主体（Ethical-impact Agents）、隐性道德主体（Implicit Ethical Agents）、显性道德主体（Explicit Ethical Agents）以及完全道德主体。5完全道德主体可以做出明确的伦理判断，并且通常有能力合理地证明这些判断。尽管人工智能体并不属于完全道德主体，也不是像人类一样的道德主体，但随着其自主性越来越高，具有类主体地位，可以按照人类的道德规范表现出合乎伦理的行为。在这种情况下，人工道德主体与人类道德主体在按照道德标准行动方面没有显著的本质差异，因此，人工智能体应被视为与人类同质的实体。人工智能体价值对齐的目的除了前文所述的引导和规范其行动外，还在于代表不同的人类共同体来行动，以实现这些共同体各自不同的利益诉求。机器伦理学家寻求一种方法来模拟人类的道德行为——实现对其主要特征的技术模仿，从而实现人工智能体的道德代理功能。总之，人工智能体具有潜在的类道德主体地位，作为道德载体能够代表人类行动，增强了人工智能体价值对齐的可能性。

2.人工智能体具有道德调节作用

不少技术哲学家关注人工智能体的道德调节作用。技术后现象学为道德主体的构成增加了一个新的维度：它的技术中介特征。现象学是一场哲学运动，旨在分析人与世界的关系。后现象学家伊德（D. Ihde）认为，技术是人和世界的中介，基于技术在人与世界间中介作用的不同，伊德提出了“人—技术—世界”的关系类型：具身关系、诠释学关系、它者关系和背景关系。6 荷兰后现象学技术哲学家维贝克（Peter-Paul Verbeek）在技术中介论（Technological Mediation）基础上，提出了道德中介（Moral Mediation）观点。他认为，技术物调节着人的道德行为和道德决策，其不仅“具有”意向性，而且也可以成为“道德中介”。7 维贝克在《道德的技术中介——道德主体和道德客体的后现象学研究》1 中指出，人与世界的关系需要从“意向性”的角度来理解，即人类探索世界的直接性。人类和技术不再是分离的，而是以无数种方式相互影响。维贝克给出了超声波的例子来说明人工智能体的道德中介作用。他指出，是否需要将某种形式的道德中介归于像超声波扫描仪这样的设备，因为超声波对道德具有积极作用。超声波技术在孕妇和胎儿之间的关系中所起的中介作用的分析表明，技术有助于形成行动和对现实的解释，而这些行动和解释构成了道德决策的基础。超声波可以用来筛查唐氏综合症，在孕后期，它可用于检测胎儿是否存在缺陷，因此，超声波有助于父母或者医生对胎儿的未来进行决策。超声波的作用从“期待一个孩子”变成了“选择一个孩子”。通过对超声波在堕胎道德决策中的中介作用的后现象学分析，人们可以看出，超声波成为有关未出生婴儿生命的决策者。因此，人类的行为不是由技术决定的，而是由技术塑造的。伦理学主要不是关于我们需要遵循什么命令的问题，而是关于人类如何将自己建构为道德规范的“主体”的问题。伦理不仅仅是人类的事情，而且是人类和技术之间的一种关联。人的行动受到技术的居间调节作用，因此，技术也是伦理空间的有机组成部分，伦理成为技术的内生要素，而不是技术的外部要素，这为人工智能体的道德嵌入提供了另一种可能性。换句话说，技术不仅仅带来伦理问题，还可以解决伦理问题，因此，应该从正面角度肯定技术的积极伦理价值。既使不考虑人工智能体是否具有道德决策能力和道德行动能力，仅从其具有道德调节作用角度讲，仍然可以为其嵌入道德内容从而让其遵守人类道德规范。

随着人工智能技术的飞速发展，人工智能体与人类的相似程度日益增加。对此，人们不能简单地套用旧的伦理规范，而应随着人工智能技术进步形成新的伦理共识，并习得新的道德规范。同时，人们还应注重在人工智能技术的发展中嵌入道德要素，使人工智能体具备道德调节的作用或者具有道德规范功能，从而有效规避人工智能体的应用可能带来的负面效应。通过这种努力，人们不仅可以规范和引导人工智能技术的向善发展，还能确保其与人类的和谐共存。

三、分布式：人工智能体价值对齐的路径

人工智能体价值对齐不能一概而论、一蹴而就，应采取分布式嵌入方式。首先，要明确工具性价值与内在价值的区分。例如，为了更好地与人类相处，狗会被训练成具有一定程度的安全性和可靠性，但人们不会因此认为狗具有道德属性。同理，当人们说人工智能体可以嵌入道德，可以达到价值对齐的目标时，是指其可以具有工具性价值或者可以按照人类的道德标准行动，但道德属性未必是人工智能体的固有属性。其次，要明确人工智能体价值对齐是一个规范性问题而非描述性问题。人工智能体价值对齐不是关于人工智能发展状况的事实陈述，而是基于人类价值观的判断，引导人工智能体规范发展的规范性问题。人工智能体具体对齐哪些道德，是由人类的价值观决定的。再次，人工智能体价值对齐需要平衡三种关系：其一，处理好构建伦理共识与不同价值观之间的关系，平衡价值统一性和价值相对性、价值多元性之间的关系；其二，解决统一的价值标准与不同技术路线、不同应用场景之间的关系，以及道德嵌入的抽象价值标准与具体实践之间的关系，旨在解决嵌入的抽象价值理念与具体的道德嵌入实践之间的鸿沟如何填平的问题；其三，处理好人生终极伦理意义和短期价值目标之间的关系。

1.达成价值共识与尊重不同价值观是价值对齐的前提和基础

人工智能技术发展中的不同主体具有不同的价值取向和利益诉求，这些取向和诉求会对人工智能伦理风险中的价值排序和价值选择产生影响。道德观念不是先验的，任何伦理学都无法提供终极的、绝对的道德真理体系。承认价值观的多元化，尊重每个人的基本权利是一种道德义务，不同主体可以通过沟通达成伦理共识。明确价值诉求旨在使人工智能的发展更符合公众利益和人类福祉。在面对伦理冲突、道德悖论和道德难题时，人们应努力寻求在不同主体间达成共识。许多国际组织或者行业协会制定了行业规范和技术标准，在人工智能价值对齐中起到了重要作用。例如，2018年欧盟执行《通用数据保护条例（GDPR）》，提出了数据保护理念；同年，又发布了《可信人工智能伦理指南草案》，规定了数据主体的权利，并强调伦理规范的重要性。英国标准学会（BSI）致力于为设计师提供道德风险评估标准。新加坡、印度、澳大利亚等国也提出或制定了有关隐私、安全和道德的行业准则。中国也积极参与到人工智能伦理规范的制定工作中。2019年，中国发布了《新一代人工智能治理原则——发展负责任的人工智能》，提出了人工智能治理的框架和行动指南。同年4月，中国腾讯研究院发布了《人工智能伦理风险分析报告》。5月，北京智源人工智能研究院联合北京大学、清华大学、中国科学院自动化研究所等共同发布了《人工智能北京共识》，涵盖15条有益于人类命运共同体构建和社会发展的原则。2021年，中国发布了《新一代人工智能伦理规范》，以引导和规范人工智能的发展。2022年 3月 20日，中共中央办公厅、国务院办公厅印发了《关于加强科技伦理治理的意见》，明确了治理要求和科技伦理原则：“伦理先行是治理要求”；“增进人类福祉、尊重生命权利、坚持公平公正、合理控制风险，保持公开透明”是科技伦理原则。1

国际组织和行业协会在人工智能体价值对齐方面的工作，主要是通过制定人工智能技术的实施细则和行业规范来推进的。这些细则和规范旨在引导人工智能技术从业人员遵守职业道德规范，约束个体行为和组织行为。与职业伦理相比，行业规范具有更强的约束性。通过提倡设计师的职业道德，明确其职业责任，并以行业规范形式规定实施步骤和设计标准，能够有效地约束设计者的行为。最终目标是有效防控科技伦理风险，推动科技向善，让科技真正造福人类。不同的国际组织、国家和行业协会制定了不同的伦理规范，例如，2019年，旧金山禁止政府使用人脸识别技术，而我国人脸识别技术却在多种场合普遍应用。尽管如此，总的来说，人工智能技术的进步展现了人类共同的价值追求。在人工智能发展过程中，应始终维护人类的尊严，确保人工智能技术的透明性和可解释性，守住人工智能发展的安全性、可控性底线：让人工智能技术为人类服务，而不是相反，必须避免人类被人工智能体控制，甚至危害人类的安全。2023年11月1日，首届全球人工智能安全峰会在英国布莱切利召开，28个与会国和欧盟签署了《布莱切利宣言》。各国一致同意，通过国际合作建立人工智能监管方法。宣言提出了一系列需要解决的问题，包括保护人权、透明度和可解释性、公平、监管、安全、适当的人类监督、公平、减少偏见、隐私和数据保护等。人工智能体价值对齐不仅受到主体价值观和社会价值观的影响，还涉及技术层面的设计规范和标准。在道德嵌入实施前，应首先就嵌入的道德原则达成共识，这是人工智能体道德嵌入的前提。与此同时，尊重不同的道德习惯和文化传统，则是最终实现道德嵌入的前提和基础。

2.人工智能体价值对齐的分布式路径

把道德嵌入人工智能体中，以规范其应用，是至关重要的。这种价值对齐对人工智能技术的发展具有基础性、全局性的影响，甚至可以被视为一种研究“范式”的转换。目前，大多数道德研究主要集中在“人”的方面，而很少在“物”的方面，这意味着人们未能充分利用“物”的道德调节作用来引导人工智能技术的向善发展。人工智能体价值对齐，本质上就是用人工智能技术来治理人工智能技术，技术既是治理的手段，也是治理的目标，通过人工智能体对齐人类价值，引导人工智能技术合乎规范地发展。为了实现人工智能体价值对齐，需要遵循以下路径：

首先，人们必须把价值共识嵌入人工智能体，使其行为始终符合道德要求。由于人工智能体没有肉体，不具备人类的情感和主观的私人偏好，人们可以通过价值对齐，避免其行为受到人类个人私欲的干扰。同时，人们也要确保机器人设计、制造、使用的整个过程具有公开性和透明性。在价值对齐过程中，道德诉求的多样性导致道德选择是一个普遍性问题。即使是相对简单的人工系统，如吸尘机器人，也可能面临道德的抉择。当小昆虫误入其工作区域，吸尘机器人是否应杀死或者驱离它？因此，道德选择对于人工智能体价值对齐来讲是普遍性问题。随着人工智能技术的不断智能化和自主化，其所面临的道德情境将变得越来越复杂。人们需要仔细考虑人工智能体对齐哪些人类价值，这是一个日益棘手的问题。对人工智能体价值对齐不能简单地复制人类所有的价值观，“用一整套人类价值观对人工智能进行编程将被证明是一项极其困难的任务”，1 而是要确保人工智能的发展与人类的总体目标保持一致。人工智能体的道德嵌入并非意在赋予其与人类相同的道德观念、价值理性和价值观。相反，其目标是确保人工智能体能够按照人类预先设计的价值理念、道德规范来行动，不偏离人类总的价值方向，也就是说，人工智能发展是一个规范性问题。面对价值冲突，人们需要对嵌入的道德进行价值排序，如数据共享与隐私保护之间可能存在矛盾，公平和效率之间也可能产生冲突等。家庭护理机器人应该如何平衡用户的隐私和护理需求；当事故无法避免时，自动驾驶汽车应该如何“选择”撞到什么或撞到谁？同样的选择困境还存在于人工智能促进经济发展与破坏环境之间的矛盾、人工智能技术发展的短期效益与长远利益、个人利益与社会利益之间的矛盾等。不同的利益相关者之间也具有不同的价值诉求，例如，人工智能算法工程师追求技术水平，人工智能企业关注经济效益，政府关注技术使用的社会后果和社会效益等。这些矛盾和冲突凸显了人工智能体道德嵌入在多元价值中的权衡难度。为了解决这些矛盾和冲突，人们需要对多元价值进行排序，并要避免价值偏见，保持价值之间的平衡。与此同时，面对不同的应用场景，还要对价值目标做出实时的动态调整，不能固守某种价值而忽视其他价值，必须在人工智能体价值对齐中坚持分布式对齐，根据具体的场景和具体的人工智能技术实践，分析人类的当前需要和长远目标，来确定对齐人类哪些价值。

其次，把伦理规定细化为具体的设计标准，使道德成为人工智能体的核心要素之一。价值目标的设定只是人工智能体价值对齐的第一步。具体来说，发展人工智能技术是为了实现增进人类福祉、维护人类的尊严和自由、安全可控、可解释、公正等价值目标，在这些价值目标确立之后，还需要依据一定的方法，把伦理规范转化为具体的设计标准，实现价值目标的具体场景落地，如人工智能系统的“安全性”价值目标需要转化为“技术鲁棒性”“安全可中断性”等设计标准，人工智能系统在输入错误、磁盘故障、网络过载或被恶意攻击情况下能否保持系统稳定，在具体的操作场景中，为人工智能系统设置紧急停止装置或者终止设施，能够中断人工智能技术实施从而保障技术安全。同样地，人工智能系统的“可解释性”价值目标需要转化为“故障透明性”“数据可追溯性”等设计标准，避免算法黑箱的出现；人工智能系统的“公正性”价值目标需要转化为避免“算法歧视”“算法滥用”等设计标准；人工智能系统的“可控性”价值目标需要转化为“系统可追踪”“系统可追溯”等设计标准，能够对系统的错误进行追踪或者溯源，找到出错原因，避免再犯同样错误。为了实现人工智能体价值对齐，需要将基本价值目标分解为具体的技术设计标准。这一步至关重要，因为它保障了人工智能体价值对齐的可操作性，使人工智能体真正符合人类价值观，如人类福祉、尊严、隐私安全和公平公正等。为人工智能体嵌入道德算法，将特定群体的价值观和道德标准程序化为道德代码嵌入人工智能系统的同时，通过内置道德决策场景的指导性抉择标准或者对人工智能体进行道德训练，可以使其具备道德推理能力。利用机器学习算法投射使用者的道德偏好，让人工智能体具有复杂的功能性道德，并构建一种可执行的机器伦理机制，可以使其适时地自行做出伦理抉择，进而用负载价值内涵的道德代码实现人工智能体价值对齐。此外，通过提倡人类责任、制定职业规范和标准、设计道德机器等方式，把主体性价值嵌入人工智能体中，以规范AI行为并防范人工智能体的道德风险。通过内置的“机器伦理调节器”，也可防范人工智能体的道德风险。不但如此，对于人工智能体价值对齐，人们应该通过积极主动的前瞻性研究视角，把人工智能体作为道德进化的新引擎，以重塑社会新道德、构建人工智能时代新型的道德关系，以及重塑智能时代的道德行为。

3.协调好终极伦理目标和短期价值追求之间的关系

人工智能体价值对齐的高标准和终极目标是满足人类的共同价值，是为了人类的共同福祉，为了人类最终的自由和解放。人类创造出人工智能体，目的是为人类服务的，因此，人工智能体的研发应该维护人类尊严，确保人类的主体性地位。人类短期价值追求和终极目标之间是有冲突的，比如，ChatGPT等人工智能技术可以减轻暂时的工作负担，避免人类的重复性劳动，但长期使用可能侵占人类的工作机会，甚至导致失业等社会问题；人工智能简单便捷的操作界面长久来看可能导致人类智力下降的风险；人工智能技术无处不在可能导致技术异化、技术上瘾、丧失人类自由等问题。人工智能作为一种技术，如果不对它进行有意义的控制、调节和限制，它有可能作为异化的技术对人们产生威胁。随着人工智能体自主性和学习能力的增强，人们担忧智能机器人可能征服人类，这种担忧源于人工智能技术对人类社会的革命性、颠覆性影响，这种影响挑战了人类的主体性地位，关涉人类的命运、尊严和福祉。人工智能体的道德嵌入是规范性的。虽然人类的行为是基于自身的选择和心理体验，但人工智能体的道德嵌入却是基于人类而非AI的道德观念。人类要以负责任的态度研发与使用人工智能体，以控制其风险，并确保人的主体性地位。人工智能嵌入道德具有底线要求，这是确保人工智能技术安全、人的生命优先于所有功利性价值等具体要求的体现。在人工智能体创造过程中，让其按照人类的价值观去行动，让其遵守人类道德准则，对其划定适用边界，守牢底线，以维护人的尊严和福祉。

综上所述，人工智能体价值对齐既是一个规范性问题，需要人类为人工智能体划定研发和使用范围，并指引其发展方向；同时，它也是一个技术性问题，需要把待嵌入的道德规则转化为具体的设计标准。在实现人工智能体的道德嵌入时，既要尊重人类伦理多元主义，也要兼顾价值的相对性，既要遵守人类共同规范，也要尊重不同的区域文化。为了充分发挥人工智能体造福人类的作用，人们需要综合运用伦理和法律等手段，通过“物”道德和“人”道德的综合作用，以及人的“自律”、人工智能体的“物律”和制度的“他律”等多方面的综合运用，确保人工智能体的应用符合人类的共同价值和利益。

Exploration of Distributed Pathways for AI Value Alignment

YAN Kunru

Abstract： The value alignment of artificial intelligence stems from their autonomy， uncertainty， and risk attributes. Value alignment requires analyzing the moral attributes and regulatory role of artificial intelligence agents， as well as their necessity and possibility.In order to achieve the goal of value alignment of artificial intelligence， it is necessary to properly handle the relationship between ethical consensus and diverse values， abstract value rules and specific application scenarios of artificial intelligence technology， and the ultimate ethical goals of human beings and short-term value pursuits. On this basis， basic moral principles and ethical bottom lines should be established for the development of artificial intelligence agents， clarifying the design boundaries of artificial intelligence agents， avoiding interference and harm to human values and rights， avoiding AI systems deviating from human values， and guiding and regulating the development direction of artificial intelligence technology.

Key words： artificial agents；value alignment；limited rationality；autonomy

（责任编辑：苏建军）