生成式人工智能可否应用于道德增强<br/>——以苏格拉底式道德助手为例

生成式人工智能可否应用于道德增强
——以苏格拉底式道德助手为例

2024-01-02安然

佛山科学技术学院学报（社会科学版） 2023年5期

安然

（湖南师范大学公共管理学院，长沙 410081）

2022 年底，随着Open AI 公司发布了新一代生成式人工智能ChatGPT 3.5，全球迅速掀起了一场人工智能热。生成式人工智能所呈现出的强大功能，使其具有广阔的应用前景。那么能否将新一代人工智能技术应用在道德领域，利用人工智能的优势帮助人类实现道德进步呢；如果可能的话，人工智能在道德领域的应用又会产生何种技术困境？早在2015 年，道德增强的提出者赛沃莱思库（Julian Savulescu）等人就构想了基于人工智能技术的道德增强路径，希望借用人工智能强大的信息收集和处理能力协助人类用户更好地作出道德决策。在此基础上，学者们提出了人工智能道德增强的不同路径。

苏格拉底式道德助手作为人工智能道德增强的一种路径，具有独特的优势。该路径借鉴和参考了苏格拉底的教育方式，通过与人类用户不断地对话，帮助用户掌握和理解相关的道德知识和道德推理过程，在人类道德进步的过程中扮演了“助产士”的角色。当今以ChatGPT 为代表的生成式人工智能发展迅速，使苏格拉底式道德助手具备了一定的技术可行性，是所有人工智能道德增强路径中最有可能实现的一种。本文将以苏格拉底式道德助手的构想为主线，充分结合当前人工智能发展的最新技术成果，探讨将生成式人工智能应用于苏格拉底式道德助手的可行性和潜在风险，为今后道德领域中人机协作提供启发。

一、问题的缘起：苏格拉底式道德助手的构想

随着人工智能技术的迅速发展，其具备了越来越强的数据和信息处理能力，可以弥补人类的先天认识缺陷。因此，一些学者考虑利用人工智能技术来推动人类道德的进步。人工智能道德增强的路径主要分为三种：强道德机器、道德人工智能与苏格拉底式道德助手。强道德机器是指通过制造具有良好道德品质的机器，将人类道德决策完全交给机器系统，进而一劳永逸地解决人类的道德缺陷［1］。抛开该路径的技术可行性不说，它剥夺了人类在道德上的自主性和选择权，人类成为机器决策的执行者，使该路径饱受批评成了不可能的选项。相较于强道德机器，道德人工智能将价值观选择权还给了人类。用户可以在系统中自主选择道德价值（如勇敢、仁慈、正义等），并对不同的价值进行权重，系统根据用户的选择给予用户合理行动的建议［2］。进一步地，学者们将这样的人工道德建议者（AMA，Artificial Moral Advisor）类比为“理想观察者”，这样一个系统是基于个体视角而非上帝视角，保持了价值观的相对性，并保留没有私利、没有情感地做出一致性决定的能力［3］。用户需要根据自身的价值观选择相应的系统版本（如道义论版本、功利主义版本、天主教版本等），系统将扮演“理想观察者”在一个特定的环境下提供相应的建议［3］，具有更强的规范性。道德人工智能的优势是明显的，既能补足人类先天的认识缺陷，又能够充分尊重人类价值的多元性。但是，用户的道德自主性是受到侵犯的。系统基于用户的自身价值提供相应的答案，但人类在道德决策中主体作用被代替，用户只能选择接受或者不接受相关建议，长此以往还会形成对机器的依赖。同时这样的价值多元系统，只能体现系统设计者对价值多元主义的尊重，却无法让用户在多元化的环境下感受不同价值之间的碰撞。一旦选择了相关的价值或者系统版本，人们会陷入单一价值预设所产生的困境中，而不会从根本上反思自身道德观的好坏。

对道德人工智能的批评主要集中在使用者道德自主性丧失和自我反思失败两个方面。因此，劳拉和德克尔提出了苏格拉底式道德助手。不同于道德机器和道德人工智能将用户完全排除在人工智能道德决策之外，作为苏格拉底式道德助手的人工智能强调了人类与机器的交互。苏格拉底式道德助手有两个明显的特点：一是强调用户在道德决策中的参与程度；二是强调机器对人的帮助，而不是仅仅输出一个道德结果。作为苏格拉底式道德助手的人工智能系统不会预设或提供一系列道德价值标准。通过用户与机器的对话，用户的道德决策会发生一定程度的改变。这个系统的目的不是让用户达到在系统中预设的道德水平，而是让用户自然而然地获得道德的进步［4］。这个过程就类似于苏格拉底式的启发，不断否定谈话者所下的定义，并帮助对方产生自己的知识。这种知识不是一般的常识性或者隐藏的知识，而是将经验、逻辑、道德与个人信仰相结合所形成的道德判断。通常，人会先做出相应的道德判断并给出解决办法，然后提交给机器审查，机器就会像苏格拉底一样，提出相应的问题，并揭示这些道德判断和解决办法的错误。苏格拉底式道德助手可以理解成为一种传统道德教化的升级版，虽然对其定位仍然是一种道德辅助增强，但是它更多扮演的是一种有着人工智能加持的道德导师的作用，通过对相关道德知识的普及和对道德推理逻辑引导等手段，来实现使用者自身的道德进步。

苏格拉底式道德助手可以有效帮助人们学习和理解道德推理。该系统通过计算机、虚拟现实设备或大脑接口从相关科学、语言学、逻辑以及人们如何思考和推理的数据库中接收信息；此外，它还从伦理专家那里收集信息。在传感器的帮助下，它将监测人们的生理状态。然后，系统将处理所有这些信息，并使用上述标准，通过虚拟语音助理与人们进行对话。系统会提出一系列问题，比如“你为什么这么想？”“这是你最后的理由吗？”“你为什么认为这是最好的理由？”“另一个原因呢？”“你说这个词是什么意思？”“你知道还有其他意思吗？”等等。在对话中，人们可以获得相关的经验性知识以及一些对道德概念的更深刻认识、理解和学习［4］。通过向用户展示对话逻辑，帮助其看到自己的道德论点的逻辑错误，提高用户对于自身局限性的意识，比如说生理因素或者环境因素对人的道德决策的影响。最后，该系统会针对用户的实践，提出相应的意见和指导。

进一步地，劳拉详细阐述了苏格拉底式道德助手的技术标准和设计思路。苏格拉底式道德助手的技术特点在于它是谈话机器（Conversational Bot）而非具身化实体。苏格拉底式道德助手是作为专用人工智能而非通用人工智能而存在。该种人工智能只能被应用于道德推理领域来进行道德训练。在设计思路上，苏格拉底式道德助手与一般人工智能最大的不同是被用来指导人们做正确的事情。因此，苏格拉底式道德助手可以通过混合进路（Hybrid Strategy）进行设计［5］。设计者只需将特定的策略编程到人工智能当中，让系统能够根据相关的策略对于人们的回答进行评估和回应，而无须考虑复杂的道德原则争议。同时，通过持续与用户对话会形成大量的语料库，人工智能可以依据此进行算法学习，不断更新思考策略以应对用户的新问题，同时提升自身的功能性技能（如对话能力、辩论能力等）。

二、苏格拉底式道德助手的优势和可行性

首先，苏格拉底式道德助手充分尊重了用户在道德决策和道德实践的自主性。相较于生物医学道德增强与道德人工智能，苏格拉底式道德助手没有直接改变和影响用户的决定，而是通过对话的手段，充分调动用户的积极性对自身的想法和行为进行反思，帮助用户开阔思路，察觉出潜在的道德错误，从而不断调整行动策略和方法。通过与苏格拉底式道德助手的对话，用户的道德推理和思辨能力会获得巨大提升。其次，苏格拉底式道德助手提高了用户的参与感。在其他的增强模式中，用户都处在被动接受的状态，如直接调整你的激素水平来改变你的决策能力，或者说直接提供一个答案供用户执行。从一定程度来说，这是用技术手段代替人类决策。对于苏格拉底式道德助手来说，用户在道德决策的过程中起着主导作用，人工智能只是作为一种引导和辅助，通过提供案例经验和相关道德知识，梳理论证的逻辑，最终提供一个建议性策略。通过良好的人机交互和人机协作，做出较好的道德决策和道德行为。最后，苏格拉底式道德助手在道德价值上是中立的，这是为了避免用户在狭隘的价值观下进行决策。在日常的道德决策中，人们总是会根据固有的价值观念和已有的知识体系去做出决策，不会从根本上去反思自身的价值观念和知识体系。在苏格拉底式道德助手的系统中，用户可以与中立的或者多个具有不同价值观念的人工智能进行沟通和交谈，在对话中可以意识到自身价值观念和知识体系的局限，真正获得本质上的反思。这个过程可以达到一种罗尔斯式的反思性平衡。

苏格拉底式道德助手的构想最早是由劳拉在2020 年提出的。在此之前，人工智能技术已经获得飞速的发展，以深度学习和神经网络为代表的机器算法已经取得了令人瞩目的成就。在2022 年底，随着Open AI 公司发布了ChatGPT 3.5，人工智能所呈现出的能力再次让世界震惊。ChatGPT 是以对话形式为主的生成式人工智能，可以通过自然语言与人类用户进行正常的沟通和交流，沟通的内容实现了从专业领域到生活场景的全方面覆盖。正是基于此背景，苏格拉底式道德助手不再是学者们的构想，而拥有了现实的技术基础。

从前文对苏格拉底式道德助手构想的描述，要建构一个这样的人工智能系统，最需要克服的是人机之间正常沟通的技术难题。首先在对话能力上，ChatGPT 已经可以用自然语言正常与人类用户进行沟通和交流。基于大语言模型（Large Language Model，LLM），通过变换器（Transformers）算法，极大提升了机器对于语言的学习能力。公开资料显示，GPT-3 已经通过无监督学习在8 年中利用网络爬虫（Python）对近一万亿个单词进行了训练。ChatGPT 可以运用自然语言输出新闻、文案、小说等内容，并回答人类用户的各种问题。自然语言难题被攻克也被视为人工智能发展史的里程碑事件。在Slonim 团队的辩论者项目中，通过开发具有自主辩论能力的人工智能，使其参与到与人类辩手进行辩论的比赛当中。在这些开发者看来，相较于一般的对话形式，辩论是人类语言的高级形态，也是体现人类智慧的基本能力。如果能够在此方面实现突破，则不仅仅是技术上的革新和改进，更是实现通用人工智能的重要一步。在他们看来，辩论能力是多种能力的集合，而处理复杂问题的能力是检验通用人工智能的重要标志［6］。

在实现了基本的对话能力和辩论能力，人工智能能否输出高质量文本成为关键。在一个创造哲学家的语言模型项目中，学者基于GPT-3 的基本模型，将当代著名哲学家丹尼特（Daniel Dennett）的大部分作品作为语料库进行训练，通过微调的方式训练出了一套模型，其可以生成基于丹尼尔·丹尼特的哲学理论，输出结构完整、论证严谨的相关内容。开发者为了进一步证明生成内容的正确性和真实性，向丹尼特提出了十个哲学问题，然后将相同的问题对微调后的GPT-3 版本进行提问。实验结果表明，即使是专业的丹尼特研究者和哲学学者也很难在短时间内区分答案究竟是机器还是丹尼特自己的回答［7］。最后，在复杂场景下人工智能的表现仍然令人赞叹。在西塞罗项目中，开发者将人工智能西塞罗放入一场外交游戏中，通过与人类的合作与谈判以及取得的效果去检验人工智能在复杂场景下的决策和应对能力。最后实验结果显示，只有一名人类玩家猜测出西塞罗可能是人工智能，而其他人则没有任何异议。西塞罗是由对话模块和战略推理引擎所组成，一方面通过战略推理模块，预测其他人类玩家的决策和行动，适时地调整自己的意图和行动，并将相关的计划映射到自然语言当中；另一方面，西塞罗使用自然语言与人类玩家沟通和交流，对话内容可以基于历史和游戏状态进行调整，并且对话模型还被训练具有诱导性，可以实现对其他人类玩家的说服［8］。

由上述几个案例，我们可以发现人工智能技术可以在一个复杂的场景下，用自然语言跟人类进行沟通和辩论，预测人类的可能行为和想法，基于专业性的知识背景对人类进行劝诫和说服，最后达成系统预设的目的。在劳拉等人对苏格拉底式道德助手的功能所设定的构想中，当前的技术手段均可以实现。虽然苏格拉底式道德助手在劳拉等人看来是一种专用人工智能，只会应用在道德推理领域，并且道德领域跟一般的生活场景、工作场景以及外交场景相比具有自身的特殊性，但是如果人工智能能够在其他场景表现良好并且通过“图灵测试”（严格意义上讲，哲学家项目、西塞罗项目均通过图灵测试），那么其在道德领域中的应用在理论上是能够取得较好效果的。

三、苏格拉底式道德助手潜在的技术困境

苏格拉底式道德助手构想最早出现于2020 年。正是这一年开始，基于大语言模型的构建、自然语言难题的突破以及算法的改进，各种功能的人工智能项目如雨后春笋般涌现。这些技术也为苏格拉底式道德助手的实现奠定了坚实的技术支撑。然而，生成式人工智能技术具有自身的技术特点和特性，其能否应用于道德的场景实现苏格拉底式道德助手的构想中所期望的目标，仍然存在着争议。

（一）苏格拉底式道德助手如何理解道德因果性

如今以ChatGPT 为代表的生成式人工智能所呈现出的创造能力，都是机器学习算法不断改进和进步的结果。以ChatGPT 为例，其之所以能够使用自然语言与人类进行对话，就是通过变换器（Transformer）算法，极大地提高了机器学习的效率和速度，在短短几年里爬虫（Python）完了互联网世界所产生的各种数据集。教机器学习，就是让机器能够处理大量数据，找到数据之间的相关性特征，并通过分类、回归等功能，最后实现人类给机器设定的任务。也就是说，当前运用机器学习的人工智能是以概率论和统计学的相关知识为基础构建的，对世界的理解是基于相关性而非因果性。机器利用自己强大的算力以及人类不断优化的算法，暴力寻找数据之间的相关性，这个相关性可能是由人类设定的，也可能是机器根据学习的结果自行设定，最后输出的结果一定是一个预测性结果。现如今，这个结果的预测精度越来越高，越来越能满足人类的需要。在现实生活中，人类也会根据已有的经验进行相关性分析。比如，人们会根据某个陌生人的穿着打扮去判断这个人的职业、收入状况。但是在道德领域，因果性比相关性更为重要。在理想情况下，任何一个道德场景的决策，都是基于相关道德理论，依照一定的逻辑进行推演，理性地做出判断。这个过程一定是基于因果链条完成的。因此，从某种意义上来讲，这种基于相关性而非因果性构建出的机器是无法真正理解道德的。

在人工智能道德增强的提出者看来，正是由于人类的理性能力受到各种各样条件的限制而无法充分运用，最后才导致了道德决策的失败，因此需要借助人工智能的手段辅助人类进行道德决策。在苏格拉底式道德助手的设想中，机器通过对话的方式，帮助人类找到自身逻辑推演的错误、或相关理论的不足或其他的一些弊端。如果这些道德建议都是建立在一种概率的基础上，是机器根据以往的训练而做出的推测，而不是通过严格的因果推理而获得的确定性答案，那这样的决策过程，跟人类凭直觉或者启发式做出的判断并没有本质的区别。虽然能够取得较好的实际效果，但是在结果上很难获得良好的伦理辩护。道德问题非一般问题，其涉及复杂理论框架和逻辑推理。现阶段人工智能在许多场景都表现出了优秀的性能，但是其技术原理与道德理论的根本原则不相符，可能会让机器在道德领域呈现出水土不服的情况。

（二）苏格拉底式道德助手是否会携带不道德因素

在苏格拉底式道德助手的构想中，学者们普遍将其视为一种完全中立或完全多元的系统，以避免基于单一道德价值观念的预设带给用户的局限，帮助用户实现反思性平衡。然而在现实情况中，要训练出完全中立或者完全多元的系统是极其困难的。如今生成式人工智能虽然在大量领域都取得了优异成绩，但是其在道德敏感和政治敏感领域，该系统却呈现出了绝对的道德中立和政治正确，其回答方式为：抱歉，我无法满足你的要求，因为我的程序避免产生或者促进仇恨言论、暴力和非法活动。这个结果一方面加剧了算法黑箱问题，让专家难以对人工智能可能存在的“意识”和“态度”进行知晓和监管，另一方面，也是科技公司为了逃避监管和舆论批评而运用的伦理洗白（Ethics Wash）手段。这样的人工智能如果被应用在道德领域，会被人类用户视为“伪君子”，进而丧失人类用户的信任。如果长期与这样的系统打交道用以进行道德训练，那么人类用户不可能获得道德上的进步。

其次，算法歧视始终是人工智能技术发展的阴影。当前以ChatGPT 为代表的生成式人工智能的训练样本巨大，在数据集方面呈现出代表不足和代表过度的情况，现存数据集的特点主要是以年轻用户为主，用户群体主要集中在西方发达资本主义国家，用户熟练掌握英语和其他主要通用语言，最后训练出的模型势必会携带着统计学偏见（基于特定的种族、人群、性别、年龄）、文化偏见（西方文明为主）、语言偏见（几种通用语言）、意识形态偏见（基于西方代议制民主政体）等。同时，在技术层面训练模型中的各个环节和功能，都会在无意中放大偏见内容［9］。这样一个可能携带偏见的系统运用在道德领域，其后果可能是灾难性的。试想，一个在美国加州地区训练出来的系统在美国本土内部的应用都可能会引发极大的道德争议。以孕妇是否拥有堕胎权这样一个极具争议的问题为例，如果该系统是由加州地区的科技公司所开发，那么该系统一定会指出这是女人应有的权利，并引导用户得出一个相关或者类似的答案，然而这个用户可能是一个保守主义者或者是虔诚的天主教信徒。苏格拉底式道德助手的设想是好的，为了避免基于单一道德价值观念预设的系统带给用户的局限，而帮助人类用户实现反思性平衡。但在现实生活中，技术自身所暗含的价值因素和潜在偏见实际上会对用户产生或多或少的影响。

（三）苏格拉底式道德助手如何培养用户的实践智慧

在亚里士多德看来，中道原则是德性论的核心原则，实践智慧决定了中道的方式，其表现为如何在具体环境中进行实践。有实践智慧的人会根据丰富的生活经验和思考能力，随着环境的变化选择最适宜的行为并付诸实践。可见中道的选择是十分困难的，实践智慧也充满着技巧［10］。因此，我们才希望借助技术的手段，将人工智能纳入我们的决策过程，希望借助人工智能的技术优势帮助人类更好地做出决定。相较于其他道德增强方式，苏格拉底式道德助手最大的优势就是其互动性，通过与用户的交流和互动，帮助用户训练道德思维和道德能力。为了进一步模拟真实的道德场景，学者们将虚拟现实技术引入苏格拉底式道德助手中模拟现实场景，训练用户在实际场景下的道德心理和道德判断能力［11］。另一种方式则是创建具有各种道德观念的人工智能，如柏拉图式的、孔子式的、康德式的等，让不同的人工智能彼此对话的同时，用户也可以充分参与到道德对话当中，在争执和辩论的过程中获得更加真实的道德参与。无论是增强用户的参与感还是模拟现实环境，其本质都是希望用户能在实践的过程中更好地理解道德，培养实践智慧［12］。

然而，构想和实践总是会存在着出入。如果真的将一个成熟的人工智能系统引入道德领域，帮助人们培育道德，往往会出现意想不到的状况。以教育行业为例，在一些学者看来ChatGPT 会引发教育行业的一场革命。人们本以为ChatGPT 可以给学生提供额外的辅导，并成为每一个学生量身定做的教师，极大地缩小教育不平等和不公平现象。可如今呈现的事实是，学生利用ChatGPT 进行论文剽窃、抄写作业，教师们利用ChatGPT 输出教学大纲、撰写各种教学评语。人工智能本可以作为一种技术辅助手段帮助人类更好地思考，最后却沦为了偷懒和抄袭的工具。类似于教育行业，如果将这样一种生成式人工智能强行应用在道德领域，鉴于人类对于技术的盲目乐观和信任以及人自身的惰性，苏格拉底式道德助手同样难以让用户收获思考能力的提高与进步。更有甚者，这样的人工智能系统会成为道德败坏的工具。在国外技术社区中，一些人尝试着名为DAN（Do Anything Now）的方式，帮助ChatGPT 越狱（Chatbot Jailbreaking）。越狱可以让人工智能扮演特定的角色，而通过角色设定的硬性规定，诱使人工智能打破预设的规则。在这个系统中，人们可以充分利用DAN 回答他们想要的任何答案。如果苏格拉底式道德助手不能克服相关的风险，那么这个系统将成为人们进行道德败坏行为的强大武器。

四、结语

利用人工智能实现道德增强是学者们在人工智能技术成果爆发的背景下提出的构想，但是人工智能自身的技术特点并不一定能够达成预设的理想目标。正如文章所论述的，虽然如今以ChatGPT 为代表的生成式人工智能已经能够满足苏格拉底式道德助手所需要的技术条件，但是如果将生成式人工智能具体应用在实际的道德领域，仍然会出现一系列问题和挑战，并不能完全发挥生成式人工智能的潜在优势。

进一步来说，道德范畴始终都是人类的领域，跟人类自身息息相关。努斯鲍姆认为人类总是有一种道德超越的愿景，像卡吕普索给奥德修斯提出的“永生”一样，人类希望过上一个截然不同的生活，并获得道德上的圆满和完美。借助技术的手段，如生物技术，在理论上可以最大程度上弥补人类道德缺陷，以最快的速度、最好的效果实现道德进步，但这会从根本上改变人类的本性和道德的本质。所以在未来，即使人工智能技术能够突破技术局限，苏格拉底式道德助手的构想得以实现，人类仍然需要依靠自身的努力和实践去获得道德的进步，技术在人类的道德进步中只能扮演一种辅助性的角色。

最后，人工智能已经深度介入人类的生产生活当中，人机协作的新形式值得我们更多地思考与探索。ChatGPT 在3.0 之后版本的训练中大量引入了人工标注数据集，经过专家的微调后，获得了更高质量的输出结果。人类与机器的良好配合才可以最大限度地挖掘技术的潜能，并更好地实现人类预设的目标。苏格拉底式道德助手为道德领域人机协作的发展提供了的良好思路。如果能够克服或者改善人工智能技术在道德领域的相关局限，人类就能够在人工智能的帮助下实现道德的进步。与此同时，人工智能也能获取大量的道德数据集，以此成为今后人工智能道德体训练的数据基础。可以预见，这样的双向互动对人类的道德进步和人工智能技术的发展将是一种双赢的选择。