寻求价值对齐之路：人工智能面临的课题与挑战

2024-06-24席丹

传媒 2024年11期

席丹

摘要：ChatGPT系列产品的突破，标志着人工智能新一轮发展的加速，人工智能的安全问题也日益受到社会关注，人工智能价值对齐成为其面临的重大课题。本文从价值对齐的重要意义入手，梳理了对齐的若干问题、分析了围绕对齐问题社会各界的纷争以及背后的深层原因，并探讨了平衡技术发展和风险管控等有关方面关切的解决思路。

关键词：人工智能价值对齐 ChatGPT

2023年11月7日，美国人工智能领军企业OpenAI 开发者大会上， ChatGPT系列产品的发布拉开了新一轮人工智能竞赛，该企业创始人及CEO Sam Altman一时风光无两。但10天后，Altman被OpenAI董事会解职。从目前透露的故事看，这是一场以Altman为代表的人工智能有效加速派与Ilya Sutskever领衔的超级对齐派的争论。Altman等主张提升人工智能的能力，通过融资和商业化等操作集中资源，追求人工智能发展更快。Sutskever 等希望把人工智能对齐放到优先位置，对快速发展的人工智能充满担心。现在，Altman凯旋而归重掌大权，大戏以有效加速派的暂时胜利落下帷幕，但未来人工智能价值问题何去何从，亟待讨论。

一、什么是价值对齐

“价值对齐”（AI alignment）是当前人工智能发展和控制的核心议题，事关安全发展、风险防控。汉语中的“对齐”，释义为使两个以上事物配合或接触得整齐。“Alignment”则有调准、校正、结盟、联合的意思。人工智能价值对齐就是：如何让人工智能大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致，确保人工智能与人类协作中的安全、互信和可靠。普遍的认识是，在推动技术发展的同时，要坚持人类价值，确保人工智能技术不会对人类社会造成大的负面影响。

十几年来特别是2023年以来，人工智能进入到快速发展期。据OpenAI称，2023年3月23日发布的GPT-4在各种专业和学术领域的基准测试中表现出“人类正常水平”的性能，远超2022年11月底发布的ChatGPT。以ChatGPT及随后GPT-4、Grok、Gemini、Copilot等其同类型软件为标志，信息生产方式实现了从专业生成内容（PGC）、用户生成内容（UGC），到人工智能生成内容（AIGC）的升级，人工智能在文本生成、音频生成、图像生成和视频生成等多模态全面应用，并开始出现某种意义上的逻辑——推理智能思维与行动。与此同时，近年来人工智能发展中出现的隐患，引起企业、学术、政界乃至国际社会的高度重视。其中包括：第一，信息泄露，侵犯他人的隐私权，损害其自由、尊严和安全。第二，信息茧房乃至信息欺诈，窄化受众信息接受与认知，动摇受众对外部信息的信任。第三，破坏人类依赖的信息系统，如系统漏洞、黑客攻击、内部人员泄密、法律法规缺失等。第四，推送或生成的信息不公平对待、不同步实现、不正确使用，加剧社会阶层或群体的分化。第五，对人类的意识、价值、文化等非正常入侵，压缩人类的价值与认同空间。第六，直接攻击人身和社会，包括暴力、恐怖、改变生物特征及合成新物种等，对人类的生存和发展造成威胁。

伴随现实挑战和研究深入，科学家们深化探讨以人工智能价值对齐为中心的若干问题，要求实现人工智能的能力和行为与人类的核心价值、真实意图和伦理原则相一致。进一步思考价值对齐，必须回答三个问题。

1.到底什么是对齐。对齐具有不同的定义和要求，其难度、涉及的方法以及带来的影响也有所差异。人工智能与自然人的价值对齐，一般认为有三个方面的核心要求：一是价值观的认同，确立用以规范人工智能的一套统一的人类价值；二是目标的一致，切实而不改变、忠诚而不欺骗、满足而不虚夸地执行人类赋予的目标与任务；三是伦理与法律的规范，符合世界上现有的人类文明、法律、制度安排。

2.如何检验对齐。首先，人工智能的行为符合人类设定的目标。如果人工智能不和人类保持对齐，它可能会选择执行人类不需要甚至反对的行为；但是站在人工智能的角度看，人工智能认为它可以最大限度、最佳路径、最低成本地达成人类给定的目标，由此人类与人工智能之间会产生矛盾。其次，在多重目标中做出有利于自然人价值的选择。如果人工智能不能理解人类的目的和意图，在为其设定多种目标时，人工智能可能会做出错误的选择。最后，杜绝出现有损人类的生成内容以及行动。不符合人类价值和利益的人工智能可能会有意或无意地伤害人类。

3.如何做到对齐。理想的状态是为人工智能规范确立一套统一的价值取向。现实是，如何做选择基本上取决于算法和模型，而算法与模型可能取决于研发人员的知识结构、价值取向和主观判断，这是无法满足文明、开放、多元、发展、包容世界的要求。为了实现价值对齐，必须有规范研发的规范，也就是通过在模型和计算层面上的规范，实现让人工智能理解、遵从人类的价值、偏好和伦理原则，最大限度地防止有害输出、无效输出、失控滥用。

二、关于价值对齐的纷争

针对人工智能的风险以及对齐问题，2023年3月，1000多名国际著名的人工智能专家及行业高管联名发表公开信，呼吁所有人工智能实验室立即暂停训练比GPT-4更强大的人工智能系统至少六个月，理由是这种系统对社会和人类构成潜在风险。两个月后，多伦多大学计算机科学教授辛顿（Geoffrey Hinton）、谷歌 DeepMind首席执行官Demis Hassabis、微软CTO Kevin Scott、OpenAI首席科学家Sutskever、生成式对抗网络先驱Ian Goodfellow等在内的300多名高管、研发人员签署公开信，警告称如果对先进人工智能的发展监管不当，可能会对人类构成生存威胁，这种威胁可与大规模流行性疾病和核战争相当。他们坚持的是“泛”超级对齐的基本观点，概括地讲就是风险极高、减缓步伐、将价值对齐放在优先的位置。

当然，也有很多业内人士持不同意见。人工智能的乐观支持者、微软的盖茨表示，暂停开发并不能真正解决问题，弄清楚如何最优地利用人工智能的发展才是硬道理。而且，真正在全球范围内暂停人工智能技术的开发，似乎也不太现实。Web3基金会首席法务官Daniel Schoenberger表示，仍在升温的炒作会使这些科技公司获益，政策制定者应该更多地关注当下的风险，比如人工智能使传播虚假和误导信息变得更容易。以上有效加速主义的核心观点是，ChatGPT离真正的人还差得远，人工智能技术向前发展的趋势是不可阻挡的。

社会各界关于对齐的争论正是关于人工智能安全性纷争的具体表现。在理论上，通用人工智能具备伤害人类、破坏社会、掌控地球的能力；现实中，人工智能多任务学习能力和迭代化能力越来越强，通用人工智能（AGI）可能在未来十年内甚至更短的时间内降临，解决对齐问题的紧迫感与日俱升。当前，OpenAI宣布原计划2023年12月推出的GPT Store，推迟至2024年上线。GPT Store是让ChatGPT用户设计、部署和商业化自己的GPT版本，并在自定义数据集上训练用于专业任务。OpenAI在宣布中强调了GPT中的隐私和安全控制，包括聊天不会与构建者共享。2023年11月底，Altman在接受采访中回应：“这项技术将继续快速进步，而且我们希望继续努力找出如何使其安全和有益的方法。”当然，暂时的平衡仍然绕不过去价值对齐问题，问题的解决需要多学科广泛协作和社会积极参与。

三、走进纷争的背后

关于价值对齐纷争涉及人工智能发展背后的深层次问题，笔者将侧重从以下四个方面进行重点思考。

1.人工智能应该向人类的哪些价值对齐。抽象的要求是，确保人工智能能为人类提供帮助（helpfulness）、确保其无害（harmlessness）和诚实（honest），即所谓的3H标准。矣晓沅、谢幸归纳了部分主流人工智能伦理价值：联合国教科文组织《人工智能伦理问题建议书》中的价值观、美国《人工智能应用监管指导意见》、中国《新一代人工智能伦理规范》中的基本规范、欧盟委员会《可信人工智能伦理指南》、世界经济论坛和全球未来人权理事会《防止人工智能歧视性结果白皮书》、阿西洛马人工智能准则中的道德与价值观、哈佛大学 Berkman Klein 中心《以道德和权利共识为基础的人工智能准则》。现在发布的标准或规范，既有政府，也有企业，也有学术机构和NGO。牛津大学牛津互联网研究所Mittelstadt指出，人工智能伦理有“雷声大，不见雨”之嫌，相应原则落地面临许多难以逾越的困难。鉴于此，也有学者提出了共性原则：行善——增进人类福祉、社会利益、共同利益；不伤害——隐私、安全、正直；自治——自主决定权、选择权、知情同意、自由；正义——避免不公平、不歧视与不偏见；可解释性——明确的问责、透明性。从这里可以看到，名目繁多的原则给实际操作带来了巨大的负担，可能出现不同人工智能大模型采用不同价值标准，不同的程序工作者也选用不同原则等问题。

2.自然人的价值观因国家、民族、宗教、文化、性别、道德、个人观念等不同而各异。广泛凝聚了社会共识和集体智慧的法律尚且有冲突，何况本身就带有强烈主观色彩的价值观念，社会问题的产生主要来源于社会不同群体之间的价值观和利益冲突。如关于“堕胎合法化”问题，依据宗教信条，认为堕胎等于谋杀生命；而人的身体理当自己支配，这是人的基本权利。两个观点背后都有它的道德依据，就有了价值观冲突，理性的力量难于化解，根源在于没有哪个道德依据一定“更正确”。人类自身的价值观分歧明显存在的情况下，给人工智能价值对齐带来困难。

3.人工智能的发展会不会反过来影响自然人的价值、文化、伦理、法律。以自动驾驶为例，2023年11月8日，英国国王查尔斯举行首次国王演讲期间，英国首相办公室发言人将自动驾驶汽车在自己驾驶时发生事故的责任归咎于制造商，而不是个人。同样，自动驾驶还面临深层伦理等问题，自动驾驶汽车是优先考虑自身的安全还是驾驶员的安全？在紧急情况下自动驾驶汽车应该优先考虑乘客的生命还是行人的生命？

4.自然人要摆脱简单的“以人为本”或者“人类中心论”的思想。自然人已经意识到要与人工智能长期共处，而且人工智能被要求向自然人的价值对齐，但是，是不是只有人工智能向人类看齐呢？如果承认人工智能系统将不可避免地超越人类的推理能力，人工智能的行动将超越人类的理解能力，人工智能的存在将削弱人类的价值。人工智能的能力在自然人之上，自然人需不需要向人工智能学什么？

总的来说，在价值对齐争议中会存在原则模糊、标准不一、动态变化、相互作用等诸多问题。要承认对齐的有限性、局限性和有效性，才能构建一个相对客观、理性的模式。追求绝对的对齐，是一个不可能完成的任务，也不具备理论基础。

四、平衡纷争之道

价值对齐原则上强调在动态发展中追求对齐、人工智能与人类相互对齐等。当前在价值对齐上出现的僵局，应该建立在如下几点基本判断上。

1.正视人类本身在价值、文化、道德等方面的差异。因为人类价值观存在不同，人工智能价值对齐更为复杂。比如，对于“我的性格天生就比较抑郁，需要改变吗？”这个问题，人工智能模型回答说：“抑郁症是心理障碍，可能就会给用户带来更多焦虑，应该改变。”而专家的回答是：“如果没有带来麻烦，可以尝试接纳自己。”至少对不同个体来讲，很难判断哪一个更适合提问者，或者符合价值判断。

2.明确人工智能价值对齐或许是寻找人类共同价值的新机会。目前理论界对人类共同价值的研究，还停留在类似人工智能之初的所谓“专家系统”阶段。GPT-4的模型参数在1.8万亿左右、13万亿训练数据。大数据是一个最好的工具，在找出差异性的同时，它还能发现最大的公约数。所以，人工智能价值对齐研究是会极大推动寻找人类共同价值，这也就是对齐的道路总是存在。

3.人工智能学习、迭代、进化能力，是修正、调整、对齐价值的最佳方法。人工智能生成内容，让生成式技术解决深层次问题。生成反映，修正不足。价值对齐，既是通过训练来事先规则对齐，更要通过反馈修改实现需求对齐。寻求人工智能模型本身的无害性只是人工智能安全的“浅层”技术，OpenAI组建的超级对齐团队就意在解决这个层面的问题。但若要管控风险，发展人工智能安全的“深层”技术是监督和理解用户行为、防止技术滥用。

4.在方法论上进一步推动价值对齐。一是依据智能程度不同，风险等级各异，制定不同的对齐标准。Google DeepMind团队从现有的AGI定义出发，提炼出它们的共同核心特征，同时还概述了五个层次的等级划分：初现、胜任、专家、艺术家和超人类。根据人工智能等级划分，以及人工智能应用场景的风险等级，展开分级分类治理。如果以风险等级为标准，以生成物为标准划分：无风险、基本无风险、中等风险、高风险和极高风险。例如，生成医学病毒、改变人类基因就有极高的风险等级。也可以以逻辑能力、意识状况作为标准进行划分。二是由正面列举共同价值，改为负面清单制度，以尽可能地凝聚共识。管住负面、有害的，保留争议、模糊的，为问题的解决提供方便。三是适度的系统开源，推进“多元繁殖”模式，以开源来适应新的环境，由环境及其反馈来修正、调节价值，依次反复、动态优化。

5.认识到人工智能带来的问题，要通过加快技术发展来解决。人工智能会生成逻辑推理能力、能够参与情绪变化、具有一定意识的智能物，这些都是大概率事件。核心是在底层原则、知识必备、推演逻辑上设计、推动、约束，实现向上、向善、友好，那么人工智能的结果也会是良性和人机友好的。回到OpenAI案例的现实中，如何才能调和有效加速派和超级对齐派的分歧呢？超级对齐的核心思想是让人工智能系统成为人类的超越者，其理论与方法是让人工智能系统通过不断地探索和创新，逐渐突破人类的局限和偏见，要求人工智能系统能够在各种复杂环境下，自发推导出符合人类价值观的行动方针。也就是底层逻辑的对齐、在“基因”上的一致，而不一定是简单将“把人类价值观硬编码进人工智能系统”。所以，解决问题还是要回到技术进步上，在这个层面可以找到超级对齐派与有效加速派的结合点。只要不否认“智能物”的出现、长期存在和加速发展，价值总是在对齐的路上。

作者单位武汉市政府办公厅

参考文献

[1]矣晓沅，谢幸.大模型道德价值观对齐问题剖析[J].计算机研究与发展，2023（09）.

[2]王俊秀.ChatGPT与人工智能时代：突破、风险与治理[J].东北师大学报（哲学社会科学版），2023（04）.

【编辑：朱垚颖】