AI的对齐 _参考网

AI的对齐

2024-07-25邱元阳

中国信息技术教育 2024年13期

最近几天，各网络平台都被“中专女生姜萍在阿里数学竞赛初赛中取得全球12名的好成绩”刷屏，而姜萍也被人们冠以“天才少女”的名号。

但是很快，风向开始反转，从板书错误到比赛作弊，质疑的声音不断出现，造神演变为毁神。然而拿这件事去问AI，AI的回答却中规中矩，表达了钦佩和鼓励以及公正客观的评价，仿佛一位三观很正的智者。尤其是，AI还提到了教育多样性和包容性。

在网络热点事件中，AI为什么会比常人更为理性、更切合主流价值观呢？

人工智能的发展和进步一直暗藏着对人类的威胁，无论是技术上还是伦理上，一旦失控都会造成灾难性的后果，因此，人们对AI的发展进化也总是小心翼翼。尤其对于机器学习而言，它究竟会“学习”到什么样的结论和过程，学到的东西是“正确”还是“错误”的，在大模型的训练中，如何保证“投喂”的数据是可靠的，如何标注和剔除有问题的数据，如何让AI的价值观与人类保持一致，这些都是人工智能研究必须考虑的。

大模型训练的结果的对与错，是以人类的价值观为导向的。AI的决策和行为是否与人类的价值观相符？或者说，如何让AI系统的目标和人类的价值观与利益保持一致，即保持“价值对齐”？这也成为一个现实问题。

人工智能大模型的对齐问题，即“AI对齐”（AI alignment），这是一个涉及AI控制与AI安全的关键环节。大模型的第一步，就是要跟人类的价值观对齐。价值观的对齐意味着AI系统在执行任务时，能够遵循人类的道德标准和社会规范，避免造成伦理冲突和道德困境。

AI系统是基于数据和算法构建的，缺乏人类的直觉、情感和经验，这导致AI在处理某些问题时可能与人类的价值观存在偏差。例如，在自动驾驶汽车的道德困境中，AI可能无法像人类那样做出符合道德直觉的决策。

AI遵循的规范来自机器学习，通过大量学习人类行为，让AI“搞清楚”人类行为规则，然后按照规则来行事。布莱恩·克里斯汀在《人机对齐》一书中写道：“如何确保这些模型捕捉到我们的规范和价值观，理解我们的意思或意图，最重要的是，以我们想要的方式行事，已成为计算机科学领域最核心、最紧迫的问题之一。”

但是人类并没有统一的价值观，人类的主流价值观也不断变化。不同的文化、宗教和个人背景也会导致价值观的差异，AI如何在不同的价值观之间做出平衡，是一个巨大的挑战。在构建AI系统时，应确保使用的数据集具有多样性，以反映不同文化和社会的价值观。许多价值观并非绝对清晰，它们可能存在灰色地带，AI如何理解和处理这些模糊的价值观，也需要深入研究。价值观的对齐需要哲学、心理学等多个学科的合作，以全面理解人类价值观的复杂性。

价值观与AI对齐是一个复杂但至关重要的过程，它关系到AI技术的健康发展。在医疗领域，AI的决策可能涉及生命的优先权问题，通过对齐价值观，AI可以更好地遵循医疗伦理，做出符合人类价值观的决策。社交媒体AI在内容推荐时可能会表现出偏见，通过价值观对齐，可以减少偏见，促进信息的公平传播。AI系统在实际应用中也需要持续的监督和调整，以确保其行为与人类的价值观保持一致。

价值观对齐，可以看作AI头上的紧箍咒。也许只有等到AI系统能够在各种复杂环境下自主推理人类的终极价值目标，那时候，才能实现“超级对齐”。

中国信息技术教育

2024年13期

AI的对齐

杂志排行

中国信息技术教育的其它文章