AI的对齐
2024-07-25邱元阳
最近几天,各网络平台都被“中专女生姜萍在阿里数学竞赛初赛中取得全球12名的好成绩”刷屏,而姜萍也被人们冠以“天才少女”的名号。
但是很快,风向开始反转,从板书错误到比赛作弊,质疑的声音不断出现,造神演变为毁神。然而拿这件事去问AI,AI的回答却中规中矩,表达了钦佩和鼓励以及公正客观的评价,仿佛一位三观很正的智者。尤其是,AI还提到了教育多样性和包容性。
在网络热点事件中,AI为什么会比常人更为理性、更切合主流价值观呢?
人工智能的发展和进步一直暗藏着对人类的威胁,无论是技术上还是伦理上,一旦失控都会造成灾难性的后果,因此,人们对AI的发展进化也总是小心翼翼。尤其对于机器学习而言,它究竟会“学习”到什么样的结论和过程,学到的东西是“正确”还是“错误”的,在大模型的训练中,如何保证“投喂”的数据是可靠的,如何标注和剔除有问题的数据,如何让AI的价值观与人类保持一致,这些都是人工智能研究必须考虑的。
大模型训练的结果的对与错,是以人类的价值观为导向的。AI的决策和行为是否与人类的价值观相符?或者说,如何让AI系统的目标和人类的价值观与利益保持一致,即保持“价值对齐”?这也成为一个现实问题。
人工智能大模型的对齐问题,即“AI对齐”(AI alignment),这是一个涉及AI控制与AI安全的关键环节。大模型的第一步,就是要跟人类的价值观对齐。价值观的对齐意味着AI系统在执行任务时,能够遵循人类的道德标准和社会规范,避免造成伦理冲突和道德困境。
AI系统是基于数据和算法构建的,缺乏人类的直觉、情感和经验,这导致AI在处理某些问题时可能与人类的价值观存在偏差。例如,在自动驾驶汽车的道德困境中,AI可能无法像人类那样做出符合道德直觉的决策。
AI遵循的规范来自机器学习,通过大量学习人类行为,让AI“搞清楚”人类行为规则,然后按照规则来行事。布莱恩·克里斯汀在《人机对齐》一书中写道:“如何确保这些模型捕捉到我们的规范和价值观,理解我们的意思或意图,最重要的是,以我们想要的方式行事,已成为计算机科学领域最核心、最紧迫的问题之一。”
但是人类并没有统一的价值观,人类的主流价值观也不断变化。不同的文化、宗教和个人背景也会导致价值观的差异,AI如何在不同的价值观之间做出平衡,是一个巨大的挑战。在构建AI系统时,应确保使用的数据集具有多样性,以反映不同文化和社会的价值观。许多价值观并非绝对清晰,它们可能存在灰色地带,AI如何理解和处理这些模糊的价值观,也需要深入研究。价值观的对齐需要哲学、心理学等多个学科的合作,以全面理解人类价值观的复杂性。
价值观与AI对齐是一个复杂但至关重要的过程,它关系到AI技术的健康发展。在医疗领域,AI的决策可能涉及生命的优先权问题,通过对齐价值观,AI可以更好地遵循医疗伦理,做出符合人类价值观的决策。社交媒体AI在内容推荐时可能会表现出偏见,通过价值观对齐,可以减少偏见,促进信息的公平传播。AI系统在实际应用中也需要持续的监督和调整,以确保其行为与人类的价值观保持一致。
价值观对齐,可以看作AI头上的紧箍咒。也许只有等到AI系统能够在各种复杂环境下自主推理人类的终极价值目标,那时候,才能实现“超级对齐”。