基于意图识别的人-智能系统交互框架*
2024-03-05徐昊骙郑旭涛周吉帆沈模卫
徐昊骙 郑旭涛 赵 阳 唐 宁 周吉帆 沈模卫
(浙江大学心理与行为科学系,杭州 310028)
1 引 言
人机交互(human-computer interaction,HCI)是研究人类如何与计算机交互的科学,其主要目标是设计便捷可用的软件和硬件(Ren & Bao,2020)。人机交互的概念起源于20 世纪70 年代,随着计算机设备的快速进步而获得蓬勃发展,产生了大量与日常生活密切相关的应用产品,并积累了丰富的交互设计理论和方法(Carroll,1997)。
经典的人机交互理论中人被视作交互的主动方,计算机被动地接收指令并提供相应的信息或功能反馈,界面作为交互指令及信息和功能反馈的主要载体,在人机交互过程中扮演关键角色,因而界面设计始终是人机交互研究的焦点所在(Myers,1998)。以界面为核心的人机交互设计理念随着计算机的发展和普及而发生改变。在计算机发展初期,用户均为拥有丰富经验的专家,此时的人机交互侧重于“人适应机器”,界面设计的核心目标是功能的实现,专家用户需要通过大量学习来掌握界面的使用方法(如:命令行)。随着计算机功能日益丰富、受众更加广泛,人机交互的理念向“机器适应人”或“人机相互适应”转变,“以用户为中心”的设计理念被提出并得到广泛发展(许为,2019,2022),成为人机交互领域遵循的核心原则。在该原则的指导下,界面设计越来越注重以接近自然交互的方式实现功能(如:图形界面),普通用户无须经历长时间专门培训,便能够顺利使用计算机设备。
人机交互涉及多学科的交叉,从业者往往需要心理学、计算机、社会学、人类学、传播、管理、运筹学等多个相关领域的素养,研究与设计工作的开展也常涉及多学科合作(Ren & Bao,2020)。心理学作为研究人类心理规律的基础科学,是人机交互领域的理论基石(Olson&Olson,2003),诸多设计背后体现了对心理学理论和现象的应用,诸如:界面设计中不同类型信息的空间分布应遵循知觉组织原则;图形界面中鼠标的交互方式应符合人类手眼协调及动作反馈的相应特性。数十年来,人机交互领域的发展始终与心理学基础研究紧密关联:一方面,心理学的研究成果不断为交互设计及测试提供指导;另一方面,持续优化人机交互的迫切需求也驱动着心理学理论的发展。
近二十年来,随着深度学习、强化学习等技术的突破和算力的发展,人工智能进入第三次浪潮(Xu et al.,2023)。相较于人工智能发展历史的过往阶段,当代人工智能技术与实际应用的结合更加紧密,形成了大量在日常生产生活中广泛使用的智能设备,人与智能系统的交互日益普遍。智能系统并非仅是传统计算机在功能上的升级,而是具有突破性的质变,必然带来人机交互设计的革命性变化。面向智能系统的新型人机交互是怎样的?心理学应该如何提供理论支撑?这正是本文试图回答的问题。
2 智能时代的新型交互
相较于传统计算机系统,当代智能系统带来了以下重要变化:(1)信息爆炸。一方面,现阶段的人工智能技术源于对深度学习和强化学习的应用(Silver et al.,2016;Sutton et al.,1998),其算法框架能够兼容于多种情景和任务,因而在算力的加持下人工智能技术被嵌入日常生活中的各类计算系统,导致智能设备的种类和数量快速增长;另一方面,智能系统与互联网紧密结合,能够轻易将从网上获得的海量资源推送给用户,用户所面对的信息空间急速扩张。二者叠加,造成用户在与智能设备交互时往往面临信息爆炸,这为人类有限的认知资源带来巨大挑战(Alvarez & Franconeri,2007;Luck & Vogel,1997;Scholl &Pylyshyn,1999)。(2)非确定性反馈。概率计算被广泛应用于当代人工智能算法框架中,导致设备向人提供的反馈具有高度不确定性,即使在相同情景和指令下,系统仍会产生不同反馈(如:向大型生成式语言模型提出相同问题能够得到不同回答)。这使得对系统的预测更加困难,进而造成用户的控制感受到影响(Loehr,2022)。(3)智能黑箱。主流的学习算法存在过程不透明、不直观的问题,对于用户来说智能系统就像一个“黑匣子”,难以理解其输出结果背后的过程和原因。不可解释进一步影响了用户对智能系统的信任度和决策效率(Xu et al.,2023),并且限制了智能系统在一些特殊情景(如:医疗)的应用。上述三方面因素极大地改变了人类对智能系统的理解和使用,人与智能系统的关系需要被重新审视和定义。
针对人与智能系统的新型交互关系,近年来人机交互领域的工作者提出了不少观点,其中最具代表性的当属人机组队(human-machine teaming)和人机融合(human-computer integration)。人机组队的观点认为,人与智能系统的关系中,系统不再扮演支持工具的角色,而是扮演队友的角色,执行与人类互补的功能,配合人类达成目标(Brill et al.,2018)。扮演队友的智能系统拥有有限的自主权,在关系和社会规范的约束下根据自身判断自主行动。为了达到人机组队的交互模式,智能系统需要建立与人类共享的知识表征(shared knowledge)和共同意识(shared awareness),自主地理解人类并执行恰当的合作行为。人机融合的观点显得更为激进,该观点提出智能系统与人的关系超越了交互,成为一个集成的共同体,该共同体以整体目标为导向规划整体行为(Farooq & Grudin,2016;Mueller et al.,2020)。基于对智能系统特性的思考,Xu 等人(Xu et al.,2023)提出了一个扩展的以人为中心设计人工智能的概念模型,该模型认为人与智能系统交互的解决方案需要综合考虑充分反映人类智能的技术、人因工效学设计、伦理化设计,所设计的智能系统及其交互方式不仅要应对有用和可用的问题,还要能够解决可解释和可理解的问题。这一概念模型为重新定义人与智能系统的新型人际关系、进行交互建模、开发人因标准以及开展相关心理学理论的探索和应用提供了框架。
尽管不同观点的侧重有所差异,其背后均隐含着相同的隐喻:人与智能系统的交互应当类比于人与人的交互。笔者认为,这正是智能时代新型交互的核心理念与前进方向:首先,人类的社会交互环境复杂多变,包含海量信息和高度不确定性,然而人类能够仅凭有限认知资源顺利理解他人并与他人交互,这正是人类智能的体现(周吉帆et al.,2016)。模拟人与人的交互特点及潜在心理机制,有助于解决智能系统带来的信息爆炸、非确定性反馈和智能黑箱问题。其次,在传统人机交互情景中,以人为中心的设计要求为用户提供自然的交互方式,其实质是对人类与物理世界交互方式的模拟,由此产生的许多交互设计隐含着对类人交互的隐喻。当交互对象进阶为智能系统时,人与人的交互最接近用户的自然交互方式,模拟人与人的交互是以人为中心的交互设计原则的集中体现。此外,智能系统与人的关系是合作性质的,而人类的合作性正是人与人顺利交互的重要基础(Tomasello & Vaish,2013)。模拟人与人交互,有助于构建最适宜于合作的交互方式。最后,从发展目标看,人类智能是人工智能发展的终极目标,随着系统的智能水平接近人类,其与用户的交互方式必然向人与人交互的方向趋近。
3 基于意图识别的交互框架
基础研究是整个科学体系的源头,是所有技术问题的总机关。实现对人与人交互的模拟不仅依赖于人工智能技术的进步,更迫切需要加强心理学的基础性研究。只有从根本上探明人与人交互的心理机制,构建可解释、可应用的理论模型,并据此设计人机交互框架,方可实现新型人机交互的革命性突破。
人类的交互与其他灵长类动物的集体行为存在本质差异,表现出明显的主动性和利他性,因而能够形成高效和稳定的合作关系。大量研究表明,意图识别是人类社会交互的基础,人类不仅能够根据他人行为快速推断其目标(Gao et al.,2019;Liu&Spelke,2017),还能够同时推断与目标导向行为相关的信念、需求、偏好以及行动者所受到的物理或社会限制(Baker et al.,2017;Tang et al.,2021;Török et al.,2021),据此为他人行为和目标提供合理的解释。该过程的实现与心理理论密切相关(Jara-Ettinger et al.,2020),即个体基于自身根据意图产生行为的心理过程,逆向推断他人行为背后的意图(图1)。在计算上通常采用产生式模型及其逆向推理模拟人类的意图识别过程(Baker et al.,2009)。产生式模型模拟了根据意图产生行为的心理过程,该过程遵循人类行为规划的一系列原则,包括效用最大化(Jara-Ettinger et al.,2016)、目标承诺等(Cheng et al.,2023)。将产生过程描述为条件概率形式,则可根据贝叶斯原理计算后验概率,逆向推断给定行为背后最可能的潜在意图,实践中该过程通过采样实现。
图1 人类交互中的行为产生与意图识别过程
在人类的合作交互中,意图识别扮演着核心角色,其对合作中其他心理过程的作用主要体现在三个方面:
其一,意图识别驱动信息选择。人类并非被动地接收外界信息,而是主动选择有益于当前认知活动的信息。研究表明,个体能够自发地采择他人观点以及加工和表征他人相关信息(Atmaca et al.,2011;Echterhoff et al.,2017),即使他人信息与当前任务、情景无直接关联,对他人的观点采择和共同表征仍会发生(Bradford et al.,2023;Zhou et al.,2022)。该心理机制为交互双方构建共识提供了基础,进而有助于顺利理解、预测和影响他人意图。此外,个体还能够根据意图识别需求灵活调配认知资源:当对他人意图不确定时,将更多资源投入到有益于推断他人意图的信息中;而当已确定他人意图时,相同信息不再获得额外认知资源(史博皓,2021)。该心理机制为资源有限的人类心智顺利开展合作交互提供了重要保障。
其二,交互中的迭代意图识别。处于合作交互中的双方均实时推断对方意图,同时双方的共识中也包含了对方推断己方意图的预期,因此个体在合作交互中的意图识别是一个迭代过程,由模拟推断对方意图以及模拟对方推断己方意图两部分共同组成,不断循环直至收敛,该过程也被称为迭代读心(recursive mind-reading)(Wilson et al.,2023)。与观察者视角的意图识别不同,迭代意图识别考虑了交互的双向性,交互中的个体在试图理解对方的同时也在努力让对方理解自己,因而迭代意图识别能够更为准确地理解意图,提升交互效率。
其三,基于意图识别的行为规划。良好的合作交互中,双方行为应当尽量互补,以降低共同成本并增加共同收益(Wang et al.,2021)。例如,在合作追逐中,双方形成关于目标的共同承诺,并预期对方的追逐路线,从而让自己的追逐路线与对方形成互补,包围目标。意图识别为行为规划提供了指导,使得行动者能够提前预期他人行为,从而规划相应行为以实现群体最优。不仅如此,意图识别也是合作交互中行为规划的目标之一(Ho,Abel,et al.,2022;Ho,Saxe,et al.,2022),为了后续意图识别更为准确高效,行动者总是试图让自身行为或语言传递更多、更准确的意图,从而利化长期稳定的交互关系。
根据上述分析,人类合作性交互的本质是以意图识别为核心的主动交互,笔者据此提出基于意图识别的交互框架(图2),该框架的核心部分由智能系统中的信息选择、意图识别以及行为规划三个模块组成,其中意图识别是关键模块。意图识别模块与信息选择模块之间的双向箭头表示,信息选择模块为意图识别提供必要的输入,同时意图识别也引导对信息的选择。意图识别模块指向行为规划模块的两个箭头则表示,行为的规划一方面根据意图识别结果实现用户目标,另一方面尽可能使用户明晰智能系统的意图。该框架粗略地模拟了人类的交互方式,能使其中的智能系统更好地与人类协同合作。
图2 基于意图识别的交互框架
在基于意图识别的交互框架中,用户的交互对象不再是单一设备,而是潜在的智能系统,该智能系统由设备群共享,即所有设备的感知信息均汇总到统一的智能系统,且所有设备的功能实现由智能系统统一调配。统一的智能为包含大量设备的分布式场景提供了自然交互解决方案,用户在设备间流转时能够体验到顺滑的交互迁移(Celentano & Dubois,2017),不同设备也得以实现智能协同。需要说明的是,尽管用户的交互对象是智能系统,但并不意味着传统交互框架中的界面消失,用户与各设备仍存在关联,界面作为功能的载体帮助实现信息感知、信息呈现等具体功能实现,类人智能则作为智能的载体帮助实现与人类接近的交互体验。
尽管在图2 的交互框架中仅呈现了智能系统对用户的意图识别,在交互过程中用户也在推断智能系统的意图,双方均主动参与到交互中,通过不断迭代的相互意图识别,拓展共识并产生互补的行为,实现人与智能系统的协同。值得一提的是,近期有研究者提出了“想象中的我们”(imagine we)作为模拟人类交互行为规划的计算框架(Tang et al.,2020),该框架将交互关系中的所有对象视作一个整体,共享目标、奖赏、惩罚并同步规划行为。在一系列虚拟场景的任务中,该框架已被证明与真实人类的表现高度相似,可视作是对人机融合在计算框架上的初步尝试。
4 小结与展望
随着智能设备的不断发展,对人与智能系统设计新型交互方式的需求日益迫切。智能系统发展的终极目标是趋近人类智能,探明人类合作交互的心理机制,并据此设计与人类交互相似的人-智能系统交互,这是新一代交互设计的发展方向。本文从上述视角出发,梳理总结了人类合作交互的关键心理机制,并据此提出了基于意图识别的交互框架,不仅为设计人与智能系统的新型交互提供了思路,更重要的是为心理学基础性研究的发展及其在工程领域的应用指明了方向。
沿上述思路,未来研究应着力于以下三个方面:
(1)从智能系统的角度出发,应加强对人类交互过程中认知机制的研究,探明交互中的信息感知、信息选择、信息表征、意图理解和行为规划等关键心理过程,并构建能够模拟这些过程的计算模型,从而为设计接近于人类交互模式的智能系统交互方案提供理论支持。
(2)从人的角度出发,考虑到智能系统始终与真实人类存在差异,应系统研究人如何理解智能系统,包括人对智能系统的意图理解、人对智能系统的情感和信任等关键心理因素及其相互关系,为人与智能系统交互中以人为中心的设计提供心理学依据。
(3)从人与智能系统在物理和社会环境中的落脚点出发,应全面探讨人-智交互中的伦理、责任归因、道德判断及风险因素等问题,为特定情景中智能系统的应用及相关政策制定提供参考。