APP下载

从“数字皮囊”到“有趣灵魂”:生成式AI引领数字人交互模式变革

2023-12-02王照涵吕欣

传媒 2023年20期
关键词:语义人类数字

文/王照涵 吕欣

以虚拟数字人为载体的“具身在场”将改变传统媒介的信息表达方式,用户可以借助数字化身以“在场”的方式在虚拟空间中进行互动。然而,既有的数字人由于缺少智能化技术支持,无法与人类进行真正的智能交互,只能作为人类内容生产者的“数字傀儡”,这一点在模型、驱动、内容、情感等层面均有所体现,而在语义理解、情感识别与表达方面尤为突出。如今,作为数字人重要底层技术支撑部分的人工智能技术已实现了跃迁式发展,为数字人的智能化发展提供了全新可能。通过融合生成式人工智能模型与情感计算技术,数字人将能更为有效地理解用户情感,从过去仅具备单向输出的“数字皮囊”转向为具有语义识别、情感识别及多模态表达能力的“数智人”,其媒介表达方式以及落地应用场景也将更为丰富。

一、数字皮囊——数字虚拟人的常用驱动方式与交互体验局限

传统文娱行业中的主流数字人驱动方式主要有两种:真人映射驱动型(通过捕捉真人的动作并映射到数字人骨骼上进行驱动),以及自动算法驱动型(通过文字进行语音合成并生成相应表情动画)。

1.与真人映射驱动型数字人交互本质上是与其背后的“中之人”进行互动。从生产效能上看,此类数字人需要借助成本高昂的动作捕捉设备以实现对动捕演员动作的再现,无法大规模部署。无论基于惯性动捕还是光学动捕,数字人均无法独立自主地进行互动表演。巨大的经济开销使得此类数字人只能应用在虚拟偶像等依托粉丝经济收回成本的行业中;从交互体验上看,这类数字人针对观众做出的反应也同样是由“中之人”对评论进行接收和反馈实现的,用户体验的好坏完全取决于“中之人”的表演能力和临场经验,数字人本身没有自主性可言。

2.自动算法驱动型数字人的智能同样是基于人类内容创作者的表达。此类数字人利用TTS (Text to Speech)技术将文本转化为语音,并结合相应的口型动画算法和动画库生成动作,其内容生产成本较低,个体便能够支付。然而,不加修饰合成的视音频往往动作单调、语调平坦,这限制了它们的应用场景。换句话说,TTS技术需要依赖专业设备和艺术家对输出结果的调校,以消除明显的电子音。此外,此类数字人只能够根据用户预设的时间点执行动作库中的动作,依赖于制作者的选择,且相对单一。它们无法实时生成内容,也无法与观众互动,缺乏交互性。

二、有趣灵魂——AI技术赋能下的数字智能人交互模式变革

数字人自然交互模式的两个最主要影响因素是语义和情感。在语义层面,数字人首先将语音转为文字符号,然后通过这些符号来理解其中包含的概念与具象化实体。而在情感层,数字人负责准确捕捉用户的情感,支持对用户情感的分析,最后将语义和情感结果综合起来,并以一种人类用户可以感知的方式进行表达。

1.语义层。数字人仅通过自然语言处理算法能够实现的功能较为有限,难以满足对用户短文本输入的实时理解和实时输出的需求。而OpenAI的ChatGPT、百度文心一言等大语言模型能够生成超越预定文本范围的回复内容,为数字人带来更多更具创造性的可能。

生成式语言模型的创造性需要一定的框架限制才能有效应用在数字人的语义理解上,本文提出的语义层框架包含对话策略生成与对话历史管理两个关键模块。通过对话历史管理模块数字人能够对对话内容进行记忆并能够据此作出回应。仅针对单句输入进行的回复难以给用户代入感,因此针对不同的应用场景,数字人需要有短期记忆与长期记忆的能力与之搭配。

通过历史管理,数字人应该建立一个针对用户与数字人之间对话历史的记录系统,从中提取用户的特点、需求等信息,并基于这些信息创建一个对话历史数据库。在后续的内容生成过程中,数字人可以通过参考对话历史信息,生成更符合用户需求的回复。对话策略管理是数字人进行对话内容生成的提纲。其核心在于运用决策状态机明确交互逻辑、跟踪对话状态,并根据用户反馈和上下文信息进行实时调整与更新。通过状态机,数字人能够察觉应用场景的变化,并依据当前对话状态生成相应的回复,以完成对话。通过对话策略管理,数字人可以清晰地定义对话所需采取的路径、要达成的目标,并通过判断用户的意图和对话语境来选择最优的回复。

2.情感层。为了让数字人更好地理解人类情感,本文提出了一套称为“情感智能”的体系,它包括感知输入、分析和表达输出三个关键组成部分,用于协助数字人理解人类用户的情感,进而具备更准确地捕捉及模拟人类情感表达的能力。

情感感知系统作为情感智能的输入,为系统提供多模态的用户数据。在假定生理检测模式有效性的前提下,情感感知系统分析获取用户语音信息中的语气、节奏等信息,通过传感器采集用户的心率、血压、皮肤电导等指标,以推断其情绪状态。同时,还可以引入眼动、表情与手势等生物信息作为输入源,这些信息将作为表征用户情感的重要参考,供后续的情感分析模块使用。

情感分析模块负责将感知来的情感信号转化为计算机可理解的情感状态。数字人可以进一步通过情感理解进行有效的情感推理,包括通过语音的速度、音调、强度、间隙等理解对话者的说话方式,反推其情感状态,实现对人类用户情绪的理解。同时,其他模态的信息也可以作为对情绪理解的补充,相关的情感分析技术能够帮助数字人更好的理解人类用户持有的情感状态,并制定后续的交互策略。

情感表达模块使数字人能进行人类可感知的情感输出。该模块是“情感智能”系统中与传统的情感计算系统区别最大的部分,同时也是实现更自然、更有说服力的交互体验不可或缺的部分。该模块需要将通过计算与分析得到的多模态输出反映在数字人的行为上,从而使数字人以类似人类的方式回应用户的情感状态和需求,并将结果投射到数字人的语音语调、面部表情、身体语言中。

通过这三个模块的协同工作,数字人能够更准确地捕捉和模拟人类的情感表达,这不仅提高了数字人情感系统的精度,还增强了数字人对复杂情感交互场景的理解和处理能力。

三、从数字虚拟人到数字智能人——交互方式革新与应用场景重绘

通过结合生成式人工智能进行语义理解与情感计算,数字人能够在一套完整的“情感智能”系统下与人类用户进行自然交互,从而实现更高级别的智能化,将其从数字虚拟人跃升为数字智能人。这种智能化不仅能够显著提升用户体验,还能够有效地扩展其应用场景。

1.数字智能人可以通过与人类用户共情以缓解人类的孤独感。搭载情感人工智能的数字人能够更好地理解用户情感,实现更人性化的反馈,实现对用户的陪伴与支持。

2.数字智能人可以承担起部分人工客服的工作。通过对话策略管理与情感计算,数智虚拟人能够提供24小时不间断的引导服务,胜任大多数人工客服的任务,及时解决用户的困难,并提供更合理的服务流程。

3.数字智能人可以承担起教师的职责。搭载大语言模型与情感计算功能的数智虚拟人为在线教育提供了全新的可能性和选择,能够通过学生的反馈与情感信息实时调整难易程度与教学策略,从而更好地完成教学目标。

4.数字智能人在电子游戏领域中的重要性不容忽视。通过情感计算,数字人能够根据玩家的行为与偏好调整自身的行为方式和反应速度,从而增进游戏的趣味性和挑战性。带有独特人格与情感的数字人能够增强游戏的定制性,也将为玩家提供更广阔的创新空间。

猜你喜欢

语义人类数字
人类能否一觉到未来?
人类第一杀手
语言与语义
1100亿个人类的清明
答数字
数字看G20
“上”与“下”语义的不对称性及其认知阐释
人类正在消灭自然
认知范畴模糊与语义模糊
成双成对