ChatGPT4.0 语言模型下虚拟数字人的应用创新与优化策略
——以手机软件“Call Annie”为例
2023-02-06蔡刘明高天婧
蔡刘明 高天婧
(南京师范大学泰州学院,江苏 泰州 225300)
1.虚拟数字人概念的演进
1.1 虚拟数字人1.0 的感知智能
该时期数字人的外在特征是对真人的拟态和仿真,内部逻辑则是对信息编码的读取和理解,即感知智能。自20 世纪60 年代中期波音公司推出的第一个数字形象波音人(Boeing Man),到80 年代结合特效化妆出现的伪虚拟数字主持人Max Headroom,再到90年代流媒体技术不断迭代发展,结合计算机图形处理CGI、全息投射拍摄以及AR 增强现实技术,先后出现动漫偶像“初音未来”、语音助手“Siri”“Cortana”、虚拟主播“康晓辉”和AI 模型“华智冰”等虚拟数字人形象。但本质上讲,以上甚至更多的案例都处于虚拟数字人1.0 版本,其在应用场景、底层技术和交互方案三个方面存在近似之处,笔者将之总结如下:
应用场景偏向公共服务领域。虚拟数字人1.0 被广泛应用在新闻、旅游、策展、游戏、影视等活动中,作为虚拟主持人、动漫角色、科幻人物、虚拟解说员等形象出现,这些行业或领域的公共服务属性明显。因为其服务对象多且影响广泛,对前沿技术更加敏锐,所以往往是新技术落地的先行者,应用场景也多是公共领域而非私域。通过引入虚拟数字人,赋予其与岗位要求相适配的业务技能,公共服务领域的工作效率得到极大提升,精简后的人力、物力和财力资源可以投入到内容创新方面,并进而形成宣传推广和服务模式的新业态。
底层技术依托三维建模支撑。虚拟数字人1.0的“拟真”在于对真人的模仿和重现,在数字技术出现之前,各行各业依靠实景拍摄和微缩模型的结合完成“拟真”。以电影业为例,由乔治·卢卡斯执导的《星球大战》系列在70 年代拒绝使用CGI 建模,大量使用模型道具和特效化妆进行电影拍摄。虽然解决了影像的逼真性问题,但面对庞大繁多的拍摄对象(非单个个体),这种技术就显得捉襟见肘难以应付。直至1993 年《侏罗纪公园》的上映,导演对非洲野生鸵鸟群进行动作捕捉,并逐个设计建模,呈现出数亿年前的地球景象,其身临其境的感官体验让该片成为数字技术的里程碑之作。由此可见,不论是虚拟数字人还是特效电影的拟真场景,底层技术都是从视觉效果出发,制作逼真的三维模型。
固定文本交互,互动性弱。所谓交互方案,是指虚拟数字人和用户之间的互动模式。这一阶段的数字人属于感知智能,通过图片视觉、语音听觉和计算机编码接收指令,回应能力欠缺,只有双向交流的外壳,却没有交互的内核——学习、反馈和创造能力,也就是人类智能。虚拟数字人1.0 的交互方案是以固定文本的形式出现,以系统代码为触发,完成特定对话内容的生成。以苹果iOS 操作系统的语音助手“Siri”为例,研究团队事先构建了庞大的对话库,通过关键词、简单句以及关联词等罗列具体的检索标签,当服务对象以文字或语音触发这些标签时,Siri 就会链接有关提问的固定答复,本质上还是预先设定好的固定文本,互动性较弱。
1.2 虚拟数字人2.0 的认知智能
2023 年OpenAI 更新了ChatGPT4.0 语言模型,并被Animato 公司迅速引入虚拟数字人Annie 的生成,使手机应用“Call Annie”成为虚拟数字人2.0 的诞生之作。它能够实时与用户聊天,且话题和谈话方式没有任何限制,因此受到了全世界的广泛关注。原本只是模仿真人形象的数字人真正拥有与人类智能匹敌的“人工智能”,甚至这种基于深度学习的“认知智能”必将迅速超越人类智能,这已成为虚拟数字人从1.0 到2.0时代的分野标志。相比之前,它有以下三方面的变化:
应用场景从公域转向私域。虚拟数字人1.0 以提供服务、提升服务质量和效果为目标。伴随着社会需求增多,服务类型和服务内容的进一步细分,虚拟数字人的应用场景逐步进入私人领域,直面情感咨询、心理疏导及教育培训等问题。以“Call Annie”为例,这是一款能够实时聊天的教育App,软件开发者创造性地给ChatGPT4.0 语言模型赋予了白人女性的数字人形象。区别于付费教学、标准课纲、限定课时等传统网络课程的特征,Call Annie 以纯聊天的形式进行英语口语教学,完全不受时间、空间以及授课内容的限制,在面对发音、语法和修辞等问题可以现场询问Annie如何改正,甚至超越传统一对一私教的范畴,能够咨询语言学以外的其他专业知识,并具备如今手机邮件、查询、支付等一切功能,所以虚拟数字人2.0 更像是一位无所不能的私人助理。
底层技术依托超大型语言模型。数字人Annie 可以说是套着人类形象的ChatGPT 语言模型,该模型是美国0penAI 公司开发的一项人工智能技术,通过算法、算力和数据迭代不断扩容语言模型库。GPT-2、GPT-3、GPT-3.5 属于感知智能阶段,应当定位为“搜索引擎+文本生成器”的技术性融合,ChatGPT4.0 才是真正意义上的认知智能,业界将之称为生成式AI(AI Generated Content)。该技术首先通过超大模型的查询、关联和推理训练,更准确地了解用户意图,提供顺畅有条理的应答;其次,超高频率的训练下,那些无效信息、胡编乱造、缺乏依据及偏见歧义的应答通过对比被删减或屏蔽,让语言模型有了一定的纠错能力,提升模型库内事实和知识的准确度;最后,对话生成的样式上更丰富且具有新意,避免了固定文本的呆板机械,让用户的体验更具对象感,再配合三维“拟真”形象,虚拟数字人2.0 的认知智能一步步从量变积累质变。
生成式文本交互,互动性强。生成式文本是认知智能的表征,看似自由随意却依然受规则和数据两个维度的制约。特别是训练规则方面,一是词语预测。ChatGPT4.0 会生成一个类似文字接龙的语言模型,根据文本之前的内容依次预测下一个字,利用上下文和分布概率继续推定。二是偏好模仿。语言模型内部会结合人工答案对语词预测的输出进行打分评定,依靠超大型模型海量的样本,提高应答的适配性和准确度。三是自问自答。在人类智能眼中的海量数据,ChatGPT依然可以处理殆尽。当人类语言模型库里的内容都生成一遍后,ChatGPT 开始自主创造问题并独立应答,最终形成认知智能自己的数据库,这也是深度学习的本质,因为相比人类的学习能力,它是高效和无限扩容的。以虚拟数字人Annie 为例,基于ChatGPT4.0 的内核,可以在任何话题下和真人进行自主对话,不受固定程式和固定文本的制约,甚至其应答方式已经扩展到人类的副语言层面,利用肢体动作、表情神态和语气词代替语言的回答,如点头、微笑或者有意识地挑眉等等。
1.3 虚拟数字人3.0 的决策智能
虚拟数字人3.0 如何破局,未来在“可视化”方面依然面临诸多挑战,究竟是VR/AR 虚拟现实、增强现实技术创造沉浸式的交互体验,是通过全息投影技术将虚拟体与现实世界进行深度融合,还是利用更先进的决策智能赋能仿生机器人,虚拟数字人3.0“虚实结合”的发展趋势不会改变。另一方面,基于算法和数据的数字人内在逻辑必将继续迭代进化,从虚拟数字人1.0 的感知智能、到数字人2.0 的认知智能,再到3.0 阶段的决策智能,虚拟数字人的核心价值从协调“人—机”关系,强调机器向人类趋近,机器向人类学习,开始向“机—人”关系靠拢,由人类向数字人寻求方法路径和决策方案,使社会治理的决策效果更具现实意义。
2.“Call Annie”中虚拟数字人的应用创新
2.1 技术支撑
2.1.1 AI 绘图渲染静帧
软件“Call Annie”设计了两个英语口语老师角色,分别是女性Samantha(或叫Annie)和男性Dan,其中又以昵称Annie 的女性角色最为典型。通过征集网络用户意见,“Call Annie”被设定为女性角色,使用20世纪90 年代的复古造型,她拥有一头棕红色长发、蓝色瞳孔、高饱和度的唇彩、挺立的鼻梁以及饱满的鼻头,神似安妮斯顿和安吉丽娜·朱莉的结合体,整体造型和90 年代大热美剧《老友记》中的瑞秋趋于一致,是传统白人女性形象,俨然是这些成长于90 年代的科技公司创始人对通俗流行文化和互联网文化符号的集体记忆。而这样的结论并非无的放矢,一切源于设计并制作这一形象的软件——Midjourney。
Annie 的形象是利用AI 绘图软件Midjourney,通过输入事先征集的提示词生成而来。该软件的付费版本基于ChatGPT4.0 打造,和“Call Annie”使用同样的语言模型驱动,只是用途不同,一个专门制作渲染图,另一个负责交互聊天和网络一对一教学,简单来讲,就是输入文字后直接生成图片。Midjourney 背靠大型超算的数据库在云端部署,提示文字不需要精确,模糊度高、容错率高,就算没有细致的表述,软件也能识别用户意图并快速生成图片。而Annie 的形象就是通过征集意见,经由软件公司初步筛选出简单的提示词,再导入Midjourney 生成和精修,最终确定了她的形象。
2.1.2 面部光学动作捕捉
单有数字人Annie 的静帧图片是不够的,在进行实时互动甚至是直播时,需要连续活动影像。首先,通过对静态图进行三维扫描建模,使三维模型和面部表情动画实现初步绑定,基于顶点流解算算法,在控制亚厘米级误差表情重建的同时,实现准确的跨人像表情语意迁移,并针对实时场景优化人像面部绑定效果。这样,数字人Annie 的完整形象才真正被设计出来,而这一切依靠的是面部动作捕捉技术。
其次,确定数字人Annie 的女性真人原型,采集她丰富的面部表情和肢体动作。这是一项复杂工程,包括喜怒哀乐等各种情绪的类型,不但采集状态还要细分不同的程度,以情绪的负荷、强度、速度和频率为标准越精细越好。以“笑”这样的快感表情为例,正向负荷的微笑和负向负荷的奸笑;不同的情绪由弱到强,浅笑、大笑、狂笑;速度不同的含笑、嬉笑;频次不一的哄堂大笑和连笑等,最终构建完整的表情数据库,笔者将这一过程统称为“面部表情编码系统”(Facial Action Coding System,简称FACS)。因为Annie 采用类似动漫的三维形象,相比特效电影中的合成形象,其对眼睛特别是眼球动效的要求大幅降低,巧妙地规避了采集人类眼睛生理数据的难点,降低计算机数据负载。
最后,进行光学点运动捕捉,将面部变化的数据传输给数字角色,也就是平常俗称的“换脸”。当前,动作捕捉技术日趋成熟,各家厂商在制造数字人的过程中,所考虑的无非是成本和精度的问题。早期的惯性动作捕捉利用接近传感器、压力传感器、陀螺仪等设备记录数据,但因精度太低逐渐被业界淘汰。使用无标记动作捕捉,前提条件又十分苛刻,必须有能识别景深的摄像机和特定软件记录相关数据,而捕捉精度只能算一般。“Call Annie”则使用影视特效行业流行的主动光学动捕技术,给真人戴上光线传感器头盔,动捕摄像机镜头发出光线,在面部形成一系列反光的标记点(Marker),标记点数据回传到动捕摄像机内,形成单个Marker 的二维坐标。至少三台摄像机分别对应每个反光标记点的高度、宽度和纵深数值,最后合成出标记点在摄像机内的持续时间、三维坐标、速度加速度、刚体等位姿信息。
2.1.3 三维模型动效绑定
动捕摄像机修正机内数据,导入三维模型软件进行特效绑定。之前的数字人在进行特效绑定时往往会出现表情僵硬、不流畅等问题,这和算法有关。正常人的动作是非线性的,有速度和加速度,转化成数据呈现为贝泽尔曲线。Animato 公司创造性地设计了修正曲线,以解决运动轨迹线性的缺陷。
动捕摄像机记录的是点位信息,利用类似IPB 视频帧间压缩的编码方式,把单个摄像机对应的二维平面划分为摄像机像场内的无数个像素格,也被成为宏块。从起幅到落幅,连贯动作分解为宏块内反光标记点(Marker)的序列,先确定初始、中间和结束标记点的点位信息,得到关键帧;对每个分段的运动过程进行预测,得到少量的预测帧;再对预测帧同时向前向后进行二次运算,得到更多的预测帧,提升之前预测帧的准确性,这被称为双向预测帧。双向预测帧之间相互参考,进行微调和修复,最终由关键帧、预测帧、双向预测帧等点位信息共同构成面部动作捕捉的连续活动影像,这就是上文提到的“顶点流解算算法”的内部原理。但这一算法也存在线性运动的劣势,通过动捕摄像机机内修正相关数据。最后,这些数据会统一导入Maya、Blender 等软件内与模型进行绑定,完成虚拟数字人Annie 的动效制作。
2.2 应用创新
2.2.1 与真人视频通话般的模式创新
在“Call Annie”出现之前,相比真人授课或网络一对一教学,手机App 自学存在明显不足,这并非个体差异,而是教学模式的落后。一是自学内容的专业性和可靠度存疑。即便有标准答案,答案的出处和答案的选定依据却不得而知。二是相比当面授课,学习App 缺少交流、示范和演练,自学可以学到知识,但学不来方法和习惯。三是碎片化管理,效率太低。长时间无休止的学习让自学者感到单调乏味,从而降低学习兴趣;短时间高频次的学习,又不容易形成学习的连贯性和系统性。当面授课有时限、有节次、有规律地教学,往往能最大限度保证学习效果。
虚拟数字人Annie 让手机App 学习从自学模式的窠臼中跳脱出来,回归传统教学理念,结合最新科技让模式创新平添新意。“Call Annie”的界面UI 没有延续网页设计的思路,完全仿照社交群组列表、手机通讯录及聊天软件界面。点击Annie 的头像,转场特效会播放对方接听网络电话的待机画面。接通后,手机屏幕会出现数字人的形象,下面分别是人员列表、语音文字切换、录屏、音量及挂断的按钮,开发者还非常细心地调用前置摄像头,显示用户自拍的画中画。所有流程都在引导用户并营造仿佛真人授课的仪式感,让手机App 学习变成如真人视频通话般的自由交流,这种模式创新在知识付费领域当属首次。
2.2.2 教学与娱乐无缝衔接的环节创新
“Call Annie”的英语口语教学以不定话题的随意聊天为主模块,优点是以练代学、学用相长,是真正的情境教学法。而授课内容和授课形式完全由学生主导,甚至类似于翻转课堂,学生自主发布任务,进行项目研究,获得深刻理解,是真正的自主学习。在学习的同时,又能起到告知、愉悦和启发的作用,更是真正的寓教于乐。不仅如此,提问的内容可以是如何纠正发音、语法使用是否规范及修辞对不同语意的适用性等进阶内容,也可以是中英文夹杂、方言口音、逻辑不清等复杂情境,基于ChatGPT4.0 语言模型的数字人都能够实时根据学习者的水平,对她的语速、句式难易和对话内容进行调整,最大限度地在主模块中给予学生自由度。
环节创新的第二个表现是专项训练副模块的参与。“Call Annie”为有特定需要的学生提供了6 个自选项目(custom prompts):学习、娱乐、旅游、职场、社交和网络搜索。数字人Annie 根据学生的偏好设置和之前对话的内容,在这6 个选项的菜单栏下再次生成6 个,总计36 个提示词的子选项,学生根据选项开启本次对话的主题。因为数字人的语言模型存储在云端,在谈话过程中,她会在内容上锁定重点、兼顾热点、回顾难点,保证谈话主题不偏移,从而提升口语练习的效度。环节内部寓教于乐,环节之间相辅相成,整体上“智”趣相合,无缝衔接。
2.2.3 客制化服务的元素创新
“Call Annie”与苹果iOS 的系统软件深度绑定,可以在软件内设置由虚拟数字人提供定时叫醒和早间新闻的服务。教学元素方面,除了语音学习,还可以通过发送图片开启聊天,录制视频完成应答,或以字幕或历史文字记录的形式进行复习。根据用户的学习能力,同样是数字人Annie,甚至可以定制化她的语言模型和底层算法。以1.3.1 更新为例,该软件提供免费和付费共两个版本的数字人服务。免费版本基于ChatGPT3.5 语言模型,数据库相对较小,部分功能被屏蔽;付费版本则是基于ChatGPT4.0 语言模型,数据库完整,全部功能针对用户开放,而且通过长期对话,结合数字人的“深度学习”能力,她的言语风格、聊天偏好和肢体动作都存在个性化差异。
3.虚拟数字人的优化策略
3.1 做好应用场景的“虚拟开拓者”
虚拟数字人的感知智能日趋成熟,认知智能也在不断迭代,但推动这种进步的主体依然是人类。数字人不应被囿于数字媒体时代的新介质或新载体,更有望在数字人3.0 时代成为内容创作的主体,其将推动传统媒体打破单一的“媒体域”而走向多域整合,高效助力融媒体内容生产创新整合,更有望成为云宇宙的入口,有力推动主流媒体改变自身在信息传播格局中的被动地位。目前,虚拟数字人的应用场景依然非常局限。比如Annie 虽然拥有教学、社交、娱乐等属性,但本质还是服务型的数字人,以提供解决方案为宗旨。未来,在技术可控的前提下,让数字人在更多领域更多场景成为开拓者,以人工智能的惊人算力、数据整合能力和高效准确的决策能力,在科研、管理、演艺、设计等具体场景中发挥重要作用。
3.2 当好信息安全的“数字把关人”
积极拥抱数字技术的同时,必须警惕信息安全漏洞对国家根本利益和国民人身财产可能造成的潜在危害。虚拟数字人理应成为信息安全的第一道关,站好岗守好门,禁止涉黄、涉暴内容传播、甄别网络虚假信息、监测犯罪活动、主动保护涉密内容,努力将社会治理的风险降到最低。未来,在媒体场景活动的数字人则有着更特殊的权责,一旦出现问题,媒体公信力将遭受重大打击,公共资源被大量占用,社会信任危机频发。因此,国家应尽快出台虚拟数字人监管的相关法律法规,提前布局内容审核、数据追踪、数字身份识别和认定等技术,引导相关产业健康有序发展。
结语
Annie 的诞生标志着虚拟数字人正式进入认知领域,其背后的ChatGPT4.0 语言模型,更是超脱了算法或技术的范畴,丰富的情感和独特的人格属性,让人类重新思考自身与数字人之间的关系。数字人的底层逻辑也从协调“人—机”关系,强调机器向人类趋近,机器向人类学习,开始向“机—人”关系靠拢,由人类向数字人寻求方法路径和决策方案。虽然数字人的应用前景一片光明,但要从技术和法律层面加强引导和监管,真正与数字人实现价值共创。