“虚拟数字人”概念:内涵、前景及技术瓶颈
2023-07-17简圣宇
简圣宇
摘 要: 作为社会数字化转型的伴生产物,“虚拟数字人”产业蕴含着巨大的市场需求。从经济到文化教育等各个行业和领域,都需要能与人类实现协同合作的虚拟员工。当下的“虚拟数字人”仍只是些只有外观而没有自主思想的数字人物形象,不过随着驱动程序的升级,它们也将对人类社会产生更深的影响。其在“元宇宙”这类智能虚拟平台搭建起来后还将有更广阔的应用空间,为人类社会增加新的人力资源。ChatGPT的出现带来了新的契机,它能够作为未来数字人的内在驱动而产生关键作用,赋予后者以“类人心智”。尽管如此,在人物形象的自动生成和智能驱动等方面,虚拟数字人产业仍有较多技术瓶颈问题亟待解决。
关键词: 人工智能;元宇宙;虚拟数字人;ChatGPT;类人心智;智能驱动;智能生成内容
中图分类号:G20 文献标识码:A 文章编号:1004-8634(2023)04-0045-(13)
DOI:10.13852/J.CNKI.JSHNU.2023.04.005
“虛拟数字人”是社会数字化转型的伴生产物,也是构建元宇宙的核心要素,目前其相关产业正处于自身发展的初级阶段。1 当人类文明发展到一定阶段时,必然将自己的存在场域从单纯的现实世界升级到“现实世界+数字世界”的状态。由于物理世界的容纳能力和应用场景是有限的,故而必须通过向数字世界拓展才能打破旧文明的束缚,走向数字文明。2 构成“虚拟数字人”的三要素包括:自然流畅的语音、廉价快捷生成的外貌,以及智能驱动支撑的心智内核。这其中,心智内核是最重要也是最需要技术积淀的部分。当有了GPT模型和“人类反馈强化学习”(Reinforcement Learning from Human Feedback,缩写RLHF)等方案的赋能之后,人工智能的高级自然语言处理能力又上了新的台阶,其运用在“虚拟数字人”身上就使其更具有了“类人”的心智特征。GPT模型的成功案例说明,人类可以通过神经网络路径去持续优化算法,从而深入模仿人类认知过程。1 而若人工智能能够产生“心智”(至少是“类人心智”),那也就意味着已知为驱动内核的“虚拟数字人”也能具备相应的能力。
一、内涵持续丰富的“虚拟数字人”概念
所谓“虚拟数字人”,即以人类外貌、心智等元素为设计底本,借助信息技术构建出的虚拟人物形态。它可以对人们显现具体外貌,也可以仅用语音来与人交流,总之,它只要能具有特定的类人的功能,就能被归入该范畴。“虚拟数字人”还被称为“虚拟人”“数字人”等。英文方面有“Metahuman”“Digital Human”“Virtual Human”“AI being”等称谓。
对于“虚拟数字人”概念,相关调研机构都提出过自己的定义。如《2021年度我国虚拟数字人影响力指数报告》将之定义为:“从技术层面看,虚拟数字人(Metahuman)可以理解为是通过计算机图形学、语音合成技术、深度学习、类脑科学、生物科技、计算科学等聚合科技(Converging Technologies)创设,并具有‘人的外观、行为、甚至思想(价值观)的可交互的虚拟形象。”2 次年,该报告第二期又给出了更为宽泛的定义,提出只要“拥有外形、声音、动作、表情、技能等一个或者多个数字基因”,都可被视为“虚拟数字人”,即哪怕是没有外观的所谓“只闻其声、不见其人”的语音助手、智能客服等也属于此范畴。3
而“量子位白皮书”发布《虚拟数字人深度产业报告(2021)》中的定义是:“存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像和主播等。”4
“知乎”发布的《2022年中国虚拟数字人行业研究报告》则将之定义为“具有数字化外形的虚拟人物”,“与具备实体的机器人不同,虚拟数字人依赖显示设备存在,并且拥有类人的生理构造(模仿人的形象、肢体构造)、人的行为(能说话、能运动)以及人的思想(基本的逻辑能力、并可以出输出内容如书写、与人交谈)”。5
严格说来,真正具备诸如“人类交互能力”的“虚拟数字人”在目前的历史阶段尚未出现,即便是有弱人工智能加持的“虚拟邓丽君”也只是在模拟而非具备人类的认知能力。与“虚拟数字人”所涉的智能驱动等基础技术层面发展相对稳健不同,外观设计由于“投资小、见效快、噱头足”的缘故,其商业应用领域的发展颇为迅速。作为产品的所谓虚拟偶像、虚拟主持人和虚拟品牌代言人等就在此时开始走入公众视野,这些产品虽在智能化程度上还存在诸多欠缺,但已被相关机构尝试运用在娱乐、营销、教育等领域。6
自20世纪后半段起,虚拟数字人的制作和研究工作呈现出愈加丰富的态势,其影响也逐步溢出专业研究圈子而走向社会大众。在20世纪80年代到21世纪初这段时间里,“虚拟数字人”还主要是指工具性的数字化人体模型(digital manikin),7 故而相关研究主要围绕着医学、制造和工程学等学科进行。8 但随后“虚拟数字人”的设计开始超越传统用途,向娱乐消遣领域延伸,这就需要让它们具备相应的社交互动能力。为此,21世纪初开始,研究人员就开始将“智能行为模块”(intelligent behavior modules)运用在“虚拟数字人”设计过程中,以便使它们具备及时的反馈能力。1 虽然那时的软件资源相对原始,但关于虚拟数字人所应达到的技术要求已基本明确,即具有一定的互动能力和相对逼真的人类外观。与躯干动作相比,面部表情更能传递人类情绪、情感。关于面部表情的图形学研究,甚至可以追溯到赫伯特·兰菲尔德(Herbert Sidney Langfeld)在1918年所做的研究。2
到了数字时代,如何升级计算机图像技术来创造更加灵活多变的虚拟面部表情就更成为一项重要攻关课题。通过三维面部捕捉技术(3D facial capture)来制作虚拟面部表情是一种比较高效的手段,借助专业图像采集设备,再加以数据建模,就能得到一张可编辑的高清人脸。“数字艾米丽项目”(The Digital Emily Project)可谓是这方面的代表(图1)。3 采集好的真人面部可以生成为三维图像,根据需要而动态生成虚拟面部。如图1中,A和C所示,程序生成的虚拟面部经过调色等步骤之后,变成了如B和D所示的高清仿真人脸,这张人脸是如此逼真,以至于一般人很难通过肉眼加以识别。
此类图像采集设备正在不断升级中,代表性的如“光舞台”(Light Stage)就采用了“细分的二十面体”(Subdivided Icosahedron)方案进行全立体的高清拍摄,然后再借助计算机图像进行三维重建。4 但从成本控制的角度看,这种依赖面部捕捉和动作捕捉来制作“虚拟数字人”的路径恐难持久发展,而只会是一种过渡性的、小众性的制作方式。因为它的成本(所需时间、人力、财力)都太高,不符合“尽可能自动化生成”这一压缩成本模式的要求。
相比之下,虚幻引擎(Unreal Engine)推出的应用程序(MetaHuman Creator)则聚焦于不借助扫描就直接生成高清“虚拟数字人”的道路,让用户在数字平台上设计出具有逼真的“面部表情+肢体动作”的立体数字人,其甚至可以将虚拟人物面部上包括毛孔和皱纹等诸多细节部分呈现出来。而在平面构图方面,Stable Diffusion WebUI平台的出现将“文本生成图片”模式推上了新台阶,特别是技术玩家们又琢磨出了基于此平台再使用LoRA模型文件加上tag标签等搭配组合模式,通过词句提示的方式生成一系列高清照片级别的人物图像以供筛选,这就直接将智能绘画从所谓“二次元”提升到了“三次元”的层次。5 而“输出指令+AI生成”的方式如果得到进一步优化,将成为一种较佳的“虚拟数字人”生产方式。以AI模型社区Civitai里展示的绘画作品为例(图2),6 A是通过发出“超写实、长发、长袖”(photorealistic,long hair,Long sleeve)等正向提示(Prompt),以及去掉“最差画质、老年斑、多余的手指”(worst quality,age spot,extra finger)等否定提示(Negative prompt),来引导模型生成一位长袖蓝衣少女形象;而B也是通过发出“上镜的英俊成熟男性、穿着背心和牛仔裤、留着浓密的胡须肌肉、长着凌乱的棕色卷发”(photogenic handsome mature man in tank-top and denim jeans with full beard muscular,with long curly messy brown hair)等正向提示,以及去掉“最差画质、怪诞、畸形”(ugly,grotesque,malformed)等否定提示,来引导模型生成一位穿牛仔裤的男性形象。插件ControlNet还进一步提升了人物形象姿态控制的精确度。1 这些由模型设计生成的形象虽然在具体生成时还存在“多手指”、畸形等问题,需要再做二次筛选调整,但外观确已达到了能以假乱真的水准,属于“虚拟数字人”片面外观生成方式的一次重要进步。若将来视频的帧也能通过特定模型以指令输出的方式自动生成,那么对于“虚拟数字人”制作的廉价化走向将有巨大推动作用。
随着技术的发展,“虚拟数字人”的种类也在逐渐增多。若按照其历史发展顺序做大致分类的话,“虚拟数字人”应当包括但不限于以下7种类型:
1.“数字活体”
“数字活体”(Digital Human Models)即以数字化形式存在,用以模拟真实人体的形态、机能等特征的虚拟人体。这种“数字活体”的开发侧重于其“器官”的虚拟仿真程度,因为需要借助这些“器官”对实验过程的系列反应来研究真实人体在同等情况下可能出现的状况,从而更安全、高效地开发相关的医疗、工业产品。比如医学用途的虚拟人,被开发出来以用作医疗培训、手术模拟,乃至药物开发。相关制药公司、医院等机构先按照患者人体模型构建出一个虚拟人,然后通过对这个虚拟人进行参数测试来预估药物和治疗手段可能在真实人体身上产生的反应,车企的汽车碰撞试验也开始引入“数字活体”来进行评估。2 这方面的工作开展得很早,美国方面在20世纪80年代就开启了“可视人类计划”(Visible Human Project),3 欧洲、日本等随即跟着推进,中国也在国家“863”计划中列入“数字化虚拟中国人”项目,各国也持续在这一领域取得新的成绩。4 “数字活体”虽然在概念属性上也属于“虚拟数字人”的范畴,但终究不是一种有完整形象和“灵魂”的“人”,不具备主体性,而只是一种工具性的数字客体。
2.“数字化身”
“数字化身”(Digital Avatar)即人类在虚拟世界里的数字映像。“数字化身”在数字场域的活动受主人在物理场域的限制,该形态的“虚拟数字人”的主体性是主人赋予的,而非通过算法等人工智能等技術来逐步进化形成的。5 如在现阶段里,游戏玩家在游戏世界里有着自己的映像,未来元宇宙出现后每个人也将在其中拥有自己的映像,这种映像的一举一动都与现实中的人类相对应。当技术发展到一定阶段时,或许每个人都将在元宇宙或类似虚拟平台上拥有一个自己的“数字化身”,以所谓“原生主人+数字孪生副本”的模式而存在。1 在基于区块链技术的通证经济环境下,这个数字化身将具有唯一性和不可更改性,它可以作为我们在数字世界的映射,以我们的身份开展各种活动。
3.“数字人物形象”
“数字人物形象”(Digital Characters)即模仿人类外观,加以数字建模而成的各种人物形象。通常数字人物形象不需要以现实生活中的真实人物为模版来构建,如“阿丽塔”这种电影中的人物形象,以及开始在现实中陆续出场的虚拟主播、虚拟偶像、虚拟主持人等都是由设计师自由创作出来的形象。这类“虚拟数字人”的主要功能就是以具有亲和力的人形面貌出现,在社交、展演类领域提供服务。受近几年短视频热潮的带动,以及“二次元”等亚文化的助推,虚拟形象备受关注和热捧。产生了诸如被冠名为“一个会捉妖的虚拟美妆达人”的“柳夜熙”,号称“会弹琴的虚拟大学生”的“华智冰”,以及仅以形象照作为露脸形式,但已经跟法国娇兰、路易斯威登等资方在广告代言和宣传方面合作的“AYAYI”等数字网红。2 照此趋势,日后每一个场馆(博物馆、美术馆、图书馆等)或将会常设一个数字导游,借助类似于AR眼镜的设备,以“视觉叠加”的形式立体呈现在参观者眼前,为他们提供讲解、翻译等服务。虽然受技术局限,它们仍属于缺少智能驱动加持而没有自主互动能力的“数字木偶”,但正是它们让“虚拟数字人”成了目前被公众高频率接触到的热词。
4.“数字仿象”
“数字仿象”(Digital Mimics)是一种特殊的数字人物形象,即根据特定人物(主要是名人)的外貌加以数字建模而成的人物形象。与“阿丽塔”之类不以现实人物为依据而新设计出来的人物形象不同,“数字仿象”乃是根据已有的名人构建的“仿象”,比如《速度与激情7》里借助“AI换脸”技术制作出的已故演员保罗·沃克、《终结者:创世纪》里1984年青年施瓦辛格形象、《双子杀手》里虚拟的年轻版威尔·史密斯,以及因为参加江苏卫视2022年跨年演唱会等活动而引发关注的“数字邓丽君”,还有2023年《流浪地球2》里被复原的已故演员吴孟达的形象等。如此林林总总,反映了新科技对身体和媒介关系的影响进一步加深。如果未来构建一个元宇宙数据生态系统,再获得相应授权把这些已逝人物设置进去,那么他们的形象甚至可以达到所谓数字永生的效果。虽然这些只是他们的“数字仿象”而非本人,但在效果層面上的确能具有部分的相应功用。
5.“数字伪像”
“数字伪像”(Digital Deepfake Characters)即经过机器算法制作出的深度伪造人物形象。由于“深度伪造”(Deepfake)的称谓具有显著的贬义,也有学者认为应用更为中性的“深度合成”的称谓来取代,3 中国国家网信办也倾向于使用“深度合成”这一称谓。4 2016年时,德国纽伦堡大学发布了可以将视频里的人物面部进行“表情移植”的“Face2Face”应用程序。当应用程序的开发和使用者把经过深度伪造的美国总统奥巴马等名人的演讲发布出来后,学界和大众才意识到这种技术潜在的危险性。因为这种真假莫辨的“数字伪像”很容易被别有用心的人用来操纵舆论,带来不可预料的后果。5 而如今MidJourney V5生成的那种照片级逼真程度的虚拟人物形象,让人已难以通过肉眼分辨其真假了。“深度伪造”作为“深度学习”和“伪造”的结合,其技术层次在人工智能的赋能下不断升级迭代,如今不但可以篡改视频里的人物面部,还可以生成伪造的肢体动作,乃至模仿特定人物的声音,并且达到听音模声与面部表情乃至唇形都同步的程度。6 正如现实世界充满了各种类型的犯罪一样,未来“虚拟数字人”的应用逐渐普及之后,也将出现以“数字伪像”为代表的诸多欺诈现象,这都有待相关机构设计出相应措施加以应对。除了前述的外观伪造之外,还可能出现智能交流带来的思想误导问题,比如ChatGPT、Google Bard这类GPT模型所展现出“一本正经地胡说八道”的可怕表达能力,不得不让人对日后“虚拟数字人”的具体运用产生警惕。1 因为在生成式人工智能加持下,“虚拟数字人”同样可能也用不容置疑的权威口吻,将大量虚假或错误的信息以大众很难分辨的形式叙述出来,从而对大众进行一系列后果难料的误导。2 信任,是对话的一项基本条件,人际对话如此,人机对话亦概莫能外。但目前GPT模型尚不具备让人信任的品质,所以充分的“人机对话”也尚未真正存在。
6.“数字副本”或“数字幽灵”
“数字副本”或“数字幽灵”(Digital copy or Digital Ghost)特指在“弱人工智能”条件下,人类活动在数字世界里留下的印迹。这些印迹是可以如同影子一样将它主人的行为和思想的真实轮廓还原出来的。
与“数字仿象”概念侧重于“虚拟数字人”的面貌、身体和声音等外在特征不同,“数字副本”概念将目光更多地投在了行为、观念、思想等内在特征上(当然,随着技术的发展,两者是可以合二为一的)。网民在数字世界会留下他/她的“数字足迹”(Digital Footprint),而随着技术的不断升级,这种“数字足迹”终将升级到“数字副本”的程度。如今某些游戏会将人们在虚拟平台上面的行为记录并且储存下来,为玩家构建一个专属副本。3 学界已有学者开始探讨个体生命去世后如何处理其数字副本的问题。4 当然《黑镜》等科幻影视剧里设想出的未来技术,还让人产生一种现实担忧:我们是否会在未被告知、自己未察觉的情况下,被建立起一个“数字副本”?比如,某些机构是否有可能根据人们的数字足迹,在其平台上构造出能够高度还原人们个体性格、行为偏好、消费习惯等特征的“数字副本”,然后根据这个影子来更深入地针对人们进行定量研究,运用大数据来预判人们的意图,最终把人们的行为模式琢磨得比他们自己更透彻,以具有可亲外观的“个性化算法”的形式,更细致地、实时互动式地操控人们。5 已经有企业借助“数字足迹”监测用户行为,如“剑桥分析”公司就通过对用户点赞行为进行数据挖掘而针对用户心理制定出相应的操控策略。6 一旦“数字副本”可以容纳诸如人脸、指纹、虹膜,乃至指静脉、DNA等生物特征的关键个人隐私数据,它所带来的潜在安全风险就更大,因此必须有更为周全的安全措施来加以防范。
如果将死亡定义为“自我意识的消失”,1 那么数字化记录很可能是一种“永生”的途径。虽然现在距离掌握真正的“数字永生”技术还很遥远,其至多还只是个科幻概念,但学界对此的研讨已相当火热。2 如果日后“元宇宙”应用在这方面取得相应的进展,那么我们每个人都很可能在其中拥有一个专属“数字副本”,当我们抵达寿命终点之后,那个拥有我们诸多个人信息的数字化身就将成为数字幽灵。这虽然听起来颇有些惊悚,但如果能够实现,就可以将社会各领域杰出人士身上对人类发展最具价值的部分提取出来加以数字化,从而让后人仍然能够在与他们的数字幽灵对话中获得启迪,从而站在巨人的肩膀上创造社会价值。试想一下,如果在达·芬奇、爱因斯坦、霍金等思想巨人活着时就为他们逐步构建其“数字副本”,他们留下的“数字幽灵”将给后世带来很大的宝贵精神财富。
7.“数字人类”
“数字人类”(Digital Human)即未来科技发展更加进步,最终造出的具有与自然人类相同智能甚至超越自然人类智能的数字生灵,它已成为具有“自我意识”的生命体。
这已是一种在赛博空间里演化出的所谓“智能的、有感情的、活的虚拟人”,3 它跟自然人类的区别只在于两者分别存在于数字世界和物理世界。这种“数字人类”可以是基于现实世界里的个体而生成的对应物,也可以是不基于现实模板,只是在数字世界里按照自己的逻辑路径生成的“生命体”。科幻片《流浪地球2》里设计了一个“数字生命计划”的内容,即上传意识和创造“数字人类”,但要实现该计划,恐非电影里所描述的那么顺利。作为一种对“数字人类”未来前景略带科幻色彩的展望,人们可以看到由于虚拟世界遵循着与现实世界不同的运行逻辑,故而虚拟世界的“时间”也可以通过参数的变化进行调整,在某种程度上摆脱现实时间对人类的束缚,让数字世界里的“人类”以超越人们若干个数量级的速度去学习、积累和进化,那时的人类文明很可能以今人无法想象的速度演化。
还需说明的是,笔者所列出的类型仅仅是一种粗略的划分,而非在内涵上能够完全自足的严谨学术概念。因为这些类型除了“数字活体”之外都不是孤立的存在,彼此之间并不存在绝对的界限,只是根据具体使用场景进行相对划分,并且随着日后的技术升级,它们也很可能会彼此融合并且产生新的类型。比如“数字化身”与“数字副本”具有同源关系;“数字影子”在用户去世之后又会变成“数字幽灵”;“数字人物形象”和“数字仿象”之间在内涵上存在诸多重叠;“数字仿象”和“数字伪像”所凭借的形象合成技术多为同源;“数字活体”也可以升级到“数字副本”的层次。
二、“虚拟数字人”所包含的应用领域和发展前景
“虚拟数字人”概念因当下的虚拟偶像、虚拟主持人和虚拟品牌代言人等“数字人物形象”的崛起而走红。然而,从更长的历史维度观之,当下泛娱乐业的这些应用都尚归属于浅层次范畴。“虚拟数字人”最重要的潜在生产力价值,在于其能成为现实人力资源,从而为推动现实世界的生产力发展而服务。换言之,发展“虚拟数字人”产业的根本目的,乃是希望跨域调动包括它们在内的来自数字世界的力量去推动人类文明进步,故而其未来的应用前景将围绕着这一根本目的而展开。
在人类文明数字化转型的历史进程中,如何实现跨域调动人力资源并且开展更高效的协同合作是一项非常关键的研究内容。千百年来,人们为了最大限度地拓展自己的生存空间并在扩大的生存空间里尽可能地调度起更多的人力资源进行社会建设,一直在尝试利用各种联合模式增强自身的集体凝聚力。最初是通过氏族,然后是借助宗教、国家,以及各种基础设施,20世纪末开始基于互联网构建起更为庞大的协同合作方式。随着虚拟现实技术的发展,21世纪还出现了“元宇宙”这类数字平台,它具有两大潜力:一是把身处全球不同区域的人通过VR眼镜等设备集成在一个虚拟空间里协同工作,二是运用虚拟世界各种智能场景为现实服务。故而Epic首席执行官斯威尼(Tim Sweeney)提出:“元宇宙作为一种未来媒介,能够成为比现存的任何封闭系统都更高效的引擎,推动经济效率提升。”1 虽然“元宇宙”的真正建成还是非常遥远的事情,Facebook转型为Meta之后也遭遇了较大波折,2 不过在人类数字化转型大趋势下,“元宇宙”这种数字平台仍然是在未来世界必然出现的事物,因为跨域协作带来的生产潜力确实相当诱人。
如上所述,所谓“跨域”,不仅包括要将现实世界里不同区域的资源统摄起来形成巨大合力,而且还包括要将数字世界的虚拟资源调取出来,“凭空”增加现实世界里可资调配的资源。3 作为社会数字化转型伴生产物的“虚拟数字人”正是由此登场,公众需“从实向虚”地以“数字化身”的“虚拟数字人”形式进入数字世界开展工作和娱乐活动,同时也需要把可能的人力资源从数字世界里召唤出来,成为现实世界里的日常工作者。4 试想,当用于驱动虚拟员工的技术在未来能升级到一定程度时,如果有一家企业乃至一个国家能生产出相当于成千上万个人类员工劳动力的虚拟员工,那么将让该企业或国家产生多么大的人力资源优势?这种虚拟员工对生产力的推动作用,就相当于昔日的蒸汽机(17世纪末蒸汽机被发明出来之后,它让普通工厂陡然间具备了比之前的古代社会多出几十甚至几百倍的生产力,于是在随后的18世纪引发了导致人类社会深刻变革的第一次工业革命)。由于其所具备的重要生产价值及潜力,“虚拟数字人”技术在未来甚至有可能成为关系国运的具有战略级意义的产品。
对个人用户而言,“虚拟数字人”技术除了前述的应用场景之外,接下来还将以更为贴身的“数字助手”形式深入日常生活。就像如今的人们从小接受猫狗等家庭宠物的陪伴一样,日后的人们可能将在虚拟人物陪伴下成长起来,习惯了在日常生活中也有这些数字助手的日夜陪伴。“数字助手”扮演的具体身份可依据其功能差异分为不同类型,如“数字保姆”“数字秘书”“数字护士”“数字伴侣”等,其共同点皆以为用户提供个性化服务为核心。这些能有效分担人类工作的“数字助手”,不仅能重塑人类的日常生活,并且还将引发一场对传统工作制度的颠覆性变革。5 与“虚拟偶像”“虚拟主播”往往只是作为“网红”昙花一现且更侧重于单一的娱乐功能、用户相对小众不同,“虚拟助手”从一开始就是作为一个日常生活中常态化使用的贴身伙伴来开发的产品,所以,它面对的乃是一个极其庞大的用户人群,拥有着多面向、立体性、持续性的现实需求。虽然以现在的技术,“虚拟助手”的智能化程度及其功能相当有限,但是按照该应用技术发展逻辑,其逐步走向阶段性成熟只是时间问题。
具体到当下的公司而言,即便只是技术尚未成熟的“准虚拟数字人”,也能成为一名独特的数字员工:它要么是一个没有可能发生绯闻劣迹,甚至不会变老的形象代言人,要么是一个24小时在线的工人,其在面对无尽的工作时不会产生厌恶情绪,更不会有肉身疲惫之感,可以日夜不眠地持续工作。须知,人工智能不受体能、情绪等人类无法摆脱的肉身束缚,且在特定领域内的学习和工作能力远超人类。比如,对于人类来说颇为艰难的背诵工作,在拥有强大信息储存和处理的人工智能看来就是小菜一碟,这种工具性的强大让人类只能望洋兴叹。未来一旦“虚拟数字人”背后的智能驱动技术升级到一定高度,那么它们将具备无可比拟的劳动力优势。6 有研究机构甚至认为,人工智能很可能在一个世纪左右的时间里替代人类所有工作,重塑人类文明。1
三、“虚拟数字人”所面对的技术瓶颈
目前“虚拟数字人”所面临的技术瓶颈问题主要来自两个方面:一是作为外观建模的人物形象生成方面,二是作为内在支撑的智能驱动方面。相较而言,前者面对的主要是应用层面的内容,所需要的技术相对更容易研发,每隔三至五年时间就会出现阶梯式突破。后者则相对困难许多,面对的是基础层面的研发,需要长时间的积累,在十几年甚至几十年的时间里能有一定的突破就已经是可喜之事。2 OpenAI的GPT系列模型从2018年的1.0版本到现在的3.5版本仅用了5年,这在此领域已算是“神速”了。然而如果算上该模型1.0版本推出前的理論准备期,以及接下来还需持续迭代所消耗的时间,该模型从设想到初步成熟其实也需相当长的时间,绝非一蹴而就的短期行为。3
科技是“虚拟数字人”的底层支撑,从基础科学研究到具体应用等都对“虚拟数字人”的迭代升级起着全方位的决定性作用。特别是人工智能的发展与“虚拟数字人”有着高度绑定的共生关系。就人工智能的发展历程而言,距离初步成熟的阶段尚为遥远。而人工智能技术的不成熟,也限制了当下虚拟人的发展。
当下的“虚拟数字人”产业,其实是指基于当下技术水平的泛文化产业,包括娱乐、教育和服务等领域,这些领域需要大量的虚拟偶像、虚拟主持人、虚拟教师、虚拟导游导购、虚拟助手等工作角色。该产业面临“外观”和“内核”的技术问题,这两个问题其实也对应着该产业的短期和长期问题。所谓“外观”技术问题,即让“虚拟数字人”在外观(面部表情和肢体动作)的逼真度和灵活度等方面达到一定的水准,从而使得公众在视觉上接受它们。
而所谓“内核”技术问题,则是指让“虚拟数字人”具备一定的自主思维能力,不依赖于人类的实施控制就能相对独立地做出判断和决策,乃至采取行动。即便它的自主思维能力无法达到科幻电影里与人类无异的程度,至少也需能够“从形式上模拟意识”,4 具备基于场景与人们进行互动、协助人类开展日常工作的基本能力,由此而能作为新的人力资源参与到社会建设活动当中。有学者将“完成复杂目标的能力”作为评判“智能”的标准,5 若想“虚拟数字人”达到此标准,作为内驱的人工智能技术在场景认知、互动反馈、机器学习等一系列方面需取得突破性进展。只有当“内核”技术问题得到有效解决,“虚拟数字人”才能对社会生产力产生实质性影响。
作为虚拟人物形象需要攻克的难关之一,人物面部表情的生动化问题一直在困扰数字娱乐业的设计者。人类面部表情极其丰富,在引入智能算法之前,动画人物形象的面部表情往往相当僵硬。公众很难在面对这样一张没有表情的木偶脸时,产生发自内心的情感共鸣。经过数十年的技术积淀之后,这方面的问题已有很大改观,借助AI深度学习算法不但能让面部数字建模愈加精致,甚至还解决了面部表情与声音不同步的问题。英伟达开发出的“Omniverse Audio2Face”程序就相当友好地解决了虚拟人面部表情与声音不同步的问题。这款应用程序可以仅仅依据音频就即时生成与之匹配的面部表情模型。而小冰公司研发的“小冰深度神经网络渲染技术”(Xiaoice Neural Rendering,缩写XNR)可以将“数字孪生”类型的虚拟人在容貌表情、肢体动作等外观的自然流畅度方面提升到以假乱真的程度。6
在“虚拟数字人”表情和动作的制作方面,除了需要克服具体制作环节上的技术问题之外,还需使得这种制作工作更具性价比,以便符合“高效、价廉和可批量化生产”这三项基本的市场要求。艾伦·库伯(Alan Cooper)等学者曾提出这样一个关于数字产品的悖论:创造出计算机等硅机设备,原本是为了让人类更加省事省力,然而人类仅仅是为了能够恰当地去使用设备里的软件就必须被迫投入大量的时间精力。1 这个悖论在“虚拟数字人”生产领域现在也未能消除:创造“虚拟数字人”是为了节约人类工作的时间,然而创造和维护它们的过程本身就在极大消耗着人类自己的时间。
相对于之前粗糙的建模技術而言,晚近时段诞生的这类虚拟人物的面部表情和身体生成方式确已颇为先进,然而如果按照未来工业级“元宇宙”建设的要求而言,则仍旧相当落后。因为当下的虚拟人物面部建模仍然离不开相关设计师的参与,仍非人工智能自动生成,而“动态捕捉技术”也依然需要真人穿戴信息捕捉设备去具体行动,此种建模形式属于“手工作坊”式的生产,达不到产业化生产的规模化水准。以当下“柳夜熙”“华智冰”等所谓虚拟偶像为例,它们虽然号称是“人工智能虚拟人”,但它们的外观建模仍须经由相关设计师手工完成,而且在虚拟程度上只能算是“半个”而非“整个”。它们只有脸部是智能建模的,身体仍然是人类替身用真身去扮演。“创壹视频”制作“柳夜熙”的方式是真人扮演和后期换脸。作为由“清华大学计算机系、北京智源研究院、智谱AI和小冰公司联合培养”的“华智冰”,仅采用省力的方式做AI换脸,后者为此还一度引起过舆论风波。2 这些所谓虚拟人不仅只能算是“数字人物形象”,而且还只是局部“数字人物形象”,并不是交由程序自动生成的充分“数字人物形象”。
实际上,就当下已有的技术储备而言,形象生成这类外围问题并非不可克服的障碍。前述“光舞台”(Light Stage)那样能提供高清立体人像建模的“球状分布灯”(LED sphere)拍摄方法,如今也已有一定的技术积累了。3 之所以仍采用“真人换脸”之类的“低端技术”作为处理手法,主要还是因为当下的科技水平尚不具备高效、低成本的“虚拟数字人”生产能力。目前各大公司正在解决“虚拟数字人”外观上的问题,他们制作出的数字人类图形已接近自然人类照片的逼真程度,但他们目前以及未来很长一段时间内都难以解决制作这些外观所涉及的性价比不高问题。毕竟精细化建模所消耗的人力、资金和时间等都非一般团队所能承受,即便现在已有虚幻引擎(Unreal Engine)提供强大的制作平台,设计者要想制作出高清晰度和仿真度的“虚拟数字人”外观,也需要耗费相当多的时间。当然,OpenAI的DALL-E让学界有了更乐观的想象,因为既然能开发出这种通过文本描述来创作图像的“对比语言图像预训练”(Contrastive Language-Image Pre-Training,缩写CLIP)技术,4 那么按照这样的思考路径或许未来还可以进一步开发出能生成动态图形的技术。
人类近现代历史发展的经验表明,消除这种悖论只有一个方法,那就是进一步提升生产数字人的自动化程度。正如手工作坊时代的棉纺织品价格注定难以降低,而且这些产品的质量亦难以精确把控,只有当其升级到工业时代的机械化大生产后才有所改变,当下的虚拟人物构建所需成本,必然高于日后交由人工智能自动生成的模式,只有通过升级机器学习算法,实现更高程度的所谓“自动化本身的自动化”,5 才能压低目前“虚拟数字人”高昂的制作成本。6
在没有能够设计出人工智能辅助生产技术之前,“虚拟数字人”制作领域很难取得实质性的成就,最多只能在既有的原始技术框架之内进行内卷式的精致化处理。从当下的虚拟偶像的生产状况,也可管窥接下来元宇宙的建设进度。毕竟只有当虚拟人物形象、虚拟设施等数字内容的制作流程能升级到高度自动化的程度,才能把建设元宇宙所需要消耗的成本(包括人力、资金和时间等)有效降下来,同时也才能让内容生产更具性价比地满足用户对及时更新的实时需求。目前“人工智能生成内容”(AI-Generated Content,缩写AIGC)领域的研发正在取得一系列成果,如ChatGPT的强大文字生成功能以及Stable Diffusion的智能生成图片能力,已经给人以更大的想象空间。1 GPT模型、Stable Diffusion、MidJourney等AIGC应用的历史性登场表明,生成式人工智能正在成为接下来智能化应用领域重要的攻关方向。2 与“虚拟数字人”相关的AIGC并非只限于文本和图像的智能自动生成,实际还包括音乐、视频生成,乃至编程等领域,在生成学习算法、预训练模型等技术的加持下,其未来的地位将逐步提升到“互联网的内容生产基础设施”的高度。3 只有“虚拟数字人”日后从外观到内核都具备了AIGC属性,才算初步抵达1.0的范畴。
目前业界对于AIGC模式的动画制作已有诸多尝试,如程序员雷希(Ammaar Reshi)基于ChatGPT和MidJourney来制作短片,4 網飞(Netflix)也以智能生成作为辅助,创作了画质更精良的短片,5 这些方法对日后“虚拟数字人”的制作颇具启发性。而Runway推出的Gen-2已具有通过图像和文本提示生成视频的能力,6 虽然现有版本生成的画质还显得粗糙,但日后若能升级到跟ChatGPT、MidJourney之类的软件搭配使用,那么还会产生新的成就。按照现在AIGC领域的研发进展速度,估计三五年内就有可能创构出高效、廉价的“虚拟数字人”外观形象生成方式,但创构能顺利驱动它的智能内核的技术仍需时日。
正如不能指望一棵大树的成长如同野草藤蔓一样迅速,我们也不该奢望“虚拟数字人”产业化的时代迅速到来。“虚拟数字人”涉及的智能化领域尚需更多的时间去实现技术积淀。关系到人机交互核心问题的“自然语言处理”技术(Natural Language Processing,缩写NLP),仍然存在着“语音和语义的歧义性”“句法模糊性”“言语行为的语境性”等诸多尚未获得有效解决的难题。7 因为人类的自然语言本来就存在着不严谨、不完善的问题,而人类的思维也往往是非理性、非逻辑性的。8如何在这种悖论当中做出选择,才是真正考验所谓“智能”的关键问题,故而让机器从“识别语音”升级到“理解语音”乃是一个重要的智能化突破点。在人工智能的情感分析领域,已诞生出基于情感词典、机器学习和深度学习的不同情感分析法,但这些算法还相对机械,在更为复杂的情感语境中往往不能完满读取对象信息。9 一些研究团队尝试用“任务驱动的语言模型”对此进行优化,但最终效果如何,仍要通过相关实践进行评估。1如今GPT模型演化到4.0版本后,在自然语言处理方面有更进一步的突破,但还存在所谓“幻觉”(illusion)问题。2以上这些问题究其原因,本质就在于当下的人工智能技术尚未发展到让“虚拟数字人”具备足够的认知、反馈和决策能力,更不要说具备“自我意识”能力了。
就“心智”一词的语义而言,其被视为能将感知、记忆、思考、评价、决策等综合起来的一种复合能力。3 当GPT模型出现后,学界意识到人工智能虽尚未产生“自我意识”(self-awareness),但它能借助“预训练”+“算法筛选”的方式去模拟“心智”运行过程,在形式上接近于人类的“心智”样态。这种模仿心智的样态可称为“类人心智”(AI-Mind),或更形象地称为“硅基心智”。实际上,即便是在目前的技术条件下,GPT模型也可以进行“感知、记忆、思考、评价、决策”。当然,这样的“心智”毕竟不是来自自主意识,而是基于被动的“预训练”,所以只是一种“类人心智”。
缺失智能驱动的“虚拟数字人”,其外观再迷人,也只是一具没有灵魂的“数字木偶”。目前“柳夜熙”“华智冰”这类所谓虚拟人在技术上只能被称为“虚拟形象”,由于不具备最基本的“情境觉知”能力,4 它们在智慧能力方面并不符合“虚拟数字人”这个概念的内涵。这种连AIGC属性都没有的虚拟形象只是一种“伪数字人”。形象是客体,而人是主体,两者之间有着质的区别。之所以仍将之称为“虚拟人”而非“虚拟形象”,主要是遵从当下主流的口语习惯而已。尽管它们的外观在“类人”特征上越来越逼真,在人工智能赋能下,无论是面部建模还是肢体动态建模,都逐步度过“恐怖谷”阶段,然而这都回避不了它们仍停留在客体状态的事实,有待类似于ChatGPT这样的智能应用给它们注入“灵魂”,让它们在形式上成为能模拟人类心智的“活物”。5
不过遗憾的是,在“流量为王”的时代,相关团队在打造这类虚拟人的时候,其实对它的智慧化(主体性)发展方面并不感兴趣,其焦点主要集中在如何将这些“网红”在形象(客体性)展示方面进行更深入细致的打造,从而通过各种花里胡哨的虚招来实现商业变现。于是乎,“柳夜熙”这类虚拟偶像在发展上被关注最多的问题,并非涉及智能算法、自然语言处理等深层次的技术问题,反而是聚焦于外貌之类的浅层次的形象建模问题。
这些虚拟偶像的幕后团队之所以不得不持续地围绕它们的“人物设定”推出各种新的内容,就是源于他们更加关注它们的商业价值。正因为着力点不同,这些虚拟偶像的“出圈”只是在声势上扩大了“虚拟人”的影响力,但对基于人工智能“虚拟数字人”的深层建构层面并没有太多贡献。从长远来看,虚拟偶像仅有精致姣好的面容和曼妙的身材是不够的,如果在这些外在形象之下缺乏能够持续吸引人的内在魅力,那么也就是些花瓶式的空架子罢了。它们的拥趸们在新鲜感过去之后就会很快感到厌倦,而这些虚拟偶像的商业寿命也就到此为止。如何赋予虚拟偶像更充分的主体性,仍将是一个关系到它们是否可以持续发展的重要问题。
所谓“智能”,首先意味着具有一定的感知、交互能力。6 “虚拟数字人”至少应该能理解用户语言并且实现实时互动,而依据此标准,目前大部分的“虚拟数字人”连1.0版本的要求都达不到,只能算是“虚拟数字人”的“前史”阶段。要想达到实时互动的要求,就必须要有强大的智能后台(数据、算力和算法)作为底层支撑,而构建这样的底层支撑仍需时日。在目前技术条件下,“虚拟数字人”与“元宇宙”概念一样,也是个被过度热炒的概念——这些产品在未来将起到非常重要的作用,但并不意味着它们发挥作用的时刻能很快到来。相关方面为了迎合资本炒作的需要,故意将相关产业初步成型的时间说得很短,让投资方感觉一切触手可及。其实两者所涉及的底层技术都尚需更长的发展时间,远未数年内就发展到为相关产业提供直接技术支撑的程度。当“虚拟数字人”技术发展到一定程度后,还需整合进产业链中,通过持续升级迭代而形成立体的商业生态,并非如同当下这样零散分散在互不关联的各种应用场景中。
结语
20世纪末时,尼葛洛庞帝就指出:“人类的每一代都会比上一代更加数字化。”1 这种趋势进入21世纪更呈现出加速趋势。在新冠疫情环境中成长起来的21世纪“10后”这一代人,其思维受到的影响可能超出我们的预估。网络课程、网络娱乐、网络消费等在线生活给他们的童年留下了深刻的时代烙印,他们对数字化娱乐、元宇宙、“虚擬数字人”等在线事物的接受和运用程度都将超越前代。在他们中的不少人看来,在线生活不是现实生活的补充,而是与之平行的“第二生活”,甚至是比后者更为重要的生活方式。在人类社会的数字化转型过程中,作为其衍生产物之一的“虚拟数字人”在接下来的社会发展过程中还将扮演愈加重要的角色。因此,在这一历史趋势下如何发挥“虚拟数字人”的优势、如何应对其引发的问题,将是人们需要进一步思考的议题。
The Concept of “Virtual Digital Human”:
Connotation, Prospect and Technical Bottleneck
JIAN Shengyu
Abstract: As a companion product of the digital transformation of society, the “virtual digital human” industry contains a huge market demand. Various industries and fields, from economy to culture and education, need virtual employees who can collaborate with humans. At present, “virtual digital people” are still only digital characters with appearance and no independent thought, but with the upgrading of drivers, they will also have a deeper impact on human society. The “virtual digital human” will have a broader application space after the “Meta-universe” and other intelligent virtual platforms are built, adding new human resources to human society. The emergence of ChatGPT presents a new opportunity to play a key role as the inner driver of the digital person of the future, giving the latter a “human-like mind”. Nevertheless, there are still many technical bottlenecks in the virtual digital human industry that need to be solved in terms of automatic generation and intelligent driving of character images.
Key words: artificial intelligence; Meta-universe; virtual digital human; ChatGPT; AI-mind; AI-drive; artificial intelligence generated content (AIGC)
(责任编辑:陈 吉)