APP下载

虚拟歌手技术进阶之思①

2023-03-22南京艺术学院音乐学院江苏南京210013

关键词:初音数字

王 欣 (南京艺术学院 音乐学院,江苏 南京 210013)

2023年的杭州亚运会开幕式,首次出现了“数字人”参与的“数实点火”仪式,不仅代表了我国在人工智能(AI)、虚拟现实(VR)、增强现实(AR)、裸眼3D等技术的巨大进步,也象征数字人在虚拟主播、虚拟歌手、虚拟员工等多个领域得到实质性拓展。

事实上,2022年伊始,万科的一则消息就燃爆了业界,数字人“崔筱盼”荣获万科“2021年度优秀新人奖”。这位虚拟员工的瞬间“出圈”,让很多万科员工意识到与他们邮件往来的这位同事居然不是真人。然而,仅2022年春节前后,竞相登场的数字人犹如进入“角斗场”:从江苏卫视2022年跨年晚会的虚拟歌手“邓丽君”、洛天依,到湖南卫视综艺节目《你好,星期六》的数字主持人“小漾”,再到献唱北京台春晚的虚拟歌手苏小妹、首登央视栏目《对话》的数字人夏语冰、平台爆火的数字人柳夜熙,以及献唱2022年北京冬奥会的洛天依、冬奥气象主播的数字人冯小殊与宣传大使的数字人REAI,等等。可以说,时下正迎来一波数字人大军的“入侵”。

一、虚拟歌手的人为痕迹

虚拟歌手,又称虚拟歌姬、虚拟灵魂歌手、数字歌手,属于数字人的一类。“虚拟歌手是指由音乐软件和3D成像等技术制作合成而来的虚拟演唱者”[1],即虚拟歌手是在电脑上用歌声合成软件(包括编辑器和音源库两部分)制作而成的,但也离不开计算技术、3D模型、音乐创作软件(如Vocaloid、DTM)等人格化形态的加持,是兼具音乐创作与舞台表演的艺术声库形态以及商业推广等多功能于一体的数字人。

电子音乐是在录音带技术与电子合成器技术下催生起来的,而数字化让电子音乐在运算和云处理上取得长足的进步。电子音乐是在欧美及日本等国的“实验音乐”率先开展,后在市场“蛊惑”需求下,日本先后开发出歌声合成器技术及其Vocaloid应用程序的产品——初音未来。虽然初音未来并非最早模仿人类唱歌的软件,但无论是“人形”的“仿真度”,还是人设的内容,足以引发后继者的蜂拥而至,更激起了创意行为等学术研究的关注,也让资本看到获取经济利润的力量与可能。

追溯历史,如果说1997年热拉尔·克瓦兹克导演的法国电影《虚拟歌手》上映,可谓实属巧合的“徒有其名”,那么,20世纪70年代出现在法兰克福的一次乐器展的Vocaloid,应算是最初的虚拟歌手,但当时并没有引起人们的关注,更未受到资本的青睐。到20世纪80年代,英国的一家音乐软件公司ZERO-G,发售了一款嘴唇图案的Leon,但其只有声库而没有虚拟人形象。1984年,在日本诞生的林明美与2004年相继出现的LEON、LOLA,以及再之后出现改良版的MEIKO,似可理解“C社”打造“初音未来”建模的进阶样态。直到2007年,一款由日本公司使用计算机动画和语音合成程序制作而成的“初音未来”问世,这是至今最早被广泛认可的虚拟歌手。

“初音未来”命名饱含深意,“初音”指的是“第一次声音”,也即“元音”,而“未来”意指YAMAHA通过初音的一种美好期待和展望。“初音未来”主题色为绿色,是一位清纯可爱的16岁“少女”,扎着双马尾辫,身着蓝色服饰,引擎采用的是改良版的Vocaloid音乐创作软件。“初音未来”因其自带的可视化效果,加上被赋予的人格化形态,一经问世便受到极大的关注,尤其是早期《甩葱歌》,可谓达到空前的火爆,随后又频繁走上舞台并举办全球巡回音乐会。对于超一线歌手的“初音未来”来说,其热度不减或许是这一形象已逐渐从实验走向商用和民用,更或是已从“内在”走向“外在”。

事实上,我国出现“声库+虚拟人”的虚拟歌手的时间并不晚,但发展差强人意。最初进行研发的是“声库+虚拟人”捆绑的虚拟形象,直到2011年底才出现了东方栀子、十月绪子等虚拟歌手,他们虽被视为初音未来的翻版,但成了虚拟歌手从最初的乐器行列迈向虚拟人物完美蜕变的标志。2012年7月12日,上海禾念信息科技有限公司(简称“上海禾念”)推出了“洛天依”,这一形象最初来自网络的征集,并经优化后才推出,其音色通过Vocaloid3语音合成引擎制作,辅以全息技术、AR、CG等技术渲染,最终呈现为中文声库歌手。“洛天依”的问世,标志着中国真正意义上第一位虚拟歌手的诞生。此外,2013年9月,在台北的一次周杰伦“演唱会”上,以虚拟形象首次“复出”的邓丽君(虚拟歌手),与周杰伦联袂演唱了3首经典歌曲;2015年5月9日,“邓丽君逝世二十周年”纪念演唱会上,虚拟歌手邓丽君再展歌喉,惊爆全场,还有相继出现的:上海望乘科技运营的音乐虚拟IP,有着“中国版初音”之称的紫嫣、中国台湾的虚拟歌手“心华”,等等。

洛天依,身高1.63米,名字取自“华风夏韵、洛水天依”,具有中国古典韵味。虚拟歌手洛天依的生成音源(人声)来自配音演员山新,经过处理并进行一番编辑合成后,做出贴近人类可接受的音乐作品。洛天依自2012年出道以来,依凭借灵动、呆萌的外表和灵魂般的电子音,在舞台上给观众带来劲歌辣舞、快速换装的视听体验,已成功俘获超千万“洛粉”。如今,“上海禾念”已经“调教”出一组由洛天依、乐正绫、言和、乐正龙牙、徵羽摩柯、墨清弦等6位组成的以全新舞台科技元素呈现的虚拟歌手,并于2022年在江苏卫视跨年元旦晚会上首次全员亮相。

提及洛天依,不免会与初音未来做个高下之论。首先,从技术上来看,日本作为先行国,在相关软硬件方面都是先行者,但中日虚拟歌手都是经日本Yamaha公司的Vocaloid语音合成制作而来,因此无从比较。其次,从创作团队来看,初音未来的词曲作者规模庞大,涵盖整个日本乃至全世界,其平台基础实力雄厚,再加上日本动漫业的“助攻”,相较之下,尚处初创期的洛天依,无论是技术还是文化产业环境,都要明显逊色很多;再从文化传播的视角来看,初音未来的成功主要受益于日本成熟的动漫产业,可以说动漫文化早已根植在“80后”“90后”的心中,显然洛天依无论是在音乐作品还是在虚拟视频的规模和强度上,都还不具备这样的文化铺垫。

总体而言,经过数十年的发展,虚拟歌手走过了从概念阶段到国内外渐趋成熟的数字形象,无论外表还是行为、从里到外的精准还是精致,人为痕迹不言而喻。

二、虚拟歌手的技术进阶

2021年作为“元宇宙元年”,意味着以互联网为代表的信息技术的迸发,人类或已开启轰轰烈烈的“第四次工业革命”。变革往往始于概念,但判断最终能否变革,还需要周期性、持续性的攻关。时下无论是“过火”的元宇宙,还是惹人眼球的数字人(包括虚拟歌手),世人似乎已看到数字世界的广阔性与长足性。然而,这个崭新且未知的领域,必将遭遇无法预测的技术难题。技术是推动虚拟歌手从“画饼”到建模、驱动、渲染,最后应用落地的核心驱动力,其中涉及的技术十分广泛,仅计算机领域就有图形学、深度学习、动作捕捉、语音合成等技术,还有得以充分展示的算力、云计算、交互性和通讯传输等技术作为保障。

制作虚拟歌手的技术大体分三个层面。首先,必须认识到3D建模技术对构建虚拟歌手“人为形象”的重点在于实现精细的还原,进而将采集的动作、面部表情等数字信息迁移并赋能给虚拟歌手,其生成方式的核心技术在于对动作的捕捉。其次,则是实现实时渲染技术,以确保建模工具技术的磨合与智能语音技术升级的互通性,再赋予虚拟歌手更强的视觉与交互能力,进而在AI、VR、AR、混合现实(MR)、拓展现实(XR)等技术上展现。再次,则需要构建虚拟世界的多模态人机交互体验,也是虚拟歌手对不同虚拟场域、不同服务实时进行人机的交互,虚实结合考验着硬软件设施和“造世者”(决策者、科研人员)。总之,虚拟歌手无论是从“声形并茂”的外形还是思想和行为,其背后推手都是不断发展的技术。虚拟歌手的未来能走多远,归根到底也取决于技术的发展。

虚拟歌手成功出品的关键是深度合成技术。这一技术主要基于人工智能技术、图像主体修改与PS痕迹覆盖的后处理等方法的使用,多种技术协同发展下的交互结合、完善与再发展,以及生成对抗网络(GAN)的进步,最终促使深度合成技术的应运而生。虚拟歌手采用深度合成技术主要是集人脸替换(换脸)、人脸再现、人脸合成和语音合成,关键点在于精准获取三维人脸技术和控制生成人脸图像内容,并对其身份参数进行数据处理、形改和渲染等深度学习算法,最终在嵌入式应用下实现虚拟歌手高度逼真的人脸合成。而今,深度合成技术作为虚拟歌手/数字人以及元宇宙发展的关键技术,已具体应用于AI语音、虚拟音乐会、全息影像、AR场景图像与NFT自动生成艺术,相信不久的未来,深度合成技术定将从单一模态拓展为覆盖语音、图像与文本的多样化模态。

有学者认为,虚拟歌手承载着人类社会三次工业革命以来努力的结果,并以数字手段锻造的虚拟化形象呈现。不仅如此,人类物理世界已派生出元宇宙的虚拟世界。然而,仅从技术而言,当下预判实现元宇宙虚实世界有两项关键技术。第一关键技术则是XR,随着VR/AR/MR、5G/6G、AI、区块链、云计算等迭代技术的升级,XR将成为元宇宙内容和链接维度的发生、发展的关键所在。作为具身人的虚拟歌手、虚拟员工以及虚拟货币、虚拟庄园必将迁移到虚拟世界,对于人类的娱乐、工作、学习和生活方式,元宇宙势必也将带来革命性的变化。虚拟歌手在不断完成阶段性的AI、3D、VR/AR/MR、仿真与沉浸式等技术的数字革命,被认为是互联网进化出新的文明系统已经显现。尽管数字人被各种解读和误读,但未来的确让人怀有太多的期待和想象。尤其是互联网Web3.0的迭代将至,技术拓宽了人类生存空间的边际,互联网新业态的快速发展,数字经济、网络生活成为实体发展的生力军,全新的数智化对人类社会影响巨大。从本质上讲,元宇宙就是对现实世界的一种虚化,随着AI、3D、VR/AR等技术的逐渐成熟,虚拟歌手率先实现“脱虚向实”,促使人类加快探索数智化,快步走进数智时代。

元宇宙的另一关键技术则是数字孪生(Digital Twin),又称数字映射、数字镜像。它涵盖模型构建、数据集成、感知控制和人机交互等技术,更综合了ICT先进技术的大数据、AI算力、云计算、3D建模与工业互联网等诸多技术交互下的感知、计算与建模过程。简单来说,数字孪生是把物理物体建在信息化平台上的数字版“克隆体”,实现数字技术对本体的复制与克隆。虚拟歌手作为元宇宙“人、场、物”的重要一环,首当其冲的就是要实现“人”的数字孪生,而虚拟歌手实现数字孪生需要获得基础层软硬件和平台层共同的协调发展。具体来说,支撑虚拟歌手的基础层硬件有芯片、传感器、显示设备和光学器件等,基础层软件主要是建模软件与渲染引擎;而支撑虚拟歌手的平台层则需要软硬件系统、AI能力平台和生产技术服务平台,以及为提供制作与开发虚拟歌手能力赋予的真实性、灵动性。近年来随着软硬件、成像技术、人机交互、音乐合成的技术成熟,以及VR、AR等技术门槛的降低,加之虚拟歌手有着不可估量的商业价值,因此越来越多的企业、资本纷纷加入进来,使得虚拟歌手在艺术表达与受众体验上呈现大比拼野蛮生长的同时逐渐走向内卷。

支持元宇宙的各项底层技术尚未完全成形。显然,今天还无法做到在数字世界里为虚拟歌手加入视觉、听觉、触感和感觉(温度感),未来的确还有很长的路要走。

三、洛天依:从“草根”到商业拓展的进阶

近年来,直播行业热闹非凡,通过互联网平台实现产品线上销售的“直播带货”,已成为产品的产研销为一体的主要方式之一。对于“出道”已10余年的洛天依而言,除却演艺价值,虚拟偶像身份已成为众多品牌营销发力的新选择,其代言的品牌数量逐年攀升,尤其受媒体与广告商的青睐,以及游戏公司、影视传媒、社交平台、视频平台、超模、综艺及专属企业宣传数字人的公司争相入局,加之资本对该风口的持续看好,因此洛天依呈现良好的商业前景。

2020年5月1日,洛天依在某宝平台也玩了一把“直播带货”。开场前已有超两百万的弹幕,其中不乏“坐等天依殿下”“等天依上线”弹幕的持续刷屏,足显“洛粉”对洛天依首次“带货”的期待。洛天依“直播带货”的新身份,以及她与人的隔屏互动,再次刷新了人们对她的认知。更值得一提的是,洛天依直播带货的“坑位费”已近百万,高出真人KOL(营销领袖、网红达人)数倍。这一现象不仅意味着当下电商平台搏杀的白热化,也说明作为数字人的虚拟歌手快速“破圈”的进阶。同时,这一运作既是对明星主播代言频现安全性危机的规避,也加深了对“Z世代”接受度的认知,更拓宽了人们对虚拟歌手边界的认识。事实上,洛天依早已参与众多商业代言,其形象远不止停留在舞台上。为增加曝光率,延续文化生命力,精准切中“忠粉”的喜好,拓展周边产品,构建“洛粉文化圈”,洛天依积极通过商业代言、合作等方式,把脉商业动向与时代实时发展风向,可谓潜力无限。比如必胜客推出了线下的“洛天依”主题餐厅,美年达推出“洛天依荔枝饮料”,肯德基推出儒雅帅气的大叔Colonel Sanders数字人形象,此外洛天依还为浦发银行、长安汽车、雀巢咖啡、百雀羚、护舒宝等品牌代言。

作为虚拟歌手,洛天依已由草根歌手拓展到虚拟主播代言、品牌合作的完美化身,即从音乐会商业表演与音乐专辑推送、音乐视频与社交等平台曝光推广运营,联动内容与共情等方式收获“洛粉”的供养与打赏,拓展到通过合作实现商业价值,其背后更是无法估量的商业生态。洛天依早已突破原生领域的“歌唱事业”,消解了草根壁垒,频频“出圈”到虚拟主播开展跨行业的商业合作,如此良性运营或将延续到游戏、动画、电影、旅游等各类行业,为中国音乐与文化产业开拓出一条多元发展之路。不得不说洛天依的文化价值、商业价值与社会经济价值巨大。

近几年,洛天依通过技术手段实现了嵌入式信息技术的交互转化,达到了人类几乎不可能完成的极限,比如连续十余小节的不换气、超高速的歌唱、极限高低音。在技术的加持下,已感觉不到“极限”的存在,技术与艺术情感机制的交互融合在不断深化。

虚拟歌手洛天依目前的影响力丝毫不亚于当红明星。究其缘由,应看到“Z世代”大部分已接受了音乐、舞蹈、绘画等领域的学习,拥有一定的认知和“表达自我”的特质,抑或是洛天依唱出了他们的心声,因而在音乐的审美中找到了体现自我的那份契合。“洛粉”与洛天依之间既是一种准社会关系,又是一种单向情感关系,“洛粉”还会将其情感羁绊与个性化的理想品质投射到洛天依身上,因此才有“上海禾念”推出人设互动下内容“喂养”的举措。如此既满足了“洛粉”将真情实感寄托在这个虚无缥缈的符号化存在,让洛天依与“洛粉”之间形成亲密的互动,使其具有人情味与个人魅力,又让洛天依收获了“无本”的广告效应和最为广泛的传播价值。比如在李佳琦直播间的互动献唱、B站《权御天下》超千万播放量,以及频临淘宝直播间实实在在吸粉300万,互动打赏更是突破200万大关。更值得一提的是,洛天依在李佳琦直播间献唱时出现了短暂失声的小故障,居然得到不少“洛粉们”如朋友般的嘘寒问暖。可见,在新技术引发下,人与技术开始交互融合,洛天依作为人类塑造的新型传播主体,新媒介已造成人与机器、物质与非物质的边界模糊。新技术正让人类从以“物质身体”为中心的观念中修正或转移,也让人类的“物质身体”化身为“技术身体”,颠覆了在场、虚拟在场与多重现实,并穿梭在多元交互场景中。未来是在场还是缺席,作为“物质身体”的肉身,显然已不能作为判断的唯一标准了,即“技术身体”将以另一种形式在场。

洛天依作为技术研发的产物,也是后人类时代精神文明与物质文明下技术塑造的产物,体现了技术赋能人类带来革命性的创意劳动,让草根受到更少的束缚,激发更广泛的情感共鸣与互动效应,不可小觑的是以洛天依为代表的数字人,其商业代言的影响力与号召力,未来还将成倍溢出。据《2021虚拟偶像观察报告》调查统计,全国已超3亿用户体量在关注虚拟歌手;另据量子位智库发布的《虚拟数字人深度产业报告》中,2021年虚拟人核心产值已近百亿元,预计到2030年虚拟人市场规模将达3000亿元,撬动周边经济将超万亿。洛天依从游戏、动漫、音乐领域,再到百货代言的边界延伸,其建构意义不只是多样化领域身份认同的重塑,还在于增强社会交往,并激发投射的情感共鸣与“主体间性”,让日益复杂的“在场”嵌入现实世界。技术进阶下的虚拟歌手俨然已具有可塑性、养成性,从最初人们的猎奇围观,逐渐成为“Z世代”表达身份的“景观”与认同数字世界的工具,再到资本介入的个体化与市场化、专业化与兴趣化的多元身份,折射出一种远离喧嚣的娱乐化与追求财富的时代气息。由于当前尚处于早期研发、培育阶段,对于虚拟歌手是否能走得更广、更远,只能拭目以待。

如果把洛天依出道的前6年算作是积累期,那么之后的6年就是爆发期,也是得益于移动互联网和中国工业化进程的加速发展,以及对AI、VR/AR、二次元文化推广的深化。当然,相对真人明星频发的绯闻、负面消息等不确定性,人设形象相对固定、唱跳随心的洛天依无疑安全很多,其也让资本看到了科技加持的优质形象在文化与商业活动上更为宽广的未来。或正因为此,近年猛将频出的数字人应用正汹涌而来,从虚拟主播到平台爆火的柳夜熙、AYAYI,等等。

余 论

虚拟歌手明显有着人类印迹的演唱、表演,甚至部分超越人类,其关键之处在科技,资本投入也就追随热点而至。技术的更迭速度日益加快,令资本望而却步的仍是瞬息万变的各类技术,毕竟这是一场革命性的竞“技”。虽然初音未来、洛天依的成功让资本看到了商机,近年也进行了广泛开发、制作,但其中也已暴露出明显问题。

其一,今日国内虚拟歌手采用的仍是日式造型基准,多为靓丽、富有青春活力的形象。然而,趋于同质化势必会引起审美疲劳,在未来如何保有核心竞争力,增强特有的活力,值得深思。尤其面向作为消费主体的“Z世代”,这样的形象有着明显的局限性。即便是名目繁多的新产品出现,也难以在传统观念限制和市场文化间突破。再加上年轻一代的关注力广泛,粉丝的黏性难以维持,一定意义上也会限制产业的升级发展,作为企业与资本在布局中应谨为深思。

其二,为扩大知名度和影响力的“虚拟歌手”,可以说已极尽卖力地歌唱,但仍是“叫唱不叫座”,即使已成功实现盈利模式的初音未来、洛天依,其商业运作上仍显得步履蹒跚,主要原因仍在于各类科技投入的要求高、费用高、内容制作的单一。即便是承接一些代言实现变现,也只是微不足道的收益,更何况还会遭到粉丝们的不认可,比如洛天依代言长安汽车引发了洛天依“假唱”的负面消息。

其三,洛天依作为国内仅属的成功个案,即便是产业拓展与开发已实现了“出圈”,但依旧显得单薄。就其发展潜力、市场期望值来说,至少目前的产业链还不成熟,何况并没有紧紧围绕K歌,更没有夯实其主流文化圈,因此难以实现其产业延伸,更难带动周边产业的延展、发行与完善。加之资本跟风现象重,消费市场没能得到有效拓展,因此也就难以形成产业主流和规模市场。

猜你喜欢

初音数字
数字
答数字
牵手初音未来 红米能否打动学生用户?
牵手初音未来 红米能否打动学生用户?
初音十载,歌声袅袅
初音十载,歌声袅袅
数字看G20
成双成对
《初音未来》要做VR版了
成双成对