论虚拟数字人能否取代播音员和主持人

2023-02-06张亮

中国传媒科技 2023年12期

关键词：主播语音人类

张亮

（吉林广播电视台，吉林长春 130000）

随着数字技术的迅猛发展，虚拟数字人这一全新的传播形式也日益成熟。它是否能取代人类在传媒领域的地位，成为一个备受关注的话题。

虚拟与真实的关系是一个值得思考的哲学命题。现实中，技术与人性并不对立，而是可以实现优势互补。当下我们需要的是用开阔的视野，来审视技术带来的种种新的可能。

1.虚拟数字人概述

1.1 定义及发展简史

虚拟数字人是指利用计算机图形学和人工智能技术，打造具有自然语言交互、情绪表达能力的虚拟形象。它可以完成预设的语音、动作甚至气质表现。虚拟数字人技术起源于20 世纪70 年代，当时主要依靠传统计算机图形学技术进行图像生成。到90 年代，这一技术得以提升，能实现高保真的数字人模型。最近几年，虚拟数字人技术进入快速发展期。随着深度学习在语音合成和行为控制方面的应用，虚拟数字人的逼真度和交互性都取得重大突破。

目前的虚拟数字人技术已经能够实现精细的外形塑造、逼真的语音合成、面部与身体微表情生成，并能进行简单对话。未来这一技术还拥有很大的发展潜力和空间。

1.2 主要功能和应用

1.2.1 语音合成和嘴型同步

语音合成是虚拟数字人的核心功能之一，通过语音合成技术，可以使虚拟数字人拥有自然的语音。语音合成系统可以将输入的文本转化为流畅的语音。嘴型同步是使虚拟数字人语音更加逼真的关键。通过嘴型同步技术，可以精确控制虚拟人物的嘴部运动，与合成语音保持同步，增强真实感。

1.2.2 面部表情生成和身体、手势动作

基于面部捕捉、模拟肌肉变化等技术，虚拟数字人可以展现丰富的面部表情，如喜悦、愤怒、惊讶等，以此来传达情绪。虚拟数字人还可以有自然的身体和手势动作。这些动作同样基于数据驱动，使虚拟角色更生动。

1.2.3 对话交互

通过自然语言理解和生成技术，虚拟数字人可以进行简单的问答对话，具有一定的交互能力。主要应用领域有虚拟主播、虚拟客服、虚拟偶像、虚拟教师等，这些都需要语音合成、交互等功能支持。

1.3 代表性案例

代表性的虚拟数字人案例包括央视网的数字虚拟主播“小C”、中国日报的“元曦”、中国青年网的“青小霞”、大河网的“河宝”等。

1.3.1 中国虚拟主播“新小微”

2023 年两会主播“新小微”，基于真人原型采集海量数据。她的原型新华社记者赵琬微戴着数据采集头盔，几百个摄像头对其身体各个部位360 度全方位打点扫描，并对她的形态、表情动作捕捉记录，再生成3D 数字人模型。最后，通过多模态数字内容生成算法，对3D 数字人模型进行实时驱动和渲染。

1.3.2 全国省级广播电台中首位数字虚拟主播“长小姣”

2022年7月，全国省级广播电台中首位“虚拟员工”上岗，开始了她在上海人民广播电台长三角之声的主播工作。“长小姣”于2022 年5 月5 日开启实习主播生涯。她的第一次“出镜”，给网友们带来了有关“奥密克戎新变种或能逃避免疫保护”的最新研究动态，之后便活跃在长三角之声节目《思创空间》的短视频专栏中。相关视频的播放量、话题阅读量已破300 万。类似“长小姣”的AI 主播在广播媒介也越来越受欢迎，可实现天气预报、路况、音乐、资讯等节目的智能播报。

1.3.3 中央广播电视总台首个AI 超仿真主播上线

中央广播电视总台视听新媒体中心以财经评论员王冠为原型，基于“央视频”平台推出的总台首个拥有超自然语音、超自然表情的超仿真主播“AI 王冠”。在2022年的全国两会报道中，“AI王冠”正式投入使用。央视频也推出了全新AI 节目《“冠”察两会》，为两会报道注入科技“创新力”，充分彰显AI 技术在新闻领域应用的前沿成果。

1.3.4 韩国AI 新闻主播“艾莉”

韩联社开发的AI 新闻主播能自动同步新闻稿生成嘴型，并配以语音播报新闻。艾莉新闻主播已在YouTube 等平台上线。

这些数字人角色运用智能语音和图像生成技术，实现交互性和逼真度的大幅提升。

2.虚拟数字人的优势分析

2.1 减少人力成本

虚拟数字主播在成本控制和应用效率上优于人类主播，是减少人力成本的重要手段。

虚拟主播只需要一次性的设计、开发和训练成本，不需支付常规工资、保险等费用。虚拟主播可以24 小时持续工作，大大减少了人力配置。同时可以快速复制生成多个实例，可满足多平台、大规模应用的需求，人力成本大规模降低。虚拟主播的外形和声音可完全统一控制，而人类主播的状态会波动，需要更多备用人选。制作流程的标准化也降低了人力成本。虚拟主播可自动完成固定流程任务。虚拟主播还可以大规模应用于智能设备，实现个性化定制，适应不同场景，降低用人成本。

2.2 提高时间效能，提供全时服务

虚拟数字主播的高效时间利用是其核心优势之一，这对实现全时候服务具有重要意义。

虚拟数字主播不会产生疲劳，可以24 小时持续不间断工作，不需要轮换。同时可以适应任何时间段的工作，完全无须调度，不受工作时长的限制。虚拟主播可以在不同时区和地区同步提供服务，覆盖全天候的时间段。即使在非高峰期与节假日期间，也可以让虚拟主播正常工作，不用担心人员调配难题。

在遇到突发事件时，虚拟主播可以快速响应，及时到岗，不必像人类主播需要召集。虚拟主播还可以在一些对人体有潜在危险或不适宜的环境下工作，比如恶劣天气。在某些需要保持高度一致性的长时间工作中，虚拟主播也更能胜任。

2.3 形象统一，品牌效应良好

虚拟数字人的形象、音色、语速语调等都可精确设定和控制，不会产生主观性偏差。人类主持的状态会受健康、情绪影响，很难保证每次完全一致的效果。虚拟数字人可高度统一地控制外形和风格。

虚拟数字人可以制定统一的外观形象标准，如脸型、发型、衣着等细节可以完全一致。在声音方面也可以通过调节语速、语调、音色的参数来实现高度的统一。这种外在形象和声音的完全统一，有利于品牌识别和加深用户印象。当用户多次接触到同一虚拟形象时，会逐渐与该品牌形成清晰的联想。相比人类主持可能出现的各种外在差异，虚拟数字人更易塑造品牌形象。当然，过度统一也会产生审美疲劳，需要适当保留个性化元素。综合来看，在保证核心识别点统一的前提下，适当灵活多变可以达到最佳品牌效应。

2.4 更好避免错误，稳定性强

与人类相比，虚拟数字人具有更高的工作稳定性和更少的错误率，这主要归功于其技术本质所决定的特点。首先，虚拟数字人可以通过持续训练不断优化其知识图谱，大大减少因知识欠缺而产生的错误。其次，依靠强大的自然语言处理技术，虚拟数字人可以准确理解用户的问题，避免因言语歧义造成回答偏差。另外，虚拟数字人不会出现工作疲劳导致的失误，可以持续稳定地工作，这对某些要求高精度的应用尤为关键。最后，所有虚拟数字人严格遵循相同的应对逻辑，不会出现个体之间明显的工作质量差异。虚拟数字人在稳定性与减少错误方面客观上具有先天优势。

虚拟数字人可利用语音识别和自然语言处理技术识别复杂问题，实时匹配数据库产生回答，可大幅减少错误。人类主持可能会由于反应速度慢或临场发挥失误导致错误。数字人可大幅降低视听信息传递错误率。

3.虚拟数字人的劣势分析

3.1 交互性较差，难以深度交流

尽管虚拟数字人在语音合成和语义解析方面已达很高水平，但由于其本质仍是基于算法而非真正智能，所以在与用户的语言交互和深层次交流方面仍显得较为被动和呆板。目前的虚拟数字人系统大多只能对特定领域的问题进行有限的应对，而无法像人类主持人那样进行广泛而深入的对话。其次，虚拟数字人在处理语用上的细微差异时也较为笨拙，难以领会语言的深层语境含义。再者，缺乏复杂情感作为支持，虚拟数字人的语言交互过程显得较为单调和机械化，不如人类语言生动流畅。综上所述，受制于自身技术极限，虚拟数字人的交互性目前还比较弱，难以与用户进行深度的交流。这一短板需要持续技术突破才能得到根本性改善。

3.2 情感表达有限

虚拟数字人难以富有变化地表达丰富的人类情感，如调侃、幽默等。它的语调和表情是程序化预设的，无法传递真实情感，亲和力不足。

3.2.1 虚拟数字人难以取代人类主持人的独特魅力

虚拟数字人在外形、声音等方面已趋近高度仿真，但情感表达仍有短板。算法难以捕捉人类丰富内心世界中复杂的情感波动。喜怒哀乐的微妙转换，正是人类主持人的独门绝技。此外，虚拟数字人现阶段对话交互仍较被动，难以主导聊天或做灵活应对。而人类主持人往往能富有感染力地带动气氛，与来宾畅聊无阻。最后，虚拟数字人处理全新问题时也显得更加笨拙，难以展现人类智慧的灵活运用。总体来说，虚拟数字人要全面取代人类主持人还有很大差距，目前仅局限于某些固定场景的替代。

3.2.2 个性化虚拟数字人更能吸引用户

高度统一的虚拟数字人外形和声音忽视了个性魅力的重要性。标准化的着装、发型、声线久而久之会给用户带来审美疲劳感。相比之下，人格鲜明的品牌代言人往往更受欢迎。因此，适当进行个性化设计与打造也应是虚拟数字人的发展方向。保留统一的核心标识点，同时加入适量的个性化元素，将是虚拟数字人取得最佳品牌效应的方式。未来可能会出现针对不同用户群体进行个性化定制的虚拟数字主持人。

3.2.3 实现人虚协作才能发挥各自优势

人类主持人的独特优势在于其丰富的言谈举止和幽默机智，而虚拟数字人擅长承担工作强度大、精度要求高的任务。充分发挥两者优势，实现人虚协同，才是最佳策略。具体来说，可以探索混合模式下人类主持与虚拟助手的合作，建立虚拟数字人语料数据库来辅助人类主持提效。只有做到良性互补，才能取得指数效应，这也是技术进步的正确方向。

3.3 群众认知度不高

尽管虚拟数字人技术在某些领域已经取得很大进步，但对广大公众来说，虚拟数字人还是一个较新的概念，大多数人还不太了解虚拟数字人的具体定义、主要技术原理、应用场景以及与人类的区别。这主要是由于虚拟数字人技术刚刚起步，还未完全成熟和广泛应用，相关的媒体报道和公众科普也不够。虚拟数字人给普通大众带来的更多是新鲜感和疑惑，而不是真正的理解和认知。要提高公众对虚拟数字人的认知度，需要从娱乐、新闻等渠道加大宣传力度，使人们进一步认识虚拟数字人的本质，消除疑虑，理性看待这一新兴技术的应用。只有这样，才能打造广泛的社会认可度。

3.4 制作门槛较高

虚拟数字人的制作过程复杂，需要多学科紧密配合，涉及3D 建模、渲染、动画、语音合成、对话系统等多个环节。要实现精细逼真的人物形象与动作，需要专业的3D 数字化团队进行长时间打磨。高质量自然语音合成也需要大量语音样本及专业录音设备。除此之外，还需要有AI 算法团队构建知识库与对话系统，赋予虚拟形象智能交互能力。可以预见，要达到商业化应用的标准，需要专业工作室进行系统化打造，门槛较高。这也是当前阻碍虚拟数字人大规模普及的重要因素之一。简化流程、降低门槛是该领域亟待解决的问题，这需要更加友好的设计工具和自动化技术的支持。

4.虚拟数字人发展前景预测

4.1 发展潜力和空间广阔

虚拟数字人技术作为数字世界的化身，其应用前景和发展空间可谓广阔无限。首先，伴随算法的不断升级，虚拟数字人在外观、声音、动作上的还原能力将越来越高，交互体验也会更加自然流畅。虚拟数字人未来可深入各行各业，承担更多工作职位，如虚拟播报员、在线客服、个人助理等。虚拟偶像也可实现全天候不间断的创作互动。其次，虚拟数字人技术与其他前沿技术的融合拓宽了其应用范围，如与AR/VR的结合可实现虚拟数字人进入现实世界，与用户进行混合交互。移动网络技术的发展也为虚拟数字人的使用提供了基础设施支持。最后，随着元宇宙概念的出现，虚拟数字人定位为我们在虚拟空间的代表，其应用前景更加广阔。总体来看，虚拟数字人的发展处于上升期，市场空间巨大，其将以数字化身的身份影响我们的生产、生活、娱乐等各个方面。

4.2 将逐步取代播音和主持部分岗位

随着虚拟数字人技术的不断发展，其在播音和主持领域的应用前景广阔。虚拟数字人在这些工作上具有成本低，可大规模应用等优势，将逐步取代人类在某些场景中的位置。具体来看，虚拟数字人在新闻播报方面已可实现较高质量的语音合成和语义表达，可满足大部分新闻播报的需求。与人类播音相比，虚拟数字人可实现7×24 小时不间断工作，并可快速应对突发事件，大幅提升了工作效率。在机场通知等场景，虚拟数字人也可根据具体需要进行快速调配，实现大规模应用。与此同时，基于深度学习的技术进步使虚拟数字人的外形、声音不断趋于逼真，为其在更多领域的应用奠定基础。但是，由于当前虚拟数字人在语言表达能力、交互水平等方面仍有局限，真正能够取代人类主持进行综艺访谈、活动主持等工作还需一定时间。综合来看，虚拟数字人在既定模式的播音和主持工作中具备显著优势，将逐步取代人类这些岗位，但对需要灵活应变的主持工作，目前仍有短板。随着AI 技术的进一步发展，虚拟数字人在主持领域的适用范围还将不断扩大。

4.3 难以完全取代真人的位置

尽管虚拟数字人技术发展迅速，但要完全取代人类在各领域的位置还面临诸多困难。首先，虚拟数字人在语言交互和情感表达方面仍较为简单单一，难以模拟人类丰富的语用能力和内心世界，这将制约其在需要高度语言交流的岗位中的应用。其次，虚拟数字人处理新任务和创新性问题的能力较弱，大多只能应对预设模式，无法像人类那样快速适应新环境，这也是其普遍应用的障碍。再者，虚拟数字人缺乏独特个性和自我意识，难以打造鲜明的个人品牌以赢得用户忠诚度，这对其取代真人网红主播或名人代言具有难度。最后，普通大众对虚拟数字人还持有疑虑，认为其冰冷机械，不像真人能带来情感互动，这也是需要通过长期熟悉来改变的。虚拟数字人在某些高度固定化的场景中具备明显优势，但要实现对复杂工作环境和交互环节的适应，其技术还需不断突破自身局限，才能真正取代人类在更多岗位中的地位。这需要技术创新与社会认知的共同推进。

5.结论

5.1 虚拟数字人将在某些领域取代人类

随着技术的不断进步，虚拟数字人在新闻播报、泛娱乐对话、客服等领域逐渐显现出取代人类的趋势。具体来看，在新闻播报领域，虚拟数字人24 小时不间断的工作能力、报道事实的客观性已经明显优于人类新闻播音员。虚拟新闻播音员可以快速配置，实现大规模应用，未来可能会成为新闻台的标准配置。在泛娱乐类的视频、音频对话中，虚拟数字人也有着成本低且可无限创作输出的优势，适合承担此类内容创作的主要负担。另外，在线客服领域，具备语音交互能力的虚拟数字人可以处理大规模用户咨询，并进行7×24 小时不间断的工作，大幅提升工作效率。可以预见，在这些高重复性、复杂度较低的工作中，虚拟数字人定会获得优势并逐步取代人类。但是，对于需要复杂语用理解和灵活处置的工作，如脱口秀主持、个性采访等，目前虚拟数字人的语言及情绪能力仍存短板，仍需要人类的融入，所以在短时间内不太可能被完全替代。虚拟数字人正在以其独特优势在部分领域迅速崛起并取代人类，但要实现对人类工作的全面替代，其技术还需不断深化。

5.2 需要高度交互和情感共鸣的岗位不会被完全替代

虚拟数字人目前在处理需要高度交互和情感共鸣的播音主持工作时仍存在短板。诸如脱口秀、谈话类节目等，需要根据现场气氛即兴发挥的主持工作，虚拟数字人的语言生成能力还无法做到人类主持人那样的流畅和机智。同时，在需要与来宾产生情感共鸣的节目中，虚拟主持人也难以掌握话题节奏，带动氛围。这主要是由于虚拟数字人无法模拟出人类丰富的情感世界和临场应变能力。总体来看，针对复杂语境的交互和情感反馈，目前虚拟数字人的技术仍不成熟。所以，在可预见的未来，需要高度交互和情感共鸣的播音主持工作仍需要人类主持人来完成。技术进步可以让虚拟数字人在这方面越来越逼真，但要完全取代人类任重道远。

5.3 数字人和真人主持会长期并存

从目前技术发展来看，虚拟数字人和真人主持都有各自的优势，两者会长时间并存而不是完全取代。具体来说，虚拟数字人的优势在于成本低，可以24 小时持续工作，适合处理高重复性、劳动强度大的主持任务，真人主持则擅长利用语言和表情进行情感交流，更能带来精神共鸣，这是虚拟主持所不及的。因此，预计数字主持会广泛应用于新闻播报、数据报告等对话内容固定的场景，而真人主持会继续担当脱口秀、访谈类等需要现场互动的节目。两者优势互补，共同推动行业发展。随着技术进步，虚拟数字人的交互能力会不断提升，但要完全取代真人主持，尚需很长时间。所以，真人主持仍会存在并发挥其独特魅力。总体来看，数字人和真人主持会长期并存、融合发展。

综上所述，虚拟数字人的出现使传播领域的生态发生变化。优势与劣势的比较分析表明，虽然数字人在成本、稳定性等方面具备优势，但其交互和情感表达的局限又使其难以完全取代人类。

技术与应用是轮流推动的。虚拟数字人技术还需不断进步，以突破局限。同时，公众的认知和接受需要一个过程。虚拟与真实将长期互动、共生，最终达到融合。

内容产业必将在合理应用数字人的同时，继续发挥人类创造力的优势。我们不应片面看待技术对就业的冲击，而要洞察人机协作的新机遇。

当下，我们需要的是积极的心态，与时俱进；前瞻的视野，把握大势；开阔的胸襟，与新生事物和谐共处。我们将与科技一道共同描绘出多元融合的美好蓝图。