AI 虚拟数字人与用户的关系建构<br/>——发音人的视角

AI 虚拟数字人与用户的关系建构
——发音人的视角

2023-02-06彭冬雪

中国传媒科技 2023年12期

彭冬雪

（云南艺术学院，云南昆明 650500）

人工智能的应用自落地以来，相关技术逐渐从理论研究和应用研究走向落地实践，互联网和大数据的技术发展使得人工智能的数据和算法应用也逐渐普及，随着人工智能技术的不断发展和应用，AI 虚拟数字人也逐渐与其他技术和领域进行融合，形成了更加复杂和综合的应用场景。而形成的大多数产品和应用都与用户使用脱不开关系，以往的文献重在人机交互的层面，方向多是以“由下向上”为主，也就是在产品的服务环节上，多以用户的需求为重点，尤其在特定的场景下，如何迎合与适配用户体验成为AIGC 产品尤其是AI 虚拟数字人的改进目标和方向。探讨AI 虚拟数字人与用户关系建构的原理、方法和实际应用是本文关注的重点，尤其“发音人”的作用不容小觑。

1. AI 虚拟数字人的成长路径

AI 虚拟数字人是一种具有多重人类特征（外貌特征、人类表演能力、人类交互能力等）的综合产物，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，具有语言交流、表情传递、行为决策等多种功能。AI 虚拟数字人从20世纪80 年代开始发展，起初受限于技术，虚拟人制作以手绘和化妆为主，制作形式主要是2D、3D 动画，代表性虚拟偶像有：日本虚拟歌姬林明美和英国虚拟演员Max Headroom。到21 世纪初期，随着CG 技术、动作面部捕捉技术的发展，逐渐取代了传统手绘，虚拟人开始加速运用到影视行业。2007 年～2016 年，这个阶段主要是音乐软件的二次元虚拟形象，直到2016年被称为人工智能元年，人工智能开始带动虚拟偶像的发展。2020 年至今是AI 虚拟数字人的成长阶段。

AI 虚拟数字人可以应用于虚拟助手、虚拟客服、虚拟偶像/主播等多个领域，但更强调其多重人类特征的模拟和呈现。目前比较成功的AI 虚拟数字人形象有以下：

清华数字学生“华智冰”是人工智能全新聊天机器人，能够与人对话互动，作诗、作画、作曲、翻译，都游刃有余。柳夜熙是虚拟美妆博主，不仅拥有完美的身材和颜值，还会定期更新视频，教网友如何化妆、如何搭配等。度晓晓、希加加是百度推出的AI 数字人，拥有二次元的形象，可以帮助人们搜索信息、回答问题等。

AI 虚拟数字人、人工智能主播和虚拟偶像都是基于人工智能技术创建的角色，但它们的应用场景、功能和形态存在一些区别：人工智能主播是基于人工智能技术开发的，具有语音识别、语音合成、自然语言处理等功能，能够与用户进行交互的虚拟主播。它通常被应用于直播带货、新闻播报等领域，能够自动化地进行播报和回答用户的问题。我们在一些媒体平台看到的人工智能主播有的是以真人主播为原型，比较有代表性的人工智能主播有：新华社首位AI 合成主播“新小浩”，搜狗联合新华社推出的全球首个3D AI合成主播“新小微”，科大讯飞推出的AI 主播“康晓辉”和“时间小妮”，央视的AI 主播“小白”，女主播“新小萌”。

虚拟偶像是基于人工智能技术开发的，具有音乐表演、舞蹈表演、形象设计等功能的虚拟人物。它们通常被应用于娱乐、音乐等领域，能够进行多样化的表演和互动。代表性的虚拟偶像有——翎：由魔珐科技与次世文化共同打造的虚拟偶像，以京剧梅派第三代传人的声音，现场演绎梅兰芳代表作《天女散花》，成为首个登上央视舞台的虚拟偶像。其发布于社交平台的内容涉及琴棋书画、梅兰竹菊，均营造出一种“科技国风感”。洛天依：上海禾念信息科技有限公司运营的虚拟歌手，也是中国第一个拥有自己的专业声库和形象设定的虚拟歌手。ASoul：字节跳动旗下品牌朝夕光年的虚拟偶像组合，包括嘉然、向晚、乃琳、贝拉和珈乐。A-SOUL 第二任看板娘：米哈游发布的一个二次元虚拟偶像。K/DA：韩国女子团体，由阿狸、卡莎、莎弥拉和迦娜四位英雄组成。初音未来：CRYPTON FUTURE MEDIA 开发的音源库，也是日本第一个使用全息投影技术举办演唱会的虚拟偶像。绊爱：日本女子团体，也是世界上第一个虚拟主播。未来明：日本的一位虚拟主播，因其游戏和直播内容而受到关注。七海Nana7mi：中国的一位虚拟主播，因其游戏和直播内容而受到关注。时乃空：中国的一位虚拟主播，因其音乐和直播内容而受到关注。

AI 虚拟数字人、人工智能主播和虚拟偶像虽然应用于不同场景，但是他们之间还有一点不同：“中之人”—发音人的作用不同。

2. AI 数字人如何唤起用户的感知真实

AI 虚拟数字人是一种基于人工智能技术的虚拟形象，可以与用户进行交互和交往，日常中的互动是社会上个人与个人之间，群体与群体之间等通过语言或其他手段传播信息而发生的相互依赖性行为的过程，因此AI 虚拟数字人在与用户互动的过程中也应该有一定的社会行为，以更好地实现人机互动。人工智能、图形学和机器人方面的进展正在加速实现工具人身代理，如社交机器人、虚拟化身和数字人类。体现的虚拟人工代理的非语言行为是与现有媒介的关键区别。当我们与具有人类外形的代理人互动时，我们自然希望他们能像人类一样做一些社会行为，这通常被称为“社会负担”，这种非语言行为在许多人与人的互动和人与代理的互动研究中被证明是有效的。代理人适当的手势和表情有助于揭示代理人的意图，使听众集中注意力，并与人类建立融洽的关系。[1]个人与具有类似人类存在的物体互动的方式与无生命的物体不同。他们倾向于将类似的社会规则赋予具有人类外观的计算机技术，尽管他们完全意识到他们在与机器互动。拟人化的存在引起了个人的基本社会脚本，如礼貌和互惠，这导致了与机器的情感、认知和社会反应。过去的研究表明，非人类伙伴的可感知的人类相似性是寄生社会互动发生的重要前提，这使得它是真实的而不是虚构的。寄生社会关系的发展取决于对应方的真实性、现实性或可信度水平。[2]如何建立与用户的真实的交往关系？在关系的这一层面里具有很多维度：情感关系、建立信任、互动的有效性等。接下来笔者将以百度的AI 虚拟数字人度晓晓为例，在多方面进行分析。

2.1 AI 虚拟数字人需要与用户建立信任

信任被定义为某人愿意在某个问题、背景或信息方面变得易受影响。[3]这就是为什么当涉及人机交互时，信任具有特殊的重要性，用户需要信任和依赖数字代理或虚拟助手，因为他们必须代表他们行事。[4]度晓晓是百度公司推出的手机虚拟AI 助手，是国内首个可交互虚拟数字人。度晓晓具备较为完整的语音交互体验，与以往的智能音箱一样，用户通过语音唤醒App，就可以进行1to1 的对话体验。除了能回答用户的问题外，还可以主动感知用户需求，分析用户的行为、兴趣和环境等信息进行智能分析，主动为用户提供服务。目前度晓晓的应用场景也比较丰富，包括语音交互、内容创作、知识回答、情感陪伴等。而用户对互动的内容也会有一个基本的判断和要求，互动是自然的，并且这些服务以及提供的信息必须是真实的有效的。在今年5 月底举行的2023 万象·百度移动生态大会上，肖阳就演示了“AI 伙伴”的能力。互动过程中，这位“Al 伙伴”，能够听懂用户的任何问题，并用语音进行互动，同时为用户标记出答案中的重点，提供权威的来源，以及根据用户意图制作图片或进行文案创作，重要的是所回答的问题都符合了用户所问问题的主题。[5]不难看出，在用户提问后，AI 虚拟数字人需要理解用户的问题，并给出准确的回答，如果AI 虚拟数字人的回答与用户问题不相关，用户可能会感到困惑和不满。

由于以人为本的设计理念，人们期望在AI 虚拟数字人那里获得具有效益的信息并且期望符合内心的预测，Luke Balcombe 和 Diego De Leo 在《关于数字心理健康中的人机互动》指出机器学习的可用性挑战，包括开发和运行模型需要足够的技能和时间，用户对模型缺乏信任，以及扎根于人机学习分歧的斗争，重要的是建立信任，减少分歧，提高责任感，解释模型的逻辑，量化对预测的具体贡献，评估性能指标，并说明以前研究的历史预测。[6]AI 虚拟数字人需要建立起与用户之间的信任，才能达成长期的关系，这里的信任很大程度上指的是互动中给出信息的真实度和准确度。而在这个环节之前，发音人作为“存放声音的仓库”，也就是语音库，是按照词语或者句组的方式录制的声音，然后集中存储到一个数据库中，通常语音库的文件体积越大，处理文本的能力就越强，发音效果就越好，也就越接近于真人发音，从而增强AI 虚拟数字人的“真实感”。另外信息的准确度来源之一是对互动中自然语言的理解，这同样需要在发音人工作阶段有大量的文本积累，从而通过计算机算法进行深度学习，更好地理解语义回答问题。在其他方面回答用户问题的权威性和准确性也来源于知识库和企业信息库，综合来说这些都可以进一步增强用户与AI 虚拟数字人之间的信任感。

另一个必须考虑的方面是性别，这个领域的一些主要参与者，如苹果、谷歌或亚马逊，已经确保设备不仅有类似人类的语调，而且是女性的语调，因为她们被认为是更温暖的、更值得信任的、更容易理解的，总之，更容易被人喜欢。[7]彭兰在《AIGC 与智能时代的新生存特征》中提到，虚拟形象对人的另一种反射，是它所内隐的设计者的价值观与文化，今天的智能机器在外观上的设计更是如此，不管是外貌还是声音，总是以女性为主，人类社会现有的性别偏见，通过设计者也延续到了机器身上。[8]这也是我们经常看到的一些虚拟形象多是以女性角色出现的原因。

2.2 AI 虚拟数字人需要创造与用户有效的情感互动

AI 虚拟数字人需要与用户进行互动，以了解用户的需求和偏好，增强自身深度学习的效果。这可以通过语音交互、文本聊天、手势识别等方式实现。而这些动态交互不能只是有，还要准确。机器像一面镜子，反射着与之交流的人，影响其自我认知。有研究者认为，在人机交往中，虚拟的自我认同与现实的自我认同互相影响，共同建立起完整的“自我”。作为人的“化身”的虚拟交往对象，既让“我”看到了另一个自己，也帮助“我”建立了“理想的他者”。[9]这也意味着这些互动有时不单单是为了获取信息，还可能是一种情感陪伴和自我疗愈的过程，数字平台和人工智能（AI）在改善心理健康护理和自杀预防服务的预测、识别、协调和治疗方面具有良好的潜力。互动式人工智能可能有助于在过时的、紧张的精神保健系统中进行实时筛查和治疗。[10]譬如：如果有人在数字平台的输入栏输入“该如何自杀”，这时AI 虚拟数字人是否可以探测到异常，能自然并拟人化的与用户沟通，聊天甚至开导。这都是值得讨论的问题。发音人在此环节创造的价值是，通过自然、流畅的语音交互，使用户与AI 虚拟数字人之间建立自然有效的情感互动。例如，情感互动需要一定情境和背景，也就是我们常说的虚拟互动中的应用场景，发音人在采集数据时，被要求需要在不同场景表达出譬如喜悦、难过、平静、惊恐等一系列情绪的话语和表情动作，并且体量很大，因此呈现在AI 虚拟数字人互动中的各种情绪性表达一定意义上来说都是由发音人赋予，以此让用户感受到AI 虚拟数字人的亲切感，增强情感互动从而增强用户的信任感。

2.3 AI 虚拟数字人需要给用户提供个性化的建议和信息

基于大数据模型和计算机应用的深度学习以及算法应用，深度学习是AI 虚拟数字人在了解用户习惯时经常提到的词，这需要AI 虚拟数字人在面对不同群体不同问题时表现出专业性以及内容的垂直性，还是以百度AI 虚拟数字人度晓晓为例。2022 年度晓晓作答了全国新高考Ⅰ卷题为《本手、妙手、俗手》的议论文，拿下了48 分的高分，战胜了超75%的考生，文章更是在全网刷屏，2023 年，在一场关于高考直播的中，百度“AI 伙伴”现场挑战高考语文考试，包括作文、微写作、古诗词赏析、文言文翻译等。一篇文言文作文甚至迷惑了资深语文老师庄临旭，误以为是真人所写，给了很高的评价，认为水平超过95%的同学。这样的互动实例就给了更多人愿意去尝试AI 助手的信心。发音人在进行前期基础工作时，可以根据用户需求和偏好，提供个性化的语音，比如根据用户的兴趣再合成相关的语音推荐。还可以通过其知识储备和信息来源，提供各种丰富的信息和建议，发音人和技术的结合让AI 虚拟数字人帮助用户更好地理解和应对各种情况，更好地解决问题获得成长。

2.4 AI 虚拟数字人要具有一定程度的拟人化

拟人化被表示为 “一个形象看起来像人的程度”。[11]从AI 虚拟数字人的发展来看，几乎所有的虚拟形象都有一个角色设定，这样方便用户能够更好地理解他们的身份，角色设定应该与应用程序或网站的目标相一致，并能够为用户提供有价值的服务。而且虚拟数字人的发展方向在于交互能力的提升和形象呈现的进步，拟人化是发展的核心，表现为对真人的替代能力。彭兰提出虚拟偶像部分采用的是“皮套”+“中之人”模式，对于虚拟数字人来说，发音人也类似于其中“中之人”，但与虚拟偶像的“中之人”不同的是，或许虚拟偶像的互动与在数字平台的表现可能就来自真实的人，而虚拟数字人的互动表现是发音人语音和表情动作的深度学习与算法合成，并且“中之人”不会表现出特定某个人的具体特征。在现存的文献中，几乎70%的文章指出，拟人化的表现对虚拟人物的发展至关重要，因为它提供了其社会存在的线索，研究表明，虚拟人物越是拟人化，其可信度和熟练度就越高。[12]在Lisa Alazraki 和Ali Ghachem 等人在用于心理治疗的人工智能聊天软件的非临床试验结果中得出，聊天软件中类人角色得到了更多的最高范围的回应。[13]发音人如何在让AI 虚拟数字人在深度学习后的互动时拟人化程度高，最主要的是在表达时语流的流畅度高、不同场景下情绪的饱满程度好、动作表达更合时宜以及唇动幅度明显和自然。但是是否交互过程拟人化程度越高用户的接受度就越高呢？这是下一步需要大量调研去验证的事情。

3. 发音人在人工智能领域的定义及作用

发音人是指掌握并运用某种方言的人，在人工智能领域中，发音人是指为语音合成、语音识别、口语评测等人工智能技术提供声音数据的人。发音人的声音质量、发音标准程度和口音特点等因素都会影响人工智能技术的性能和应用效果。笔者从2015 年开始接触并参与人工智能语音合成项目，工作是为智能语音项目做前期的发音和播报，落地的产品就是智能音箱，通过TTS 语音合成技术将输入的文本合成为语音。然而在技术合成之前需要有一个足量的语音数据库，以便在后期合成时，在计算机算法的支持下形成具体的语音内容。2019 年开始参与AI 虚拟数字人的声音及面部表情的采集工作，与智能语音项目不同的一点是，除了对发音人的声音有要求外，对发音人的上镜形象也有一定的要求，落地的产品就是具有动画形象的虚拟助手。因此，如何给数据赋能，重要之一就是发音人的语音和行为及面部动作数据的采集。

3.1 人工智能语音及AI 虚拟数字人项目对发音人的要求

在发音人的选择方面，也有一些固定的标准，尤其在智能语音项目中，发音人的语音质量要足够高，声音要清晰、自然、流畅，没有杂音和干扰。随后就是对发音人音色的要求，这里说的音色并不是单纯指其定义（指声音的特色，也可以说是声音的本质，又叫音质。是不同的声音能够相互区别的最基本的特征。它决定于物体振动所形成的音波波纹的曲折形式不同。）而是发音人在不同场景下模拟出的声音，在这一方面有点相似于配音演员。如发音人按要求模仿15岁左右的女生声音，并且以俏皮可爱、生气愤怒、撒娇等情绪表达出来，在每个场景下需要的数据发音人大概要录制三千句左右，但录制的过程有严格的要求，需要每一句不论长短都保持同样的音量、音高和音质，也就是录制过程中录音师经常对发音人提出的一项要求就是状态要始终保持一致。录制内容上面则是随机的，并不会根据情绪表达的不同而在文本上会有所设计，这样是为了确保基础数据的准确性和概括性。而对于年龄和性别在人工智能项目里的倾向，在之后会详细阐明。

AI 虚拟数字人对发音人的要求在声音方面跟智能语音项目大致相同，语速要适中，不要太快或太慢，同时要有适当的停顿，以便后期AI 虚拟数字人能够把语句意思与唇形变化匹配起来。发音人的声音类型要与AI 虚拟数字人的形象和角色要求相符合，例如，如果是创建年轻女性的数字人，则需要年轻女性的声音。除此之外，AI 虚拟数字人项目对发音人另一个重要的要求就是较好的上镜形象，录制时需要头发扎好，显露脸部，发音人脸部清晰明亮；口部正对摄像头，面部与录制手机保持平行；头部动作幅度不要太大，尽量保持一致；口型丰富、生动、咬字清晰；录制语速平稳，句子与句子之间需要自然闭嘴。随着技术的更新，采集数据的要求也变高了，在动态捕捉方面更多开始往唇形的幅度靠拢，这里注重的是唇形变化的幅度而不是准确度，因为在视觉效果方面AI 虚拟数字人说出来的话要像真人一样有唇动的变化，加之面部眉眼的动态，力求让AI 虚拟数字人在与用户交互的过程中能更生动与自然，也就是更拟人化。

3.2 发音人数据采集的准确度会影响AI 虚拟数字人的交互效果

发音人的工作对AI 虚拟数字人的影响很大，因为发音人是AI 虚拟数字人的声音基础和动态表达的形象基础，其声音质量、表达方式、语速、表情、唇形、动作幅度等都会直接影响AI 虚拟数字人的交互效果。如果发音人的声音质量不好、表达方式不准确、语速过快或过慢，都会导致AI 虚拟数字人的语音交互效果变差，甚至让用户无法理解或产生误解。如果发音人的面部动作捕捉幅度过小，显示在AI 虚拟数字人上的动态会非常不明显，从而降低交互的效果。因此，选择合适的发音人是非常重要的，需要考虑到发音人的语音质量、表达方式、语速、动作幅度等因素，以确保AI 虚拟数字人的交互效果良好。综上所述，AI 虚拟数字人对发音人的要求比较高，需要发音人具备专业的语音知识和技能，同时要根据数字人的要求进行针对性的语音录制和表情动作的调整。

3.3 发音人助力人工智能技术的性能多样化发展

发音人可以为人工智能技术提供多语种、多地域的声音数据，使人工智能技术的性能更加丰富和多样化。笔者参与的AI 虚拟数字人项目主要以普通话为主，其间有少部分英文。发音人在语音和面部动态捕捉方面的工作可以不断优化计算机深度学习算法，提高语音识别的准确性和自然度，使虚拟数字人的发音更加准确，面部表情和唇动变化更加真实和自然。除了语音数据，还可以引入图像、视频、文本等多模态数据，通过多模态融合技术，提高虚拟数字人的智能和自然度，而在加强语言的理解方面则通过发音人提供的准确标准的语音数据，通过强化学习等技术，提高虚拟数字人对不同语言的理解和表达能力，使其更好地适应不同场景和用户需求。互联网产业时评人张书乐表示，虚拟数字人某种意义上是各大互联网科技厂商展示“肌肉”的一个集中呈现物，即内容创造、人工智能、动作捕捉和各种与之相关技术的融合，本质上虚拟数字人不诞生新技术，而是用受众最容易理解的方式展示黑科技成果。[14]

3.4 发音人为AI 虚拟数字人的交互效果提供准则

发音人可以为人工智能技术提供不同年龄、性别、文化背景、表情动作等特征的声音和形象数据，使得人工智能技术能够更好地适应不同的应用场景和用户需求。与智能语音的交互不同，AI 数字人的交互需要通过画面的动态形象来实现，而大量的基础数据支持仍然来源于发音人，我作为发音人截至目前一共录制了42.2 个成品小时的内容，内容的要求随着产品的更新迭代也有不同，最初的19 个小时内容的要求主要是面部表情的动态识别，需要在不同的情绪下，如平静、开心、愤怒、惊恐等展现不同的面部动态，每个表情的录制内容在三千句左右。其中录制最多的表情是平静，以获取更精准的面部识别数据。之后的内容则更加注重唇动数据的采集，在表达内容时要求唇形的变化要明显，幅度要大要准确，更像“真人”在表达。

3.5 发音人协助人工智能技术升级

发音人可以为人工智能技术提供声音数据，并协助开发者进行技术调试和优化，提高人工智能技术的准确性和可靠性。前文区分了AI 虚拟数字人、人工智能主播和虚拟偶像的区别，这三种人工智能角色在一定程度虽然都可以称为AI 虚拟数字人，但值得注意的是，人工智能主播在真人数据采集，并以真人为原型作为基础的情况下合成为智能主播时，在语音的采集和动作捕捉上面相对容易一些，呈现出的2D 或者3D形象也更像真人，尤其在唇动数据和动作自然程度上更加贴切，这都是因为一切都“有迹可循”。而不以现实中真人形象作为基础的AI 虚拟数字人则在语音的采集和动作捕捉上面难度更大，还原到虚拟人物上时，唇动数据和动作自然程度的逼真度要低，这就要求发音人在进行内容表达的时候要做到绝对的准确。

在采集的数据应用到模型上之前，计算机需要对语音和面部动态数据进行深度学习，因为这进一步影响到交互中语义理解的问题，在语音交互中，语义理解要处理的问题是用户在口语化表达，也就是自然语言表达下的意图，而现实生活中的自然语言表达通常存在上下文关联、场景特定用语、口语化、常识背景、省略说法等语言现象，同时一些垂直领域实体取名复杂，存在大量实体歧义的现象（比如“三只羊”是一个通常词汇，也是一个公司的名字）。场景、语境、交互对象的不断切换让语音交互中的语义理解更加困难。对于缺乏较大量训练数据的特定对话任务，为了提升模型的语义理解能力，通常还需要结合相应实体或句式等其他资源，抑或者通过底层句子语义建模能力的提高来获得泛化性能的增强。[15]在一些文章中会把AI 虚拟数字人称为虚拟代理，其中的研究表明，虚拟代理在交互中的积极影响随着代理的质量而增加：虚拟代理越看起来越拟人化就越好。因此，代理功能的质量，如作为类似人类的声音、手势、面部表情、眼睛注视和身体运动等发挥着重要作用。[16]而这些工作都需要处在基础环节的发音人去完成。由此，我们提出AI 虚拟数字人的发展依靠技术升级的同时，还要结合更多方面，例如发音人在基础工作中的表现。

4. AI 虚拟数字人和实验语音学之间存在密切的关系

AI 虚拟数字人唤起用户的感知真实需要落到具体的交互过程中，体现在AI 虚拟数字人上就是在语言表达和面部动作呈现尤其是唇动数据的采集上，而落实在实操上面的语音和唇动就与发音人在表达过程中与实验语音学之间的关系有关联了。实验语音学是研究语音的生理、物理和心理因素的学科，而AI 虚拟数字人则是利用计算机技术和人工智能技术来创建和模拟人类语音的数字人物，两者之间互相影响。在前文笔者也提到一直参与人工智能语音项目和AI 虚拟数字人数据采集工作，接下来笔者将以部分工作经历和发音人的采访作为内容分析的出发点和落脚点。

4.1 实验语音学的研究成果为AI 虚拟数字人提供重要的支持和参考

实验语音学可以通过对语音生成的生理和声学机制的研究，开发出更准确的语音识别算法和语音合成算法，使得虚拟数字人和智能语音工具的声音更加自然和真实。实验语音学的研究成果可以为AI 虚拟数字人的语音合成、语音识别、语音评估等方面提供重要的支持和参考。例如，实验语音学的研究成果可以用于优化AI 虚拟数字人的语音质量、语音表达方式和语速等，从而提高其语音交互效果，唤起用户在互动中的交流真实感，激发交流欲望。笔者从事智能语音工作时，有一阶段发音人需要在脖子上佩戴仪器监测声音发出时的振幅，但在进行过程中很有难度，为了保证一致性，在统一情绪的表达下（如开心、难过、愤怒等）振幅差别太大需要重录，并且仪器的佩戴需要紧贴脖子，发音人的表达舒适度降低，进程也会放缓。而在这一过程中发音人要始终保持一个状态，这是为了在固定场景下保证交流效果的统一性和准确性，确保在真实交流环境下，用户不会因为不稳定情绪而表达“出戏”。在前文提到的，进行AI 虚拟数字人的发音人数据采集工作时，尤其注意唇动数据的采集。但是从实验语音学的角度来讲，正常人在日常表达中是有语流音变的，再加上发音规律中涉及唇形和舌位的变化，最后加上语境，很多句子和词汇的在表达过程中唇形的变化就没有那么的明显，例如袅袅炊烟一词，袅的发音在唇形的变化体现在从展唇到圆唇，但对于叠词袅袅，如果想表现出语流的自然，唇形在建模系统中的采集就不会很明显，呈现出来的就只是上下唇的轻微张合；再比如知识一词，如果都按照展唇发音，就会出现声音发出的时候唇部没有变化。而在视频互动中缺少明显的动态表达，似乎是AI 虚拟数字人与用户交互的大忌，那该如何改变呢？在整个录制的过程中也达成了一种“规范”，在遇到唇动不明显的叠词时，语速可以稍微放缓，唇动的变化稍许夸张，动程做到位，尽量体现出唇形的变化。对于zh、ch、sh 的组合发音，则可以轻微撮唇。在效果的呈现上，唇形的丰富度使得虚拟数字人在与用户交互时更加自然流畅，机械感降低，拟人化程度也提高。但是与此同时实验语音学也需要大量的数据和实验来支持，来验证在多场景下部分唇动的不规则变化是否会影响语音的语义理解，而这些数据和实验往往需要较高的成本和时间。

4.2 AI 虚拟数字人的发展为实验语音学的研究提供了新的方法和工具

例如，AI 虚拟数字人可以用于模拟不同条件下的语音信号和唇形数据，为实验语音学的研究提供可靠的实验数据和实验环境。大部分的数字虚拟助手都采用自然语言理解技术，可以解析用户的语言，理解其含义，并作出相应的回应，除了普通话和外国语的区别之外，国内的少数民族语言和方言的使用情况复杂，口音问题也在普通话的表现明显，中国的方言有一百多种，而这一百多种方言可以细分到一个具体的地点，比如某市、某县、某镇、某村的方言，正所谓“十里不同音，百里不同俗”。中国有五十六个民族，在五十五个少数民族中，一个民族说一种语言的比较多，有的民族说两种或两种以上的语言，据统计，我国少数民族语言的数目在七十种以上。面对如此庞大的数量，AI 虚拟数字人的广泛应用可以为实验语音学的多方面研究带来助力。还是以度晓晓为例，度晓晓基于多模态交互技术，可以实现语音识别、文本输入、语音合成等多种交互方式，交互的频次越多，数据就越丰富。度晓晓还具备机器翻译能力，可以自动翻译语音或文本，为用户提供多语言的服务，这样可以吸引更多使用不同语言的群体。此外，度晓晓采用自然语言理解技术，可以解析用户的语言，理解其含义，并作出相应的回应。基于深度学习技术，可以进行语音识别、文本分类、情感分析等任务，为用户提供更加智能、个性化的服务，互动方式和服务越完善，拟人化程度越高，就能吸引更多的用户使用。AI 虚拟数字人和实验语音学共同推动语音技术和人工智能技术的发展和应用。

结语

人工智能技术的飞速发展，使AI 虚拟数字人在各个领域的应用都越来越广泛，人机交互技术的不断提升，让AI 虚拟数字人与用户的关系建构方面变得越来越重要。通过分析现有研究，笔者发现AI 虚拟数字人在用户关系建构中的应用主要集中在以下几个方面：用户体验、情感传递、行为影响等。其中从发音人的视角来看，发音人在数据采集的工作中发挥重要作用，提供的声音数据是人工智能技术的基础，为语音合成、语音识别、口语评测等技术提供训练和测试的数据。其声音质量、发音标准程度和口音特点等因素都会影响人工智能技术的性能和应用效果。发音人可以为人工智能技术提供多语种、多地域的声音数据，使得人工智能技术的性能更加丰富和多样化。也能为人工智能技术提供不同年龄、性别、文化背景等特征的声音数据，使得人工智能技术能够更好地适应不同的应用场景和用户需求，协助开发者进行技术调试和优化，提高人工智能技术的准确性和可靠性，因此在AI 虚拟数字人的生产和设计过程中也参与解决了一个最核心的问题——与用户的关系建构。而在与实验语音学的相互影响中，也探讨了更多理论在具体实践中的差别与应用，即唇动的变化在拟人化表现和语义理解中的作用。最后，期望AI 虚拟数字人能够应用到更多的领域和场景中去。