媒体内容生产中AI配音技术应用与声画关系的影响

2021-07-08张璇

数码影像时代 2021年7期

引言

近年来，随着人工智能技术在媒体领域的应用日益广泛，AI配音的身影出现在了新闻节目、纪录片创作和新媒体视频生产中。相较于此前的语音唤醒、语音识别等智能语音技术的应用，AI配音更侧重语音合成的效果及“拟人化”程度，本文将结合当下AI配音的应用现状，从声画关系的视角，探讨该技术的阶段性成效与显著问题。

从手机端的Siri语音助手到汽车导航软件里的各类定制声音，人工智能语音技术早已在不知不觉中融入了人们的日常生活。事实上，除了较为常见的这些应用场景之外，人工智能语音技术也在媒体创作和内容生产等领域取得了阶段性的成果。其中，较具有影响力的当属AI新闻主播和纪录片中的AI配音。而随着短视频内容生产的体量逐渐增大，不少新媒体平台也开发了图文自动生成视频的技术，其中的AI配音应用作为关键部分也备受关注。由于应用场景的差异，在语音助手、导航等语音唤醒及识别的应用方面，人们会在一定程度上产生与机器对话的感受。而在新闻、纪录片或是短视频内容中，从受众角度来说会不自觉地更加关注人工智能语音的“拟人化”程度，因此，媒体内容生产领域的人工智能语音技术亟待解决如何“更像”的问题。

媒体内容生产中的“文语转换”

“文语转换”（Text To Speech）是语音合成技术的一项重要应用，它是声学、语言学、计算机科学等多学科知识交叉研究的成果。该技术的实现主要分为两个环节进行，分别是文本处理与波形生成。在进行文本处理时需要以音素级别为单位进行标注，其精细程度则依赖一套完善的语言学标注系统。无论是基于何种思路的语音合成技术实现，“文语转换”首要解决的是语音库的建立。相较于英文来说，汉语普通话的“文语转换”技术实现要更难一些，这和语音库方面存在很大的关系。不少相关领域的研究人员都曾指出，汉语语音库的开源数据较少，这让前端部分在构建更为丰富的音素级别素材时就显得有些先天不足。众所周知，由于英文在使用范围和技术算法的开发程度上较为成熟，其“文语转换”的实现在前端部分就具有较大优势。而汉语普通话的语音学特质与英文相比又更为复杂，技术人员如果在前端部分无法获得比较有语言表现力的音素级别素材，最终合成的语音效果必然与真人的声音存在差距。这方面的问题在我国现阶段新媒体内容生产中AI配音的表现可见一斑。

一方面，各类视频网站的自媒体内容生产者自发选择了一些可提供图文转视频的软件，这类软件中所谓的“AI智能配音”在实现程度上往往并不太智能。可选的声音类型划分较为生硬，缺少语音的修饰处理能力，听感整体较差，或是仅在搞笑声效等方面有亮点。另一方面，以知乎为代表的新媒体平台研发了自主的图文转视频功能，平台创作者可以实现快捷的智能剪辑。知乎的智能剪辑将传统的非线性编辑软件界面进行了“傻瓜式”的简化，主要分为两个轨道。基础轨道上是素材，其次是字幕和声音的轨道。在生成智能配音前，需要对文字进行简单地排版。此外，在其操作界面的底部还有一个朗读设置，主要从音色、朗读速度、配音音量三个参数角度进行调整。但从呈现效果来看，AI的配音并没有太理想的“拟人化”效果，整体听感是接近语音唤醒类型的人工智能语音状态。音色选择范围较少，限制了AI配音的多样性。在这一类的视频内容中，声音与画面的关系时常是处在一种错乱的状态，声画的表意功能配合效果较差。无论是旅游、美食或是知识分享内容，视频中的主要信息来源依然来自于图片和文字，AI配音的功能性尚不明显。在当下自媒体内容生产中，无论是个人的创作参与或是新媒体平台的统一操作，在AI配音的实现上仍没有实质性的进步，这与汉语普通话“文语转换”中的难题有着很大的关系。由于汉语普通话的声学特性十分显著，技术人员还需要关注停顿、重音等语音特征，这在一定程度上给汉语普通话的“文语转换”实现提出了更高的技术要求。比如，在汉语普通话中，音节持续时间因各种语言和非语言因素（气息处理等）而差异很大。如果一个句子由相同时间的音节连接，它听起来必然会显得非常机械化。因此，此类系统的设计在很大程度上依赖于普通话的特点，它是一个基于单音节的系统。其基本原理是，大多数普通话语素都是单音节的，具有相对简单的音节结构。另一个主要考虑因素是普通话的音调，因为普通话是一种特色鲜明的音调语言。即便是建构了多种“文语转换”的模式，现有技术解决的仍是一些局部问题，具体差异性问题依然难以覆盖。如果以媒体内容生产的对象来看，人工智能技术参与其中的语音合成主要表现为AI配音的形态。这些场景中出现的拟人化声音，只有更好地与画面等要素形成一套有效的叙事或表意系统，它才能真正实现其技术成果转化的价值，而这就对AI配音技术应用在媒体内容创作方面提出了一个无法回避的问题——声画关系。

声画关系视角下的“高品质”AI配音

声画关系是个十分复杂的问题，它体现在影视作品的每个角落，可以说凡是视听结合即出现声画关系，在纪录片、新闻视频节目、短视频内容中均有所体现。无论是从编创视角看声画构成，还是从理论分析角度拆解或重构声画文本，当我们分析这种声画元素相互作用的综合艺术时，画面和声音实际上都是以一种语言的形式被认知。而这种作为语言来解读的讯息，在媒体内容生产中又主要体现在画面和解说这两方面。画面是图像即视的语言，解说是听觉所接收的社会语言的语音。

解说是一种社会语言的语音外在表现，是纪录片信息传播的重要载体。语音作为语言的符号形式，本身没有意义，它的信息传播的作用是社会赋予的。当观众听到解说时，是由听觉接收一种语音讯息，再过渡到文字语言来理解，最终将其转换为一种臆想的含义。这种想象的空间正如文学作品带给人的无限遐想一样，往往出现“有一千个读者就有一千个哈姆雷特”的效果。这种信息处理的转化也体现了解说的重要作用，它不仅开拓了受众视野，也为画面本身的叙事难点辅以化解和提升。例如，在《舌尖上的中国》的第二季第三集“三餐”中，创作者采用对比的平行叙事方法，选取了同在富士康工作的年轻员工杨圆圆和老员工徐磊，通过对两人日常餐食的呈现，映射出快餐、流水化作业、乡愁、留守老人和儿童等问题。但创作者仍然将主视角对准了富士康员工的生存与生活现状。“数百万年轻人，在这座工业帝国里为全世界源源不断地提供国籍模糊，更难分辨个人印记的全球化產品。一日三餐，浸透着青春和汗水。”这段解说以简洁的语言道出了敏感的社会问题，为一个小节的内容提升了思想高度。解说的支撑作用在大多数纪录片中都不可或缺，因为作为一个以主题形式呈现创作者意图的影像在被观者理解时，单靠画面的直接表现往往很难提炼主题或显现纪录片的视角。无论是客观记录实时的人生百态还是还原历史人物，解说作为一种承担着讯息传递作用的语言形式，是具有社会性含义的符号系统。它实际体现的是人类语言的或者更准确地说是语音的社会属性。

那么，AI配音能否实现这种体现社会性的解说语言的特质呢？近年来央视推出的世界首部AI配音纪录片《创新中国》给出了答案。这部纪录片的诞生，从技术层面来说，标志着我国的AI配音技术已经实现了更加高水准的媒体内容生产能力，其“拟人化”的美学意义是基于技术与艺术的双重维度。全片的解说部分全部采用人工智能语音合成技术，精妙还原了已逝知名配音员李易先生的解说风采。这部佳作的呈现得益于背后两大支撑团队，一个是国内领先的人工智能语音技术供应商科大讯飞，另一个则是国内解说大咖聚集的头部团队沐肆洲。从第一步语音库的建立来说，AI配音此次模拟的对象人声具有重要的基础优势。它主要表现在，李易先生生前为央视纪录频道录制了大量高品质的解说声音素材，由于都是近年来录制的音频，其各项优质参数都为人工智能技术的介入提供了肥沃的土壤。其次，李易先生本人标志性的频道声是无可比拟的完美参照对象，他的声音与普通人甚至其他专业配音员相比在吐字清晰度、语音规范化和语速平稳方面都有着高标准的優势。因此，从“文语转换”的角度来说，纪录片《创新中国》的AI配音可谓是拥有了一个无可比拟的理想语音库作为前提。而在其后的实施过程中，专业配音团队为AI配音逐字逐句的合成提供了很多声音艺术塑造方面的指导。而科大讯飞的团队也从“音色、韵律、内容”三个方面做了很多细微的校对与修改工作，这可以说是站在巨人肩膀上的一次AI配音技术尝试，也对未来人工智能技术参与的高质量媒体内容生产提供了一个优秀的行业典范。

由此可见，AI配音技术在参与以纪录片为代表的高质量媒体内容生产时，解说的“拟人化”特性建立在高品质语音库基础上，同时，也依赖对社会语音的技术实现，因其建立在使用某种语言的人在认同语音的特定含义的基础上，解说者和听者才能将语音作为传播信息和接收信息的载体，听者进而结合图像或文字等其他因素延展语音含义。对于解说者而言，其解说是结合画面、字幕、音乐、音响等元素，向受众传达主题思想，阐释内容含义，抒发思想情感，传递美的感受。而对于受众来说，是在这一过程中获得美的享受。人工智能语音合成将不再局限于“助手”的角色，甚至可以成为主导声画关系的“主人”。

AI配音在声画关系中的定位

毫无疑问，未来AI配音技术应用在媒体内容生产中一定是朝着更加精细化的方向发展。人工智能技术作为一种新的“语言”形式参与其中，需要明确与其他声画语言的关系。

首先，无论是在新闻视频节目、纪录片或是短视频中，画面语言都是一种现实内容的直观呈现。这里的现实内容可以是拍摄的纪实影像素材，也可以是影片、图片等材料。对观者而言，画面语言是色彩、光线、客观事物及人物等综合元素的实时视觉感受。而同画面内容一样以“视像”直观体现的字幕语言，却更接近于解说这种符号系统转化的语言形式。字幕语言就是文字直接“走入”画面，它同文字一样，本质上是没有意义的符号，是社会赋予了它特定的含义。例如“迷惑”这个中文词语，在日文中有完全同形的语言符号，但是从翻译的角度看，含义却不同。所以，当一位不懂中文的日本人观看附有中文字幕的画面时，出现这个词时他可能会尝试按照日文的含义去理解，就词义而言，实际上就是曲解了。可见，画面语言和字幕语言在表意和会意上存在很大的区别，例如当我们观看自然类纪录片《迁徙的鸟》时，片头画面出现一轮满月，被浓墨般的夜色笼罩着。单就这个画面内容来说，不同国度的观者对它的理解应该是一样。但当满月旁的画面上出现字幕时，就需要掌握这门语言的观众才能领会含义。

其次，认识字幕语言对解说语言的辅助作用。解说语言是靠听觉接收的，具有很强的实效性，在一定程度上它比画面语言更具有转瞬即逝的特点。与二者相比，字幕语言就更有突出创作者意图的作用。从人们获取信息的不同渠道来看，自古以来，阅读文字信息的方式比口耳相传要庄重很多。另外，人们下意识地会更注意文字语言，这在纪录片中体现得尤为突出。在大段解说的信息获取后，适时出现的字幕能有效提高观者的注意力。当AI配音能够与字幕形成较理想的配合，而不是从头到尾铺满时，字幕语言可以发挥更为显性的作用。字幕语言还有一个重要的作用——“帮衬”解说。一方面，由于解说语言的“伴随性”较强，正如人们在交际时或多或少会丢失部分信息一样，解说语言本身作为一种语音信息在传递时也容易受到多重因素影响，但当解说词以字幕形式出现时，既是增加了一条通过视觉获取信息的途径，能有效提高观者接收信息的完整度。

再次，要明确音乐语言对解说意境的提升作用。音乐被称作是人类共同的语言，它是不同国度的人们都能共同感悟和欣赏的一种语言形式。这也使它从根本上有别于受社会属性制约的解说语言。因此，解说语言的听觉美化需要音乐语言的修饰。而纵观当下媒体内容生产中AI配音与音乐的关系，真正起到这种修饰作用的做法并不多。在绝大多数新媒体内容中，过于不协调的音乐或是喧宾夺主，或是直接干扰了AI配音的内容呈现。解说与音乐的融合至关重要，它体现在音乐流动中解说的适时介入与淡出等诸多方面，这需要解说语言创作者在理解音乐的基础上，能够与内容产生情感共鸣。而AI配音在这方面的技术层面实现上要特别关注以下两个方面。第一，体现节奏性。节奏是诸多艺术形式所共有的特性，不仅听音乐时能感觉到音符韵律的节奏，当穿过长廊或宫殿式建筑时也能感受到节奏的震撼。未来AI配音的使命一定是引领人们感受到科技与艺术融合之美，这要求技术实现路径中要特别关注到节奏的算法设计，否则始终难以消除机器化的陌生感。第二，契合解说内容。选择与主题相关的音乐不仅能更好地引导受众沉浸其中，更能为解说语言锦上添花。AI配音在与音乐的契合度方面同样依赖更为精准的算法进行优化。这不仅是指在类似纪录片《创新中国》中的个案，而是需要逐步应用到各类体量庞大的新媒体内容场景中。

科技的高速发展带动着媒体内容生产方式的日新月异。某个阶段的技术手段总会存在着这样或那样的局限性，而在配音方面，不仅是人工智能，即便是专业创作者在把握声画语言的关系时也会有诸多遗憾和不足。当普及性的AI配音已经完成了基础层面的信息传达功能后，无论是技术发展还是受众需求，都在指引着AI配音技术走向更加精细化的声画关系创作范畴。这不仅对未来的AI配音技术发展提出了更高的行业标准，也在提醒着当下的媒体内容生产者一定要注重内容产出的质量。一部优秀艺术作品的诞生需要创作者付出多方面的努力，解说语言作为一种由听觉直观接收的语言形式，其创作者占据的重要作用不言而喻。尤其是在AI配音出现并不断完善后，艺术与科技高度融合的特点在其领域中会更加凸显。如何在提高AI配音技术“拟人化”水准的同时，又能与构成整体的其他部分有机结合，特别是有效把握整体的声画关系，这或将成为创作者们不断尝试和探索的方向。

参考文献：

[1]李佐丰.电视专题片声画语言结构[M].北京：北京广播学院出版社，1999：1-39，218-282.

[2]邢福义.普通话培训测试指要[M].武汉：华中师范大学出版社，2011：20-98.

[3]王同.《创新中国》解说制作全记录[EB/OL].http：//www.musizhou.com/companynews/311911206.html，2018-01-22.

[4]姜燕.影视声音艺术与制作[M].北京：中国传媒大学出版社，2008：308-329.

作者简介：张璇（1991—），安徽人，高校讲师，硕士研究生，现就职于广州华商学院传播与传媒学院。