人工智能背景下“AI合成主播”功能的优劣性

2019-03-20杨春辉

传媒论坛 2019年10期

杨春辉

（河北传媒学院，河北石家庄 050000）

AI语音技术的发展，促使人工智能与播音主持在传媒领域擦出新的火花。AI合成主播作为人工智能与播音主持融合的技术产品，其功能的发挥，在一定程度上不仅将真实的播音员主持人从繁重的劳动中解脱出来，也满足了受众的收视需求。但是，AI主播的功用目前只是停留在有稿播音层面，其在未来的发展中还存在很大的空间。

一、人工智能背景下的“AI合成主播”的应用

人工智能在传媒业的探索过程中不断取得新的突破，AI合成主播的推出与优化升级便是最好的证明。“AI合成主播”主要是从声音和图像这两个层次进行研发建构，通过提取真实播音员在进行新闻播报时的有声语言及副语言表达的特征，运用语音、唇形、表情合成等技术构建AI主播。例如，全球首个AI合成女主播“新小萌”，其声音与形象脱胎于新华社新闻主播屈萌。

目前，AI合成主播主要应用于新闻播报。2018年11月，搜狗公司与新华社联合发布以新华社新闻主播邱浩为原型的全球首个“AI合成主播”；2019年2月，升级为站立式AI合成主播“新小浩”，同日发布全球首个AI合成女主播“新小萌”在今年两会时上岗。AI合成主播自在新华社平台上岗以来，参与了2019年春运、春节、两会等重要事件的新闻报道，已播报新闻上千余篇。

2019年两会期间，全球首个人工智能多语种虚拟主播“小晴”上岗，通过中、英、韩、日等多语种进行两会新闻报道。在2019年3·15晚会预热新媒体直播中，央视财经联合搜狗推出以央视主持人姚雪松为原型的AI主播“姚小松”，为大家播报关于315晚会的重要消息。

二、AI合成主播的优势

AI合成主播的研发，主要是使语音合成和图像生成这些特定的程序能够生成如同真实的播音员主持人一样的智能产品，具备主持人的功能和作用，高效完成节目制作，实现对受众的精准化服务。

（一）全天候在线，实时传递信息

AI合成主播随时在岗是它的一大优势，它可以全天候24小时为官方网络以及社交媒体平台工作，对于夜间的新闻播报也能够以积极的状态进行，在一定程度上分化了真实播音员的劳动，极大地减轻了真实主持人的工作任务。例如，在新华社客户端中，3月3日的最后一条新闻是在夜间23：04：24发布的，3月5日的第一条新闻是在凌晨00：52：22发布的，AI主播的播讲状态始终积极。

AI合成主播能够进行新闻播报是建立在数据库的基础之上，通过语音识别、语音合成、人脸识别、人脸建模等技术完成的。例如，新华社AI合成主播“新小浩”正是通过多项人工智能技术，将真实主持人邱浩“复制”出来，呈现出AI合成主播与真实播音员的语音和形象极度相似的新闻播出效果。人对AI合成主播输入所需播报的文本数据，AI合成主播即可实时完成新闻信息的播报并生成视频，极大地提升了电视新闻的制作效率，使新闻时效性更强、信息传递也更及时准确。

（二）多语种播报，助力对外传播

AI语音背景下，AI合成主播、虚拟主持人、智能机器主持人等新兴传播载体的诞生及应用，推动中国电视传媒产业在数字化信息交互平台的发展，极大地丰富了电视节目的传播手段。尤其是信息传播技术的飞速发展，信息资源的全球性流通与共享，促使中国电视传媒产业实现全球性的传播与发展。

2019年两会期间，由科大讯飞推出的全球首个人工智能多语种虚拟主播“小晴”上岗，依托机器翻译技术进行多国语言翻译，可以使用中、英、韩、日等多语种进行两会新闻报道，实现一个声音多语种播报。同时，多语种AI虚拟主播“小晴”的多语种播报，更是在第一时间将中国两会期间的新闻信息对外传递，加大了信息世界化的传播力度，加强了中国电视对外传播的交流力度。

在高科技竞争日益激烈的情况下，AI合成主播的频繁使用与不断优化升级，意味着中国电视的传播媒介取得了新的进展，这也是全球传播大发展中，中国电视新闻信息传播的新机遇。

（三）程序性输出，无需人的发挥

人工智能技术在传媒领域所应用的功能，是属于程序性的、无需人发挥的信息传输功能，其语音输出及视频输出是基于大数据的输入由数据库自动生成的。AI在广播电视领域的应用，目前主要应用于广播电视节目中较为规整的、无变化的、简单的播音主持创作活动。

AI合成主播是基于人工智能技术而产生的一种新的电视节目传播载体，是完全依赖于技术的“电视播音员”，其语音输出、面部表情、肢体动作等都是按照人所设定的程序及发出的指令行事。AI合成主播主要应用于新闻播报，属于较为简单、规整的新闻稿件的语音及图像输出，它在接收到新闻稿件的文本数据后即可程序性的输出音频和视频数据，无需人的发挥。从某种意义上来说，AI合成主播是一种把人们从繁重的劳动中解脱出来的工具。

三、AI合成主播播报时存在的问题

目前，我国的人工智能技术虽在语音及图像处理方面取得较大突破，但让AI合成主播能够自如呈现，使其语音功能和虚拟形象如同真实播音员一样自然和谐，仍然有待提高。

（一）语音机械，缺乏语流音变

语流音变是我们在连续说话时产生的现象。在语流中，相邻的音节会受到影响，读音发生变化就是语流音变[1]。在普通话中较为典型的语流音变是变调、轻声、儿化的变化。如果连续说话时，只是把每一个音节的音读准确，而未改变组合音节的发音，是不符合音变规律的，更难以使语音自然和谐。

AI合成主播的语音是多音节的连续输出，相对于人的自然语音机械性较强，缺乏语流音变。例如，2019年3月6日，在新华社客户端“新小浩上两会”专栏中，AI合成主播“新小浩”在播报“又见直播‘利器’”这则新闻时，将“什么东西最难携带？什么东西最沉最累人？”这句话中的“东西”二字均读为阴平，并未进行音变处理。“东西”在指方位时不发生音变，但在形容具体的事、物时，其第二个音节“西”应读轻声。长此以往，容易引起人们发音上的混淆，对人们产生误导。

（二）停顿不当，导致语义不明

在有声语言的表达中，停顿是声音中断、休止的地方[2]。播音员主持人在进行备稿时要通读全文，了解全文语句的句法、结构及语句的意思，根据语义确定停顿的位置。语句的意义完成，声音才能停顿。如若停顿位置错误，就会使语义发生变化，促使语义不明，甚至导致对文本的误读。

文稿中有单句和复句，对于复句的处理要从语义着手，根据语句之间的逻辑关系确定停顿的位置。目前，AI合成主播难以通过分析语句结构准确找到停顿的位置。例如，在新华社客户端“新小浩上两会”专栏中，“新小浩”在2019年3月9日的新闻报道中读到“邀请全国人大环境与资源保护委员会委员程立峰等就‘人大立法工作’相关问题回答记者提问”这句话时，在“环境”后面做了停顿。通过分析语句得知“全国人大环境与资源保护委员会”是一个机构，这种专有名词不能在中间做停顿处理。

（三）见字出声，缺乏深层内涵

广播电视有声语言的传播分为两种，一种是表达语言的表层意思，另一种则为语言的深层含义，即通过语言还能了解为什么[3]。目前，AI合成主播还处于传递表层信息的阶段，不能做到“言志传神”。播音员主持人在进行文稿的再创作时，不能仅仅停留在文字表面，文字是具有表情、表意方面的多向性的，要把握播讲目的。不同的新闻稿件有不同的背景，主播要充分理解，运用与之相对应的情感基调进行报道。AI主播的情感基调是固定的，难以通过语音表达文字的深层含义。

在播音创作中，理解稿件需要从内容和形式两方面深入分析。新闻分为消息、评论、通讯等不同形式，播音员针对不同体裁的稿件要运用与之相对应的话语样式。AI主播的语音播报是从文本内容出发，而忽略了稿件的形式，难以正确地传播稿件内容。真实播音员的播音创作是一种有意识、有目的的社会实践，而AI主播属于机器，无法传达特定语境下文字所蕴含的深层内涵。