浅谈媒体融合背景下AI合成主播的应用模式

2019-12-16康睿博潘霄雅

视听界 2019年6期

康睿博潘霄雅

一、AI技术逐步实现媒体应用升级

随着科技的进步，受众获取信息的渠道更加多样化，对信息的准确性、综合性、及时性提出了更多的要求。互联网+人工智能成为媒体转型升级的突破口。AI主播的应用不仅促进了媒体的进步，也给自身带来了进一步的升级。从简单的数据采集整合到有声播报，再到人机互动，人工智能使媒体应用增加了更多的自主性和价值力。

（一）文稿型机器人：海量数据采集分析

写稿机器人是从海量数据中，快速、精准抓取碎片信息，并按照预制的算法组成有效信息，形成文字稿件的智能写稿系统。这套系统可以替代编辑人员枯燥烦琐的工作，海量处理信息，高效处理文字，即时分发稿件，提升媒体的运转效率。

2015年腾讯首次应用机器人写作的新闻稿件，拉开了我国机器人新闻写作的序幕。2016年里约奥运会期间，今日头条的智能写稿机器人在13天内，共撰写了457篇消息简讯和赛事报道。2017年8月，在四川九寨沟发生地震后，最先发布的消息来自智能写稿机器人，540字稿件，4张图片，用时25秒。

过去，由于渠道、媒介等限制，受众一直处于被动接收信息的状态。而今用户体验越发敏锐和细腻，催生新闻行业的反馈效率和整合能力不断提高。

（二）播报型机器人：见字发声标准播报

理解文字新闻稿件，对受众的文化程度有着较高的要求，限制了传播人群的广泛度。而精准的服务意识，催生了有声播报的出现，给受众提供了更便捷接收信息的可能。

2018年第五届世界互联网大会上，新华社根据真人主播邱浩，推出了首位坐着播新闻的AI合成主播“新小浩”。时隔数月，AI合成主播又从坐播发展到站播。2019年全国两会期间，新华社根据真人主播屈萌，推出带有手势、姿态，站着播报的AI合成主播“新小萌”。“新小浩”“新小萌”不仅在形象上可以“以假乱真”，就连动作、神态也让人没有违和感。

“新小浩”“新小萌”是搜狗和新华社共同研发的AI合成主播，通过提取真人主播的语音腔调，捕捉表情和动作，以及在播音创作过程中的有声语言、副语言等特征，完成对其声音和动作的建模，最终形成输入文字即可合成视频的仿真智能播出系统。[1]

除了自身技术发展飞速，播报型机器人的业务处理能力也可圈可点。2019年2月新华网公布了一组数据，新员工AI合成主播上线后，已发稿3400余条，累计时长达10000多分钟，参与了包括第五届世界互联网大会、首届进博会、2019春运、农历猪年春节等重要报道。

稿件总量大，工作时间长，专业术语多，AI主播的出现大大提高了稿件信息的传播度，提升了稿件播报的准确性，推动媒体信息的传播效率。

（三）互动型机器人：多维呈现更具接近性

2019年央视网络春晚，主持人撒贝宁有了一位新搭档“小小撒”。“小小撒”除了可以完成青岛智能码头背景信息的介绍，还可以同撒贝宁进行互动，甚至“抢话”。撒贝宁在节目中说：“技术的发展真的超出我们的想象。我还记得五年前，我问过一位人工智能专家，主持人这个行业未来会不会被人工智能取代。他说大概还有五年，看来现在到了我和大家说再见的时候了。”

和“新小浩”“新小萌”一样，研发“小小撒”的ObEN人工智能公司对撒贝宁进行外部形象和声音数据采集，然后建立数据模型，最终合成出影像“小小撒”。不仅如此，他们还对撒贝宁的行为习惯进行了数据收集，为“小小撒”注入了性格数据，使其说话感觉更似撒贝宁。

互动的出现，对于机械性AI主播形成了有效的补充。随着技术的进一步迭代发展，其与真人主播的差距将逐步缩小。

二、媒体融合背景下，人工智能强势补位

习近平总书记强调指出，我们要增强紧迫感和使命感，推动关键核心技术自主创新不断实现突破，探索将人工智能运用在新闻采集、生产、分发、接收、反馈中，用主流价值导向驾驭“算法”，全面提高舆论引导能力。如今，媒体除了要融合发展，更要融入科技手段，AI合成主播强势补位，有效推动媒体形态、传播方式的迭代演变。[2]

（一）准确性、多元性

准确是新闻的前提。坐在主播台的真人主播不仅业务素质要高，还要形象好、气质佳、发音准、经验丰富，才能确保在节目中的播报准确。无论人类主播业务多么过硬，都会受到身体、情绪、环境等因素干扰，可能会出现播错稿件、读错字音、丟字漏字等情况。而在人工智能播出系统的支持下，AI合成主播可以准确无误播报文字资料内容，最大限度降低失误，有利于提高媒体生产质量。不仅如此，AI合成主播可以365天在岗，24小时待命，而且不生病不休假，正如央视主持人朱广权所说的“地球不爆炸，我们不放假”，从而实现最高效的新闻业务处理。

（二）灵活性、预判性

除了坐在演播室的真人主播，很多复合型真人主播和出镜记者经常在现场进行采编报道。当自然灾害、突发事件发生时，现场不仅有一定危险性，事件发生时间也可能不在节目直播时段。在这种情况下，AI合成主播或许可以成为最佳替补队员。技术人员可以把无人机拍摄的现场实景视频与AI合成主播进行结合，再将新闻通过“两微一端”进行发布。多样的手段，在保证消息及时分发的基础上，又呈现给受众较强的现场既视感，从而解放了真人主播或记者更多的时间和精力，使得他们可以去发掘更多的新闻，达到对新闻更全面、深入的报道。

除了从视觉呈现更多样的报道形式，AI合成主播还可以协助人类主播进行大数据整理和分析。2019年8月南京的气温创140年新高，面对这样天气情况，AI合成主播可以在大数据支持下，对全球气温、历史情况做出梳理，然后进行比较分析，进而判断未来天气走势。人类主播可以基于AI合成主播给出的数据进行点评，一方面提醒市民防暑降温，一方面呼吁大家爱护环境，延缓全球变暖。天气数据、个人所得税、医保报销比例等这些民生息息相关的数据，在AI合成主播数据分析之后，加上主持人的点评，既增加了节目的互动性，又可以让受众观感更直观、生动、有趣。

（三）即时性、高效性

及时、准确分发推送信息是媒体融合发展的重要任务，做好跨屏、多屏传播是传统媒体共同面对的问题。受众也更希望通过视频形式了解到新近发生的新闻事件，但往往大家在新闻事件发生的初期，第一时间看到的都是文字形式的报道。大家通过镜头看到的新闻主播，是技术团队和硬件设备协同保障、共同支撑的，难以做到第一时间出镜。而AI合成主播则可以随时随地“一键”出镜，节省下了大量准备的时间、资源。就新华社AI合成主播而言，只要编辑人员在后台输入所需的文字或程序，AI合成主播便可以按照这些输入的内容，形成视频播报内容。智能化的生产方式，大大提高视频制作效率，提高新闻的时效性和媒体影响力。[3]

三、AI存在模式局限，找准定位持续优化

AI合成主播在稿件二次创作、与受众情感共鸣、适应更多应用场景等环节与人类主播仍有较大差距。

（一）机械式语言表达，艺术性缺位

传统播音学认为，播音员主持人要对稿件进行文字语言向有声语言的加工转换，即第二次创造。有声语言表达的一个重要特点就是向受众提供了韵律线索。韵律线索包括节奏、重音和语调三个方面。[4]在加工转换过程中，播音员主持人结合自身对第一创作内容的理解，为其注入韵律线索，使播音表达清晰明了，实现了主观表达。其中，韵律线索的提供是播音员主持人在文字语言加工转换过程中承担的最为重要的工作之一。

反观AI合成主播，在这一过程中的实现路径仅仅是通过对播音员主持人已有的有声语言进行的模拟，并不存在对其思维的模仿。所以目前的技术很难支持AI合成主播实现播音创造的双重性。且作为模仿对象的真人主播，其本身的韵律特征建模范畴有限，若面对复杂的文稿内容及其结合语境后变化的韵律特征，AI合成主播恐怕很难胜任提供不同韵律线索的工作。

（二）缺乏情感传递，受众接受度低

除了稿件的字面意思，真人主播通过自身传递出的情感，也是帮助观众理解新闻含义的重要助力。播音主持创作素材的二度性阐明了稿件是编辑记者报道事物文字化的产物，是观念化的文字。这就要求人类播音员主持人要深入生活，增加对客观现实的全面、感性的认识以获得真切的感受，达到对文字内涵观念的认知。但从AI合成主播的角度来看，由于人工智能技术的使用，播音创作由传统的二度（稿件—真人播报）增加为三度（稿件—真人建模—AI合成主播播报），在增加程序复杂性的同时，也削弱了新闻主播广义备稿的能力。如在二度性方面，2008年四川地震发生后，四川电视台主持人宁远，流着泪播报四川各地遇难群众的最新数字，真挚情感的流露，让无数观众感同身受。而AI合成主播的弱人工智能属性，令它不具备将现实生活与稿件具体语境结合形成自我意识并播报的思维能力和人类特有的情感，难以引起受众情感上的共鸣。

（三）应变能力低下，临场互动性差

人工智能领域的专家将人工智能分为强人工智能和弱人工智能。人们认为强人工智能（AGI）能够发现人类智能行为的特征及规律，并最终实现通过计算机技术模拟出人类智能的思维和创新行为。这类人工智能具有自我分析和自我解决问题的能力，即人们通常所理解的“像人一样思考，像人一样行动”。弱人工智能(ANI)观点认为人类不可能制造出能真正地自主推理和自我解决问题的机器，这些机器只不过看起来智能，并不真正拥有智能，也不会有自主意识。

由此可见，AI合成主播依然属于弱人工智能范畴。在视频节目生产中，与节目嘉宾互动，与前方现场记者连线，现场解说等场景，AI合成主播目前依然无法完全取代人类主播和主持人。

四、人工智能时代播音员主持人人才培养方向

当下，在媒体融合的大背景下，AI合成主播正逐步接手基础、重复的工作，为适应互联网传播方式，应对跨屏发展需求，传统媒体人要主动转型，培养播音员主持人的院校，应把全能化、专业化、个性化的新型播音员主持人才作为培养目标。

全能化，要求主持人不仅在主持中做到“字正腔圆”，还应掌握互联网传播形式、传播语态等。2019年8月，中央广播电视总台播音员主持人康辉在“国际锐评”板块播报的“令人喷饭”“满嘴跑火车”“怨妇心态”等金句在网络上迅速传播，让受众感受到搞笑中有严肃、犀利且一针见血。“地球不爆炸，我们不放假，宇宙不重启，我们不休息”“想劝天气重抖擞，天气对你大声吼”等段子，都出自中央广播电视总台“段子手”朱广权。台下积累的文化底蕴，台上打磨稿件，朱广权一本正经地说“段子”，不仅能让观众捧腹大笑，也刷新了观众对新闻主持人的认知。妙语连珠的朱广权不仅成为央视的网络流量担当，2019年《机智过人》第三季，他担当主持人，完成主持综艺节目的“首秀”。近日，网友更是在社交媒体上强烈推荐朱广权和撒贝宁组合，上2020年春晚说相声。由此可见，在不同传播平台呈现不同的语态，既能播报又能点评、多才多艺的播音员主持人，采编播集一身的全能复合型人才，在未来发展中应更具竞争力。

互联网背景下，专业领域、垂直领域的自媒体、订阅号、公众号逐渐兴起，播音员主持人专业人才可以结合自身爱好和知识结构，深耕所擅长的领域，加强访谈互动的业务能力。观众熟知的董卿，优雅大气，擅长主持春晚等大型晚会，但连续四季的《中华诗词大会》让观众认识了董卿吟诗作对、品味诗意人生的一面，同时她在节目中与嘉宾选手的睿智互动也令观众及专家学者交口称赞。

未来已来，扑面而来的5G将带领我们跨入智能生活，同时也将给更多的行业带来变革，媒体信息传播形式将更加多样化、互动化、智能化、精准化，视频传播将进一步向多屏、跨屏到全屏方向发展。技术高速的发展，需要大量丰富、精彩的内容支撑。在信息纷繁复杂的网络中，播音员主持人在夯实专业基础之上，更要不断发掘自身潜在能力，结合不断更新的技术手段，通过受众喜闻乐见的形式，表达自己的个性风格和鲜明特点，形成自己的“标签符号”。央视主持人徐卓阳说，AI合成主播尽管很逼真，但它的观点和想法毕竟还是人赋予的，是人设计了人工智能，而不是人工智能设计了人。所以，不论传播手段如何演变，真人播音员主持人的独到观点、情感共鸣永远是独一无二的。

五、结语

综上所述，AI合成主播是人工智能在媒体领域的新尝试，它的出现为媒体生产方式提供了新的可能，为媒体融合发展提供新的视觉呈现形式，代表了信息技术推进传统媒体产业发展的新方向。然而由于当前人工智能技术自身的局限性和播音主持工作的复杂性，尽管短时间内AI合成主播对于人类主播和主持人起到补充的作用，替代了播音主持行业中低层次、基础性的播音主持工作，但是如何探索更多的场景应用，覆盖到媒体融合的大背景下，依然是值得反复琢磨的问题。

注释：

[1]新华社.媒体融合向纵深推进新华社AI合成主播全新升级[EB/OL].[2019-02-19].http://www.xinhuanet.com/2019-02/19/c_1124136341.htm.

[2]媒体融合：用得好是真本事[J].求是，2019(6).

[3]搜狗“分身术”：AI合成主播背后的秘密[EB/OL].[2019-02-14]. DOI:10.19609/j.cnki.cn10-1324/tp.

[4]张颂.中国播音学[M].北京：中国传媒大学出版社，2003:29-30.