不止是“传声筒”：AI合成主播的特征、趋势与进化逻辑

2019-09-10杨嘉仪杨雅

教育传媒研究 2019年6期

杨嘉仪杨雅

【内容摘要】AI合成主播正逐渐成为现代新闻生产中的特殊一环。AI形象化，即将成为内容生产者与受众之间一种新的界面与媒介形态。本文结合智能主播的技术特征，分析其局限性与发展潜力，推测未来AI合成主播的发展趋势;结合自动化新闻生产流程与现有技术条件，进一步从AI合成主播新闻生产的数据输入、分析处理、制作分发三个阶段分别讨论未来AI合成主播技术进化的方向及其可能给新闻业带来的帮助，并提出三点技术发展原则。

【关键词】AI;合成主播;自动化新闻;智能新闻媒介;形象化媒介

新闻生产业态与规则一直受到技术的影响（Parry，2011）①。在过去十年中，技术进步影响最深刻的领域之一就是人工智能（AI）的发展及其在多个行业中的深度融合（Lemley et.al，2017;Smith&Eckroth ，2017）②③。人工智能在新闻生产、内容分发和界面呈现等领域，都产生了重要影响，也酝酿着巨大变革。

2018年，新华社联合搜狗在第五届世界互联网大会上发布全球首个合成新闻主播——“AI合成主播”。AI合成主播运用最新人工智能技术，通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征，经由合成以及深度学习等技术联合建模训练而成，“克隆”出与真人主播拥有同样播报能力的“分身”。④这不仅在全球AI合成领域实现了技术创新和突破，更是在新闻领域开了实时音视频与AI真人形象合成的先河。AI合成主播，可以说是新闻业在界面呈现层面的一种新的尝试与突破。

以新华社AI合成主播為例，本文结合当前人工智能技术在新闻业中的应用现状，试图探讨形象化人工智能主播纳入新闻生产对行业发展带来的影响，以及AI合成主播在未来的发展趋势与进化逻辑。

一、局限与可能：从“传声筒”到“媒介智能体”

（一）从传统新闻主播到智能合成主播

新闻主播在新闻业中承担的角色是特殊的，于受众而言，最熟悉的是主播在节目中所展示的具有其鲜明特色的面孔、体态与声音。举例来说，《新闻联播》某位原节目主持人曾因播送悼词获得过“金话筒”奖，有网民评价说听到他的声音，就担心是否又有名人不幸离世。作为主播，其声音特质早已深入人心，甚至到了无可替代的地步。

Dalen（2012）曾说，可以被自动化的一切都会被自动化⑤，单一角色的主播也似乎是很容易被机器取代进而实现“自动化”的角色。根据美国MIT教授Winston对人工智能的定义，AI是指“研究如何使计算机去做过去只有人才能做的智能的工作”的一门技术（Brown，1984）⑥。结合主播角色定位的相关概述，AI合成主播应当是“以计算机来完成人类主播策划、编辑、主持等工作”的技术成果。

这样的“自动化”角色正在渐渐成为现实。在新华社做出尝试之前，合成主播已在全球传媒业激起过几次波澜。早在2001年4月，为了提高播报的准确率与即时性，英国的Press Association在网上推出了全球首位2D合成、只有半身出镜的主播Ananova⑦。尽管在今天的眼光看来，Ananova显得有些僵硬，但当时的它被寄予厚望，“24小时不间断播报”的特性在各大全球媒体报道中被广泛提及，全球也兴起一股合成主播热潮。美国和韩国也纷纷推出CG感十足的虚拟主播形象，中国中央电视台电影频道也推出了“小龙”单独主持的《光影周刊》栏目，引发热议。从半身到全身，从2D到3D，从机械动作到丰富表情，技术的进步显而易见，合成主播的面孔与真人形象也越来越靠近。到目前为止，新华社AI合成主播已与真人形象十分接近，其语调听起来也较早期合成主播自然了许多。尽管各类特征方面还未与真人达到完全一致，新华社AI合成主播已经是目前同类主播产品中较为出色的一类，未来的AI合成主播在技术上更加完善只是时间与成本投入的问题。

（二）AI形象化成为内容生产者与受众之间新的媒介形态

AI合成主播的应用，使得人工智能形象化，不再是隐藏于文本或者图像背后的算法。在已有的媒介形态中，无论是用户的被动接受还是主动获取，用户是内容消费的主体，所有的内容生产都指向用户的理解、记忆、遗忘等自然能力。以往我们看到的“虚拟主播”，一般只有人工智能的声音，或者匹配一个虚拟的动画形象，比如微软小冰在东方卫视担任天气播报员。

然而，应用真人图像与语音合成技术之后，AI被赋予真实的形象，成为内容生产者与用户之间新的媒介形态，将以“新闻呈现界面”“个人智能生活助理”等形式为受众提供服务。以AI合成主播为例，它的产生来自于“搜狗分身”技术，理念为“自然交互和知识计算”，通过这一技术理念，能够从一段视频中的图像表情、语音声音、声线等方面计算出其逻辑思维等层面，再进行AI处理。这样的技术与流程能够快速地复制出人类的“AI分身”，能够进一步快速表达，能够提高人类表达与传递的速度与效率。未来，人工智能在我们的生活中将扮演一个非常重要的角色，一些较为常规以及可预测的工作都可以通过机器和算法来更好地执行，诸如审查法律文件、分析医疗图像、AI客服、AI快递员等。

除去专业新闻机构，UGC（用户生成内容）也可以借助AI合成形象，将知名主播、明星等新内容制作中的稀缺资产，转化为受众可以自主运用来制作内容的技术中介。在合理合法运用此项技术的基础上，普通受众也可以创作自己需要、喜爱的形象化内容。

（三）当前形象化AI合成主播的优势与局限

形象化AI合成主播在实际应用中优势明显。首先，其类人具象媒介形态符合以往电视及短视频用户使用体验习惯;其次，AI合成主播跳出了原本新闻制作生产的时空限制，可全年无休，还可通过图像模拟技术在具体的新闻环境中进行播报，更具时效性和沉浸感;再者，AI合成主播由于其外表的可替代性和不拘于时空限制的特性可压缩部分的新闻生产成本，这对传媒业来说是一大利好;最后是高度的可控性，AI合成主播是完全服从于计算机代码的技术产物，相较于真人，只要指令准确，AI合成主播在信息播报中不会有意外发生。

然而，外部特质上的类人只不过是完成人类主播工作的基础，AI合成主播的局限也相当明显。从Ananova到最近的新华社AI女主播“新小萌”，其信息产品的制作方式本质上都是由人类策划、编辑相关内容，再用指令的方式输入到AI合成主播的处理程序中，最终输出成为一条条播报⑧;其产出的新闻产品质量有所提升，但主要的新闻播报类型局限于体育、金融、天气与新闻快讯等，远远还未达到可称为“智能主播”的程度。

AI合成主播曾经还发生过这样的失误，他将阿里巴巴创始人马云的英文名“Jack Ma”读成了“Jack Massachusetts”，这是因为语音合成系统读到这部分文字稿的时候，判断“MA”两个字母是美国马萨诸塞州的缩写。⑨在对程序指令高度服从的情况下，合成主播依然会发生这样的情况。从这一角度看，当前的AI合成主播不过是努力在向新闻生产机构新的“传声筒”这一属性靠近。未来AI主播需要在对新闻信息进行准确内化处理的基础上，利用自身优势乘技术发展之风扶摇直上，在提升新闻业生产效率的同时改善传播效果，实现真正“AI”定义中的“智能化”。

（四）AI合成主播未来发展的三大趋势

进入5G时代，社会主要交流手段将从书写文字转为视频语言，⑩AI合成主播发展与应用的技术门槛降低。根据现有AI合成主播技术特性以及进化历史，合理推测，未来AI合成主播发展可能将呈现以下三大趋势：

第一，形象化传播优势与新闻产品创作有机结合。尽管AI合成主播已经前所未有地与真人相似，但在微表情、语境情绪融合表达方面仍然具有较大提升空间。参考其他形象化的AI媒介相关研究，Nicholas（2008）等學者进行调查发现人们在了解及传播与人类相关信息时希望承载信息的媒介形象是具有拟人性的，因此具有拟人形象的AI新闻媒介其实是符合大众需求的。可以预期，未来的AI合成主播将在更具逼真度的前提下逐步脱离“传声筒”的属性，发挥声画一体的传播优势，结合恰到好处的情绪匹配，与更多的新闻作品类型有机结合，创作更多原本需要真人主播才能驾驭的新闻作品。

第二，结合算法拟人化传播提升新闻交互性。根据新华社AI合成主播技术负责人陈伟的介绍，在形象建模完成后，编辑人员输入文字，AI合成主播即可自动识别语义，并匹配对应音调和表情，且通过一定的设计和剪辑，未来的AI分身将具有一定的交互性。随着技术的发展，AI新闻主播将从单向的新闻播报主体进化为具有双向信息与情感交互的新闻传播主体，受众将体会到更具沉浸感的新闻体验。

第三，整合采编播形成一体化新闻媒介智能体。当前新闻生产中，机器新闻已成为常见的智能新闻生产方式。通过对数据采集加工，即可在几秒之内撰写一条完整的新闻，并通过算法分发到特定的读者群体。在中国，微软的小冰、头条的“xiaobingbot”都是有名的机器人写手。新华社的“媒体大脑”已经可以在分析数十万条内容后在几秒钟内制作MGC（machine generated content）视频新闻。假以时日，当AI新闻主播结合机器新闻写作技术，真正能够做到自采、自编、自播，哪怕只是初步实现较为简单新闻的生产，都是新闻媒介智能体发展的巨大飞跃。在这一阶段，也许每个人都将拥有自己的主播;部分的媒体工作者也可以从单调、重复的简单工作中解放出来，着重于进行具有一定深度、复杂的新闻产品生产工作。

二、进化逻辑：高效提供符合受众需求的新闻产品

受众对新闻具有特定的要求，其中时效性、准确度与自身相关性是最为重要的，新闻生产机构应当以尽可能快的速度提供符合受众需求的高质量新闻产品。

AI合成主播生产的音视频新闻产品是契合5G时代受众需求趋势的。传统的视频类新闻制作主要有选题策划、拍摄录制、后期制作三个流程。目前AI合成主播是将原本的拍摄录制这一步骤转化为输入内容，由算法进行语义识别并匹配相应的语音语调与面部表情。当AI合成主播真正成为新闻智能体，应实现更加深度的“融合”，这种融合不是简单的媒介形态与功能的融合，而是其整体的新闻生产制作流程与各类人工智能新闻传播技术的有机结合。它不仅是形象化的媒介形态，更是一个专业的新闻生产系统。

根据一般自动化新闻与算法新闻的制作规则，未来的AI合成主播应当是以数据输入、分析处理、制作分发为主要生产步骤的新闻生产智能体。依照现有的技术条件，分别从以下三个步骤合理进行讨论，可以详细剖析进一步发展的AI合成主播能够向哪些方向进化升级。

（一）数据输入：数据来源更广泛，数据核查更准确

得益于发展迅速的自动新闻生产，相较于传统的演播室新闻制作，未来的AI合成主播面向的消息源应当不止是已获关注的热点事件，还包括线上互联网络与线下物联网以及各类数据网络中的大量未被发现的信息。AI合成主播是5G时代真正的MGC主体，面对大量数据，AI合成主播拥有了更广泛的信源与更丰富的资料，这有助于发现更多在原本的新闻制作选题思路下难以发现的新闻。当部分智能采集设备如传感器、无人机、GPS等设备数据与AI合成主播的监测系统联动，能够快速捕捉到部分新闻事件的发生，将数据整理传送到分析处理阶段以供新闻生成之用。例如彭博新闻社使用的Cyborg已经能够通过特定算法在一些公司发布财报时进行即时分析，以最快的速度解读数据，生成新闻报道。这在以前是需要人工耗费大量时间进行手动对比分析才能完成的。更加全面的数据来源对信源求证提供了有力支持。结合算法，AI合成主播可以在数据输入时将原有的新闻编辑把关转化为以人的判断为基础规则的技术把关。例如Facebook通过算法检测部分文章单词的组合模式，将其与虚假文章进行比对，如果相似度较高，则判断为虚假信息进行处理。这一技术就可以运用到对信源真实性的判断中。张洪忠（2018）等人认为，算法技术使得把关从少量人求证变为以海量数据求证，而把关的时间点从较为滞后变为即时把关。在这一信源真实性的求证过程中，可以纳入更多更广泛的信源进行比对核查。与此同时，一些本来需要编辑耗费时间抽丝剥茧进行查验的信息也可以快速用于数据核查，例如某一信源的社交网络分析、全网网民对某一事件的评价与个人记录等，都是可以被算法及时发现、使用的重要信息。这样一来，数据求证更加准确，参考信息更加全面，最关键的是处理过程快速方便，哪怕还需要人类编辑进行最终核实，也比原本的核查机制要高效得多。

（二）分析处理：内容处理更快速，信息排序更精准

正如前文所言，未来的AI合成主播智能体应当是各类应用于新闻业的先进人工智能技术的有机结合体。单一用于数据采集和自动核查的算法只是AI合成主播数据输入阶段的部分应用，在进行初步筛选后，新闻生产将进入进一步分析处理数据的阶段。

未来AI合成主播内容处理的快速高效将主要体现在三个方面：

一是能够同步处理更多的数据。算法并不像编辑办公室一样有雇佣员工数量的限制，只要有足够的计算机，对大量数据进行整理，发现大范围、大规模的普遍趋势即成为可能。例如对大量数据内容的管理方面，《纽约时报》的nytlabs就可以通过“Editor”这一算法识别文本进行自动标注，这为下一步骤的分析提供了便利。

二是能够迅速挖掘报道重点。在财经、体育等领域，机器新闻的快速反应能力已经毋庸置疑，在整体性、精确性和高效能方面，机器比人具有更多优势（喻国明，2018）。《华盛顿邮报》有一个叫作Slack的人工智能监测系统，它能够监测采集到的新闻数据是否是在新闻中值得一提的亮点。例如奥运期间，它对运动员成绩进行监测，如果超出原世界纪录的10%将发送通知提醒编辑关注这一事件。结合类似技术，AI合成主播应当能够自己发现值得报道的新闻亮点，无需过多查找、比对、定选题，人类需要做的只是为它设定选择的规则标准。

三是能够简化新闻生产流程。在目前的新闻生产中，每一个生产步骤都能够受到算法简化生产流程、提升生产效率的帮助。在未来，当部分内容的生产基本做到在AI合成主播的算法集合中进行时，数据分类、发现线索、结构化分析、解析结论、自动写稿一气呵成，算法直接将稿件与素材整理好，把数据传送到下一步的制作环节，这在原本的电视新闻节目与直播当中都是无法快速完成的，而AI合成主播可以利用各项技术合作实现这一点。

在高效处理数据的同时，算法还能够帮助进行信息的筛选排序。现在的信息社会中，人们面临的关键问题不是信息匮乏，而是信息过剩。什么样的信息是关键的、重要的、与受众本身息息相关的，这应该由受众和把关人共同决定。算法可以从数据的海洋中发现真正有用的信息，并通过自身的排序将必要信息传递到即时处理的环节，为受众提供对其有价值的信息。这样一来，AI合成主播兼具处理的时效与实效，既能快速发现信息，又能准确排序信息重要级，这符合受众新闻信息消费的基本需求。

（三）制作分发：媒介形态形象化，信息体验定制化

未来的AI合成主播是形象化的新聞全媒体。目前AI合成主播的节目制作是依靠“自然交互+知识计算”技术，将真人主播的声音、唇形、表情动作等特征提取出来，然后再通过人脸识别、人脸建模、语音合成、唇形合成、表情合成，以及深度学习等多项人工智能技术将真人主播“克隆”出来，展现出与真人相似度极高的信息播出效果。鉴于现在技术已经可以自动根据文本生成短视频（如新华社媒体大脑MAGIC可最快在6秒内自动生成短视频），未来的AI合成主播也许只是新闻的形象化内容载体，真正关键的技术在于新闻音视频的自动化生产。但相较于没有主播形象的视频，AI合成主播播报的新闻更富人性化观感，这符合受众对技术拟人化的需求。

AI合成主播提供的信息体验可因受众而异来进行定制化处理。一方面是所提供信息内容的定制化。“千人千面”的算法新闻分发已成现实，但一个人类形象的主播为你播报所需信息是需要AI合成主播才能实现的，定制化的虚拟主播信息服务是新闻业尚未完全开发的利基市场。另一方面，在未来，用户或许能够选择自己喜欢的主播形象、语音语调、播报风格，定制自己独特的信息体验。每天早晨，打开电视或手机甚至随身投屏，收看或仅仅是收听由自己定下关注筛选规则、AI主播制作精选后只为你一人播报的独家资讯产品，这将是信息爆炸时代人工智能带给人类的珍贵福利。

三、技术发展原则：坚持以人为本，促进人机协同

2017年7月，国务院印发的《新一代人工智能发展规划》指出，人工智能是影响面广的一种颠覆性技术，可能带来改变就业结构、冲击法律与社会伦理、侵犯个人隐私等问题。随着技术的发展，当AI合成主播作为一个全新的呈现界面出现在新闻生产过程中，媒体原本遵循的准则受到了冲击，也可能引发侵犯公众隐私、相关问责机制不明确等一系列伦理问题。为防止危机出现，AI合成主播技术在发展过程中应当注意以下三点：

一是应当明确新闻生产中的底线与原则。媒体具有社会公共性。无论是否有AI合成主播的参与，新闻业都应当将准确、客观、以人的利益为先立为自身操作的价值准则。

二是明确责任的归属。在AI合成主播技术的发展中，政府应当承担规划者和法规制定者两种责任;在AI合成主播的新闻生产中，媒体前期应该明确输入与处理时人类编辑与记者对内容负责部分的分类以及处理与输出时技术人员对产生后果责任的归属。当AI合成主播更加自动化之后，对技术的问责应当更加深入细化。这不是一件容易的事情，尤其当技术的影响还未完全明确之时，一切都只是设想，责任明确的过程一定是对解决这一问题有帮助的。

三是明确操作的制度。AI合成主播的新闻生产流程应当有一个明确的操作章程，它建立在新闻专业主义原则的基础上，有明确的问责机制，也有详尽的操作章程。伦理价值观嵌入其中，以人为本的原则是最高原则，从数据输入、分析处理到制作分发的每一个细节，都应当是合乎规定与预设的。这是对技术的控制，也是对技术的指导。技术人员如何将新闻专业主义的规则纳入操作中、缩小价值理性与工具理性之间的鸿沟，是制度应当详尽告知的内容。将道德原则嵌入代码中并非易事，但在智能化的未来，这是不得不做的事情。

凯文·凯利说，当我们创造和使用技术时，我们实际上参与了某个比我们自身更大的事件。我们扩展着创造生命的力量，加快向未来进化的速度，我们增加着一切的可能性。人工智能正在颠覆人类传播，新闻业需要接受技术的锻造，在维护人类权力的基础上，更好地实现人机耦合，促进信息社会的发展。

注释：

①Parry， R. （2011）. The Ascent of Media： From Gilgamesh to Google via Gutenberg [M]. Nicholas Brealey， 22.

②Lemley， J.， Bazrafkan， S.， & Corcoran， P. （2017）. Deep learning for consumer devices and services： pushing the limits for machine learning， artificial intelligence， and computer vision. IEEE Consumer Electronics Magazine [J]， 6（2）， 48-56.

③Smith， R. G.， & Eckroth， J. （2017）. Building AI applications： yesterday， today， and tomorrow. AI Magazine [J]， 38（1）： 6-22.

④Baraniuk， C. （2018）. China unveils AI news presenter. https：//www.bbc.com/news/technology-46136504 [EB/OL]，2018-12-8.

⑤Van Dalen， A. （2012）. The algorithms behind the headlines： how machine-written news redefines the core skills of human journalists [J] . Journalism practice， 6（5-6）： 648-658.

⑥Brown， R. H. （1984）. Artificial Intelligence， an MIT Perspective [M] . MIT Press， 7.

⑦BBC news. Ananova makes her debut [EB/OL] . https：//www.bbc.com/news/technology-46136504， 2000-4-19.

⑧钛媒体：《从实验室到荧屏，“搜狗AI合成主播”是如何接近真人的？》，凤凰网，http：//tech.ifeng.com/a/20190314/45434833_0.shtml，2019年3月14日。

⑨航通社：《 “AI主播”跨越擬真技术“恐怖谷”，或将带来电视新闻事业的革命性变化》，钛媒体，https：//baijiahao.baidu.com/s？id=1616711303442987281 ，2018年11月10日。

⑩喻国明：《5G：一项深刻改变传播与社会的革命性技术》，《新闻战线》2019年第15期。

Epley， N.， Waytz， A.， Akalis， S.， et al. （2008）. When we need a human： Motivational determinants of anthropomorphism[J]. Social cognition， 26（2）： 143-155.

胡兵、王思逸：《国外新闻编辑室及数据新闻运作探析》，《南方电视学刊》2015年第2期。

MGC是“Machine Generated Content”的缩写，意为技术生产内容。

Peiser， J. （2019）. The Rise of the Robot Reporter [EB/OL]. https：//www.nytimes.com/2019/02/05/business/media/artificial-intelligence-journalism-robots.html， 2019-2-5.

Underwood， C. （2019）. Automated Journalism – AI Applications at New York Times， Reuters， and Other Media Giants[EB/OL].https：//emerj.com/ai-sector-overviews/automated-journalism-applications/，2019-1-31.

张洪忠、石韦颖、刘力铭：《如何从技术逻辑认识人工智能对传媒业的影响》，《新闻界》2018年第2期。

The New York Times （2015）. @nytlabs Editor [EB/OL]. http：//nytlabs.com/projects/editor.html.

喻国明：《人工智能的强势崛起与新闻传播业态的重构》，《教育传媒研究》2018年第1期。

李仁虎、毛伟：《从“AI合成主播”和“媒体大脑”看新华社融合创新发展》，新华网，http：//www.xinhuanet.com/politics/2019-08/08/c_1124850634.htm，2019年8月8日。

新智元：《中国首个AI短视频生成平台新华社造！一条新闻视频只需6秒》，搜狐网，http：//www.sohu.com/a/285648190_473283，2018年12月30日。

《国务院关于印发新一代人工智能发展规划的通知》，中华人民共和国中央人民政府网，http：//www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm，2017年7月20日。

﹝美﹞凯文·凯利：《技术元素》，张行舟、余倩等译，电子工业出版社2012年版，第13页。

（作者杨嘉仪系北京师范大学新闻传播学院博士生;通讯作者杨雅系北京师范大学新闻传播学院讲师）

【特约编辑：刘原;责任编辑：韩勇】

教育传媒研究

2019年6期

不止是“传声筒”：AI合成主播的特征、趋势与进化逻辑

杂志排行

教育传媒研究的其它文章