从人工到智能：AI主播的技术演进与前景分析

2023-04-15杨嘉瑶

北方传媒研究 2023年6期

文/ 杨嘉瑶

AI主播通过人工智能技术的驱动和支持，实现了直播内容的自动化呈现，融合了最先进的认知智能和感知智能技术，AI主播也正在逐步细分和升级。 2023年3月是AI发展较为密集的一个月，OpenAI在3月初发布引发全球轰动的ChatGPT使用模型，瞬间点燃了互联网开发者的关注和热情，此后各种AI智能如雨后春笋般破土而出。

一、AI主播的概况及应用场景

2018年，全球首个AI新闻主播“新小浩”开启了媒体行业人工智能主播的先河，之后的传媒行业逐渐步入了AI主播的大时代。艾媒咨询数据显示，2018年以后，中国虚拟主播企业呈现爆发性增长，企业注册数逐年增加，2022年新增注册数达到948家，增速达68%。①

（一）AI主播在我国的技术演进

2004年，央视CCTV-6频道推出国内首位三维形象虚拟电视节目主持人——小龙，其面部自然、外形高挑，单独主持了《光影周刊》栏目②。 2018年5月，AI主播“康晓辉”走进人们视野，其外形与真人主持人高度类似，还与央视记者江凯共同主持节目并在现场进行了实时互动③。 “康晓辉”通过虚拟形象生成技术，生成与众不同且与人物相像的虚拟形象，在很大程度上降低了制作成本。 “康晓辉”的活灵活现尽管需要真人驱动，但“康晓辉”还是指明了传媒业的发展方向，主播AI化是大势所趋。

1.AI主播1.0版本：国内首个AI主持人——“新小浩”

2018年，第五届世界互联网大会上，搜狗推出的中英双语2D虚拟主持人“新小浩”亮相，身着西装，十分逼真，其原型是中国新闻主播邱浩，基于“搜狗分身”技术，抓取出真人原型的面部特征、语言特点、神态表情等，再通过高科技合成虚拟形象以及深度学习等技术进行制作。

2.AI主播2.0版本：站立式AI主播——女主播“新小萌”

2019年3月，全球首个AI女主播“新小萌”也加入到这个特殊主播队伍中。它可以在固定位置站着播报新闻，肢体语言也相对丰富，其采用了模型优化和多风格数据的使用，通过这些技术手段实现了表情、肢体动作与语义的匹配，从而让AI主播的形象更加真实自然。除此之外，本次技术迭代也让AI主播定制周期不断缩减，从一开始的需要大量数据，录制非常长的时间，到2.0版本已经减少到利用几个小时的视频资料就可以完成一个虚拟形象。

3.AI主播3.0版本：更具3D特性—“新小微”

2020年5月，以新华社记者赵琬微为原型的“新小微”正式上岗，它可以360°任意角度呈现内容，可以走动、转身，支持多机位/多景深。表情上更加细腻、多样化，它可以根据文字产生不同的微表情，还可以根据不同场景、不同新闻报道需要变换精致的发型、服装和妆容。其合成采用了驱动面部肌肉扫描还原等技术，其面部妆造走模块化改变路线。从坐着播报到站起来播报，从固定位置播报到走动起来的3D形象，AI技术进入主持人行业仅仅两年多的光景，已经在终端表现上实现了大的突破。

4.AI主播4.0版本：个性化定制—“任小融”

AI主播“任小融”呈现在一个充满交互设计的H5产品中，任小融的聊天不只有文字，还有实时的虚拟人物播报，用户仿佛正在与一位健谈的主播面对面聊天，在自我介绍和相互打招呼之后，任小融会对用户行为数据作分析并为用户推介可能感兴趣的新闻关键词，根据用户的选择和喜好进行相对应的口播。其播报内容生成于主创团队搭建的新闻数据库，用户多次点击同一个关键词，可能会随机获得不同的播报内容。如果任小融为用户推荐的关键词不符合用户预期，用户还可以要求“换一批”，让任小融再次尝试，直到更准确地满足需求，播报对应新闻④，这正是人民日报新媒体对AI主播运用方向的全新探索。

（三）AI主播的应用场景

当前，AI主播作为一种新型的传播方式，在主流媒体中蔚然成风，AI主播逐渐成为主流媒体的新宠，从新闻播报、天气预报到娱乐节目等领域，AI主播都开始逐渐崭露头角。

（四）AI主播赋能媒体深度融合传播

媒体深度融合发展是当前媒体行业的重要趋势，AI主播虽表面上看是主播的形式出现，但这背后其实都是AI主播与大数据内容的融合。 AI主播因为其“新”，所以和真人相比有优势；又因为其“新”，技术上会有局限。 AI主播应用优势体现在哪？如何打破发展瓶颈和寻找创新的突破口是现阶段我们着重要考虑的问题。

表1 AI主播在我国的发展阶段

表2 主流媒体有代表性的AI主播一览表

1.整合资源获得一体化发展。基于算法和大数据的人工智能技术，AI能够快速地抓取受众信息，分析受众需要什么类型的信息并据此推荐。直播平台中，AI主播实时收集和分析消费者的购物行为数据，为企业提供有价值的市场信息，帮助企业优化商品结构和营销策略。人工智能技术通过整合各类资源，打破原有的媒体形态和业务界限，实现新闻信息内容的全媒介、全渠道、全覆盖传播。

2.内容供给改革满足受众信息需求。头部主播李佳琦曾说过：“一天不直播，你的粉丝就可能被另外的九千九百九十九场直播吸引走了。 ”电商直播中的AI主播有效地解决直播痛点，打破了真人主播持续直播的上限，推进内容供给侧结构性改革，实现7*24*365工作，做到直播间的“日不落”，随时随地与观众互动，满足各个时间段的受众的多元购物需求。相比真人主播，基于视频生成和大数据分析技术的AI主播在突发事件的新闻报道上独具快速播报的天然优势。

3.机制改革助推媒体深度融合。媒体之间的技术追逐，越来越多的AI主播被应用，技术创新为传统媒体转型提供新的可能，“AI合成主播”借助科技赋能，实现数字代码转换，快速生成新闻视频并高效传递信息，从而显著提升工作效率及服务质量，推动节目创新发展，实现广播电视行业智能化、网络化、数字化转型升级⑤。

二、AI主播目前的发展瓶颈

高端化、智能化、精简化的AI技术为生活和工作带来巨大便利，但其还没有发展到完全能够替代真人工作的程度，仍有很大的发展空间。

（一）技术发展限制AI主播实现效果

虽然AI主播现在已经能够完成很多任务，但是在某些方面，它仍然存在一些技术限制和挑战。在工作时需要按照开发人员的指令完成播读任务，尽管AI专属词库日趋完善，仍会有一些生僻字或多音字可能会导致其发音错误。另外，在淘宝的电商直播中，文案话术影响电商直播收益，ChatGPT可以直接生成直播文案，但充满机器感和距离感的直播话术直接影响消费者购买欲，智能辅播问候新进直播间的消费者，这些都需要提前完成文本输入。可见，AI主播技术发展还没有达到可以独立完成整个直播流程的程度。

观看各种AI主播直播视频，嘴型与音效不匹配问题十分明显，目前的技术对AI主播的口部算法还不够深入，文字发音与口型有直接关系，大多数受众对AI主播的第一反馈都是牙齿模糊、口型对不上的问题。目前，国内大多数公司用的还是bs技术，通过52个blendshapes进行面部表情捕捉，但是52个表情基准还是无法传达类似于真人眉毛的弯曲度、肌肉颤动等微表情细节。

（二）循环播放易造成AI直播违规

抖音平台的机器审核逻辑其实是审核音频中的文字。自动直播系统通过提前预设的程序和脚本，实现自动化直播带货，在实际操作中，如果系统未经授权自动转播他人的作品就有可能涉及侵权问题，从而引发违规行为。除文字以外，画面的重复在平台审核的范围内，画面占比一半超过一定的时间没有变化，平台会识别成录播，从而有封号的可能。另外，真人直播间的语音输入通过麦克风，而AI直播间是电脑直接生成，或者音轨品配上出问题，话术循环播放时头尾衔接不够自然流畅就会有被平台判定违规的可能性。

（三）安全隐患问题值得思考

《AI3.0》一书开篇即提出这样一个“侯世达的恐惧”：不是担心人工智能太聪明，而是担心人工智能太容易取代我们人类所珍视的东西。目前，我们面临科林格里奇困境时刻。 2023年10月22号，在科大讯飞技术的重要运用场景科大讯飞学习机中，经典课文《蔺相如》一文，居然出现了与主流价值观不符的内容，引起了网友们的激烈讨论。这一意外出现的原因在于，审核过程还没结束，相关人员就匆匆忙忙上线试用。

2023年5月4日，首例涉“虚拟数字人”侵权案，认定被告杭州某网络公司构成著作权侵权及不正当竞争，为原告公司消除影响并赔偿经济损失12万元。另有杭州一家网络公司采用上海魔珐公司发布的Ada数字人视频作为其课程营销的重要素材，该网络公司对视频进行了处理，在片头、片尾替换有关标识，并添加了本公司注册商标于其中一段视频中，其中的侵权问题难以界定。

三、AI主播的未来发展新展望

AI主播正在改变着人们的信息接收方式，仍有可改进之处，在未来，直播也许会实现全过程、全链条智能化，直播平台也即将跨入新的纪元。

（一）更新技术，实现AI主播真正“智能化”

因为技术的限制，所以AI主播和真正的人工智能还存在一定的差距，目前国内的bs技术，还需进一步完善，打造与真人尽可能相像的AI主播形象。新华社“新小微”在形象方面高度还原了真人发肤，连头发丝和皮肤上的毛孔都清晰可见，多样化微表情播报使得立体感和层次感明显增强，为AI主播在外形方面的发展趋势点明方向。

我国在AI主播技术方面最具代表性的是科大讯飞公司，专注于人工智能和智能语音，其语音合成系统达到真人说话水平，合成出的声音具有真实感和人情味，AI主播“康晓辉”的声音通过科大讯飞旗下的讯飞智声平台的AI语音合成技术模拟而成，其语音节奏和发音特点把握得恰到好处。

（二）迎合直播平台运营规则，实现直播“日常化”

一是直播间打造一定要真实，真人直播间是什么样，数字人直播间就打造成什么样，语音输入要通过工具转化成麦克风输入。二是视频素材占比不能超过画面的50%，如果画面超过50%，系统就会去识别素材是否循环，会导致被平台判断为录播。三是不要使用虚拟摄像头，一定要用硬件摄像头，现在的OBS直播用的虚拟摄像头，不论是抖音还是快手，或是视频号都是能识别出来的，无人直播软件应该把虚拟摄像头通过技术手段转成实体摄像头。四是要设置AI中控，不论是语音还是文字都要可以实现互动。五是要回复评论和弹幕，启动关键词触发，或是接入ChatGPT功能提前设置互动问答。六是话术要丰富而且不能有敏感词，通过软件实现话术随机的排列组合，建立子文件夹，按顺序制作话术。七是AI主播形象一定要真实，除了动作和声音与真人无异之外，还能像真人主播一样，做一些比较细致的动作和产品展示。

（三）注意技术发展背后的隐患，实现AI主播使用“规范化”

由于现阶段技术并非百分百安全，所以在AI生产的作品发布之前要有严格的审核机制，大模型上的内容审核机制应用于全部流程，做更严格的审核。明确新闻生产中的底线与基本原则，将伦理价值观融入其中，从制作生产到分发传播的每一个环节都应当是合乎规定与预设的，做好技术的把关工作是每个媒体人的基本责任。如何在应用中嵌入新闻生产传播的基本原则，缩小人文理念与技术理性之间的鸿沟，圈好AI技术在应用层面的范围，将伦理融入代码并非易事，但在智能化的未来，这是不得不面对的。