人工智能技术在视频编辑中的应用实践

2020-10-12谭乐娟

中国传媒科技 2020年8期

摘要：随着互联网技术以及传媒业的发展，短视频已成为了人们获取新闻资讯的一种主要形态。近年来，自然语言、语音、图像领域的人工智能技术不断取得突破，使得人工智能技术在生产系统中的工程化应用成为可能。在视频编辑中合理地运用人工智能技术，能有效地降低视频编辑的难度和工作量，让更多的人参与到短视频制作中来，实现短视频发稿量和质量的快速提升。新华AI视频是人工智能技术在视频编辑中的应用实践，提供了字幕自动配音、视频字幕提取、多语种字幕翻译、虚拟主播、智能编目与检索、图片视频化、文字视频化等多种智能辅助编辑功能，有效地降低了视频制作门槛，为新华社短视频专线的快速发展起到积极作用。

关键词：新媒体;人工智能;短视频;视频编辑中图分类号：TP393 文献标识码：A

文章编号：1671-0134（2020）08-125-04 DOI：10.19483/j.cnki.11-4653/n.2020.08.034

本文著录格式：谭乐娟.人工智能技术在视频编辑中的应用实践[J].中国传媒科技，2020（8）：125-128.

随着互联网技术以及传媒业的发展，短视频具有播放时间短、传播速度快等传播特点，深度切合当前用户碎片化的使用场景，已成为人们获取新闻资讯的一种主要形态。根据网信办第45次《中国互联网络发展状况统计报告》，截至2020年3月，我国网络视频（含短视频）用户规模达8.50亿，占网民整体的94.1%，其中短视频用户规模为7.33亿，占网民整体的85.6。网络视频（含短视频）已成为仅次于即时通信的第二大互联网应用类型。[1]2019年，我国5G商用环境持续完善、标准技术取得新突破、应用孵化进入全面启动期。[2]随着5G时代到来，短视频预计会迎来新一轮爆发，可以预见，短视频会成为了下一轮各类媒体开展竞争的最重要领域。

专业视频制作的学习高门槛、制作的复杂度和时间成本让很多传统文字及图片编辑望而却步，难以参与短视频制作中去，限制了媒体通过短视频作为报道手段的发展。近年来，人工智能关键技术日趋成熟，自然语言处理、语音图像领域的人工智能技術不断取得突破，使得人工智能技术在生产系统中的工程化应用成为可能。[3]如果能在视频编辑中合理地运用人工智能技术，就能有效地降低视频编辑的难度和工作量，让更多的人参与到短视频制作中来，实现短视频发稿量的快速增长，文稿质量的不断提升。

1.新华AI视频编辑工具的设计

为了更好地整合内部编辑系统，新华AI视频编辑工具设计为基于浏览器的轻量级智能化在线短视频制作工具。设计的目标用户为所有有短视频制作需求的采编业务人员，特别是非专业视频编辑。设计上需要兼顾以下功能：

1.1强大的视频编辑能力

支持多轨道、帧精度的非线性视频编辑，提供剪切、配音、字幕条、唱词字幕、贴图、转场特效、帧动画、抠像、模糊、数据图等多种实用编辑功能。提供多种字幕条模板、转场模板、特效模板、数据图模板。高清横屏16：9、标清横屏4：3、手机竖屏9：16、twitter方屏1：1四种画幅编辑模式灵活切换。支持一键添加预设的片头片尾角标。支持多种分辨率输出。所有素材拖曳上轨，所有编辑操作所见即所得，方便非专业人员使用。

1.2智能化能力

提供多种智能化辅助编辑功能，包括字幕自动配音、视频字幕提取、多语种字幕翻译、虚拟主播、智能编目与检索、图片视频化、文字视频化等。此外，还可以基于一篇文字稿或一组图片稿自动生成视频。

1.3资源整合

和内部的资源整合，支持和新华社内部稿件、素材中的视频、音频、图片素材导入视频编辑项目中再利用，提高了资源的利用率。

1.4与采编流程无缝对接

与新华社核心发稿系统无缝对接，支持成品视频一键建稿，支持对稿件中的视频进行编辑修改。实现了稿件编签过程中的多人、异地共享编辑修改视频。

2.人工智能技术的运用

相较于传统的视频编辑软件，新华AI视频编辑工具的一个最大的特色就是对人工智能技术的运用，大大简化了视频编辑的工作，对非专业视频编辑人员来说易于操作。该工具灵活运用了自然语言处理、语音识别、语音合成、智能翻译、虚拟主播合成、视频内容识别等人工智能技术，提供了字幕自动配音、视频字幕提取、多语种字幕翻译、虚拟主播、智能编目与检索、图片视频化、文字视频化等多种智能编辑辅助功能。

2.1字幕自动配音

视频编辑过程中经常需要对编排好的解说词进行配音播报。一般是通过人工录制的方式进行配音，配音后还需要对字幕的时间进行调整，让字幕和配音的时间点对应上，工作量很大。而且非专业配音人员的配音，也存在发音不够标准的问题。通过语音合成的智能服务，就能一键将字幕生成配音，并自动将字幕时间与配音进行同步。新华AI视频支持中、英、西、法、俄、阿、葡、日、韩9个语种的字幕配音功能，提供多种男声、女声模板供选择，并可对语速进行调节。

2.2视频字幕提取

另一种需求是给视频中的同期声配上字幕，一般在会议发言、采访访谈等场景中比较常见。传统编辑需要逐句听打同期声上字幕，还需要对字幕的时间进行人工调整，也是一件很繁琐的工作。在语音识别技术的支持下，可以实现一键识别视频中的语音生成唱词字幕，且字幕和语音自动匹配，只需要少许纠错即可。目前，在环境和发音情况良好的情况下，中英文语音转写的准确率能达到98%以上，可用性较高。

2.3多语种字幕翻译

在国际化发稿中，为了满足各小语种专线的发稿需求，需要给同一个视频配上不同语种的字幕和配音，通常需要先制作一个不带字幕和配音的裸视频，再找不同语种的专业人员翻译后分别制作不同字幕和配音。通过智能翻译服务，可以在一个项目中一键生成多种不同语种的字幕，只需要专业小语种编辑对智能翻译后的结果进行人工审核和纠错，再结合字幕的小语种配音功能，自动生成不同语种的配音，就能在一个项目里输出多个不同语种版本。新华AI视频支持中、英、西、法、俄、日、西、阿、葡、泰、藏11个语种的字幕互译，支持同时合成多个语种的成品。操作非常简单，没有视频制作经验的小语种编辑也能很快上手制作，极大地节省了视频国际化的工作量和时间。

2.4虚拟主播

除了字幕和配音，新闻主播也可以由人工智能自动生成。在需要添加新闻主播的场景下，只需要输入主播的解说词，就可以一键生成虚拟主播，主播口型与语音播报的内容完全匹配。主播可以选择不同的形象和背景，还可以调整语速，生成后按需插入到视频项目中即可。绿幕背景的主播可以进一步通过AI视频编辑的抠像功能一键去掉背景，完美嵌入到视频内容中。

2.5智能编目与检索

在视频制作过程中，素材的挑选也是一项很困难的工作。特别是视频素材库编目做得不够细致的情况下，要在庞大的历史素材中找到想要的片段，更是难上加难。传统的人工编目工作费时费力，编目的标准也不是很适合做内容检索。通过智能视频内容识别技术，可以自动识别视频素材中的关键要素，包括人脸识别、文字OCR识别、语音识别、物体/场景识别，从而实现片段级的内容检索，快速找到所需要的片段加入项目，节省大量的时间。

2.6图片视频化

针对摄影部图片视频化的需求，使用AI视频编辑可以快速将稿库的一组图片稿转换成视频项目，并自动添加转场特效、字幕说明、配乐/配音，用户只需要对自动生成的项目进行微调后就可以完成视频制作。

摄影部图片稿通常使用组图的方式，一组图片稿讲述同一个事件，通常有十几二十多张，图片之间的关联度很高，并配有图片总说明和分说明，很适合做成一个短视频。除了组图，盘点型的新闻，例如一周看天下，也很适合制作短视频。在稿库批量选取图片后，再选择图片时长、转场特效、背景音乐，就能一键生成一个视频项目。再根据具体的音乐节拍和时长对图片时长进行调节，根据画面内容对图片进行适度的缩放、位移、背景模糊，对字幕内容进行修改，使之适合视频显示，加上包装，就完成了短视频的制作。

下一步，还可以针对具体的节目要求，将图片视频化的效果和细节模板化，一个模板生产一档节目，结合音乐的自动分析，优化素材的拼接效果，提高自动化项目的成片度，进一步节省用户工作量。

2.7文字视频化

AI视频编辑还将文字稿当做文字脚本创作视频。选择一篇文字稿后，对文字进行自然语言处理提取关键词，在资源库检索视频、图片素材后挑选匹配度最高的素材自动上轨，生成视频项目，并自动将文字脚本生成字幕和配音。

关键词提取和片段检索的准确度是合成效果好坏的关键。通常一个素材如果很长，内容也会比较复杂，特别是成品素材，通常由多个新闻组成，还包括片头片尾等要素，在使用时需要精準定位到具体的片段进行切割。在一篇文章关键词提取后，还需要留意它的时效性，比如两会、奥运会这种周期性的报道需要明确年份。还有关键词之间的逻辑关系，同一事件的不同阶段或者不同角度，报道的内容也是有区别的，例如港珠澳大桥通车，报道的是工程建设的情况还是车流通行情况，选取的素材也是不一样的。对于比较长的多个段落的文章，可能每个段落讲述的内容有所区别，为了更好的效果，还可以分段进行关键词提取和素材筛选。

为了提高项目的成片度，我们在自动筛选素材的基础上增加了人工二次筛选，可以人工修改检索的关键词并设置更多的检索条件，删除不合适的素材或增加新的素材，让选中的素材更符合脚本上下文。

3.AI视频编辑技术实现

新华AI视频编辑工具采用B/S架构，系统由前端发布层、后端业务层、底层服务层、数据存储层四层构成。

前端发布层包括web页面和流媒体播放服务。web页面使用最新的HTML5 canvas和webgl技术实现，无须安装任何额外软件或插件，全程在浏览器上访问操作，所有编辑操作所见即所得，Windows 操作系统和 Mac OSX 操作系统均可使用。流媒体服务基于nginx构建，负责视音频、图片等文件的预览和下载。

后端业务层负责进行编辑的业务逻辑处理和数据管理，提供包括项目管理、素材检索、剪辑操作、成品发布、素材管理、成品管理、模板管理、用户管理等功能。后端业务层也是前端和底层的桥梁，前端的用户编辑操作，通过业务层转换成底层渲染可以识别的指令。底层渲染的进度和状态，也通过业务层实时通知前端页面。

底层服务层包括渲染服务和智能服务两部分。渲染服务负责进行素材的预处理和成品的渲染合成。智能服务负责所有的人工智能处理，包括自然语言处理、全文检索、语音识别、语音合成、智能翻译、虚拟主播等。

数据存储层使用NAS存储用户素材、系统素材、编辑过程文件和成品文件，使用mysql存储业务数据。

AI视频编辑还提供开放API接口，供第三方系统调用。除了用户直接创建视频项目进行编辑以外，也支持对稿件中的视频进行编辑，或者由智能分析服务自动创建项目。项目创建后，需要导入素材，包括本地上传的素材和资源库里的素材。素材导入后，要先通过渲染服务初始化成适合前端预览的一系列小码流文件，包括预览用的低码视频、缩略图、序列图、音频、波形数据等。编辑时用户预览的是小码流文件，以及通过canvas绘制的特效。编辑过程中，所有的项目数据将实时转换成一个json结构传递给后台。项目编辑完合成时，由渲染服务对json数据进行解析并转换成具体的ffmpeg命令进行渲染合成，最终生成成品。合成使用的素材为用户上传的原始数据，保证成品的质量。

结语

新华AI视频编辑工具上线以后，截至2020年5月16日，访问用户数达1587人，视频生成数量达23397个。

新华AI视频编辑工具作为一种新形态、轻量级、智能化、简单易用的在线视频编辑工具，是传统视频编辑软件的一种补充。人工智能技术的运用降低了视频制作的门槛，提高了资源的利用率，让传统的文字、图片编辑也能快速参与到短视频制作中来，提高了短视频生产的效率和数量，为新华社短视频专线的快速发展起到积极作用。

参考文献

[1]第45次《中国互联网络发展状况统计报告》[R].网信办，2020：53-55.

[2]第45次《中国互联网络发展状况统计报告》[R].网信办，2020：81-82.

[3]第45次《中国互联网络发展状况统计报告》[R].网信办，2020：82-83.

作者简介：谭乐娟（1987-），女，湖南省浏阳市，工程师。