人工智能技术最新进展及在广电行业的赋能应用

2018-09-12谈冰安徽听见科技有限公司副总经理

视听界(广播电视技术) 2018年4期

关键词：匹配

谈冰安徽听见科技有限公司副总经理

非常荣幸能够收到第五届中国广播电视紫金论坛的邀请，与大家分享科大讯飞人工智能技术的最新进展，介绍科大讯飞人工智能技术和语音技术在广电行业的赋能应用。

先来看一段央视《新闻联播》。其中使用了科大讯飞最新的人工智能语音合成技术，来模拟李瑞英和康辉的声音，自动把他们的播音稿文本转换成声音播放出来。

1.人工智能技术的最新进展

业界通常把人工智能的发展分为三个阶段，第一个阶段是运算智能，在这个阶段最具典型的一个事件就是AlphaGo的围棋大赛。第二个阶段是感知智能和运动智能，感知智能就是让计算机做到能听会说，能看会认；同时还有运动智能，让计算机做到能抓会握，能走会跑。第三个阶段，人工智能的发展方向一定是认知智能，让计算机和人一样，能理解，会思考。

随着人工智能的发展，科大讯飞在倡导讯飞超脑计划。这个计划是以语音和语言为入口的“认知革命”，它包括四个维度，第一个维度是通过语音识别技术让机器能听，第二个维度是通过语音合成技术让机器会说，第三个维度是通过知识图谱技术让机器能理解，第四个维度是通过逻辑推理技术让机器会思考。

自然度是语音合成技术最关键的一个指标。什么叫自然度？就是机器说话是不是像我们人一样说话，那么连贯能够让大家听懂。业界采取五分制评价机器人说话的自然度，广播电台、电视台的专业播音员、主持人，他们的说话自然度可以达到五分，略带一些方言，有些平舌音，翘舌音不分的说话自然度大约是四分。在国际上语音合成最权威Blizzard Challenge语音合成国际大赛中，科大讯飞已经连续12年夺冠，并且是唯一按照评分体系自然度得到4.7分，超过了普通人的4分标准。

图1 人工智能发展的三个阶段

图2 以语音和语言为入口的“认知革命”

图3 让机器会说-语音合成

在央视大型纪录片《创新中国》中，根据纪录片的配音文稿,我们利用AI模拟李易老师的人声配音合成，其效果做到和李易老师本人的配音差异很小。

科大讯飞于2016年首次参加国际上最权威的CHiME国际多通道语音分离和识别比赛，在全部测试场景上，以显著优势获得第一名。参赛队伍包括英国剑桥大学，美国斯坦福研究院、卡内基梅隆大学，日本NTT、日立、三菱，新加坡南洋理工大学，法国国家信息与自动化研究所等国际著名的科研机构与企业。

再来介绍语音识别在广电行业的应用场景。全国两会期间，我们与人民日报社、咪咕视讯、新奥特合作，基于他们的网络直播平台，为李克强总理政府工作报告提供中英文实时字幕，并提供实时的汉英、英汉的翻译和汉维（吾尔）语的翻译。

机器具备人工智能的能力，其中一个非常重要的因素是让机器能理解。知识图谱是让机器能理解的关键技术。科大讯飞于2016年获得国际知识图谱构建大赛（NIST TAC Knowledge Base Population Entity Discovery and Linking Track）核心任务全球第一。

图4 第4届CHiME Challenge比赛测试

这次大赛当中有个非常有趣的案例，就是图5中呈现的这句话，即美国大选期间，特朗普炮轰杰布·布什：伊拉克战争都是你哥哥的错!作为我们普通人来看这句话，可以明白这句话的含义。可是要让计算机能够听懂，并且明白这句话是什么意思，需要基于大量的基础信息，你得让计算机知道美国和伊拉克是两个国家，历史上这两国之间发生过什么事件，美国总统是谁，他哥哥和弟弟是什么关系，伊拉克战争爆发的背景情况等等，把这些信息提供给计算机，计算机才能自我学习，自我分析，知道美国和和伊拉克的战争，美国伊拉克是两个国家，杰布·布什是谁。

威诺格拉德模式挑战赛( Winograd Schema Challenge)是图灵测试的一个变种,旨在判定AI系统的常识推理能力。国际上现在逐渐用威诺格拉德模式挑战取代图灵测试。科大讯飞在2016年国际著名的威诺格拉德模式挑战赛中取得第一名。挑战模式测试中有一个非常有趣的案例，就是在图6框框中列出的两道题，一道题是“爸爸没法举起他的儿子，因为他很重”。问：谁重？另一道题是“爸爸没办法举起他的儿子，因为他很虚弱”。问：谁虚弱？作为我们人来讲，非常清楚知道这两道题中的他指的是谁。可是要让机器能够明白，并且回答出这两个他到底指的是谁，要让机器能具备逻辑推理的能力。

图5 国际知识图谱构建大赛知识图谱测试

图6 Winograd Schema Challenge挑战赛机器逻辑推理测试

基于科大讯飞在人工智能和语音技术方面的积累，科大讯飞成为国家人工智能创新联盟的理事单位，在2017年11月8日正式成立的中国科学院人工智能产学研创新联盟中，科大讯飞也是联盟的理事单位。科技部在2017年10月份，发布首批国家人工智能开放创新平台，科大讯飞也很荣幸承担这个平台智能语音方向的研究工作。2017年12月11日，科技部批复依托讯飞建设认知智能国家重点实验室。2017年《MIT科技评论》评选“全球最聪明50家公司”的榜单在北京全球首发。有9家来自中国，分别是:科大讯飞（第6位，002230.SZ）、腾讯（第8位，00700.HK）、旷视科技（第11位）、大疆（第25位）、富士康（第33位，02038.HK）、阿里巴巴（第41位）、HTC（第42位）、蚂蚁金服（第49位）、百度（第50位）。

2.人工智能技术在广电行业的赋能应用

在大数据、云计算、4G、超级计算机等技术飞速发展的情况下，人工智能逐渐看到了实现的希望，由此成为新的产业发展主导，以加速推动整个广电行业的升级和变革。人工智能技术可以应用到广电包括制作、集成、传输、分发、接收等环节在内的整个产业链条。

合肥市广播电视台的长期目标是利用人工智能技术优势，以智能语音技术为突破口，以电视台、广播电台、报社、融媒体为内容来源，以智能语音和人工智能技术为基础，建设智能语音服务和应用平台，针对电视台节目生产进行快速发布、达到聚拢内容的目的，对内容进行监管、达到安全播出的目的，并且可以利用用户画像进行内容推荐运营。

接下来和大家分享一下，科大讯飞基于自己领先的人工智能技术在广电行业的应用。在向媒体的推广科大讯飞人工智能技术过程中，早前我们有所担心，对媒体行业来讲，安全播出是第一位的，当我们的核心技术还没有成熟到这种状态，我们也不敢轻易把这项技术在媒体应用。通过多年的发展，人工智能技术不断迭代更新，现在科大讯飞的人工智能技术，尤其是语音技术，在媒体领域已得到越来越多的应用。

图7是科大讯飞的人工智能技术在媒体领域的应用规划。最底层是提供人工智能所搭建的智慧媒体云平台，包括语音转写、语音合成、文本翻译、人脸识别、声纹识别、个性化推荐、用户画像…在智慧媒体云平台的基础上，围绕媒体的采编播管存的各个环节，提供我们核心技术产品化的应用，通过多渠道媒体的内容聚合，向各种软件层面或硬件载体提供内容的分发。

接下来分三个层面做一个介绍。第一个层面是内容生产平台。以上介绍了基于智慧媒体云平台面向媒体行业采编播审存的主要工作流程，提供语音转写字幕文稿、虚拟播报、直播字幕，内容管理、内容获取、监管研判等应用。下面介绍一些应用案例。例如在采编环节，科大讯飞在今年3月份，基于我们的语音转写技术发布了听见APP，听见APP可以在网上免费下载。听见APP是一款针对媒体记者推出的以语音转文字为核心功能的手机应用，同步实现采访录音和新闻初稿生产，提高新闻制作的时效性。记者采访受访对象，应用听见APP不仅可以把采访内容的声音实时录音，并且还可以把采访的录音实时转写成文字，前期采访记者在返回台里的途中，即可把采访的录音和文字发送给后期编辑，稍加编辑就能形成一篇完整的新闻通稿。现在我们不仅可以做到中文的转写，包括英文的转写和中英的翻译都已经集成到听见APP上，未来还会支持多语种，多方言的应用。

图7 科大讯飞A.I.+智慧媒体

图8 A.I.+智慧媒体：内容生产平台

图9 采编环节典型应用-听见APP

在编辑制作环节，我们有一个非常成熟的应用叫智能文稿唱词，通俗讲，就是拍唱词。智能文稿唱词是一款以语音转文字为核心的字幕和文稿的专业制作软件，主要解决媒体行业字幕制作和音视频整理成文字的需求，可实现5-10分钟完成1小时的文稿及字幕制作，正确率可以达到95%以上！

如果嘉宾的口音偏向于方言，或是他的讲述具有专业内容，我们只要提前对软件做一些训练和优化它的转写效果，准确率也可以达到95%以上。

现在传媒都在做新媒体，不仅有音频、视频内容，还有平面媒体例如报社的文本内容。我们可以在客户端中针对文本信息实现自动播报，将来可以做到自动判断不同的地域特征，不同的地方的听众，用当地的方言为听众播报，包括全球范围内的多语种，都可以用这种方式进行虚拟播报。

图10 编辑环节典型应用-智能文稿唱词系统

图11 播出环节典型应用-虚拟播报系统

存储环节是智能内容管理系统的一个典型应用。有些电台、电视台历史媒资的利用率并不高，主要有两个原因，一是历史媒资的时效性，有些过时的新闻资讯可能就不会再使用，二是很多媒资的标签工作现在还是基于人工来做。科大讯飞的智能内容管理系统采用智能语音转写技术，可以把历史媒资自动生成文本信息，将这些文本信息自动形成摘要，进行智能自动的标签化的管理，可以大大提高媒资标签工作的效率。智能全媒体内容管理系统，可以加强稿库、资料库建设，汇集各种稿件、节目素材、新闻背景资料，集成各种编辑软件工具，通过用户画像、大数据分析分类等多维度定位，可以对内容进行多渠道推送运营。

第二个层面是内容监审平台。面向国家广电总局监管中心直属监测台、各地方广电行业监测部门，通过智能语音转文字技术，将电台、电视台、新媒体等多路音视频实时/导入转写，并与关键词匹配、实时报警，辅助用户工作，提升监管效率。

内容监审平台的业务流程见图13和图14。

图12 存储环节典型应用-智能内容管理系统

图13 A.I.+智慧媒体：内容监审平台

图14 内容监审平台的业务流程

内容获取：主要分为三大模块，即电视数据、电台数据以及新媒体数据；

研判监管：利用人工智能技术对音视频数据进行研判，并提供机器研判结果；

舆情分析：通过音视频分析技术、自然语言理解等技术实现舆情方向确认、有害分析、趋势分析等；

推送处理：对检测出来的舆情信息进行向上、向下或平级推送处理。

通过科大讯飞的语音转写、人脸识别、OCR、声纹识别、多语种识别、台标识别等技术，可以针对画面中的图文、声音、图像自动实时跟踪，自动提炼出所关注的关键要素，自动报警，针对所关注的关键词，自动进行舆情分析并形成舆情摘要。

内容监审平台整体架构见图15。内容监审平台在核心技术的基础上构建了各种研判分析模型，可以结合各个地方监管的方向和重点，定义不同的研判分析模型，分析结果推送进行相应的舆情分析，舆情分析的结果可以根据实际业务流程进行分发处理。

图16是北京某办微博音视频监管项目的应用案例。通过应用大数据和机器不断的深度学习，网络监控的准确度会越来越高。

第三个层面是内容传播平台。

图15 内容监审平台整体架构

图16 应用案例—北京某办微博音视频监管项目

图17 A.I.+智慧媒体：内容传播平台

基于科大讯飞提供的AI语音交互的应用，众多二次开发商能够快速调用我们的语音技术，开发各种硬件终端。例如智能电视终端、智能语音机顶盒，智能音箱，这些都可能成为智能终端的入口，除了语音入口，同时它也是内容的入口。无论是文本信息、音频信息都可以通过入口来进行传播。不仅可在有线电视台领域传播，包括音箱、未来的家居、车载都可以成为内容传播的入口。图18举例介绍了内容传播平台的应用场景和传播载体。图中利用科大讯飞语音交互技术做的语音遥控器，只需对着话筒说出你想看的节目内容，智能电视终端就会从音像资料库中调出相关的内容进行播放。还有现在很火的阿尔法蛋机器人，可以满足家庭儿童和所有成员应用场景的内容传播。阿尔法蛋机器人集成教育内容、超级电视、视频通话、智能音箱和自然语音交互等功能，可以用父母的声音给孩子讲故事，可以帮助孩子查各种学习资料，家长可以去查寻各种信息。

图18 内容传播平台应用场景和传播载体

图19 -1 内容传播平台：个性化推送

图19 -2 内容传播平台：个性化推送

目前在科大讯飞的智能语音开放平台中已积累了几亿用户，我们的AI语音交互技术目前已有多家开发单位在使用，所有这些数据我们都可以共享，这些用户的大数据可以通过精准画像来实现数据的增值服务，通过内容传播平台进行个性化推送。

科大讯飞的技术平台为内容生产、内容管理、内容监审、内容传播提供了一系列的人工智能应用，我们也希望能与广电行业开展合作并为广电提供赋能应用。

我们已和国内的多家媒体开展了合作协定。例如，我们和国家新闻出版广电总局广播科学研究院成立了广播电视与语音技术融合创新实验室，将通过科大讯飞人工智能核心技术与广播电视技术的结合，在智慧家庭终端、智能应用入口、智能广告平台、AI+广播新技术业务上打造新型智慧广电业务和标准，真正实现AI+智慧广电生态圈；我们和人民网签订了战略合作协定，形成可向全国媒体推广的智慧媒体解决方案，双方将依据各自优势，结合媒体行业采、编、播、审、存等应用场景，集成包括语音合成、语音转写、机器翻译等核心能力，共同构建“智慧人民网”；我们和央视合作，成立了智能语音转写实验室，专门用于研究智能语音技术在媒体生产各个环节的应用技术，中央电视台制作中心引入了智能文稿唱词系统，用于节目制作中的字幕制作，共同合作推进提高智能文稿唱词系统在生产流程中的实用效果。