APP下载

全媒体文字智能检测解决方案
——关键词检测系统解析

2019-03-20王菲达

传媒论坛 2019年15期

王菲达

(上海文化广播影视集团有限公司技术运营中心,上海 200041)

一、前言

在媒体积极变革融合的大背景下,新闻生产过程中对正确性、权威性提出了更高要求。因此,关键内容的准确性,成为了在新闻生产环节过程中至关重要的一环。

上海广播电视台作为一个飞速发展的全媒体机构更需要追求内容的准确性。其内容生产业务流程仍以严格的人工审核为主,辅以新时代智媒体作为生产工具,力求内容生产的快速、高效、严谨。而关键词检测系统作为辅助工具,可以强化各环节文字准确性的审查力度。

二、总体目标

本文从目前正在使用的主流非编制播系统(索贝非编制播系统)入手,开发关键词检测软件,对电视播出相关的文稿内容、字幕内容进行自动审核校对,辅助节目三审流程,达到助力节目内容得准确、权威、安全的目的。

在功能方面,关键词检测系统的主要涉及以下三个方面:

(一)在检测功能方面

检测不能出错的内容,如重要领导人姓名、职位、重大会议名称和政治专有名词等。

检测需要谨慎对待的词句,如落马官员姓名,某些特定称谓(如“大陆” “内地等”),禁用慎用词汇。

检测错别字。

(二)在日志功能方面

系统对用户每一次的检测行为,记录相关数据,并保留日志。

对日志数据进行汇总呈现,形成系统能力及用户行为分析报表。

(三)在后台管理功能方面

系统需有弹性的词库管理功能,为生产平台新建一套自有词库打下基础。

对涉及用户权限的模块,对用户行为进行管理。

三、需求分析

(一)功能需求

功能点主要包括以下几点:

(1) 文稿文字内容检测。包括文字内容抓取、文稿文字内容关键词检测,关键词检测结果通过颜色标记的方式反馈出来,并给出修改建议。关键词包括重要领导人姓名职位、重要会议、国家部委名称、专有名词禁用语慎用语、错别字五大项。

(2) 日志功能。该检测系统需要提供可追溯的日志功能,每日在每台客户端本地及服务端为每台客户端生成一个日志文件,记录每次点击校验的时间、当前登录的用户名、设备IP、每次校验后的检测结果及相应时间,以及检出项目。

(3) 报表功能。该系统可以按照时间或用户在服务端生成整个系统的审计分析日志,不仅可总结每台单机的使用情况,也可对所有用户的使用习惯进行全局性分析。

(4) 词库更新功能。该系统需要能够提供在线自动及离线手动更新词库的功能,并记录和体现更新变化的内容以便用户核查。

(5) 词库自定义功能。该系统的关键词库主要涉及标准用语和禁用语,需对管理员开放词库入口,已供输入用户自定义的关键词。可提供管理词库的工具,使用户能够按照自身的业务特点设置“白名单”和“黑名单”设置后,在检测系统中立即生效。

(6) 深度学习功能。系统上线初期,使用的是厂商自有词库及其根据各自的原始海量语料编写的模型,上线后,系统应能够使用定期提供的、脱敏后的、本地化的语料进行模型的离线训练,以通过人工智能手段达到模型本地化的效果,进一步提升系统检测准确率。

(7) 用户管理功能。频道用户的账号管理跟随原稿件或制作业务系统;对于总编室用户,因涉及词库管理工作,系统需提供工具对该用户账户、密码进行管理;对于管理员用户,因涉及词库优先级选择、报表生成等操作,也将提供工具对该用户账户、密码进行管理。

(二)文字抓取软件子系统设计(软件子系统)

文字抓取软件采用基于C++程序语言开发的C/S架构软件,在现有新闻业务管理系统(基于IE浏览器的B/S架构)的基础上,开发一个兼容IE的外壳,在文稿编辑、文稿审核的工作站上安装该软件,辅助文稿编辑软件完成关键词的检测。

文字抓取软件主要包括基于第一财经新闻业务管理系统的IE浏览器套壳软件,主要负责获取客户端文稿编辑区域指定的文字内容,并通过接口发送给后台检测系统。

1.文字检测系统设计(双检测引擎)

(1) 从软件设计上,A引擎只提供文字输入输出接口,及词库自定义入口,其余封装为黑盒子,不对外部系统所见。

(2) B引擎核心通过积累的4000万篇高质量的文字语料,拆分成1000亿词语语料,采用基于统计算法和深度学习框架相融合的方式,实现高质量的错别字检测功能,检测算法的流程如下:第一步:利用条件随机场(Conditional Random Field, CRF)算法对文字进行分词;第二步:针对分词后的词语进行词向量计算;第三步:使用Seq2Seq的深度学习框架计算句子的语言模型;第四步:融合语言模型进行词语纠错。

其中,条件随机场CRF算法是一种机器学习技术,最早用于自然语言处理(Natural Language Processing, NLP)技术领域。CRF算法在NLP技术领域中主要用于文本标注,并有分词、词性标注、命名实体识别等多种应用场景。

词向量计算,word2vec是2013年,Google开源的一款用于词向量计算的工具。首先,它可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。word2vec算法的背后是一个浅层神经网络,主要包含用于计算word vector的CBoW模型和Skip-gram模型。

seq2seq(Sequence-to-sequence)模型,是深度学习的技术应用、自然语言的生成和理解等方面的研究成果,是目前自然语言处理技术中非常重要而且非常流行的一个模型,该技术突破了传统的固定大小输入问题框架,开创了将经典深度神经网络模型运用于翻译与智能问答这一类序列型任务的先河,并且被证实在各主流语言之间的相互翻译以及语音助手中人机短问快答的应用中有着非常好的表现。

人工智能错别字检测系统基于Docker模式进行软件分发,可以做到和云平台、微服务模式无缝集成,可有效地降低企业软件TOC总成本。

2.服务器子系统设计(硬件子系统)

服务器包括两台物理实体设备,采用分布式部署方式使得系统具有良好的可扩展性,服务器同时在线提供服务,之间可以实现数据实时和准实时同步,以“双活互备”方式保证数据的完整性和业务的高可用性。两台物理服务器处于不同的业务网内,之间经过两套IPS隔离防护,满足信息安全管控要求。

服务器部署架构基于KVM虚拟化运行环境,根据业务需求,分别虚拟出windows server操作系统和Linux操作系统,其中Windows操作系统主要部署“黑马校对”相关服务、产品;Linux操作系统采用基于docker的容器封装技术实现服务的统一部署和管理,部署JCJC相关服务、产品,及MySQL数据库等。

四、关键技术介绍

(一)关键技术一:自动获取文稿编辑区文字内容

第一财经新闻业务管理系统获取文稿编辑区域文字内容会遇到以下几个难点:

文稿系统设定了登录验证机制,通过文字爬取的方式进行文字抓取时,很难跳过该验证机制。

文稿系统文稿编辑区域基于iFrame框架原理,准确获取用户当前编辑的文字内容有难度。

通过反复测试和验证,最终项目组决定采用基于extjs、jquery-ui的前端技术框架,不改变现有系统任何代码实现页面编辑区域文字内容的抓取。

(二)关键技术二:自定义词库、NLP自然语言处理以及深度学习相结合实现文字检测

关键词检测系统不单纯对错误字词、错误名称等进行判断检测,还可以结合词库进行句子的语义语法分析,对新闻宣传中不适合的敏感词、慎用词进行辨别,同时具有深度学习的功能,不断提高关键词的检测率。

(三)关键技术三:多家产品互相融合,共同提高系统检测率

由于各厂商对关键词检测擅长的模块不同,关键词检测系统为了提供系统检测率,设计将两套检测系统相结合的方式来完成关键词的检测,即客户端同时将需要检测的文字内容发给A和B检测系统,将两套检测系统检出的结果合并呈现出来。并根据系统的成长性,制定了合理的冲突解决规则,应对不同检测系统输出结果冲突的情况,不断复盘系统检测准确率,提升系统能力。

(四)关键技术四:双活互备的架构

关键词检测系统包括两台服务器,采用基于“KVM+Docker”的系统架构,每台服务器同时部署两套的产品,两台服务器之间的数据实时或近实时同步。

采用“双活互备”的架构模式,主要实现方式是:两台服务器分别位于上视大厦和广电大厦业务网机房并接入各自业务网交换机,第一财经关键词检测业务优先访问位于广电大厦机房的关键词检测服务器1,一旦该服务器访问超时或故障则自动访问位于上视大厦广电的关键词检测服务器2。

五、创新点和亮点

(一)创新点:首次实现广播电视行业文字内容的智能化检测

该项目首次将自动化、智能化的校验环节植入新闻业务生产流程中,并在保证该系统对用户业务保障性初衷的前提下,促进其与现有成熟的业务流程的融合,并探索该系统提升用户业务能力的有效机制,形成完整的产品形态。

(二)亮点一:多产品融合,取长补短,提升系统检测率

经过调研和分析,大部分文字检测系统都是使用单一厂商检测系统进行内容的检测。但各厂商对关键词检测擅长的模块不同,为提升系统检测率,设计将两套检测系统结合的方式来完成内容的检测,即客户端同时将需要检测的文字内容发给两套检测系统,检出的结果合并呈现,有效地提高了系统的整体检测率。

(三)亮点二:考虑系统可扩展性,着眼未来产品化的愿景

系统设计之初,无论从软件功能上,还是架构设计上,都没有局限于电视新闻业务。而是站在公共服务能力平台布局的层面,充分考虑整个保障系统功能的可移植性,为成长为横向服务各业务阵地的关键词检测系统做准备,可打包成具有自主知识产权、具有行业垂直深度和行业专业化词库的关键词检测产品推向市场。

六、结语

关键词检测系统的松耦合实现方式,词库自定义、后台审核、人工智能深度学习等核心功能已逐渐成为融媒体大环境下的稿件编辑和内容审核的基本需求,这对于保证媒体宣传准确性和权威性有着重要的意义。相信随着智媒体技术的井喷发展,在不久即将到来的“4K+5G”时代中也能发挥其重要性作用。