基于人工智能技术的富媒体信息管控研究

2017-08-31郦荣

电信工程技术与标准化 2017年8期

关键词：管控文字神经网络

郦荣

（中移（杭州）信息技术有限公司/中国移动杭州研发中心，杭州 310000）

基于人工智能技术的富媒体信息管控研究

郦荣

（中移（杭州）信息技术有限公司/中国移动杭州研发中心，杭州 310000）

互联网时代，信息交流频繁，不良违法信息的传播也日趋严重。在此情况下，识别和过滤富媒体不良信息变得尤为重要。近年来，深度学习等人工智能技术的崛起极大地推动了图像识别领域的发展，相较于传统方法，深度学习的优势在于自动提取且具有更强大的表达能力。基于此，本文提出了一种基于深度学习的不良富媒体信息管控方案，达到净化互联网内容的目的。

高并发；富媒体；深度学习；卷积神经网络

随着互联网业务的大力发展，国家越来越重视互联网信息的安全，其中很重要的一点是保障网络内容的和谐干净，防止人民受到涉政、涉黄、诈骗等违规违法信息的侵害，降低社会和经济损失。

2016年11月7日，全国人大常务委员会发布《中华人民共和国网络安全法》，这是我国第一部全面规范网络空间安全管理方面问题的基础性法律。中国移动通信集团公司对网络安全也特别重视，于2016年3月发布《关于加强2016年业务安全三同步工作的通知》，明确新技术新业务安全评估工作的要求，进一步加强网络安全技术手段建设。

根据相关机构的调查和统计，恶意信息造成的社会和经济损失巨大。《网络空间安全蓝皮书：中国网络空间安全发展报告（2016）》，显示2016年因欺诈类信息损失达915亿。中国互联网违法和不良信息举报中心统计显示，截止到2016年11月，全国各地网信办、各网站受理违法和不良信息举报共377.9万件。

1 网络市场不良信息管控现状

1.1 富媒体管控平台的必要性和现状

网络垃圾对企业产品带来的危害日益突出，一是产品在富媒体内容运营的同时若触碰法律法规的红线，比如谣言信息、暴恐信息、淫秽色情等会直接导致产品的关停；另一方面内容审核不完善带来的广告推广、人身攻击、灌水、刷屏等对用户体验造成不可挽回的影响，事实上很多UGC产品已经关注到这些问题，并为此付出了巨大的人工投入。富媒体管控研究旨在提高识别准确率，降低审核成本。

国内反垃圾平台有中移和盾、网易易盾、阿里绿网、腾讯万象优图、图谱科技等。

中移和盾智能管控系统融合了文本检测、富媒体（图片、视频、声音）检测、高并发多核计算、大数据分析、人工审核等技术，实现了不良信息高检测率、大吞吐量和大数据分析综合应用等需求特性。

网易易盾已经实现了依靠内容特征识别、机器学习以及大数据分析实现了图片、视频、文本和音频中的涉黄、暴恐识别。主要面向直播平台、数字运营平台、内容运营平台提供反垃圾服务。

图谱科技通过机器学习技术和人机识别能力实现了图片内容审查、物体场景识别、人脸识别、文字OCR（图片内文字识别）等能力，主要服务直播和内容运营类产品。

阿里绿网和腾讯万象优图以企业服务为主。同样借助人工智能技术实现社交平台、电商平台、游戏平台、金融服务平台以及物流平台中涉黄图片的识别和管控。

1.2 富媒体管控平台实现的主要困难

通常反垃圾最开始是样例库反垃圾，主要借助关键词、黑白名单、过滤器来完成；第2个阶段依靠统计量反垃圾，主要采取技术为内容特征识别、贝叶斯过滤、相似度匹配规则等；第3个阶段则是全面采用人工智能技术，通过机器学习、大数据分析、人机识别等技术来实现。具体来说，富媒体管控平台实现的主要难点如下。

（1）针对发布不良信息行为的管控难度高，管控模型无统一标准、维度多、管控效果难以评估。

（2）针对不良信息内容的识别难度高。暴恐涉政图片、视频没有统一标准，难以定义，但危害巨大需要监控；色情图片、视频有相对统一的标准，但变化多、数量大，识别准确率要求高；OCR场景复杂，业界识别率普遍偏低。

（3）即时通信、网络直播等应用场合对系统的高并发计算能力和实时性要求高。

2 管控系统方案设计

围绕上述行为管控、内容识别以及高并发3个方面的困难，管控平台分别采用基于领域的行为管控模型和基于信用等级的分级管控策略，基于Inception和RNN的神经网络和基于SIFT特征提取的图像检索技术，以及基于事件的异步监听机制的高并发框架予以应对，取得了较好的效果。

下面从系统对外接口和处理流程开始，逐步过渡到核心处理方案。

2.1 管控系统接口和处理流程

管控平台通过串行、并行接入系统流程，提供同步、异步的服务接口，为业务平台提供服务。任意终端的信息经业务平台推送进入管控平台，通过自动过滤或人工审核，拦截、存储不良数据，放行干净数据。

管控平台对外提供两类接口，用户可以根据其场景选用。

（1）基于TCP/IP的接入方式，在可接受时延范围内反馈鉴权结果，在不影响即时通信服务的前提下，做到交互消息实时鉴权，为即时通信服务提供高效的消息鉴权服务。

（2）基于HTTP的接入方式，同步反馈数据接收状态，异步回调接口通知消息鉴权结果，信息发布平台可以采用先发再撤销机制，有效规避违规信息的发布。

无论是使用哪种接口接入，都有相同的主处理流程，如图1所示。

2.2 管控系统模型设计

图1 管控系统处理流程图

图2 管控系统模型图

如图2所示，管控模型大致分3层：接入层、数据处理层和数据资源层。其中各类业务数据经由接入层进入系统，在数据处理层进行检测，以确定放行或送审。数据资源层存储策略配置，以及不良数据，用于事后分析。

下面着重分析数据处理层。数据处理层由行为分析、信用等级、富媒体过滤、人工审核4个部分构成。

2.2.1 行为分析和信用等级模块

针对管控模型无统一标准，维度多，管控效果难以评估的难题，从定制管控模型和基于信用等级实施分级管控两个方向，提高行为管控效果。

2.2.1.1 定制行为管控模型，适应领域需求

行为管控依据所在领域，定制管控模型，以达到最佳管控效果。

以融合通信为例，行为管控模型中通常包括如下维度：消息ID、消息类型（文本、图片、音频、视频）、发送时间、指纹摘要值、发送频次、接收频次，信用等级等。其中，频次统计主要通过对用户在特定时间片内发布信息的数量，或者被拦截的数量评估用户行为的合法性。

在用户行为管控的基础上，引入热点分析和人工审核，进一步加强行为管控。

热点送审功能用于快速分析出一定时间范围内大量发送相同内容的信息，并通过人工审核的方式判定出该信息是否合法，通过人工审核的结果更新指纹库，达到快速过滤大量相同内容信息的目的。

2.2.1.2 建立信用等级，实现分层管控

根据用户信用等级，进行不同颗粒度的管控，能够降低管控成本的同时，进一步提高管控效率。基于信用等级的安全管控算法利用大数据分析技术，在用户行为分析、交互圈和历史记录3个维度上对用户的安全分值进行建模，同时结合集团分值和经分分值，构建多维的用户信用分值计算模型，精确计算用户的信用分值，进而由用户信用等级分层模型，确定该用户的信用等级，实施不同颗粒度的管控。同时，用户的信用分值会根据该用户行为数据进行动态调整，随着用户行为数据的增多，基于信用等级的安全管控会越来越稳定，越来越精确。

2.2.2 富媒体过滤模块

富媒体内容管控包括各种策略，如内容指纹识别、以及综合涉政、涉黄、OCR的富媒体信息识别流程。内容指纹识别功能用于快速判定信息的合法性，提取信息的指纹，根据黑白指纹库进行快速检测匹配，实现精确判定。超限富媒体过滤是针对超大的图片信息进行的过滤，当超限富媒体信息出现时，富媒体保存至存储设备中，同时过滤模块通知业务管控系统进行下发操作，监控子系统进行非实时模糊过滤。过滤流程如图3所示。

2.2.3 人工审核模块

图3 图片过滤模块流程图

对机器自动识别的补充，对疑似数据进行审核，同时起到标记数据的作用，利用标记的数据对人工智能模型进行优化，进一步提升机器学习的识别率和降低误判率。对可疑用户行为和信息进行人工审核，根据审核结果，进行相应处置，包括加黑用户、拦截消息、消息入库、调整用户信用等级等操作，实现自动过滤和人工过滤相结合的管控机制。

2.3 基于人工智能的富媒体检测方案

针对暴恐涉政图片、视频没有统一标准，难以定义，色情图片、视频有相对统一的标准，但识别准确率要求高，OCR场景复杂，业界识别率普遍偏低，等难题，引入有效的人工智能技术。

2.3.1 涉黄图片过滤

利用深度学习技术，基于深度卷积神经网络模型，对业务平台的图片富媒体文件是否涉黄进行自动分类识别，大大减少了人工审核的成本。深度卷积神经网络是图像识别领域最优秀的算法之一，其试图模仿大脑的神经元之间传递处理信息的模式，利用深度卷积神经网络模型可以自动提取图像特征，并通过添加分类层对图像进行分类，相比于传统的利用人工经验设计的特征提取算子，利用深度卷积神经网络提取的图像特征更丰富，更有效，在用于分类识别等任务时能获得更高的准确度。基本的深度卷积网络模型，随着网络层数的增加，模型参数急剧增多，所需的样本量和模型的训练难度也随着增大，而浅层的模型在识别性能上又不足以满足项目的需求，鉴于以上难点，我们对基本的深度卷积网络模型进行了改造，引入Inception模块，在不引入过多模型参数的同时，增大模型的深度和宽度，进而提高模型的准确度，如图4所示。

2.3.2 OCR图片文字识别与过滤

首先对图片中的文字进行识别，然后对识别结果进行关键词过滤。由于业务平台中的图片各种各样，有文字或没有文字；而包含文字的图片中，文字的大小、字体、样式、位置等又各不相同，这些因素导致对任意场景图片中的文字识别有很大挑战。对任意场景图片的文字识别算法，首先需要检测出图片中的文本区域，将文本区域分割成单行文本图像，然后对单行文本图像进行文字识别，得到图片中包含的文字结果。对于任意场景图片中的文本区域检测，我们通过训练全卷积网络模型，获得文字位置的概率图，然后处理得到文字区域，之后将文字区域分割为单行文本图像。对单行文本图像的文字识别，采用拥有长短时记忆（LSTM）结构的递归神经网络（RNN）模型，相比于传统的将文字识别作为单纯的分类问题来解决的方法，LSTM+RNN模型能充分利用文字序列之间的相关性，大大提高文字识别的精度；除此之外，利用LSTM的文字识别算法直接以单行文本图像作为算法输入，无需其它的数据预处理操作和利用语言模型矫正的后处理操作，真正实现了端到端的文字识别，在算法应用上既简单又有效。RNN(递归神经网络)的基础网络结构如图5所示。

图4 基于Inception技术的深度神经网络模型

图5 RNN(递归神经网络)的基础网络结构

2.3.3 涉政图片过滤

基于图像特征的模糊匹配技术，实现涉政图片的实时过滤。由于光照不均匀，物体旋转、扭曲，视角改变、噪声等因素对图像外观有很大影响，而SIFT这一图像局部特征对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性，因此涉政图片过滤算法以SIFT特征为主要的特征表达，构建样例索引库，进行已知图像的匹配过滤。图像的匹配算法采用K-D树这一高级数据结构，经优化后，基于图像特征匹配技术的涉政图片过滤算法能达到实时过滤的效果，如图6所示。

图6 基于SIFT特征提取的图像检索

2.3.4 涉黄视频过滤

对业务平台的视频富媒体文件进行过滤，判断视频是否涉黄，从而进行相应的处理。涉黄视频过滤算法采用基于深度神经网络的视频模糊识别技术，充分利用视频帧序列的静态特征及时间域上的帧间关系，融合了卷积神经网络和递归神经网络的特点，分别从时间和空间两个维度对视频帧序列进行建模，实现对涉黄视频的识别。我们的涉黄视频过滤算法既利用了卷积神经网络模型在图像特征提取上的优势，又结合了递归神经网络模型处理时间序列数据上的优势，在过滤涉黄视频这一应用上，达到很好的效果。

3 难点模块分析

3.1 OCR图片文字识别模块

图像中的文字往往存在光照不均、图像模糊、透视、低分辨率等不利因素，加之自然场景图像中大量存在的艺术字体等非常规字体和复杂背景，使得对图像中的文字进行识别有很大难度。

一般将图像文字识别当作图像多分类任务来进行，相比英文（大小写共52类）和数字（0～9共10类）的识别，中文（一级常用汉字有3 755个）识别由于类别远远大于英文，对于分类任务本身来说，难度也很大。现在常用的CNN、LSTM等深度学习算法，由于分类类别较大，所需的带标记的训练数据也相应的增多，且较难训练收敛，得到最优的模型。

平台实现过程中，综合SIFT特征提取、LSTM+ RNN模型，减轻光照、模糊、低分别率等不利因素的影响，充分利用文字序列之间的相关性，大大提高分类准确度，加快训练收敛，提高文字识别的精度。

3.2 高并发框架

针对及时通信、网络直播等应用场合，对系统的高并发计算能力和实时性要求高的特点。管控平台需要支撑很高的并行计算能力。通过以下策略构建高并发框架：

（1）将过滤流程分为主流程和辅流程。主流程是实时的、同步的。辅流程是非实时的、异步的。对于异步操作，设置超时时间，以防流程阻塞。

（2）框架支持节点横向扩展，节点之间借助NGINX等中间件，实现负载均衡。

（3）同步主流程内，为实现并行计算最大化，使用基于事件的异步监听机制（Libevent）。更进一步，可以选择协程（GO），以降低开发心智负担。

4 智能管控系统应用情况

中移和盾智能管控系统被设计为不限平台接入、不限内容类型接入的开放性的管控平台。只要是网络上传播的内容，都可以接入管控平台，进行过滤识别。

当前，智能管控系统已为和飞信、移动应用商城、移动上传平台、和教育、和多号等产品提供安全管控。对上述平台中的涉黄、涉政、虚假广告、诈骗信息进行24 h监控。其中，和教育自2016年12月商用以来，已经过滤了5 000万条消息，总服务用户数达30万用户，自动拦截违规消息120万条，疑似送人工审核消息4万条。节省人力成本1 000万元。

5 总结与展望

近几年互联网的深入发展和各个行业信息化建设的快速推进，使人们对网络服务器的处理能力、网络信息资源的丰富程度提出了更高的要求。互联网给人们带来了更便利、更快速、更多元化的信息交互形式的同时，也带来信息交互过程中的安全隐患问题，如何设计通用、合理、高效的富媒体信息管控方案成为了信息化过程中最为重要的一环。中移（杭州）信息技术有限公司结合实际项目中遇到的问题和对竞品的对比分析，利用人工智能技术，摸索出一套高检测率、大吞吐量、大数据分析的富媒体信息管控方案，并针对应用场景提供定制化功能。

随着互联网业务的飞速发展，新的业务、内容类型层出不穷，如何做好新业务的管控、识别新的风险、打造一个可持续升级进化的智能管控系统，对所有的安全管控服务厂商，都是一个极具挑战的任务。

[1] 李维东. 基于Linux平台的局域网与监控系统的分析与实现[D].武汉：华中科技大学. 2011.

[2] Y. Bengio, P. Y. Simard, P. Frasconi. Learning longterm dependencies with gradient descent is difficult[D/OL]. http://www.wileyactual. com/ieeepress/. IEEE Press, 1994,5(2):157-166.

Artificial intelligence based rich media information monitor schemes

LI Rong
(China Mobile (Hangzhou) Information Technology Co., Ltd./ China Mobile Hangzhou R & D Center, Hangzhou 310000, China)

In the internet era, as people communicating and data exchanging frequently, the spread of malicious information is becoming more and more serious. Therefore, it is particularly important to identify and filter spam (text, image, video) on the internet. In recent years, the appearance of deep learning has greatly pushed forward the frontier of computer vision research, and computer vision tasks like image classification and recognition have greatly benefited from it. Compared with traditional methods, the features automatically extracted by deep model have better representing power. In this paper, we propose a rich media information detection method based on the deep learning. As a result, it achieves the purpose of filtering internet content.

high concurrency; conrich media information; deep learning; convolutional neural network

TP311

1008-5599（2017）08-0001-06

2017-07-04