数据智能在内容安全治理中的应用*

2022-09-24郭先会

通信技术 2022年8期

沈宜，郭先会，石珺

（1.深圳市网联安瑞网络科技有限公司，广东深圳 518042；2.成都融微软件服务有限公司，四川成都 610095）

0 引言

随着科学技术的不断发展以及人民生产生活水平的不断提高，社会中累积的数据量在以惊人的速度不断增长。在很多应用场景中，快速增长的数据量使得利用传统的统计工具和手段已无法有效地对数据进行处理和分析，而以数据挖掘、深度学习、云计算等技术为代表的超算技术正逐步发展为数据分析领域的核心技术。大数据分析与应用已经与人工智能技术有了深度的融合，并成为推动其发展的核心因素，数据智能的概念也应运而生。从管理的视角出发，可将数据智能定义为：通过大规模数据挖掘、机器学习和深度学习等预测性分析技术，对现实应用场景的内外部多源异构大数据进行处理和分析，从中提取有价值的信息或知识，并用于提升复杂实践活动中的管理与决策水平。

互联网上与日俱增的内容不仅代表着更多的流量，也预示着巨大的内容风险藏身其中。随着互联网产业的快速发展，新的技术和应用不断涌现，以图像、音频、长短视频为载体的新媒体在网络空间中的应用越来越广泛，并同时催生了网络直播、微博、微信公众号以及各种自媒体等新的业务形态，这些新事物在给人们工作生活带来便利、消弭信息鸿沟的同时，也滋生了一些不良信息。部分网站、内容服务商片面追求经济利益，对内容把关不严，不良内容信息（暴恐、低俗等）被传播的问题持续存在。此外，某些居心叵测的人员利用微信、微博等社交媒体不断进行意识形态的渗透，组织恐怖极端主义和分裂主义的宣扬活动，特别是随着“深度伪造”等新技术的运用，这些风险被进一步集聚、放大，极易引发社会政治稳定层面的问题，进一步增加网络空间中内容安全治理的难度。其中，内容安全是指对信息内容的保护，以及使信息内容符合政治、法律、道德层次的要求[1]。

虽然数据智能已经被广泛应用于多个领域，但与内容安全治理相结合的应用场景尚不多见。就目前情况来看，传统的内容安全治理手段面临着如监测手段落后、监测对象多、监测范围广、网络环境复杂等现实问题。另外，针对网络空间中传播的各种多源异构数据，需要着重判断是否有历史不良信息内容被再次传播，是否出现了需要重点监管的各种主题、特定内容，是否存在伪造图像、虚假新闻等内容欺骗。面对这种形势，部分监管部门以人工研判为主要应对手段，该方式工作量大、效率比较低，识别的准确度和及时性也往往难以保证。此外，基于哈希的常规视图像识别技术也无法满足识别未知场景、形变图像等新的治理需求。

面对这种局面，数据智能技术为内容安全治理带来了新的机遇，自然语言处理、基于深度学习的视图像分析、多模态数据融合、知识图谱、跨媒体分析与推理等技术的发展，能够有效提高内容鉴别、保护及违规审查等能力，将内容安全治理向自动化、智能化、高效化、精准化方向推进。

1 基于数据智能的内容安全技术及应用

基于数据智能的内容安全技术通过对自然语言处理、视图像内容识别以及跨媒体智能感知等技术的研究，对现有数据形态（包括文字、图片、视频等）进行处理和分析，提取出数据中包含的有价值的信息，提升对海量数据的内容安全治理能力。基于数据智能的内容安全技术主要包括基于自然语言处理的虚假信息检测技术、基于深度学习的视图像内容智能分析技术和跨媒体智能感知技术。

1.1 基于自然语言处理的虚假信息检测技术

虚假信息是指经过有意地、无意地扭曲过的消息，或凭空捏造的消息。在虚假信息活动中，信息本身和该信息来源可能是虚假的、不完整的或误导性的。随着社交媒体的蓬勃发展，虚假信息的传播量呈爆炸式增长，企业可能会利用虚假信息来诋毁竞争对手，政党可以以独立组织或组织领导人为目标制造虚假信息，各国之间可以利用虚假信息来削弱和打击对手。虚假信息已被视为对民主、正义、公众信任以及公共安全的重大威胁之一。与传统媒体相比，社交媒体具备的海量的数据量、极高的访问便利性和高速的传播速度等特性，给虚假信息的监管带来了极大的挑战。

如图1 所示，基于自然语言处理的虚假信息检测技术包括面向中文的语言、语义特征挖掘与处理技术，基于内容的虚假信息检测技术和基于多种混合特征的虚假信息检测技术。同时，通过构建中文虚假信息数据集，提高标注人员的知识储备和个人判断能力。

图1 基于自然语言处理的虚假信息检测技术组成

1.1.1 面向中文的语言、语义等特征的挖掘与处理技术

通过对语言与语义特征挖掘分析、更高层次特征挖掘以及中文自然语言处理，实现对中文语言、语义等特征的挖掘与处理。

（1）语言与语义特征挖掘

虚假信息包括信息的创作者、正文（标题）、举例、引用数据等实体内容以及情感、动机、主题等非实体内容，基于语言、语义的特征以及基于风格的特征是虚假信息检测的最常用属性。通过分析可以发现，虚假信息的文本长度、专业词汇、标题表达形式等均与真实信息存在不同程度的差异，并且真实信息通过讨论来说服，虚假信息往往通过引导来说服。

中文作为一种表意文字，具有高度的概括性和简洁性，表达效率高，与英语等表音文字具有显著的差异。比如，在语言学上，二者存在显著的语法特征差异、句式差异、句子长短等差异。此外，中文中还存在大量的成语、俗语以及古语等。因此，需要针对中文的语言和语义特征进行针对性的研究和建模，进而建立特殊的判断机制。

（2）更高层次特征挖掘

虚假信息与真实信息在写作风格、写作质量和表达的情感等方面存在潜在差异。虚假信息中往往具备特定的写作风格，以吸引或误导用户，如虚假信息的标题和内容往往带有蛊惑性或煽动性的语言，从而吸引不同受众阅读和转发。针对文本内容中主张、意图、动机、情感等更高层次的语义特征挖掘和建模是研究的主要方向。通过对高层次特征进行提取，可为虚假信息的识别提供更有力的支撑。

（3）中文自然语言处理

在自然语言处理方面，由于中英文存在显著的差异，在自然语言处理（Natural Language Processing，NLP）算法设计中，需要特别注意中英文的词性标注方法差异、字体特征差异、词汇粒度处理方法差异、句法结构分析方法差异以及歧义问题与子串转义处理差异等。

1.1.2 基于内容的虚假信息检测技术

语言和语义等特征是文本信息中最基础的特征，也是基于内容的虚假信息检测的基础。在语言与语义特征挖掘时，可利用释义、语法检查和词嵌入工具来提取虚假信息文本中的特征，从而在词汇层次、句法层次、语义层次和篇章层次上对文本内容进行全面的研究和表征。此外，还可以通过文本风格评估虚假信息的意图，即是否有误导公众的意图。恶意用户更喜欢用“特殊”风格撰写虚假信息，以鼓励他人阅读并说服他们信任。基于心理学的方法有助于挖掘用户意图、主张、情感等更高层次的特征，进而推动虚假信息的识别。

另外，还可以将注意力机制引入检测机制中，注意力机制可归结为给予需要重点关注的目标区域（注意力焦点）更重要的注意力。注意力机制在自然语言处理中可以看成一种自动加权机制，它可以把两个想要联系起来的不同模块，通过加权的形式进行联系。通过设计一个函数将目标模块和源模块关联，然后通过归一化函数得到概率分布。它有一个很大的优点就是可以可视化Attention 矩阵，来告诉研究人员神经网络在进行任务时关注了哪些部分。基于这些信息可以结合数据模型，对是否存在虚假信息的概率进行进一步判断。注意力机制的主要计算公式如下：

式中：at为每个时间步对应的权重向量；mt为当前decoder 第t个时间步的隐藏状态；ms为encoder 第s个时间步的隐藏状态；Wa为权重矩阵；f(mt,ms)为一个基于内容的函数，可以通过4 种方式实现，其中dot 表示点乘/点积，contact 表示把两个变量连接起来，general 表示中间加权参数。

式（1）表示全注意模式在计算解码（decoder）的每个时间步的上下文向量时，均考虑编码（encoder）所有隐藏状态。式（2）用于计算权重。

1.1.3 基于多种混合特征的虚假信息检测技术

由于虚假信息的复杂性和模糊性，多种方法的结合运用势在必行。可以通过将虚假信息的文本信息、创作者与相关用户的账户信息及其可信度、社会背景信息、传播网络中的两种或多种特征通过特定的网络进行融合，有效提高虚假信息检测的可信度。

1.1.4 构建中文虚假信息数据集

当前，基于虚假信息检测的中文数据集极度缺乏，这无疑是一个巨大的挑战。而数据智能系统的构建往往依赖于大量的标注数据，因此建立一个有效的虚假信息数据集势在必行。在数据集的建立过程中需要特别注意以下几个方面的问题：首先，应根据应用场景对虚假信息进行准确定义，避免因个体的不同对虚假信息的理解存在差异；其次，根据虚假信息的定义设定判断基线，提高标注人员的知识储备和个人判断能力；最后，需要加强多学科、跨学科知识的积累，尽可能避免信息的准确性受到时代背景、前后文关联信息等因素的影响。

1.2 基于深度学习的视图像内容智能分析技术

随着网络空间业务形式和内容越来越多元化，海量的多样化数据也在不断产生，对网络空间中非结构化数据及相互关系的分析和治理已成为必然，这与传统结构化数据处理相比，在方法和技术方面都存在巨大挑战。基于深度学习的视图像内容智能分析技术主要包括图像近似拷贝检测技术、视图像分类技术、目标检测识别技术和光学字符识别（Optical Character Recognition，OCR）技术等内容。

图2 基于深度学习的视图像内容智能分析技术组成

1.2.1 图像近似拷贝检测技术

图像近似拷贝检测技术通过从图像中提取视觉唯一特征（图像指纹），形成基于图像内容的高效图像检索技术。由于混合局部特征和全局特征描述，图像近似拷贝检测技术具有识别准确率高、识别速度快、抗干扰能力强的特点。图像近似拷贝检测技术可以很好地检测出翻拍、裁剪、旋转、灰度化等多种人为的特殊处理，如图3 所示。

图3 图像翻拍/图像裁剪/图像旋转/灰度化等形变示例

图像近似拷贝检测流程分为多步，总的来说可以划分为提取特征、构建索引和相似性度量3 个模块，具体的流程如图4 所示[2]。

图4 近似拷贝图像检测流程

视频近似拷贝检测技术基于尺度不变特征变换（Scale-Invariant Feature Transform，SIFT）特征计算与分布式系统视频特征索引相结合的方式实现。该技术首先利用图形处理器（Graphics Processing Unit，GPU）上的硬解码组件对视频流进行并行解码处理；其次采用关键帧提取的方法依次从解码后的视频序列中取出各个关键帧信息，并逐个提取关键帧的SIFT 高维特征点，即视觉唯一特征；最后对这些特征点进行索引处理，通过视频高维特征集的索引与分布式检索系统相结合的方式，可实现大规模视觉特征集的快速搜索。

1.2.2 视图像分类技术

目前较为流行的图像分类架构是卷积神经网络（Convolutional Neural Networks，CNN），它将图像送入网络，然后对图像数据进行分类。卷积神经网络从输入窗口开始，该输入窗口不会一次性解析所有的训练数据。比如输入一个大小为100×100 的图像，也不需要一个有10 000 个节点的网络层，只需要创建一个大小为10×10 的扫描输入层，扫描图像的前10×10 个像素，然后向右移动一个像素，再扫描下一个10×10 的像素，这就是滑动窗口，如图5 所示[3]。

图5 卷积神经网络

输入数据被送入卷积层，而不是普通层。每个节点只需要处理离自己最近的邻近节点，卷积层也随着扫描的深入而趋于收缩。为了进一步提取高维特征并降低计算量，还需要对特征进行池化，假如得到一个局部特征，它是一个图像的一个局部放大图，分辨率很大，那么就可以将一些像素点周围的像素点（特征值）近似看待，然后统计平面内某一位置及其相邻位置的特征值，并将汇总后的结果作为这一位置在该平面的值。

此外，还可以运用多模态特征的视频分类方法进行视频内容的分类。该视频分类方法采用3D 卷积提取图像和短视频特征，并放入长短记忆网络LSTM 进行序列识别，实现对图像的识别，达到图像分类的目的。

1.2.3 目标检测识别技术

目前，基于深度学习的目标检测与识别算法大致分为以下三大类：

（1）基于区域建议的目标检测与识别算法，如R-CNN、Fast-R-CNN、Faster-R-CNN；

（2）基于回归的目标检测与识别算法，如YOLO、SSD；

（3）基于搜索的目标检测与识别算法，如基于视觉注意的AttentionNet、基于强化学习的算法。

考虑到网络空间治理对象的特殊性，本文选择的算法为基于区域建议的目标检测与识别算法，即R-CNN、Fast-R-CNN 和Faster-R-CNN。

R-CNN 的基本工作流程如图6 所示，具体描述如下[4]：

图6 R-CNN 算法原理

（1）接收一个图像，使用Selective Search 选择大约2 000 个从上到下的类无关的候选区域（proposal）；

（2）将提取出来的候选区域转换为统一大小的图片（拉升/压缩等方法），使用CNN 模型提取每一个候选区域的固定长度的特征；

（3）使用特定类别的线性支持向量机（Support Vector Machine，SVM）分类器对每一个候选区域进行分类；

（4）Bounding Box 回归。

快速卷积网络目标（Region-Convolutional Neural Networks，Fast R-CNN）的主要作用是实现了对R-CNN 的加速，它在R-CNN 的基础上主要有以下几个方面的改进：

（1）借鉴了空间金字塔池化网络（Spatial Pyramid Pooling Network，SPP Net）的思路，提出了简化版的感兴趣区域（Region Of Interest，ROI）池化层（没有使用金字塔），同时加入了候选框映射的功能，使得网络能够进行反向传播，解决了SPP的整体网络训练的问题。

（2）多任务Loss 层。首先使用了Softmax 代替SVM 进行多分类，其次采用SmoothL1Loss 取代了Bounding Box 回归。

Faster R-CNN 和Faste R-CNN 的不同点主要是使用区域候选网络（Region Proposal Network，RPN）进行region proposal 的选择，并且将RPN 合并到CNN 中，从而实现了端到端的目标检测。

1.2.4 OCR 识别技术

在传统技术中，OCR 技术主要采用模板匹配的方式来进行分类，通过识别每个单字符的字形笔画进而实现全文的识别，但通过这一方法可能会导致上下文信息的丢失。所以，通过使用深度学习的方法来对各种文字的常用字符进行建模，并引入上下文的信息进行综合判断，可以有效地提升识别的整体准确率。从数据智能技术来看，要引入上下文这样的序列信息，RNN 和长短记忆网络（Long Short-Term Memory，LSTM）等依赖于时序关系的神经网络是最理想的选择。CNN+Softmax/CNN+RNN+CTC/CNN+RNN+注意力机制的结构如图7 所示[5]。

图7 CNN+Softmax/CNN+RNN+CTC/CNN+RNN+注意力机制

1.3 跨媒体智能感知技术

网络空间中所蕴含的话题、事件和模式往往以文本、图像、视频和空间位置等不同模态的媒体数据从不同侧面进行整体性表现。有着相同语义、主题和事件的跨媒体数据在不同网络平台上瞬时涌现，进而迅速演化和二次传播，往往会很快引发热点话题或者内容安全事件。发现多模态数据之间的关联关系，以及数据与现实生活个体和群体行为之间的相互影响规律，揭示以特定事件为内容的跨媒体数据传播与演化机制，对跨媒体数据所蕴含话题、事件和模式进行语义理解，建立跨媒体推理模型，挖掘话题、事件和模式之间的隐性关联，是内容安全治理工作中非常关键的问题。

1.3.1 跨媒体数据知识表征

深度神经网络在大数据分析中不断取得突破性成功，这给跨媒体统一关联表征带来了新的思路。针对不同的跨媒体数据表现形式，可以通过构建基于规则的知识图谱，使用统一的结构化数据进行表征学习，然后基于深度神经网络提取出高度抽象的特征，并基于此抽象特征进行跨媒体智能感知与分析任务。

1.3.2 跨媒体融合纠错的媒体要素标记

基于深度神经网络，利用卷积层级网络结构和回复式网络结构，可以充分学习媒体内部和媒体之间的多级关联关系。同时利用多任务学习框架自适应平衡媒体内语义类别约束以及媒体间成对相似性约束学习过程，进而对跨媒体的媒体要素标记进行融合纠错，例如，可以用这种方法将图片对应的错误文本描述纠正为正确文本。

1.3.3 跨媒体智能描述与检索

自生成对抗网络提出以来，便成为学术界的研究热点。其最基本的思想就是从训练集里获取很多的训练样本，从而学习这些训练案例生成的概率分布。利用生成对抗网络进行跨媒体智能描述与生成，给定一种媒体类型的数据，生成另一种媒体类型的数据，如给定图像，生成其文本描述，以及给定文本，生成其描绘的图像。同时，基于跨媒体数据知识表征技术得到高度抽象的跨媒体表达，利用典型相关性分析方法将多个媒体的特征进行关联，使其相关性最大，同时为了增强多媒体表达的语义一致性，可以将语义一致性引入多媒体的相关性学习中，从而成功进行跨媒体检索任务。

1.3.4 跨媒体知识挖掘与推理

跨媒体知识挖掘与推理的目的是提供可计算的知识表达结构。基于知识图谱的跨媒体知识挖掘与推理能解决跨模态认知的难题，实现在跨模态环境中进行语义关系分析以及认知层级的推理。通过采用知识图谱进行跨媒体知识挖掘与推理，并采用跨媒体智能描述技术得到语义一致的文本，进而建立描述真实世界的跨模态知识图谱，同时提供基于知识图谱的跨模态应用接口，从而实现跨模态推理，高效解决跨模态认知问题。

2 基于数据智能技术的网络空间内容安全治理解决方案

通过对自然语言处理、特征提取、深度学习以及跨媒体感知等系列数据智能技术进行深入研究，并以此为核心，紧密围绕网络安全与信息化，聚焦内容安全，本文提出了一种“数据+内容安全”的思路，将基于数据智能的内容安全技术应用在网络空间治理中，融合多种智能识别算法，形成覆盖文字、视频和图像的多模态内容监测综合解决方案。系统架构如图8 所示。

图8 多模态内容监测平台

（1）基础设施层：提供硬件支撑。包含GPU服务器、中央处理器（Central Processing Unit，CPU）服务器、网络设备、存储设备等。

（2）数据处理层：提供数据支撑，主要负责从互联网等网络平台抓取新媒体数据，完成对新媒体内容的采集，以及数据去重、文本提取、视频转码、视频抽帧等系列数据处理工作。

（3）数据存储：采用分布式存储架构设计，主要包括分布式数据库管理系统（Database Management System，DBMS）存储方式和文件存储方式，除了负责存储采集到的信息，还存储识别规则库等信息。

（4）内容分析层：提供内容分析支撑，包括内容识别引擎、有害信息识别规则库和跨媒体智能感知。内容识别引擎根据内容识别规则库，结合视频指纹识别、视图智能分析、关键字匹配等技术，对采集到的新媒体内容进行多维度识别匹配及智能分析，实现对网络空间中不良信息内容的自动识别分析；跨媒体智能感知基于规则的知识图谱和跨媒体知识挖掘与推理，实现文本、图像的感知。

（5）应用服务层：提供各类监管应用的业务逻辑，实现对网站、微信公众号、微博、小视频APP、直播等各类应用平台的内容监测。

（6）人机交互层：以web 网页形式将各类功能进行展示。用户通过web 浏览器对系统进行登录和访问，并能够实时查看监测的不良信息。

（7）运维管理：提供系统平台配置，包括参数配置、权限管理、系统监控和数据备份等。

3 结语

本文对数据智能技术的发展情况及网络空间内容安全治理面临的问题进行分析，结合工作经验和项目实践，阐述了如何利用自然语言处理、特征提取、深度学习以及跨媒体感知等系列数据智能技术进行虚假信息检测、视频和图像内容分析以及多模态内容的感知，从而为复杂形势下的网络空间内容安全治理提供了有力支撑。该解决方案形成的识别引擎、分析工具、系统和平台系列化产品已为多个行业提供了以数据智能为核心的技术手段，助力网络空间内容安全治理。