迁移学习在Web图像内容审核中的应用研究*

2021-06-03冯玉婷腾先锋郭玉堂

重庆工商大学学报（自然科学版） 2021年3期

冯玉婷，腾先锋，郭玉堂

(1.合肥师范学院计算机学院，合肥 230601； 2.中国科学与技术大学计算机科学与技术学院，合肥 230026 )

0 引言

Not Safe For Work (NSFW)[1]主要用于电子邮件主题栏、在线讨论区、在线视频、网络直播和其他社交网络媒体，为了警告潜在的观众，内容不适合在工作环境、教育、青少年或儿童附近进行浏览，通常是因为包含色情、暴力、恐怖或其他有违道德和行为标准规定的内容。随着智能设备的普及，互联网、社交和多媒体软件技术的快速发展，图像可访问和自制性得到了极大的提高，带来的色情、暴力等不良图像内容监管和智能审核需求快速增加，鉴于上传的图像和视频的数量急剧增加，可以想象人工审核过滤工作的艰巨和繁琐。过滤和限制访问带有不良内容图片是研究人员数十年来一直试图解决的具有挑战性的应用问题。

近些年涌现了大量的识别图像暴力内容的方法。基于形状、颜色、梯度、光流等特征信息提取，再结合分类器的传统机器学习方法，灵感来自于传统机器学习方法在其他领域图像分类问题中的成功应用。代表性方法如NIEVAS等[2]提出结合多类别特征信息提取和SVM[3]分类器对暴力行为进行分类。HASSNER等[4]结合光流向量和分类器对暴力行为进行检测识别。方法主要依据人工设计特征提取，再结合SVM分类器进行图像分类。SVM方法建立在统计学习理论的基础上，可帮助预测、分析、调整和识别图像中的显式内容。但是方法的预测准确性较低，存在对训练样本和测试样本严格要求同分布的局限性和对数据样本的依赖。

随着深度学习技术[5]的快速发展，并在文本、音频、图像或视频信息等应用领域取得的巨大成功。结合了特征自动提取和分类的深度学习技术，大大地提高了特征提取和图像分类的效率。多年来，已经有大量企业提供基于深度学习技术的自动识别NSFW内容的解决方案，如雅虎的OpenNSFW[6]、360的“云鉴”智能审核、百度的AI开放图像审核平台、阿里云、腾讯、图谱科技等[1，7-9]，主要针对包含色情内容、暴恐活动内容、政治敏感内容和水印广告的图像内容审核服务。模型结构大都基于ResNet(Residual Neural Network )[8]网络模型，使用企业自建NSFW图像数据集。这些技术的缺点是需要大量的训练样本数据和基础深度神经网络模型架构，因为商业机构其样本图像数据集不公开，大大阻碍了相关研究工作的开展。现如今，使用开源的海量样本训练数据集(ImageNet[5]) 的预训练模型已经公开发布。使得通过源域和目标域之间相似性的寻找进行知识迁移变得可能，解决了深度学习在标注数据、计算能力缺乏和特定领域应用的局限性。

受OpenNSFW等项目启发，通过自建暴力图像数据集，选取了ResNet(Residual Neural Network )[8]和VGG(Oxford Visual Geometry Group)[10]预训练模型进行迁移学习，深入研究了模型迁移学习方法在Web图像内容审核领域中的应用。通过将在ImageNet数据集中训练得到的有效信息迁移到图像暴力内容审核领域中，有效地提高了训练的效率，大量的对比实验表现出良好的训练结果。尽管针对不良图像内容的研究由来已久，是图像分类和识别领域的一个热门领域。但由于绝大多数都是商业机构的解决方案，缺乏公开的方法和数据集，阻碍了研究工作的进展。现关注于通过研究共享视觉特征和模型知识迁移来解决Not Safe For Work (NSFW)的暴力内容审核问题。主要贡献可以概括如下：

收集并创建用于图像暴力内容审核的图像数据集，包含暴力和非暴力两大类样本。其中暴力样本包括示威抗议活动场景、公共交通、大型体育活动、教育等多类场景的暴力行为举止；非暴力样本包括喝水、跑步、接打电话、拥抱、鼓掌、吃饭、骑车等正常人类行为。

基于ResNet(Residual Neural Network )和VGG(Oxford Visual Geometry Group)预训练网络，通过冻结权重参数和参数微调训练优化了多个网络模型，可以自动对图像的内容进行分类，尤其是感知到的暴力图像内容，所有这些都是从共享的视觉特征表示中共同推断出来的。

1 相关工作

1.1 Resnet结构

Resnet(Residual Neural Network)结构是2015年何凯明[4]等提出的，通过引入残差模块，很大程度的解决了因为网络深度增加不收敛的问题，其再Top-5的上的错误率为3.57%，参数量比VGG网络结构模型低，大量的后续改进模型都已此模型结构为基础。图1所示为残差学习模块。

图1 残差学习模块Fig. 1 Residual learning：a building block

每一个残差构造模块定义为

y=F(x，{Wi})+x

(1)

式(1)中x和y分别代表残差块的输入和输出向量，函数F(x，{Wi})表示要学习的残差映射，x和函数F(x，{Wi})的维度需要保持相同。如果维度不相同，可以通过增加一个线性投影Ws来匹配维度，表示为

y=F(x，{Wi})+Wsx

(2)

图2是Resnet50网络结构图，50层仅仅指卷积或者全连接层权重参数层数目，而激活层或者池化层并没有计算在内，首先有个输入7×7×64的卷积层，然后经过3个64通道的残差模块(输出128通道共6层)、4个128通道的残差模块(输出256通道共8层)、6个256通道的残差模块(输出512通道共12层)和3个512通道的残差模块(输出512通道共6层)，最后1个全连接层，共计50层权重层。

ResNet50Conv17×7,64Conv2_x3×3 max pool1×1,643×3,641×1,256x3Conv3_x1×1,1283×3,1281×1,512X4Conv4_x1×1,2563×3,2561×1,1 024X6Conv5_x1×1,5123×3,5121×1,2 048X3avergage pool,1000-d fc,softmax

1.2 VGG网络结构

VGG模型是2014年Oxford Visual Geometry Group提出的网络结果模型，其主要贡献是使用一个非常小的(3×3)卷积滤波器的架构对增加深度的网络进行了彻底深入的评估，结果表明：通过将网络深度提升到16～19个权重层，可以显著改善先前的配置。VGG19的表现最为优异，但是参数也较之VGG16更多，收敛速度上有所差异。文献[11]中，VGG模型共计6种不同配置结构，区别与权重层数的不同，图3所示为VGG不同配置网络模型结构图，为了简化未列出Relu激活函数。

图3 不同配置VGG模型结构Fig. 3 VGG model structure with different configurations

1.3 迁移学习概述[12-14]

深度学习受到研究人员越来越多的关注，并已成功地应用于众多现实应用领域当中。深度学习技术可以从海量的标注数据中学习到高阶特征数据，而不仅仅是边缘等低阶特征数据，这使深度学习技术超越了传统的机器学习技术。较之于传统的机器学习方法，深度学习技术可以通过监督特征学习算法以及分层特征提取来自动提取数据特征，但这需要海量的数据样本，且需要。数据依赖已然成为深度学习中最严重的问题之一。在某些特殊领域，由于数据获取和注释的成本高昂，因此很难构建大规模带标注的样本数据集，大大限制了深度学习技术在该领域的发展。

迁移学习降低了传统机器学习中训练数据和测试数据必须独立同分布的假设，且不需要从头开始应用领域中的模型，显著地减少了对训练样本数据和训练时间的需求，迁移学习的学习流程如图4所示。

图4 迁移学习的学习流程Fig. 4 Learning process of transfer learning

迁移学习旨在通过迁移包含在不同但相关的源域中的知识来提高目标域中目标学习者的表现。当目标任务缺少标记数据时，迁移学习被广泛地用于深度学习中，最常见的深度迁移学习策略是基于网络模型的深度迁移学习，即对源域中经过预训练的局部网络(包括其网络结构和连接参数)进行重用，将其转变为目标域中使用的深度神经网络的一部分。按照迁移学习的方法可以将其分为：基于样本实例的迁移学习；基于特征的迁移学习；基于模型的迁移学习；基于领域关系的迁移学习。

选取基于模型的迁移学习方法，通过构建权重参数共享的模型，方法是目前应用最广的方法之一，得益于预训练模型网络结构和权重参数的直接迁移。

2 Web图像暴力内容审核

深度神经网络模型的学习能力与大量的计算资源和海量数据集是分不开的，其在特定领域的小样本数据集上的表现充分说明了数据样本的重要性。迁移学习通过共享基础视觉特征和权重参数，加快了在特定领域小样本数据集上的训练速度，很好地解决了小样本深度学习问题。将从暴力图像数据集构建和模型迁移训练流程对提出的方法进行详细描述，深入探讨了迁移学习在Web图像内容审核中应用研究问题。

2.1 暴力图像数据集构建

目前用于解决Web图像内容审核的NSFW图像数据集绝大多数为商业机构所有，尚未开源给公众使用，图片训练集的建立需要采集大量数据样本，而一个好的质量的训练集对于深度学习是必备的条件。鉴于此，在各个应用与人体行为识别的开源项目[10]、网络视频、热点事件等选取符合主题相关需求的图像样本，主要包含多场景暴力打斗、聚众示威、恐怖活动、体育集会等作为最终训练模型的暴力样本数据集，以确保我们所训练出的模型质量。

数据集共包含5 000幅暴力(label-fighting)图像和5 000幅非暴力(label-nofighting)图像，其中label-fighting类图像在场景、光照、打斗尺度等方面提供了广泛的数据，label-nofighting类包含人类非暴力行为的多类别活动行为，图5为数据集部分样本图像展示，左列为包含非暴力行为图像，右列为包含暴力行为的多场景图像。

图5 数据集样本示例Fig. 5 DataSet sample display

Resnet和VGG网络模型的图像输入尺寸为224×224×3，对于大多数图像来说，图像的分辨率要大于这个数值，除此之外图像的亮度和对比度等属性对于训练结果的影响也是非常大的，在图像分类识别领域研究中，图像的预处理对于分类识别的效果是十分重要的环节。

(1) 尺寸处理。首先按照图片较短的边，将图片等比例随机缩放到一定范围。如一张图片的尺寸为[1 000×800×3]，将图片短边缩放为256，那么此时图片的尺寸为[320×256×3]，图片的宽高比例不变。

(2) 数据增强。对数据集中的图像数据进行水平和垂直方向的旋转、图像尺寸的裁剪，从原图片和翻转后的图片随机裁剪出多张224×224×3的图像。数据增强可以增加数据样本数量，提高训练模型的泛化能力。

(3) RGB均值处理。自然图像处于一种平稳的数据分布，可以通过减去数据对应维度的统计平均值来消除公共的部分，用以突出个体之间的特征和差异。

2.2 模型迁移训练流程

模型迁移学习基于“神经网络模型类似于人脑的处理机制，它是一个迭代且连续的抽象过程”这样一种假设。预训练模型大都选择在ImageNet这类大规模多类别的图像分类数据集上进行训练，网络模型中卷积层充当特征提取器，全连接层充当分类器。ImageNet规模庞大，目前大约包含有14 197 122幅图像，共计21 841个类别，因此它们倾向于学习很好的并且有区别的功能。通常模型迁移学习可以通过冻结预训练模型中卷积层的参数权重，仅重新训练全连接层权重参数来达到模型迁移的目的，因为浅层训练的卷积层获得的一般为通用的视觉特征，冻结浅层权重可以加速预训练模型在特定领域数据集上的训练速度。

选用VGG16和Resnet50两种常用的深度神经网络结构模型进行模型权重参数微调，对现有预训练模型体系结构所做的参数微调包括两种策略：

(1) 在大多数网络中，权重可学习的最后一层是全连接层，冻结其余的权重参数，用一个新的完全连接层替换此完全连接层，其输出数量等于新数据集中的类数。

如图6所示，为了简化，略去了Relu层，通过冻结除最后一层可学习的全连接层，修改输出分类层的类别，原始的分类为1 000个类，修改为2，将预训练模型在自建数据集上进行重新训练。后续数据集扩增可进一步进行细粒度分类识别，只需修改对应的分类类别即可。

图6 VGG16模型微调Fig. 6 Fine tune for the VGG16 model

(2) 冻结浅层权重，冻结前4层、或者前5层卷积层的权重参数，重新训练剩下的可学习层。保留浅层卷积层权重是因为浅层卷积层捕获的是通用视觉特征，例如曲线和边缘，这些特征也与应用领域存在关联。在训练期间，冻结层不会更新参数。因为不需要计算冻结层的梯度，所以冻结越多的初始层的权重可以显著地加快网络训练。如果应用领域的样本数据集很小，则冻结较早的网络层也可以防止过拟合。Resnet50网络模型微调类似，不再赘述。

2.3 算法框架

模型迁移学习框架流程如图7所示，包含模型训练和图像识别两部分。其中，训练流程首先微调预训练模型结构，经过目标领域数据集重新训练，最终得到训练好的目标模型；识别指通过训练获取的目标模型对验证集或者需要被识别预测的图片进行分类预测，并输出分类预测结果。

图7 算法框架Fig. 7 Algorithm framework

3 实验结果与分析

3.1 实验设置

实验选用Matlab R2019a自带的预训练VGG16和Resnet50模型，在NVIDIA 1080Ti GPU上利用自建的样本数据集对VGG16、Resnet50预训练模型分别进行了两种参数微调策略下迁移学习训练，分别为只学习最后一层全连接层权重参数的VGG16-LF(Last-FCLayer)、Resnet50-LF(Last- FCLayer)和冻结浅层卷积层权重参数的VGG16-Conv4/5、Resnet50-Conv4/5。

参数设置，训练学习率为0.000 1，激活函数为Relu(Rectified linear unit)，池化方式为MaxPooling，Adam(A Method for Stochastic Optimization)进行模型优化，Dropout率设置为0.5，最大迭代次数为1 000。

3.2 浅层特征可视化

通过可视化浅层卷积层，有助于更好的了解深度神经网络模型卷积层提取的特征参数，即输入图像在经过卷积、修正线性单元激活、池化作用后得到的特征输出图(图8)。

图8 卷积层可视化分析Fig. 8 Visual analysis of convolutional layers

3.3 实验结果对比分析

多策略模型参数微调在自建数据集上的对比结果如表1所示。

表1 多策略模型迁移结果对比Table 1 Comparison of multi-strategy model transfer results

通过表1表明：保留预训练模型权重，只改变最后一层全连接层的训练耗时和模型准确率都优于冻结浅层权重的训练策略，充分说明大规模数据集上训练的模型参数对目标领域模型训练的积极作用，且耗时比重新训练要更优化。

各大商业科技公司研发了智能内容审核平台，其识别类别较多，主要包括涉黄、涉暴涉恐、政治敏感、广告水印等不良图像内容。图9为百度AI图像审核平台结果，其识别的情况为“存在疑似暴恐内容”。图10为图谱科技的识别结果为“正常”。百度和图谱对同一幅图像均出现识别不准确或者错误判断。图11为验证结果，其中第一行第一幅图的图像检测结果为与百度AI和图谱科技的对比，在测试集中可以准确识别为暴力图像。

图9 百度AI检测平台Fig. 9 Baidu AI testing platform

图10 图谱科技暴恐识别Fig. 10 Tuputech technology terror identification

图11 本文检测结果Fig. 11 Test results of our methods

图12(a)、(b)检测结果为识别模型的多场景分类结果，其中图12(b)中的第一行第一幅图存在判断错误，两人为打架，分类结果为非暴力行为，出现错误的原因为将此图中两人行为判定为体育运动的拳击运动，未做出正确分类，算法的整体结果准确率非常好，也可以对多场景的各种暴力打架做出正确分类结果判断。

(a) 正确分类结果

(b) 分类异常结果

为了更好地展示Web图像内容审核，结合UI界面和多类别行为概率百分比进行算法测试结果展示。如图13和图14所示，为系统界面和测试结果展示。

如图15所示，将非暴力行为类别进行细粒度划分，并给出对应图像分类的概率百分比，可以看出算法模型分类结果的准确性。

图13 检测系统界面Fig. 13 Inspection system interface

图15 多类别检测结果Fig. 15 Multi-category test results

通过对整个系统各方面的测试，在图片多分类识别和图像暴力内容分类识别中，通过比对结果表明算法整体准确率、鲁棒性和有效性较好。

4 结论

针对Not Safe For Work (NSFW)应用领域中Web暴力图像审核需求激增和用于相关研究的数据样本匮乏，设计实现了基于迁移学习的Web暴力图像识别系统。系统采用16层的VGG和50层的残差网络结构为基础模型，在自建暴力图像数据集上实现了源域模型的迁移学习。多迁移策略实验对比结果表明，模型迁移具有良好的泛化能力，在目标域的数据集上应用分类识别的准确率达到95%以上，很好地适应了目标领域的识别任务。