基于变柱宽多分辨率直方图矩特征的不良图像过滤

2017-09-03汪辉进

长春师范大学学报 2017年8期

关键词：词汇表直方图分辨率

汪辉进

(池州职业技术学院信息技术系，安徽池州 247000)

基于变柱宽多分辨率直方图矩特征的不良图像过滤

汪辉进

(池州职业技术学院信息技术系，安徽池州 247000)

随着互联网的迅速发展，网络上出现大量不良图像，如何对这些不良图像进行自动过滤成为一个研究重点。本文提出一种基于彩色变柱宽多分辨率直方图矩特征(Color Variable Binwidth Multiresolution Histogram Moments,CVB-MHM)的不良图像过滤框架。彩色变柱宽多分辨率直方图矩特征能够有效地表示图像的颜色和空间信息，同时有着特征维数低，计算量小的优势。在提取特征后，采用动态词袋模型，在验证集合上确定最优的视觉词汇表大小，对不良图像进行建模，在图像过滤阶段使用SVM分类器进行分类。通过互联网随机下载不良图像，并加入大量包括人像的正常图片进行测试。结果显示，本文方法有效地提高了对不良图像的过滤效果。

柱宽；多分辨率直方图矩；词袋模型；图像过滤

1 研究背景

随着移动互联网和自媒体的迅速发展，互联网产生的图片信息越来越多，一些图片中包含淫秽色情等不良信息。据中国互联网违法和不良信息举报中心发布的消息称，仅2016年4月，全国共处置156.4万件互联网淫秽色情信息，在这些色情信息中，图像和视频信息占据主要部分。如何快速、有效地对互联网中的不良图像进行过滤，净化互联网环境，是摆在我们面前的一个重要任务。早期的自动不良图像过滤，一般采用对网站网址进行屏蔽，或者对敏感的关键词进行屏蔽等措施。但是由于网址可以动态更改，同时大量图片并没有标注敏感关键词，这两种方法的作用比较有限。

在大数据时代的今天，基于内容(Context-based)[1-2]的自动不良图像过滤成为学者研究的重点。采用图像分割等方法，检测提取图像中皮肤、人脸等区域一直是基于内容不良图像过滤的一个研究方向。例如，Liu等[3]提出通过结合视觉注意和皮肤颜色模型的不良图像过滤方法；Wang等[4]使用皮肤检测、纹理过滤和人脸检测来提取图像特征，再通过决策树算法过滤不良图像；Yan等[5]构造一个显著映射模型，再结合皮肤颜色和人脸检测模型，来确定不良图像的重点感兴趣区域。基于统计模型的方法也被应用到不良图像过滤研究上，例如，Wijaya等[6]在检测到的皮肤区域上采用LDA方法来建模，区分色情图像；Lienhart等[7]通过使用PLSA模型将图像建模，对成人图像进行过滤。此外，Ni等[8]通过提取Haar-liket特征检测人体关键部位，提取灰度共生矩阵和彩色矩特征，使用径向基函数神经网络对不良图像进行过滤。Li等[9]对空间金字塔匹配进行研究，采用Incremental Learning方法在图像压缩域直接进行不良图像过滤等。Schettini等[10]提取了大量图像的纹理和颜色特征，采用决策树和支持向量机方法对色情图像进行过滤。目前，关于不良图像过滤研究已经取得一定的成效。基于肤色、人脸区域的检测方法，由于需要使用图像分割技术，算法复杂度比较高，并且肤色检测后主要考虑颜色比例，肤色颜色比例大的并非一定就是色情图像，色情图像块在结构上与正常肤色图像也是有区别的；而使用统计模型的方法，过滤结果存在不确定性，且计算量也比较大。结合文本方法，需要事先知道图像的准确文本标注，不利于色情图像的自动过滤。其他诸如提取人体关键部位[11-13]、采用神经网络等方法，在特征提取阶段也存在比较复杂的问题。

本文提出了一个新的彩色变柱宽多分辨率直方图矩特征(CVB-MHM)提取图局部像块特征的方法，并将此特征应用到图像的动态词袋模型表示上，采用基于SVM分类器对不良图像进行过滤。基于词袋的方法是最近被应用到场景图像分类和不良图像检索领域的[14]，已取得了一定成效。目前，大部分基于词袋的方法还是利用颜色或SIFT特征，SIFT特征计算复杂度较高，而有时在计算SIFT特征后，又采用比较复杂的统计模型方法进行图像过滤。本文提出的CVB-MHM特征能有效地表示图像局部块的颜色和纹理特征，特征维度小并且计算迅速，具备常用的SIFT特征。

2 彩色变柱宽多分辨率直方图矩特征

考虑到皮肤颜色信息不仅在不良图像中出现，在大量正常图像中也会出现，为了能有效区分不良图像，需要同时提取图像的颜色和结构信息。E Hadjidemetriou[15]在纹理图像分类中提出多分辨率直方图的概念，取得了较好的分类效果。随后，Y Jiang[16]提出多分辨率直方图矩特征，进一步提高了纹理图像分类的识别率和对噪声的鲁棒性。在文献[16]基础上，本文提出了彩色变柱宽多分辨率直方图矩特征，在提取颜色特征的同时，更有效地表示图像空间结构信息，变柱宽多分辨率直方图矩是基于图像的多分辨率直方图特征的。

2.1 多分辨率直方图

多分辨率直方图已被用于图像检索上，并取得了一定的效果[17]，本文中的多分辨率直方图与文献[17]不同。本文中的多分辨率直方图是指2001年Hadjidemetriou等[15]在纹理图像分类中提出的概念，其中的“多分辨率”是指对图像进行Gauss分解，得到多个层级下的图像。每一次分解后，图像的长、宽缩小为原来的二分之一。计算每个层级下图像的灰度直方图，并计算累积直方图和差分直方图，最终归一化为多分辨率直方图(Multiresolution Histogram，MH)。多分辨率直方图在医学图像处理和场景图像分类中得到一定应用，图像的MH特征提取过程如图1所示。

图1 MH特征提取过程

2.2 变柱宽多分辨率直方图矩特征

多分辨率直方图特征是在图像的灰度空间上提取的，并且特征维数比较高，Y Jiang[16]提出将多分辨率直方图矩特征进行纹理分类，有效地降低了特征维数，并增加了对噪声的鲁棒性，但在每个分辨率下提取直方图时，均采用相等的直方图柱宽(柱宽为1)，没有考虑直方图柱宽随多分辨率层级的变化。事实上，与纹理图像识别不同，在进行局部图像块特征提取的时候，这些局部图像块一般比较小，如采用16×16的矩形块。对这样的矩形块在进行三级分解后，得到的图像块大小为4×4，然后提取256级灰度的直方图，平均每个直方图柱上只有1/16个点，显然缺乏统计意义的支撑。

本文提出在不同的多分辨率层级上采取不同的直方图柱宽，随着高斯分解分辨率的提高，加大所提取的图像直方图的柱宽，提高直方图的光滑度，使得每个直方图柱中有足够多的像素点，具有更好的统计意义。对于不良图像，假设其局部图像块为T，分别在R,B,G通道下，对其用高斯滤波器进行多分辨率分解，得到L级分辨率下的局部图像块Tl=T*G(l)，l=1,…,L，其中G(l)表示高斯滤波器。

直方图的X方向2,3阶矩特征可以表示为：

同样，Y方向1阶矩特征[16]计算为：

可以看出，Y方向1阶矩特征正比于图像的大小，因此，只利用其来计算高阶矩特征，不将其作为图像区块的特征，Y方向的2,3阶矩特征计算为：

在每个分辨率下采取不同的柱宽，并将不同柱宽的X方向1到3阶矩特征，和Y方向2,3阶矩特征连接起来,得到变柱宽多分辨率直方图矩特征(VB-MHM)。

针对局部图像块的每个RGB颜色分量{TR,TG,TB}，分别计算其变柱宽多分辨率直方图矩特征，得到彩色变柱宽多分辨率直方图矩特征：CVB-MHM={VB-MHMR，VB-MHMG，VB-MHMB}.

假设对图像采用3级多分辨率分解，CVB-MHM特征的维数为5×3×3=45，而采用多分辨率直方图特征，其维数为256×2×3=1536维，而常用的CSIFT特征的维数为128×3=384。可以看出，CVB-MHM有着较小的维度。在提取时CVB-MHM特征不需要计算图像的梯度，只需要进行Gauss分解和统计直方图，其计算速度比CSIFT快很多。同时，由于直方图的提取和方向是没有关系的，CVB-MHM特征有着较好的旋转不变性，CVB-MHM特征能够较好地表示图像的空间和颜色信息。

3 动态词袋模型

BOW(Bag of Words，词袋)，是文本检索领域提出的一个概念。词袋模型，是指将一个文本文档看成是大量独立单词的集合，忽略单词之间的顺序和语法特征，统计所有单词在文档中出现的次数，得到一个维(n表示词汇表中词汇的数目)的矢量F，并将矢量F直接看作是该文档的特征，进行检索。

2003年，Sivic等[18]首次将词袋模型应用到视频图像处理领域中，将图像看作是一个特殊的“文档”，有一系列局部图像块(patch)组成。所谓patch，实际上是指采取某种方法对图像进行的划分。主要有两种patch提取方法：一是稀疏的patch提取，首先确定图像中的感兴趣点，然后将以感兴趣点为中心的矩形或椭圆区域划定为patch。这样得到的图像patch数目较少，在整个图像中呈稀疏分布。Sivic等提出的词袋模型就是基于图像的稀疏patch。另一是密集的图像patch提取，对图像进行网格分割，以每个网格的交叉点为中心，提取规则的方形区域为patch，这样得到的patch区域会互相重叠，提取的patch密集分布在整个图像上，patch的数目比较多，例如Bosch[19]等人采用混合生成区分模型的场景图像分类方法。得到图像的patch之后，再提取每个patch的SIFT特征，将训练图像集合中的所有patch的特征聚类，得到图像的视觉词汇表(Visual Words Table，VWT)，最后根据视觉词汇表，将图像的所有patch量化，得到图像的“视觉词汇”表示，并计算每个“视觉词汇”出现的次数，形成“视觉词汇”的直方图，作为该patch的特征表示，根据图像视觉词汇出现的直方图进行匹配，也就是基于图像的词袋表示方法。

词袋模型被扩展到图像检索中，但是大部分的基于词袋模型的图像检索、过滤方法都采用固定视觉词汇表大小V，不利于图像的过滤，本文在模型训练阶段，抽取一定数量的训练图像组成验证集合，用于对视觉词汇表大小V进行最优验证，在验证集合上取得最佳过滤效果的视觉词汇表大小V，应用到最终不良图像过滤中，得到较好的过滤效果。动态词袋模型不良图像过滤如图2所示。

图2 动态词袋模型不良图像过滤流程图

4 实验及结果

为验证本文方法的有效性，从互联网上随机下载不良图片和正常图片，构成两个图像库，用于实验。图像库1：包含随机下载的400幅不良图片和400幅正常图片。图像库2：包含图像库1，并且添加了400幅随机下载的正常人像图片和在Corel图像库中随机抽取的2800幅图片，增加了不良图像过滤的难度。基于这两个图像库进行两组实验，用于比较本文方法的性能。

实验一：对比固定柱宽直方图矩特征和变柱宽多分辨率直方图矩特征在两个图像库上的识别效果，实验采用固定视觉词汇表大小为200的词袋模型。

查全率(R)=(系统过滤的不良图像数/所有不良图像数)×100%，

查准率(P)=(系统过滤的不良图像数/系统过滤的所有图像数)×100%，

表1 CVB-MHM和CMHM实验对比结果

实验二的结果如表2所示。本文方法在图像库1上取得了最好的过滤效果，F1值达到95.85%。在图像库2中，本文方法的查全率好于CSIFT方法，CSIFT方法的查准率和F1值略好于本文方法。通过实验说明，CSIFT特征的整体过滤效果要略好于CBV-MHM特征，但是本文方法不需要计算图像的梯度，计算量要比CSIFT方法小，更有利于不良图像的实时过滤。

表2 CVB-MHM和其他方法对比结果

5 结语

本文提出的基于变柱宽多分辨率直方图矩特征，能够有效地表示图像的颜色和结构信息，通过动态词袋方法对不良图像建模，不良图像的过滤效果比原始多分辨率直方图矩特征要好，与经典的SIFT特征相比效果相当。基于词袋模型的方法，不需要对图像进行分割，或计算复杂的数学统计模型，总体计算量小，图像过滤的结果稳定。同时，本文提出的方法还可以应用于其他的图像处理领域，如人脸识别、遥感图像处理，并且可以结合其他模型如空间金字塔匹配对图像建模。

[1]Y Fu,W Wang.Fast and effectively identify pornographic images[C].International Conference on Computational Intelligence & Security,2011:1122-1126.

[2]A N Ganar,C S Gode,S M Jambhulkar.Enhancement of image retrieval by using colour,texture and shape features[C].International Conference on Electronic Systems,Signal Processing and Computing Technologies, 2014:251-255.

[3]Y Z Liu,D Zhou,J X Liu，et al.A novel approach for region-of-interest detection in pornographic images[C].Proceedings of 3rdInternational Conference on Multimedia Technology. Paris:Atlantis Press, 2013:861-868.

[4]B S Wang, X Q Lv, T Wang，et al. An effective method on pornographic images realtime recognition[C].International Conference on Graphic and Image Processing.Bellingham:SPIE-Int Soc Optical Engineering,2013.

[5]C C Yan,Y Z Liu, H T Xie，et al.Extracting salient region for pornographic image detection[J].Journal of Visual Communication and Image Representation,2014,25(5):1130-1135.

[6]I G P S Wijaya,I B K Widiartha,K Uchimura，et al.Pornographic image rejection using eigenporn of simplified LDA of skin ROIs images[C].14thInternational Conference on QiR (Quality in Research). Lombok, Indonesia:Institute of Electrical and Electronics Engineers Inc.,2015:77-80.

[7]R Lienhart,R Hauke.Filtering adult image content with topic models[C].Multimedia and Expo,IEEE International Conference on,2009:1472-1475.

[8]P Ni,J Huang.Pornographic image filtering method based on human key parts[C].2012 International Conference on Information Technology and Software Engineering,2013:677-688.

[9]D Li, N Li, J Wang，et al.Pornographic images recognition based on spatial pyramid partition and multi-instance ensemble learning[J].Knowledge-Based Systems,2015,84(c):214-223.

[10]R Schettini,C Brambilla,C Cusano，et al.On the detection of pornographic digital images[M].Bellingham: Spie-Int Soc Optical Engineering,2003.

[11]裴向杰,唐红昇,陈鹏.融合YCbCr肤色分割的不良图像检测算法研究[J].计算机技术与发展,2015,25(12):80-84.

[12]陈骁,金鑫,谭晓阳.基于躯干检测的单人不良图片识别[J].中国图象图形学报,2016,21(3):348-355.

[13]王景中,周靖.基于比例特征的网络不良图像过滤算法研究[J].计算机工程与科学,2016,38(3):514-519.

[14]L Zhuo,Z Geng,J Zhang，et al.ORB feature based web pornographic image recognition[J]. Neurocomputing,2016, 173(3):511-517.

[15]E Hadjidemetriou,M D Grossberg,S K Nayar.Multiresolution histograms and their use for recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(7):831-847.

[16]Y Jiang,R Wang.Texture description based on multiresolution moments of image histograms[J].Optical Engineering,2008,43(3):037001-037007.

[17]N Kawamura, M Yoshimura,S Abe.Image query by multiresolution spectral histograms[M].New York:IEEE,2006.

[18]J Sivic,A Zisserman,S Ieee Computer，et al.Video Google:A text retrieval approach to object matching in videos[C].Ninth IEEE International Conference on Computer Vision, Vols I and Ii, Proceedings. Los Alamitos:IEEE Computer Soc,2003:1470-1477.

[19]A Bosch, A Zisserman,X Muoz.Scene classification using a hybrid generative/discriminative approach[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2007,30(4):712-727.

Pornographic Image Filtering Based on Variable Binwidth Multiresolution Histogram Moment Features

WANG Hui-jin

(Department of Information Technology, Chizhou Vocational and Technical College,Chizhou Anhui 247000,China)

With the rapid development of internet, there are many pornographic images on internet. It is important for us to study how to filter these pornographic images automaticly. This paper proposed a pornographic image fitering framwork based on Color Variable Binwidth Multiresolutino Histogram Moments features(CVB-MHM) and dynamic Bag of Words(BOW) models. Color Variable Binwidth Multiresolution Histogram Moments can represent the color and spatial information of images efficiently, and have the low dimension and computation. The dynamic BOW model uses the best vocabulary table size to model the pornographic images. We use SVM classifier to filter the images which are downloaded from the Internet randomly and include many normal people images. Using method of this paper, we improve the effect of the pornographic image filtering.

binwidth; multiresolution histogram moments; Bag of Words model; image filtering

2017-02-15

2016年安徽省高校优秀青年人才支持计划重点项目“基于简单统计特征的互联网不良图像信息过滤研究”(gxyqZD2016530)；安徽省高等学校省级质量工程项目“计算机应用专业教学团队”(2013jxtd065)；2016年安徽省高等学校省级质量工程项目精品资源共享课程“Windows Server网络操作系统”(2016gxk099)。

汪辉进(1978- )，男，副教授，硕士，从事计算机信息安全及图像分析研究。

TP391.4

2095-7602(2017)08-0034-06