k均值聚类的混合异构图像隐写分析

2014-02-21李文祥平西建

应用科学学报 2014年5期

谢凯，张涛，奚玲，李文祥，平西建

解放军信息工程大学信息系统工程学院，郑州450001

随着互联网的普及和数字多媒体技术的发展，信息安全问题日益突出.作为保障图像信息安全的重要技术手段之一，图像隐写分析技术已经成为多媒体信息安全领域的研究热点.目前图像隐写分析技术的研究取得了丰硕的研究成果.

现有的图像隐写分析技术大致分为两类：专用隐写分析和通用隐写分析.专用隐写分析技术通常只针对某一种或者某一类隐写算法，此类算法一般利用隐写算法的设计漏洞，寻找载密图像中有别于载体图像的统计差异模式来进行检测.例如，针对最不重要比特(least signif icant bit,LSB)替换隐写算法，许多算法利用其带来的图像灰度直方图值对效应进行有效检测，如x2分析法[1]、RS分析法[2]等.LSB匹配隐写算法利用随机±1的嵌入机制有效地避免了值对效应，提高了隐写安全性.针对LSB匹配隐写算法，文献[3]提出了一种以图像灰度直方图局部极值点(amplitude of local extrema,ALE)的邻域绝对差值为特征的隐写分析方法；文献[4]对其进行改进，结合降采样技术提出了校准的直方图幅度特征；文献[5]提出了一种基于局部线性变换(local linear transform,LLT)和特征函数(characteristic function,CF)加权的隐写分析方法.

随着隐写算法安全性的提高，利用某种设计漏洞进行专用隐写分析越来越难，并且专用隐写分析需要了解隐写算法的嵌入机制，而通用隐写分析算法则不需要，因此通用隐写分析成为目前的主流研究方向.通用隐写分析算法通常采用基于机器学习的模式分类方法，它适用于多种隐写算法，对未知算法具有检测能力.例如，文献[6]提出了一种基于直方图特征函数质心(histogram characteristic function center of mass,HCFCOM)的隐写分析方法；文献[7]引入降采样校准技术，提出了校准的邻接直方图特征函数质心(adjacency histogram characteristic function center of mass,AHCFCOM)特征；文献[8]提出了基于小波分解的高阶统计量方法；文献[9]提出了基于小波系数直方图绝对矩(wavelet absolute moment,WAM)的盲检测方法；文献[10]提出了基于小波系数直方图CF统计矩构造分类特征的方法；文献[11]提出了基于小波分解和预测误差的CF统计矩的方法；文献[12]对图像小波子带系数提取了两类特征——概率密度函数的经验矩和概率密度函数的特征函数经验矩；文献[13]将图像的隐写分析过程视为图像的纹理分类过程，通过局部线性变换计算其LLT系数的PDF矩，提取了110维特征；文献[14]提出了基于像素差分Markov状态转移概率矩阵(subtractive pixel adjacency matrix,SPAM)的通用盲检测方法.

现有的隐写分析方法在实验室环境下均取得了较好的检测效果，但在实际网络环境下往往难以取得较好的检测效果，这是因为现有的隐写分析方法仅仅考虑嵌入秘密消息对图像统计特性的影响，而没有考虑图像信源统计特性对隐写分析方法的影响.事实上，图像信源的来源、内容以及所经历的处理方式的不同，使得图像信源的统计特性异常复杂，势必对现有隐写分析方法产生较大的影响.例如，对于一幅纹理复杂度较低且内容平坦的图像，其载体载密图像之间的统计特征差异就比较大，隐写检测效果较好，而对于纹理复杂度较高的图像，其隐写检测效果则较差.另外，一些自适应隐写算法，例如AELSB[15]与EA-LSBMR[16]隐写算法，则根据图像纹理复杂度的高低或者边缘强度来嵌入秘密消息.因此，有必要利用图像信源的先验统计特性来辅助现有的图像隐写分析技术，以提高其检测率.

本文研究了不同图像内容复杂度对现有隐写分析算法的影响，以及测试图像库和训练图像库统计特性的失配状态对隐写分析算法的影响，提出了一种基于k均值聚类的混合异构图像隐写分析算法，并通过实验验证了本文算法的有效性.

1 图像内容复杂度对隐写分析算法的影响

图像内容对隐写分析算法的检测性能有较大的影响[17].图像内容越平坦，则消息嵌入前后载体、载密图像之间的特征统计差异越大，越有利于隐写检测.然而，现有隐写分析算法大多对图像同等对待，这势必影响隐写分析算法的检测性能.一般来说，可以通过纹理复杂度来度量图像内容的复杂程度，于是本文从相邻像素差分直方图和边缘像素比两方面来描述图像的纹理复杂度.

1.1 相邻像素差分直方图

纹理是对物体表面属性的一种描述，一般来说自然图像的邻域结构和邻域各个方向上的差异都可以看作图像上的某种纹理.鉴于此，本文选取图像相邻像素的差分直方图作为图像的纹理描述.

对于一幅M×N的灰度图像f，它在水平方向上相邻像素的差分直方图定义为

式中，n∈[-255,255],fi,j表示f的第i,j点的像素值，

类似可以定义垂直、对角、反对角方向相邻像素的差分直方图

标准图像Milk、Lena、Mandrill及相应的水平方向相邻像素的差分直方图如图1所示，可以看出图像越平坦其差分直方图分布在零值附近越尖锐.

图1中的(d)给出了3幅图像水平方向相邻像素差分直方图，其中横轴代表相邻像素差分值，纵轴代表相邻像素差分值相对应的概率.由于图像相邻像素间较强的相关性，差分直方图在0值附近较为集中，且具有一定的对称性.通常认为相邻像素的差分直方图服从均值为零的广义高斯分布(generalized Gaussian distribution,GGD)，其概率密度函数为

图1 标准图像Milk、Lena、Mandrill及相应的水平方向相邻像素的差分直方图Figur e 1 Standard picture:Milk,Lena,Mandrill and their adjacent pixels difference histogram in horizontal direction

式中，m1、m2分别为绝对均值和方差.式(9)为广义高斯参数比函数，它建立了形状参数与随机变量统计量的函数关系式.由于式(10)不存在解析形式，一般可通过数值拟合的方法估计出形状参数β[18].为了更全面地捕捉图像各方向上的纹理信息，本文对水平、垂直、对角、反对角方向差分直方图分别建立GGD模型.估计形状参数βh,βv,βd,βrd,对4个方向形状参数求和，以β=(βh+βv+βd+βrd+)/4作为本文提取的纹理特征，并将此特征记为GGDβ.对图1中的3幅标准图像Milk、Lena、Mandrill求GGDβ值，分别为0.93、1.09、2.15，可以看出本文所提特征真实地反映了不同图像的纹理复杂度.

1.2 边缘像素比

边缘像素比即为一幅图像边缘像素数目与总像素数目的比例，它从图像的边缘强度方面描述了其内容复杂程度.对于一幅M×N的灰度图像，通过高通滤波器可将其分为边缘像素和非边缘像素两部分，边缘像素数和总像素数的比即为所提特征.本文采用Canny算子0进行边缘检测，因此该特征简记为边缘像素比(canny based edge ratio,CER)[17].设边缘像素的数目为S，则

1.3 图像内容复杂度对隐写分析算法的影响

为了研究图像内容的复杂程度对现有隐写分析算法的影响，本文选取两类图像库进行实验，一类为内容平坦图像，另一类为内容复杂图像，具体实验方法如下：

步骤1 对Camera图像库分别提取GGDβ特征和CER特征，这两个特征值从小到大分别代表图像内容复杂度由低到高.因此，对Camera图像库中的图像分别按照两种特征值由小到大进行排序，取前1 000幅图像作为内容平坦图像库，取最后1 000幅图像作为内容复杂图像库.

步骤2 对平坦图像库和复杂图像库分别随机选取800幅训练图像和200幅测试图像，并进行LSBM嵌入，嵌入率为10%.选取的隐写分析特征为LLTCF[5]特征.

步骤3 分别按照匹配状态和失配状态两种情况进行实验,实验结果如表1和2所示.

在表1中，列代表训练图像库，行代表测试图像库，其中主对角线方向为匹配状态下检测效果.当训练和测试图像同为平坦图像时，最小平均错误率为2.25%；同为复杂图像时，最小平均错误率为24.25%.可见图像内容复杂度对隐写分析算法的检测性能有着较大的影响.

粗体部分为失配状态下的检测效果，同是平坦图像进行测试，当训练图像库由平坦图像变为复杂图像时最小平均错误率变为14.5%，同比增加了12.25%；同是复杂图像进行测试，当训练图像库由复杂图像变为平坦图像时，最小平均错误率变为43%，同比增加了18.75%.可见失配现象使得现有隐写分析算法的检测性能急剧下降.从表2中同样可以分析出上述结果.

表1 图像内容复杂度对隐写分析算法的影响(最小平均错误率)Table 1 Impact caused by image content complexity(minimal average decision error) %

表2 CER：图像内容复杂度对隐写分析算法的影响(最小平均错误率)Table 2 CER:impact caused by image content complexity(minimal average decision error) %

2 本文算法

针对上述失配问题，本文提出了一种新的隐写分析算法.对于包含多种图像内容的混合异构图像库，首先对其进行预分类，将复杂程度相近及统计特性相似的图像分为一类，每一类单独训练隐写分析分类器.测试时可根据测试图像的复杂度送至相应类别隐写分析分类器中进行检测.这样避免了失配问题，提高了隐写分析算法的检测效果.然而，图像的内容复杂度并没有一个明确的类别界限，且实际混合异构图像库中各类别图像分布也并非绝对集中，于是本文采用一种聚类算法——k均值聚类算法对图像进行预分类.

聚类算法根据图像库内图像复杂度的相近程度自动形成聚类，类内相似度较高，类间差别较大，这样更能体现图像库内不同纹理图像的分布状态，更加贴近实际.k均值聚类是一种比较经典的聚类算法，其使用的聚类准则函数是误差平方和准则，通过反复迭代优化聚类结果，最终得到k个聚类中心C1,C2,···,Ck，使得每一个数据点Xi到各自所属类别的中心Ci的距离平方和最小.它能够对大型数据集进行高效分类，而本文实验图像数目较多，数据集较大，故选择k均值聚类算法.

2.1 算法原理框图

基于k均值聚类的混合异构图像隐写分析算法分为训练阶段和测试阶段，原理框图见图2.

训练阶段如图2(a)所示，对于训练图像库，首先提取聚类特征，本文选取GGDβ和CER共2维特征作为本文聚类特征F，然后利用k均值聚类方法聚为k类，并得到相应的k个聚类中心点C1,C2,···,Ck，针对每一类分别提取隐写分析特征并训练相应的隐写分析分类器.

测试阶段如图2(b)所示，对于测试图像，提取聚类特征F，由式(12)计算其与各个聚类中心的欧氏距离d，如测试图像与第i个聚类中心点的距离

式中，X2表示向量X的2范数，i=1,2,···,k.根据测试图像与k个聚类中心点的距离远近，将其判为与之距离最近的聚类中心点所对应的类别，即

之后选取相应类别的隐写检测分类器Si进行隐写分析，得出判决结果.

3 实验结果及分析

3.1 实验设置

3.1.1 实验图像库

为了保证聚类后每一类包含足够的图像，本文使用由CAMERA、BOWS、UCID以及自建图像库组成的混合异构图像库作为实验图像库，共19 174幅BMP图像.其中CAMERA图像库包含3 164幅自然图像，由24种不同的相机拍摄，经中心裁剪得到；BOWS图像库由自然灰度图像经缩放和裁剪得到，包含10 000幅大小为512×512的自然灰度图像，内容包括自然风景、人造设施、人物肖像和动物特写等；UCID图像库包含1 338幅分辨率为512×384或384×512的彩色图像；自建图像库由NikonD40X相机拍摄得到，经中心裁剪为512×512大小，内容包含平坦图像、建筑纹理图像、自然纹理图像，共4 672幅.以上图像库均先转换为8比特灰度图像构成载体图像库.

图2 算法原理框图Figure 2 Principle diagram of the algorithm

3.1.2 隐写算法和隐写分析算法

分别采用LSBM嵌入算法和EA-LSBMR嵌入算法，嵌入率分别为10%、25%、50%.采用针对LSBM的专用隐写分析算法LLTCF[5]、RDIH[19]，针对EALSBMR的专用隐写分析算法Tan[20]，以及两种通用盲检测算法LLTPDF[13]、OCF[12].

1)OCF表示优化小波域概率密度函数的经验矩和特征函数矩，共104维特征；

2)LLTPDF表示局部线性变换系数的归一化直方图，共110维特征；

3)LLTCF表示局部线性变换系数的加权特征函数矩，共72维特征；

4)RDIH表示多方向差分图像归一化直方图的峰值和二次归一化直方图的局部系数，共70维特征；

5)Tan表示绝对差分直方图的B样条拟合，共1维特征.

3.1.3 分类器和评价指标

本文采用Fisher线性分类器.隐写检测性能的评价指标为最小平均错误率，其计算公式为

式中，θi为第i个隐写检测分类器Si中测试样本占所有测试样本的比例，为Si的最小平均错误率，ui和vi分别为Si中载体和载密图像所占的比例，和分别为Si的虚警率和漏检率.

3.2 结果及分析

本文采用两种对比方案：

方案1 与随机均分类进行对比，即将混合图像库随机均分为k类，对每一类单独训练和测试，k与本文提出的聚类算法中聚类数目k相等.

方案2 与传统方法进行对比，即在不分类的情况下对整个混合图像库进行训练和测试.训练比例为60%.上述两类对比试验所选取的图像库和本文算法实验中所用的图像库相同，即本文3.1.1所述混合异构图像库共19 174幅.将上述实验重复20次的平均结果作为本文的实验结果，实验结果如图3～5、表3～5所示：

图3 LSBM：嵌入率为10%时3种隐写分析算法分别在随机分类和本文所提算法下的最小平均错误率对比Figure 3 LSBM:minimal average decision error of three steganalysis by random classif ication method and the proposed method when embedding rate is 10%

图4 LSBM：嵌入率为25%时3种隐写分析算法分别在随机分类和本文所提算法下的最小平均错误率对比Figure 4 LSBM:minimal average decision error of three steganalysis by random classif ication method and the proposed method when embedding rate is 25%

图5 LSBM：嵌入率为50%时3种隐写分析算法分别在随机分类和本文所提算法下的最小平均错误率对比Figure 5 LSBM:minimal average decision error of three steganalysis by random classif ication method and the proposed method when embedding rate is 50%

表3 k均值聚类后各类别图像的GGDβ的平均值(k=2,···,6)Table 3 Average GGDβof each class by k-means clustering(k=2,···,6)

表4 LSBM：本文方法(聚类数目k=12)与传统检测方法(Smix)的性能对比Table 4 LSBM:the detection performance by the proposed method(k=12)and traditional method(Smix)

表5 EA-LSBMR：本文方法(聚类数目k=12)与传统检测方法(Smix)的性能对比Table 5 EA-LSBMR:thedetection performanceby the proposed method(k=12)and traditional method(Smix)

表3为k均值聚类后每一类别中图像的GGDβ值的均值(即聚类中心)，本文仅选取k=2,···,6的实验结果，可以看出随着聚类数目的增加，聚类中心分布越分散，且未出现非常接近的聚类中心，说明本文算法按照内容复杂度对混合图像库进行了有效的聚类.

图3～5和表4、表5分别给出了与随机分类对比和与不分类进行比较的实验结果.在两种对比实验下，本算法均表现出较好的检测效果.

由图3～5可以看出：随着分类数目的增加，检测效果有一定的提高，这是因为随着聚类数目的增加，本算法对混合图像库的分类更加精确.对于随机分类，最小平均错误率随着分类数目的增加而增大，这是因为：训练图像是随机地分类，测试图像也是随机地分到各类进行测试，分类数目的增加使得测试图像和训练图像产生失配现象的概率增大.另外，对于不同的隐写分析方法，本文方案所提高的程度不同，当嵌入率为10%时，对于OCF最小平均错误率降低了6.79%，同等条件下LLTCF只降低了3.06%，这说明纹理复杂度对不同的隐写分析特征产生的影响不同.另外，嵌入率也影响本方法的有效性，嵌入率越低，最小平均错误率下降得越多，这是因为对于较低的嵌入率，隐写分析算法的最小平均错误率较高，则其检测性能有较大提升空间.

表4和5分别表示在嵌入算法为LSBM和自适应隐写算法EA-LSBMR下，本文方法(proposed)与不分类时(Smix)最小平均错误率对比，其中本文方法的聚类数目K为12，在表中较好的检测结果用粗体表示.可以看出，与不分类进行对比时，本文方法在3种嵌入率和两种嵌入算法下均取得了较好的检测效果.在表4中，嵌入率为10%时OCF检测算法的最小平均错误率降低了4.06%，LLTPDF降低了3.07%，LLTCF降低了3.21%.从而证明了本算法的有效性.

由表5可以看出，本文方法针对自适应隐写算法有更好的检测效果，嵌入率为10%时LLTPDF的最小平均错误率降低了4.36%，Tan降低了4.53%；嵌入率为25%时，Tan降低了6.42%；嵌入率为50%时，RDIH降低了6.73%.这是因为自适应隐写算法EA-LSBMR是根据图像的纹理复杂程度来嵌入秘密消息的，而本文正是根据图像的纹理复杂度进行预分类后再针对每一类进行隐写检测，这使得在每一类图像中EA-LSBMR对训练图像和测试图像所带来的统计特性的改变比较相似，便于隐写检测.

4 结语

本文考虑到现有隐写分析算法在实际应用中的局限性，重点研究了图像内容复杂度对现有隐写算法的影响，同时给出了失配状态对隐写分析算法的影响.随后本文通过k均值聚类的方法使得纹理复杂度相近的图像聚为一类，再针对每一类设计相应的隐写分析分类器，这样避免了现有隐写分析算法在实际应用中训练图像和测试图像统计特性不匹配的现象，提高了分类器的检测性能，而且所有的盲检测算法和部分专用隐写分析算法均可用于本文所提方法.另外，由于不同的聚类特征对现有隐写分析算法的影响程度不同，纹理复杂度只是其中一个方面.因此，寻找新的聚类特征来更好地提高现有隐写分析算法的检测精度是下一步研究的重点.

[1]WESTFELD A,PFITZMANN A.Attacks on steganographic systems[C]//Proceedings of Information Hiding Workshop,Lecture Notes in Computer Science:1768.Berlin:Springer,1999:61-76.

[2]FRIDRICH J,GOLJAN M,DU R.Detecting LSB steganography in color and gray-scale images[J].IEEE Transaction on Multimedia,2001,8(4):22-28.

[3]ZHANG J,COX I J,DO¨e R G.Steganalysis for LSB matching in images with high-frequency noise[C]//Proceedings of IEEE International Workshop on Multimedia Signal Processing.Greece:IEEE,2007:385-388.

[4]GAOYunkai,LIXiaolong,YANGBin.Detecting LSB matching by characterizing the amplitude of histogram[C]//Proceedings of IEEE International Conference on Acoustics Speech and Signal Processing.Piscataway,NJ:IEEE,2009:1505-1508.

[5]ZHENG Ergong,PING Xijian,ZHANG Tao.Local linear transform and new features of histogram characteristic functions for steganalysis of least signif icant bit matching steganography[J].KSII Transactions on Internet and Information System,2011,5(4):840-855.

[6]HARMSEN J,PEARLMAN W A.Steganalysis of additive noise modelable information hiding[C]//Proceedings of the SPIE,Security,Steganography,and Watermarking of Multimedia Contents VI:5020.San Jose,CA:SPIE,2003:131-142.

[7]KERA D.Steganalysis of LSB matching in grayscale images[J].IEEE Signal Processing Letters,2005,12(6):441-444.

[8]FARIDH,LYUSW.Detecting hidden messages using higher-order statistics and support vector machines[C]//Proceedings of 5th International Workshop on Information Hiding,Lecture Notes in Computer Science:2578.Berlin Heidelberg:Springer,2002:340-354.

[9]GOLJAN M,FRIDRICH J,HOLOTYAK T.New blind steganalysis and its implications[C]//Proceedings of SPIE,Security,Steganography,and Watermarking of Multimedia Contents:6072.San Jose,CA:SPIE 2006:1-13.

[10]XUAN Guorong,SHI Yunqing,GAO Jianjiong.Steganalysis based on multiple features formed by statistical moments of wavelet characteristic functions[C]//Proceedings of 7th Information Hiding Workshop,Lecture Notes in Computer Science 3727.Berlin:Springer-Verlag,2005:262-277.

[11]SHI Yunqing,XUAN Guorong,GAO Jianjiong.Effective steganalysis based on statistical moments of wavelet characteristic function[C]//Proceedings of International Conference on Information Technology:Coding and Computing:1.Las Vegas,Nevada,IEEE,2005:786-773.

[12]WANG Y,MONLIN P.Optimized feature extraction for learning-based image steganalysis[J].IEEE Transaction on Information Forensics and Security,2007,2(1):31-45.

[13]LIBin,HUANGJiwu,SHIYunqing.Textural features based universal steganalysis[C]//Edward J.Security,Forensics,Steganography and Watermarking of Multimedia Contents X:6819,Bellingham,Wash:SPIE,2008:1201-1212.

[14]PEVNÝT,BASP,FRIDRICH J.Steganalysis by subtractive pixel adjacency matrix[J].IEEE Transactions on Information Forensics and Security,2010,5(2):215-224.

[15]YANGC H,WENGC Y,WANGSJ,SUNH M.Adaptive data hiding in edge areas of images with spatial LSB domain systems[J].IEEE Transactions on Information Forensics and Security,2008,3(3):488-497.

[16]LUO Weiqi,HUANG Fangjun,HUANG Jiwu.Edge adaptive image steganography based on LSB matching revisited[J].IEEE Transaction on Information Forensics and Security,2010,5(2):201-214.

[17]AMIRKHANI H,RAHMATI M.New framework for using image contents in blind steganalysis systems[J].Journal of Electronic Imaging,2011,20(1):1-14.

[18]汪太月，李志明.一种广义高斯分布的参数快速估计方法[J].工程地球物理学报，2006,3(3):172-176.

WANGTaiyue,LIZhiming.A fast parameter estimation of generalized Gaussian distribution[J].Chinese Journal of Engineering Geophysics,2006,3(3):172-176.(in Chinese)

[19]CAI Kaiwei,LI Xiaolong,ZENG Tieyong.Reliable histogram features for detecting LSB matching[C]//Proceedings of IEEE International Conference on Image Processing.Piscataway NJ:IEEE,2010:1761-1764.

[20]TANShunquan,LIBin.Targeted steganalysis of edge adaptive image steganography based on LSB matching revisited using B-spline f itting[J].IEEE Signal Processing Letters,2012,19(6):336-339.