基于单类集成分类器的JPEG通用隐写分析*

2017-01-17李薇张舒祁锐

火力与指挥控制 2016年12期

关键词：直方图分类器共生

李薇，张舒，祁锐

（海军工程大学理学院，武汉430033）

基于单类集成分类器的JPEG通用隐写分析*

李薇，张舒，祁锐

（海军工程大学理学院，武汉430033）

针对JPEG图像通用隐写检测问题，提出了一种基于单类集成分类器的新方法。算法提取图像DCT块内、块间和小波层内、层间的共生特征以及小波子带系数的直方图特征对图像进行描述，并计算检测图像及其原始估计图像所提共生矩阵和直方图分布的对称交互熵作为隐写分析特征；然后，随机构造若干个特征子空间，利用bootstrap方法构造载体图像训练子集，分别进行单类训练得到数个基分类器；最后，将基分类器的分类结果按多数投票法进行融合作为单类集成分类器的分类结果。实验结果表明，单类集成分类器能显著提高算法的检测效果，而且，本方法相比基于多超球面OC-SVM分类器的单类隐写分析方法，具有更高检测率。

隐写分析，共生矩阵，对称交互熵，单类集成分类器

0 引言

隐写分析（steganalysis）的目的是检测隐密载体中秘密信息的存在性，继而估计出秘密信息的嵌入比率和嵌入位置，最终提取出秘密信息。其中，秘密信息检测是嵌入比率估计和秘密信息提取的前提，也是当前隐写分析技术研究的热点问题。通常采用基于统计的方法，通过挖掘载体图像和隐写图像间的统计差异构造特征向量集，采用分类器进行隐写判别。因此，隐写分析实质上是多维特征空间的模式分类器，设计与特征空间相匹配的分类器对于提高算法的检测效果具有十分重要的意义。

根据分类器的差异，隐写分析主要可分为二类隐写分析和单类隐写分析。前者采用二类分类器进行训练，需要载体图像及其隐写图像两类训练样本［1-2］；后者采用单类分类器进行训练，仅需要载体图像一类训练样本［3］。对此，本文在文献［4-9］的基础上设计了单类集成分类器，提出了一种基于对称交互熵差异特征的JPEG通用隐写分析方法。实验结果验证了该方法的有效性，而且发现，单类集成分类器能有效提高算法的检测效果。

1 特征空间设计

由于通用隐写分析实质上是多维特征空间的模式分类器，因此，设计高效的特征空间对于提高算法的检测效果具有非常重要的意义，见文献［7-8，10］。对此，本文从DCT块内、块间相关性特征，DWT层内、层间相关性特征以及DWT子带系数直方图特征3个方面对图像进行描述，采用图像校准方法估计检测图像的原始图像，计算两者所提共生矩阵和直方图分布的对称交互熵作为隐写分析特征，从而使特征空间更加丰富和敏感，同时降低特征的维数。

1.1 DCT域特征

JPEG隐写术主要在图像DCT系数上进行嵌入操作，不可避免的会破坏相邻DCT系数的相关性［10］。在文献［10］的基础上，本文利用共生矩阵挖掘水平、垂直、对角线、反对角线4个方向上图像DCT块内、块间相邻系数的共生矩阵作为DCT域特征。下面以计算DCT系数矩阵D∈RM×N在水平方向上的共生矩阵特征为例进行说明。

其中：u，v∈{-T，…，T}，δ（x，y）=1，当且仅当x，y两个条件同时成立，否则为0。对应阈值T，共生矩阵的大小为（2T+1）×（2T+1）。

1.2 DWT域特征

实际上，除了相邻DCT系数间存在相关性，文献［11］还发现图像小波系数间也具有类似的相关性，并利用Markov矩阵来刻画DWT层内、层间的相关性。在文献［11］的基础上，本文采用共生矩阵来挖掘图像DWT层内、层间的相关性特征。同时，提取DWT子带系数的统计直方图分布作为特征，进一步丰富特征空间。

先把JPEG图像（大小为M×N）中R、G、B 3个颜色通道的灰度矩阵合并成一个3M×N大小的灰度矩阵，再对其进行2级Haar小波分解得到6个子带系数矩阵：LH1子带系数矩阵H1，HL1子带系数矩阵V1，HH1子带系数矩阵D1，LH2子带系数矩阵H2，HL2子带系数矩阵V2，HH2子带系数矩阵D2。对每个子带系数矩阵进行阈值处理（阈值为T）得到、和，分别计算其水平、垂直、对角线、反对角线4个方向上反映DWT层内系数相关性的共生特征，最终得到24个共生矩阵。同时，根据下式计算水平、垂直、对角线3个方向DWT层间的相关性特征：

同样取阈值T=4，则总共得到27个9×9大小的共生矩阵，它们反映了DWT层内、层间系数的二阶统计相关性。进一步，计算每个子带系数矩阵的一阶直方图分布，取系数值落在范围{-15，-14，…，14，15}内的概率分布作为特征，共得到6个长度为31的特征向量，丰富了特征空间。

1.3 对称交互熵差异特征

根据上面的分析，本文的特征空间包含了35个反映频域系数统计相关性的共生矩阵和6个反映DWT系数直方图分布的特征向量，总的特征维数为3 021维。为了降低特征的维数，文献［10-11］对各方向共生矩阵或Markov矩阵进行加权融合，虽然降低了算法的计算复杂度，但同时也丢失了一部分特征信息。对此，本文引入信息论中的对称交换熵，从而描述隐写前后图像共生矩阵或直方图分布发生的变化。记CP和CQ分别为两个直方图分布或由两个共生矩阵展开的一维向量，其对称交互熵可以表示为：

首先，利用文献［12］中的图像校准方法估计检测图像的原始图像，然后计算检测图像及其原始估计图像所提共生矩阵和直方图分布的对称交互熵作为隐写分析特征，它反映了图像隐写前后共生矩阵和直方图分布的差异程度。本文总共提取35个共生矩阵和6个直方图分布，不妨记Ck（1）、Ck（2）（k=1，…，41）分别为从检测图像及其原始估计图像提取的共生矩阵和直方图分布，结合式（6）进行如下计算：

本文称F为对称交互熵差异特征，特征维数为41维，仅为原始特征维数的1.36%。图1为从300幅载体图像及其隐写图像（嵌入率为100%）提取的第1维特征F（1）。可以看出：载体图像F（1）的数值较小且分布集中，而隐写图像F（1）的数值较大且分布较为松散。即载体图像对称交互熵差异特征的均值和标准差小于隐写图像。这说明，对称交互熵差异特征具有很好的敏感性以及独立性，能明显地区分开载体图像和隐写图像。

图1 载体图像及其隐写图像的第1维特征

2 单类集成分类器

2.1 单类分类器

根据上面的分析，载体图像对称交互熵差异特征的均值和标准差明显小于隐写图像。基于这样的特点，设计如下单类分类器：

其中，N为特征的维数；μk和σk分别为第k维特征的平均值和标准差；为柔化因子，控制分类器的虚警率：较小的值对应较大的虚警率和较小的漏检率。可见，式（8）确定了载体图像集的分布范围：如果检测图像的对称交互熵差异特征满足式（8），则判为载体图像，否则判为隐写图像。同时还发现，式（8）的单类分类器的训练过程即为计算特征的均值和标准差的过程，具有计算复杂度低的特点。

2.2 单类集成分类器

为了进一步提高单类分类器的分类精度，设计单类集成分类器进行隐写判别。集成分类器主要包括特征子空间构造、基分类器训练和集成策略3个部分，其基本思想是［9］：首先构造原始特征空间的随机特征子空间，然后构造具有良好差异性的训练子集，并分别进行训练得到基分类器，最后将基分类器的结果按照一定的集成策略进行融合作为最终的分类结果。

结合对称交互熵差异特征的特点，本文按如下思路设计单类集成分类器：随机产生L个具有较低维数的特征子空间Fi∈Rdsub（i=1，…，L，L为基分类器个数，d0为原始特征空间的维数且dsub＜＜d0），利用bootstrap方法构造载体图像的训练样本子集，分别按式（8）进行训练得到基分类器Bi，再把所有基分类器的分类结果按多数投票法进行融合作为单类集成分类器的分类结果。C={ci∈Rd0|i=1，…，NC}为载体图像训练集，S={si∈Rd0|i=1，…，NS}为测试图像集。

2.3 分类器参数优化

由于构造检测率高、差异性大的基分类器是集成学习的关键，因此，集成分类器的分类精度与分类器参数L和dsub的设定密切相关。对此，本文利用少量载体图像ci（i=1，…，N）及其隐写图像si作为测试样本进行参数优化。设B（n，d）为特征子空间维数取d、基分类器个数取n时的融合判决函数，利用B（n，d）对测试样本进行检验，其平均检测率（载体图像检测率和隐写图像检测率的平均值）可表示为：

为了研究R（n，d）与n以及d的关系，从UCID、BOWS2以及自采集的图像库中选取6 000幅载体图像以及1 000幅混杂隐写图像（包含F5、MB1、Outguess、Jphs和Steghide 5种隐写图像以及25%、50%、100%3种嵌入率）进行如下实验：①在不同的n和d下，对5 000幅载体图像进行集成训练，利用剩余的1 000幅载体图像及其隐写图像进行检验，计算其平均检测率；②考虑到在构造特征子空间时具有较大的随机性，重复实验①50次后计算平均值作为最终的平均检测率R（n，d）。实验结果如图2所示。

可以看出：R（n，d）随着n的增大而变大且逐渐收敛于某一固定值。这是因为随着基分类器个数的增加，基分类器之间的重复程度逐渐变大，集成分类的检测率随之趋于稳定；当d较小时，R（n，d）随着d的增加显著提高；当d较大时，R（n，d）随着d的增加反而出现略微下降。原因是当d较小时特征子空间维数较少，因特征信息不足而影响了基分类器的分类精度；当d较大时，每个特征子空间相似度较高，缺乏差异性。结合以上结论，本文就可以对分类器参数进行合理的优化。

①L优化。R（n，d）随着n增大会逐渐收敛，那么L优化的关键就在于判断R（n，d）何时达到稳定。基于这样的思路，采用下式来计算基分类器个数：

其中，d为某一固定值；μ为整数、ε为常数，用以控制计算复杂度和计算精度。

②dsub的优化。从图2看出，当4≤d≤20时，R（n，d）具有较好的稳定性，而当d＞20时R（n，d）开始下降。对此，本文同样采用式（10）的方法来优化特征子空间的维数dsub，计算公式为（n为固定值）：

对应不同的基分类器个数n，优化的特征子空间维数d（n）可能存在差异。因此，无法同时使用式（10）和式（11）进行参数优化。根据对图2的分析，对应不同的d值，R（n，d）随着n的增大逐渐收敛且几乎收敛于相同的数值。对此，本文首先计算不同特征子空间维数d（d∈［5，30］）下的优化基分类器个数L（d），求其均值并取整作为最优的基分类器个数L；然后根据L的值构造集成分类器，按式（11）计算相应的d（L）作为最优的特征子空间维数dsub。

本文取μ=3和ε=0.001进行计算，得到最优的分类器参数分别为L=19，dsub=8。

3 实验结果与分析

3.1 实验准备

为了验证本文方法的有效性，从UCID、BOWS2以及自采集的图像库选取1 000幅载体图像、15 000幅隐写图像和4 000幅混杂图像进行实验。其中，图像大小均为512×318或318×512，质量因子为80；隐写图像采用MB1、F5、Outguess、Jphs和Steghide（SH）等5种隐写算法进行嵌入且每种算法均为3000幅（嵌入率分别为25%、50%和100%）；混杂图像包含1 000幅载体图像，且在每种嵌入率（25%、50%、100%）下均包含了以上5种隐写图像各200幅。为了衡量算法的检测性能，传统的作法是使用ROC曲线，但它只能进行定性的描述。为了定量的描述算法的检测效果，本文参考文献［2］的作法，定义阴性检测率（TNR，True Negative Rate）和阳性检测率（TPR，True Positive Rate）的平均值的最大值为正确检测率（AR，Accuracy Rate），作为衡量算法检测性能的指标。计算公式为：

其中，AR为正确检测率，TNR为阴性检测率，TPR（TNR）表示阴性检测率为TNR时的阳性检测率。

3.2 单类集成分类器对检测性能的影响

本文在式（8）的单类分类器的基础上设计了单类集成分类器。为了分析单类集成分类器对算法检测性能的影响，分别采用式（8）的单类分类器以及本文设计的单类集成分类器进行隐写判别（L=19， dsub=8），检测结果如图3所示，其中“Ensemble”和“Single”分别表示单类集成分类器和式（8）的单类分类器。

图3 两种单类分类器的检测结果

从图3可以看出，单类集成分类器的正确检测率相比式（8）的单类分类器有了较大幅度的提高，这说明单类集成分类器能有效提高算法的检测性能。分析原因，在于式（8）的单类分类器仅训练得到一个超球体作为分类边界，导致球体内部包含了较多的隐写图像样本，从而影响了算法的正确检测率。与之不同，单类集成分类器通过构造多个特征子空间分别进行训练，得到由多个超球体组成的分类边界，再利用多数投票法进行融合，减少了超球体内部的隐写样本，能够更准确区分载体图像和隐写图像，提高了算法的检测效果。

同时也发现，相比低嵌入率隐写图像，单类集成分类器更能提高对高嵌入率隐写图像的检测精度。这是因为高嵌入率隐写图像的特征具有较大的数值，与载体图像的特征差异性更大，使得基分类器具有更高分类精度，从而提高了单类集成分类器的检测效果。这也验证了设计具有较高检测率的基分类器是集成学习的关键之一。

3.3 不同方法检测性能比较

为了更加全面地评价本文方法的检测性能，将其与文献［7-8］两种基于多超球面OC-SVM分类器的单类检测方法进行比较。3种方法的检测结果如表1所示，进一步绘制3种方法对混杂图像库检测结果的ROC曲线，如图4所示。

表1 3种单类方法的检测结果（%）

4 结论

提出了一种基于单类集成分类器的JPEG通用隐写分析方法。提取反映DCT块内、块间和DWT层内、层间相关性的共生特征以及DWT子带系数直方图分布特征对图像进行描述，计算检测图像及其原始估计图像所提共生矩阵和直方图分布的对称交互熵作为隐写分析特征，在提高特征空间丰富性和敏感性的同时大大降低了特征的维数，使其更加有效；然后，针对对称交互熵差异特征的特点，设计了单类集成分类器进行隐写判别，进一步提高了算法的分类精度。实验结果验证了本文方法的有效性，而且，本文设计的单类集成分类器具有良好的通用性，可以用于构造基于OC-SVM、SVDD的单类集成分类器。

图4 不同嵌入率下3种单类方法的ROC曲线

［1］熊钢，平西建，张涛，等.一种基于图像内容的最低有效位匹配隐写分析方法［J］.电子与信息学报，2012，34（6）：1380-1387.

［2］FRIDRICH J，KODOVSKY J.Rich models for steganalysis of digital images［J］.IEEE Transactions on Information Forensics and Security，2012，7（3）：868-882.

［3］PEVNY T，FRIDRICH J.Novelty detection in blind steganalysis［C］//ACM workshop on Multimedia and Security，2008，167-176.

［4］毛家发，林家骏.基于净图描述的通用隐写分析技术［J］.计算机学报，2010，33（3）：569-579.

［5］毛家发，钮心忻，杨义先，等.基于JPEG净图定量描述的隐写分析方法［J］.电子学报，2011，39（8）：1907-1912.

［6］戴蒙，林家骏，刘云翔.基于FCM聚类的多超球体一类分类数字图像隐藏信息检测［J］.中国图象图形学报，2008，13（10）：1918-1921.

［7］LUO P S.Research on simulated annealing clustering algorithm in the steganalysis of image based on the one-class support vector machine［C］//International Conference on Computer Application and System Modeling，2010，446-450.

［8］郭艳卿，孔祥维，尤新刚.基于共生特征和集成多超球面OC-SVM的JPEG隐密分析方法［J］.电子与信息学报，2009，31（5）：1180-1184.

［9］KODOVSKY J，FRIDRICH J，HOLUB V.Ensemble classifiers for steganalysis of digital media［J］.IEEE Transactions on Information Forensics and Security，2012，7（2）：432-444.

［10］李卓，陈健，蒋晓宁，等.基于多域特征的JPEG图像盲检测算法［J］.浙江大学学报（工学版），2011，45（9）：1528-1538.

［11］张敏情，雷雨.基于小波系数相关性的空域隐写分析方法［J］.光电子·激光，2012，23（5）：972-979.

［12］KODOVSKY J，FRIDRI CH J.Calibration revisited［C］// ACM Workshop on Multimedia and Security，2009，63-74.

JPEG Universal Steganalysis Based on One-class Ensemble Classifier

LI Wei，ZHANG Shu，QI Rui
（School of Science，Naval University of Engineering，Wuhan 430033，China）

To make a universal steganography detector for JPEG images，a novel method based on one-class ensemble classifier is proposed.The co-occurrence features among neighboring coefficients in both Discrete Cosine Transform（DCT）domain and Discrete Wavelet Transform（DWT）domain and the histogram features of DWT subband coefficients are captured to describe the statistical characteristics of images.The symmetrical cross entropy of the co-occurrence matrices and histogram distributions captured from detection images and their estimated original images is calculated as the steganographicfeatures.Furthermore，aone-classensembleclassifierisdesignedtomake classification，which consists of many base learners using majority rule.Each base learner is independently trained on a cover bootstrap sample building on a randomly selected subspace of the feature space.Experimental results show that the one-class ensemble classifier further improves the algorithm’s detection capability and the proposed method outperforms several multi-hyperspheres OCSVM classifier based one-class steganalysis schemes for higher detection rate.

steganalysis，co-occurrence matrix，symmetrical cross entropy，one-class ensemble classifier

TP391.41

1002-0640（2016）12-0036-05

2015-11-05

2015-12-29

国家自然科学基金（61074191）；海军工程大学自然科学基金资助项目（HJGSK2014G120）

李薇（1970-），女，江苏仪征人，副教授，硕士生导师。研究方向：信息隐藏算法设计。