针对空域LSB匹配的隐藏信息检测方法
2013-07-31杨林聪夏志华
杨林聪,夏志华
(1.南京信息工程大学 语言文化学院,江苏 南京,210044;2.南京信息工程大学 计算机与软件学院,江苏 南京,210044)
数字隐写术利用人类的视觉、 听觉等感知冗余以及多媒体的数据冗余,将秘密信息嵌入到公开的数字媒体中[1-2]。 隐写分析以检测和提取秘密信息为目的,判断隐藏信息是否存在,估计密钥并提取秘密信息。目前,隐写分析的研究主要集中于秘密信息存在性的检测,为此,本文作者对灰度图像中空域 LSB(least significant bit)匹配隐写的检测进行研究。现有的LSB匹配的隐写分析方法主要分为两大类∶ 针对型和通用型检测方法。其中,针对型方法设计1个统计特征,并对此特征设定1个阈值以判断待检测图像是否隐藏信息。通用型方法通常提取对信息嵌入敏感的多维特征向量,然后,用基于学习的方法从大量样本中学习载体与载密图像之间的差别,以训练出1个分类器来对秘密信息进行检测。在针对型方法中,Harmsen等[3]将信息嵌入看成独立加性噪声,提取直方图特征函数质心检测隐藏信息。Ker[4]对Harmsen的方法进行了以下改进:(1) 用二维直方图代替了一维直方图;(2)用下采样图像作为载体图像的校准版本对特征进行校准。Fridrich等[5]提出了基于最大似然估计的检测方法,能估计嵌入的信息长度。然而,此算法在检测未压缩图像时效果较差。为解决高噪声图像的检测问题,Zhang[6]利用信息隐藏对图像直方图局部极值的影响提取特征,然而,此算法在检测用 JPEG(joint photographic experts group)压缩过的图像时效果不佳。在通用型检测算法中,Goljan等[7-8]从小波域提取特征来训练分类器。Pevny[9]根据相邻像素之间的依赖关系会受到信息隐藏的扰乱,利用马尔可夫模型提取相应的特征,并用支持向量机对特征进行训练和测试。Liu等[10]利用图像最低和次低位平面内部的相关性提取特征,并指出随着图像复杂度的提高,其算法的检测性能降低。许漫刊等[11-12]利用LSB匹配嵌入对直方图的影响提取多维特征来训练分类器。对于针对型和通用型检测方法,其关键在于设计具有的区分图像是否含有隐藏信息的特征。尽管LSB匹配嵌入的信息不会对人类视觉产生影响,但其无可避免地改变了图像的某些特性,如空域LSB匹配嵌入可被模拟成在图像中加入独立噪声,这会使图像直方图变平滑,并扰乱图像相邻像素之间的相关性。为此,本文作者针对性地提出基于图像直方图与图像相邻像素相关性特征的检测方法。
1 特征提取
将隐写分析看成二类模式分类问题,特征提取是此问题的关键。 自然图像的某些基本属性会受到信息隐藏的影响如图像直方图以及图像相邻像素之间的相关性而发生改变。下面提取基于这些图像属性的特征。
1.1 图像直方图特征
1.1.1 LSB匹配嵌入策略
将灰度图像用I表示,则图像像素点可表示为0≤I(i,j)<2L,0≤i<M,0≤j<N。 其中:L为像素灰度值阶数;M和N分别为图像的高度和宽度。设(i,j)处的载体图像的灰度为Ic(i,j),嵌入信息后的灰度为Is(i,j),秘密信息比特为b,则LSB匹配嵌入的基本策略如下:
1.1.2 LSB匹配对图像直方图的影响
定义图像的像素直方图h(n)=|{(i,j)|I(i,j)=n}|。将LSB匹配嵌入模拟成在图像中加独立加性噪声,设嵌入率为p,则LSB匹配嵌入对图像直方图的影响可以表示如下:
若忽略直方图边界,则LSB匹配可看成用滤波器[p/4,1-p/2,p/4]对图像直方图进行低通滤波,这会使得图像直方图变平滑。
1.1.3 图像直方图特征提取
定义图像直方图相邻元素的绝对差数组如下:
在Dh(i)的元素中,值较大的元素受到 LSB匹配嵌入的影响较大。对图像Dh(i)中的元素进行排序,取T个最大的Dh(i)的元素作为特征。定义图像直方图梯度能量为:
由于LSB匹配会使得图像直方图变平滑,LSB匹配嵌入后,载密图像的Ehg应该比载体图像的小,因此,Ehg也可作为特征来检测隐秘信息[11]。
1.2 图像相关性特征
在图像获取过程中,相机的颜色插值与校正、降噪及滤波等过程会使相邻像素有很强的相关性。 由于秘密信息与图像是相互独立的,图像相邻像素之间的相关性会被秘密信息所扰乱[9]。
图像相邻像素之间的相关性可由图像相邻像素之间的差来表示。假定存在相邻像素对(a,b),经过LSB匹配嵌入后,a与b以相等的概率加减1或者保持不变,那么,像素对的差值d=a-b也以一定概率p加减1、加减2或者保持不变,见表1。注意:表1没有考虑像素为0和255的像素。
图1 3 162幅图像水平相邻像素差的平均分布Fig.1 Average distribution of horizontal difference calculated from 3 162 images
表1 LSB匹配嵌入对相邻像素差的影响Table 1 Change of difference between adjacent pixels after LSB matching
表2 LSB匹配嵌入对相邻像素差的各种改变概率Table 2 Change of difference probability caused by LSBmatching
当嵌入率为1 byte/像素时,LSB匹配嵌入会对相邻像素差按照一定的概率发生改变,如表2所示。由表2可知:不管相邻像素差是多少,LSB都会按一定比率加减1、加减2或者保持不变。而在自然图像中,相邻像素之间的差服从以0为中心的高斯分布,如图1所示。
经过嵌入后,相邻像素之间差为0的数量减少,如图2所示。本文运用共生矩阵模型对图像相邻像素之间的差进行建模,以提取图像相邻像素相关性特征。首先,沿水平(h)、垂直(v)、斜线(d)及反斜线(m) 4个方向计算相邻像素差,得到4个差分图像:
图2 信息嵌入前后水平相邻像素差的概率Fig.2 Probability of difference before and after LSB embedding
然后,从上述4个差分图像分别统计出4个共生参数Ch,Cv,Cd和Cm:
其中:若x=y,则否则,ϒ(x,y) = 0 。
最后,对4个共生矩阵相对应的元素取平均值,构成最终的特征矩阵,此矩阵中的元素可用于检测秘密信息的特征。
1.3 特征校准
由于自然图像的多样性,从自然图中提取的特征也具有不平稳性,故由信息嵌入造成的图像特征的变化很可能被图像特征本身的多样性所掩盖。一般地,在原始图像中嵌入信息对原始图像的影响较大,而对载密图像进行信息再嵌入对载密图像的影响较小,因此,对待检测图像进行信息嵌入,构造1幅对应的校准图像,分别从待检测图像和校准图像提取特征,将对应特征的比值作为最终特征。综上所述,检测算法归纳如下:
(1) 对检测图像用LSB匹配进行嵌入,嵌入率为100%,得到对应的校准图像。
(2) 分别从待检测图像和校准图像提取直方图特征和相关性特征,并用待检测图像的特征与校准图像的特征的比值作为最终特征,组成特征向量。
(3) 在图像库中,用支持向量机对特征向量进行训练和检测。
2 实验结果与分析
在2个图像库上对提出的算法进行性能验证,并与Ker[4]和Liu等[10]的算法进行比较。
2.1 训练与测试图像库
NRCS为3 162幅未压缩的图像;FREEFOTO为10 408幅JPEG压缩过的图像,量化因子为75。 将所有图像转变成灰度BMP图像,作为载体图像用LSB匹配方法进行嵌入,嵌入比率包括100%,75%,50%和25%。 对于NRCS库,本文用2 000幅载体图像和2 000幅相应的载密图像来训练分类器。在2 000幅载密图像中,4种嵌入比率的载密图像各含500幅;测试图像库由1 162幅载体图像和1 162×4=4 648幅载密图像组成。对于FREEFOTO库,用6 000幅载体图像和6 000幅载密图像来训练分类器;测试图像库由4 408幅载体图像和4 408×4=17 632幅载密图像组成。
2.2 检测算法参数设置
在实验中,本文取T=20个图像直方图相邻元素的绝对差作为图像直方图特征。另外,在提取相关性特征时,设定式(7)中的参数s和t,s和t∈{-3,-2,…,2,3}来限定特征维数,提取 7×7=49个图像相关性特征。联合直方图梯度能量Ehg,共提取20+49+1=70个特征,参数通过实验的方法设定用LIBSVM来训练和测试分类器。选用RBF核函数,并用Grid搜索来确定核函数参数γ和错分惩罚因子C。各检测算法的支持向量机的参数见表3。
表3 支持向量机参数对(lg C,lg γ)Table 3 Parameters of SVM (lg C,lg γ)
2.3 实验结果
采用检测可靠性ρ来评价检测方法的性能,其定义如下:
式中:A为ROC曲线下面的面积。 各检测算法的性能ROC曲线见图3和图4,各算法的检测可靠性ρ见表4。
2.4 结果分析
同一个隐藏算法在不同图像中隐藏的信息,其隐蔽性是有差异的,而且基于不同特征提取模型设计的隐藏信息检测算法对不同图像库的检测效果也不尽相同。
图3 不同嵌入率下3种方法对图像库NRCS的检测性能Fig.3 Performance comparison of methods on the detection of NRCS
图4 不同嵌入率下3种方法对图像库FREEFOTO的检测性能Fig.4 Performance comparison of methods on detection of FREEFOTO
表4 各检测算法的可靠性Table 4 Detection reliability of methods
实验中用了2个图像库NRCS和FREEFOTO对本文算法进行测试,其中NRCS包含的是从未经过压缩的图像,其图像纹理丰富,噪声成分较多;FREEFOTO包含了用JPEG压缩过得图像,其图像所含噪声成分相对较低。 从整体上来讲,含噪声成分较多的NRCS图像中隐藏的信息与FREEFOTO图像相比更难检测。 这是因为LSB匹配嵌入的信息通常可以看出强度很弱的加性噪声,此类噪声很容易被图像中原有的噪声淹没,因此,载体图像中本来的噪声能对隐藏信息起到很好的掩护作用。
基于不同特征提取模型设计的隐藏信息检测算法对不同图像库的检测效果也不尽相同。从表4可知:与比FREEFOTO相比,Ker[4]的特征在检测NRCS图像时更具优势。Ker[4]利用信息嵌入对图像直方图的影响检测隐藏信息。从本文理论推导可知,任何图像在嵌入信息之后直方图都会变平滑,因此,Ker[4]的算法在检测2个图像库时都应该有较好的检测性能。然而,从实验结果可以看出,Ker[4]检测图像库NRCS时的精度要比检测 FREEFOTO时精度要高。其原因是图像经过JPEG压缩后,其直方图变平滑,见图5。因此,LSB匹配嵌入对经过JPEG压缩过的图像的直方图平滑效果,要比未经过压缩的图像的平滑效果影响弱。
Liu的检测方法是基本信息嵌入对图像相关性的干扰提取特征,而 FREEFOTO中图像相邻像素之间的相关性较高,更易受到LSB匹配嵌入的干扰,因此,其算法在检测JPEG压缩过的图像时更有优势。本文算法全面考虑了 LSB匹配对图像直方图和图像相关性的影响,并用校准图像对特征进行校准,因而,获得的检测效果更好。
图5 压缩因子为75时未压缩过的和JPEG压缩过的图像EghFig.5 Egh of Uncompressed and JPEG-compressed when quantization quality is 75
3 结论
(1) 将LSB匹配嵌入模拟成像图像中添加独立加性噪声,分析了LSB匹配对图像直方图和图像相关性的影响。在检测LSB匹配算法时,应全面考虑信息嵌入对这2类图像属性的影响。
(2) 根据LSB匹配对图像造成的影响,利用差分模型和共生矩阵,提取了21个直方图特征和49个相关性特征。运用嵌入信息的方法为待检测图像构造校准图像,减小了图像内容对隐藏信息检测算法的负面影响。
(3) 基于图像直方图的特征在检测未压缩过的图像时更具优势,而基于图像相关性的特征则更擅长检测含噪声较少的图像中的隐藏信息。本文算法全面考虑了LSB匹配对图像直方图和图像相关性的影响,并用校准图像对特征进行校准,因而获得了最佳的检测效果。
[1]Lou D C, Hu C H.LSB steganographic method based on reversible histogram transformation function for resisting statistical steganalysis[J].Information Sciences, 2012, 188(4)∶346-358.
[2]Saha B, Sharma S.Steganographic techniques of data hiding using digital images[J].Defence Science Journal, 2012, 62(1)∶11-18.
[3]Harmsen J J, Pearlman W A.Steganalysis of additive noise modelable information hiding[C]//5th Conference on Security and Watermarking of Multimedia Contents.Santa Clara, Canada,2003∶ 131-142.
[4]Ker A D.Steganalysis of LSB matching in grayscale images[J].IEEE Signal Processing Letters, 2005, 12(6)∶ 441-444.
[5]Fridrich J, Soukal D, Goljan X.Maximum likelihood estimation of length of secret message embedded using +/- K steganography in spatial domain[C]//Security, Steganography and Watermarking of Multimedia Contents VII.Bellingham, 2005∶ 595-606.
[6]Zhang J, Cox I J, Doerr G, Ieee.Steganalysis for LSB matching in images with high-frequency noise[C]//9th IEEE Workshop on Multimedia Signal Processing.New York, 2007∶ 385-388.
[7]Goljan M, Fridrich J, Holotyak T.New blind steganalysis and its implications[C]//Security, Steganography and Watermarking of Multimedia Contents VIII.Bellingham, 2006∶ 7201-7213.
[8]Holotyak T, Fridrich J, Voloshynovskiy S.Blind statistical steganalysis of additive steganography using wavelet higher order statistics[C]//9th International Conference on Communications and Multimedia Security.Salzburg, Austria,2005∶ 273-274.
[9]Pevny T, Bas P, Fridrich J.Steganalysis by subtractive pixel adjacency matrix[C]//11th ACM Workshop on Multimedia Security Princeton, NJ, USA, 2009∶ 75-83.
[10]Liu Q Z, Sung A H, Ribeiro B, et al.Image complexity and feature mining for steganalysis of least significant bit matching steganography[J].Information Sciences, 2008, 178(1)∶ 21-36.
[11]许漫坤, 李天昀, 平西建.基于小波估计和直方图特征的LSB匹配分析[J].计算机工程, 2009, 35(19)∶ 4-6.XU Mankun, LI Tianyun, PING Xijian.Steganalysis of LSB matching based on wavelet estimation and histogram features[J].Computer Engineering, 2009, 35(19)∶ 4-6.
[12]Cancelli G, Doerr G, Cox I J, et al.Detection of ± LSB steganography based on the amplitude of histogram local extrema[C]//15th IEEE International Conference on Image Processing.San Diego,USA, 2008∶ 1288-1291.