APP下载

基于残差共生概率的隐写图像载体安全性评价

2018-12-20王丽娜王凯歌徐一波唐奔宵谭选择

计算机研究与发展 2018年12期
关键词:错误率阈值载体

王丽娜 王凯歌 徐一波 唐奔宵 谭选择

(空天信息安全与可信计算教育部重点实验室(武汉大学) 武汉 430072) (武汉大学国家网络安全学院 武汉 430072)

隐写是通过轻微地修改文本、图像等数字载体中的值来嵌入秘密信息的一门技术[1],其目的在于隐藏通信双方的实际通信内容.与隐写技术相对应的隐写分析技术,充分利用信号处理、数理统计、机器学习等理论,通过分析秘密信息嵌入前后载体的统计差异,进而发现并挖掘潜藏在载体中的秘密信息[2].对隐写算法的研究主要围绕在如何嵌入尽可能多秘密信息的同时,尽量少地引入修改痕迹.目前,随着隐写分析技术逐渐完成从简单统计方法向机器学习技术的转变,针对隐写算法安全性的定量或定性演绎主要集中在构建更好的失真度量[3],设计高效的隐写编码以及安全隐藏容量边界[4-5],从而使携密载体在视觉质量和统计特性上尽量逼近原始载体,以提高被嵌入载体的抗检测能力.

在隐写安全性研究方面,文献[1]提出将最大均值差异(maximum mean discrepency, MMD)作为信息隐藏算法的安全性指标,该指标比KL散度(Kullback-Leibler divergence)[6]的计算复杂度更低,且在高维度空间更加稳定;文献[7]利用Fisher信息量对给出了安全嵌入容量并对安全嵌入量进行优化;文献[8]对平方根法则进行改进,进而提高了信息隐藏中平方根法则的实际应用能力;文献[9]中,研究人员将图像的像素建模为n阶Markov,以此衡量图像信息隐藏算法安全性.除此之外,文献[10]基于博弈论提出了一种衡量信息隐藏算法安全性的方法.隐写算法安全性的提高主要依赖于2个方面:1)自适应的隐写方法,其可以选择图像中更加安全的位置进行隐写[11];2)尽可能降低隐写嵌入带来的修改量[12].随着双层校验格码(syndrome tellis codes, STC)[13]在信息隐藏中的应用,这2个方面都得到了很好的满足,隐写算法的安全性得到了一次飞跃性的提升,导致目前信息隐藏研究发展速度有所放缓.信息隐藏技术研究难以突破STC框架,只是在失真函数方面做部分修改[14-16],这些改进一般针对某些不足做修修补补,很难给隐藏性能带来较大提高.

以往关于隐写算法安全性的研究与验证,基本是在固定的测试集上对比隐写分析检测率,以此反映隐写算法的反检测能力.但是,隐写算法在嵌入实际样本时,其安全性并不能完全得到隐写算法安全性的保证.实验过程中发现,样本载体会对实际隐写过程的安全性产生较大影响:当隐写算法应用在不同的样本载体时,算法抗检测能力会出现较大偏差.经过深入分析后我们发现,产生这一现象的原因在于:图像载体自身所具备的噪声特性对于隐写算法的适配性存在差异.本文认为:可以通过对隐写载体进行系统的安全性评价,以提升隐写算法安全性.

本文在实验发现的基础上,从嵌入载体自身特性和规律的角度出发,通过提取不同嵌入效果的样本载体噪声分布特征,设计并实现了一种样本载体安全性的评价方法,并将该方法运用于样本载体预筛选上.实验结果表明:与随机选取样本图像载体相比,通过本文方法进行预筛选后的载体图像,在多种隐写算法、隐写分析与嵌入率下的检测错误率平均提高了3.8~11.8个百分点,有效地提高了实际应用中信息隐写的安全性.

本文的贡献主要体现在3个方面:

1) 针对隐写载体进行信息嵌入时产生的安全性差异问题,对隐写样本载体进行了全面详细的理论分析与实际验证,通过聚类的方法探索并验证了载体安全性问题的存在;

2) 在隐写载体安全性差异分析结果的基础上,提出高通滤波残差共生概率矩阵描述载体噪声,并通过特征概率分布设计了载体安全性评价方法,该方法可以显著提升载体安全性;

3) 通过大量、完善的实验分析,验证了本文安全性评价方法的有效性,该方法应用于图像载体预筛选后,可以明显降低隐蔽信息被检测的概率,极大提高隐写的安全性.

本文方法对图像载体安全性进行验证和研究,提出一种实际效果更加有效的隐写方案,相比于隐写算法安全性提升,本文方法对于安全性的贡献更高,兼具学术与应用价值.

1 相关技术

1.1 图像卷积

图像卷积是图像处理的最基本方法之一,其本质是对图像进行线性滤波的过程[17].图像卷积在图像处理中有着广泛的应用,通过卷积操作,可以快捷地完成图像锐化、边缘检测、均值模糊等处理.

图像卷积过程中,输出像素是输入像素邻域的加权和,即计算2维图像中每一个像素点与卷积核对应元素的乘积之和,然后以其结果作为该像素位置的值.卷积相当于将一个2维函数移动到另一个2维函数的所有位置,其中,卷积核为一个2维的滤波器矩阵.对于一个卷积核而言,周围的邻域的值代表中心的被卷积的像素点周围像素点对其影响力的权重.通过设计不同形式的卷积核,以实现对图像不同的滤波效果.

在卷积核的设计上,存在一定的规则要求:首先,卷积核的大小为奇数,以保证卷积核存在中心.假设卷积核的大小为n,则该卷积核的半径为(n+1)/2;其次,如果需要保证卷积前后图像的亮度保持一致,卷积核中所有元素之和应为1.如果卷积核元素之和大于1,则卷积后的图像会比原图像亮,反之则卷积后的图像变暗.本文中卷积用于计算样本图像的残差矩阵,该矩阵反映图像中像素与其邻域像素之间的差异程度.

1.2 灰度共生矩阵

灰度共生矩阵是一种通过研究灰度的空间相关特性来描述纹理的常用方法,Haralick等人[18]在1973年最先提出用灰度共生关系来描述图像纹理特征.由于纹理是由灰度分布在空间位置上反复出现而形成的,因而在图像空间中相隔某距离的2像素之间会存在一定的灰度关系,即图像中灰度的空间相关特性.

灰度空间相关特性通过统计指定方向上的灰度关系表示,对于一张拥有p种不同像素值的灰度图像,会在特定方向上产生p×p大小的共生矩阵,矩阵中(i,j)th处的值表示原图像中指定方向上ith和jth像素关联出现的次数,如图1所示:

Fig. 1 Example of calculating co-occurrence matrix图1 计算灰度共生矩阵

为了使得对纹理的描述信息不受旋转的影响,通常在多个方向上进行计算与统计.无论是否考虑图像的灰度值或者颜色的各种维度,共生矩阵都能很好地描述图像的纹理.

2 图像载体安全性分析与验证

2.1 残差共生矩阵特征

隐写检测是对极低信噪比的隐写信息进行识别的过程.若将载体的复杂纹理看作噪声,则在隐写强度一定的情况下,噪声强度越大,越有利于隐写.

通过卷积操作对样本图像的灰度图Ig进行滤波,提取图像中的噪声残差,该过程可以表示为Ig*K,其中K为高通卷积核,*为卷积操作:

(1)

得到原图像的残差矩阵D=I*K=(di j),其中i,j=1,2,…,N.

在残差矩阵中,对应于原图像位置的数值的绝对值越大,则代表该像素点处噪声越大;反之,若残差矩阵中的数值绝对值越接近0,则表示原图像该点处越平滑,噪声越小.对残差矩阵进行截断以降低矩阵的状态:将残差矩阵中小于-T和大于T的值,分别直接截断到-T和T,本文中T=3,将图像残差分为了7个等级:

(2)

通过统计残差矩阵相邻像素对在4个方向上的出现频率,计算残差矩阵的共生概率矩阵Ch(),Cv(),Cd(),Cm(),用于描述图像中的噪声分布情况.本文使用的4种共生关系如图2所示:

Fig. 2 Symbiotic relationship of residual matrix图2 残差矩阵共生关系

因为残差矩阵截断后各点的取值范围为[-3,3],所以残差矩阵的每一种共生关系包含49维元素.4种共生关系对应的共生概率矩阵可以描述为

(3)

(4)

(5)

(6)

其中,M,N表示载体图像的尺寸,u,v∈[-T,T],δ(·)描述为

(7)

4个共生关系共得到4(2T+1)2=196维的噪声特征F=(Fh,Fv,Fd,Fm).

2.2 噪声分布聚类

若载体图像安全性可以由图像本身的噪声分布决定,那么F接近的载体应具有相似的隐写安全性.为验证该猜想,本节中对2.1节得到的图像噪声特征进行聚类.假设验证阶段的聚类算法描述如算法1所示:

算法1. 噪声分布特征聚类算法.

输入:载体噪声分布特征集合fs={f1,f2,…,fn}、聚类簇数k=3;

输出:簇类划分c={c1,c2,c3}.

① iffs≠∅ then

② foreachfiinfs

④ end for

⑤ 选择k个相距最远的特征作为初始中心{Centroid1,Centroid2,Centroid3};

⑥ while任意初始中心Centroid发生变化,或者聚类中特征平方和最小do

⑦ foreachfiinfs

⑧ 计算特征向量fi与各中心Centroidj(1≤j≤3)之间的距离di j;

⑨ 将fi划入具有最短中心距离

⑩ end for

通过迭代聚类中心的方式进行聚类分析.首先计算所有噪声分布特征fi之间的相似程度,以欧氏距离di j表示.而后,根据噪声分布情况,使用贪心算法从特征集中选取k=3个间距最大的特征作为初始聚类中心,k=3表示希望将载体集根据安全性排序依次分为安全性高、安全性一般以及安全性差的3类c1,c2,c3.迭代更新聚类中心,每一轮迭代中计算除当前中心外的所有噪声分布特征fi与当前各个聚类中心Cenrtoidj之间的距离,并将该特征分配到与其距离最近的类别中,设噪声集合中包含m条特征fi=(x1,x2,…,xn),n=196,1≤i≤m,对于每一个特征fi,计算其应该属于的类别:

(8)

其中,j表示聚类类别;ci表示样本特征fi与k个类中距离最近的类,其取值为[1,k].每轮结束后重新计算各个聚类的中心Centroidj:

(9)

迭代的结束条件为当前聚类中对象的方差Var最小,或中心不发生改变:

(10)

2.3 安全性验证与分类

本文通过如下实验步骤,对不同噪声分布的载体的隐写安全差异性进行分析与验证:

1) 在BOSS[19]库中通过上述方法对原始样本进行聚类,并分别从聚类得到的3个类别中各随机选取10 000张图像作为实验样本,以HUGO[20]算法进行隐写,嵌入率为0.4.2)在同一样本库内随机选取额外10 000张图像作为测试样本,隐写检测方法选用SPAM[21],分类器采用随机森林.3)考虑到实际隐写与隐写分析过程中可能出现跨样本库的情况,从BOWS[22]库中额外选取3 000张图像作为测试样本进行相同的隐写分析,检测结果如表1所示:

Table 1 Steganalysis Results of the 3 Categories ofCarrier Sets

Note:The detection accuracy of category 1 is the lowest.

从表1可以看出,基于BOSS图像库的3类样本载体的检测率存在明显差异,其中第1类样本载体的cover检测率仅为0.38,平均检测率为0.537,远低于第2类样本载体的平均检测率0.581 5与第3类样本载体的平均检测率0.886 5.上述结果表明,样本库相同时,使用第1类中的图像作为载体进行隐写可以有效降低被SPAM算法检测到的概率,提高隐写的安全性,而使用第3类图像样本作为载体时被检测的成功率高,不适合作为隐写载体.

改变测试样本来源为BOWS图像库后,由于跨图像库导致3类检测率相较于BOSS库都有一定幅度的降低,但整体检测率分布趋势基本与BOSS库中实验结果类似:以第1类载体进行隐写嵌入的图像平均检测率最低,为0.517 5,明显低于第2类样本载体的0.567 5,第3类样本载体的检测准确率最高,达到0.775,载体进行HUGO隐写时安全性最低.以上实验结果与本文猜想一致,即图像载体安全性可以由载体本身的噪声分布情况描述.

我们将最终3个聚类的中心映射到[0,255]区间上,并进行降维,得到3个不同安全性聚类的标准特征Fs,k:

(11)

其中,k表示载体类别,定义进行隐写嵌入后具有安全性最高的类别为第1类载体集,其标准特征(上述实验中第1类聚类的最终质心)为Fs,1,根据载体隐写安全性递减,依次是第2类载体集Fs,2、第3类载体集Fs,3,3类载体对应的标准特征分布矩阵如图3所示:

Fig. 3 Standard feature distributions of three categories of secure carrier图3 3类安全性载体标准特征分布

从图3可以看出,载体噪声分布矩阵由第1类载体特征到第3类载体特征依次逐渐地向中心聚拢,第1类载体中噪声分布比较平均,与其他2类载体相比,分布更加分散.随着安全性降低,第2类、第3类载体噪声分布向中心聚拢的程度更大,分布更加集中.由特征提取的方法可知,噪声矩阵中分布越靠近中心代表载体图像的噪声越平滑,分布越分散,表示该载体图像存在更多的复杂噪声,这也符合直观上载体噪声越大、图像内容越复杂,则其安全性越高的感受.

3 图像载体安全性评价

基于第2节中载体噪声分布对隐写安全性的研究结果,设计了一种评价载体安全性的衡量指标,并运用于隐写载体的预筛选过程.隐写载体安全性评价体系与样本载体预筛选流程如图4所示:

Fig. 4 Procedure of the security assessment method and pre-selection for image carriers图4 图像载体安全性评价与样本预筛选流程

载体安全性评价与筛选过程中,首先对待筛选图像提取噪声分布特征,特征的提取方法与2.1节中基本一致:1)对样本图像进行卷积操作,计算图像残差矩阵;2)计算残差矩阵对应的4种共生概率矩阵,对其进行映射和降维操作后,作为该图像的噪声分布特征.

第2节中验证了具有相似噪声分布的载体图像之间的隐写安全性相近,因此,相比于其他2类标准特征,同一个样本库中载体的噪声分布越接近第1类标准特征Fs,1,则它们的安全性越高,这种相似性可以用载体图像噪声分布特征与标准特征之间的相关性来描述:

(12)

其中,S表示对于待评价样本图像的安全性评价,通过计算噪声分布特征Fn与第1类标准特征之间的相关性的绝对值得到,Fs,1为第1类载体噪声分布特征如图5所示:

Fig. 5 Feature of noise distribution of Fs,1图5 第1类安全载体噪声分布特征

式(12)中,N=7×7为噪声特征长度,S的取值范围为[0,1],S值越大表示待评价载体的安全性越高,实际隐写过程前,通过设定合适的阈值对备选样本进行预筛选.S所表示的载体安全性的阈值选择将在实验部分讨论.

4 实验与分析

本节中将对图像载体安全性评价方法进行全面的实验评估,实验部分的图像样本全部来自于BOSS标准图像库与BOWS标准图像库,实验过程中所选取的图像均为随机抽取.本节中,首先对载体安全性评价方法中阈值S进行讨论,然后针对载体安全性评价方法的实际应用效果进行验证分析:分别采用S-UNIWARD[23],WOW[24],HUGO[20]算法对样本载体以不同嵌入率进行信息嵌入,而后通过SPAM[21]与SRM[25]隐写分析方法依次对3种隐写算法嵌入的图像进行交叉检测.

4.1 载体安全性阈值分析

安全载体的筛选取决于安全性评价方法中阈值S的选择.理论上,S越大则被筛选出的载体图像的安全性越高.但是,筛选过程中随着S值增高,可用载体数量也会随之减少,而载体数量如果太少则不利于隐写的实际应用.

为了分析阈值S对隐写安全性以及样本筛选数量的影响,本文通过HUGO算法对随机抽取的10 000张图像进行信息嵌入,嵌入率分别为0.1,0.2,0.3,0.4,在阈值S取值0.4,0.5与0.6下利用SPAM方法分别进行隐写检测,并统计检测错误率作为安全性的衡量指标,实验结果如图6所示:

Fig. 6 The experimental results of selecting thresholds图6 载体筛选阈值实验结果

图6(a)中方形代表载体预筛选过程中阈值S=0.4时进行样本筛选后的检测错误率,圆点表示阈值S=0.5时检测错误率,正三角表示以阈值S=0.6时进行样本筛选后的检测错误率,倒三角对应虚线表示随机抽取5 000张图像作为载体时的检测错误率.实验结果中,检测错误率越高表示载体集的安全性越强,检测错误率随着嵌入率的增加而降低的速率越小代表载体集安全性越稳定.从图6(a)中可以看出,当阈值S=0.4时,载体集在4种嵌入率下的检测错误率均为最低,甚至略低于随机抽取的载体集的安全性,且随着嵌入率的增加,检测错误率有较大幅度的下降.当嵌入率为0.1时,检测错误率为0.484 5,与另外3个实验载体集所对应的检测错误率差距较小,但当嵌入率增加到0.4时,检测错误率仅为0.333 9,远低于阈值为0.5与0.6时的错误率,并且低于随机抽取情况下的37.32%.上述结果说明以S=0.4筛选出的载体集与随机抽取的载体集中的载体分布相似,均包含了许多安全性较低的载体,导致样本集整体的安全性低.

当阈值S取值增加到0.5后,安全载体集检测错误率出现明显提高,4种嵌入率下的检测错误率分别为0.492 8,0.482 4,0.462 0,0.442 3,远高于阈值0.4对应载体集与随机载体集的检测结果.此外,随着嵌入率从0.1增加到0.4,安全载体集的检测错误率只降低了5.1个百分点,降低的幅度较小,经筛选后的载体集具有更高的安全性与稳定性.

阈值取值增加到0.6后,筛选出的载体集在低嵌入率下安全性提高不明显,嵌入率为0.1,0.2,0.3时,检测错误率分别为0.490 2,0.482 6,0.466 7,与阈值S=0.5对应结果差异较小.当嵌入率达到0.4时,检测错误率有明显提升,错误率稳在0.466左右,整体载体集的安全性受到嵌入率的影响小,仅下降了2.4个百分点.上述结果表明,在本节实验环境下,被筛选的载体集安全性与阈值S取值同步上升直到阈值达到0.5后趋近稳定.

实际隐写过程中阈值S确定还需要考虑被筛选出的样本数量,符合要求的载体样本数量越少则载体集内图像的综合安全性越高,但样本数量太少不利于隐写的实施.图6(b)表示进行筛选后符合要求的载体数量与阈值之间的关系,基础的图像载体数量为10 000.当阈值S=0.4时,符合要求的载体数量为8 204,约为整体样本集的4/5,但由前面实验结果可知,该阈值下的载体安全性与随机选取的载体集安全性接近,并没有达到提高隐写安全性的效果.

当阈值S=0.5时,筛选出的样本数量为4 313,样本数量充裕,同时筛选出的载体集已经具有较高的抗检测能力,但依然存在上升空间.当阈值S提高到0.6时,载体集的安全性提升空间接近上限,而符合要求的载体数量下降到1 322.综合考虑筛选载体数量以及载体集综合安全稳定性,建议阈值范围为0.5~0.6,本节后续实验中采用S=0.6作为安全载体预筛选阈值.

4.2 载体安全性评价与样本预筛选效果分析

4.2.1 基于SPAM的安全性验证

本节将对载体安全性评价方法的实际效果进行分析与评价.首先,利用载体安全性评价方法对样本载体进行预筛选,从样本库中选取1 000张图像作为安全载体集.接着,从相同图像库中随机选取等同数量的图像作为对比载体集.为检验安全性评价方法对不同隐写算法的敏感程度,分别使用S-UNIWARD,WOW,HUGO算法对2个载体集进行同样的信息嵌入,嵌入率为0.1,0.2,0.3,0.4.采用SPAM隐写分析方法对上述载体集进行隐写检测,实验结果如图7所示:

Fig. 7 Steganalysis results based on SPAM图7 基于SPAM隐写分析结果

通过SPAM方法进行隐写分析的实验结果中,正三角表示安全载体集下的检测错误率,圆点表示基于随机载体集的检测错误率,3个子图分别代表3种嵌入算法.3种嵌入算法下,与随机选择载体相比,通过安全性评价进行预筛选后的安全载体集在抗检测能力上都有明显的提升.其中,以S -UNIWARD进行信息嵌入时安全性提升最为明显,在4种嵌入率下的检测错误率为0.497,0.470 5,0.463 7,0.447 8,检测错误率均保持在44%以上,载体集安全性受到嵌入率的影响较小,4种嵌入率下的检测错误率与随机载体集相比分别提高了4.1,4.46,9.15,10.59个百分点.利用WOW进行信息嵌入的实验结果与S-UNIWARD相似,经过预筛选的安全载体集的检测错误率在各个嵌入率下均明显高于随机载体集,在嵌入率为0.1时最高,为0.498 5,当嵌入率增加到0.4时检测错误率有所降低,但仍然保持在0.45以上,随机载体集中的检测错误率在嵌入率为0.1时只比筛选后的安全载体集对应检测错误率低2.04个百分点.但是,随着嵌入率上升到0.4,检测错误率快速下降低,相比于安全载体集低了约6个百分点.通过HUGO进行信息嵌入的实验结果中,当嵌入率为10%时,安全载体集与随机载体集上的检测错误率均接近0.49,随着嵌入率的增加,2个载体集的抗检测能力差距逐渐拉大,在嵌入率为0.2,0.3,0.4时,安全载体集的检测错误率分别提高了3.18,5.82,6.06个百分点.

上述结果表明,通过本文方法预筛选的安全载体集能够在对抗SPAM隐写分析方法时极大地提高隐写安全性,被筛选出的载体安全性能稳定,对于嵌入率、嵌入算法等外在因素不敏感.

4.2.2 基于SRM的安全性验证

为了研究本文所提出的载体安全性评价方法对于隐写分析方法的敏感程度,我们对相同的2个样本集增加SRM隐写分析实验,实验结果如图8所示.

Fig. 8 Steganalysis results based on SRM图8 基于SRM隐写分析结果

与SPAM隐写分析的检测结果相似,安全载体集在对抗SRM检测上同样拥有很好的效果.其中,通过S-UNIWARD算法进行信息嵌入时,在嵌入率为0.1,0.2,0.3,0.4的情况下,安全载体集的检测错误率最高达到0.484 9,最低保持在0.34左右,检测错误率与随机载体集相比分别提高了6.36,10.59,12.93,8.47个百分点.在以WOW算法进行嵌入的实验中,安全载体集的抗检测能力在多种嵌入率下同样明显强于随机载体集,其检测错误率分布在0.484 1~0.348 7之间,平均错误率为0.420 9,远远高于随机载体集的平均检测错误率0.337 4.图8(c)中,以HUGO算法进行信息嵌入的随机载体集与安全载体集在对抗SRM隐写分析时整体效果均有所下降.然而通过预筛选的安全载体集,在各个嵌入率下仍然具有较高的安全性,检测错误率平均提高了6.05~ 10.67个百分点.

上述实验证明,本文提出的评价方法能够有效反映载体图像的安全性,经过该方法筛选后的载体集对抗多种隐写分析方法的检测时,在多种嵌入率、隐写方法的情况下,均能有效且稳定地提高隐写安全性.

6 总 结

本文将隐写安全性分为算法安全和载体安全2个方面,从载体自身属性的角度出发,计算载体图像的残差矩阵与共生矩阵,提取载体图像中的噪声分布特征,并对载体噪声特征进行聚类分析,验证了不同噪声分布的载体对隐写安全性存在显著影响.基于分析验证结论,提出了一种图像载体安全性评价方法,该方法以样本载体噪声分布特征之间的相关性为基础,计算待嵌入图像载体与已验证安全载体之间的相似度,对待嵌入样本进行安全性评估.实验证明:本文提出的载体安全性评价方法可以有效评价载体的安全性,将该方法应用于隐写载体预筛选后,在各种嵌入率下,都可以极大地降低主流隐写分析的检测率,且受隐写算法、载体来源等因素影响较小.

猜你喜欢

错误率阈值载体
创新举措强载体 为侨服务加速跑
土石坝坝体失稳破坏降水阈值的确定方法
坚持以活动为载体有效拓展港澳台海外统战工作
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
小学生分数计算高错误率成因及对策
正视错误,寻求策略
解析小学高段学生英语单词抄写作业错误原因
辽宁强对流天气物理量阈值探索统计分析
降低学生计算错误率的有效策略
一种改进的小波阈值降噪方法