APP下载

一种改进的基于生成对抗网络的信息隐藏模型

2020-01-03曹寅潘子宇

现代信息科技 2020年16期
关键词:信息安全深度学习

曹寅 潘子宇

摘  要:信息作为互联网络的基础,信息安全是其中的重要环节。隐写技术将信息隐藏在图片中,相比其他技术具有更高的隐蔽性和安全性。文章提出了一种具有抗隐写分析、高隐写容量的信息隐藏模型,其将神经网络与秘密信息耦合,编码输出隐写图像。在此基础上又分别结合残差网络、密集连接网络对编码器进行优化,设计出两种具有更优性能的模型。实验结果表明,本文提出的改进模型比现有方法具有更高的相对载荷,同时能有效规避检测。

关键词:信息安全;信息隐藏;图像隐写;深度学习

中图分类号:TP309      文献标识码:A 文章编号:2096-4706(2020)16-0137-05

A Modified Information Hiding Model Based on

Generative Countermeasure Network

CAO Yin,PAN Ziyu

(School of Information and Communication Engineering,Nanjing Institute of Technology,Nanjing  211167,China)

Abstract:Information as the basis of the internet,information security is an important part. Steganography can hide information in the image,which has higher concealment and security than other technologies. In this paper,an information hiding model with anti-steganalysis and high steganalysis capacity is proposed. The neural network is coupled with secret information to encode the steganographic image. On this basis,the encoder is optimized with residual network and dense connection network,and two models with better performance are designed. The experimental results show that the improved model has higher relative load than the existing methods,and can effectively avoid detection.

Keywords:information security;information hiding;image steganography;deep learning

0  引  言

21世紀以来,随着计算机网络和通信技术的蓬勃发展,整个网络空间环境逐渐变得复杂多样,网络空间安全问题引起越来越多专家学者的关注。实际上,网络空间安全的归根结底就是信息的安全。作为互联网络的基础,信息安全是网络空间安全的重要一环,所以信息应该得到更多网络空间安全技术、管理人员的关注。在这样的背景下,信息隐藏技术应运而生。

研究人员提出了可保持图像的特定统计特征无变化的信息隐藏方法,但其安全性仍不尽人意。例如,LSB匹配方法规避了基于对称性的统计特征异常和直方图异常,但检测者可根据直方图频域质心区域变化[1],基于模型的信息隐藏方法可以保持模型的原始分布[2],其本意是分布与理想模型相同以规避检测,但却适得其反过度相似反而会引起第三方怀疑[3]。

在理想情况下,隐写载体被信息隐藏后在整个载体空间分布应和原始载体分布完全相同。学界普遍采用相对熵来评价信息隐藏方案的安全性[4]。然而,在信息隐藏方案中载体空间异常巨大,通常在将数据统计模型简化后再对安全性进行讨论,如将载体样本数据理想化服从独立同分布[5]或把载体数据映射到统计特征[6]。通过Fisher信息量[7]计算嵌入秘密信息的安全容量[8]并对其进行优化[9]。然而,信息隐藏不可避免地会在一定程度上引起载体数据层面的变化,如选用其他基于统计特征的隐写分析方案进行检测,仍可检测出隐写信息的存在。

本文在深入研究基于深度学习的信息隐藏技术的基础上首先提出了一种基于生成对抗网络的信息隐藏模型,即高容量隐写生成对抗网络(High Capacity Steganography GAN,HCSGAN)模型。该模型相较于主流隐写方案具有更优的性能表现,但其在训练、测试中仍存在梯度消失、退化问题以及图片隐写处理耗时较长、质量较差等问题。然后具体介绍对HCSGAN模型的改进思路及所做的改进,详细说明所采用的变体模型,展示模型架构并描述训练过程。本文对HCSGAN架构的两个变体进行了实验,结果证明了本文提出的模型比现有方法具有更高的相对载荷,同时仍能有效规避检测。

1  模型及改进思路

1.1  HCSGAN模型

本文提出了HCSGAN模型,并将其应用于图像隐写。这是一种全新的基于深度学习最新成果的端到端图像隐写方案。我们还在对抗训练框架下使用多损失函数以达到同时优化编码器、解码器和指导网络的目的。此方案能够在多种自然场景下成功将二进制数据嵌入载体图像中,并能在规避标准隐写分析工具检测的情况下达到目前最高水平的每个像素4比特的嵌入率。

1.2  残差网络及密集网络

残差网络(ResNet)的提出是深度学习领域的一场革命。在2015年的ILSVRC上,来自微软团队的4位学者提出了ResNet。

在深度神经网络中,单纯增加网络的深度会导致梯度消失或爆炸以及准确率退化等问题。而ResNet能较好的解决这些问题。通常,构造深层网络采用通过对所增加的网络进行恒等映射的方法。该方法的前提是加深后的网络模型训练误差应低于其浅层模型,然而很少能出现满足这一条件的情况。

微软团队提出的ResNet模型通过多层网络将直接拟合复杂映射x→H(x)转化为间接拟合简单映射x→F(x)=H(x)-x。在这种情况下,模型学习F(x)=0相较于H(x)=0自然容易得多。当残差F(x)足够小时,转化后的映射逼近恒等映射,即解决了准确率退化的问题,同时网络深度增加,精度随之提高。

部分连接前后层以优化反向传播,从而训练深层网络,这是ResNet模型的核心思想。DenseNet与之类似,但不同的是DenseNet通過建立全连接而非ResNet的部分连接。特征复用由特征相连接实现,这是其另一特点。基于上述特点,DenseNet能够实现更优性能,同时所需的参数和计算成本更少。

无论是ResNet还是DenseNet,核心的思想都是连接,不加选择地让某些输入进入之后的网络层,以实现信息流的整合,避免了信息在层间传递的丢失和梯度消失的问题,同时还抑制了某些噪声的产生。

2  变体模型设计

2.1  变体模型参数和符号

本文用C和S分别表示宽度和高度相同的RGB通道载体图像和隐写图像,M∈{0,1}D×W×H代表被隐藏在载体图像中的二进制信息。D代表最大信息深度,W表示宽度,H表示高度,实际信息深度是能可靠解码的比特数(1-2p)D,其中p∈[0,1]是错误概率。

载体图像C是从所有自然图像?C的概率分布中采样得到的。隐写图像S由一个完成学习的编码器ε(C,M)生成的,其中M为隐写到载体图像中的秘密信息。最终获取的秘密信息的估计值  是由一个完成学习的解码器ζ(S)提取得到的。优化的任务是通过一个给定的混合信息分布,来训练编码器ε和解码器ζ以使解码错误率p和自然图像与隐写图像间分布间的距离dis(?C,?S)最小化。因此,为了优化编码器和解码器,我们也需要训练一个评估网络C(·)来估计dis(?C,?S)。令参数X∈?D×W×H以及Y∈?D′×W×H是两个宽度和高度相同的感知器,但深度可能是D和D′两个不相同值,然后Cat:(X,Y)→Φ∈?(D+D′)×W×H是沿深度轴方向的两个张量的级联。令ConvD→D′:X∈?D×W×H→Φ∈ ?D′×W×H是将输入参数X映射到宽度和高度、深度可能不同的特征图Φ的卷积块。这个卷积块包含了一个内核大小为3、步幅为1、填充为“相同”的卷积层,其后是一个leaky ReLU激活函数以及批标准化。如果卷积块是网络中的最后一个块,则激活函数和批标准化操作可省略。

令Mean:X∈?D×W×H→?D代表表示自适应平均空间池化操作,该操作计算张量X的每个特征图中的W×H的平均值。

2.2  变体模型体系结构

本节节展示了一种生成对抗网络HCSGAN模型用以在载体图像中隐藏任意位向量。改进的神经网络结构如图1所示,包括三个模块:

(1)一个编码器(Encoder),用于获取载体图像(Image)和数据信息(Data)并生成隐写图像;

(2)一个解码器(Decoder),用于获取隐写图像并尝试恢复数据信息;

(3)一个判别网络(Critic),用以评估载体图像和隐写图像的质量,得出评分(Score)。

卷积运算在图1中以梯形图标表示。

2.2.1  编码器

编码器网络含有一张载体图像和需要加载到载体图像中的秘密信息M∈{0,1}D×W×H。因此,M是一个形状为D×W×H的二进制数据张量,其中D是我们试图隐藏在载体图片每个像素中的比特数,即信息深度。

我们尝试了两种具有不同连接模式的编码器体系结构的变体模型。三种变体模型都采用以下操作开始:

(1)使用卷积块处理载体图像C以获得张量a:

a=Conv3→32(C)

(2)将秘密信息M连接到张量a,然后用卷积块处理结果以获得张量b:

b=Conv32+D→32(Cat(a,M))

基础模型(HCSGAN):我们依次将两个卷积块应用于张量b并生成隐写图像,基础模型编码器εb如图2所示。

其可以表示为:

εb(C,M)=Conv32+D→21(Cat(a,M))

这个方法类似于Baluja方案[1],隐写图像只是最后一个卷积块的输出。

残差变体模型(HCSGAN-ResNet):残差网络的使用已被证明可以改善模型的稳定性和收敛性[2],因此我们尝试使用残差网络来提高隐写图像的质量。为此,我们通过将载体图像C添加到其输出中来修改基本模型的编码器,以使编码器学习生成如图3所示的残差图像。

残差变体模型编码器εr可以表示为:

εr(C,M)=C+εb(C,M)

密集变体模型(HCSGAN-DenseNet):在密集模型变体

中,我们尝试在卷积块之间引入了其他连接,以便将较早的块生成的特征图连接到由较后的块生成的特征图,如图4所示。

这种连接模式受到DenseNet网络的启发,该网络已被证明可以优化功能复用和缓解消失的梯度问题[3]。因此,我们尝试使用密集连接将提高嵌入率。它可以表示为:

最后,各种变体模型的输出是一个与载体图像C分辨率、和深度相同的隐写图像S=ε{b,r,d}(C,M)。

2.2.2  解码器

解码器接收由编码器产生的隐写图像S。它可以表示为:

解码器生成输出秘密信息的估计值 =ζ(S),换言之,它试图恢复秘密信息M。

2.2.3  判别网络

为了提供有关编码器性能的反馈并生成更逼真的图像,我们引入了对抗性判别网络。判别网络由三个卷积块组成,后接一个具有一个输出通道的卷积层。为了生成标量分数,我们将自适应均值池应用于卷积层的输出。它可以表示为:

3  训练过程

我们采用迭代的方法优化编-解码器网络和判别网络。为了优化编-解码器网络,我们联合优化三个损失:

(1)使用交叉熵损失的解码精度?d:

min?d=CrossEntropy(ζ(ε(X,M)),M)

(2)均方误差下隐写图像与载体图像的相似度?S:

min?S=

(3)判别网络隐写图像的真实性?r:

min?r=C(ε(X,M))

为了训练判别网络,要使Wasserstein损失?C最小化:

min?C=C(X)-C(ε(C,M))

上述公式中,表示数学期望。

在每次迭代中,将每一个载体图像C与数据张量M进行匹配,其中数据张量M是由伯努利分布M~Ber(0.5)采样随机生成的形状为D×W×H比特序列。除此以外,在预处理流程中,对于载体图像C,应用了包括水平翻转和随机裁剪在内的标准数据增强程序进行优化。本文使用了学习率为le-4的Adam优化器,剪裁梯度均方为0.25,剪裁判别系数为[-0.1,0.1],训练32轮。

4  性能评估及分析

4.1  数据集测试

本文使用Div2k和COCO数据集对模型进行训练和测试。实验对象为第3节所述的三种模型变体,对其以六种不同深度D进行训练。数据深度D代表每像素的目标比特数,则随机生成的数据张量尺寸为D×W×H。

实验中,使用了Div2K和COCO数据集的创建者提议的默认训练/测试拆分方法,并且在表1中展示了该测试集的平均准确率、RS-BPP、峰值信噪比和结构相似性指数。准确率表示恢复出正确隐藏信息的概率;RS-BPP表示Reed-Solomon每像素比特数,体现了载体图像的相对荷载;峰值信噪比用于测量图像质量;结构相似性指数衡量载体图像和隐写图像之间的结构相似度,相似度越高则表明秘密信息越不容易被发现。本文提出的的模型在GeForce GTX 1080的GPU上进行了训练。对于Div2K,每轮训练时间约为10分钟;对于COCO,则为2小时。

训练结束模型后,在保留的测试集上计算期望的准确率,并使用前文讨论的Reed-Solomon编码方案对其进行调整,以产生上文所述的每像素位指标,Div2K和COCO数据集测试结果分别如表1和表2所示。

在表1和表2中,每个指标都是根据训练过程中未对模型显示的保留图像测试集计算得出的。需要注意的是,相对载荷和图像质量之间不可避免地存在权衡取舍;假设我们已经在Pareto边界上,那么相对载荷的增加将导致相似度下降。可以观察到,模型的所有变体在COCO數据集上的表现都优于Div2K数据集。此现象可以归因于两个数据集内容类型的差异。Div2K数据集中的图像倾向于开阔的风景,而COCO数据集中的图像倾向于更加杂乱且包含多个对象,这种特性为本文所述的模型提供了更多的表面和纹理,从而可以成功地嵌入数据。

此外,还可以发现,密集变体模型在相对载荷和图像质量上均表现出最佳性能,残差变体模型排在第二位,其显示出可较好的图像质量,但相对载荷较低。基本模型在所有指标上的表现都最差,相对荷载和图像质量得分比密集模型低15%~25%。

最后,尽管本文提出的基于深度学习的信息隐藏方案的相对载荷较其他方案有所增加,但图像相似性(根据载体图像和隐写图像之间的平均峰值信噪比测得)仍与文献[4]中所述方法的结果相当。

5  结  论

本文提出了一种高容量隐写生成对抗网络HCSGAN模型以及两种基于HCSGAN的变体HCSGAN-ResNet和HCSGAN- DenseNet。本文对HCSGAN架构的两个变体进行了实验,并证明了本文提出的的模型比现有方法具有更高的相对载荷,同时仍能有效规避检测。

参考文献:

[1] XIA Z H,WANG X H,SUN X M,et al. Steganalysis of LSB Matching Using Differences Between Nonadjacent Pixels [J].Multimedia Tools and Applications,2016,75(4):1947-1962.

[2] YANG C,LUO X,LIU F. Embedding Ratio Estimating for Each Bit Plane of Image [C]//Information Hiding,11th International Workshop,IH 2009.Heidelberg:Springer-Verlag Berlin Heidelberg,2009:59-72.

[3] QIAN Y L,DONG J,WANG W,et al. Deep Learning for Steganalysis Via Convolutional Neural Networks [C]//Media Watermarking,Security,and Forensics 2015.San Francisco:Society of Photo-Optical Instrumentation Engineers(SPIE),2015.https://www.spiedigitallibrary.org/conference-proceedings-of-spie/9409.toc#FrontMatterVolume9409.DOI:10.1117/12.2083479.

[4] KER A D. The Ultimate Steganalysis Benchmark? [C]// Proceedings of the 9th workshop on Multimedia & security. New York:Association for Computing Machinery,2007:141-148.

[5] SHIH F Y. Digital Watermarking and Steganography:Fundamentals and Techniques:Second edition [M].Boca Raton:CRC press,2017.

[6] KER A D. Estimating Steganographic Fisher Information in Real Images [C]// Information Hiding,11th International Workshop,IH 2009.Heidelberg:Springer-Verlag Berlin Heidelberg,2009:73-88.

[7] KER A D. Estimating the Information Theoretic Optimal Stego Noise [C]//Proceedings of The 8th Interntaional Workshop,IWDW 2009.Heidelberg:Springer-Verlag Berlin Heidelberg 2009:184-198.

[8] OU D H,SUN W. High Payload Image Steganography With Minimum Distortion based on Absolute Moment Block Truncation Coding [J].Multimedia Tools and Applications,2015,74(21):9117-9139.

[9] CHAKRABORTY S,JALAL A S,BHATNAGAR C. LSB based Non Blind Predictive Edge Adaptive Image Steganography [J].Multimedia Tools and Applications,2017,76(6):7973-7987.

作者簡介:曹寅(1997—),男,汉族,江苏南京人,本科,研究方向:网络空间安全;潘子宇(1984—),男,汉族,江苏姜堰人,博士,副教授,研究方向:无线通信、5G安全技术等。

猜你喜欢

信息安全深度学习
信息安全不止单纯的技术问题
基于模糊综合评价法的信息安全风险评估模型
基于模糊综合评价法的信息安全风险评估模型
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
2014第十五届中国信息安全大会奖项