神经网络域水印信息优化与加密
2022-06-19马天赵会敏杨嫣杨嘉怡
马天 赵会敏 杨嫣 杨嘉怡
摘要:神经网络模型作为一种数字资产,其版权保护日益受重视,针对目前神经网络域水印信息单一、不直观的问题,设计一种水印信息内容优化的方法,在训练神经网络时嵌入水印,采用正则化的方法防止训练神经网络时参数过度拟合,并进行了水印信息的加密研究。通过分析图像域和神经网络域中有效水印算法的需求,将简单的二进制串信息优化为有视觉意义的二值图像与灰度图像,对于不同水印形式进行了分析对比,并在嵌入前对水印信息进行了典型的加密预处理分析,包括Arnold变换、按位异或加密以及行列像素置乱加密。结果表明:该方法可以在不影响原始任务性能的情况下有效地嵌入水印,并且提取的信息质量更好,采用行列像素置乱的二值图像作为水印嵌入,对神经网络性能的影响最小。
关键词:版权保护;水印信息;神经网络域;图像加密
中图分类号:TP 391.41文献标志码:A
文章编号:1672-9315(2022)03-0580-09
DOI:10.13800/j.cnki.xakjdxxb.2022.0322开放科学(资源服务)标识码(OSID):
Optimization and encryption of watermarked
information in neural network domainsMA Tian,ZHAO Huimin,YANG Yan,YANG Jiayi
(College of Computer Science and Engineering,Xian University of Science and Technology,Xian 710054,China)Abstract:As a kind of digital asset,the copyright protection of neural network model is paid more and more attention.In order to solve the problem of simple and unintuitive watermarking information in neural network domain,a method of content optimization of watermarking information was proposed.The watermark was embedded in training neural network,the regularization method was used to prevent over-fitting of parameters in the training process,and the encryption of watermark information was studied.The simple binary string information was optimized into visual binary image and gray image by exploring the requirements of effective watermarking algorithm in image domain and neural network domain,the different watermark forms were compared,and typical encryption pre-processing analyses were made of the watermark information before embedding,including Arnold,per-bit dissimilarity encryption and row column pixel scrambling.The experimental results indicate that the method in this paper can effectively embed the watermark without affecting the performance of the original task,and the quality of the extracted information is better.The application of the binary image with row column pixel scrambling in the watermark-embedding will have the least impact on the performance of the neural network.
Key words:copyright protection;watermark information;neural network domain;image encryption
0引言
随着计算机的快速发展,许多产品出现了多方面的安全问题,神经网络模型也属于数字资产的一种,其版权保护技术日益发展。研究出一个深度神经网络模型需要大量的有价值的训练数据、强大的计算资源和专业的人力资源,而神经网络模型在经第3方应用后,其网络结构和节点权重会完全对外暴露,容易被复制、二次开发或修改,导致初始开发者权益受损。顶级深度神经网络的设计和训练竞争激烈,神经网络模型将在未来几年的IT发展中发挥核心作用,因此保护这些模型的必要性显得更加突出。在版权保护方面包括密码学和数字水印技术这2种研究方向,然而,密码学只在转换过程中保护数据,一旦数据被接收并解密,它就不再受到保护。数字水印技术可以实时保护数字资产,因此在这个研究领域具有更大的价值[1]。
数字水印技术最早可以追朔到1993年,其方法是在载体(图像,文本,视频,或者音频)中增加有用的身份信息,以达到数字认证或者版权保护的目的。2017年UCHIDA等人提出神经网络水印,他们发表了第一种水印嵌入方法,水印信息可以直接嵌入到模型的参数中,该方法可以公开共享神经网络[2]。近些年深度学习框架越来越成熟,包括TensorFlow,Keras,Caffe[3],Theano[4],Chainer[5]等。基于這些公开的框架或系统,开发人员进行研究的复杂度大大降低,深度神经网络模型得到了突飞猛进的发展,随之而来的版权保护问题也日渐浮出水面。模型所有者能够将水印嵌入神经网络的权重中,合法用户可以将水印嵌入神经网络以进行授权使用,而未经授权的用户由于额外的控制层会导致获得的模型性能不良,当神经网络被非法盗版时,初始开发者可以提取嵌入的水印并进行所有权验证,这样便可以实现神经网络模型的保护。DAF48E84-D850-42A6-ACD2-F01DE4E09875
目前典型的水印嵌入方法归纳总结为白盒水印嵌入方法、黑盒水印嵌入方法[6]、授权控制方法[7]等5类。其中,白盒方法通常需以公开或与可信第3方共享方式获取神经网络模型的结构和权重,如开源项目model Zoo,水印信息通常直接嵌入到模型的参数中,需要访问DNNs的内部结构进行验证。
白盒水印嵌入的载体可以细分为以下2种,一是将水印信息与权重结合,其中最为典型的是UCHIDA等人在2017年提出的,首次将水印直接嵌入到卷积滤波器系数即网络权重中[2],其次就是CHEN等人是将身份信息嵌入到卷积滤波器系数的概率密度函数中,提出了第一个用于数字版权管理的DL指纹框架[8]。这类方法的优点是嵌入与提取操作方便,但是权重变化量较大,可通过分析权值的方差检测出隐藏水印,并通过在权值上添加有效噪声来修改水印。二是将水印嵌入在全连接层上,其中最为典型的是KURIBAYASHI等人提出的DM-QIM方法,优点是嵌入水印引起的变化小且可测量,但是权重的选择和水印的嵌入都使用了一个密钥,对于不同DNN模型和嵌入参数的影响将有待未来进一步研究[9]。这类方法的优点是嵌入与提取操作方便,但是存在权重变化量较大的情况,可通过分析权值的方差检测出隐藏水印,并通过在权值上添加有效噪声来修改水印。ZHANG等人提出一种带有补偿机制的量化水印方案,通过密钥来选择待嵌入水印的权重,对水印进行扩频调制后使其具有噪声性再嵌入特定的权重。为了避免权重的变化对模型功能的影响,对未嵌入水印的权重进行补偿微调,得到含水印的模型[10]。此方案对模型的改动量很小,同时保证理想的鲁棒性和嵌入量,通过对嵌入位置的改进从而隐藏了水印信息,但其水印形式有限为简单的字符串,视觉意义不强。
白盒水印嵌入的水印信息目前可细分为以下2种,二进制字符串和非二进制字符串。在非二进制字符串中,WANG等人提出的鲁棒白盒GAN水印(RIGA),该方法水印消息的容量和灵活性较好[11]。还有一种水印的累积和编码方法由SAKAZAWA等人提出,可对嵌入的图案进行累积以达到可视化的解码[12]。这种方法仅适用于一个简单的情况,且存在多个密钥集,被攻击者得到子集的一部分也可验证。在二进制字符串的水印信息中,最为典型的UCHIDA等人于2018年提出的,将新定义的损耗和普通的损耗结合起来,通过训练进行优化,其水印信息选择的是256位的一维矩阵,这种水印信息形式便于实践,但形式单一且容量较小[13]。
总之,上述方法的信息容量小、提取效果不直观,只能通过数值对比误差。文中将选择有意义的图像使其提取结果更加直观,主要是基于WRN神经网络的不同水印嵌入研究,采用的是白盒水印嵌入方法,在训练主机网络时直接嵌入水印,在前人研究的基础上对于水印信息进行了优化,将二进制串优化为图像,并在嵌入水印之前对水印进行了预处理即加密以更有效的保护水印本身,采用了3种加密方法设计实验进行比较,分析了不同的水印信息对于网络性能的影响。为防止在训练神经网络的时候过度拟合,采用正则化的方法将L1损失函数和L2损失函数结合。
1神经网络域水印信息分析
神经网络水印是通过对神经网络模型的内部参数或外部结构进行某些特殊处理,添加或嵌入特定的身份信息,即在神经网络模型中嵌入水印,以保护受过训练的神经网络模型。一个完整的神经网络模型水印系统一般包含3个模块[14],即需嵌水印的网络模型,水印嵌入方法,水印提取与检测。框架如图1所示,基本过程[15]:经过加密及预处理的水印信息,经过各种算法嵌入到神经网络模型中去,模型所有者可将添加身份信息后的网络模型以公开或API远程的方式提供商业服务。所有者可将添加身份信息进行提取验证,同时部分算法还可达到限制非法访问的效果。
目前主流的网络模型有MLP,CNN,WideResNet,AlexNet16],VGG16,LeNet[17],GoogLeNet和ResNet等。对于MPL,LeNet网络模型,一般选取的实验数据集为MINST,对于WideResNet,ResNet,AlexNet,VGG16网络模型,一般选取的实验数据集为CIFAR10,CIFAR100。水印形式可为二值图像、字符串等。为了更好地保护隐私,在水印嵌入之前,需对水印进行编码或加密预处理,将加密后的水印信息嵌入到神经网络中,以保护版权。
图像域和神经网络域中对有效水印算法的要求几乎相同,都应具有保真度、可容性、有效性、安全性以及高效性。有效的水印系统必须具有嵌入大量信息的能力,水印通常應是秘密的,不应该被未经授权的各方访问、读取或修改,水印的嵌入与提取应该是快速的。但图像域和神经网络域中的保真度和鲁棒性是不同的,在图像域中为保持保真度,必须在嵌入水印的同时保持主机图像的感知质量。然而,在神经网络域,参数本身并不重要,重要的是原来的执行任务,因此,必须保持受过训练的主机网络的性能,而不能阻碍主机网络的训练。神经网络水印应对网络功能影响足够小,水印信息能够从分发或重训练的网络中提取出来,应具备隐蔽性、稳健性、数据量及安全性等特性。关于鲁棒性,由于图像会受到各种信号处理操作的影响,如经过压缩、裁剪及调整大小等操作之后,水印也应留在主机图像中。而神经网络中嵌入的水印应在微调或其他可能的修改后还能检测到,是通过修改神经网络的权重实现水印嵌入的,因此嵌入的水印形式只能是字符串,由于图像是由许多像素点组成对其处理可等同于字符串,故可在神经网络中嵌入图像。
2神经网络域水印框架设计
2.1水印信息与嵌入目标
基于图像域和神经网络域有效算法分析,对水印信息形式进行优化,选择2种水印信息:二值图像与灰度图像,均选择16×16的图像,由于图像是由像素点组成,可等同于矩阵,将像素点值同除以255可得0到1之间的向量作为水印b={0,1},采用白盒水印嵌入方法将水印b在训练神经网络时嵌入到神经网络的权重中,在水印嵌入之前,对水印进行编码或加密预处理。DAF48E84-D850-42A6-ACD2-F01DE4E09875
从神经网络中选择一层的权重作为待嵌入水印的载体,记为W∈RS×S×D×L,其中 S,D,L分别为卷积滤波器的大小,输入到卷积层的深度和卷积层中滤波器的个数。如果后续层的参数被重新排序,滤波器的顺序不会影响网络的输出,为了消除滤波器顺序的任意性,故采用均值滤波器,沿着输出通道计算可得到权重的均值
2.2水印嵌入与提取过程
为保证主机网络在原始任务中的性能,选择在训练主机网络时直接嵌入水印。使用一个参数正则化器,它是原始任务原始成本函数中的一个附加项,具有正则化的代价函数E(w)定义为
2.3水印质量评价指标
对于提取的水印从肉眼直观可能看不出差异,故采取一些客观性指标来评价[19],在客观评价水印质量时,采用峰值信噪比(PSNR)和结构相似性(SSIM)2个经典的指标来评价。
3不同形式水印信息测试
3.1嵌入影响分析
使用CIFAR-10[20]训练WRN神经网络,该数据集由60 000张32×32的彩色图像组成,共有10个类,包括50 000张训练图像与10 000张测试图像,在训练时将水印嵌入到神经网络的参数中,每一次迭代设置Batch_size为64,每一次训练迭代多次,迭代次数越多效果越佳。
图4显示有和没有水印的模型参数w的分布,其中图4(a)为无水印模型参数的分布,图4(b)和图4(c)分别为嵌入二值图像水印和灰度图像水印模型参数的分布,这些参数只取自嵌入水印的一层。w参数数目是3×3×64×64,可以直观的看出3种情况下模型参数分布一致,许多参数变得很大,并且在0附近出现一个峰值,并未显著改变分布。
图5显示了神经网络模型的训练损失函数图,可以看出灰度图像作为水印嵌入到神经网络模型,其训练损失函数与原模型相差较大,训练损失E(w)大于未嵌入的情况。而二值图像作为水印嵌入神经网络模型训练损失函数和与原始模型损失函数基本拟合,这表明01矩阵水印可以在不影响原始任务性能的情况下有效地嵌入。
表1显示各个水印信息对于训练神经网络模型准确度的影响,在经过训练迭代50次时,3种情况下模型准确度均达到了90%以上,可以看出二值图像水印的神经网络模型与原模型准确度更为接近。
综上可得,二值图像作为水印(即01矩阵水印)嵌入到神经网络中不会改变初始神经网络的性能,是一个较优选择。
3.2提取结果
首先分别将二值图像和灰度图像进行预处理,获得256位向量作为水印,直接嵌入神经网络的权重中,经统计二值图像水印实验结果如图6所示,其中图6(a)为嵌入的水印图像,图6(b)、图6(c)、图6(d)分别为训练神经网络时不同迭代次数下所提取的水印图像,图7显示了灰度图像水印提取結果,随着epoch次数增加,神经网络中权重的更新次数也相应增加,模型的精度也会更好,嵌入水印效果更好。对于图像水印直接观察可以看到区别,100次的迭代效果明显更加。
对水印作客观评价,将嵌入的水印与提取的水印进行对比,二值图像水印PSNR和SSIM值见表2,灰度图像水印评价指标见表3,PSNR值和SSIM值皆为值越大效果越好,随着epoch数量的增加,提取的水印质量也逐步变好,相比较之下,二值图像提取前后结构相似性更好,效果更好。
4水印信息加密影响测试
4.1常用方法加密
为了保护隐私,在水印嵌入之前需对水印进行预处理,对二值图像采用3种加密算法进行加密,分别为Arnold变换、按位异或加密以及行列像素置乱,将加密后的图像作为水印嵌入到神经网络中,对提取后的图像对应解密,即可得到提取的的水印。图8,图9,图10分别显示了经Arnold变换、按位异或加密行列像素置乱后的水印图像嵌入与提取对比。可以从视觉观察到,Arnold变换和行列像素置乱这2种加密算法效果较好,而按位异或加密存在明显差异。
4.1.1Arnold变换
Arnold变换[21]的加密方法是通过变换把图像变得“杂乱无章”,达到加密信息的目的。Arnold变换算法简单,具有周期性和对称性[22],变换周期大小与图像大小即N有关,呈非线性关系。
4.1.2按位异或加密
按位异或加解密过程:首先需要获取原始图像的大小,再利用Python的随机函数生成与原始图像大小一致的密钥图像,分别获取原始图像与密钥图像的像素值,并将其转化为二进制,再将转化的二进制进行异或运算得到新的一组数据,最后将此数据转化为十进制,通过矩阵转图像的方法可得到加密图像,解密同理,将加密图像与密钥图像进行异或运算就可恢复原始图像。
4.1.3行列像素置乱
行列像素置乱加解密过程:首先利用Matlab函数Size()获取图像大小即行列各像素点的个数,再根据图像的大小利用Randsample函数产生同等数量的随机向量,最后利用此随机数对图像分别进行行与列像素置乱从而实现加密,解密是采用同样的密钥对加密图像进行列置乱,就可以恢复至初始图像。
4.2性能影响分析
对提取的水印质量作以客观评价,选择了2种较为经典的图像对比评价指标:峰值信噪比与结构相似性,将加密后的水印嵌入到神经网络之中,提取出来再进行解密,评价其提取前后PSNR与SSIM值,表4表5显示评价结果。可以看出采用行列像素置乱方法加密水印其提取结果结构相似性更高,而按位异或加密其结果最差并不适用于对水印图像进行预处理,实验结果表明,采用二值图像作为水印嵌入到神经网络中不会改变初始神经网络的性能,对于水印信息加密应选择行列像素置乱加密算法。
5结论
1)通过分析图像域和神经网络域中有效水印算法的需求,对水印信息进行了优化,将简单的二进制串优化为二值图像与灰度图像。对于不同水印形式进行了分析和测试,通过实验得出嵌入水印的模型与未嵌入水印的模型参数分布一致,嵌入水印并不会改变原始网络的性能。DAF48E84-D850-42A6-ACD2-F01DE4E09875
2)為了更好的保护隐私,在嵌入水印之前对水印进行了预处理,选择了3种加密算法,其中包括Aronld变换、按位异或加密以及行像素置乱加密,对提取出来的3种水印信息综合比较,评价其PSNR值和SSIM值得出采用行列像素置乱加密算法加密水印的提取效果较优。
3)文中的水印嵌入方法可以在不影响原始任务性能的情况下有效地嵌入水印,采用行列像素置乱的二值图像作为水印,嵌入到神经网络中不会改变初始神经网络的性能,是一个较优选择。虽对水印信息进行了优化,但在训练神经网络模型时由于设备限制均采取小批次训练,对于已嵌入水印的神经网络模型没有进行攻击,在后续研究中将对其鲁棒性进行评估。
参考文献(References):
[1]ZHANG Z M,LI R Y,LEI W.Adaptive watermark scheme with RBF neural networks[C]//International Conference on Neural Networks & Signal Processing.Nanjing,China,Dec.14-17,2003:1517-1520.
[2]UCHIDA Y,NAGAI Y,SAKAZAWA S,et al.Embedding watermarks into deep neural networks[C]//International Conference on Multimedia Retrieval,Bucharest,Romania,Jun.6-9,2017:269-277.
[3]JIA Y,SHELHAMER E,DONAHUE J,et al.Caffe:Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia.Orlando,Florida,USA,2014(3-7):675-678.
[4]BERGSTRA J,BREULEUX O,BASTIEN F,et al.Theano:A CPU and GPU math expression compiler[J].Proceedings of the Python for Scientific Computing Conference(Scipy),2010,4(3):1-7.
[5]TOKUI S,OKUTA R,AKIBA T,et al.Chainer: A deep learning framework for accelerating the research cycle[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.Alaska:Association for Computing Machinery,2019:2002-2011.
[6]MERRER E L,PEREZ P,TREDAN G.Adversarial frontier stitching for remote neural network watermarking[J].Neural Computing and Applications,2020,32(13):9233-9244.
[7]XUE M,WU Z,HE C,et al.Active DNN IP protection:A novel user fingerprint management and DNN authorization control technique[C]//2020 IEEE 19th International Conference on Trust,Security and Privacy in Computing and Communications(TrustCom).Guangzhou,China,Nov.10-13,2020:975-982.
[8]CHEN H L,ROUHANI B D,FU C,et al.Deepmarks:A secure fingerprinting framework for digital rights management of deep learning models[C]//ICMR19:Proceedings of the 2019 on International Conference on Multimedia.Ottawa,Canada,2019(10-13):105-113.
[9]KURIBAYASHI M,TANAKA T,FUNABIKI N.Deep watermark:Embedding watermark into DNN model[C]//2020 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA ASC).Auckland,New Zealand,Dec.7-10,2020:1340-1346.
[10]FENG L,ZHANG X P.Watermarking neural network with compensation mechanism[C]//Engineering and Management(KSEM 2020),Hangzhou,China,Aug.28-30,2020:363-375.DAF48E84-D850-42A6-ACD2-F01DE4E09875
[11]WANG T,KERSCHBAUM F.RIGA:Covert and robust white-box watermarking of deep neural networks[C]//International World Wide Web Conference Committee,Ljubljana,Slovenia,Apr.19-23,2021:993-1004.
[12]SAKAZAWA S,MYODO E,TASAKA K,et al.Visual decoding of hidden watermark in trained deep neural network[C]//2019 IEEE Conference on Multimedia Information Processing and Retrieval(MIPR).San Jose,California,USA,Mar.28-30,2019:371-374.
[13]NAGAI Y,UCHIDA Y,SAKAZAWA S,et al.Digital watermarking for deep neural networks[J].International Journal of Multimedia Information Retrieval,2018,7(1):3-16.
[14]LI Z,HU C,ZHANG Y,et al.How to prove your model belongs to you:A blind-watermark based framework to protect intellectual property of DNN[C]//Proceedings of the 35th Annual Computer Security Applications Conference.New York:Association for Computing Machinery,2019:126-137.
[15]JEBREEL N M,DOMINGO-FERRER J,SANCHEZ D,et al.KeyNet:An asymmetric key-Style framework for watermarking deep learning models[J].Applied Sciences,2021,11(3):999-1010.
[16]WANG Y C,TAO L M,PAN Z C,et al.Pulsar candidate classification with deep convolutional neural networks[J].Research in Astronomy and Astrophysics,2019,19(9):119-128.
[17]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[18]CHOROMANSKA A,HENAFF M,MATHIEU M,et al.The loss surfaces of multilayer networks[C]//Proceedings of the 18th International Conference on Artificial Intelligence and Statistics(AISTATS)2015,California:Eprint Arxiv,2015:192-204.
[19]佟雨兵,張其善,祁云平.基于PSNR与SSIM联合的图像质量评价模型[J].中国图象图形学报,2006(12):1758-1763.TONG Yubing,ZHANG Qishan,QI Yunping.Image quality assessing by combining PSNR with SSIM[J].Journal of Image and Graphics,2006(12):1758-1763.
[20]KRIZHEVSKY A,HINTON G.Learning multiple layers of features from tiny images[J].Handbook of Systemic Autoimmune Diseases,2009,1(4):1-60.
[21]廖日军,李雄军,徐健杰,等.Arnold变换在二值图像置乱应用中若干问题讨论[J].深圳大学学报(理工版),2015,32(4):428-433.LIAO Rijun,LI Xiongjun,XU Jianjie,et al.Discussions on applications of Arnold transformation in binary image scrambling[J].Journal of Shenzhen University(Science and Engineering),2015,32(4):428-433.
[22]陈宝文,陈彦安.基于Arnold变换与混沌系统的位级图像加密[J].信息通信,2020,4(10):36-39.CHEN Baowen,CHEN Yanan.Bit-level image encryption based on Arnold transform and chaotic system[J].Information & Communications,2020,4(10):36-39.DAF48E84-D850-42A6-ACD2-F01DE4E09875