基于预处理的对抗样本防御方法综述

2020-07-10张晨星

科学与信息化 2020年12期

摘要尽管深度学习近年来在解决一些复杂任务时取得了巨大的成功，但是对抗样本的存在却向深度学习应用的安全性提出了挑战，如何防御对抗样本成为深度学习领域目前一个理论与实际上都非常有价值的研究方向。由于对抗样本可以看作是结构化的微小噪声，一种很自然的防御思路就是在样本输入神经网络前将对抗性扰动破坏，即基于预处理的防御。本综述按时间顺序，总结了对抗样本研究领域近年来最具代表性的预处理防御方法，并对未来对抗样本防御的研究方向进行了探讨。

关键词深度学习;对抗样本;预处理;人工智能安全

1背景介绍

深度学习近年来解决了一些困扰人工智能社区多年的传统问题如目标识别等。不仅如此，深度学习目前还被用来破解更困难的科学问题，如大脑回路的重建，DNA突变分析，粒子加速器数据分析以及预测潜在药物分子的结构活性。随着网络模型的不断完善，高效的深度学习框架的开放，部署模型所需硬件的价格降低，深度学习技术正以飞快的速度成熟并投入应用，甚至是在对安全性有极高要求的自动驾驶，人脸识别等领域。然而，Szegedy发现了一个基于神经网络的图像分类器的缺陷，通过对输入图像上的像素进行人眼几乎无法感知的扰动，攻击者就能使分类器得到完全错误的判断[1]。这种被施加扰动的图像被称为对抗样本，对抗样本的存在为一片繁荣的深度学习领域敲响了警钟，随后的研究发现对抗样本不仅只存在于图像分类任务中。一些人工智能应用要求极高的安全性，如自动驾驶，人脸识别，无人机等，这些应用必须考虑对抗样本可能带来的危害。因此，对抗样本一经提出便吸引了大量研究者的目光，如何有效避免对抗样本带来的影响成为一个重要的研究方向。目前，关于对抗样本的防御主要有三种：检测，增加网络本身鲁棒性和预处理。检测方法一般会拒绝对其认为可疑的样本进行后续处理，是一种次优的做法。增加网络本身鲁棒性的方法如对抗训练等，通常会修改训练流程或网络结构，导致相比普通的训练增加了巨额的计算量。而预处理方法通常不修改分类器结构和训练流程，也不需要对威胁模型有预先的假设，可以无差别有效防御不同攻击，是一种非常方便部署的防御机制。本文将首先对常用于评估网络对抗鲁棒性的攻击算法进行简介;然后，按时间顺序对现有的主要预处理防御进行介绍;最后，对对抗样本防御工作的未来研究方向进行了展望。

2常见评估攻击算法

根据攻击者对目标网络的了解程度，对抗攻击可分为白盒攻击和黑盒攻击两类：白盒攻击是指攻击者对目标网络的参数与结构完全了解后设计的攻击，而黑盒攻击通常指攻击者处于只能获得目标网络的输出，无法获得目标网络内部的信息所设计的攻击。由于白盒攻击比黑盒攻击拥有更多的信息可以利用，其攻击效果更强，因此对防御机制的评估一般都会考虑白盒攻击下的对抗鲁棒性。最简单的白盒攻击是FGSM[2]，这种攻击是单步的攻击，即利用神经网络的损失函数值对原始图像的梯度信息仅修改一次原始图像，使修改后的图像与原始标签在神经网络中获得更大的损失函数值。最强的白盒攻击是PGD[3]，PGD是一种多步的基于梯度的攻击算法，利用梯度信息对原始图像进行多次修改。有时，梯度混淆会通过破坏梯度信息使攻击算法失效，因此，需要BPDA和EOT分别处理网络中的梯度不可用和随机[4]。BPDA和EOT并非单独的攻击算法，而是一种补充，需要基于其他攻击如PGD使用。

3常见预处理防御方法

3.1 MagNet[5]

MagNet是一种模型无关的防御机制，其结构包括多个检测器和一个改良器。检测器通过近似一个由正常样本组成的低维流型区分正常样本和对抗样本，当多个检测器中任何一个认为输入是对抗样本时，该样本被拒绝送入后续的分类器。当任意样本通过检测器后，改良器将会对样本施加扰动使其更接近由正常样本组成的流型，改良器通过这种处理对可能没有被检测器发现的对抗样本进行调整使其重新变回正常样本。值得注意的是，由于整个预处理模块是可微的，MagNet只能有效防御黑盒攻击，无法对白盒攻击产生有效的防御。

3.2 HGD[6]

许多防御方法会以经去噪后的对抗样本和原始样本之间的差异为一个优化目标，目的是尽量减少两者差异。与这些方法不同，HGD是一种利用了高级表征差异作为优化目标的基于神经网络的去噪器。研究人员发现，对抗性扰动会随着在网络中的传播而放大，这启发了研究者仅减小输入空间的差异是不够的，在训练神经网络去噪器时以减小更高层次的表征差异为优化目标可能带来更好的效果。HGD能同时有效提升模型对白盒攻击和黑盒攻击的防御能力，且一旦训练完毕，HGD去噪器可以被迁移应用到其他模型。在NIPS2017的对抗样本防御竞赛中，HGD获得了冠军。然而，HGD的一个主要问题在于训练时需要对抗样本而不仅只需要原始样本，当拥有的对抗样本数量不够时，HGD的防御效果会大大缩减。

3.3 推理随机化[7]

推理随机化是在仅在推理阶段对输入进行预处理的防御，不干涉网络的正常训练。研究者使用了两种随机化操作：随机放缩和随机填充。输入图像通过随机变换输出一幅新的图像，然后分类器对这个新图像进行预测。由于卷积神经网络具有一定的平移不变性和尺度不变性，因此随机化在严重破坏对抗性扰动与分类器的匹配时，对正常样本的预测产生影响却很小。推理随机化是非常简单的变换，几乎不增加额外的计算量，并可以与对抗训练兼容，是一种非常灵活便捷的防御。与对抗训练结合的随机化在NIPS2017的对抗样本防御竞赛中获得了第二名。

3.4 防御性对抗生成网络[8]

防御性对抗生成网络利用了生成模型来防御对抗攻击。深度学习假设高维输入空间中的训练集数据实际上位于一个复杂的低维流形空间中，对抗生成网络是基于神经网络的分布拟合结构，可以用来拟合这个低维流形。在训练阶段，防御性对抗生成网络利用未经扰动的正常数据训练一个分布，理论上这个分布与训练数据的分布完全一致。在推理阶段，当它获得一个不属于该分布的样本时，防御性對抗生成网络会将该样本映射到分布上最近的位置以校正对抗样本。在保留主体信息的同时使分布外的对抗样本经映射后能够落回分布中，使分类器能够做出正确的判断。

3.5 ME-Net[9]

矩陣估计是一类常用的图像去噪音方法，该类算法通常要求待处理矩阵低秩，而自然图像由于其区域间高度的相关性非常适合利用矩阵估计进行去噪。ME-Net就是一种将对抗性扰动视作噪声并通过矩阵估计来去噪的防御方法。在ME-Net中，图像被视作矩阵，通过两步预处理对图像进行修改以消除可能存在的对抗性扰动：首先，图像中的部分像素被随机置零，由于对抗性扰动是一种特别设计的结构，这一步很容易达到破坏对抗性扰动的目的;然而，随机置零像素也存在破坏有用信息的可能，因此，ME-Net的第二步预处理利用矩阵估计重建原始图像，通过这一步达到恢复原始图像中有用信息的目的。ME-Net不仅能单独显著提高网络的对抗鲁棒性，还可以与对抗训练兼容，进一步提高防御能力。

3.6 ComDefend[10]

ComDefend是一种利用图像压缩降低图像对对抗攻击的敏感度同时通过恢复成原始图像以保留重要信息的防御方法。ComDefend的模型包括两部分：ComCNN和RecCNN。ComCNN被用来维持原始图像的主体结构信息，同时通过减小数据的维度过滤掉对抗性扰动。RecCNN被用来高质量重建原始图像，以使得网络在非对抗条件下的性能不会有较大损失。ComDefend对图像的转换与后续使用的分类器无关，因此可以与任何分类器搭配使用。研究者在MNIST、CIFAR10以及ImageNet等数据集上对ComDefend的防御能力进行了评估，实验显示该方法的防御能力超过了HGD。

3.7 CIIDefence[11]

不同于之前的对整个输入图像进行去噪与重建的预处理方法，该方法利用CAM[12]寻找到图像中对分类影响大的区域并破坏，然后利用图像补全技术对这一小部分区域进行重建。对于对抗样本，被破坏的区域通常是会导致错误分类的部分，因此该操作可以以增加较小的计算量的代价破坏对抗性扰动，不必重建整个图像。重建后的图像并没有被直接送入分类器，而是与经过小波去噪的输入图像融合。这个操作通过生成一个不可微的层使得基于反向传播的梯度攻击无法得到发挥。实验表示，对该不可微结构的近似并不容易，该方法能有效防御BPDA攻击。

3.8 BaRT[13]

这种方法提出通过随机组合大量的弱的预处理防御可以产生更强的防御，这些弱防御自己单独都很容易被攻破，过去的研究显示组合这些弱防御并不能带来更好的防御效果。然而，更深入的研究指出，过去的失败原因是其以固定的顺序排列弱防御，而BaRT算法通过实验展示了以随机的方式组合变换可以提供非常强的防御。即使攻击者考虑到了随机采用EOT攻击，BaRT也仍保留了一定的防御效果而没有被完全攻破。相比之前的工作，BaRT不仅提升了对同样规模扰动的对抗攻击的防御，而且对更大扰动的攻击也有防御效果，甚至优于对抗训练。BaRT的提出为一些曾经被攻破的防御重新带来了生机，也进一步说明了基于预处理的防御方法是有效的。

4总结与展望

随着人工智能技术与我们日常生活的联系越来越紧密，人工智能应用的安全性也受到了研发人员更多的关注。对抗样本的发现更是直接将人工智能的脆弱性展示了出来，攻击一个神经网络的代价之低，使我们不得不在部署应用时充分考虑其可能存在的隐患。大量的研究者尝试通过不同的机制建立具有对抗鲁棒性的神经网络，一些研究通过对抗训练、标签平滑等方式提高网络本身的鲁棒性，而另一些研究则致力于设计“去噪”模块在图像输入分类器前将对抗性扰动滤掉。

本文按时间顺序对当前一些有效的预处理防御方法进行了介绍，目的是希望读者对现有研究成果进行了解，并启发读者设计新的防御机制。然而，对对抗样本的防御问题的关注不应只聚焦于在形式上提出某种特殊的结构，而应思考一些更为根本的问题：如对抗样本产生的原因究竟是什么？脱离实验室的物理世界中的对抗攻击是否也很容易构建？人脑为何可以天然不受对抗样本的影响？当前的防御方法只是使网络具有了一定的抵抗能力，但并未从根本上原理上解释对抗样本并进行防御。这些防御方法会随着评估所用数据集的特征维度增加而降低防御效果，例如在ImageNet数据集上评估的防御方法中，即使是公认的最强的对抗训练也仅有不超过30%的对对抗样本的分类正确率，而对正常样本来说，目前神经网络最佳的分类准确率甚至已经超越了人类的表现。大量研究者对对抗样本产生的原因进行了探索，然而目前仍没有达成共识。我们在彻底解决对抗样本问题这个方向上，还有很长的路要走。

参考文献

[1] Szegedy C，Zaremba W，Sutskever I，et al. Intriguing properties of neural networks[C].2nd International Conference on Learning Representations，ICLR 2014：217.

[2] Goodfellow I J， Shlens J， Szegedy C. Explaining and harnessing adversarial examples[J]. arXiv preprint arXiv，2014，14（12）：6572.

[3] Madry A，Makelov A，Schmidt L，et al. Towards deep learning models resistant to adversarial attacks[J]. arXiv preprint arXiv，2017，17（6）：83.

[4] Athalye A，Carlini N，Wagner D. Obfuscated Gradients Give a False Sense of Security： Circumventing Defenses to Adversarial Examples[C].International Conference on Machine Learning，2018：274-283.

[5] Meng D，Chen H. Magnet：a two-pronged defense against adversarial examples[C].Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security，2017：135-147.

[6] Liao F，Liang M，Dong Y，et al. Defense against adversarial attacks using high-level representation guided denoiser[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2018：1778-1787.

[7] Xie C，Wang J，Zhang Z，et al. Mitigating Adversarial Effects Through Randomization[C].International Conference on Learning Representations，2018：109.

[8] Samangouei P，Kabkab M，Chellappa R. Defense-GAN：Protecting Classifiers Against Adversarial Attacks Using Generative Models[J]. arXiv preprint arXiv，2018，18（5）：605.

[9] Yang Y，Zhang G，Katabi D，et al. ME-Net：Towards Effective Adversarial Robustness with Matrix Estimation[C].International Conference on Machine Learning，2019：7025-7034.

[10] Jia X，Wei X，Cao X，et al. Comdefend： An efficient image compression model to defend adversarial examples[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2019：6084-6092.

[11] Gupta P，Rahtu E. CIIDefence：Defeating Adversarial Attacks by Fusing Class-Specific Image Inpainting and Image Denoising[C].Proceedings of the IEEE International Conference on Computer Vision，2019：6708-6717.

[12] Zhou B，Khosla A，Lapedriza A，et al. Learning deep features for discriminative localization[C].Proceedings of the IEEE conference on computer vision and pattern recognition，2016：2921-2929.

[13] Raff E，Sylvester J，Forsyth S，et al. Barrage of random transforms for adversarially robust defense[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2019：6528-6537.

作者簡介

张晨星（1995-），男，辽宁省人;毕业院校：北京邮电大学，专业：通信工程，学历：本科，中国传媒大学脑科学与智能媒体研究院在学，研究方向：新人工智能与媒体技术。