APP下载

融合高斯噪声和翻转策略的对抗攻击

2021-04-17段晔鑫邹军华潘志松周星宇

数据采集与处理 2021年2期
关键词:黑盒高斯成功率

张 武,段晔鑫,2,邹军华,潘志松,周星宇

(1.陆军工程大学指挥控制工程学院,南京210007;2.陆军军事交通学院镇江校区,镇江212001;3.陆军工程大学通信工程学院,南京210007)

引 言

对抗样本概念由Szegedy等[1]在2013年首次提出,即在原始图像中添加微小的扰动便可生成让神经网络模型高置信度错误分类的对抗样本。对抗样本在白盒攻击场景下生成较为容易,即攻击者能访问到目标模型的体系结构和参数。然而,在现实场景中,攻击者所遇到的目标模型大多为黑盒模型,即攻击者无法获取到其内部结构和参数,此时对抗样本生成较为困难。目前,对于黑盒模型的攻击方法,大致可分为基于查询的方法和基于模型迁移的方法[2]。其中,基于查询的方法需要大量访问黑盒模型的反馈结果,因此十分耗时且易被察觉。例如,Brendel等[3]提出的基于边界探索的黑盒攻击就是一种基于查询的方法,该攻击方式完全依赖于模型的反馈结果来生成对抗样本。除了基于查询的方法外,对抗样本的迁移性[4]为攻击者提供了另一种可行性,即针对白盒模型所生成的对抗样本往往能够成功攻击同一任务其他黑盒模型。

虽然研究者已提出许多方法来提高对抗样本的迁移性,但仍存在不足。例如,Dong等[5]和Xie等[6]提出的方法对于普通黑盒模型的攻击性较强,但对于防御黑盒模型的攻击性却较弱。相比一下,Dong等[7]在2019年提出的方法在攻击防御黑盒模型方面有了较大提升,但在攻击普通黑盒模型时相对变差。一般而言,迭代攻击比单步攻击更容易出现特定模型过拟合现象,所得对抗样本的迁移性较差[5]。受数据增强技术启发,该技术可以有效降低特定模型过拟合现象并提升泛化能力[8]。为此,本文在迭代攻击基础上利用高斯噪声和翻转组合策略方法来增强迁移对抗攻击,从而整体提升针对普通和防御模型的黑盒攻击成功率。本文在单模型和多模型条件下测试了所提出方法的攻击成功率。大量实验表明,本文方法既能使黑盒攻击性能优于基线方法,又能让白盒攻击保持较高的成功率。

1 相关研究

1.1 对抗样本生成描述

设输入样本为x∈Rd,其对应的类别标签为y∈{1,2,3,···,k},深度神经网络分类器f(x):x→y是d维输入样本x到类别标签y的映射函数。攻击者通过添加小幅度的扰动δ来制作对抗样本xadv=x+δ,使得神经网络错误分类,即f(xadv)≠y。为了生成对抗样本,既要最大化网络模型分类器的损失函数J(xadv,y),又要使用L∞范数将对抗样本xadv约束在x附近,即扰动δ的无穷范数应小于阈值ε。因此,对抗样本生成过程可描述为

1.2 基于梯度攻击方法

快速梯度符号方法(Fast gradient sign method,FGSM)[9]是一种基于梯度的经典方法,只需要对输入样本进行一次梯度更新,就能快速生成对抗样本。该方法根据损失函数的梯度方向来对输入样本中的每个像素进行等值增加或者减少,其对抗样本生成公式为

迭代快速梯度符号方法(Iterative fast gradient sign method,I-FGSM)[10]是FGSM的迭代版本,即将单步更新分解为多轮迭代更新,以实现添加更小幅度的扰动,其迭代过程可表示为

动量迭代快速梯度符号方法(Momentum iterative fast gradient sign method,MI-FGSM)[5]则是在IFGSM基础上增加了动量因子,即在每一轮迭代中加入前面所有轮的梯度信息。因此,该方法在迭代过程中能稳定更新方向,有效避免陷入局部极值,其更新过程表示为

式中:gt+1表示第t+1次迭代时的累积梯度;μ为动量衰减因子。

多样性输入迭代快速梯度符号方法(Diverse inputs iterative fast gradient sign method,DI2-FGSM)[6]是在每次迭代时以一定的概率对输入图像进行随机调整大小及填充变换操作,从而生成更具迁移性的对抗样本。此方法可与MI-FGSM方法有效结合,从而形成更强的对抗攻击方法M-DI2-FGSM。为了简洁起见,本文将M-DI2-FGSM方法简称为DIM方法。

式中:D(·)表示变换函数;p为变换概率。

平移不变性迭代快速梯度符号方法(Translation-invariant iterative fast gradient sign method,TIFGSM)[7]方法则使用预定义的高斯核卷积未平移输入图像的梯度来代替对一组已平移图像的梯度计算,从而大大提高了攻击的计算效率,并且生成的对抗样本黑盒攻击防御模型时效果很好。同样,将TI-FGSM方法与DIM方法进行融合,可形成目前最强黑盒攻击方法TI-DIM。

2 方法实现

本文提出将高斯噪声和翻转策略(Gaussian noise and flipping strategy,GF)应用到基于梯度的攻击方法中,生成可迁移性更强的对抗样本。其中,GF策略对抗攻击方法的整体框架如图1所示。

图1 GF策略对抗攻击框架图Fig.1 Architecture graph of GF strategy adversarial attack

2.1 GF策略方法

高斯噪声是指其概率密度函数服从正态分布的一类噪声。高斯噪声注入作为一种数据增强技术,其主要把随机高斯噪声点添加到输入样本中以帮助模型降低过拟合现象。为此,本文采取类似方法,即将高斯噪声添加到样本中以降低所得对抗样本过度拟合于特定模型,从而提升其可迁移性。

此外,在对抗样本生成过程中,样本的像素值是有范围限定的,而对于添加了高斯噪声的样本其部分像素值可能会发生越界情况。若此时直接采用像素值裁剪方式来处理越界像素值,会使得所添加的噪声信息部分丢失,最终影响到所生成的对抗样本的可迁移性。为此,本文采取像素值归一化方式来处理添加了高斯噪声的样本,这样既能保留所添加的噪声信息,又能保持原有样本数据分布。

翻转是一种简单又有效的几何空间变换增强技术,其中水平翻转比垂直翻转更为常见[11]。因此,文中选择将随机水平翻转(Random horizontal flipping,RHF)与高斯噪声相结合以生成迁移性更强的对抗样本。该组合策略可形式化表示为

式中:RHF表示随机水平翻转输入;noise为高斯噪声点;std为高斯噪声标准差。

2.2 GF策略单模型攻击

由于FGSM白盒攻击成功率不高和I-FGSM黑盒攻击性能相对较弱,本文主要将GF策略整合到诸如MI-FGSM,DIM和TI-DIM较强基线方法中,从而衍生出GF-MI-FGSM、GF-DIM和GF-TI-DIM方法。根据3.3节结果可知,对抗攻击强度最强为GF-TI-DIM方法,其次是GF-DIM方法,最后为GFMI-FGSM方法。为此,本文主要对GF-DIM和GF-TI-DIM方法进行阐述。

由于GF策略与随机调整大小填充属于两种不同的图像变换方式,将它们融合在一起可进一步缓解过度拟合现象,并形成攻击力更强的GF-DIM攻击方法,其融合公式为

同样,若将GF策略整合到TI-DIM方法中,则可衍生成GF-TI-DIM攻击算法,其融合过程与GFDIM攻击方法大致一样,唯一不同之处是要在式(9)中加入高斯核,即为

式中W为预定义高斯核。

2.3 GF策略集成模型攻击

假如对抗样本能够欺骗多个模型,则意味着它对于其他模型具有较强迁移性[12]。因此,攻击一组模型可实现更强的黑盒攻击。本文采用Dong等[5]提出的logit集成方案来构造GF策略集成模型攻击方法。根据3.4节结果可知,黑盒攻击成功率最好的是MGF-TI-DIM算法,该算法是GF-TI-DIM集成攻击方法,其伪代码如下。

输入:k个分类模型,图像样本x,真实类别标签y,迭代次数T,高斯核W,随机调整大小填充概率p,衰减因子μ,wi为第i个模型权重,最大扰动ε,则步长α=εT。

输出:对抗样本xadv

步骤1初始化参数

步骤2循环迭代T次

步骤3求解k个模型logit值

步骤4将k个模型logit值乘以对应权重进行累加

步骤5求解交叉熵损失函数

步骤6计算梯度

步骤7叠加扰动

步骤8迭代结束

end while

步骤9输出对抗样本

若把MGF-TI-DIM算法中第6步操作修改为式(9),则MGF-TI-DIM算法就演变为MGF-DIM算法。同样,若在输入时将概率p设置为0,MGF-DIM算法就退化为MGF-MI-FGSM算法。详细转化关系如图2所示。

图2 集成攻击算法转化图Fig.2 Conversion graph of ensemble-based attack algorithm

3 实验结果与分析

3.1 实验设置

3.1.1 数据集与超参数设置

本文采用了一个与ImageNet相兼容的数据集。该数据集包含1 000张大小为299像素×299像素×3像素的图像,且在NIPS 2017对抗竞赛所用。在超参数设置方面,本文设置最大扰动ε=16,适用于输入样本像素值在[0,255]范围内计算,以及总迭代次数T=10和动量衰减因子μ=1。对于DIM方法,变换概率p=0.7,而对于MI-FGSM方法,则变换概率p=0。对于TI-DIM方法,高斯核W大小设置为15×15。本文在GF策略单模型攻击方法和集成模型攻击方法上作了对比实验,每种GF策略攻击方法与其相应的基线攻击方法在超参数设置方面相同。

3.1.2 评估指标

目前,在对抗攻击研究领域里,用于评价攻击效果的指标主要是攻击成功率(Attack success rate,ASR),即被攻击模型的错误分类率。然而,对于不同类型攻击,ASR定义有所不同。本文攻击方法属于一种无目标攻击方式,即生成的对抗样本使得分类模型预测结果与真实类别不一致就已达到攻击效果,其相应的ASR可定义为

此外本文还考虑了10个模型作为攻击对象,用于评价本文方法的黑盒攻击性能。其中4个是普通模 型,分别 是Inception-v3(Inc-v3)[13]、Inception-v4(Inc-v4)[14]、Inception-Resnet-v2(IncRes-v2)[14]和Resnet-v2-152(Res-152)[15]。其余6个为防御模型,分别是经过对抗训练的集成模型Inc-v3ens3、Incv3ens4和IncRes-v2ens[16]以及NIPS 2017防御竞赛中排名前三的模型HGD[17],R&P[18]和NIPS-r3。集成防御模型是利用其他模型生成的对抗样本来扩充训练数据,使得对抗样本与特定模型脱钩,从而提高防御性能。HGD模型则使用降噪网络作为防御措施来去除对抗性噪声。R&P模型和NIPS-r3模型是先将图像经过随机变换后再传递给卷积神经网络进行分类,以减轻对抗效果。

3.2 消融分析

3.2.1 标准差取值

本文翻转策略是通过对输入进行随机水平翻转方式来实现。虽然随机水平翻转在提高对抗样本的黑盒攻击性能方面低于高斯噪声,但它可与高斯噪声有效组合生成黑盒攻击能力更强的对抗样本。然而,高斯噪声的标准差值选择对于提高对抗样本的攻击性起着关键作用。如果标准差设置为0,则高斯噪声和翻转组合策略方法就将变为只有随机水平翻转,所得对抗样本的攻击性能将会变弱。同样,如果标准差std设置过大,则会导致原有样本失真严重,从而影响所得对抗样本的攻击性能,为此进行消融研究以找到合适的高斯噪声标准差值。

本节设置标准差值变化范围为0.0~0.25,并分别使用GF-MI-FGSM、GF-DIM和GF-TI-DIM方法白盒攻击Inc-v3模型生成相应的对抗样本。为了精确地测量标准差效果,开始阶段变化间隔设置为0.02,随着趋于稳定时变化间隔设置为0.01。图3显示了生成的对抗样本对于4种普通模型和4种防御模型的攻击成功率。从图3中可以看到,在白盒攻击保持较高成功率的同时,对于所有黑盒攻击,普通模型要比防御模型稍微较早趋于稳定。此外,当防御模型攻击成功率趋于最大值时普通模型开始轻微下降。为此,本文综合考虑8个模型平均攻击成功率,选择使平均攻击成功率达到最大的标准差值,即std=0.2。因此在以下实验中将高斯噪声标准差值设置为0.2。

图3 高斯噪声标准差值对ASR影响Fig.3 Influence of Gaussian noise standard deviation on ASR

3.2.2 滑动平均系数取值

滑动平均系数β用于权衡GF策略和随机调整大小填充两种变换方式影响。如果β=0,则GFDIM降级为DIM,GF-TI-DIM降级为TI-DIM。因此,本节进行消融实验以找到适当的β值,设置滑动平均系数变化范围从0.0到1.0,变化间隔为0.1,并分别使用GF-DIM和GF-TI-DIM方法白盒攻击Incv3模型生成相应的对抗样本。图4显示了生成的对抗样本针对4种普通模型及和4种防御模型的攻击成功率。同样,实验中综合考虑8个模型平均攻击成功率,当β为0.6时获得最大值。因此,以下实验中将β设置为0.6。此外,β=0.6也表明了在提高对抗攻击性能方面GF策略所占比重更大,即GF策略发挥的作用要比随机调整大小填充变换方式更强。

图4 滑动平均系数对ASR影响Fig.4 Influence of moving average factor on ASR

3.2.3 高斯噪音与翻转有效性

GF策略是一种组合策略,包括了高斯噪声添加和随机水平翻转两种操作。为此,本节进行消融分析各自在提高对抗样本的黑盒攻击性能方面的有效性。首先,分别只考虑把随机水平翻转策略或者高斯噪声策略整合到诸如MI-FGSM、DIM和TI-DIM基线方法,从而形成F-MI-FGSM、F-DIM、F-TIDIM、G-MI-FGSM、G-DIM和G-TI-DIM方法。然后,分别使用上述6种方法以及GF-MI-FGSM、GFDIM和GF-TI-DIM方法白盒攻击Inc-v3模型生成相应的对抗样本。表1中显示了生成的对抗样本对于3种普通模型和6种防御模型的黑盒攻击成功率。从表1可以看到,对于所有黑盒攻击,高斯噪声策略要比随机水平翻转策略更强,这表明高斯噪声策略在提高对抗样本的黑盒攻击性能方面要优于随机水平翻转策略。此外,高斯噪声和翻转组合策略方式均比只考虑高斯噪声策略或者随机水平翻转策略表现得更好,从而说明高斯噪声能够与随机水平翻转有效融合,进一步增加了输入的多样性,从而得到更具迁移性的对抗样本。

3.2.4 归一化处理有效性

本文使用像素值归一化方式来处理添加了高斯噪声的样本,既能保留所添加的噪声信息,又能满足像素值限定范围。为此,本节进行消融分析像素值归一化方式在提高对抗样本的黑盒攻击性能方面的有效性。分别在像素值未归一化与归一化两种方式下采用G-MI-FGSM、G-DIM和G-TI-DIM方法白盒攻击Inc-v3模型生成相应的对抗样本。从表2可以看到,对于所有黑盒攻击,经过像素值归一化的方法均要比未经过像素值归一化的方法更强。例如,经过像素值归一化处理的G-MI-FGSM、G-DIM和G-TI-DIM方法的黑盒攻击平均成功率分别为45.1%、53.1%和61.9%。然而,未经过像素值归一化处理的G-MI-FGSM、G-DIM和G-TI-DIM方法的黑盒攻击平均成功率则为40.3%、46.9%和60.2%,这表明像素值归一化方式有效提升了对抗样本的黑盒攻击性能。

表1 高斯噪声与翻转策略对黑盒攻击成功率影响Table 1 Influence of Gaussian noise and flipping strategy on black-box attack success rate %

表2 像素值归一化对黑盒攻击成功率影响Table 2 Influence of pixel value normalization on black-box attack success rate %

3.3 单模型攻击

本文将GF策略攻击方法与基线攻击方法做了单模型攻击的对比实验,即分别针对4个普通模型Inc-v3、Inc-v4、IncResv2和Res-152生成相应的对抗样本,测试其对于所有10个模型的攻击成功率。从表3~5可以看出,GF策略方法可有效改进现有基于梯度攻击方法的攻击性能,使得改进后的对抗攻击方法在保持较高的白盒攻击成功率前提下整体提升其黑盒攻击成功率。例如,GF-TI-DIM方法在Incv3ens3模型和Inc-v3模型上的攻击成功率分别为67.9%和97.9%。然而,相应的基线方法TI-DIM则分别为45.5%和97.2%。

虽然本文方法对样本进行了高斯噪声添加处理,但是对于HGD这种采用降噪网络从输入中消除对抗性噪声的防御方法仍然有效。从表3~5可以看出,对于HGD防御模型,该方法的成功率大大超过了基线方法,这表明所生成的对抗样本仍对HGD防御模型保持很强攻击性。

此外,本文还采用直观的方式对比了GF策略攻击方法与基线攻击方法所生成的对抗样本。由图5可知,本文方法所生成的对抗样本相比于基线攻击方法并没有增加对抗噪声尺度。

表3 MI-FGSM和GF-MI-FGSM单 模型ASR对 比Table 3 Comparison of single-model ASR of MI-FGSM and GF-MI-FGSM %

表4 DIM和GF-DIM单 模型ASR对 比Table 4 Comparison of single-model ASR of DIM and GF-DIM %

表5 TI-DIM和GF-TI-DIM单模型ASR对比Table 5 Comparison of single-model ASR of TI-DIM and GF-TI-DIM %

图5 对抗样本Fig.5 Adversarial examples

3.4 集成模型攻击

尽管生成的对抗样本的黑盒攻击成功率得到了提升,但在攻击防御模型方面仍然相对较弱。为此本文采用了集成模型攻击方法来进一步提升对抗样本的攻击性能。首先,将4个普通模型Inc-v3、Incv4、Res-152和IncRes-v2融合为集成模型。然后,采用GF策略攻击方法与基线攻击方法进行集成模型攻击对比。在实验中,集成模型里4个模型的权重值设置为相同。

从表6中可以看出,GF策略集成攻击算法在攻击防御模型的效果上均要优于基线集成攻击算法。同时,MGF-TI-DIM算法所生成的对抗样本黑盒攻击性能是所有集成攻击算法中最强的,能以86.2%的平均成功率欺骗6种先进防御模型。相比于目前最强黑盒攻击方法M-TI-DIM算法,MGF-TI-DIM算法在攻击成功率上提升约8.0%。

表6 集成模型ASR对比Table 6 Comparison of ensemble-model ASR %

此外,为了表明在对抗攻击性能方面GF策略要比其他数据增强技术攻击方法[6-7]更强,本文做了单模型攻击和集成模型攻击下的攻击成功率对比。如图6所示,DIM代表文献[6]方法,TI-MI-FGSM代表文献[7]方法,GF-MI-FGSM则为本文方法。由图6可以看出,本文方法在单模型和集成模型下黑盒攻击性能均优于文献[6-7]方法,从而进一步验证GF策略方法的有效性。

图6 攻击成功率对比Fig.6 Comparison of attack success rate

4 结束语

本文针对如何整体提升普通和防御模型的黑盒攻击成功率问题,提出一种基于高斯噪声和翻转组合策略方法来增强对抗样本的可迁移性,从而提升对抗攻击能力。在NIPS 2017对抗竞赛的ImageNet数据集做了对比实验,实验结果表明所生成的对抗样本对于普通和防御黑盒模型均具有更强的攻击性,并且在白盒攻击方面仍能保持较高的成功率。同时,为了进一步增强算法在黑盒攻击中的攻击性能,本文采用了集成模型攻击方法,实现了以86.2%的平均成功率欺骗6种先进黑盒防御模型。下一步将继续研究如何将高斯噪声和翻转组合策略增强技术应用到诸如基于生成网络和基于优化的攻击方法中。

猜你喜欢

黑盒高斯成功率
一种基于局部平均有限差分的黑盒对抗攻击方法
成功率超70%!一张冬棚赚40万~50万元,罗氏沼虾今年将有多火?
如何提高试管婴儿成功率
数学王子高斯
天才数学家——高斯
如何提高试管婴儿成功率
从自卑到自信 瑞恩·高斯林
研究发现:面试排第四,成功率最高等4则