GA攻击变体通常对防御有效
发布时间:2025-06-24 19:07:58 作者:北方职教升学中心 阅读量:217
Adversarial Guidance
我们引入对抗性指导,使用扩散模型生成自然对抗性示例。这种扰动可能会在某些图像属性中引入歧义,并明显扭曲原始概念,导致UAE通常语义模糊且质量较差。该算法首先计算受攻击图像的 Grad-CAM,利用防御模型和地面实况标签形成显着对象的掩模。因此,可视为迭代解决以下优化问题:
在每个步骤中,该过程首先对先前受到扰动的潜在变量 ̃ xt 1 进行去噪,然后引入欺骗防御分类器 f 的对抗性扰动。这有可能为未来的防御技术提供更全面的鲁棒性训练和评估。扩散模型以去噪为目标进行训练,因此可以有效去除明显的对抗性噪声,同时保留攻击能力,从而产生自然出现的UAE。图 2 可视化生成的UAE,AdvDiffuser可以生成更自然的人脸图像。因此,这些UAE在感知上可能与原始示例有很大不同。平均l∞、在更多的供给方式下,本文所有的防御都获得了针对所有威的一定程度的鲁棒性。。
生成对抗网络(GAN)等生成模型能够有效地从数据分布中学习和采样。然而,选择代理模型和距离度量需要主观先验知识来生成看起来真实的对抗性示例。GA攻击变体通常对防御有效。然而,扰动潜在代码以人类感知上显着的方式改变了生成图像的高级语义。UAE可以对图像进行广泛的更改,而不会显着影响人类对其含义和可信度度的感知,因此已成为过去几年对抗性攻击研究的一个突出方向。此外,它与所考虑的感知指标无关。然后,定位进一步归一化为 [0, 1],成为显着对象的掩码:
每个去噪步骤 t 中:
实验
- Synthetic Adversarial Examples from Scratch
我们首先比较了AdvDiffuser与ACGAN 。FID分数和样本生成速度方面优于 AC-GAN。此外,我们还包括Gowal等[10]的WideResNet-70-16模型。 GradCAM 有助于根据防御分类器 f 定位 y 相应对象的类特定区域。“UAE”使用图像条件的 UAE,“SAE”从头开始生成对抗性示例,最后“Mixed”使用两者来训练鲁棒模型。通过重复 T 步去噪过程,它形成了一个添加对抗性扰动的过程,同时从注入的噪声中去除不自然的成分。最后,令ϵ= δβ,其中 δ∈[0, 1] 调整对抗性引导的强度。其他人则考虑图像重新着色 。表 2 提供了各个模型的攻击成功率。然后,它迭代地使用预训练的扩散模型,对潜在图像 xt 1 进行去噪。
为了优化公式(5),我们采用投影梯度下降(PGD)攻击,通过迭代 i∈[0 : I-1] 来找到参考图像 z0 的近似解 zI:
Pz,ϵ代表噪声的约束。
- Robustness against Unseen Threat Models
从表4上是对对抗性训练的CIFAR-10进行了一系列实验,图中“UAE”、
这里没看懂,我怀疑要么表格有错误,要么就是这个方法在CIFAR-10上的攻击效果真的很烂
- ImageNet
首先,关于图像的生成质量来说。基于梯度的无限制对抗性攻击会在预定义的扰动范围内扰乱原始图像。我们令 zI =PGD(z0,f,",I) 表示上述过程。这使得经过训练的扩散模型能够以高保真度和多样性对数据分布进行采样。该图显示,AdvDiffuser的表现一直优于其他,因为除了l∞距离指标外,它对所有指标都产生了微小的变化。在前一种模型中(Rebuffi et al.A),使用外部数据进行训练,而后者(Rebuffi等人B)使用由在现有训练数据上训练的DDPM生成的图像。
Adversarial Inpainting
对抗性修复基于参考图像创建看起来自然的对抗性示例。为了进行这种比较,我们使用了相同的鲁棒性别分类器,它的自然准确率为97.3%,对PGD-50攻击的鲁棒准确率为76.5%。它根据对象显着性调整每个像素的去噪强度,确保包含重要对象的区域经历较小的修改。如表 1 所示,AdvDiffuser 在攻击成功率、而防御分类器则面临增加对抗样本的攻击性,通过增加对抗损失,诱导模型对这些样本的预测出现错误。还证明,即使在明显的扰动下,本文的UAEs也可以保持图像的原始语义内容。在第3.1节中,我们利用并修改了预训练扩散模型的后向去噪过程,并注入可以成功攻击防御模型的小的对抗性扰动。扩散模型从非平衡热力学中汲取灵感,它定义了添加噪声图像扩散步骤的马尔可夫过程,然后学习反转扩散过程以从噪声图像生成数据样本。为了实现更现实的结果,我们引入了对抗性修复,它利用从基于梯度的类激活映射(GradCAM)派生的掩模[35]。
在图7中放大并显示了由各自攻击所增加的扰动。然而,如图5所示,它们在一定程度上改变了图像的整体颜色,造成了显著的颜色偏移。
模型
图 1 提供了 AdvDiffuser 算法的高级概述。排除l∞距离,因为这不是本文优化的目标,图5显示l∞有界攻击产生明显的伪影。相反,观察到GA-PGD产生的UAEs具有高频噪声,具有可见的“纹理”偏差,因此可能看起来不太自然。在附录 D 中,我们进一步比较了 DiffPure 下的攻击方法,DiffPure 是一种利用扩散模型来净化对抗性扰动的防御机制。我们进一步使用归一化SCE损失作为最大化目标函数L,而不是传统的SCE损失,因为它被证明更有效地产生成功的攻击。
- CIFAR-10
我们使用正常训练的 WideResNet-28-10 模型(标准)作为 CIFAR-10 的standrad,并纳入了 RobustBench 排行榜 [6] 中 '2 扰动中前三名最鲁棒的模型。另一方面,“perceptual attacks” 使用感知距离的界限来优化扰动。
对于图像依赖的UAE合成,我们将AdvDiffuser与当前的SOTA,几何感知(GA)攻击进行了比较。
该过程首先使用梯度加权类激活映射(Grad-CAM)识别真实标签 y 的参考图像 x0 中的显着区域。该过程确保生成的图像与参考图像非常相似,同时还操纵背景纹理、除了图像条件攻击之外,AdvDiffuser 还提供了优于其他无限制对抗性攻击的另一个优势,因为它能够制作无限数量的合成但自然的对抗性示例。接下来,AdvDiffuser 使用预先计算的掩模在生成的攻击图像和噪声原始图像之间进行插值。这就是为什么使用它们来生成对抗性示例。形状或对象等方面,防御分类器可能将其视为包含不相关的特征。这些模型是 [29] 中的两个 WideResNet70-16 模型。
创新点
为了解决这些问题,我们提出了 AdvDiffuser,一种基于扩散模型的新型生成式无限制对抗攻击。目标是生成一个可以成功欺骗防御分类器的图像,同时最好保留原始图像中的显着对象。由于 AdvDiffuser 在像素级别扰动图像,因此与基于 GAN 的方法生成的感知扰动相比,它产生的感知扰动要小得多。这些方法搜索潜在空间中的扰动,这些扰动可能导致目标模型在解码后对图像进行错误分类,以找到对抗性示例。研究结果表明,扰动与“形状特定”的变化是一致的,与自然图像分布一致。另一方面,GA-PGD产生的扰动在低信息区域(例如背景天空)很容易被注意到。对使用传统的l2边界训练的模型,在面临Lp攻击时有较好的对抗鲁棒性。这一观察结果验证了将反向去噪过程和对抗引导结合起来产生的扰动更接近于干净图像分布的观点。随后,对图像执行 2-bounded PGD 攻击。因此,它形成了一个鞍点解决方案,扩散模型(生成模型)在尽量准确生成数据样本,试图最小化生成样本的负对数似然。