Improving Adversarial Transferability via Neuron Attribution-Based Attacks
深度神经网络(DNNs)已经被部署在许多安全关键的实际应用中,如自动驾驶和医疗诊断等。然而,DNNs易受对抗样本的攻击,这些攻击可能会导致严重的后果。因此,发展有效的攻击算法来识别 DNNs 的不足之处对于安全敏感的应用至关重要。
在黑箱设置中,目标模型的信息是未知的,feature-level 攻击方法会污染本地模型的中间特征输出,然后直接使用这些恶意样本来攻击目标模型。由于特征的可传递性,feature-level 攻击方法已经显示出可以synthesize 更多可传递的对抗样本。然而,现有的 feature-level 攻击方法通常采用不准确的神经元重要性估计,这会降低它们的传递性。
为了克服这些缺陷,我们提出了基于神经元归因的攻击(NAA)方法,该方法执行 feature-level 攻击,并使用更准确的神经元重要性估计。具体来说,我们首先将模型的输出完全归因于中间层的每个神经元。然后,我们推导出一个神经元归因近似的方案,以极大地减少计算开销。我们根据神经元的归因结果对其进行加权,并执行 feature-level 攻击。
我们的实验结果证实了我们的方法相比于 state-of-the-art 基准的优越性。我们的代码已经开源,位于:https://github.com/jpzhang1810/NAA 。
在本文中,我们将讨论以下几个重要的知识点:
1. 对抗样本的概念和危害
对抗样本是一种特殊的输入样本,它是通过对模型进行微小的修改而生成的,可以欺骗模型,使其输出错误的结果。对抗样本可能会导致严重的后果,如自动驾驶系统的崩溃或医疗诊断的错误。
2. Feature-level 攻击方法
Feature-level 攻击方法是指污染本地模型的中间特征输出,然后使用这些恶意样本来攻击目标模型。这种方法可以synthesize 可传递的对抗样本,但存在准确性不高的神经元重要性估计问题。
3. 神经元归因
神经元归因是指将模型的输出归因于中间层的每个神经元。这种方法可以提供准确的神经元重要性估计,从而提高 feature-level 攻击方法的传递性。
4. Neuron Attribution-based Attack(NAA)
NAA 是一种基于神经元归因的攻击方法,该方法执行 feature-level 攻击,并使用更准确的神经元重要性估计。NAA 可以synthesize 可传递的对抗样本,并提高攻击的效率。
5. 传递性和黑箱设置
传递性是指对抗样本可以在不同的模型之间传递的能力。黑箱设置是指目标模型的信息是未知的。在黑箱设置中,feature-level 攻击方法可以帮助提高攻击的效率。
本文讨论了对抗样本的概念和危害,Feature-level 攻击方法的原理和缺陷,以及基于神经元归因的攻击方法的优越性。我们的方法可以synthesize 可传递的对抗样本,并提高攻击的效率,对安全敏感的应用具有重要的研究价值。