文章信息
论文题目:LACMUS: Latent Concept Masking for General Robustness Enhancement of DNNs
期刊(会议):S&P
时间:2024
级别:CCF A
文章链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10646871
代码仓库:https://github.com/TASI-LAB/LACMUS
概述
现有的鲁棒性解决方案,如对抗训练,已经证明在构建对抗扰动的弹性模型方面具有潜力。值得注意的是,对抗训练效力的一个关键因素在于有效的数据增强技术,以明确地学习和修复由变化引起的“错误”。尽管通过增加对抗性示例在增强对抗性鲁棒性方面取得了重大进展,但我们确定了现有对抗性训练方法中存在的四个显著差距:
- 攻击特异性。目前的方法侧重于特定攻击,对更广泛的无形攻击缺乏效力,即使是在同一类别中。
- 变异特异性。虽然对抗训练的像素级扰动数据增强可以增强模型抵抗对抗变化,但它们对其他类型的变化无效,例如语义变化,如照明变化。显然,缺少一个解决这两种变化情况的整体解决方案。
- 健壮性和效用权衡。对抗性鲁棒性的增强以原始干净测试集上的性能为显著代价。这个问题的核心在于所谓的“问题正则化”。这种类型的正则化导致决策边界过光滑。因此,扩大了犹豫不决的领域,即模型努力做出明确、自信的预测。
- 低级抽象和可行性。当前的对抗性训练方法主要关注像素级扰动或层级操作,这对应于低级抽象。这些方法往往忽视图像的结构属性,强调需要在更抽象的层面(如概念层面)进行干预,以实现有效的解释。此外,专有限制等约束可能会限制对抗训练对原始样本的访问,从而在使用有限的数据集时提出可行性挑战。
我们假设,模型对对抗性扰动和数据变化的高度敏感性源于对数据集中我们称之为“非通用概念”的过度拟合。具体来说,当模型遇到与复杂概念(如照明变化)相关的训练样本数量不足时,就会出现这种过拟合。在这样的场景中,模型不是在这些复杂的概念中学习可泛化的模式,而是记忆特定的概念。这种记忆导致对这些非通用概念的过度依赖,反过来又增加了模型对数据中不符合其特定学习实例的轻微偏差或扰动的脆弱性。因此,对抗训练鲁棒数据增强的首要目标应该是提高模型在以下方面的熟练程度:(a)识别细微的概念表示;(b)确定非共同概念的模式;(c)就概念进行有效的对抗训练。传统的对抗性训练方法通常无法解决这些方面,因为它们主要在高维但低水平像素空间的领域中工作。
LACMUS的本质在于它的策略,即有选择地模糊数据中的某些概念,从而迫使模型根据剩余的、不模糊的信息做出准确的决策。该方法具有两个显著的优点:首先,它鼓励模型在部分信息遮挡的情况下发展鲁棒表示;其次,它使模型能够忽略屏蔽区域中的扰动,有效地对抗潜在的对抗性攻击。
LACMUS方法论分四个步骤展开:
- 投射到潜在概念空间。该过程的初始步骤涉及使用编码器将高维数据转换为潜在的概念空间,旨在将复杂数据提取为抽象的、以概念为中心的表示,以捕获其基本概念元素。
- 识别非通用概念模式。第二阶段需要彻底分析数据的概念表示和模型的分类输出之间的关系。通过将概念掩码应用于该表示并观察分类中的后续变化,我们可以有效地识别特定模式,称为“非通用概念模式”,这些模式严重影响分类决策。
- 概念对抗样本的增强。我们通过战略性地改变基于概念掩码的概念表示,然后使用预处理解码器进行重构。
- 稳健性的量化。此外,LACMUS使我们能够量化概念表示中所需的扰动程度,以改变分类结果。该度量用作样本稳健性的指标。表现出较低鲁棒性的样本(即那些更容易受到扰动的样本)受到更密集的增强,从而提高模型对这些特定概念领域中的变化的弹性。
威胁模型
对手的目标和能力
我们确定了DNN中的三个关键漏洞:对抗性攻击、语义攻击和由于分布漂移而导致的性能下降。相反的例子是被微妙地改变的输入,旨在误导模型,通常包含人类无法察觉但导致错误模型输出的微小扰动。与对抗性示例(通常是不可察觉的更改)不同,语义攻击以人类可以理解的方式改变其含义的方式来操纵输入。这些攻击更复杂,专注于利用模型的高级特征或语义,确保扰动是可感知的,但对人类和机器都具有误导性。最后,分布漂移是指当暴露于偏离其训练分布的数据时,模型性能的下降,这突出表明需要扩大模型对不同现实世界条件的适应性。
对抗训练
针对特定攻击的对抗训练。该防御策略生成针对目标模型的特定攻击(攻击a)的对抗示例,用于对抗训练目的。这种防御最大限度地提高了模型抵御攻击A的弹性。这些示例的生成可以采用白盒方法,利用模型架构和参数的详细知识,或者基于模型输出的黑盒方法。
针对攻击类型的对抗训练。接下来,可以将攻击推广为生成可以减轻相同类型的其他攻击的对抗性示例。该过程在目标模型上生成攻击A示例,以执行对抗训练,目标是使用A(包括A)击败相同类型的攻击。例如,使用快速梯度符号方法(FGSM)对抗训练来击败FGSM和其他像素级攻击,如投影梯度下降。
针对不可见攻击的对抗训练。通过在目标模型上攻击A的对抗性示例来执行对抗性训练,目标是保护模型免受广泛的攻击,特别是包括相同类型和不同类型的看不见的攻击。例如,同时防御对抗性、语义或分布漂移攻击的攻击类型。其目的是在不需要关于其存在性的先验知识的情况下,一次提高模型对各种对抗性扰动的鲁棒性。
LACMUS:用于鲁棒性增强的潜在概念屏蔽
概述
在这项工作中,我们将对抗性扰动扩展为一般鲁棒性策略,以解决像素级对抗性扰动和结构语义变化(如图像的照明变化或旋转)。在我们的策略中,对抗训练充当一种数据增强技术,该技术通过额外的扰动或语义转换微调样本上的DNN,以提高模型对可见和不可见扰动或语义变换的鲁棒性。
LACMUS由图2中所示的五个组件组成:(a)概念映射,(b)概念掩码生成,(c)概念对抗示例的增强,(d)自适应对抗训练,和(e)样本级鲁棒性量化。
首先,我们提出了一种有效的矢量量化机制,即概念映射,以将像素空间中的图像等输入样本投影到比单个像素更容易解释的低维潜在概念空间中。该机制将产生一个编码器和解码器,以映射到潜在空间中并从中重建图像,以及一个全局概念码本,以与人类兼容的方式描述数据的概念特征。我们标记“Concept”是指封装在从训练数据导出的离散概念码本(即Dictionary)中的全局共享模式。代码簿中的每个概念表示数据集中通用的不同模式或功能(字典条目)。我们还应用了嵌入扰动和贝叶斯估计来进一步增强码书。然后,在全局码本中定位背景概念,然后生成对给定目标模型的预测结果高度敏感的概念掩码,即概念掩码生成。我们应用一种受控扰动策略,该策略根据概念掩码操纵概念表示,以产生导致错误分类的重构,即概念对抗示例的增强。最后,我们利用增强数据来执行对抗训练,迫使模型学习与非通用关键概念(即自适应对抗训练)相关的正确决策。我们基于概念掩码和概念对齐模式进一步量化用于有效数据增强的概念稳健性,即样本级稳健性量化。LACMUS与现有工作的核心区别在于,LAMCUS不是从增强中学习特定的恶意模式,而是在屏蔽一些概念后强制模型学习额外的潜在特征知识。
PVQ:信息概念映射
对于低分辨率图像,根据固定数量的概念码本产生潜在表示的潜在解决方案是vanilla VQ-VAE。给定编码器 E ( ⋅ ) E(\cdot) E(⋅)、解码器 G ( ⋅ ) G(\cdot) G(⋅)和学习码本 C = { c k } k = 1 K C = \{c_k\}_{k=1}^K C={ck}k=1K, c k ∈ R d z c_k \in \mathbb{R}^{d_z} ck∈Rdz,其中 d z d_z dz是维数, R d z \mathbb{R}^{d_z} Rdz是潜在表示空间,训练目标如下所示:
L V Q = ∣ ∣ sg [ z e ( x ) ] − c k ∣ ∣ 2 2 + β ∣ ∣ z e ( x ) − sg [ z k ] ∣ ∣ 2 2 L_{VQ} = ||\text{sg}[z_e(\boldsymbol{x})] - \boldsymbol{c}_k||_2^2 + \beta ||z_e(\boldsymbol{x}) - \text{sg}[z_k]||_2^2 LVQ=∣∣sg[ze(x)]−ck∣∣22+β∣∣ze(x)−sg[zk]∣∣22
这里, z e ( E ( x ) ) z_e(E(\boldsymbol{x})) ze(E(x))和 s g ( ⋅ ) sg(\cdot) sg(⋅)是停止梯度算子,而β是设置为0.25的超参数。
然而,这种方案的潜在空间编码容易出现过拟合和后向压缩现象。为此,我们应用补丁矢量量化机制PVQ,利用三种增强策略来改进高分辨率图像的概念化:(1)嵌入增强,(2)质量鉴别,(3)代码分解和归一化。
嵌入增强。将给定图像切割成特定大小的块。每个块通过ViT衍生的Encoder得到对应的token。离散概念码本也由此从训练数据导出。该码本从训练数据中捕获全局共享的概念。通过将每个嵌入token与最近的码本概念条目对齐,再送入到Decoder中还原回图像补丁,最后拼回完整的图像。
质量鉴别器。为了进一步提高码本和图像重建的质量,我们使用鉴别器和感知损失来保持高感知质量,即使在高压缩率下。具体地,我们使用基于预先训练的VGG模型的感知损失 L P e r c e p t u a l L_{Perceptual} LPerceptual替换重建损失的 L 2 L_2 L2损失,我们进一步使用具有基于补丁的鉴别器 D A d v D_{Adv} DAdv的对抗训练过程,该鉴别器旨在区分真实图像和重建图像,以获得 L A d v L_{Adv} LAdv。使用的特定 D A d v D_{Adv} DAdv是预训练的StyleGAN鉴别器。
高效概念码本。为了获得有效的潜在概念空间,我们利用线性投影和code归一化。线性投影将来自编码器的嵌入token压缩到低维空间中来查找code索引。总之,我们在低维查找空间上查找离输入编码最近的变量,然后将匹配的潜在code投射回高维嵌入空间。通过将所有潜在变量映射到一个球体上,将L2归一化后的潜在变量的欧几里德距离转化为两个向量的余弦相似性。这两种策略都进一步提高了训练稳定性和重建质量。最后,我们可以将PVQ的训练损失构建为:
L = L V Q + 0.1 L A d v + 0.1 L P e r c e p t u a l + 0.1 L L o g i t − L a p l a c e + 1.0 L 2 L = L_{VQ} + 0.1L_{Adv} + 0.1L_{Perceptual} + 0.1L_{Logit-Laplace} + 1.0L_2 L=LVQ+0.1LAdv+0.1LPerceptual+0.1LLogit−Laplace+1.0L2
概念掩码生成
给定训练有素的编码器 E ( ⋅ ) E(\cdot) E(⋅)、码本C和解码器 G ( ⋅ ) G(\cdot) G(⋅),我们希望查明目标分类模型没有充分学习的潜在概念模式,即我们的非常见概念模式。这些概念在改变时,极有可能在重建样本中导致错误分类。
为了识别非公共概念,我们引入了一种观察潜在表示和背景概念关键位置的启发式机制。在该启发式算法中,我们首先获得特定数量的训练样本(例如10%)对应的潜在表示z,然后计算潜在概念在这些选择的样本上的使用。我们将训练样本中最常用的一个或两个概念视为背景概念 C b g C_{bg} Cbg。
接下来,给定样本x,我们迭代地将z的潜在表示改变为背景概念,得到 z ^ \hat{z} z^。然后根据 z ^ \hat{z} z^进行重建。然后使用目标分类模型 f ( ⋅ ) f(\cdot) f(⋅)来评估该重建样本 x ^ \hat{x} x^。最后,我们仔细分析了潜在表示z中每个修改的影响。z中导致重建时错误分类的更改位置用1标记,而其他位置用0标记。该过程导致形成非通用概念掩码MC,该掩码有效地突出了在更改时容易导致分类错误的关键潜在模式。该掩码是理解和利用目标分类模型漏洞的关键工具,特别是在学习框架内学习不足或不常见的概念方面。
概念对抗样本的增强
与逐像素增强不同,LACMUS掩盖用于增强的潜在概念。LACMUS的直觉是,选择性地隐藏非通用概念将减少模型对数据中罕见模式的过度拟合。通过增强模型对细微差别的概念表示的识别,LACMUS提高了泛化能力和对数据扰动的鲁棒性。具体来说,我们的数据增强模块掩盖了以前被识别为学习不足和鲁棒性低的非常见潜在概念模式。
具体地,基于给定样本x及其潜在概念掩码MC进行增强。第一步是获得增强的潜在表示 z ~ \tilde{z} z~,其中,如果 M C i = 0 {MC}_i=0 MCi=0,z的第i个位置不变;否则,我们使用启发式选择和扰动机制在该位置进行操纵。
在我们的LACMUS框架的背景下,对于掩蔽条件 M C i = 1 {MC}_i=1 MCi=1的潜在表示z中的位置,我们战略性地选择一个或多个位置来改变。然后用来自背景概念的概念或来自与 z i z_{i} zi不同的C的概念来替换所选位置的每个概念 z i z_{i} zi。优先选择与 z i z_{i} zi有实质性偏差的替换概念。然后,我们通过重建这些修改后的潜在表示 z ~ \tilde{z} z~来产生概念屏蔽副本的集合。该重建之后是效用检查,其中仅保留产生模型错误分类的样本,即概念对抗示例。随后使用这些概念对抗性示例来增强对抗性训练方案,从而增强模型对这种对抗性扰动的弹性。
可以设置要在增强中使用的非零位置的不同比例。比例越大,增强掩模的多样性越高。每个训练历元中的每个图像都具有通过随机选择MC的不同非零位置而生成的不同掩码。换句话说,图像将具有不同的生成增强掩码。
最后,我们将从所选样本的概念掩盖迭代中导出的概念对抗样本合并到我们的训练数据集中作为补充样本。利用这些样本来改进对抗训练过程,从而微调目标模型,以更好地承受对抗条件。
样本级鲁棒性的量化
在对抗训练领域,理解单个样本的鲁棒性是至关重要的。一种更具战略性的方法不是不加选择地利用所有原始训练样本作为参考来生成增强样本,而是选择最有利于增强目标模型鲁棒性的原始样本,称为非鲁棒参考样本。该策略也很好地满足了对抗训练对原始样本限制访问的要求。
样本级鲁棒性的量化评估由概念掩码 M C ( x ) = { M C 1 , … , M C H × W } MC(x) = \{MC_1, \dots, MC_{H \times W}\} MC(x)={MC1,…,MCH×W}捕获的特定样本的易攻击性,以及 z e ( x ) z_e(x) ze(x)和来自码本C的对齐概念之间的相似矩阵表示,记为 Z d ( x ) = { d 1 , ⋯ , d H × W } Z_d(\boldsymbol{x}) = \{d_1, \cdots, d_{H \times W}\} Zd(x)={d1,⋯,dH×W}。概念掩码揭示了z中易受攻击的位置,这些位置在概念操作后导致错误分类。距离矩阵记录了z中每个项目的对齐距离,由嵌入向量 z e ( x ) i z_e(x)^i ze(x)i与其在C中的最近对齐概念之间的 d i d_i di表示。
我们基于前面讨论的启发式选择过程中固有的熵来衡量样本x相对于模型$ f(\cdot) $的脆弱性并对其进行优先级排序。我们将鲁棒性熵定义为与该选择过程相关联的不确定性的度量,如下式所示:
H ( x ) = − ∑ ( M C i × d i ) log 2 ( M C i × d i ) \begin{aligned} H(\boldsymbol{x}) & =-\sum(MC_i\times d_i)\log_2(MC_i\times d_i) \end{aligned} H(x)=−∑(MCi×di)log2(MCi×di)
适应性对抗训练
最后,对于对抗训练,可以通过选择性地关注最有利于对抗训练的样本子集来实现优化。基于先前的熵值,我们选择top-K非鲁棒样本作为参考样本,生成用于对抗训练的概念对抗示例。这种方法,我们称为主动对抗训练,是加权对抗训练的改进版本,其中对抗示例的重要性在训练期间根据其鲁棒性得分动态调整。值得注意的是,我们的实验结果表明,通过利用略低于1%的原始样本池进行概念对抗性示例创建,就足以在整个数据集中引发显著的健壮性增强。此外,我们在对抗训练过程中逐步引入更多增强的概念对抗样本。这种逐步引入样本的方法通过将模型逐渐暴露于不断变化的易受攻击的非通用实例,增强了网络对屏蔽策略的鲁棒性。
实验设置
数据集
在四个数据集上评估LACMUS的性能:MNIST、CIFAR-10、ImageNet和CelebA。
目标模型
DenseNet、ResNet、VGG-16、ViT
攻击的基准方法
对抗攻击
首先,在对抗性攻击中,我们从三种对抗性设置中执行五次攻击,FGSM、PGD的白盒攻击,以及Pixel和Square攻击的黑盒攻击。
语义攻击
语义攻击是最近的攻击,利用模型无法理解输入数据的语义。在图像识别的上下文中,语义攻击包括转换 T ( ⋅ ) T(\cdot) T(⋅),例如旋转或照明变化,以将模型愚弄到错误分类,即 f ( T ( x ) ) ≠ f ( x ) f(T(\boldsymbol{x})) \neq f(\boldsymbol{x}) f(T(x))=f(x)。与传统的对抗性攻击(向输入中添加不可感知的噪声)不同,语义攻击以人类可以感知但语义上可信的方式修改图像。
我们考虑在图像域中对DNN的语义攻击,包括颜色偏移、空间偏移和重新照明。
分布漂移
我们从四个原始测试数据集中识别了一组具有挑战性的样本,将它们归类为分布漂移样本(表示为漂移)。这些样本与原始训练分布显著不同,并因其复杂性而被标记,这使得预处理的ResNet-18模型很难准确识别它们。这些漂移样本的存在一贯破坏各种模型的性能,导致常规分类错误。这是由于图像的独特性和要求。因此,这些漂移数据集成为检查和增强图像识别系统弹性的基本工具,特别是在面对复杂和现实的对抗性示例时。
概念增强的定性分析
在本节中,我们直观地比较了三类正在评估的示例:LACMUS生成的概念对抗示例、传统FGSM对抗示例和通过裁剪和截止的普通增强示例。这些方法如图3所示。从图3中可以明显看出,从感知质量的角度来看,LACMUS的CAE样本与自然变化非常相似。
我们进一步显示LACMUS CAE、高斯噪声添加样本和原始数据集之间特征的t-SNE可视化,以突出分布中的分离。为此,使用预先训练的VGG网络提取特征表示。图4显示了原始和CAE嵌入的显著集成,而不是将对抗性示例和其他增强样本从原始中分离出来。可视化突出了LACMUS在保持输入数据的核心相似性方面的熟练程度,从而肯定了其在保持原始特征分布的完整性方面优于其他方法的有效性。
鲁棒性的定量评价
对抗和语义稳健性评估
在干净数据集上的表现
LACMUS保持甚至提高了模型在干净数据上的准确性,并在对抗训练后高度提高了对概念对抗示例的鲁棒性。
针对对抗攻击和语义攻击的性能
单独使用:单独使用LACMUS可以增强模型对广泛的CAE、像素对抗性攻击和语义对抗性攻击的弹性。
LACMUS用作插件:除了语义对抗攻击外,将LACMUS集成到现有对抗训练方法中还可以提高模型对特定和传输像素对抗攻击的鲁棒性。
分布鲁棒性评估
与标准对抗训练方法相比,LACMUS具有更好的硬样本和损坏样本处理。
消融实验
跨任务的鲁棒性性能
LACMUS有效地概括了稳健下游分类所需的关键功能。
不同配比下的性能
在训练期间改变增强样本的比率可以为干净的预测性能或对抗性、语义攻击和分布漂移的鲁棒性提供潜在的优化。
使用不同的替换概念
与单独替换背景概念相比,在对抗训练期间选择用于替换的随机概念被证明在增强鲁棒性方面更有效。LACMUS中的背景概念替换说明了LACMUS能力的最低功效。
参考样本大小的性能
即使有少量用于生成CAE的参考样本,LACMUS在清除数据和受到攻击时仍保持性能。
总结
总之,LACMUS展示了利用增强非通用概念的新方法来克服传统对抗训练技术的局限性的潜力。LACMUS能够针对一系列具有挑战性的对抗性和现实世界示例增强DNN,再加上其在数据受限环境中的适用性,标志着在追求可靠和健壮的机器学习模型方面迈出了重大的一步。
虽然LACMUS标志着增强DNN鲁棒性的进步,但选择替换概念以最大限度地提高鲁棒性的过程需要更深入的研究。目前,LACMUS是一种基本方法,但更复杂的策略可能会产生更好的结果。未来的研究可以探索基于模型反馈的自适应或动态选择机制。此外,LACMUS中的重建质量可以提高,这是更广泛的生成建模社区中的一个公开问题。最后,LACMUS集成了一个特定的生成模型,为更高级的模型提供了实现更强大的鲁棒性、有效性和适用性的潜力。