JAFAR: Jack up Any Feature at Any Resolution
摘要
基础视觉编码器已成为各种密集视觉任务的核心组件。然而,它们的低分辨率空间特征输出需要特征上采样以产生下游任务所需的高分辨率模式。在这项工作中,我们介绍了 JAFAR——一种轻量级且灵活的特征上采样器,它增强了来自任何基础视觉编码器的视觉特征的空间分辨率到任意目标分辨率。JAFAR 采用了一种基于注意力机制的模块设计,旨在促进从低级图像特征中提取的高分辨率查询与通过空间特征变换 (SFT) 调制的语义丰富的低分辨率键之间的语义对齐。值得注意的是,尽管没有高分辨率监督,我们证明了在低上采样比率和分辨率下学习能够显著推广到更高的输出尺度。大量实验表明,JAFAR 有效地恢复了细粒度的空间细节,并在一系列下游任务中持续优于现有的特征上采样方法。
项目页面:PaulCouairon/JAFAR: Official code for “JAFAR: Jack up Any Feature at Any Resolution”
1 引言
无论是通过语言监督[1, 2, 3, 4, 5]还是纯视觉数据[6, 7, 8]训练的基础视觉编码器,都已成为现代计算机视觉管道的核心组件。视觉-语言模型在需要泛化的任务中表现出色,例如零样本分类和开放词汇分割[9, 10]。相比之下,专注于视觉结构的仅图像模型通常在需要细粒度空间推理的密集预测任务中表现更优,包括语义分割、深度估计、对象发现和点跟踪[11, 12, 13]。
为了处理高分辨率输入和大规模训练,基础视觉编码器通常会激烈地降采样空间信息——因子为 14×至 16×——产生语义丰富但空间粗糙的特征图。这种压缩引入了一个瓶颈,影响了需要像素级精度的下游任务。因此,下游管道[14, 15, 11, 16, 17]通常依赖于插值或专门设计的模块[18, 19]来生成高分辨率输出。
几种策略已被探索以克服这个瓶颈,但每种策略在效率和输出质量之间都有权衡。一个直接的解决方案是应用无训练的插值方法,如双线性上采样。虽然计算效率高,但这些直接插值——仅依赖于低分辨率特征图——未能利用原始高分辨率图像中的信息,往往导致模糊的输出。另一种方法是在编码之前上采样输入图像以增加特征分辨率。然而,这种方法由于自注意力的二次复杂度(在基础模型中常见)而显著增加了计算成本,并可能在特征图中引入伪影,最终降低性能[20, 21]。
针对特定下游任务,[22, 23, 24, 25, 26]使用任务特定标签的高分辨率监督学习特征上采样器。虽然通常较轻量,但这些上采样器依赖于与终端应用相关的标记数据,这限制了它们的泛化能力,并可能导致学习的特征偏向优化任务特定损失。为了解决这个问题,最近的方法如 LiFT[27]和 FeatUp[28]采用了任务无关的训练目标。LiFT 通过回归从两倍输入分辨率的图像中提取的特征图进行训练以执行 2×上采样。然而,其基于卷积的架构受限于固定的 2×缩放,限制了其对于任意输出分辨率的灵活性。相比之下,FeatUp 使用增强视图和自我重建来支持更高的上采样比率。然而,其联合双边上采样 (JBU) 变体存在过平滑的输出,而其隐式变体则需要为每个图像训练上采样器,使其在实际场景中不切实际。
在本文中,我们介绍了一种特征上采样器,旨在满足以下标准:(i) 任务无关的训练目标,(ii) 支持任意输出分辨率,(iii) 兼容任何视觉编码器,以及 (iv) 推理时最小的计算开销。为了实现任意目标分辨率的上采样,我们将我们的方法表述为使用交叉注意力块的全局插值机制。这种基于注意力的方法的成功关键在于查询和键之间强大的语义对齐。在 JAFAR 中,我们非对称地构建这些表示(见图 2):查询保留了高分辨率的低级细节,如颜色和纹理,而键则是结合高层语义和空间线索的混合特征。我们发现,用低级信息丰富键显著提高了查询-键对齐并增强了对未见输出分辨率的泛化。
此外,我们提出了一种类似于[27]的简单训练目标,但不受固定上采样因子的限制。值得注意的是,我们发现,在低上采样因子和低分辨率下进行训练(例如,8 × 8→ 32 × 32)足以有效推广到更大的尺度(例如,32 × 32→ 448 × 448),同时保持较低的内存需求,而不像直接在更高分辨率和因子下进行训练。我们的贡献可以总结如下:
- 我们引入了 JAFAR,这是一种新颖的轻量级基于注意力的特征上采样器,自然支持任意分辨率的上采样。它明确促进了从低级图像特征中提取的高分辨率查询与语义丰富的低分辨率键之间的空间对齐。
- 我们通过从相同的输入特征计算查询和键,并通过空间特征调制注入编码器深层特征中的语义信息来强制这种对齐。这种设计实现了空间细节和语义上下文的精确融合,而无需依赖外部监督。
- 我们提出了一种高度高效的、任务无关的训练目标,不需要高分辨率的监督信号。令人惊讶的是,我们展示了在低分辨率和低上采样比下进行训练能够稳健地推广到显著更高的输出尺度。
- 我们证明了我们的架构和训练目标的结合在各种下游任务中产生了显著的性能提升。当作为即插即用模块使用时,JAFAR 一致地大幅优于现有的上采样方法。
2 相关工作
特征上采样的目标是增加深度网络中间特征图的空间分辨率——类似于图像上采样,但在潜在空间中进行。这一过程对于需要精细空间细节的密集预测任务(如分割和深度估计)至关重要。传统的插值技术,如双线性、样条或 Lanczos [29, 30, 31, 32]提供了简单而高效的基线,但不适应底层内容。最近的神经方法通过从数据中学习重建高分辨率特征改进了静态方法。这些方法分为两类:任务相关,使用下游标签监督训练;任务无关,独立于终端任务训练。例如,CARAFE [22] 和 DySample[24] 预测内容感知核或动态采样位置。SAPA[23] 和 ReSFU[25] 利用基于相似性的方法来细化空间语义。然而,任务特定的标签依赖性限制了泛化能力。最近的任务无关方法如 LiFT[27] 和 FeatUp[28] 去除了这种依赖性。LiFT 引入了一个经过简单固定尺度训练的 CNN 模块,而 FeatUp 依赖于复杂的多损失目标,使得在实践中难以调整训练。此外,它需要训练一个上采样器和一个下采样器,增加了不必要的计算开销。值得注意的是,它的最佳性能是通过逐图像优化实现的,进一步限制了其实用性。相比之下,JAFAR 提供了一个可扩展的任务无关框架,可以在不同分辨率间泛化,而不需要复杂的流水线或逐图像优化,即使在低分辨率下训练小上采样因子时也表现出色。
2.1 上采样模块架构设计
上采样模块架构从固定尺度解码器到连续分辨率预测器各不相同。LiFT[27] 依赖于一个轻量级的 CNN 模块,训练用于固定因子的上采样,使进一步缩放依赖于迭代使用,这会导致性能下降或额外的插值步骤。FeatUp[28] 引入了两种架构变体:快速联合双边上采样器 (JBU) 和更准确的隐式网络,允许连续查询。虽然隐式模型产生了更好的结果,但由于逐图像优化,它在推理延迟方面存在显著问题。JBU 另一方面,通过堆叠多个 ×2 阶段来实现更高的上采样比,以换取表达性换取可扩展性。基于注意力的设计,如 SAPA[23] 和 ReSFU[25],通过建模跨尺度特征之间的亲和力提供增加的灵活性。这些方法利用空间相似性来重建高分辨率地图。JAFAR 的创新之处在于统一了低分辨率和高分辨率流:它使用共享的低级特征对齐高分辨率查询和低分辨率键,同时通过附加的语义提示丰富表示。这种设计即使在大的上采样比下也能保持空间对齐和表达性,为特征重建提供了一个强大且可扩展的架构。
2.2 语义指导和特征调制
特征调制技术通过条件信息调节特征,从而实现空间或语义引导的转换。早期形式如条件批归一化[33]、AdaIN[34]和 FiLM[35]按通道应用学习的比例 (γ) 和移位 (β) 参数,由全局条件信号派生而来。这些方法在涉及全局转换的任务(如风格迁移或分类)中效果良好。然而,它们的空间不变性限制了需要空间敏感性的任务的表达性。SPADE[36]和 SFT[37]通过计算γ和β作为全分辨率映射来解决这一限制,该映射基于密集输入(如分割掩码)进行条件设置。这种空间适应性通过允许每个特征位置被唯一调制来提高表达性。此外,这种形式的调制可以解释为参数化的、学习的特征通道重组,类似于 1×1 卷积,但由于空间特异性而更强大。在 JAFAR 中,调制不仅用于移动特征分布,还通过将高分辨率语义直接注入上采样管道来实现语义丰富的重建。这允许更丰富的特征线性组合,在测试时不依赖逐像素优化的情况下提高泛化能力和空间表达性[28]。
3 JAFAR
JAFAR 是一种特征上采样器,使用输入图像作为高分辨率指导来重建密集特征图。为了支持任意目标分辨率的上采样,我们将该方法表述为基于交叉注意力的全局插值机制。这种基于注意力的方法的有效性取决于查询 Q 和键 K 之间的强语义对齐。在 JAFAR 中,我们非对称地构建查询和键表示。查询保留了高分辨率的低级细节,如颜色和纹理,而键则设计为结合高层语义和低级空间线索的混合表示。我们发现,用低级信息丰富键显著提高了查询-键对齐并增强了对未见输出分辨率的泛化。
3.1 架构
总体流程如图 2 所示。JAFAR 接收高分辨率图像 I ∈ R 3 × H × W I∈R^{3×H×W} I∈R3×H×W 和低分辨率特征图 F l r = f ( I ) ∈ R C × h k × w k Flr= f (I) ∈ R^{C×h_k×w_k} Flr=f(I)∈RC×hk×wk 作为输入,后者是从冻结的视觉编码器 f f f 中提取的。图像 I I I 首先被投影到高维空间,并通过轻量级编码器 Eθ处理,以获得中间表示 I E = E θ ( I ) ∈ R d × H × W I_E= E_θ(I) ∈ R^{d×H×W} IE=Eθ(I)∈Rd×H×W,并进一步丰富 RoPE 位置嵌入[38]。
3.1.2 RoPE
查询特征 Q ∈ R d × h q × w q Q∈R^{d×h_q×w_q} Q∈Rd×hq×wq 是通过将图像表示 IE 传递给一个小的查询编码器生成的 IQ,然后进行自适应平均池化以达到目标分辨率 ( h q × w q ) (h_q×w_q) (hq×wq)。键特征 K ∈ R d × h k × w k K∈R{d×h_k×w_k} K∈Rd×hk×wk 类似地通过编码 IE 到 IK 并通过下采样以匹配语义特征 F l r F_{lr} Flr 的空间分辨率获得。这些语义特征提供调制参数,将高层信息注入到键中。交叉注意力机制然后使查询 Q Q Q 关注键 K K K,通过计算注意力图:
A = S o f t m a x ( Q ⋅ K ⊤ d ) , A=\mathrm{Softmax}\left(\frac{Q\cdot K^\top}{\sqrt{d}}\right), A=Softmax(dQ⋅K⊤),
然后使用此注意力图插值低分辨率特征图 Flr 并生成上采样输出特征 F ^ H R = A ⋅ F l r ˉ ∈ R C × h q × w q \hat{F}_{HR}=\bar{A\cdot F_{lr}}\in\mathbb{R}^{C\times h_{q}\times w_{q}} F^HR=A⋅Flrˉ∈RC×hq×wq。生成的表示保留了细粒度的空间细节,同时与输入图像保持语义一致性。我们在下面详细描述架构的主要组件。
3.1.3 查询分支
直接对齐高分辨率、低级查询与高级语义键通常会导致弱或噪声注意力,因为抽象级别的差异限制了有意义的交互。为克服这一挑战,我们在训练期间应用自适应平均池化来下采样中间表示 IQ 并生成查询特征 Q。这一操作仅在训练期间进行,减少了查询的空间分辨率,同时将局部上下文聚合到区域级描述符中。结果,下采样的查询与键更加语义对齐,不易受像素级噪声的影响,并且由于令牌数量减少而计算更高效。这些效果共同使查询下采样成为弥合细粒度视觉细节与抽象语义表示之间差距的有效策略,促进更稳定和可扩展的跨尺度注意力。重要的是,由于下采样仅在训练期间应用,模型在推理期间保持生成高分辨率输出的能力。
3.1.4 键分支
仅依赖视觉编码器的低分辨率特征来构建键,会导致泛化能力差和明显的伪影,这主要是由于这些粗糙特征与精细查询之间存在抽象差距。如第 4 节所示,这种不匹配会导致跨分辨率对齐不一致。为了解决这个问题,我们构建了混合键表示,这些表示在保留与查询的结构对齐的同时,融入了视觉编码器的丰富语义。
具体来说,我们对中间表示 I E I_E IE进行编码以生成 I K I_K IK,然后将其下采样,使其空间分辨率与编码器特征图匹配,从而生成初步键 K ~ \tilde{K} K~。进一步地,我们通过一种受文献 [36, 37] 启发的空间语义特征调制方法,利用编码器特征图 F l r ∈ R C × h k × w k F_{lr} \in \mathbb{R}^{C \times h_k \times w_k} Flr∈RC×hk×wk 对这些键进行调制:
K = γ F ⋅ K ~ + β F , K = \gamma_F \cdot \tilde{K} + \beta_F, K=γF⋅K~+βF,
其中, γ F , β F ∈ R d × h k × w k \gamma_F, \beta_F \in \mathbb{R}^{d \times h_k \times w_k} γF,βF∈Rd×hk×wk是通过从 F l r F_{lr} Flr进行线性投影获得的空间变化参数。这种自适应的、逐特征的调制使键富含局部语义上下文,从而增强空间和语义对齐,支持跨分辨率的更忠实、更可泛化的上采样。
在这个公式中, K K K 表示最终的键,通过将初步键 K ~ \tilde{K} K~ 与从 F l r F_{lr} Flr 中获得的空间变化参数 γ F \gamma_F γF 和 β F \beta_F βF 结合来生成。这种调制方式使键能够更好地与查询对齐,同时保留视觉编码器的语义丰富性。
3.1.4 基于相似度的上采样
为了执行上采样,我们采用了一种简化的注意力机制,其中注意力权重是通过查询和语义调制的键之间的缩放点积计算得出的。关键在于,查询和键都已通过 RoPE [38] 添加了相对位置嵌入,这引入了一种归纳偏置,能够捕捉查询和键之间的空间关系。这种位置编码使得我们可以完全跳过为每个查询任意选择邻近键这一步骤,而这在以往的基于相似度的方法(如 [23, 25])中是一种常见的启发式操作。没有这种位置定位的话,注意力机制将缺乏空间感知能力,并且在泛化到未见过的分辨率时表现不佳。在实际操作中,我们使用多个注意力头以增强表达能力,并在应用 s o f t m a x softmax softmax 后对各个头产生的注意力权重进行平均。得到的注意力图 A A A 随后通过简单的矩阵乘法对低分辨率编码器特征 F l r F_{lr} Flr 进行插值: F ^ H R = A ⋅ F l r \hat{F}_{HR} = A \cdot F_{lr} F^HR=A⋅Flr。通过避免使用学习到的值投影,我们保留了原始特征内容,并实现了一种与分辨率无关的设计,使其能够可靠地跨尺度泛化。
3.2 训练流程
在没有地面实况监督的情况下学习上采样高分辨率特征提出了一个自然的挑战:当只有低分辨率特征可用时(例如 448 × 448),模型如何学习生成锐利的高分辨率特征?得益于 JAFAR 的架构设计,该模型可以通过简单的低目标分辨率目标进行训练,而不需要原始图像尺寸的监督,但仍能在推理时有效泛化到更高的上采样比。
3.2.1 多分辨率视图训练
为此,我们引入了一种完全无需标注的训练方案,该方案仅依赖于同一图像的多分辨率视图,这些视图可通过标准下采样轻松获得。给定一张高分辨率图像 I H R ∈ R 3 × H × W I_{HR} \in \mathbb{R}^{3×H×W} IHR∈R3×H×W,我们使用随机选取的下采样因子 δ ∈ [ 2 , 4 ] \delta \in [2, 4] δ∈[2,4],生成一个下采样版本 I L R ∈ R 3 × ⌊ H δ ⌋ × ⌊ W δ ⌋ I_{LR} \in \mathbb{R}^{3×\left\lfloor \frac{H}{\delta} \right\rfloor×\left\lfloor \frac{W}{\delta} \right\rfloor} ILR∈R3×⌊δH⌋×⌊δW⌋。将这两张图像分别输入到冻结的视觉编码器 f f f 中,生成两个特征图: F h r = f ( I H R ) ∈ R C × h × w F_{hr} = f (I_{HR}) \in \mathbb{R}^{C×h×w} Fhr=f(IHR)∈RC×h×w 和 F l r = f ( I L R ) ∈ R C × ⌊ h δ ⌋ × ⌊ w δ ⌋ F_{lr} = f (I_{LR}) \in \mathbb{R}^{C×\left\lfloor \frac{h}{\delta} \right\rfloor×\left\lfloor \frac{w}{\delta} \right\rfloor} Flr=f(ILR)∈RC×⌊δh⌋×⌊δw⌋。接着,JAFAR 以 I H R I_{HR} IHR 和 F l r F_{lr} Flr作为输入,预测一个上采样的特征图 F ^ h r \hat{F}_{hr} F^hr 。预测输出与目标 F h r F_{hr} Fhr 之间的对齐通过一个简单的对齐损失函数实现,该函数结合了余弦相似度和 L 2 距离:
L ( F ^ h r , F h r ) = 1 − cos ( F ^ h r , F h r ) + ∥ F ^ h r − F h r ∥ 2 . \mathcal{L}(\hat{F}_{hr}, F_{hr}) = 1 - \cos (\hat{F}_{hr}, F_{hr}) + \|\hat{F}_{hr} - F_{hr}\|_2. L(F^hr,Fhr)=1−cos(F^hr,Fhr)+∥F^hr−Fhr∥2.
其中,损失函数 L \mathcal{L} L 由两部分组成:第一部分是 1 减去 F ^ h r \hat{F}_{hr} F^hr 和 F h r F_{hr} Fhr的余弦相似度,第二部分是 F ^ h r \hat{F}_{hr} F^hr 和 F h r F_{hr} Fhr的 L 2 距离。
3.2.2与 LiFT 的不同之处
虽然我们的训练目标与 LiFT 相似,但我们的方法显示出显著更强的能力,如表 1 和表 2 所示。LiFT 依赖于基于 CNN 的架构,并在两个预定义的分辨率下进行固定 2×上采样训练。因此,它在没有额外启发式方法(如迭代上采样或双线性回退)的情况下难以外推。相比之下,JAFAR 保持了分辨率无关的设计,使用类似的简单训练设置就能泛化到更高的上采样因子。
4 实验
4.1 实验设置
在我们的实验中,我们在单个 NVIDIA A 100 上使用 AdamW 优化器[39]对 ImageNet 训练集进行了 100 K 步的训练,学习率为 2e−4,批量大小为 4。输入到基础视觉编码器的图像被调整为 448 × 448,根据编码器的补丁大小(14 或 16),生成大小为 32 × 32 或 28 × 28 的高分辨率目标特征图 Fhr。为了提高训练效率,输入到 JAFAR 的指导图像被下采样到 224 × 224。
4.2 定性比较
为了定性评估各种基线产生的上采样特征图,我们将所有特征投影到一个共享的 3 维 PCA 基础上,将它们映射到一个公共的 RGB 空间。如图 3 和图 5 所示,由于视觉编码器补丁大小施加的空间压缩,低分辨率特征揭示了大块区域,这些区域捕获了语义内容,但未能保留精细的图像几何、对象边界或形状细节。双线性上采样在不考虑图像内容的情况下插值特征,产生模糊的输出特征图,保留了位置嵌入伪影而没有添加有意义的细节。虽然 Large-Image 和 Strided 等方法保留了清晰度,但它们的输出比 JAFAR 的噪声更大且不够连贯。此外,它们计算要求更高,因为它们需要视觉编码器处理更多的补丁(见表 10)。JAFAR 在所有基线中显示出明显的定性优势,始终生成准确捕捉图像结构的锐利特征。它也是唯一一个有效抑制低分辨率特征中位置嵌入伪影的任务无关方法。
4.3 下游任务的转移
由于上采样特征预计能为下游任务提供更丰富的信号,我们在两个基准上评估其有效性:线性探测语义分割和深度估计,使用 DINOv 2 ViT-S/14 作为基础视觉编码器。对于 Large-Image 和 Strided 基线,上采样在编码器的前向传递过程中进行,并随后进行双线性插值以达到目标输出分辨率。对于任务无关的上采样器如 LiFT、FeatUp 和 JAFAR,我们在相应的主干网上预训练上采样模块,然后将其冻结并在特征提取后应用。线性探测器独立于上采样器进行训练。对于任务相关的
方法——包括 CARAFE、SAPA、ReSFu 和 DySample——我们联合训练上采样器和线性探测器在每个数据集和任务上。除 Large-Image 外的所有实验均使用分辨率为 448 × 448 的输入图像,目标标签在同一分辨率下。
4.3.1 语义分割
对于语义分割,我们训练了一个线性投影头,使用跨多个基准数据集(COCO-Stuff[40](27 类)、ADE 20 K [41](150 类)、Pascal VOC[42](21 类,包括背景)和 Cityscapes[43](27 类))的交叉熵损失来预测粗略类别标签。在线性层上,COCO-Stuff 训练 5 个周期,其余数据集训练 20 个周期,批量大小为 4。在各自的验证集上使用平均交并比 (mIoU) 和像素级准确率评估性能。
表 1:下游任务的线性探测。JAFAR 在所有分割基准测试中持续优于其他基线,同时在未经优化特定下游任务的情况下达到了竞争性的深度指标。
如表 1 所示,JAFAR 在所有四个语义分割基准测试中,无论 mIoU 还是准确率都持续取得最高性能。平均而言,JAFAR 在所有数据集中比下一个最佳方法提升了+1.63 mIoU。与 FeatUp 相比,JAFAR 取得了平均+2.78 mIoU 的增益,对应+4.8%的增长,在 Cityscapes 上达到了+5.41 mIoU(+9.7%)的峰值改进。图 4 显示了线性探测分割结果。
4.3.2 深度估计
在深度估计方面,我们遵循 [28] 中的方法,并使用由最先进的 Depth Anything V 2 网络 [16] 生成的伪标签进行训练。
我们报告了单目深度估计文献中的两个标准指标:均方根误差(RMSE)和 δ 1 < 1.25 \delta_1 < 1.25 δ1<1.25。其中, δ 1 \delta_1 δ1 指标衡量的是预测深度 y y y 在真实深度 y ∗ y^* y∗ 的 25% 范围内的像素所占的百分比,正式定义为:
δ 1 = max ( y y ∗ , y ∗ y ) < 1.25 \delta_1 = \max \left ( \frac{y}{y^*}, \frac{y^*}{y} \right) < 1.25 δ1=max(y∗y,yy∗)<1.25
我们在 COCO 训练集上使用大小为 4 的批次对线性探测器进行了 5 个周期的训练。尽管 JAFAR 并未专门针对这一特定任务进行训练,但我们观察到它仍能获得具有竞争力的分数,在基线方法中排名第二。
值得注意的是,JAFAR 的表现超过了 FeatUp 和 LiFT,同时还超越了几乎所有任务专用方法,除了 ReSFU 外。图 4 展示了线性探测器的深度估计结果。
4.3.3 类激活图的可信度
按照[28]的方法,我们的方法可以无缝集成到诸如类激活图 (CAMs) 之类的可解释性工具中。尽管有最近的进展,CAMs 仍然受到标准视觉编码器产生的低分辨率特征图的基本限制,这阻碍了它们定位细粒度细节的能力。通过上采样特征,我们的方法产生了更清晰和更有信息的解释。为了评估生成的 CAMs 的质量,我们采用了文献中的标准评估指标:平均下降 (A.D)、平均增加 (A.I)、平均增益 (A.G)、一致性 (Coh.) 和复杂度 (Cplx.)。
4.3.4 视觉比较
图 4:下游任务上采样器输出的视觉比较。JAFAR 上采样的特征产生更清晰的输出,更准确地与物体边界对齐,分别在类激活图、语义分割和深度估计中。
具体来说,A.D、A.I 和A.G 衡量分类器输出对输入中最突出区域的敏感程度——有效的 CAM 应突出那些在被遮蔽时会导致分类置信度显著变化的区域。由于每个指标仅捕捉 CAM 质量的一个单一方面,我们也报告了 ADCC 评分——一种在[44]中提出的综合指标,提供了更全面的评估。补充材料 B 中提供了更多细节。如图 4 所示,JAFAR 生成的 CAM 比所有基线更清晰、更语义准确。虽然训练免费方法无法帮助恢复重要区域,但任务相关方法通常会产生模糊和不太精确的地图。定量结果进一步支持这一点,JAFAR 在综合 ADCC 指标上得分最高——比第二好的方法高出 8 分,相对提高了 12.5%。
4.3.5 零样本开放词汇分割
我们进一步在零样本开放词汇分割任务上评估我们的方法,遵循[9]中的设置,其中数据集的类标签作为文本输入,预测通过选择相似度得分最高的类 (argmax) 进行。使用 CLIP-ViT-B/16 骨干网,这种方法完全是无训练的,因为它不需要学习探测头。结果显示,JAFAR 显著优于所有基线,特别是在 Pascal VOC 上。尽管 ADE 20 K 难度增加,包含 150 个类,我们的方法在 mIoU 和准确性上仍取得最高性能。我们仅在任务无关的基线中报告 FeatUp,因为它是第二好的表现方法。
4.3.6 鸟瞰分割
最后,我们研究了我们的上采样器在复杂训练管道中的影响。该任务以几个摄像头拍摄的图像作为输入,并输出鸟瞰图 (BeV) 分割图。在我们的设置中,我们使用了冻结的 DINOv 2[7]骨干网,并训练了其余的架构——即上采样器、BeV 编码器和分割头。这项任务特别具有挑战性,因为模型必须学会将特征从图像平面映射到 BeV 平面。为确保公平比较,我们还训练了没有上采样器的架构,使用低分辨率输入图像 (496×224)。我们采用了 PointBeV[46]的优化超参数,调整批量大小为 1 并训练 100 个 epoch。我们的结果显示,使用上采样器一致地提高了预测,无论采用哪种架构——SimpleBev[45]、PointBeV[46]或 BevFormer[47]。值得注意的是,使用 JAFAR 作为上采样器时性能显著提高,mIoU 增益高达+5 点。
4.3.7 消融实验
为了评估从共享图像编码中派生查询和键的好处,我们在表 5 中比较了几种键生成策略。在线性投影基线中,键是通过对视觉编码器的低分辨率特征 Flr 应用简单线性层获得的,而不使用图像编码。在拼接基线中,我们用 Flr 和初步键 K˜的直接拼接替换调制块。通过特征调制注入语义信息对于生成高质量特征和实现强查询-键对齐至关重要。相比之下,线性投影基线显示了显著的性能下降,SFT 持续优于拼接方法。增加注意力头的数量最多到 4 个进一步增强了性能,通过平均后的 softmax 分数生成更鲁棒的上采样核。然而,超过这一点,收益反转:每个头的维度变得太低,无法支持有效的对齐,同时计算成本增加,最终降低了输出质量。
5 结论
我们介绍了 JAFAR,这是一种轻量级、基于注意力的特征上采样器,设计有简单的训练目标。它可以将任何基础视觉编码器的特征上采样到任意输出分辨率——而不需要原始图像尺寸的监督或下游任务的注释。尽管任务无关,JAFAR 在各种下游任务中优于之前的最先进上采样器,尽管它没有针对这些任务进行专门训练。这项工作为统一的特征上采样器奠定了基础,可以为密集视觉任务启用更高效的架构。目前,该方法需要为每个主干网训练一个单独的上采样器。未来的工作将集中在使 JAFAR 在推理时与主干网无关,并进一步减少特征级伪影以生成更清晰的输出。
参考文献
略