Local All-Pair Correspondence for Point Tracking

发布于:2025-06-13 ⋅ 阅读:(20) ⋅ 点赞:(0)

我们介绍了一种用于视频序列中任意点跟踪的高精度且高效的模型LoCoTrack。以往的方法通常依赖于局部2D相关图来建立查询图像中某点与目标图像中局部区域之间的对应关系,这些方法在处理纹理均匀的区域或重复特征时常常会遇到匹配模糊的挑战。LoCoTrack通过一种新颖的方法克服了这一挑战,即利用区域之间的全对对应关系(即局部4D相关性)来建立精确的对应关系,并通过双向对应和匹配平滑性显著增强了对模糊的鲁棒性。此外,我们还引入了一种轻量级的相关性编码器来提高计算效率,以及一种紧凑的Transformer架构来整合长期时间信息。LoCoTrack在所有TAP-Vid基准测试中均实现了无与伦比的精度,并且运行速度比当前最先进的方法快近6倍。

 1 引言

在不同视角的场景中找到对应的点,这一过程被称为点对应(point correspondence),是计算机视觉中的一个基础问题,它在多种应用中都有涉及,例如3D重建、自动驾驶和姿态估计等。最近,新兴的点跟踪任务(point tracking task)关注于在视频中寻找点的对应关系。给定一个输入视频和一个位于物理表面上的查询点,该任务的目标是找到查询点在每一帧中的对应位置以及它的可见性状态。这一任务需要对随时间变化的运动有深入的理解,并且能够准确地匹配点。

最近的方法通常依赖于构建一个2D局部相关图,通过比较查询点的深度特征与目标帧局部区域的特征来预测对应位置。然而,这种方法在精确识别同质区域内的位置、具有重复模式的区域或区分共现物体时遇到了巨大的困难。为了解决这些具有挑战性的场景中出现的匹配模糊问题,建立有效的帧间对应关系至关重要。现有的工作尝试通过考虑时间上下文来解决这些模糊性,但在严重遮挡或复杂场景的情况下,挑战仍然存在。

在本工作中,我们旨在通过更好的空间上下文来缓解这一问题,而这种上下文在局部2D相关性中是缺失的。我们重新审视了密集对应方法(dense correspondence methods),因为它们通过利用丰富的空间上下文表现出对匹配模糊的鲁棒性。密集对应方法为图像中的每一个点建立一个对应的点。为了实现这一点,这些方法通常会计算两个图像中每一对点之间的相似性,从而得到一个4D相关体积。这种高维张量提供了密集的双向对应关系,提供了2D相关性所没有的匹配先验,例如从一个图像到另一个图像的密集匹配平滑性以及反之亦然。例如,4D相关性可以提供这样一个约束:一个点在另一个图像中的对应关系与其邻近点的对应关系在空间上是一致的。然而,将密集对应方法(源于4D相关性的使用)的优势整合到点跟踪中面临着重大挑战。这不仅引入了巨大的计算负担,而且高维相关性的处理也需要专门的设计。

我们通过将点跟踪表述为一个局部全对对应问题来解决这一问题,这与主流的点对区域对应方法不同,如图2所示。我们构建了一个局部4D相关性,用于找到查询点周围局部区域与目标帧上对应局部区域之间的所有点对匹配。通过这种表述,我们的框架能够利用4D相关性提供的解决匹配模糊的能力,同时由于受限的搜索范围而保持效率。然后,我们通过一个轻量级的相关性编码器来处理局部4D相关性,该编码器被精心设计用于处理高维相关性体积。该编码器将处理过程分解为两个2D卷积层分支,并生成一个紧凑的相关性嵌入。接着,我们使用Transformer来将时间上下文整合到嵌入中。Transformer的全局感受野有助于有效建模长期依赖关系,尽管其架构紧凑。我们的实验表明,堆叠3层Transformer足以显著优于现有的最先进方法。此外,我们发现使用相对位置偏差可以让Transformer处理可变长度的序列。这使得我们的模型能够处理长视频,而无需手动设计的链式过程。

我们的模型,命名为LoCoTrack,在保持极其轻量化架构的同时,超越了最近的最先进模型,如图1所示。具体来说,我们的小模型变体在TAP-Vid-DAVIS数据集上实现了比CoTracker高出2.5的平均Jaccard(AJ)增益,并且提供了比后者快6倍的推理速度。此外,它在相同数据集上比TAPIR高出5.6 AJ,且推理速度快3.5倍。我们的较大变体虽然仍然比现有的最先进模型快,但表现出更进一步的性能提升。

总之,LoCoTrack是一个高效且准确的点跟踪模型。其核心组件包括一个新颖的局部全对对应表述,利用密集对应来提高对匹配模糊的鲁棒性,一个确保计算效率的轻量级相关性编码器,以及一个用于整合可变上下文长度的时间信息的Transformer。

 2 相关工作

#### 点对应(Point Correspondence)
点对应的目标是在一组检测到的点中识别出跨图像的对应点,也被称为稀疏特征匹配。这一任务通常通过匹配手工设计的描述子或最近的可学习深度特征来实现。这些方法还通过几何约束或其可学习的对应物来过滤噪声对应关系,但它们通常在处理具有变形的物体时会遇到困难,并且主要针对几何显著点(即检测到的点)的对应关系,而不是任意点。

#### 视频中的长距离点对应(Long-range Point Correspondence in Video)
近期的方法致力于在视频中寻找点的对应关系,目标是在长视频序列中为查询点找到轨迹。这些方法通过MLP-Mixer、1D卷积或Transformer捕获长距离时间上下文。然而,它们要么在局部时间窗口内利用有限长度的序列,并使用滑动窗口推理来处理比固定窗口大小更长的视频,要么需要一系列卷积层来扩展时间感受野。最近的CoTracker通过聚合支持轨迹来自聚合空间上下文,但这种方法需要跟踪额外的查询点,从而引入了显著的计算开销。值得注意的是,Context-PIPs在查询点周围的稀疏点和目标区域之间构建相关图,但这种稀疏性可能会限制模型利用全对相关性所提供的匹配先验的能力,例如匹配平滑性。

#### 密集对应(Dense Correspondence)
密集对应旨在在图像对之间建立像素级的对应关系。传统方法通常利用一个4维相关体积,通过计算两个图像中局部深度特征描述子之间的成对余弦相似性来实现,因为4D相关性为消歧匹配过程提供了一种手段。传统上,通过双向匹配从4D相关性中过滤掉虚假匹配,使用诸如第二近邻比率测试或相互最近邻约束等技术。最近的方法则通过学习相关图中的模式来消歧匹配。DGC-Net和GLU-Net提出了利用全局4D相关性后接局部2D相关性的粗到细架构。CATs提出了一种基于Transformer的架构来聚合全局4D相关性。GoCor、NCNet和RAFT开发了一种使用局部4D相关性的高效框架,以在图像对中学习空间先验,解决匹配模糊性。

4D相关性的应用范围不仅限于密集对应。它还被广泛应用于视频目标分割、少样本语义分割和少样本分类等领域。然而,其在点跟踪中的应用仍然未被充分探索。相反,一些尝试将现成的密集对应模型整合到点跟踪中的工作包括链接密集对应关系,这种方法在从遮挡中恢复方面存在局限性,或者直接在远距离帧之间寻找对应关系,这种方法计算成本高昂。

3 方法

在本工作中,我们将4D相关体积的有效性整合到我们的点跟踪流程中。与广泛使用的2D相关性相比,4D相关性提供了两个显著的特点,能够为过滤噪声对应关系提供有价值的信息,从而实现更鲁棒的跟踪:

  • 双向对应:4D相关性提供了双向对应关系,可以用于验证匹配并减少模糊性。这一先验通常通过检查相互一致性或使用比率测试来利用。

  • 平滑匹配:4D相关体积是通过密集的全对相关性构建的,可以用来强制执行匹配平滑性,提高邻近点之间匹配的一致性。

我们的目标是在保持高效计算的同时,利用4D相关性的这些优势。我们通过将搜索空间限制在局部邻域内来构建4D相关体积,从而实现这一目标。除了使用局部4D相关性之外,我们还提出了一种利用Transformer的全局感受野进行长期时间建模的方法。这使得我们的模型能够在仅使用几层(甚至只有3层)Transformer的情况下捕获长期上下文,从而实现紧凑的架构。

3.1 第一阶段:轨迹初始化

为了估计给定查询点的初始轨迹,我们通过构建全局相似性图来进行特征匹配,该图计算查询点特征与目标帧特征图之间的相似性,并选择得分最高的位置作为初始轨迹。这个相似性图通常被称为相关图,为准确初始化轨迹位置提供了强烈的信号。我们使用全局相关图进行初始化阶段,它计算每一帧中每个像素的相似性。

3.2 第二阶段:轨迹细化

局部4D相关性编码器:然后我们处理局部4D相关性体积,以利用查询和目标维度相关性的平滑性来消歧匹配模糊性。需要注意的是,获得的4D相关性是一个高维张量,对其正确处理构成了额外的挑战。在这方面,我们引入了一种高效的编码策略,将相关性的处理分解为两个对称分支,如图5所示。一个分支在空间上处理查询的维度,将展平的目标维度视为通道维度。另一个分支则将查询维度视为通道。每个分支将相关性压缩成一个单一向量,然后将它们拼接起来形成相关性嵌入

 4 实验

#### 4.1 实现细节

我们使用 JAX [3] 进行实现。在训练过程中,我们使用了通过 Kubric [14] 生成的 Panning-MOVi-E 数据集 [12]。我们采用了 Doersch 等人 [12] 提出的损失函数,包括用于轨迹初始化和细化模型的额外不确定性估计。我们使用 AdamW [30] 优化器,并将学习率和权重衰减均设置为 \(1 \times 10^{-3}\)。我们采用余弦学习率调度器,并设置 1000 步的预热阶段 [29]。按照 Sun 等人 [51] 的方法,我们应用了值为 1.0 的梯度裁剪。初始化阶段首先训练 100K 步,随后轨迹细化模型再训练额外的 300K 步。整个训练过程大约需要 4 天时间,使用 8 块 NVIDIA RTX 3090 GPU,每块 GPU 的批量大小为 1。对于每个批量,我们随机采样 256 条轨迹。我们采用 256×256 的训练分辨率,遵循 TAP-Vid 基准测试的标准协议。

我们的特征主干网络是 ResNet18 [17],其中批量归一化 [20] 被实例归一化 [61] 替代。我们从 ResNet 中提取了 3 个金字塔特征图(\(L = 3\)),其步长分别为 2、4 和 8。Softargmax 的温度值设置为 \(\tau = 20.0\)。局部相关窗口的半径分别为 \(r_q = r_p = 3\)。我们堆叠了 \(N_S = 3\) 层 Transformer 用于 \(\mathcal{E}_S\)。迭代次数(\(K\))设置为 4。对于轨迹细化模型,我们提出了两种变体:小模型和基础模型。所有消融实验均使用基础模型进行。Transformer 的隐藏维度对于小模型设置为 256,基础模型为 384。小模型的头数为 4,基础模型为 6。更多细节请参考补充材料。

#### 4.2 评估协议

我们使用 TAP-Vid 基准测试 [11] 和 RoboTAP 数据集 [63] 来评估预测轨迹的精度。评估指标包括位置精度(\(\delta^x_{\text{avg}}\))、遮挡精度(OA)和平均 Jaccard(AJ)。位置精度 \(\delta^x_{\text{avg}}\) 用于计算在真实可见点中位置精度的百分比,计算了在 1、2、4、8 和 16 像素误差阈值下的正确点百分比(PCK)[46],并取平均值。OA 表示二值分类结果(遮挡)的平均精度。AJ 是一个综合评估位置精度和遮挡精度的指标。

按照 Doersch 等人 [11] 的方法,我们在两种模式下评估数据集:步进查询模式和首次查询模式。步进查询模式以固定间隔(每 5 帧)沿真实轨迹采样查询点,而首次查询模式仅从第一个可见点采样查询点。

#### 4.3 主要结果

**定量比较**:我们在步进查询模式(表 1)和首次查询模式(表 2)下,将我们的方法与最近的先进方法 [8, 11, 12, 14, 15, 24, 54] 进行比较。为了确保公平比较,我们根据输入分辨率大小对模型进行分类:256×256 和 384×512。除了性能之外,我们还展示了每种模型的吞吐量,即模型在一秒钟内可以处理的点数。更高的吞吐量意味着更高效的计算。

我们的小变体 LocoTrack-S 在所有基准测试中均实现了最先进的性能,其平均 Jaccard(AJ)和位置精度均优于 TAPIR 和 CoTracker。在 DAVIS 基准测试的步进查询模式下,与 TAPIR 相比,我们实现了 +5.6 AJ 的提升,与 CoTracker 相比,实现了 +2.5 AJ 的提升。我们的小变体模型不仅性能强大,而且与最近的先进方法相比,其计算效率极高。我们的模型比 TAPIR 的吞吐量高出 3.5 倍,比 CoTracker 高出 6 倍。我们的基础模型 LocoTrack-B 表现更好,在 DAVIS 步进查询模式下比我们的小变体提升了 +0.9 AJ。

然而,在 384×512 分辨率下,我们的模型在某些数据集上的表现有所下降。我们认为这种下降是由于局部相关性在分辨率增加时有效感受野减小所致。

**定性比较**:定性比较结果如图 6 所示。我们在 DAVIS [41] 数据集上进行了可视化,输入分辨率为 384×512。需要注意的是,用于可视化的图像是其原始分辨率。总体而言,我们的方法在长距离跟踪序列中表现出比 TAPIR 更高的平滑性,即使在存在遮挡以及同质区域或变形物体等匹配挑战的情况下,我们的预测结果也具有空间一致性。

#### 4.4 分析与消融研究

**效率比较**:我们在表 3 中将我们的效率与最近的先进方法 [12, 24, 54] 进行了比较。我们测量了 24 帧视频的推理时间、吞吐量、FLOPs 和参数数量。我们报告了查询点数量从 \(10^0\) 到 \(10^5\) 指数增长时的推理时间。为了测量吞吐量,我们计算了添加每个查询点所需的平均时间。此外,我们还测量了特征主干网络和细化模型的 FLOPs,重点关注每个额外点的增量 FLOPs。

我们的所有模型变体在所有指标上均表现出更高的效率。我们的小变体在每个点的 FLOPs 上比 TAPIR 低 4.7 倍,比 CoTracker 低 4.3 倍。此外,我们的模型参数量仅为 8.2M,比 CoTracker 少 5.5 倍。值得注意的是,我们的模型可以在大约一秒钟内处理 \(10^4\) 个点,这意味着它可以实时处理分辨率为 64×64 的近密集查询点,适用于 24 帧/秒的视频。这突显了我们模型的实用性,为实时应用铺平了道路。

**局部相关性分析**:在表 4 中,我们分析了局部相关性方法的构建,重点关注我们如何围绕查询点而不是目标点采样邻近点。表中的 (I) 表示局部 2D 相关性,这是文献中常见的方法 [12, 15, 24]。与我们的 4D 方法相比,(I) 和 (VI) 之间的性能差距表明了我们的方法的优越性。表中的 (II) 和 (III) 探讨了在局部区域内计算密集全对相关性的重要性。在 (II) 中,我们随机采样查询点的邻近点,而在 (III) 中,我们使用水平线状的邻近点。与 (IV) 相比,它们的性能较差,强调了我们全对局部 4D 相关性的重要性。表中的 (IV) 和 (V) 考察了局部区域大小的影响。(IV) 和 (V) 之间的差距支持了我们选择的区域大小。表中的 (V) 表示我们的最终模型。

**Transformer 位置编码的消融实验**:在表 5 中,我们消融了相对位置偏差的效果。使用正弦编码 [62] 时,我们在推理时观察到显著的性能下降(I)。相比之下,相对位置偏差(我们的方法)在推理时能够很好地泛化到未见过的序列长度(II)。这种方法消除了在推理时需要手动设计链式过程(例如滑动窗口推理 [15, 24])的需要,因为窗口重叠会导致计算效率低下。

**细化模型架构的消融实验**:我们在表 6 中验证了使用 Transformer 架构相对于基于卷积的架构的优势。我们的比较包括 Doersch 等人 [12] 提出的架构,该架构用深度可分离 1D 卷积替换了 MLP-Mixer [55] 的 token 混合层。我们通过匹配模型之间的参数数量和层数来确保公平比较。我们的基于 Transformer 的模型实现了更好的性能。我们认为这种差异源于它们的感受野:Transformer 可以在单层内实现全局感受野,而卷积需要堆叠多层。尽管卷积也可以通过轻量级设计 [4, 9] 实现大感受野,但其在长距离点跟踪中的应用仍然是一个有前景的研究方向。

**迭代次数的分析**:我们在图 7 中展示了随着迭代次数变化,我们的模型的性能和吞吐量。我们比较了我们的模型与 TAPIR 和 CoTracker 在它们各自分辨率下的性能。令人惊讶的是,即使在单次迭代的情况下,我们的模型也超过了 TAPIR 的性能,无论是小变体还是基础变体。在单次迭代时,我们的小变体比 TAPIR 快约 9 倍。与 CoTracker 相比,我们的模型在相同性能水平下快约 9 倍。

### 4.5 结论

我们介绍了 LocoTrack,这是一种用于点跟踪任务的方法,解决了现有方法仅依赖于局部 2D 相关性的不足。我们的核心创新在于局部全对对应表述,通过将 4D 相关性的丰富空间上下文与通过限制搜索范围实现的计算效率相结合。此外,一个长度泛化的 Transformer 使模型能够处理不同长度的视频,消除了手动设计过程的需要。我们的方法在保持显著更少计算量的同时,实现了比现有最先进方法更高的性能和实时推理能力。