自己的原文哦~ https://blog.51cto.com/whaosoft/14084543
#VGGT-Long
首次将单目3D重建推向公里级极限!南开、南大提出:分块、循环、对齐,开源
近年来,3D视觉基础模型(Foundation Models)在3D感知任务中展现了惊人的能力,但由于显存的限制,将这些强大的模型应用于大规模、长序列的RGB视频流3D重建仍然是一个巨大的挑战。今天,介绍一项来自南开大学和南京大学的最新研究成果《VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences》。该研究提出了一个名为VGGT-Long的系统,它简单而有效,首次将仅使用单目RGB视频的3D重建能力推向了公里级别的、无边界的室外环境。
- 论文标题: VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
- 作者: Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie
- 机构: 南开大学;南京大学
- 论文地址: https://arxiv.org/pdf/2507.16443v1
- 项目地址: https://github.com/DengKaiCQ/VGGT-Long
研究背景与意义
3D场景重建是自动驾驶、机器人导航和增强现实等领域的关键技术。基于学习的,特别是基于基础模型的方法,如VGGT,在小规模场景中表现出色。然而,当面对长达数公里的视频序列时,这些模型往往会因为显存溢出(Out-of-Memory)而崩溃,或者因为误差的不断累积而产生严重的漂移,导致重建失败。
如下图所示,在处理大规模室外场景时,先前的方法(如CUT3R, Fast3R)存在严重的漂移问题,而其他基于基础模型的方法(如MASt3R-SLAM, VGGT)则无法完成整个长序列的处理。相比之下,本文提出的VGGT-Long能够成功完成公里级场景的重建,并保持了场景的准确性。
VGGT-Long的巧妙之处在于,它无需相机标定、无需深度监督、也无需重新训练基础模型,仅通过一套高效的后处理系统,就解决了现有模型的可扩展性瓶颈,实现了与传统SLAM方法相媲美的轨迹和重建性能。
VGGT-Long:核心方法
VGGT-Long系统的核心思想可以概括为其标题中的三个动词:分块(Chunk it)、循环(Loop it)、对齐(Align it)。
1. 分块处理 (Chunk it): 为了克服显存限制,VGGT-Long将长视频序列分割成多个有重叠的、固定长度的短视频块(chunks)。然后,它以滑动窗口的方式,将这些视频块依次送入预训练的VGGT模型进行处理,得到每个块的局部3D点图(pointmap)和相机轨迹。
2. 重叠对齐 (Align it): 得到一系列独立的局部重建结果后,需要将它们拼接成一个全局一致的场景。VGGT-Long利用相邻视频块之间的重叠部分进行对齐。值得一提的是,研究者提出了一种置信度感知对齐(Confidence-aware alignment)策略。VGGT模型会为每个预测的点生成一个置信度分数,该策略可以有效抑制场景中高速运动的物体(如车辆)对对齐过程的干扰,从而提高拼接的鲁棒性和准确性。
3.回环优化 (Loop it): 即使每个块都精确对齐,在长达公里的轨迹上,微小的误差也会不断累积,导致全局尺度的漂移(例如,起点和终点无法闭合)。为了解决这个问题,VGGT-Long引入了轻量级的回环闭合优化(Loop Closure Optimization)。当车辆回到先前经过的位置时,系统会检测到回环,并建立约束。然后通过全局LM(Levenberg-Marquardt)优化,一次性校正整个轨迹的累积误差,确保全局地图的一致性。
实验设计与结果
研究团队在自动驾驶领域极具挑战性的KITTI、Waymo和Virtual KITTI数据集上对VGGT-Long进行了全面评估。
在相机轨迹跟踪精度(ATE)方面,如下表所示,VGGT-Long在KITTI和Waymo数据集上均取得了与传统SLAM方法(如ORB-SLAM3)相当甚至更好的性能,并且显著优于其他基于学习的方法。许多方法在长序列上直接因显存溢出(OOM)或跟踪丢失(TL)而失败。
在3D重建质量方面,VGGT-Long同样表现出色。有趣的是,在Waymo数据集的评估中,研究者发现由于车载激光雷达(LiDAR)的扫描高度和范围有限,其采集的真值点云有时甚至不如视觉方法重建的场景完整(例如,无法感知到天桥的3D结构)。这表明VGGT-Long能够生成比某些真值数据更完整、更精确的几何结构。
在运行效率方面,VGGT-Long的所有组件几乎都能实现实时运行。特别是其轻量级的回环优化,仅需3次迭代即可收敛,达到毫秒级的性能,这对于实际应用至关重要。
消融实验也证明了系统中每个组件的必要性,特别是回环闭合,它显著减少了累积误差,是实现公里级精确重建的关键。
论文贡献与价值
- 突破尺度限制: 提出VGGT-Long系统,成功将基于基础模型的单目3D重建扩展到公里级长序列,解决了现有方法的关键瓶颈。
- 零成本扩展: 该方法无需任何模型重训练、相机标定或深度真值,即可直接应用于新的长视频序列,具有极强的泛化性和易用性。
- 性能卓越且高效: 在多个大规模自动驾驶数据集上,实现了与传统方法相媲美的性能,同时保持了近乎实时的运行效率。
- 推动实际应用: 该研究展示了利用基础模型进行可扩展、高精度单目3D场景重建的巨大潜力,尤其是在自动驾驶等真实世界场景中,为低成本、纯视觉的建图与定位方案铺平了道路。
- 代码开源: 研究团队已将代码开源,将极大地推动社区在这一方向上的进一步发展。
总而言之,VGGT-Long是一项优雅而实用的工作,它没有去设计一个更庞大、更复杂的网络,而是通过一套巧妙的系统级设计,释放了现有3D基础模型的全部潜力,为大规模单目3D重建这一难题提供了令人信服的解决方案。