论文Review 3DGSSLAM S3PO-GS | ICCV 2025 港科广出品!| 高效快速的3DGSSLAM!

发布于:2025-07-31 ⋅ 阅读:(22) ⋅ 点赞:(0)

基本信息

题目:Outdoor Monocular SLAM with Global Scale-Consistent 3D Gaussian Pointmaps

来源:ICCV 2025

学校:HKUST(GZ)

是否开源:https://github.com/3DAgentWorld/S3PO-GS

摘要:3DGS-SLAM

        三维高斯抛雪球( 3D Gaussian抛雪球,3DGS )由于其高保真度和实时新颖的视图合成性能,已成为SLAM中的热门解决方案。然而,先前的一些3DGS SLAM方法采用可微的渲染管线进行跟踪,缺乏室外场景下的几何先验。其他方法引入了单独的跟踪模块,但它们会随着相机的显著移动而累积误差,导致尺度漂移。为了解决这些挑战,我们提出了一种鲁棒的仅基于RGB的室外3DGS SLAM方法:S3PO - GS。在技术上,我们建立了锚定在3DGS点图上的自洽跟踪模块,避免了累积尺度漂移,以较少的迭代次数实现了更精确和鲁棒的跟踪。此外,我们设计了一个基于面片的点图动态映射模块,该模块引入了几何先验,并且避免了尺度模糊。这显著提高了跟踪精度和场景重建质量,使其特别适用于复杂的室外环境。在Waymo、KITTI和DL3DV数据集上的实验表明,S3PO - GS在新颖视角合成方面取得了最先进的结果,并且在跟踪精度方面优于其他3DGS SLAM方法。

Introduction

        视觉同时定位与地图构建( SLAM )是自动驾驶、机器人、虚拟现实( VR )等领域的核心问题,受到了广泛的关注。在这一领域中,三维场景表示已经成为一个主要的研究热点,产生了大量的稀疏[ ORBSLAM系列 ]和稠密[ Kinectfusion、Dtam、Glorie-slam ]表示。提高了定位精度。然而,这些方法在新颖视图合成( Novel View Synthesis,NVS )能力方面仍然面临重大挑战。

        鉴于3D高斯平滑( 3DGS ) 场景表示提供的真实感视觉效果,最近的研究集中在将3DGS与SLAM [ Cg-slam、Photo-slam、Splatam、Gaussian splatting slam、Gs-slam、44]集成。然而,现有的3DGS SLAM方法在室外纯RGB场景中仍然面临两个关键挑战:缺乏几何先验和尺度漂移问题。

[44] Sicheng Yu, Chong Cheng, Yifan Zhou, Xiaojun Yang, and Hao Wang. Rgb-only gaussian splatting slam for unbounded outdoor scenes. arXiv preprint arXiv:2502.15633, 2025. 2, 3, 4, 5, 6, 7

        一方面,以往的一些仅基于RGB的3DGS SLAM方法,如文献[ Gaussian splatting slam ]提出的方法,通过可微的渲染pipeline进行位姿估计。然而,这种方法缺乏几何先验,在复杂环境中难以收敛,特别是在室外环境中,模型容易陷入局部极小值。

        另一方面,为了加强几何约束,一些方法[ Photo-slam、44、Mgs-slam]引入了独立的跟踪模块和预训练模型来补充几何信息,增强了姿态估计的鲁棒性。然而,该策略需要保持外部模块和3DGS地图之间的尺度对齐。在旋转和位移较大的场景下,累积误差容易导致SLAM系统的尺度漂移,降低后续的位姿估计和地图重建质量。

        针对上述挑战,本文提出了一种鲁棒的三维高斯抛雪球SLAM方法——S3PO-GS。我们的方法利用预训练的点图模型来弥补仅RGB场景中几何先验的不足。通过锚定3DGS绘制的点图,建立2D-3D对应关系,实现尺度自洽的位姿估计。通过基于patch的设计,我们将预训练的点图的尺度与当前的3DGS场景对齐。这使得我们可以在有效避免尺度漂移问题的同时融入几何先验。

        在技术上,我们首先设计了一个self-consistent的3DGS点图跟踪模块,该模块通过输入帧和3DGS绘制的点图之间的像素级2D - 3D对应关系来估计位姿。预训练模型仅作为对应关系的桥梁,不参与位姿估计,本质上避免了尺度对齐问题。结合3DGS可微管道进行位姿优化,即使在复杂的室外环境下,该方法也只需要10 %的迭代次数就可以实现较为准确和鲁棒的跟踪。

        此外,针对单目SLAM中缺乏几何先验的问题,设计了一种基于面片的点地图动态建图方法。该方法使用块尺度对齐算法来实现预训练点图和3DGS场景之间的局部几何校准。为了减少重建误差,设计了一种动态的点图替换机制。这些策略引入了几何先验,解决了尺度模糊问题实现了高质量的场景映射。

        在Waymo、KITTI和DL3DV数据集上的实验表明,S3PO-GS优于现有的3DGS SLAM方法。在跟踪精度和新视角合成方面也树立了新的标杆。我们的主要贡献包括:

  • 我们提出了一个self-consistent的3DGS点图跟踪模块,在避免尺度对齐问题的同时引入先验,以显著减少迭代次数来提高跟踪精度和鲁棒性;
  • 我们提出的基于patch的点图动态映射模块利用预训练的模型来动态调整3DGS点图,同时缓解尺度歧义,显著提高场景重建质量。
  • 在多个数据集上的评估表明,我们的方法在3DGS SLAM框架内的跟踪精度和新颖的视图合成方面建立了最先进的性能。

Related Works

2.1. Classical SLAM

        经典的SLAM方法通常使用稀疏的特征表示。ORB-SLAM系列、SIFT、SURT、PTAM。然而,生成的地图通常是稀疏的,主要用于导航和定位,而不是详细的场景建模。

        Dense SLAM [ Kinectfusion、Dtam、Glorie-slam ]生成了详细的3D地图,与专注于位姿估计的稀疏方法形成对比,非常适合增强现实和机器人技术。它包括以帧为中心的方法,这些方法是有效的,但难以保持全局一致性,以及以地图为中心的方法,使用体素网格或点云来增强跟踪和系统紧凑性[ 30、Elasticfusion ]。最近的进展,如iMAP集成神经网络以增强细节捕获,但面临显著的计算需求,限制了实时应用。GlORIE-SLAM 使用了一种灵活的神经点云表示,在不需要昂贵的反向传播的情况下提高了实时性。然而,它仍然没有实现具有真实感的新颖视点合成。

[30] Victor Adrian Prisacariu, Olaf K ̈ahler, Ming Ming Cheng, Carl Yuheng Ren, Julien Valentin, Philip HS Torr, Ian D Reid, and David W Murray. A framework for the volumetric integration of depth images. arXiv preprint arXiv:1410.0925, 2014. 2 

(这个iMAP和GlORIE-SLAM实在是太火了,基本上都是和这俩的对比) 

 2.2. NeRF-based and 3DGS-based SLAM

        NeRF使用多层感知器( Multi-Layer Perceptron,MLP )沿着观察光线进行采样,并通过体素制生成高质量的新颖视图合成,在重建精度方面显著优于传统的稀疏SLAM方法【Point-slam、Eslam、Coslam、Vox-fusion】。在SLAM框架中,NeRF利用多视图几何信息对MLP进行优化,实现高保真的场景表示[ Nerfslam、Nice-slam、Nicer-slam ]。然而,其较长的训练时间限制了其在实时SLAM中的适用性[ Fastnerf ]。最近的研究引入了多分辨率体素网格或哈希编码等显式结构来提高[ 11、24]的渲染速度和效率,但它们仍然难以实现实时渲染。

[11] Tao Hu, Shu Liu, Yilun Chen, Tiancheng Shen, and Jiaya Jia. Efficientnerf efficient neural radiance fields. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12902–12911, 2022. 3

[24] Thomas Mu ̈ller, Alex Evans, Christoph Schied, and Alexander Keller. Instant neural graphics primitives with a multiresolution hash encoding. ACM transactions on graphics (TOG), 41(4):1–15, 2022. 3

        基于3DGS的SLAM方法[ Cg-slam2024、Splatam2024、Gaussian splatting slam2024、Gs-slam2024、44]使用显式的3D高斯表示对场景进行建模和渲染。与传统的点云表示相比,它们能够实现实时的场景重建,并提供高保真high-fidelity的视图合成[ 4 ]。然而,该方法缺乏几何先验,在只有RGB的室外环境中挣扎,需要多次迭代,往往无法收敛。此外,一些3DGSSLAM方法[ Photo-slam、44、Mgs-slam]将相机跟踪与场景建模解耦,使用独立模型进行位姿估计,同时依赖3D高斯分布进行重建。

[4] Guikun Chen and Wenguan Wang. A survey on 3d gaussian splatting. arXiv preprint arXiv:2401.03890, 2024. 3 

Method

系统首先初始化一个3D高斯映射(对MASt3R的点图进行1000步优化)。对于新的输入帧Tn,将相邻关键帧Tak的3DGS点图栅格化,并与输入图像进行匹配,建立2D - 3D对应关系,估计尺度自洽的位姿。利用光度损失对估计的位姿进一步精化。如果选择Tn作为关键帧,我们得到它的渲染点图Xr和预训练点图Xp,然后将它们裁剪成具有相似分布的块。对图斑进行归一化处理后,选取正确的点计算缩放因子,用于调整Xp。一旦错误的点被替换,Xr被用来插入新的高斯点。 最后,利用对齐后的预训练点图对三维高斯图进行联合优化,从而实现精确、鲁棒的定位与建图。

 论文提出的3DGS SLAM系统旨在解决传统SLAM方法在复杂场景(尤其是户外无界场景)中的尺度漂移问题。传统SLAM方法依赖预训练模型或稀疏点云,容易受到尺度不一致或累计误差的影响。作者通过结合3D高斯泼溅表示、点云图(Pointmap)跟踪和动态映射,构建了一个高效、可微的SLAM管道。系统主要由以下三部分组成:

  1. 3D高斯泼溅(3DGS):用于场景表示,通过一组高斯分布建模3D场景,高效渲染并优化场景参数。
  2. 自我一致的3DGS点云图跟踪:通过点云图渲染和2D-3D对应关系,直接从3DGS场景中估计相机姿态,确保尺度一致性。
  3. 基于补丁的点云图动态映射:利用预训练点云图作为几何先验,动态对齐尺度并优化场景重建,减少尺度漂移。

这些部分共同协作,形成一个端到端的SLAM系统,适用于复杂场景(如户外环境)。

3.1. 3D Gaussian Splatting

老生常谈的3DGS。 

 3.2. Self-Consistent 3DGS Pointmap Tracking

3.2.1. Pointmap Anchored Pose Estimation

        传统3DGS SLAM方法(如文献[44])依赖预训练模块直接估计姿态,但容易产生尺度漂移。作者受视觉定位(visual localization)方法的启发,提出了一种可微的点云图渲染pipeline,用于捕获3DGS场景的形状和视角信息。

        我们的核心创新在于直接从3DGS场景自身的尺度估计位姿,通过3DGS绘制的点图与新的输入帧之间的像素对点2D - 3D对应关系。值得注意的是,预训练的点图模型[ 19、Dust3r ]仅用于建立这些对应关系,并不直接对估计过程做出贡献。

[19] Vincent Leroy, Yohann Cabon, and Je ́rˆome Revaud. Grounding image matching in 3d with mast3r. arXiv preprint arXiv:2406.09756, 2024. 3, 4, 5, 1, 2

 3.2.2. Pose Optimization

3.3. Patch-based Pointmap Dynamic Mapping

        单目RGB SLAM缺乏几何信息,容易导致场景重建不准确。传统方法引入单目深度先验,但深度估计的尺度漂移问题在无界户外场景中尤为严重。一些工作[ Glorie-slam、Mgs-slam ]将深度尺度对齐到独立跟踪模块的稀疏点云,但其性能受限于点云质量,且没有形成端到端的流水线。最近的工作[ 44 ]通过建立连续帧之间的对应关系将比例尺对准初始帧,但这引入了累积误差。作者提出了一种基于补丁的动态映射方法,利用预训练点云图(文献[19])作为几何先验,动态对齐尺度并优化高斯场景。

3.3.1. Patch-Based Scale Alignment

3DGS渲染的点云图 Xr与预训练点云图 Xp 存在尺度差异,直接对齐可能因分布不一致或异常值而失败。为了解决这个问题,我们将整个点图分割成小块,并选择具有相似分布的块进行归一化,以确保从Xr中准确地选择点。

        如果"正确点"的数量不足,尺度因子的估计可能是错误的,从而在场景重建中引入额外的偏差。在这种情况下,我们与预训练的点图 (来自相邻关键帧)建立点对应关系,并计算补救比例因子。

3.3.2. Pointmap Replacement

我们在关键帧处向场景中插入新的高斯。为了最小化尺度漂移,我们基于当前帧的渲染点图Xr初始化高斯。然而,绘制的点图往往包含重建质量较差的区域,直接使用可能会引入额外的误差。

3.3.3. Map Optimization with Pointmap Supervision

为了实现有效的视点覆盖和引入多视点约束,受[ Direct sparse odometry、Gaussian splatting slam ]的启发,我们在当前局部关键帧窗口W内联合优化相机姿态和高斯映射。

实验

硬件平台

实验在NVIDIA RTX A6000 GPU上进行,硬件支持高效并行计算。

数据集

实验在三个公开数据集上进行评估,均为户外场景,适合测试SLAM系统在复杂环境下的性能:

  • Waymo Open Dataset:选择了9个200帧的序列,包含动态城市环境,测试系统在大规模户外场景中的鲁棒性。
  • KITTI Dataset:选择了8个200帧的序列,经典的自动驾驶数据集,具有显著的相机视角变化,适合评估跟踪精度。
  • DL3DV Dataset:选择了3个300帧的序列,场景复杂度高,视角变化大,适合测试SLAM系统在挑战性环境中的表现。

这些数据集均为静态场景,强调显著的相机视角变化,这对SLAM系统的姿态跟踪和场景重建能力提出了更高要求。

Benchmark

  • NeRF-based 方法
    • NeRF-SLAM  和 NICER-SLAM :基于神经辐射场(NeRF)的SLAM方法,擅长场景重建但计算复杂。
  • 隐式编码点云方法
    • GlORIE-SLAM :基于点云的隐式编码,依赖连续帧间关系进行跟踪。
  • 3DGS-based 方法
    • MonoGS :基于3DGS的单目SLAM方法。
    • Photo-SLAM :基于3DGS的SLAM,注重光度一致性。
    • OpenGS-SLAM :专为户外环境设计的3DGS SLAM方法。

 新视角生成:

 深度图对比结果:

轨迹实验对比: 

 实时性实验:

初体验

TODO


网站公告

今日签到

点亮在社区的每一天
去签到