自己的原文哦~ https://blog.51cto.com/whaosoft/11627386
#端到端1
说起端到端,每个从业者可能都觉得会是下一代自动驾驶量产方案绕不开的点!特斯拉率先吹响了方案更新的号角,无论是完全端到端,还是专注于planner的模型,各家公司基本都投入较大人力去研发,小鹏、蔚来、理想、华为都对外展示了其端到端自动驾驶方案,效果着实不错,非常有研究价值。
为什么需要端到端?
首先我们聊一下当前的主流自动驾驶方案,主要核心部分包括:感知模块、预测模块、规控模块。每个模块相对独立,感知模块给预测模块提供动静态障碍物信息;预测模块为规控模块提供规划的参考,规划再转换为控制指令。从传感器端到控制端,需要多个功能支持,这就不可避免导致了累积误差,一旦碰到问题,需要整个pipeline做分析。而且每个模块的优化,并不能保证整个系统达成最优解。
这个时候,就希望有一种模型能够完成感知信息的无损传递,即从传感器端到输出控制策略端,这也是端到端自动驾驶提出的原因。传统定义上感知和规划模块的对接一般是通过白名单(比如机动车、行人、甚至occ输出的非通用几何障碍物)的检测与预测来完成,是人为定义的规则和抽象。随着产品的迭代,每一次都需要添加各类case,设计各种博弈的策略,从模型训练到工程部署再到逻辑设计,时间和人力成本高昂。
而且这种方式无法罗列所有情况,那么是否可以通过对整个场景的学习抽象,无损的将所有信息传递给PnC部分?这就是我们期望的端到端。端到端核心是优化最终目标且全局可导,作为一个完整的优化任务来看,直接求最优解,而不是先求感知再求规控的最优解。
端到端效果怎么样?
今年各大自动驾驶公司都在预研和落地相关端到端方案,小鹏、蔚来、华为、理想也都对外展示了其端到端方案。由于端到端模型的优势明显,各大自动驾驶公司都在拼命布局揽人,对应岗位薪资水涨船高,某想甚至开出了七位数给到该岗位。
那么各家的端到端自动驾驶效果怎么样呢?先来看看国外的特斯拉:
再来看看国内的UniAD效果:
不得不说,端到端是一个更简约的方法,更具有全场景的优化能力。
端到端有哪些技术栈?
行业里面的端到端主要分为完全端到端方案、专注于planner的端到端方案(包括某鹏的XPlanner)。顾名思义,完全端到端是从传感器直接到规控;而专注于planner的端到端以感知模块的输出作为先验,替换原来以规则作为主要形式的PnC模块。
从传感器到控制策略的(如果把条件再放松下也可以到轨迹输出)完全端到端方案更为简约,但同样面临一个问题,可解释性差。UniAD用分阶段监督的方法逐步提高了可解释性,但训练仍然是个难题。在足够体量和质量的数据群下,效果能够得到保证,泛化性能也不错。
而专注于planner的端到端方案,如果深究的话,只能算狭义上的端到端,但更贴合当下的量产方案和任务,而且可解释性也较高,是目前主机厂和自动驾驶公司优先推行和落地的。
如果从信息输入的角度上来看,又可以分为纯视觉方案(UAD、UniAD这类)和多模态方案(FusionAD这类),传感器成本不断在下降,多模态方案也一直是行业里面都在关注的点。
#3DGS
3DGS的发展已经势不可挡,目前已经成为3D表示的主流方法。它可以通过高效的训练将多视图图像有效地转换为显式的3D高斯表示,并实现新颖视图的实时渲染。本次调查旨在从多个交叉的角度分析现有的3DGS相关作品,包括相关任务、技术、挑战和机遇。主要目标是让新来者快速了解该领域,并协助研究人员有条不紊地组织现有技术和挑战。具体来说,我们深入研究了3DGS的优化、应用和扩展,并根据其重点或动机对其进行了分类。此外,我们总结并分类了现有工作中确定的九种技术模块和相应的改进。基于这些分析,我们进一步研究了各种任务中的共同挑战和技术,提出了潜在的研究机会。
汇总链接:https://github.com/qqqqqqy0227/awesome-3DGS
总结来说,本文的主要贡献如下:
- 1)本调查讨论了3DGS及其各种衍生任务,包括3DGS的优化、应用和扩展。与现有的综述不同,我们根据重点或动机提供了更详细的分类,使读者能够更全面地了解任务和既定的研究方向。
- 2)更重要的是,我们全面分析了现有文献中3DGS中各种技术的增强,提供了详细的分类和深入的讨论。这使读者能够发现各种改进技术中的社区,从而帮助他们将其应用于定制任务。
- 3)基于对现有工作和技术的分析,我们确定了3DGS相关任务之间的共性和关联,并总结了核心挑战。
- 4)在应对共同挑战时,本调查阐明了潜在的机遇,并提供了有见地的分析。
预备知识
Neural Implicit Field
Neural implicit field表示在最近的研究中引起了极大的关注。这些方法将2D或3D信号概念化为相应欧几里德空间内的场,使用离散样本训练近似这些场的神经网络。这种方法有助于对原始离散样本进行重建、插值和外推,从而实现2D图像的超分辨率和3D场景的新颖视图合成等应用。在3D重建和新颖视图合成的特定背景下,神经辐射场(NeRF)利用神经网络将3D场景的几何形状和外观建模为密度场和辐射场。NeRF采用体积渲染来建立从3D场到2D图像的映射,从而能够从多个2D图像重建3D信号,并促进新颖的视图渲染。在该领域当前最先进的方法中,Mip NeRF 360[8]因其卓越的渲染质量而脱颖而出,而Instant NGP则因其出色的训练效率而闻名。
然而,神经隐式场方法在很大程度上依赖于体积渲染过程来获得渲染像素。这个过程需要沿每条射线采样数十到数百个点,并将它们输入神经网络以产生最终的成像结果。因此,渲染单个1080p图像需要大约108次神经网络前向传递,这通常需要几秒钟的时间。尽管一些作品采用显式、离散化的结构来存储连续的3D场,从而最大限度地减少了对神经网络的依赖,并加速了场表示的查询过程,但固定数量的采样点仍然会带来极高的渲染成本。这种基于体绘制的方法无法实现实时绘制,因此限制了它们在下游任务中的适用性。
Point-based Rendering
由于连续的3D场无法区分场景中的已占用空间和未占用空间,因此在体积渲染过程中,大量采样点位于未占用空间中。这些采样点对最终渲染结果的贡献最小,导致渲染效率低。相比之下,离散点云表示只记录了3D场景中真正被占用的部分,提供了一种更高效、更精确的表示场景的方法。基于点云的渲染依赖于光栅化而不是随机采样,允许使用现代GPU进行实时渲染。
然而,现有的基于点云的高质量差分渲染方法通常依赖于预先构建的点云或需要密集的点云重建。这些方法在训练过程中没有进一步优化点云结构,导致渲染质量高度依赖于初始点云质量,并使最终图像容易出现伪影或不正确的外观。
3D Gaussian Splatting
3D GS结合了神经隐式场和基于点的渲染方法的优点,实现了前者的高保真渲染质量,同时保持了后者的实时渲染能力,如图3所示。
3DGS的优化
Efficiency
效率是评估3D重建的核心指标之一。在本节中,我们将从三个角度对其进行描述:存储、训练和渲染效率。
存储效率
3DGS需要数百万不同的高斯基元来适应场景中的几何形状和外观,从而导致高存储开销:室外场景的典型重建通常需要数百兆字节到数千兆字节的显式存储空间。鉴于不同高斯基元的几何和外观属性可能高度相似,每个基元的干扰属性可能会导致潜在的冗余。
因此,现有的工作主要集中在应用矢量量化(VQ)技术来压缩大量高斯基元。
Compact3D应用VQ将不同属性压缩到四个相应的码本中,并将每个高斯的索引存储在这些码本中以减少存储开销。在建立码本之后,训练梯度被复制并通过码本反向传播到原始的非量化高斯参数,更新量化和非量化参数,并在训练完成时丢弃非量化参数。此外,Compact3D采用游程编码来进一步压缩排序后的索引值,从而提高了存储效率。同样,Niedermayr等人的工作提出了一种基于灵敏度感知k-means的灵敏度感知矢量量化技术来构建码本,并使用DEFLATE压缩算法来进一步压缩训练好的码本。经过训练,它提出了一种量化感知微调策略,以恢复由于VQ而丢失的信息。
此外,一些工作旨在开发修剪策略或压缩SH参数。
LightGaussian介绍了一种基于全局显著性得分的高斯修剪策略和一种用于高阶球谐参数的蒸馏策略。
此外,还有一些工作专注于改进高效的高斯表示。
Scaffold GS设计锚点和其他属性以实现高效表示,这些属性能够转换为3DGS。基于这种表示,Scaffold GS提出了一套在多分辨率体素网格上生长和修剪锚点的策略。
训练效率
提高训练效率对3DGS也很重要。DISTWAR介绍了一种先进的技术,旨在加速基于光栅的差分渲染应用程序中的原子操作,由于大量的原子更新,这些应用程序在梯度计算过程中通常会遇到严重的瓶颈。通过在原子更新中利用扭曲内局部性并解决扭曲之间原子流量的可变性,DISTWAR使用寄存器在SM子核上实现了线程扭曲级别的降低。此外,它在SM和L2原子单元之间动态分配原子计算。该软件实现仅使用现有的扭曲级原语,以尽量减少指向L2的原子操作数量,从而显著提高吞吐量。
渲染效率
实时渲染是基于高斯方法的核心优势之一。一些提高存储效率的工作可以同时提高渲染性能,例如,通过减少高斯基元的数量。在这里,我们讨论有助于这些进步的其他工作。
在训练3DGS之后,[29]的工作涉及通过基于空间接近度和对最终渲染的2D图像的潜在影响的离线聚类来预先识别和排除不必要的高斯基元。此外,这项工作引入了一种专门的硬件架构来支持这项技术,与GPU相比,速度提高了10.7倍。
GSCore提出了一种硬件加速单元,用于优化辐射场渲染中3DGS的渲染流水线。在分析高斯排序和光栅化性能瓶颈的基础上,GSCore引入了高斯形状感知交集测试、分层排序和微妙跳过等优化技术。在GSCore中实现这些技术,与移动GPU相比,平均速度提高了15.86倍。
真实性
真实性也是一个值得关注的话题。3DGS有望在各种场景中实现逼真的渲染。一些工作专注于在原始设置中进行优化。
为了确保对SfM初始化的依赖性,GaussianPro引入了一种创新的2D-3D联合训练范式。基于3D平面定义和补丁匹配技术,它提出了一种渐进的高斯传播策略,该策略利用3D视图和投影关系的一致性来细化渲染的2D深度图和法线图。在几何滤波和选择过程之后,采用优化的深度和法线图进行加密和额外的监督,最终实现精确的几何表示。
多尺度渲染性能的急剧下降也是一个值得关注的话题。
这项工作首先分析了低分辨率和远距离渲染中频域混叠的原因,使用多尺度高斯来解决这个问题。然后,定义像素覆盖率以反映与当前像素大小相比的高斯大小。基于这一概念,它识别小高斯分布并将其聚合为较大的高斯分布,以进行多尺度训练和选择性渲染。
其他作品试图重建具有挑战性的场景,如反射表面和Relightable。
GaussiansShader通过采用混合颜色表示并集成镜面GGX和法线估计模块来重建反射表面,该模块包括漫反射颜色、直接镜面反射和考虑散射和间接光反射等现象的残余颜色分量。此外,GaussiansShader在训练过程中在3DGS中引入了着色属性和法线几何一致性约束。
泛化性和稀疏视角
稀疏视图环境下的泛化和重建挑战长期以来一直受到学术界的广泛关注。由于需要对每个场景进行重新训练以及对样本输入的高要求,隐式表示(如NeRF)和显式表示(如3DGS)在实际应用中都面临着巨大的障碍。在本节中,我们将讨论他们的实验设置,并对现有作品进行更详细的了解。
Generalizable 3D Gaussian Splatting
现有的可泛化的3D重建或新颖的视图合成任务的目标是利用广泛的辅助数据集来学习场景无关的表示。在NeRF的研究中,这个过程通常涉及输入少量(1-10)具有相邻姿势的参考图像来推断目标图像。辐射场起着中间体的作用,有效地消除了对显式场景重建的需要,并将任务转化为与场景无关的新颖视图合成问题。
相比之下,3DGS的显式表示导致了大量工作,这些工作侧重于使用参考图像在每个像素的基础上直接降低相应的高斯基元,随后用于从目标视图渲染图像。为了实现这一点,Splatter Image等早期作品提出了一种将图像转换为高斯属性图像的新范式,然后预测与每个像素对应的高斯基元。然后将此范式扩展到多个参考图像,以获得更好的渲染性能。
此外,基于多视图立体(MVS)的方法在场景重建和新颖的视图合成方面一直取得了重大成功,特别是在引入成本量的情况下,这增强了网络的空间理解。与MVSNeRF中的方法类似,MVSplat提出使用3D空间中的平面扫描来表示成本体积,并预测稀疏参考输入中的深度,精确定位高斯基元的中心。这种方法为新颖的视图合成提供了有价值的几何线索。
此外,一些研究侧重于引入triplane以实现泛化能力。
AGG引入了一种基于伪标签的初始化方法和多阶段训练策略。该策略包括粗略的高斯生成,然后使用参考图像特征进行超分辨率,从而产生详细的输出。
Sparse Views Setting
从稀疏输入进行重建带来了重大挑战,其中3DGS的方法与NeRF的方法基本相似,后者旨在开发新的正则化策略并整合补充信息,如深度数据。
Chung等人提出采用单目深度估计模型来预测深度图,随后使用SfM对深度图进行细化,以获得精确的深度范围。此外,他们的工作结合了深度平滑度损失和两种针对有限样本场景量身定制的改进技术。
此外,DNGaussian从正则化的角度探讨了这个问题,提出了两种不同的正则化:硬深度和软深度,以解决场景几何的退化问题。
一些研究集中在启蒙和训练策略上。GaussianObject介绍了一种基于Visual Hull的初始化策略和一种使用距离统计数据消除浮点数的优化方法。
3DGS的应用
3DGS因其高效和逼真的渲染而在各个应用领域表现出色,其中包括数字人体重建、人工智能生成内容(AIGC)和自动驾驶等。基于先前的探索,3DGS可以直接作为核心技术应用于各个研究领域,有效地取代传统的3D表示。
Human Reconstruction
3DGS在数字人类相关任务中的应用,包括人类重建、动画和人类生成,在研究界引起了极大的关注。最近的作品可以根据重建的部分进行分类。
- Body Reconstruction:身体重建主要侧重于从多视图或单眼视频中重建可变形的人类化身,并提供实时渲染。我们在表1中列出了最近作品的比较。大多数作品更倾向于使用SMPL或SMPL-X等预先构建好的人类模型作为强先验知识。从来没有,SMPL仅限于引入有关人体本身的先验知识,从而对服装和头发等外部特征的重建和变形提出了挑战。为了重建外观,HUGS仅在初始阶段使用SMPL和LBS,允许高斯基元偏离初始网格以准确表示服装和头发。一些研究将问题空间从3D投影到2D,从而降低了复杂性,并能够利用成熟的2D网络进行参数学习。
- Head Reconstruction:在人类头部重建领域,与大多数使用SMPL作为强先验的管道一样,GaussianAvatars的工作将FLAME网格与3DGS相结合,提供先验知识,以实现卓越的渲染质量。此方法补偿了FLAME网格无法准确描绘或跟踪的精细细节和元素。然而,Gaussian Head Avatar批评了使用FLAME网格和线性混合蒙皮(LBS)进行面部变形,并指出这些相对简单的线性操作很难捕捉到复杂面部表情的细微差别。相反,它建议使用MLP来直接预测高斯从中性表达式过渡到目标表达式时的位移。这种方法有助于渲染高分辨率的头部图像,分辨率高达2K。
AIGC
AIGC利用人工智能技术自主制作内容。最近,基于3DGS生成3D(X Y Z)表示的方法激增。在本章中,我们根据提示的类型及其生成的对象对当代算法进行了系统的分类。类别包括图像到3D对象生成、文本到3D对象生成器、多对象和场景生成以及4D生成(X Y Z−T),如图4所示。下面,我们概述了这些类别中的相关作品。
自动驾驶
在自动驾驶领域,3DGS主要应用于大规模驾驶场景的动态重建和SLAM的组合应用。
- 自动驾驶场景重建:重建驾驶场景是一项具有挑战性的任务,涉及多个技术领域,如大规模场景重建、动态对象重建、静态对象重建和高斯混合重建。大量的作品将重建过程分为静态背景重建和动态目标重建。像StreetGaussians、DrivingGaussian等。此外,3DGS已被应用于多模态时空校准任务,比如3DGS-Calib。
- SLAM:SLAM是机器人和计算机视觉中的一个基本问题,其中设备构建未知环境的地图,同时确定其在该环境中的位置。SLAM的技术方法可大致分为传统方法、涉及NeRF的技术和与3DGS相关的方法。其中,3DGS方法因其提供连续表面建模、降低内存要求、改进噪声和异常值处理、增强孔洞填充和场景修复以及3D网格重建中灵活分辨率的能力而脱颖而出。一些研究保留了传统的SLAM输入,并从两个角度进行了研究:在线跟踪和增量映射。语义很重要,因为它们不仅提供场景理解,而且稳定训练过程。此外,还有几部作品关注相关问题,如定位和导航。
3DGS的扩展动态3DGS
动态3DGS的研究最近引起了研究人员的极大关注。动态场景的重建超越了静态场景重建的局限性,可以有效地应用于人体运动捕捉和自动驾驶仿真等领域。与静态3DGS不同,动态3DGS不仅必须考虑空间维度的一致性,还必须考虑时间维度的一致,确保随时间的连续性和平滑性。在这里,我们根据不同的重建输入将它们分为多视图视频和单眼视频。
- Multi-view Videos:一些作品试图逐帧直接构建动态3DGS。其他工作旨在通过预测变形来实现这种性能。
- Monocular Video:一些单目动态3DGS工作往往分为两个阶段:规范重建和变形预测。探索时间上连续的运动可以促进时间维度的平滑,而不是离散的偏移。最近的工作旨在将3DGS扩展到4D空间,用于动态3D场景表示。
表面表示
尽管3DGS能够实现高度逼真的渲染,但提取曲面表示仍然具有挑战性。在优化过程之后,得到的表示通常会渲染有序的结构,与实际表面不太对应。然而,基于网格的表示仍然是许多工作流程中的首选,因为它们允许使用强大的工具进行编辑、雕刻、动画和重新照明。当涉及到曲面重建时,符号距离函数(SDF)是一个不可或缺的课题。其他研究旨在通过增强3DGS的内在属性来解决这个问题。
Editable 3D Gaussian Splatting
3DGS以其实时渲染、复杂场景表示和显式表示的优点,自然引起了专注于3DGS编辑的研究人员的关注。遗憾的是,目前可编辑的3DGS作品往往缺乏精确的训练监督,这给编辑带来了重大挑战。在本节中,我们根据不同的任务对现有作品进行分类。
- Manipulation by Text
- Manipulation by Other Conditions
- Stylization
- Animation
语义理解
赋予3DGS语义理解能力,可以将2D语义模型扩展到3D空间,从而增强模型在3D环境中的集成。这可以应用于各种任务,如3D检测、分割和编辑。许多工作试图利用预先训练的2D语义感知模型对语义属性进行额外的监督。其他则专注于将文本视觉对齐功能融入到开放世界的理解中。
物理仿真
最近的努力旨在将3DGS扩展到仿真任务。
基于“你所看到的就是你所模拟的”的理念,PhysGausian将静态3DGS重建为要模拟的场景的离散化,然后将连续体力学理论与材料点法(MPM)求解器相结合,赋予3DGS物理特性。为了稳定基于旋转的不同外观并将粒子填充到空隙内部区域,PhysGausian提出了一种进化的方向和内部填充策略。
技术分类
DGS一般可分为以下阶段,如图3所示:初始化、属性优化、splatting、正则化、训练策略、自适应控制和后处理。此外,一些竞争作品旨在纳入补充信息和表示,从而增强3DGS的能力。这些技术改进不仅提高了原始3DGS的渲染性能,还解决了衍生作品中的特定任务。因此,本节深入探讨了3DGS的技术进步,旨在为相关领域的研究人员提供有价值的见解。
初始化
正确的初始化已被证明是至关重要的,因为它直接影响优化过程。3DGS的初始化通常使用从运动结构(SfM)导出的稀疏点或通过随机生成来执行。然而,这些方法往往不可靠,特别是在弱监督信号下,如稀疏视图设置和生成任务。
组合预训练模型是一种可选方法。
在有限数量的3D样本上预训练3D模型并将其用作初始化先验是一种可行的策略。这种方法可以在一定程度上提高初始化的性能,尽管其有效性取决于所使用的数据。为了解决这一局限性,还引入了预训练的3D生成模型或单目深度估计模型用于初始化。
改进初始化策略也很重要。
基于对SfM在捕获频谱内低频信号中的作用的分析,设计了稀疏大方差(SLV)初始化,以有效地关注SfM识别的低频分布。
使用其他表示方式也可以增强初始化能力。通过从粗略的参数点模型确定局部体积,在每个体积内初始化少量高斯分布,从而避免对目标做出过多假设。因此,提出了一种基于Visual Hull的初始化策略,能够从四幅图像中获取结构先验。
讨论:精确初始化有可能通过提高性能和确保稳定的训练过程,使3DGS的各种衍生作品受益。
属性扩展
3DGS的原始属性包括位置、比例、旋转、球面谐波(SH)系数和不透明度值。一些作品扩展了这些属性,使其更适合下游任务。它可以分为改进现有属性或引入新属性,如图6所示。
Splatting
Splatting的作用是有效地将3D高斯数据转换为高质量的2D图像,确保平滑、连续的投影,并显著提高渲染效率。作为传统计算机图形学的核心技术,也有人从效率和性能的角度对其进行改进。
TRIP介绍了3DGS中用于实时渲染的ADOP,它使用屏幕空间图像金字塔进行点光栅化,并使用员工三线性写入来渲染大点。这种方法结合了前后阿尔法混合和用于细节重建的轻量级神经网络,确保了清晰、完整和无混叠的图像。
Regularization
正则化对于3D重建至关重要。然而,由于缺乏3D数据的直接监督,原始3DGS通过将渲染图像与真实图像进行比较来监督其训练。这种形式的监督可能会导致训练不稳定,特别是在不确定的场景中,例如视图设置稀疏的场景。在本节中,我们将正则化项分为2D和3D正则化项,如图8所示。
训练策略
训练策略也是一个重要课题。在本节中,我们将其分为多阶段训练策略和端到端训练策略,它们可以应用于不同的任务。
Adaptive Control
3DGS的自适应控制是调节高斯基元数量的重要过程,包括克隆、分割和修剪。在接下来的部分中,我们将从致密化(克隆和分裂)和修剪的角度总结现有技术。
后处理
预训练高斯的后处理策略很重要,因为它们可以提高3DGS的原始效率和性能。常见的后处理通常通过不同的优化策略来改进高斯表示。
表示转换:通过在采样的3D点上引入泊松重建,预训练的3DGS可以直接转换为网格。同样,高斯不透明度场(GOF)引入了3D边界框,将预训练的3DGS转换为四面体网格表示,然后使用水平集的二分搜索从中提取三角形网格。此外,LGM首先将预训练的3DGS转换为NeRF表示,然后使用NeRF2Mesh将其转换为Mesh。
性能和效率:一些工作旨在通过后处理(如多尺度渲染)提高3DGS在某些任务中的性能。基于预训练的3DGS,SA-GS引入了一种二维尺度自适应滤波器,该滤波器根据测试频率动态调整尺度,以提高缩小时的抗混叠性能。在效率方面,从预训练的3DGS中删除冗余的高斯基元或引入高斯缓存机制可以有效地提高渲染效率。
与其他表示的结合
- Point Clouds
- Mesh
- Triplane
- Grid
- Implicit Representation
- GaussianVolumes
Guidance by Additional Prior
- Pre-trained Models
- More Sensors
- Task-specific Priors
相互关系和挑战
大量的研究集中在3DGS的优化、应用和扩展上。然而,这些讨论往往使问题过于复杂。在本节中,我们的目标是总结不同任务中的社区,并提出四个核心挑战及其相应的技术讨论,如表2所示。认识到这些共同的挑战和解决方案可以简化研究工作,促进跨学科进步。
Suboptimal Data Challenges
在现实世界中,收集大量高质量的训练数据往往不切实际。一方面,如果无法访问3D数据和足够的多视图图像,仅依靠有限数量的2D图像监控不足以进行精确的3DGS重建。例如,只有目标的正面图像,推断背部的外观就极具挑战性。另一方面,数据质量同样至关重要;准确的姿态和清晰的图像直接影响重建性能。
Generalization Challenges
尽管与NeRF相比训练效率有所提高,但特定场景的训练范式仍然是3DGS应用的主要瓶颈。很难想象必须为每个目标或场景单独训练,特别是在多目标重建和文本到场景生成中。
物理挑战
传统的3DGS只考虑静态渲染,忽略了物理运动定律,这在仿真中很重要。此外,基于物理的渲染是应用3DGS仿真物理世界的重要一步。得益于显式表示,可以构建符合物理定律的3DGS。
真实和效率挑战
真实和效率挑战是根本问题。它们在各种著作中得到了研究。在本节中,我们讨论了一些典型的相关任务,并总结了它们的常见技术。
关于现实挑战,现有作品不仅讨论了照片真实、表面重建和语义理解,还讨论了AIGC相关(和自动驾驶研究中的这个问题。提到的大多数技术都有助于提高渲染性能。不同的任务采用不同的方法。例如,AIGC相关工作通常侧重于改进训练策略和正则化,而表面重建工作与后处理步骤有关。
关于效率挑战,它们在一些衍生任务中有所提及,例如与自动驾驶和语义理解相关的任务。现有的改进通常侧重于引入额外的属性或后处理,以及改进自适应控制和splatting策略。
此外,不同的域之间还有一些未提及的关系。例如,表面重建技术经常在可编辑3DGS等背景下被引用。
潜在机遇
3DGS最近经历了重大发展,许多作品展示了其在相关任务中的潜力。在本节中,我们讨论了上述核心挑战中尚未解决的问题,并为未来的研究提出了潜在的方向。此外,我们还讨论了应用程序和技术的一些扩展。
Suboptimal Training Data
理想的3DGS训练过程需要足够的高质量数据,但在实际应用中,这往往极具挑战性。尽管专注于引入先验可以在一定程度上缓解这个问题,但在欠约束条件下优化大量高斯分布仍然存在固有的困难。因此,一种潜在的解决方案是根据高斯基元的不确定性减少其数量,同时增加单个基元的代表能力。这涉及到在高斯数和渲染性能之间找到一个折衷方案,从而提高使用稀疏样本的效率。
然后,还应考虑质量较差的数据。野生图像中的非结构化是一个典型的情况,包括瞬态遮挡和动态外观变化,如变化的天空、天气和照明,这在NeRF中得到了广泛的讨论。为了提高效率,现有的工作也在3DGS的背景下讨论了这个问题,3DGS试图对外观变化进行建模并处理瞬态对象。然而,他们的表现很挣扎,尤其是在光线变化复杂、遮挡频繁的场景中。由于3DGS的显式表示特性,解耦几何表示并在不同场景中引入几何一致性约束是一种有前景的方法,可以减轻训练过程中的不稳定性。
泛化性
尽管现有的泛化相关作品可以通过正向推理直接获得场景表示,但它们的性能往往不令人满意,并受到场景类型的限制。我们假设这是由于前馈网络在执行3DGS自适应控制方面的困难,正如[47]中提到的那样。在未来的研究中,设计一种基于参考特征的前馈自适应控制策略是一种潜在的解决方案,它可以通过参考特征预测需要自适应控制的位置,并可插入到现有的泛化相关工作中。此外,现有的与泛化相关的工作依赖于精确的姿态,这在实际应用中往往很难获得。因此,在位姿缺失条件下讨论可推广的3DGS也是有前景的。
物理问题
- 基于物理的运动:确保3DGS的运动符合物理定律对于统一模拟和渲染至关重要。引入了与刚性相关的正则化项,但大多数现有工作都专注于3DGS的动画制作,而忽略了高斯基元本身的物理属性。一些开创性的工作试图引入属性速度和牛顿动力学规则,但这不足以完全描述3DGS在空间中的物理运动。一种潜在的解决方案是在高斯基元中引入更多的物理属性,如材料、加速度和力分布,这些属性可能受到某些仿真工具和物理知识先验的约束。
- 基于物理的渲染:基于物理的渲染也是一个值得关注的方向,因为它使3DGS能够处理重新照明和材质编辑,从而产生出色的反向渲染结果。未来的工作可以探索3DGS中的解耦几何和外观,从正常重建以及照明和材料建模的角度进行研究。
真实与效率
- 表面重建:重建清晰曲面的困难一直是影响渲染真实感的一个重大挑战。一些作品已经解决了这个问题,试图用平面高斯表示曲面。然而,这可能会导致渲染性能下降,可能是由于平面高斯基元的代表性容量降低或训练过程的不稳定性。因此,设计更适合曲面表示的高斯基元,并引入多阶段训练范式和正则化项是潜在的解决方案。
- 效率:存储效率是3DGS的关键瓶颈之一。现有工作侧重于引入VQ技术和压缩SH参数,然而,这些方法不可避免地会影响渲染性能。因此,探索如何基于3DGS设计更高效的表示是提高效率的一种潜在方法,同时保持性能。
应用
- Large-scale Gaussian Splatting:尽管最近的方法能够在小规模和以对象为中心的场景中进行有效的重建,但由于视频内存有限、长度优化时间和显著的外观变化,将这种能力扩展到大规模场景仍然具有挑战性。最近的一些作品试图解决这些问题。例如,VastGaussian直观地使用基于相机位置的区域划分机制将大型场景划分为多个小块,并根据空间感知可见性标准引入额外的辅助相机位置,从而实现每个小区域的精确重建。同样,Fed3DGS在大规模3DGS中引入了联邦学习框架,以减少中央服务器上的数据负载,并实现了高斯合并策略,实现了数百万客户端和分布式计算资源之间的分散重建。遵循这些方法,仍有很大的研究空间。
- AIGC:现有的AIGC相关工作大多集中在单个静态对象的生成上。然而,在实际应用中,生成多个对象和动态对象更为重要。此外,在构建具有多个运动对象的场景时,表征对象交互也是一项值得研究的任务。
- 应用扩展:由于3DGS的高效和强大的重建能力,许多应用在各个领域都引起了人们的关注,如医学、工业缺陷检测、图像压缩和航空。未来,3DGS可能会在机器人和生物学等其他领域取代NeRF进行3D重建。
技术改进
- 初始化:越来越多的研究和工程项目发现,初始化在3DGS中很重要。传统的SfM初始化不适合许多受约束的场景,如稀疏视图设置、AIGC和低光重建。因此,应该设计更稳健的初始化方法来取代这些受限场景中的随机初始化。
- splatting:splatting在3DGS中也起着重要作用,但在现有作品中很少提及。在预训练的3DGS上设计高效的并行splatting策略有可能影响渲染性能和效率。
结论
对3DGS领域的兴趣日益浓厚,催生了无数相关的下游任务和技术,从而导致该领域的复杂性和混乱性日益增加,表现为各种形式,包括不同作品中的相似动机;在不同的任务中整合类似的技术;以及各种技术之间的细微差别和相互联系。在这项调查中,我们努力根据现有作品的潜在动机对其进行系统分类,并批判性地讨论相关技术。我们的目标是阐明不同任务和技术之间的共同挑战,从而为理解这一快速发展的领域提供一个连贯的框架。这项调查旨在为新手和经验丰富的从业者提供宝贵的资源,促进导航和有效参与最新进展。此外,我们确定并强调了未来研究的潜在途径,旨在激发3DGS的持续创新和探索。
#GOLMAP
全局SfM比COLMAP快几个数量级?
重新审视全局式SfM
运动恢复结构(Structure-from-Motion, SfM)多年来已经形成了两种主要的解决范式:增量式和全局式。这两者都以基于图像的特征提取和匹配开始,然后通过两视图几何估计构建输入图像的初始视图图。增量方法从两个视图开始重建,并通过逐步注册附加的相机图像和相关的三维结构来扩展重建。这一过程交替进行绝对相机姿态估计、三角测量和捆绑调整,尽管实现了高精度和鲁棒性,但由于重复的捆绑调整的高成本,限制了其可扩展性。相反,全局方法通过在视图图中联合考虑所有两视图几何,一次性恢复所有输入图像的相机几何。通常,全球估计的相机几何用作三维结构三角测量的初始化,然后进行最终的全局捆绑调整步骤。开发板商城 天皓智联
本文介绍的GLOMAP[1]是能够在准确性和鲁棒性方面达到或超过最先进的增量SfM水平的综合系统(例如图1a),同时保持全局方法的效率和可扩展性。
增量SfM与全局SfM之间的准确性和鲁棒性差距的主要原因在于全局平移平均步骤。平移平均描述了从视图图中的相对姿态集合中估计全局相机位置的问题,此前通过旋转平均恢复相机方向。在实践中,这一过程面临三个主要挑战:
- 尺度歧义:从估计的两视图几何中得出的相对平移只能确定到尺度。因此,为了准确估计全局相机位置,需要三元相对方向。然而,当这些三元形成歪斜的三角形时,估计的尺度特别容易受到观测中的噪声影响。
- 准确分解相对两视图几何为旋转和平移分量需要准确的相机内部参数的先验知识。如果没有这些信息,估计的平移方向通常会出现较大误差。
- 在几乎共线运动时,会导致退化的重建问题。这种运动模式在顺序数据集中尤其常见。这些问题共同导致相机位置估计的不稳定性,严重影响了现有全局SfM系统的整体准确性和鲁棒性。
受平移平均困难的启发,许多研究致力于解决这一问题。许多最近的方法具有一个共同特点,即在问题公式中引入了图像点。基于这一见解,该全局SfM系统直接将相机位置和三维结构的估计结合在一个全局定位步骤中。
GLOMAP与以前的全局SfM系统相比,其核心区别在于全局定位步骤。不是先执行不适定的平移平均然后进行全局三角测量,而是进行联合相机和点位置估计。GLOMAP在鲁棒性和准确性方面达到与最先进的增量SfM系统相当的水平,同时保持全局SfM管道的效率。与大多数以前的全局SfM系统不同,我们的方法可以处理未知的相机内参(例如,网络照片中常见的情况)并能鲁棒地处理顺序图像数据。
- 项目主页:https://lpanaf.github.io/eccv24_glomap/
- 论文链接:https://demuc.de/papers/pan2024glomap.pdf
- 代码地址:https://lpanaf.github.io/eccv24_glomap/
技术贡献
图2是该方法为改进全局 SfM 的最新技术并在稳健性和准确性方面缩小与增量 SfM 的差距而做出的关键技术贡献。
特征轨迹构建
为了实现准确的重建,特征轨迹必须被精心构建。首先只考虑通过两视图几何验证产生的内点特征对应。在这一步,区分两视图几何的初始分类:如果单应性矩阵 最能描述两视图几何,使用 来验证内点。同样的原则也适用于基本矩阵 和基础矩阵 。进一步通过执行正负性测试来过滤掉外点。匹配点如果接近任一极点或具有小三角测量角度,也会被移除,以避免由于大的不确定性导致的奇点。在所有视图图边进行成对过滤后,通过连接所有剩余的匹配点来形成特征轨迹。
全局相机和点定位
此步骤旨在联合恢复点和相机位置(见图3)。不进行平移平均再进行全局三角测量,而是直接执行联合全局三角测量和相机位置估计。与大多数以前的工作不同,目标函数无需初始化,并在实践中始终收敛到一个良好的解决方案。在标准的增量和全局SfM系统中,特征轨迹通过重投影误差进行验证和优化,以确保可靠和准确的三角测量。然而,跨多个视图的重投影误差高度非凸,需要仔细的初始化。此外,误差是无界的,因此对外点不鲁棒。
为克服这些挑战,使用归一化方向差异作为误差度量。原始公式是针对相对平移提出的,我们舍弃了相对平移约束,只包括相机射线约束。具体来说,问题被建模和优化为:
其中, 是观察点 的全局旋转相机射线,来自相机 ,而 是一个归一化因子。使用Huber作为鲁棒化函数 ρ ,并使用Ceres中的Levenberg–Marquardt作为优化器。所有点和相机变量通过在 [-1, 1] 范围内的均匀随机分布初始化,而归一化因子初始化为 。将涉及未知内部参数的相机的权重减半,以减少它们的影响。
与重投影误差相比,这有几个优点。首先是鲁棒性。虽然重投影误差是无界的,上述误差严格限制在 [0, 1] 范围内。因此,外点不会严重偏向结果。其次,正如我们在实验中所展示的,由于其双线性形式,目标函数在随机初始化下可靠地收敛。
与经典的平移平均相比,在优化中舍弃相对平移项有两个关键优势。首先,我们的方法适用于相机内部参数不准确或未知的数据集以及不遵循预期针孔模型的退化相机(例如,处理任意互联网照片时)。这是因为解决相对平移问题需要准确的内部参数知识。当它们偏离预期值时,估计的两视图平移误差很大。由于平移平均固有的不适定性,未知尺度使得从噪声和外点污染的观测中恢复相机位置具有挑战性,特别是在较长基线时相对平移误差加剧。我们的提出的框架依赖于仔细过滤的两视图几何,并根据相机射线定义误差。因此,差的相机内部参数只会偏向单个相机的估计,而不会偏向其他重叠的相机。其次,我们的方法在共线运动场景中的适用性,这是平移平均的已知退化情况。与成对相对平移相比,特征轨迹约束多个重叠的相机。因此,提出的框架在常见的前向或侧向运动场景中更可靠。
全局捆绑调整
全局定位步骤为相机和点提供了鲁棒的估计。然而,准确性有限,尤其是在相机内参未知的情况下。作为进一步的精炼,使用Levenberg-Marquardt和Huber损失作为鲁棒器进行多轮全局捆绑调整。在每轮调整中,首先固定相机旋转,然后与内参和点共同优化。这样的设计对于重建序列数据特别重要。在构建第一个捆绑调整问题之前,基于角度误差对三维点观测进行预过滤,同时允许未校准相机有更大的误差。随后,基于图像空间中的重投影误差对轨迹进行过滤。当过滤轨迹的比例低于0.1%时,迭代停止。
相机聚类
对于从互联网收集的图像,非重叠图像可能会错误地匹配在一起,从而导致不同的重建结果混合成一个。为了解决这个问题,通过执行相机聚类来对重建结果进行后处理。首先,通过计算每对图像之间的可见点数来构建共视图图 。对于少于5个可见点的图像对将被丢弃,因为在这种情况下无法可靠地确定相对姿态,并使用剩余对的中值来设定内点阈值 τ。然后,通过在 中找到强连通分量来找到受约束良好的相机集群。这些分量仅通过连接具有超过 τ 个可见点的图像对来定义。之后,如果两个强分量之间至少有两个边具有超过 τ
方法流程
流程由两个主要部分组成:对应搜索和全局估计。
- 在对应搜索方面,它从特征提取和匹配开始。从匹配中估计两视图几何,包括基本矩阵、基本矩阵和单应性矩阵,几何上不可行的匹配会被排除。然后,对几何验证的图像对进行视图图校准。更新相机内参后,估计相对相机姿态。
- 对于全局估计,全局旋转通过平均化进行估计,不一致的相对姿态通过阈值化角距离来过滤。然后,通过全局定位联合估计相机和点的位置,随后进行全局捆绑调整。可选地,可以通过结构细化进一步提高重建的准确性。在此步骤中,使用估计的相机姿态重新三角测量点,并进行多轮全局捆绑调整。还可以应用相机聚类以实现一致的重建。
实验效果总结一下
GLOMAP是一种新的全局SfM框架。以前的全局SfM系统被认为更高效但鲁棒性较差,关键在于在优化中使用点。将相机位置的估计与不适定的平移平均和单独的三维结构点三角测量合并到一个全局定位步骤中。该系统在准确性和鲁棒性方面与最先进的增量方法相当或更优,同时速度快了几个数量级。该代码已作为开源项目在商用友好的许可证下发布。
限制:仍然存在一些失败的情况,主要原因是旋转平均失败,例如由于对称结构。在这种情况下,可以与现有方法如Doppelganger结合使用。此外,由于我们依赖传统的对应搜索,错误估计的两视图几何或无法匹配图像对(例如由于剧烈的外观或视点变化)将导致结果恶化,最坏情况下会导致灾难性失败。
#杂文
2024的我们应该如何看待xx智能
最近看了记录短片《斯坦福AI六十年》。从1962年到2022年,机器人或者xx智能的研究从第一天起就贯穿了人工智能的发展。2024年,这六十年中提出的大多数问题,从象棋,视觉,语音识别都获得了解决——除了机器人。而如何创造通用机器人便是我日思夜想的问题。做科研自然是令人疲乏的,然而思考这个问题却是令人兴奋的。
23年可谓是xx智能在中文圈被知晓的元年。这种爆红是我不必再和每个VC解释我们的究极理想并不是制造一个机械躯壳,而是未来能彻底解放人类劳动力的“人”。纵观历史,每一件新兴事物的爆红都伴随着机遇和泡沫。作为麻省理工xx智能实验室的一名博士生学者,我希望通过这篇随笔让世界各地的从业者更好更理性地了解xx智能的机遇与挑战,为领域带来可持续性的发展。
以ChatGPT为代表的大模型让我们瞥见了未来的一隅。机器人大模型在过去一年里出现在了几乎每一个机器人公司的PPT里。PaLM-E,RT1,RT2等论文也抛砖引玉式的向大家展现了可以让大模型直接输出控制信号这个愿景。那么大语言模型的思路会给我们带通用机器人么?要解答这个问题,我愿意把“大模型”这个词展开为“大模型与大数据”。大语言模型不光需要十亿级别的神经网络参数,还需要在大量的网络数据上进行预训练。例如Llama3这样的开源大语言模型光预训练就使用了15万亿个token。相比之下,机器人的数据采集就难得多。人们每天都在网络上拍照片,发文字,自然而然地产生着这两个模态的数据。你会拿着排队买到的网红奶茶拍照发朋友圈,但是永远不会在配字里写上“我的大拇指关节分别转动了30度,20度,45度来抓住这杯奶茶”。我认为只要有足够多的高质量机器人数据,机器人大模型绝对能带来接近通用的泛化性,但是机器人的动作数据哪里来是一个不容乐观的问题——这些直接输出动作模态的大模型的泛化性也因此非常有限。这个问题即便是在文字-图像这样较为成熟的多模态模型里仍然存在——我在Google Deepmind实习期间的论文SpatialVLM发现最好的多模态大模型都常常左右不分,因此可以推测目前很多有动作模态输出的“机器人大模型”之所以能操纵机械手正确地往左往右,很可能只是在有限的动作数据上过拟合了而已,并不是魔法般地因为结合了文字-图像基础模型而泛化。因此,问题的答案取决于我们能否在动作模态的数据上达到GPT的量级。
好消息是工业界和学术界大家都在着手解决机器人数据缺乏的问题。我与很多学者愿意将其中的努力概括为两个维度,灵巧性(dexterity) 与泛化性(generalization)。灵巧性主要反映在在单一场景和任务比较固定情况下能让机器人做成多难的任务,例如在同一张桌子上用同一台卷笔刀削放在差不多同一个位置的同一支铅笔。泛化性则研究让机器人能去新的场景下执行新的任务,哪怕这些任务看起来很简单很蠢,例如在任何房间的任何桌子上能用手把任何指定的铅笔推到指定的地方。让机器人兼具灵巧性与泛化性是xx智能的终极目标。目前在灵巧性维度上最火的方向是模仿学习中的行为克隆——依靠人工采集关节动作数据,再用监督学习的方法训练机器人。在硬件层面,ALOHA式的关节到关节mapping,VR眼镜的手部动作捕捉,特斯拉的动捕手套,RT-X数据集都是学术界和工业界进行更高效数据采集的尝试。这些方法中的大多数需要给每个数据采集员配一台昂贵的机器人,但特斯拉擎天柱,figure AI到斯坦福炒虾机器人已经让我们看到了行为克隆的潜力。行为克隆让一些特别惊艳且泛化需求有限的任务能用简单的算法完成。但与此同时,因为人工采集动作数据的效率低,所有demo中展现的泛化性都是极其有限的——如果把香蕉换成橙子并移动个半米,换一张花纹不一样的桌子,这些视频里的机器人用他们发布时在有限数据上训练的模型就无能为力了,更不用提跨任务了。当然,你也可以收集多任务的数据,例如香蕉和橙子的数据混起来,并采集很多不同初始位置的demo,但是除非你的任务数量多到大语言模型那种程度,剥香蕉和剥橙子上训练的动作模型还是不能解决剥芒果的问题。很多通用人形机器人公司也采用了行为克隆作为切入点,因为它最容易出好看的视频——没人能把你视频里的场景换成从没见过的任务来测试你模型的泛化性。公众也更喜欢看机器人做日常家务的视频而不是在实验室桌子上推方块——哪怕做家务的视频背后需要雇一个人在背后手动操作。对此我的看法是,目前行为克隆路线解决的主要是灵巧性而不是泛化性问题,难以带来通用机器人但也很重要。目前很多流水线上的任务就符合模仿学习的适用条件,且具有极高商业价值,从业者并不一定要刻意追求通用机器人。[水印,原文出自https://boyuan.space/]
如果算一笔账,通用机器人公司投入大量金钱去用模仿学习的思路采集机器人大模型的数据,确实用上一段落提到的方法有可能采集到指令微调所需要的数据规模的一部分 (Llama3的指令微调用了一千万条人工标注的数据,这里类比为一千万个不同任务的机器人数据),但也千万别忽略了用于预训练的数据可能是指令微调的千千万万倍。
因此也有很多学者认为行为克隆本身无法带来通用机器人,并以泛化性为核心进行研究。当我在谈论机器人缺乏数据的时候,我指代的是我们缺乏包含动作模态的数据。然而我们可以退而求其次通过大量其他模态的数据去获得动作。举个例子,虽然SORA这样的视频模型不直接输出手指头每个关节转了多少度这样的信息,但它生成的视频仍然包含了大量人类动作的信息,可以被人体姿态估计提取。如果你进入到一个新的场景中去,假设视频预测模型足够好,它就能根据新场景的图片和文字的任务描述去生成带有技能的视频,例如MIT和Google的UniPi。不光如此,当视频模型与文字模型结合的时候,我们就拥有了一个(不严谨意义上的)世界模型,可以和大语言模型一样用搜索(search)产生数据自我提升自我学习,而不只是单步策略policy。世界模型甚至可以与基于模型的强化学习(model based reinforcement learning) 结合。正是因为视频数据取之不竭,我作为一个xx智能学者在过去一年里也短暂地放下硬件把自己的科研方向转移到对视频的探索上,让视频模型不光能生成好看的艺术视频还能在机器人需要的物理规律和任务上有好的表现。[水印,原文出自https://boyuan.space/]
除了视频世界模型,大规模强化学习也是有可能带来泛化性的路线。作为曾经的强化学习研究者,我曾经很长一段时间都对强化学习的两大问题感到绝望——需要人工设计的场景模拟和需要人工设计的奖励函数。如果要让机器人在一个房间里学会一个任务,我就需要手动给这个房间建模输入到模拟器里,并且设计一个好的奖励函数告诉机器人它在某一次尝试中做的有多好。这两者曾经都需要极其大量的人工参与,根本不能大规模铺开到泛化所需要的场景和任务数量。但是生成式人工智能改变了这一切——我们现在可以很容易地生成大量3D物体,也逐步能够生成大量场景。多模态模型虽然还很孱弱,但是在一些任务上已经标记任务的成功与否,或者把大任务拆分成小任务让智能体学习动作,甚至和我之前论文里那样标注更加细节的设计到距离等的非稀疏奖励函数。GenSim已经展示了生成简单的机器人任务,而当3D场景生成成熟时,VLM足够便宜时,我们将看到真正让人惊艳的大规模强化学习。模仿学习也很容易与强化学习增强其效果。
在此之外,传统的机器人动作规划(motion planning)对解决通用机器人的数据问题也至关重要。虽然很很多灵巧任务必须通过人产生的数据(关节到关节演示或视频)学习,这些灵巧任务中很大一部分子任务确实花在非常基础的接近物体(reach), 接触物体(contact),移动物体和躲避障碍上。这些子任务的数据完全可以靠动作规划生成进行预训练,节约人工的时间。例如,波士顿动力的spot机器狗可以非常可靠地自动捡起放在不同环境里的奇形怪状的物体,且不会撞到障碍物,这种泛化性如果要用行为克隆达到会需要极其夸张的人工数据采集。上一段讲大规模强化学习时已经提到了未来生成式AI生成场景的潜力,而有了这些场景之后把强化学习替换为动作规划可能会达起到更高的效率。记得在我申请PhD时,一位教授曾在面试中问我怎么看待end2end(端到端)的方法在机器人中的应用。我给出的解答是,数据足够的情况下端到端会做的很好,然而我们需要先花数十年用模块化的方法去分析实践形成足够好的数据闭环。这个思路在特斯拉的自动驾驶中获得了很好的验证——在数据不够的时候,规划算法视觉网络模块化地结合可以先让车跑起来,在一定时间后用产生的数据与用户数据混合在一起训练端到端自动驾驶,孕育了FSD12。我相信在通用机器人中动作规划也会在前期起到相同重要的作用。
我可以负责任地告诉大家xx智能一定是下一个一百年最令人激动的技术,并且我们在有生之年很有希望见证通用机器人的诞生。但也正因为我太热爱这个领域了,我也更愿意看到社会细水长流地投入通用机器人的发展——看科研工作者如我导师Russ所说的那样,“可以以结果为导向的科研,但不可以网红视频为导向”;看到政府和投资人在长线看好xx智能的同时,不因为硬件公司的融资需要而盲目相信机器人大模型;看到创业者勇往直前,用细分领域的成功和硬件的进步为真正的通用机器人铺路。而我自己也愿意用自己的一生给世界带来真正的通用机器人。
#Mask2Map
爆拉MapTRv2 近10个点~
高精地图(HD Map)一直以来被认为是是保证自动驾驶车辆安全有效导航的关键要素。它们通过提供地图实例的详细位置和语义信息,促进精确的规划和障碍物避让。传统上,利用基于SLAM的方法离线构建的高精地图,涉及复杂的过程,需要大量的劳动力和经济成本。而且,这种方法在响应道路条件变化并提供及时更新方面存在局限性。所以,最近越来越多的论文开始研究如何基于学习来在线构造高精地图构建,专注于生成自车周围的局部地图。
论文地址:https://arxiv.org/pdf/2407.13517
早期的工作将地图构建视为一种语义分割任务,基于从各种传感器获得的BEV特征。它们预测了栅格格式中每个像素的类别标签,避免了生成精确矢量轮廓的复杂性。虽然这种方法提供了语义地图信息,但在捕捉不同类别的地图组件的精确关键位置及其结构关系方面存在不足。因此,其输出并不适合直接应用于下游任务,如运动预测和规划。为了解决这个问题,越来越多的研究者将 HD map 矢量化,能够直接生成矢量化的地图实体。常见的方法如下图1所示。
之前的工作主要分为三种思路:
- 图1(a): 基于分割的解码方法,该方法涉及语义分割,然后使用启发式后处理算法生成矢量化地图。然而,这种方法需要大量的处理时间。
- 图1(b): 基于检测的解码方法识别对应于各种实例的关键点,然后按顺序生成矢量化地图组件。但是,仅依赖关键点可能无法充分捕捉实例的多样化形状,从而阻碍了生成准确的高精地图。
- 图1(c): 各种基于可学习查询的解码方法,这些方法通过并行从BEV特征中解码可学习查询,直接预测矢量化地图组件。由于初始可学习查询与给定场景无关,它们限制了同时捕获复杂场景中地图实例的语义和几何信息的能力。
在这篇论文中,作者介绍了一种新的端到端高精地图构建框架,称为Mask2Map。如图1(d)所示,Mask2Map通过利用分割掩码来区分BEV领域中不同类别的实例。所提出的Mask2Map架构包括两个网络:实例级掩码预测网络(Instance Level Mask Prediction Network,IMPNet)和掩码驱动地图预测网络(Mask-Driven Map Prediction Network,MMPNet)。最初,IMPNet从传感器数据构建多尺度BEV特征,并生成掩码感知查询,从全局角度捕获实例的语义特征。遵循实例分割模型Mask2Former的框架,作者设计了掩码感知查询,能够生成与BEV范围中不同类别的实例相关联的BEV分割掩码。随后,基于IMPNet提供的掩码感知查询,MMPNet动态地从BEV范围的局部角度预测地图实例的有序点集。
相关工作
BEV分割方法
BEV分割任务指的是利用传感器数据收集有关车辆周围静态环境信息的任务。该类分割方法通常从传感器数据中提取BEV特征,并使用静态场景的栅格化图像作为GT,在BEV领域执行语义分割。例如,Lift-Splat-Shoot (LSS) 将从多视图相机提取的特征转换为3D特征,使用预测的深度信息,然后通过聚合这些特征生成BEV表示。CVT 使用交叉视图注意力从透视图到BEV领域学习几何变换,使用相机感知的位置编码。BEVFormer 通过与空间和时间信息交互,通过预定义的网格状BEV查询统一BEV表示。BEVSegFormer 通过使用可变形交叉注意力模块,从不依赖于相机内参和外参的多视图相机特征中生成密集的语义查询,执行BEV语义分割。
矢量化高精地图构建方法
在线高精地图构建方法因其潜力而受到广泛关注,有可能取代自动驾驶中的高精地图,并为规划和定位提供有用信息。这些方法使用传感器数据实时预测自车周围的详细地图实例。例如,HDMapNet 使用带有BEV特征的语义分割模型和后处理方法来生成矢量化高精地图。然而,这种方法需要大量的计算时间。为了提高处理效率,引入了基于查询的方法,利用Transformer注意力解码场景并直接预测地图实例的有序点序列。VectorMapNet 引入了一个两阶段框架,首先检测地图实例的边界框,然后使用自回归解码器依次预测每个实例的点。MapTR 利用DETR的架构将地图实例表示为有序点集,并使用层次化查询对Transformer解码器进行编码。MapTRv2 进一步扩展了其能力,使用深度监督学习3D几何信息,并在透视视图和BEV上进行语义分割。MapVR 为每个地图实例生成矢量化地图,然后使用可微分光栅化器将其转换为光栅化地图,提供实例级分割监督。PivotNet 通过生成关键点的有序列表预测地图实例,这些关键点对于捕获地图组件的整体形状至关重要。
去噪训练策略
基于DETR架构的感知模型已经采用了基于Transformer架构的查询预测,通过二分匹配将GT标签分配给预测,以确保适当的监督。然而,这种分配有时会导致跨时期或层之间的匹配不一致。例如,不同的GT标签可能在不同的时期分配给相同的查询,从而导致收敛速度变慢和性能下降。为了解决这个挑战,DN-DETR 引入了去噪训练策略。该策略将从嘈杂的GT边界框派生的查询集成到DETR解码器的现有查询中,将预测这些GT边界框的任务分配给这些GT查询。这种方法已被证明在稳定跨训练时期的二分匹配中是有效的。MP-Former 解决了连续解码器层之间不一致的掩码预测问题。MP-Former 采用了掩码引导训练方法,使用故意加入噪声的GT查询和GT掩码,以减轻不准确掩码预测的负面影响。Mask DINO 引入了一个统一的去噪训练框架,增强了多任务学习在目标检测和分割任务中的稳定性。
方法论
创新点
作者引入了几种创新方法来提高预测高精地图的准确性:
- 设计了位置查询生成器(Positional Query Generator,PQG),它生成捕获全面位置信息的实例级位置查询,以增强掩码感知查询。
- 大多数现有方法在构建高精地图时没有考虑每个地图实例的点级信息,但是作者引入了几何特征提取器(Geometric Feature Extractor,GFE)来捕获每个实例的几何结构。GFE处理BEV分割掩码,从BEV特征中提取地图实例的点级几何特征。
- 作者观察到由于IMPNet和MMPNet的查询与不同实例的GT相关联,Mask2Map的性能受到限制。为了解决这个问题,作者提出了一种网络间去噪训练策略(Inter-network Denoising Training )。这种方法使用嘈杂的GT查询和扰动的GT分割掩码作为IMPNet的输入,并引导模型对抗噪声,从而确保网络间的一致性并提高高精地图构建的性能。
模型结构
Mask2Map的整体架构如下图2所示。Mask2Map架构包括两个网络:IMPNet和MMPNet。首先,IMPNet生成从全局视角捕获全面语义信息的掩码感知查询。随后,MMPNet利用通过PQG和GFE获得的几何信息,从局部视角构建更详细的矢量化地图。
实例级掩码预测网络(IMPNet)
IMPNet由BEV编码器和掩码感知查询生成器组成。BEV编码器从传感器数据中提取多尺度BEV特征,掩码感知查询生成器产生掩码感知查询,随后用于生成BEV分割掩码。
BEV编码器: IMPNet通过处理多视图相机图像、激光雷达点云或两者的融合,生成BEV特征。多视图相机图像通过LSS操作转换为BEV表示。激光雷达点云通过体素编码转换为BEV表示。当集成相机和激光雷达传感器进行融合时,从两种模态提取的BEV特征被连接并通过额外的卷积层。
接下来,BEV编码器通过下采样层产生多尺度BEV特征。这些多尺度特征然后通过 Deformable Transformer Encoder 联合编码,来编码多尺度BEV特征之间的关系。这个过程产生多尺度BEV特征 ,其中l表示尺度索引,S表示尺度总数。尺度索引l = 1代表最小尺度,而l = S表示最大尺度。作者用H和W表示最大尺度的BEV特征 的高度和宽度。
掩码感知查询生成器: 掩码感知查询生成器使用Mask2Former中提出的掩码变换器从多尺度BEV特征中提取掩码感知查询。掩码感知查询以可学习向量初始化,并通过变换器解码器的M层进行解码。给定多尺度BEV特征FBEV和第(m-1)解码层获得的BEV分割掩码 ,掩码感知查询 更新如下:
其中 τ 表示阈值,表示掩码感知查询的数量,、和是可学习的权重矩阵。最后,通过将最大尺度的BEV特征与掩码感知查询沿通道轴进行点积,获得BEV分割掩码。然后应用sigmoid函数将BEV分割掩码归一化。这些BEV分割掩码随后反馈到下一个解码层进行进一步细化。经过M个解码层后,IMPNet最终得到最终的掩码感知查询和BEV分割掩码,这些将传递给后续的MMPNet。
掩码驱动地图预测网络(MMPNet)
MMPNet包括三个主要组成部分:位置查询生成器(Positional Query Generator)、几何特征提取器(Geometric Feature Extractor)和掩码引导地图解码器(Mask-Guided Map Decoder)。位置查询生成器注入位置信息以增强掩码感知查询,而几何特征提取器处理BEV分割掩码以从BEV特征中提取几何特征。最后,掩码引导地图解码器使用位置查询生成器和几何特征提取器提供的特征,预测地图实例的类别和有序点集的坐标。
位置查询生成器: 虽然掩码感知查询携带有关地图实例的语义信息,但它们缺乏位置信息。为了使MMPNet能够为地图实例生成点的坐标,将BEV域中的位置信息整合到掩码感知查询中是必要的。PQG初始从BEV分割掩码MBEV中派生出稀疏的BEV掩码,
PQG将2D位置编码PE注入到稀疏的BEV掩码中,其中PE由正弦函数生成。然后,通过在x和y域中应用平均池化,获得位置查询,
其中 ,表示中非零像素的数量,表示逐元素乘积。位置查询与掩码感知查询 连接,生成组合位置查询。接下来,使用组合位置查询生成第i个地图实例的个点级特征。为此,PQG将复制次,并将其与个可学习点查询, ..., 相加,生成PQG查询特征,
其中和。注意,可学习查询到为掩码感知查询提供了生成第i个地图实例点的顺序。结果的PQG查询特征传递给掩码引导地图解码器。
几何特征提取器: GFE生成捕获地图实例几何结构的逐点特征。初始化,使用阈值τ,GFE从BEV分割掩码生成稀疏的BEV掩码。为了生成逐点几何特征,GFE从稀疏的BEV掩码中采样个关键像素。首先,作者采用最大存活(Max Survival)方法,选择在大小为G×G的不重叠窗口上滑动时最强的像素,并将其余像素设置为零。接下来,作者应用最远点采样(Farthest Point Sampling, FPS)方法,迭代选择最大存活方法的输出,并识别个关键点。最后,根据个关键点的位置,从最大尺度的BEV特征中池化个特征。同时,使用MLP编码这些个关键点的(x, y)坐标。这两个特征被连接起来,形成GFE特征,表示为。
掩码引导地图解码器: 掩码引导地图解码器基于PQG查询特征和GFE特征预测矢量化地图组件的类别和有序点序列。通过使用作为查询,作为键和值,交叉注意力模块产生掩码感知混合查询。这些查询随后使用多尺度BEV特征作为值,通过 Deformable Transformer 解码。最后,预测头通过分类和回归头分别预测每个地图实例的实例分类分数和标准化BEV坐标。
网络间去噪训练
Mask2Map通过IMPNet传递掩码感知查询给MMPNet,以进行实例特征的层次化细化。为了确保有效的训练,作者为IMPNet分配了实例分割损失,为MMPNet分配了地图构建损失。IMPNet和MMPNet使用的查询应该通过二分匹配与它们各自的GT进行匹配。然而,当IMPNet和MMPNet的查询与不同实例的GT相关联时,匹配过程中可能会出现不一致性。作者观察到这种网络间的不一致性往往会引发收敛速度变慢和性能下降。
为了解决这个问题,作者采用了去噪训练策略。关键思想是将从每个GT实例派生的嘈杂GT查询,合并到IMPNet内的可学习查询中(见图2)。作者的模型被训练以去噪这些查询,通过直接将它们与相应的GT匹配。这与通过二分匹配将可学习查询与GT匹配的方式形成对比。因此,这种策略被称为网络间去噪训练。这个过程引导模型在IMPNet和MMPNet使用的查询之间建立对应关系,有效减轻了网络间的不一致性。此外,除了GT查询,作者还生成了扰动的GT分割掩码,以替代IMPNet的BEV分割掩码。
作者通过为每个实例的GT类别分配所有类别嵌入向量之一来生成GT查询。作者通过以概率λ随机替换类嵌入向量与其他类别之一来添加翻转噪声。同时,作者还通过将地图噪声添加到每个实例的有序点序列中,并将其光栅化,生成扰动的GT分割掩码,如图3(c)所示。
嘈杂GT查询和可学习查询的组合被称为可学习实例查询。与使用BEV分割掩码不同,作者专门使用扰动的GT分割掩码进行嘈杂GT查询。嘈杂GT查询通过IMPNet和MMPNet传递,其预测结果与相应的GT匹配,而不进行二分匹配。
训练损失
用于训练Mask2Map的总损失L由下式给出:
其中是训练IMPNet进行BEV分割任务的损失项,是训练MMPNet进行地图构建任务的损失项,是辅助损失项,是网络间去噪训练的损失项。
作者使用匈牙利算法的二分匹配来为IMPNet和MMPNet使用的查询分配它们各自的GT。基于分配,作者计算和。作者采用[6]的方法获得损失项。损失项包括用于矢量化地图实例回归的L1损失,用于实例分类的焦点损失,以及计算从GT和预测中相邻点的方向的余弦相似度损失。辅助损失项计算在相机透视视图特征上进行的深度估计和2D地图语义分割任务的误差。损失项是两个项的总和,每个项分别对应于在没有GT和预测之间的二分匹配的情况下,在IMPNet和MMPNet中使用的嘈杂GT查询的损失。
实验
实验设置
数据集。 作者在nuScenes 和 Argoverse2 两个公开数据集上做了测试。
评估指标。 作者定义了感知范围为横向方向 [-15.0m, 15.0m] 和纵向方向 [-30.0m, 30.0m]。作者将地图实例分为三类用于高精地图构建:人行横道、车道分隔线和道路边界。作者采用两种评估指标:基于 Chamfer 距离提出的平均精度 (AP) 和基于光栅化的 AP 。作者主要使用 Chamfer 距离度量,使用 0.5、1.0 和 1.5 米的阈值计算平均精度 (mAP)。对于基于光栅化的平均精度 (mAP†),作者测量每个地图实例的交并比,阈值设置为 {0.50, 0.55, ..., 0.75} 用于人行横道和 {0.25, 0.30, ..., 0.50} 用于线形元素。为了进一步评估网络间匹配一致性比率,作者使用了查询利用率 (Query Utilization, Util) 指标,该指标计算 MMPNet 的第一解码器层与 IMPNet 的最后一层匹配的一致性比率。
实现细节。 作者采用了 ResNet50 作为图像骨干网络。对于 nuScenes,尺寸为 1600×900 的图像通过 0.5 的比例进行缩放。在 Argoverse2 的情况下,前视图的七个图像尺寸为 1550×2048,其他图像尺寸为 2048×1550,在缩放前被填充到 2048×2048,然后通过 0.3 的比例进行缩放。激光雷达点云被体素化,体素大小为 0.1、0.1 和 0.2。体素特征通过 SECOND 提取。作者在 IMPNet 中采用了六个 BEV 编码器层和三个掩码变换器层。在 MMPNet 中,作者采用了六个变换器解码器层。BEV 分割掩码、τ、τ 和 τ 的阈值分别设置为 0.5、0.3 和 0.8。作者将实例查询的数量配置为 50,点查询的数量为 20。在 GFE 中,作者将 Max Survival 方法的窗口大小 (G) 设置为 4,采样点数 () 设置为 20。翻转噪声概率 λ 设置为 0.2。对于优化,作者采用了 AdamW,权重衰减为 0.01,并使用余弦退火作为调度器。初始学习率设置为 6e-4。作者的模型在 4 个 RTX3090 GPU 上训练,每个 GPU 的批量大小为 4。
性能比较
nuScenes 上的结果。 表1展示了 Mask2Map 在 nuScenes 验证集上的全面性能分析,使用 Chamfer 距离度量。Mask2Map 建立了新的最先进性能,显著优于现有方法。当仅使用相机输入时,Mask2Map 在 24 个周期内取得了 71.6% mAP 的显著结果,在 110 个周期内取得了 74.6% mAP,分别比之前的最先进模型 MapTRv2 高出 10.1% mAP 和 5.9% mAP。当使用相机-激光雷达融合时,Mask2Map 比 MapTRv2 提高了 9.4% mAP 的性能。表2基于光栅化度量评估了 Mask2Map 的性能。值得注意的是,作者的 Mask2Map 方法比 MapTRv2 提高了 18.0 mAP 的显著性能。
Argoverse2 上的结果。 表3展示了几种高精地图构建方法在 Argoverse2 验证集上的性能评估。所提出的 Mask2Map 与现有模型相比显示出显著的性能提升。Mask2Map 超过了当前领先的方法 MapTRv2,提高了 4.1% mAP,表明作者的模型在不同场景中实现了一致的性能。
消融研究
作者进行了消融研究,以评估 Mask2Map 核心思想的贡献。在这些实验中,使用了仅相机输入和 ResNet50 骨干网络。训练在 nuScenes 训练数据集的 1/4 上进行了 24 个周期。评估在完整验证集上执行。
主要组件的贡献: 表4展示了 Mask2Map 每个组件的影响。作者通过逐个添加每个组件来评估性能。第一行代表一个基线模型,使用基于 LSS 的 BEV 编码器提取 BEV 特征,并使用可变形注意力预测矢量化地图实例。将 IMPNet 添加到基线模型时,作者注意到 mAP 显著增加了 5.9%,表明包含掩码感知查询(能够生成实例分割结果)显著提升了高精地图构建的性能。此外,添加 MMPNet 使 mAP 进一步提高了 3.8%,强调了通过 BEV 分割掩码注入地图实例的位置和几何信息的重要性。最后,作者的网络间去噪训练提供了额外的 6.5% mAP 增加,强调了其在提升性能中的有效性。
MMPNet 子模块的贡献: 作者在表5中详细研究了 PQG 和 GFE 的贡献。仅 GFE 就比基线贡献了显著的 3.1% mAP 增加,而仅 PQG 则产生了 3.4% mAP 的改进。PQG 和 GFE 的组合通过 4.8% mAP 进一步提高了性能,展示了它们的互补效应。
网络间去噪训练对匹配一致性的影响: 作者进一步研究了网络间去噪训练的影响。如表6所示,网络间去噪训练将匹配比率 Util 从 24.7% 显著提高到 74.7%,这转化为整体 mAP 性能的 6.5% 显著增加。这表明作者的网络间去噪训练有效地减轻了 IMPNet 和 MMPNet 之间查询到 GT 匹配的不一致性。
网络间去噪训练中噪声的影响: 在表7中,作者探索了在网络间去噪训练中使用的地图噪声的影响。作者将方法与不使用地图噪声的 GT 分割掩码的基线进行了比较。结果表明,在 GT 中添加地图噪声比基线提高了 0.8% mAP。
定性分析
定性结果。 图4展示了所提出的 Mask2Map 产生的定性结果。作者与当前的最先进方法 MapTRv2 进行了比较。注意,Mask2Map 产生了比 MapTRv2 更好的地图构建结果。
总结
作者介绍了一种名为Mask2Map的端到端在线高精地图构建方法。Mask2Map利用IMPNet生成掩码感知查询和BEV分割掩码,从全局视角捕获语义场景上下文。随后,MMPNet通过PQG和GFE增强掩码感知查询,整合语义和几何信息。最后,掩码引导地图解码器预测地图实例的类别和有序点集。此外,作者提出了网络间去噪训练,以减轻IMPNet和MMPNet之间由于不同的二分匹配结果导致的网络间不一致性。作者在nuScenes和Argoverse2基准测试上的评估表明,所提出的想法比基线带来了显著的性能提升,以相当大的优势超越了现有的高精地图构建方法。
#如何简单理解视觉语言模型以及它们的架构、训练过程?
关于视觉语言模型(VLMs),以及它们的架构、训练过程和如何通过VLM改进图像搜索和文本处理的多模态神经网络。可以参考这篇文章:https://towardsdatascience.com/an-introduction-to-vlms-the-future-of-computer-vision-models-5f5aeaafb282
这篇文章介绍了视觉语言模型(VLMs),它们是未来的复合AI系统。文章详细描述了VLMs的基本原理、训练过程以及如何开发一个多模态神经网络,用于图像搜索。作者通过实例展示了这些模型如何解决各种任务,如图像描述、图像解释和数学问题求解。此外,文章还讨论了VLMs的架构、训练过程以及如何评估其质量。总的来说,文章具有较高的创新性和实用性,为未来计算机视觉模型的发展指明了方向。值得关注的是,VLMs通过融合图像和文本信息,可以在多种任务中提供卓越的性能,尤其在处理复杂的多模态数据时。
文章全文解读
直到最近,AI模型都是专门针对特定类型的数据,比如文本或图像。然而,随着通用语言模型(如GPTs)的发展,它们不仅变得更加通用,而且更加强大。然而,即使在语言模型取得了巨大进展的情况下,它们仍然与计算机视觉领域保持独立。VLMs(视觉语言模型)则是将语言处理和视觉处理结合起来的复合AI系统,它们可以理解和处理多种数据类型,包括文本、图像、视频和音频。
VLMs的核心是三个主要组件:语言模型(LLM)、图像编码器和适配器。图像编码器负责处理图像,将其转换成模型可以理解的形式。适配器作为中介,使图像编码器和语言模型能够协同工作。这种架构通过适配器将图像信息融入到语言模型中,从而实现多模态的理解和处理。
训练VLMs的过程分为预训练和对齐两个阶段。预训练阶段的目标是将文本和图像模态联系在一起,并加载世界知识。预训练数据可以来自多种来源,如网页文档、图像-文本对和指令-答案对。对齐阶段则专注于高质量的数据,确保模型能够理解图像并生成准确的响应。
评估VLMs的质量主要通过两种方法:在公开基准上的度量计算和人机对比评估。这些评估方法可以帮助我们了解模型在不同任务中的表现,并进行改进。此外,文章还讨论了如何将VLMs应用于实际场景,如图像搜索,通过将传统的单模态处理方式转变为多模态处理,显著提高了系统的性能和用户体验。
核心要点
- VLMs的基本概念
VLMs是结合了文本和图像处理能力的复合AI系统,可以处理多种数据类型,包括文本、图像、视频和音频。它们通过融合不同模态的信息来提高处理复杂数据的能力。 - VLMs的架构
VLMs由三个主要组件构成:语言模型(LLM)、图像编码器和适配器。图像编码器负责处理图像,适配器将图像编码器的输出转换为语言模型可以理解的形式,从而实现多模态处理。 - 训练过程
训练VLMs分为预训练和对齐两个阶段。预训练阶段使用多模态数据来加载世界知识,并将文本和图像模态联系在一起。对齐阶段则专注于高质量的数据,确保模型能够理解图像并生成准确的响应。 - 评估方法
VLMs的质量可以通过在公开基准上的度量计算和人机对比评估来评估。这两种方法可以帮助我们了解模型在不同任务中的表现,并进行改进。 - 应用实例VLMs可以应用于实际场景,如图像搜索。通过将传统的单模态处理方式转变为多模态处理,VLMs显著提高了系统的性能和用户体验。
#LVI-GS
港大最新LVI-GS:结合3DGS的实时LiDAR-视觉-惯性紧耦合SLAM3DGS SLAM的难点
传统的 SLAM 系统使用地标、点云、占据栅格、符号距离函数(SDF)体素网格或网格来表示环境。其中,点云是由摄像头和 LiDAR 等传感器直接获取的简单场景表示。基于点云的 SLAM 系统能够实现精确定位,并可以构建稀疏或稠密的地图,但这些地图通常缺乏丰富的视觉细节。
NeRF 使用辐射场隐式地表示场景,通过优化连续的体积场景函数来实现,这种方式所需的存储量极少。然而,由于这些系统涉及大量的优化过程,难以实现实时性能。此外,将地图存储在多层感知器(MLP)中带来了灾难性遗忘和边界限制等问题,这些问题会阻碍场景重建。
3D 高斯分布(3DGS)提供了一种令人兴奋的替代方案,通过可微的 3D 高斯形状的原语来连续且适应性地表示 3D 场景。作为一种半隐式的建图方法,它在牺牲部分新视图合成功能的情况下,显著加快了优化和渲染速度。尽管基于优化,3DGS 的特性与点云和表面元素云类似,因而继承了其高效性、本地化和适应性等优点——这些特性对 SLAM 建图非常有利。在 1080p 分辨率下,3DGS 渲染速度可达 200 帧每秒,并且可以使用点云进行初始化,从而能够利用传统 SLAM 系统生成的稀疏或稠密点云来生成高保真图像。
一些集成了 3D 高斯的 SLAM 方法显示出了良好的效果。例如,SplaTAM、MonoGS、GS-SLAM和 Photo-SLAM使用序列的 RGB-D 或 RGB 数据来构建完整的 SLAM 系统。然而,这些技术在具有挑战性的光照条件、复杂背景和快速运动的非受控户外大规模环境中遇到了困难。尽管 LiDAR 为 3D 高斯提供了高质量的几何初始化,在户外环境中通常比摄像头更为稳健,但将其集成到 SLAM 系统中带来了独特的挑战。LIV-Gaussianmap和 LetsGo使用 LiDAR 初始化 3D 高斯,而 Gaussian-LIC结合了 LiDAR-惯性-摄像头的设置来实现综合的 3D 高斯构建。然而,LIV-Gaussianmap和 LetsGo等系统仅限于离线处理,而 Gaussian-LIC则需要复杂的前端里程计和大量的关键帧维护。
LVI-GS[1]的项目链接: https://kwanwaipang.github.io/LVI-GS/
主要贡献:
- 开发并实现了一个复杂的实时 LVI-GS 系统,能够维护一个动态的超原语模块。该系统利用 3D 高斯分布在三维空间中执行高质量、实时的渲染,从而确保了复杂环境的高效准确表示。
- 为了进一步提升系统的性能和可扩展性,采用了粗到细的地图构建方法。此方法利用 RGB 图像和深度图像的金字塔结构,在不同细节层次上逐步优化地图。此外,实施了一种先进的线程管理技术,以优化计算效率,从而确保在处理大型数据集时的实时操作顺畅。
- 为了改善地图表示和渲染质量,设计了一个稳健的关键帧管理策略,能够有效地选择和处理关键帧。此外,通过将深度损失纳入系统,增强了 3D 高斯地图的准确性,实现了更精确的重建和视觉上更优的渲染效果。
具体方法
框架通过两个并行线程来实现完整的系统功能:
- 一个线程处理里程计
- 另一个线程进行 3D 高斯的实时优化。
这两个线程协同维护一个共享的超原语模块。在这两个线程之间,交换的数据包括 3D 点云、相机姿态、相机图像和深度信息。
超原语
我们维护一个超原语模块,其中包括 3D 点云、体素和 3D 高斯分布。为了高效访问用于 3D 高斯初始化的 3D 点云,地图点被组织为固定大小的体素(例如,0.1 米 x 0.1 米 x 0.1 米)。体素的激活状态取决于最近添加的点的存在(例如,过去一秒内)。激活的体素表示最近有活动,而非激活的体素则表示没有近期更新。
此外,在视觉-惯性里程计 (VIO) 模块中,如果点的投影或光度误差超过指定阈值,则该点会被移除。对于点云中的每个点,我们识别其在网格中的位置;如果该位置已有点存在,则该点会被丢弃。我们还会控制每个体素中的点数以维持密度的稳定性。通过这种初始过滤过程,在里程计进行过程中,所获得的点云避免了 3D 高斯的冗余添加。
3D 高斯分布投影
我们的场景表示采用 3D 高斯分布,通过一组各向异性的高斯体 来进行建图。每个高斯体包含不透明度 、中心位置 、RGB 颜色 、半径 和 3D 协方差矩阵 。给定中心位置 和 3D 协方差矩阵 ,高斯分布定义为:
由于每个高斯体的形状为椭球体,我们将 3D 高斯的协方差参数化为:
其中, 为描述 3D 尺度的向量, 表示旋转矩阵。不同于沿相机光线进行的遍历,3D 高斯分布投影通过迭代 3D 高斯体进行光栅化,从而在渲染过程中忽略空白区域。由于 3DGS 采用体积渲染,因此无需直接导出表面,而是通过投影和混合多个 3D 高斯体的叠加,得到像素的颜色 :
同样地,我们可以使用相同的方法获得深度 :
我们还渲染出一个可见性图像,用于确定当前像素的可见性:
其中,最终的不透明度 是学习到的不透明度
其中坐标 和
我们的最终目标是将 3D 高斯体投影到二维平面上进行渲染,以获得高保真图像,这一过程通常被称为“投影”。当我们获得传感器的位姿变换 ([Q_{iw}, T_{iw}])(从图像到世界的转换)后,3D 高斯体()可以被投影为二维高斯体():
其中, 为投影变换的雅可比矩阵的线性近似, 和
关键帧管理
我们通过超原语模块获取点云,将每
此外,对于每一个新添加的关键帧,我们评估其与先前关键帧的视觉重叠。如果重叠超过指定阈值,表明相似度较高,则该帧被视为冗余,不会加入序列。此外,我们还为高斯体的添加设定了过滤标准。我们从当前关键帧的视点计算累计不透明度,选择满足透明度要求的 3D 高斯体。如果 ,则过滤掉该点。
在使用所有关键帧的带颜色 LiDAR 点进行 3D 高斯体初始化之前,我们引入一个缓冲容器来延迟关键帧序列的整合到地图中。此延迟可防止由前一帧初始化的高斯体的不透明度快速降至可剔除的阈值,从而确保 3D 高斯体可以从后续帧的视点被观察到,从多个角度进行训练。
基于金字塔的训练
在我们的大规模 3D 高斯场景表示中,我们采用渐进训练方法来优化 3D 高斯场的训练效率,同时保持渲染质量。通过在不同分辨率下使用颜色和深度图像,我们构建了颜色和深度图像的金字塔,从而通过逐步细化的细节层次来改进训练过程。具体来说,我们将高斯地图划分为多尺度表示,以捕获不同层次的细节。输入的颜色和深度图像经过多次下采样,使我们能够从粗到细逐步训练 3D 高斯体。
在训练过程中,我们优先使用低分辨率数据来优化粗略细节。在一定数量的迭代后,我们逐渐减少下采样级别,最终使用原始输入分辨率来完成训练。该方法确保了训练的高效性,同时在各个细节层次上保持了 3D 高斯场景的高质量表示。
在此公式中, 表示金字塔的层级, 表示渲染的颜色图像, 表示渲染的深度图像, 表示颜色图像的金字塔,
高斯建图
在接收每一个关键帧后,我们初始化 3D 高斯体。对于第一个帧,我们处理整个点云,将点的 3D 坐标作为 3D 高斯体的中心。我们计算每个点到原点的平方欧氏距离,以确保最小值,防止距离为零。使用反 Sigmoid 函数初始化不透明度参数。对于颜色信息,我们初始化一个张量来存储从点云颜色数据中提取的特征,其中 RGB 通道对应于球谐系数。尽管我们采用了球谐函数 (SH),但初始的 SH 阶数设置为 0。随着优化迭代次数和关键帧数量的增加,SH 阶数逐步提升,以更好地适应多个视角,最大不超过 3。
我们将每个接收到的关键帧作为子地图进行一次优化。随后,在管理关键帧序列时,每接收一个新帧,我们会随机打乱所有关键帧,并随机选择一个帧进行优化。为了确保每个关键帧在优化时的一致性并保持地图的完整性,我们为每个关键帧设置了优化迭代次数的上限。达到该上限的关键帧会从关键帧序列中移除。
我们通过最小化图像损失 和几何损失
图像损失包含亮度误差和图像结构相似性(SSIM)误差:
几何损失定义为渲染深度 与 LiDAR 测量的深度 之间的
实验效果
总结一下
LVI-GS是一种利用 3D 高斯分布 (3DGS) 的 LiDAR-视觉-惯性紧耦合 SLAM 系统,用于实时的高保真场景重建和渲染。我们的方法结合了 LiDAR 和图像数据,使其能够捕捉精确的几何结构和细致的视觉信息,即使在具有挑战性的户外环境中也表现出色。通过有效集成高斯地图扩展、关键帧管理、线程管理和基于 CUDA 的加速策略,我们的系统在保持高质量建图的同时实现了显著的计算效率。
大量实验表明,LVI-GS 在各种复杂场景中,在渲染质量和效率方面都优于现有的 RGB 或 RGB-D 基于 3DGS 的 SLAM 系统。我们的消融实验进一步验证了基于金字塔的训练和深度损失对提升地图表示准确性的优势。
未来工作:将探索集成更多传感器类型,并进一步优化该框架,以更广泛地应用于实时机器人和 AR/VR 环境中。
#自动驾驶中一直说的BEV+Transformer
在很多车企的自动驾驶介绍中,都会听到一个关键技术,那就是BEV+Transformer,那BEV+Transformer到底是个啥?为什么很多车企在自动驾驶技术中都十分追捧这项技术?
其实“BEV(Bird’s Eye View)+Transformer”是两个方向的技术,BEV是一种全新的3D坐标系,而Transformer则是一种深度学习神经网络模型,BEV+Transformer的组合方案在感知、理解和预测方面表现得更为强大,彻底终结了2D直视图+CNN时代。BEV+Transformer通过鸟瞰视角与Transformer模型的结合,显著提升了自动驾驶系统的环境感知与决策支持能力。
BEV+Transformer的首次亮相是由特斯提出,高效解决了其纯视觉方案下多个摄像头的数据融合的问题,随后国内的小鹏、理想、蔚来等车企以及毫末智行、百度Apollo、商汤、地平线等Tier 1也纷纷跟进,提出了自己的BEV+Transformer方案。
Tier 1智能驾驶集感知模型应用,来源:亿欧智库
BEV(鸟瞰视角)的概念
1.BEV的定义和背景
BEV即“Bird’s Eye View”(鸟瞰视角),顾名思义,它能够将视觉信息立体化,如同一只鸟儿在车辆正上方俯瞰,周围的环境信息以自上而下的方式展示在坐标系中,可以生成是以车辆为中心、从高空俯视车辆周围环境的视角。与摄像头获取的前视图相比,BEV视角能够显示更多的车辆周围信息。这种视角在自动驾驶中十分重要,因为它为感知系统提供了更广阔的空间视野,有助于系统更好地理解复杂交通场景中的多方位环境。
2.BEV视角的生成过程
获取BEV视角通常依赖于多种传感器的数据融合,如摄像头、激光雷达和毫米波雷达。这些传感器以不同角度捕获环境数据,然后通过深度估计、几何投影(尤其是透视投影变换)和坐标转换等步骤,将各视角的图像或点云数据整合为一个鸟瞰图。特别是在摄像头生成BEV视角的过程中,这种投影转换需要考虑到图像的畸变和透视效果,以确保视角的准确性。
3.BEV视角的实际应用
BEV视角在自动驾驶中的应用主要体现在复杂交通场景下的环境理解,如多车道并行、十字路口和环形交叉路口等。通过BEV视角,系统不仅可以识别前方物体,还能准确检测车辆四周的障碍物、行人、非机动车和建筑物,从而为安全行驶提供更全面的环境信息。
Transformer的基本概念与作用
1.Transformer模型的起源
Transformer模型最早由谷歌在2017年的“Attention is all you need”一文中提出,最初用于自然语言处理(NLP)领域的翻译和文本生成任务。与传统的RNN、LSTM模型不同,Transformer的自注意力机制(Self-Attention)允许其处理任意长度的输入序列,且并行计算性能强,因此在大规模数据处理和高效计算方面有显著优势。随着AI深度学习的兴起,Transformer被应用在BEV空间转换、时间序列上,形成了一个端到端的模型。
2.Transformer在视觉任务中的扩展
Transformer模型逐步被应用于计算机视觉(CV)任务,如目标检测、语义分割和物体跟踪等。其自注意力机制能够在图像上捕捉全局信息并分析不同位置特征之间的关系,帮助系统建立物体之间的空间关系。这在复杂场景下尤其重要,例如城市道路中需要理解不同车辆、行人之间的动态交互。
3.Transformer在BEV视角中的作用
在BEV+Transformer架构中,Transformer模型负责将BEV视角中的特征图信息转化为高层次的语义信息。通过自注意力机制,Transformer能够在特征图上找到重要物体之间的相对位置关系,并分析它们的行为趋势。例如,Transformer可以识别车道内外车辆的距离和速度关系,有助于预测其他车辆的运动轨迹。
BEV+Transformer的技术原理
1.多传感器数据融合与转换
BEV+Transformer的核心在于将来自不同传感器的数据统一转换为BEV视角的特征图,再利用Transformer进行深度分析。首先,通过卷积神经网络(CNN)对摄像头和雷达数据提取特征,并进行投影转换生成BEV视角的特征图。这样就能在车身上方生成完整的俯视图,为Transformer模型提供丰富的环境信息。
2.自注意力机制的全局关系分析
Transformer模型利用自注意力机制分析BEV特征图中的不同位置特征,建立物体与物体之间的相关性。例如,系统可以分析道路上的车辆、行人、障碍物的分布及其相对速度,预测他们的行为变化趋势。这种全局关系的分析使得系统对复杂场景的环境理解更加深刻和准确。
3.高层次语义信息的输出与决策支持
Transformer处理完BEV视角特征后,生成的输出包含环境的高层次语义信息,包括物体类别、位置、运动趋势等。这些信息不仅可以用于路径规划,还能辅助车辆进行避障和动态调整。在自动驾驶决策模块中,这些高层信息与其他预测结果结合,生成更加智能的驾驶策略。
BEV+Transformer的实际应用案例
1.障碍物检测与识别
BEV+Transformer架构可在复杂交通场景中识别各类障碍物,包括车辆、行人和道路设施等。通过自注意力机制,系统能够在特征图中捕捉到环境中关键物体的位置和运动方向,并对潜在的障碍物进行跟踪检测,有助于及时生成避障方案。
2.路径预测与动态规划
在路径预测方面,BEV+Transformer架构通过学习环境中各参与者的运动特征,预测车辆和行人等的行驶轨迹。这种全局化预测在车流密集的场景中尤为重要,能够帮助自动驾驶系统提前分析其他交通参与者的行为趋势,从而制定更安全、顺畅的行驶路径。
3.车道线识别与辅助驾驶
在高速公路或复杂路口,车辆需要精准识别车道线以保持在车道内行驶。传统摄像头的识别易受光线和视角影响,而BEV+Transformer结合了全方位的鸟瞰图,确保了在恶劣条件下也能稳定识别车道线,使车辆在变道或急转弯时更安全。
BEV+Transformer的优势
1.全局视角与空间理解能力
BEV视角带来了全局性的环境感知能力,能够减少车辆周围盲区。Transformer的自注意力机制则增强了系统的空间理解能力,在BEV特征图中识别出场景内物体的长距离关系,使得自动驾驶系统对复杂环境的认知更全面。
2.多模态数据的统一融合
BEV+Transformer架构能够在统一的特征图中处理多传感器信息,提升了感知的精度。例如,图像与点云数据经过前期融合后,再经由Transformer分析,大大减少了因多传感器不一致而产生的误差,从而提升了模型的鲁棒性。
3.有效的预测能力
Transformer在视觉任务中展现出的强大预测能力,使BEV+Transformer架构可以更准确地预测其他车辆、行人的行为。尤其在动态交通场景中,Transformer结合BEV信息能提供精细的路径预测,帮助自动驾驶系统提前识别潜在风险。
BEV+Transformer的局限性与挑战
1.计算资源需求与实时性挑战
Transformer的自注意力机制对计算资源需求较大,尤其是在处理多传感器融合数据时,可能会导致推理延迟问题。自动驾驶系统需要达到毫秒级响应速度,这对计算资源提出了高要求。一些优化技术(如分块自注意力)可以减小负担,但实现高效实时推理仍是挑战。
2.传感器精度和同步性依赖
BEV+Transformer的表现高度依赖传感器的精度与同步性。在复杂环境中,天气、遮挡、反射等因素可能导致传感器获取的信息出现偏差,从而影响BEV视角的准确性。传感器误差会使Transformer的分析结果不可靠,影响系统的整体表现。
3.复杂交通场景的鲁棒性
BEV+Transformer在高动态交通场景下(如城市密集路段)可能受到影响,因为这些场景包含大量动态物体及不确定因素。在应对恶劣天气、光线变化及不同国家的道路标志差异时,BEV+Transformer的鲁棒性仍需进一步验证和优化,以保证系统能适应多样化的场景。
结语
BEV+Transformer架构为自动驾驶领域带来了新的技术突破。通过结合鸟瞰视角的全局信息和Transformer的自注意力机制,该架构显著提升了感知精度和决策支持能力。然而,要在实际道路场景中实现其广泛应用,还需克服计算资源、传感器同步性等方面的挑战。未来,随着硬件技术的进步和算法优化,BEV+Transformer有望成为自动驾驶系统的重要组成部分,为完全自动驾驶奠定坚实的技术基础。
#GenXD
通用场景拉满了!生成任何3D&4D场景(新加坡国立&微软最新)
近年来,利用扩散和自回归建模生成2D视觉内容已经取得了显著成功,并已在实际应用中进行广泛使用。除了 2D 生成之外,3D 内容生成也至关重要,可应用于视频游戏、视觉效果和可穿戴混合现实设备。然而,由于 3D 建模的复杂性和 3D 数据的局限性,3D 内容生成仍然远远不能令人满意,并且正在引起学术界和工业界越来越多的关注。
之前大多数的研究工作主要聚焦于使用合成的目标数据实现3D和4D内容的生成。合成的目标数据通常是网格,从而允许研究人员从任何的视角来渲染图像和其他的3D信息。然而,目标生成对领域专家的益处远远大于大众。相比之下,场景级的生成可以帮助每个人用更加丰富的内容来增强他们的图像以及视频。因此,最近的研究探索了单一模型中的一般 3D 生成,并取得了令人印象深刻的生成性能。尽管如此,这些研究工作仅关注静态 3D 生成,而没有解决动态的问题。
考虑到 4D 生成面临的首要挑战是缺乏通用 4D 数据。在这项工作中,我们提出了 CamVid-30K数据集,其中包含大约 30K 个 4D 数据样本。4D 数据需要多视图空间信息和时间动态,因此我们转向视频数据来获取必要的 4D 数据。
此外,我们也提出了一个统一的框架 GenXD,用于在单个模型中处理 3D 和 4D 生成,能够从不同视角和时戳生成任意数量的条件图像,其生成的部分内容如下图所示。
此外,我们对各种现实世界和合成数据集进行了广泛的实验和评估,证明了与之前的 3D 和 4D 生成方法相比,我们提出的GenXD算法模型具有更好的有效性和多功能性。
论文链接:https://arxiv.org/pdf/2411.02319
GenXD网络结构&技术细节梳理
生成模型
由于大多数的场景级3D和4D数据通过视频获得,因此这些数据缺少明确的表示。所以,我们采用一种生成与空间相机姿势和时间戳步长对齐的图像的方法。具体而言,我们将扩散模型纳入到我们的框架当中,引入额外的多视图时域层,包括多视图时序ResBlocks和多视图时序Transformer,以解耦和融合3D和时序信息,下面是我们提出的GenXD的整体网络结构图。
Mask Latent Conditioned Diffusion Model
GenXD利用LDM来同时生成不同相机视点和时间的图像。LDM首次使用VAE将图像/视频编码为latent code,记作,然后利用高斯噪声扩散latent code得到。然后利用去噪模型来估计噪声并逆转扩散过程,其条件如下:
GenXD 生成具有相机姿势和参考图像的多视图图像和视频,因此它需要相机和图像条件。相机条件对于每幅图像都是独立的,无论是 条件性的还是有针对性的。因此,很容易将其附加到每个潜在图像中。在这里,我们选择Plucker射线作为相机条件
Plucker 射线是一种密集嵌入编码,不仅编码了像素信息,还编码了相机位姿和内在信息,相比于全局相机而言更具有优势。参考图像条件更为复杂。GenXD 旨在通过单视图和多视图输入进行 3D 和 4D 生成。单视图生成要求较低,而多视图生成结果更一致。因此,将单视图和多视图生成结合起来将带来更好的实际应用。
然而,之前的相关研究工作通过将潜在条件连接到目标潜在条件,并通过交叉注意力合并CLIP模型的图像嵌入来生成图像。连接方式的改变需要更改模型的通道,无法处理任意输入视图。CLIP嵌入可以支持多种条件。然而,这两种方式都无法对多种条件的位置信息进行建模,也无法对输入视图之间的信息进行建模。鉴于这种局限性,我们利用掩码作为潜在条件来处理图像条件。如上图所示,我们使用VAE编码器之后,对目标帧应用前向扩散过程,使用条件保持原样。然后通过去噪模型估计两帧上的噪声,并通过后向过程进行去除。
掩码潜在条件有三个主要优点。首先,模型可以支持任何输入视图而无需修改参数。其次,对于序列生成(多视图图像或视频),我们不需要限制条件帧的位置,因为条件帧在序列中保持其位置。相反,许多工作要求条件图像在序列中的固定位置(通常是第一帧)。第三,如果没有来自其他模型的条件嵌入,可以删除用于集成条件嵌入的交叉注意层,这将大大减少模型参数的数量。为此,我们在GenXD算法模型中利用掩码潜在条件方法。
MultiView-Temporal Modules
由于GenXD旨在在单个模型中生成 3D 和 4D 样本,因此我们需要将多视图信息与时间信息区分开来。我们在不同的层中对这两种类型的信息进行建模:多视图层和时间层。对于 3D 生成,不考虑时间信息,而 4D 生成则需要多视图和时间信息。因此,在我们提出的GenXD算法框架当中,我们提出了一种用于4D生成的融合策略。具体而言,我们为 4D 生成引入了一种可学习的融合权重。对于 3D 生成而言,设置为0。使用融合策略,GenXD算法模型可以在多视图层中为 3D 数据保留多视图信息,同时从 4D 数据中学习时间信息。
融合可以有效地解开多视图和时间信息。然而,没有任何提示,运动的控制性较差。视频生成模型使用 FPS 或运动 ID 来控制运动的幅度,而不考虑相机的运动。得益于 CamVid-30K 数据集中的运动强度,我们可以有效地表示物体的运动。由于运动强度是一个常数,我们将其与扩散时间步长相结合并将其添加到时间 Resblock 层。借助多视图时间模块,GenXD 可以有效地进行 3D 和 4D 生成。
3D表达生成
GenXD 可以使用一个或多个条件图像生成具有不同视点和时间步长的图像。但是,为了呈现任意的 3D 一致视图,我们需要将生成的样本提升为 3D 表示。以前的工作通常通过从生成模型中提取知识来优化 3D 表示。由于 GenXD 可以生成高质量且一致的结果,我们直接使用生成的图像来优化 3D 表示。具体来说,我们利用 3D Gaussian Splatting 和 Zip-NeRF 进行 3D 生成,利用 4D Gaussian Splatting (4D-GS) 进行 4D 生成。
CAMVID-30K数据集介绍
由于缺乏大规模 4D 场景数据限制了动态 3D 任务的发展,包括但不限于 4D 生成、动态相机姿势估计和可控视频生成。为了解决这个问题,我们在本文中引入了一个高质量的 4D 数据集。首先,我们使用基于结构运动 (SfM) 的方法估计相机姿势,然后使用所提出的运动强度过滤掉没有物体运动的数据,整个流程如下图所示。
相机位姿估计
相机姿态估计基于SfM,它从一系列图像中的投影重建 3D 结构。SfM 涉及三个主要步骤:(1) 特征检测和提取,(2) 特征匹配和几何验证,(3) 3D 重建和相机姿态估计。在第二步中,匹配的特征必须位于场景的静态部分。否则,在特征匹配期间,物体移动将被解释为相机移动,这会损害相机姿态估计的准确性。为了获得准确的相机姿势,必须分割所有移动像素。在这种情况下,假阳性错误比假阴性更容易接受。为了实现这一点,我们使用实例分割模型来贪婪地分割所有可能移动的像素。在分割出可能移动的像素后,我们使用 Particle-SfM估计相机姿态,以获得相机信息和稀疏点云。
目标运动估计
虽然实例分割可以准确地将物体与背景分开,但它无法确定物体本身是否在移动,而静态物体会对运动学习产生负面影响。因此,我们引入了运动强度来识别真正的物体运动,并过滤掉只有静态物体的视频。
由于摄像机运动和物体运动都存在于视频中,因此基于 2D 的运动估计方法无法准确表示真实的物体运动。有两种方法可以捕捉真实的物体运动:通过测量 3D 空间中的运动或通过将视频中的运动投影到同一台摄像机。这两种方法都需要与摄像机姿势比例对齐的深度图。稀疏深度图可以通过投影 3D 点云到相机视角来获得
由于在 3D 重建过程中仅匹配静态部分的特征,因此我们只能获得静态区域的稀疏点云。然而,动态部分的深度信息对于估计运动至关重要。为了解决这个问题,我们利用预先训练的相对单目深度估计模型来预测每帧的相对深度,然后我们应用比例因子和移位来使其与 SfM 稀疏深度对齐
有了对齐的深度,我们可以将帧中的动态目标投影到 3D 空间中,从而提供一种直接测量目标运动的方法。如上图 (b) 所示,如果目标(例如,穿绿色衬衫的人)正在移动,则投影的 3D 点云中将发生位移。但是,由于 SfM 的运行范围很广,因此直接在 3D 空间中测量运动可能会导致幅度问题。因此,我们将动态目标投影到相邻视图中并估计目标运动场。
具体来说,我们首先需要在 2D 视频中找到匹配点。我们不使用光流等密集表示,而是为每个目标实例采样关键点,并在 2D 视频中使用视频目标分割和关键点跟踪来建立匹配关系。然后将每个关键点投影到相邻帧中。首先将第帧中的关键点反向投影到世界空间,以获得 3D 关键点。
有了每个物体的运动场,我们可以通过平均运动场的绝对幅度来估计物体的全局运动。对于每个视频,运动强度由所有物体中的最大运动值表示。如下图所示,当相机移动而物体保持静止时(第二个示例),与有物体运动的视频相比,运动强度明显较小。使用运动强度,我们进一步过滤掉缺乏明显物体运动的数据。
实验结果&评价指标
4D生成实验结果
我们将 GenXD 与开源相机条件视频生成方法进行了比较,我们使用Stable Video Diffusion作为baseline模型,并利用摄像机轨迹和第一帧条件生成视频,相关的实验结果如下表所示。
以第一视图为条件,GenXD 在两个指标上均明显优于 CameraCtrl 和 MotionCtrl。此外,以 3 个视图(第一帧、中间帧和最后一帧)为条件,GenXD 的表现远远优于之前的作品。这些结果证明了 GenXD 在 4D 生成上的强大泛化能力。
此外,为了直观的展现出GenXD算法模型的性能,我们将相关的生成结果展示在下图中。我们比较了三种方法的定性结果。在这个例子中,MotionCtrl 无法生成明显的物体运动,而 CameraCtrl 生成的视频既不是 3D 的也不是时间一致的。相反,我们的单视图条件模型可以生成流畅且一致的 4D 视频。通过 3 个条件视图,GenXD 可以生成非常逼真的结果。
3D生成实验结果
对于少视图 3D 重建设置,我们在分布内和分布外数据集上评估 GenXD。我们从 Re10K 中选择了 10 个场景,在 LLFF 中选择了所有 8 个场景,每个场景中的 3 个视图用于训练。使用渲染测试视图上的 PSNR、SSIM 和 LPIPS 指标评估性能。作为生成模型,GenXD 可以从稀疏输入视图中生成附加视图,并提高任何重建方法的性能。在这个实验中,我们利用了两种基线方法:Zip-NeRF 和 3D-GS。这两个基线是多视图重建的方法,因此我们调整超参数以实现更好的少视图重建。如下表所示,Zip-NeRF 和 3D-GS 都可以使用 GenXD 生成的图像进行改进,并且 Zip-NeRF 基线的改进更为显著。具体来说,Re10K(分布内)和 LLFF(分布外)上的 PSNR 分别提高了 4.82 和 5.13。
更加直观的展示结果如下图所示,使用生成的视图,重建场景中的浮动物和模糊减少了。
结论
在本文中,我们提出了GenXD算法模型来处理一般的 3D 和 4D 内容生成。GenXD 可以利用多视图时间模块来解开相机和物体的移动,并且能够通过掩码潜在条件来支持任意数量的输入条件视图。提出的GenXD算法模型可以处理多种应用,并且可以通过一个模型在所有设置中实现相当或更好的性能。
#FiM
二段式端到端新SOTA!港科大FiM:从Planning的角度重新思考轨迹预测
预测行驶中的交通参与者的轨迹运动,对于确保自动驾驶系统的安全性而言,既是一项重大挑战,也是一项至关重要的需求。与大多数现有的、直接预测未来轨迹的数据驱动方法不同,我们从规划(planning)的视角重新思考这一任务,提出一种“先推理,后预测(First Reasoning, Then Forecasting)”的策略,该策略显式地将行为意图作为轨迹预测的空间引导。为实现这一目标,进一步引入了一种可解释的、基于奖励的意图推理器(intention reasoner),其建立在一种新颖的以查询为中心的逆强化学习(query-centric Inverse Reinforcement Learning, IRL)框架之上。我们的方法首先将交通参与者和场景元素编码为统一的向量化表示,然后通过以查询为中心的范式聚合上下文特征。进而推导出一个奖励分布(reward distribution)——一种紧凑但信息丰富的表示,用于刻画目标参与者在给定场景上下文中的行为。在该奖励启发式(reward heuristic)的引导下,我们进行策略 rollout,以推理多种可能的意图,从而为后续的轨迹生成提供有价值的先验信息。最后开发了一种集成双向选择性状态空间模型(bidirectional selective state space models)的分层DETR-like解码器,以生成精确的未来轨迹及其对应的概率。在大规模的Argoverse和nuScenes运动预测数据集上进行的大量实验表明,我们的方法显著提升了轨迹预测的置信度,在性能上达到了与当前最先进方法相当甚至更优的水平。
- 论文链接:https://arxiv.org/abs/2507.12083
简介
轨迹预测是自动驾驶系统的关键组成部分,它连接了上游的感知模块和下游的规划模块。准确预测周围交通参与者未来的运动,需要对未知的意图进行推理,因为驾驶行为本质上具有不确定性和多模态特性。
大多数现有的数据驱动运动预测模型采用模仿学习(imitative)方法,要么直接回归轨迹,要么基于训练数据集中的数据分布对终点进行分类。然而,这些方法通常对驾驶行为的考虑不足,限制了其可解释性和可靠性。尽管许多方法在基准测试指标上表现出色,但很少有方法能显式地对未来的意图进行推理,这在现实应用中生成可解释且鲁棒的多模态预测时,形成了一个关键瓶颈。
相比之下,人类驾驶员通常以分层的方式操控车辆,先做出高层次决策(例如变道或超车),再执行具体的运动策略。我们可以将自车(ego vehicle)的预测模块视为在为其他参与者进行规划,前提是假设道路使用者的行为是理性的。尽管轨迹预测与规划之间存在内在联系,但很少有研究探索来自规划领域的洞见。受这些观察的启发,我们提出了一个关键问题:能否从规划的视角来处理轨迹预测任务,并通过引入意图推理能力来加以增强?
为此,我们提出一种“先推理,后预测(First Reasoning, Then Forecasting)”的策略,其中行为意图推理为准确且可信的多模态运动预测提供了关键的先验指导。以超车场景为例:一个能够提前显式推理出“超车”和“保持车道”两种意图的模型,相比没有进行推理而直接预测的模型,能够生成更可靠的预测结果,如图1所示。
此外,结合更长期的意图推理可以进一步提升预测的置信度(见表2)。
然而,由于驾驶场景固有的复杂性,仅依赖手工设计的规则或预定义的规划器来进行未来意图推理仍然具有挑战性。一种有前景的替代方案是利用大型推理模型(Large Reasoning Models, LRMs)(如OpenAI-o1)在轨迹预测器中实现意图推理。然而,它们巨大的计算需求使其在车载驾驶系统中不切实际。幸运的是,LRMs的最新进展表明,强化学习(RL)技术在数学和编程等领域展现了卓越的推理能力,这引发了一个有趣的问题:能否利用基于RL的范式来推理轨迹预测中参与者的未来意图?
在这方面,我们探索了将RL范式应用于建模自动驾驶场景中参与者行为推理的可行性。我们将任务形式化为一个马尔可夫决策过程(Markov Decision Process, MDP),并据此定义目标参与者的行为意图。为了在性能和计算效率之间取得平衡,我们构建了一个网格级图(grid-level graph)来表示场景布局,其中意图被定义为在离散网格世界中的一系列决策,类似于传统RL语境中的“规划”。本文将这种意图序列称为基于网格的推理遍历(Grid-based Reasoning Traversal, GRT)。
然而,将RL应用于轨迹预测的一个根本性挑战在于如何建模奖励(reward),因为参与者的意图是未知的。
为克服这一挑战,我们提出了一种基于最大熵逆强化学习(Maximum Entropy Inverse Reinforcement Learning, MaxEnt IRL)的奖励驱动意图推理器。该框架首先通过IRL,从专家示范(demonstrations)和相关驾驶上下文中学习参与者特定的奖励分布。所学习到的奖励作为一种紧凑的表示,捕捉了参与者的可观测行为及其潜在意图。利用这些推断出的奖励作为启发式信息,我们随后进行策略rollout,以采样多种可能的GRT,并提取其对应的、以意图为指导的特征,从而为轨迹预测提供先验指导,进而提高预测的准确性和置信度。
此外,为了进一步增强从场景上下文中提取特征的能力,提出了一种新颖的以查询为中心的IRL框架(Query-centric IRL, QIRL),该框架将IRL与一种基于查询的编码机制相结合。QIRL能够高效且灵活地将向量化场景上下文特征聚合到类似空间网格的token中,便于进行结构化推理。
通过这种密集的网格表示,我们在模型中增加了一个辅助的占用网格图(Occupancy Grid Map, OGM)预测头,该模块能够对场景中每个参与者未来的时空占用进行密集预测。这一辅助任务通过捕捉参与者之间的未来交互,有效增强了特征融合过程,从而提升了整体预测性能(见表7)。
最后为了充分利用意图推理器提供的特征,开发了一种分层的DETR-like轨迹解码器。一个无锚点(anchor-free)的轨迹token首先基于GRT推导出的特征生成初始提议(proposals),这些提议随后作为最终轨迹解码的初始化锚点。考虑到轨迹状态固有的序列性质,以及选择性状态空间模型(Mamba)在长时程、结构化动态建模方面的最新进展,引入了一种双向变体——Bi-Mamba,以有效捕捉轨迹状态的序列依赖关系。这一增强显著提升了预测的准确性和置信度(见表6)。
总结来说,本文的主要贡献如下:
- 提出了一种“先推理,后预测”的策略,从规划的视角重新思考轨迹预测任务。
- 为运动预测提出了一种全新的奖励驱动意图推理器,其中QIRL模块在以查询为中心的框架下,集成了MaxEnt IRL范式和向量化上下文表示。
- 开发了一种集成双向选择性状态空间模型(Bi-Mamba)的分层DETR-like解码器,以提高预测的准确性和置信度。
- 的方法显著提升了预测置信度,并在Argoverse和nuScenes运动预测基准测试上取得了极具竞争力的性能,超越了其他最先进的模型。
相关工作回顾
自动驾驶轨迹预测
自动驾驶的轨迹预测已研究数十年。该领域的早期工作主要依赖于手工设计的基于规则或基于物理的方法,这些方法难以处理复杂场景,且缺乏进行长期预测的能力。近年来,研究方法已转向基于学习的框架,该框架利用深度神经网络来编码交通参与者的运动历史,同时整合高精地图(HD maps)的拓扑和语义信息。这些地图通常以光栅化(rasterized)或向量化(vectorized)格式表示。光栅化表示通常使用鸟瞰图(Bird’s-Eye-View, BEV)图像作为输入,而向量化表示则依赖于参与者和地图的折线(polylines)作为输入。卷积神经网络(CNNs)和图神经网络(GNNs)被广泛用作这些格式的特征提取器,在编码场景上下文方面发挥着关键作用。最近,基于Transformer的架构因其能够提升整体预测性能而受到广泛关注。顺应这一趋势,我们的工作采用了向量化表示,并利用基于查询的Transformer编码器-解码器结构来进行特征聚合和轨迹生成。
尽管取得了这些进展,但在使轨迹预测对分布外(out-of-distribution)场景具有鲁棒性,以及对未见过的环境具有可泛化性方面,挑战依然存在。我们的工作通过从规划的视角重新思考轨迹预测任务,引入了一种基于奖励的意图推理器,以提供行为指导和上下文丰富的先验信息,从而推进轨迹预测,来解决这些不足。
奖励(Reward)
奖励是规划(planning)和强化学习(RL)中的一个基础概念,它作为一种引导信号,塑造了智能体的行为和决策过程。在规划中,奖励通常被设计为与高层目标对齐,例如在避开障碍物的同时到达目标点。通常,奖励函数是手工设计的,或通过分层框架进行塑造,其中高层规划器为低层控制器提供策略指导。关于奖励塑造(reward shaping)的研究表明,通过修改奖励结构来强调特定行为或里程碑,可以加速学习过程并提高策略的鲁棒性。
在强化学习(RL)中,奖励函数扮演着核心角色,它定义了智能体的目标,并引导其执行能够随时间最大化累积奖励的动作。奖励函数的设计在规划和RL中都至关重要;然而,为复杂任务(如自动驾驶)设计有效的奖励函数极具挑战性。为了解决这一挑战,逆强化学习(Inverse RL, IRL)被提出。IRL专注于从观察到的专家示范(expert demonstrations)中推断出奖励函数,这在直接定义奖励函数不可行的场景中尤其有价值。例如,最大熵逆强化学习(MaxEnt IRL)已被广泛应用于学习能够捕捉专家行为潜在意图的奖励函数,从而使智能体能够在规划任务中复制细致入微、类似人类的决策。
尽管IRL非常有用,但现有的高效IRL算法通常针对结构化和网格状环境进行定制,这限制了它们在更复杂领域中的灵活性。为了克服这一局限性,我们提出了一种新颖的以查询为中心的框架(query-centric framework),该框架增强了MaxEnt IRL在我们基于奖励的意图推理器中的适用性和灵活性。通过利用这一范式,我们的方法提供了有价值的奖励启发式信息,能够有效推理未来行为的意图,为解决运动预测任务固有的复杂性提供了信息丰富的先验。
算法详解
问题定义
标准轨迹预测任务的目标是,在给定驾驶上下文的情况下,预测目标参与者在未来时间范围 内的位置。我们采用向量化表示作为场景输入,包括历史观测状态 ,其中 表示场景中的参与者数量, 表示过去的时间戳数量, 捕捉位置、速度、航向等运动特征,以及高精地图(HD map)信息 ,其中 和 分别对应车道中心线和车道段的数量, 表示相关的车道属性。
我们的方法采用以目标为中心的坐标系,通过平移和旋转操作,将所有输入元素归一化到目标参与者当前的状态。鉴于运动意图的内在不确定性,预测器的任务是提供 条未来的轨迹 ,以及对应的概率 。
框架概述
如图2所示,我们的运动预测方法采用了一种编码器-解码器结构,该结构包含一个以查询为中心的场景上下文编码器、一个由Mamba增强的分层轨迹解码器,以及一个奖励驱动的意图推理器。
首先以向量化格式表示驾驶上下文,并利用参与者和地图编码器提取场景特征。然后,通过交叉注意力机制将这些融合后的特征聚合到空间网格token中。接着,在QIRL模块中,利用一种基于网格的MaxEnt IRL算法推断奖励分布,从而通过策略rollout在2D网格地图上推理出多种可能的意图序列(即GRTs)。此外,我们引入了一个用于时空占用网格图(S-T OGM)的密集预测头,以建模参与者之间的未来交互。最后,我们引入了一种分层的DETR-like轨迹解码器,该解码器生成轨迹提议,这些提议经过进一步的聚类和优化,最终生成由Bi-Mamba架构增强的多模态未来轨迹。
以查询为中心的上下文编码
给定向量化的参与者表示 和地图表示 ,我们首先将它们分别标记化为独立的特征集。具体来说,我们使用一个参与者编码器——一个简单的1D CNN模型——来获得参与者特征 。对于地图编码器,我们采用类似PointNet的网络来提取静态地图特征 。
然后,将得到的参与者和地图特征连接起来,形成上下文token ,并随后通过一个自注意力块来增强特征融合。
由于推理过程依赖于网格级图表示,我们引入了可学习的网格状查询 来整合场景特征,其中 和 定义了鸟瞰图(BEV)平面的空间维度。每个位于网格位置 的查询 对应现实世界中的一个特定区域,分辨率为 。然后,我们使用带有2D空间可学习相对位置编码的展平网格查询,通过交叉注意力机制来聚合上下文token。
奖励驱动的意图推理
在用上下文特征更新了网格token之后,我们首先通过我们的QIRL框架生成奖励分布,该框架在以查询为中心的范式下,调整了传统的基于网格的MaxEnt IRL算法。MaxEnt IRL通常被定义为一个有限的马尔可夫决策过程(MDP)模型,包含状态空间、动作空间和转移模型。其目标是恢复环境的奖励分布,以生成一种策略,该策略通过最大化示范数据的对数似然,同时遵循最大熵原则,来模仿专家示范。示范由离散状态序列组成,奖励通常被公式化为环境特征的组合。学习过程涉及在每次奖励迭代内进行内循环的前向RL过程,直到损失 收敛。
QIRL。 在我们的QIRL框架中,每个网格 充当一个状态,其对应的查询 表示上下文特征。我们使用1×1 CNN层的堆叠从网格token中聚合特征,以建立从驾驶上下文到奖励 的非线性映射。未来的轨迹被量化到分辨率 以形成专家示范状态,如果可用,还可以包含路径以捕捉长期信息。随后,应用MaxEnt IRL算法来推导出收敛的奖励分布以及一个最优策略。
然后基于由奖励启发式诱导的策略执行rollout。我们在网格地图上并行执行 次rollout,产生多个可能的GRTs作为意图序列,,其中 表示规划范围。为了更好地捕捉多模态未来分布,我们设置 。然后根据采样的GRT提取网格token:对于采样GRT中与网格单元状态 关联的每个位置 ,在 步中依次选择对应的网格token 。这些网格token构成了推理token 。GRT位置 及其相关的推理token 作为有价值的行为意图先验,用于指导后续的运动预测。
辅助的S-T OGM预测头。 利用网格状的密集表示,我们引入了一个辅助的S-T OGM预测头来建模参与者之间的未来交互,从而增强场景上下文特征的融合和聚合。我们将占用图以二进制形式表示,其中在未来的 个时间戳上鸟瞰图(BEV)中被占据的网格单元被设为1,未被占据的单元被设为0。我们的OGM生成器以融合后的网格token 和奖励 作为输入,并使用类似U-Net的架构生成 个未来时间戳上的OGM。
Mamba增强的轨迹解码
给定 个可能的推理先验,我们首先使用一个DETR-like的轨迹生成器生成 条轨迹作为提议。我们分别通过简单的MLP块对GRT位置 和推理token 进行编码,然后通过基于MLP的特征融合网络进行连接和处理,形成最终的推理token 。
接下来,我们引入一个anchor-free的可学习轨迹提议查询 ,使其通过交叉注意力机制关注来自意图推理器的先验特征 。然后,该提议查询通过一个由MLP块组成的回归头被解码为 个轨迹提议。我们应用K-means算法将这些提议聚类为 个多模态轨迹提议 。随后,我们使用一种基于锚点的轨迹优化方法(如许多现有的运动预测器中所用),以进一步提升轨迹查询的预测性能。每个轨迹提议作为显式的锚点先验,被重新编码为轨迹查询 ,该查询通过类似DETR的架构检索原始上下文特征,该架构与轨迹提议生成中使用的架构类似。这种分层的无锚点提议生成与基于锚点的优化过程相结合,最终得到一个轨迹查询,该查询集成了奖励驱动的意图和详细的场景上下文。
Bi-Mamba解码器。 由于轨迹token 在时间和空间域都具有显著的序列特性,我们采用一种选择性状态空间模型来捕捉轨迹查询序列内的耦合关系,这受到Mamba架构在序列建模方面近期成功的启发。具体来说,我们采用一个Bi-Mamba模型来处理轨迹token,利用其双向扫描机制来实现更全面的信息捕获。在这个由Bi-Mamba增强的解码过程中,我们预测轨迹偏移量 和每个假设的概率 。
为了更好地利用Bi-Mamba结构的双向能力,我们设计了一个可学习的双模态查询 ,其中包含两个分类(CLS)token。如图3所示,这两个token(CLS1和CLS2)分别被附加在轨迹查询 的前面和后面。这两个token分别聚合了后向和前向特征,与使用单个分类token的单向Mamba相比,实现了更全面的融合,这一点在我们的消融实验结果中得到了验证(见表7)。在Bi-Mamba处理之后,两个CLS token通过逐元素相加进行特征融合。然后,一个模态自注意力模块使不同模态之间能够交互,进一步增强了预测的多模态性。最后,模态token通过softmax函数进行分类以生成概率,而序列轨迹token则通过回归头解码以生成轨迹偏移量。
最终的预测轨迹 通过将轨迹提议 与其对应的偏移量 相加得到,如下所示:
训练目标
我们的整个流程包含多个训练目标。奖励驱动的意图推理器包括两个子任务目标:QIRL和OGM生成器。QIRL目标采用 ,而OGM生成器(记为 )则使用focal BCE损失。
对于轨迹解码器,训练目标包括回归损失 和分类损失 。为了优化轨迹回归,我们对轨迹提议和优化后的轨迹都应用Huber损失。此外,为了解决模态坍塌(mode collapse)问题,我们采用了一种“胜者通吃”(winner-takes-all)策略(在类似工作中常用),其中仅选择位移误差最小的候选者进行反向传播。对于模态分类,我们采用最大间隔损失(max-margin loss),遵循的方法。
整体损失 集成了这些组件,可以进行端到端的优化:
其中 、 和 是用于平衡每个训练目标的超参数。
实验结果分析
数据集(Datasets:Argoverse 1、Argoverse 2和nuScenes。
与SOTA对比
我们在Argoverse 1、Argoverse 2和nuScenes运动预测数据集上,对我们的方法与最先进的方法进行了全面的比较。为简洁起见,我们将我们的方法简称为FiM(Foresight in Motion)。
Argoverse 1。表1展示了在Argoverse 1测试集上的定量结果。我们将我们的FiM与在此具有挑战性的基准上评估的几个代表性已发表方法进行了比较。根据单模型结果(上半部分),FiM相较于强大的基线方法(包括直接轨迹预测模型如HiVT和SceneTransformer,以及基于目标的模型如DSP和DenseTNT)都取得了极具竞争力的性能。FiM在Brier分数、brier-minFDE6和MR6方面表现尤为出色,突显了其强大的预测能力。
我们还应用了模型集成技术来进一步提升整体性能。集成结果(下半部分)显示出显著的性能提升,表明了我们所提出框架的巨大潜力和上限能力。与HPNet和Wayformer等其他领先的已发表方法相比,FiM在各项评估指标上均保持了有竞争力的性能,尤其是在Brier分数上表现突出。这一结果强调了我们通过推理增强的预测器能够有效地生成更可靠、更自信的预测。
Argoverse 2。为了进一步验证我们意图推理策略的有效性,我们基于Argoverse 2的验证集构建了一个定制的评估基准。具体来说,任务要求预测前30个未来位置,而在训练期间,模型可以将后续的30个位置专门用作辅助的意图监督信号。值得注意的是,所有模型在训练轨迹生成时,其监督信号都严格限定在前30个未来位置。这种设置模拟了实际应用中长期路径可用于意图学习的场景。鉴于我们提出的QIRL模块对监督格式(无论是轨迹还是路径)是无感的,我们开发了三个模型变体,它们在GRT训练中引入了不同时间范围的未来监督。这些变体分别记为GRT-S、GRT-M和GRT-L,对应的推理模块分别使用30、45和60个未来时间戳进行训练。
我们将我们的FiM与Argoverse 2排行榜上表现最好的两个开源模型DeMo和QCNet进行了比较。如表2所示,所有FiM变体都超越了这两个强大的基线模型,证明了意图推理模块带来的显著增益。此外,结果进一步表明,更长期的意图监督能显著增强预测置信度,从而促进更可靠的轨迹预测。
nuScenes。我们还在nuScenes数据集上评估了FiM,结果如表3所示。我们的模型在此预测基准上表现出顶级性能,超越了排行榜上所有当前的条目,进一步验证了我们所提出框架在应对复杂运动预测挑战方面的鲁棒性和先进能力。
消融实验
我们在Argoverse验证集上进行了深入的消融研究,以评估我们方法中关键组件的有效性,所有实验设置保持一致以确保公平比较。
奖励启发式的效果(Effects of Reward Heuristics)。我们首先通过从流程中移除推理分支来检验奖励驱动意图推理器的有效性。如表4所示,与我们的完整模型相比,基础架构(Vanilla)的性能显著下降,这突显了推理过程对整体性能的关键贡献。此外,我们通过用交叉注意力块替换QIRL模块来探究其特定影响。表4的结果显示,我们的QIRL模块远优于这种替代方案,证明了QIRL能够有效收集关键的意图先验,并为后续的运动预测提供有益的指导。
OGM与优化模块的效果(Effects of the OGM & Refinement)。我们进一步通过分别消融辅助的时空占用网格图(S-T OGM)模块和优化模块来评估其影响,如表5所示。这两个模块都对最终性能做出了显著贡献。特别是,OGM带来的性能提升证实了建模未来交互能够增强预测质量,突显了意图推理对于改进轨迹预测的重要性。
Mamba解码器组件的效果(Effects of Components in Mamba-Based Decoder)。我们对各种解码器组件进行了消融分析,以检验Mamba-like结构相对于传统方法的优势。此分析有助于确定该设计是否为轨迹解码带来了有意义的特征提取增强,还是构成了过度设计。表6的结果突显了这一设计的优势。与使用MLP作为回归和分类头相比,Bi-Mamba架构和不同模态间的自注意力机制都显著提升了预测性能和置信度。此外,我们研究了为分类提出的双模态token的效果,并将其与一个使用单个模态token来聚合轨迹查询特征的单向Mamba模型进行比较。如表7所示,Bi-Mamba模型表现更优,得益于其前向-后向扫描机制,该机制能有效地将轨迹特征融合到两个分类(CLS)token中,验证了该设计的好处。我们还考察了不同Mamba层数深度的影响,如表8所示。结果表明,更深的层数可能会引入不必要的计算开销,并且由于过拟合也可能导致性能下降,这凸显了选择最优层数配置以实现强大性能的重要性。
定性结果
我们在Argoverse验证集的多种交通场景中展示了我们所提出方法的可视化结果,如图4所示。这些定性结果强调了我们的模型在各种条件下(包括复杂路口和长距离预测场景)生成准确、可行且多模态的未来轨迹的强大能力,这些轨迹与场景布局保持了良好的对齐。
结论
在本研究中,我们从规划的视角重新构想了轨迹预测任务,并提出了一种“先推理,后预测”的策略。我们提出了一种新颖且可解释的奖励驱动意图推理器,该推理器设计于一个以查询为中心的逆强化学习(QIRL)框架之内。该框架通过以查询为中心的流程,将最大熵逆强化学习(MaxEnt IRL)范式与向量化上下文表示相结合,从而为后续的轨迹生成有效地提供了信息丰富的意图先验。
此外,我们引入了一种集成了双向选择性状态空间模型(Bi-Mamba)的分层DETR-like轨迹解码器。该解码器能够捕捉轨迹状态的序列依赖关系,显著提升了预测的准确性和置信度。实验结果表明,我们的推理增强型预测器具备强大的能力,能够生成与场景布局高度吻合的、自信且可靠的未来轨迹,并在性能上达到了与现有最先进模型相当甚至更优的水平。此外,我们的工作强调了意图推理在运动预测中的关键作用,证实了强化学习(RL)范式在建模驾驶行为方面的可行性,并为未来在轨迹预测领域的研究建立了一个极具前景的基线模型。
#CRUISE
清华等提出:用高斯泼溅打造可编辑的V2X数字孪生世界
车路协同(V2X)是实现高级别自动驾驶的关键技术,它通过车辆与路侧基础设施的通信,为车辆提供超越自身传感范围的“上帝视角”。然而,如何高效地生成海量的、多样化的、且包含车路协同视角的仿真数据,以训练和测试自动驾驶算法,一直是该领域的一大挑战。
近日,一篇被机器人顶会IROS 2025接收的论文《CRUISE: Cooperative Reconstruction and Editing in V2X Scenarios using Gaussian Splatting》为此提供了一个强大的解决方案。该研究由清华大学、北京理工大学、南洋理工大学、中国人民大学、北京工业大学、百度、北京大学、上海人工智能实验室、西湖大学、北京智源人工智能研究院等众多顶尖机构联合完成。他们提出了一个名为CRUISE的综合性框架,首次利用分解式高斯泼溅(decomposed Gaussian Splatting)技术,不仅能高保真地重建真实世界的V2X场景,还能对其进行灵活的编辑和增强,为V2X感知算法的开发打开了新思路。
- 论文标题: CRUISE: Cooperative Reconstruction and Editing in V2X Scenarios using Gaussian Splatting
- 作者团队: Haoran Xu, Saining Zhang, Peishuo Li, Baijun Ye, Xiaoxue Chen, Huan-ang Gao, Jv Zheng, Xiaowei Song, Ziqiao Peng, Run Miao, Jinrang Jia, Yifeng Shi, Guangqi Yi, Hang Zhao, Hao Tang, Hongyang Li, Kaicheng Yu, Hao Zhao
- 所属机构: 清华大学、北京理工大学、南洋理工大学、中国人民大学、北京工业大学、百度、北京大学、上海人工智能实验室、西湖大学、北京智源人工智能研究院
- 论文地址: https://arxiv.org/pdf/2507.18473v1
- 项目地址: https://github.com/SainingZhang/CRUISE
- 录用会议: IROS 2025
研究背景与意义
高质量的数据是驱动自动驾驶技术发展的燃料。尤其是在V2X场景中,算法需要同时处理来自车辆自身(ego-vehicle)和路侧单元(infrastructure)的多种数据,这对数据的规模和多样性提出了极高的要求。传统的仿真方法或者数据采集方式,在生成可编辑、高保真且视角协同的V2X数据方面存在诸多局限。
CRUISE框架的提出,旨在填补这一空白。它不仅仅是一个场景重建工具,更是一个功能强大的“世界编辑器”和“数据生成器”,能够以极高的效率和灵活性,为V2X研究创造近乎无限的可能。
如上图所示,编辑后的重建场景可同时从主车与路侧视角渲染,生成高保真V2X数据集以供下游任务使用。
核心方法:CRUISE框架
CRUISE的核心工作流可以分为重建、编辑和生成三个主要阶段。
CRUISE工作流详解
1. 分解式高斯泼溅重建 (Decomposed Gaussian Splatting Reconstruction)
CRUISE的基石是近年来在三维重建领域大放异彩的高斯泼溅(Gaussian Splatting, GS)技术。但与标准的GS不同,CRUISE采用一种分解式的策略。它将动态的交通参与者(如车辆)从静态的背景(如道路、建筑)中分离出来,用各自独立的高斯模型来表示。
这种分解的好处是巨大的:它使得场景中的每一个动态元素都成为了一个独立的、可编辑的“资产(asset)”,为后续的场景编辑和合成奠定了基础。
2. GPT-4o驱动的场景编辑 (Scene Editing Powered by GPT-4o)
这是CRUISE最令人兴奋的功能之一。在重建出可分解的场景后,用户可以像玩游戏一样编辑这个数字孪生世界。
场景编辑流程:利用GPT-4o生成新轨迹,并将车辆高斯资产置入场景
具体流程是:
- 建立车辆资产库: 首先,从网络或其他数据源收集车辆的多视图图像,生成一系列3D高斯车辆资产。
- 生成新轨迹: 将场景的矢量地图、自车轨迹等信息输入到GPT-4o中,让大语言模型根据交通规则和场景逻辑,生成新的、合理的车辆行驶轨迹。
- 无缝植入: 将车辆资产按照新生成的轨迹,无缝地放置到重建好的静态背景场景中。
通过这种方式,研究者可以轻松地增加交通流密度,或者创造出真实世界中难以采集到的、危险的极端情况(corner cases),如车辆突然切入、鬼探头等。
利用CRUISE生成具有挑战性的车辆遮挡corner case
3. V2X数据合成与增强 (V2X Data Synthesis and Augmentation)
完成场景编辑后,CRUISE可以从任意视角渲染出照片级的图像,并自动生成对应的3D检测框、跟踪轨迹等标注信息。至关重要的是,它可以同时渲染自车视角和路侧单元视角的图像,生成大规模、成对的V2X数据集。
由CRUISE生成的协同数据:上排为路侧视角,下排为对应的自车视角
实验结果与分析
实验结果有力地证明了CRUISE的有效性。
首先,在重建质量上,CRUISE能够高保真地还原真实世界的V2X驾驶场景。
其次,也是最重要的,使用CRUISE生成的数据进行模型训练,能够显著提升下游3D感知任务的性能。在V2X-Seq基准上,无论是仅使用自车数据、路侧数据,还是进行协同感知,3D检测和跟踪的精度都得到了明显提高。
V2X-SEQ重建结果
V2X-SEQ车辆视图三维检测的定量结果
V2X-SEQ基础设施视图三维检测的定量结果
V2X-SEQ协同视图三维检测/跟踪的定量结果
定性结果也同样令人信服,经过增强数据训练的模型,能够更准确、更鲁棒地检测出场景中的车辆。
V2X-Seq数据集协同3D检测定性结果
结果表明,采用增强数据训练可提升检测精度与车辆识别能力。
论文贡献与价值
CRUISE的问世,为V2X自动驾驶研究带来了多方面的深远价值:
- 范式革新:首次为V2X场景提供了一个集高保真重建、灵活编辑和大规模数据合成于一体的综合性框架。
- 技术突破: 巧妙地运用分解式高斯泼溅和大型语言模型,实现了对动态交通场景的精细化、语义化编辑。
- 解决数据瓶颈: 提供了一条高效、低成本的数据增强途径,尤其是在生成稀有但至关重要的corner case方面,具有不可替代的优势。
- 推动算法发展: 生成的高质量协同数据集将极大地推动V2X感知、预测和规划算法的进步。
- 开源社区:项目代码已经开源,将赋能更多研究者和开发者,共同探索V2X技术的未来。
总而言之,CRUISE不仅仅是一项技术创新,它更像是一个为自动驾驶研究者打造的“V2X元宇宙”引擎,让探索更安全、更智能的自动驾驶系统变得前所未有的高效和便捷。
#自驾场景重建色彩渲染和几何渲染
OmniRe全新升级
在自动驾驶场景的三维重建中,神经渲染技术(如高斯溅射)正扮演日益重要的角色。然而,真实世界中光照、相机参数和视角的不断变化,导致了图像间的“色彩不一致性”,这严重挑战了重建的真实感与几何精度。为解决此问题,作者们提出了一个创新的多尺度双边网格框架。该框架巧妙地统一了外观编码(Appearance Codes)和双边网格(Bilateral Grids),实现了对驾驶场景中复杂光影变化的精确建模,从而显著提升了动态场景重建的几何精度和视觉真实感。
- 论文链接:https://arxiv.org/abs/2506.05280
- 代码仓库(Github):https://github.com/BigCiLeng/bilateral-driving
- 项目主页:https://bigcileng.github.io/bilateral-driving/
图注:(a)外观编码进行全局变换,但建模能力有限。(b)双边网格支持像素级变换,能提升色彩一致性,但优化难度大。(c)本文提出的多尺度双边网格统一了前两者,实现了高效且强大的区块级变换。
动机:
凭借其高真实感的重建能力,神经渲染技术对于自动驾驶系统的开发与测试至关重要。然而,这些技术高度依赖于多视角图像间的色彩一致性(photometric consistency)。在复杂的真实驾驶场景中,光照条件、天气变化以及不同摄像头的内在参数差异,都会引入显著的色彩不一致,导致重建出错误的几何(如“浮空片”伪影)和失真的纹理。
现有的解决方案主要分为两类:
- 外观编码(Appearance Codes):该方法为每张图学习一个全局编码来校正色彩,但它只能进行整体调整,无法处理场景内的局部光影变化(如物体投下的阴影)。
- 双边网格(Bilateral Grids):该方法能够实现像素级的精细色彩调整,更灵活。但其优化过程非常复杂,在大型场景中容易出现不稳定、效果不佳等问题。
为了克服上述方法的局限性,本文提出了一个能同时拥有两者优点的全新框架。
核心贡献:
- 本文提出了一个新颖的多尺度双边网格(multi-scale bilateral grid),它无缝统一了全局的外观编码和局部的双边网格,能够根据尺度变化自适应地进行从粗到细的色彩校正。
- 通过有效解决色彩不一致性问题,本文的方法显著提升了动态驾驶场景重建的几何精度,有效抑制了“浮空片”等伪影,使重建结果更可靠。
- 本文在Waymo、NuScenes、Argoverse和PandaSet等四个主流自动驾驶数据集上进行了广泛的基准测试,结果表明本文的方法在各项指标上均优于现有方案。
- 本文的方法具有良好的通用性和兼容性。将其集成到现有的SOTA模型(如ChatSim、StreetGS)中,能一致地带来显著的性能提升
方法简述
为解决真实驾驶场景中复杂的光度不一致性(photometric inconsistency),本文提出了一种新颖、高效的真实感渲染管线。该管线的核心是一个精心设计的多尺度双边网格(Multi-Scale Bilateral Grid),它巧妙地将全局调整与局部细节增强相结合,实现了对渲染图像由粗到细的层次化色彩校正。
整个流程可以分解为以下几个关键步骤:
1)场景表示与初始渲染
首先,我们采用高斯溅射(Gaussian Splatting)技术对复杂的驾驶场景进行建模。参考最新的重建方法,场景被分解为一个混合场景图(hybrid scene graph),包含独立建模的天空、静态背景和动态物体(如车辆、行人)。通过对这个场景图进行渲染,我们得到一幅初步的图像。这幅图像虽然在几何上是准确的,但由于多摄像头、多光照环境的影响,通常带有明显的光度不一致问题,为后续的校正提供了输入。
2)多尺度双边网格校正
初步渲染的图像将被送入一个层次化的多尺度双边网格中进行处理,最终输出一幅色彩一致、观感真实的高质量图像。该过程具体如下:
- 亮度引导(Guidance Map):校正的第一步是根据输入的渲染图像生成一张单通道的亮度图(luminance-based guidance map)。这张图编码了场景中的光照分布(如阴影和高光),它将作为“向导”,指导后续网格在不同空间位置应用恰当的色彩变换。
- 层次化网格结构(Hierarchical Grid Structure):我们的框架包含一个由三个不同尺度的双边网格组成的“金字塔”:
a. 粗糙层(Coarse Grid):一个极小的网格(例如2×2×1×12),负责捕捉并校正场景级的整体光照和色调偏差。它的作用类似于一个全局的外观编码(Appearance Code),进行区块级(Patch-wise)的初步调整。
b. 中间层(Intermediate Grid):一个中等尺寸的网格(例如4×4×2×12),在前一层的基础上,进一步处理区域性的光影变化,例如大块的阴影或光斑。
c. 精细层(Fine Grid):一个尺寸较大的网格(例如8×8×4×12),进行像素级的精细微调,精确恢复物体的局部细节和材质。它的行为逼近于传统的双边网格,但优化过程更稳定。每个网格张量的最后一个维度为12,代表一个3x4的仿射颜色变换矩阵(affine color transformation matrix),用于执行色彩变换。
对于图像中的每个像素,我们通过“切片”(Slice)操作从每个层级的网格中提取一个局部的仿射变换矩阵̅。该过程通过三线性插值实现,确保了变换的平滑性:
- 由粗到细的融合校正(Coarse-to-Fine Fusion):我们的框架并非孤立地使用这三个网格,而是通过一种函数式复合(hierarchical function composition)的方式将它们串联起来。具体来说,亮度图会引导粗糙层网格先对图像进行全局校正;然后,其输出结果将作为中间层网格的输入,进行区域性修正;最后,再由精细层网格进行最终的局部细节完善:
这种逐级传递、残差式优化的策略,使得模型能够灵活且稳定地统一两种主流方法的优点,从而还原出色彩一致、几何精确的高质量3D场景。
3)优化策略与真实世界适应性
为了确保模型训练的稳定高效及其在真实世界中的应用效果,我们设计了专门的优化和渲染策略。
- 训练策略: 我们采用由粗到细的优化策略,为粗糙层网格分配较高的学习率,为精细层网格分配较低的学习率。这确保了模型首先学习全局的色彩基调,再逐步优化局部细节,增强了训练的稳定性。
- 优化目标:复合损失函数
为了稳定地训练整个模型,我们设计了一个复合损失函数,它不仅要求重建结果在外观和几何上与真值对齐,还引入了正则化项来保证学习到的色彩变换是平滑且合理的。总损失函数定义为:
λλλ
其中是核心的重建损失,结合了L1损失和结构相似性指数,共同衡量渲染图像与真值图像之间的差异;几何损失计算渲染深度图与激光雷达(LiDAR)提供的真实深度数据之间的损失,以保证几何形状的准确性;而和是为了提升图像质量和模型鲁棒性引入的正则化项。循环正则化损失() 鼓励学到的色彩变换是可逆的,从而有效约束了变换空间,防止产生伪影,保证了高质量的视觉效果:
而自适应总变分正则化()惩罚网格内部特征的剧烈变化, 使我们多尺度网格学习到的颜色变换更加平滑,并减少噪声伪影。
- 动态渲染与ISP适配: 自动驾驶系统在真实世界中会遇到动态变化的图像信号处理器(ISP)参数。为了适配这种变化,在渲染新视角图像时,我们提出了一种动态插值策略。对于一个新时间戳的图像,我们首先找到temporally closest的两个训练时间戳t1和t2。然后,对两者的粗糙和中等尺度网格进行线性插值,生成用于新图像渲染的网格,使得我们的模型能够有效适应真实世界动态变化的相机特性,显著增强了方法的实用性和鲁棒性。
实验结果
本文在Waymo、NuScenes、Argoverse和PandaSet这四个大规模自动驾驶数据集上对所提出的框架进行了全面评估。实验结果在定量和定性上都雄辩地证明了方法的先进性。
(1)定量评估:几何与外观的同时改进
在定量分析中,本文的方法在衡量三维几何形状准确性的几何度量和衡量渲染图像真实感的外观度量上,均取得了业界领先的成果。
几何精度显著提升:几何精度对于自动驾驶的安全至关重要。实验表明,本文的方法在所有测试数据集上都稳定地优于所有基线模型。以最关键的几何误差指标之一——倒角距离(Chamfer Distance, CD)为例,在Waymo数据集上,基线模型的CD为1.378,而本文的方法将其大幅降低至0.989,精度提升显著。这一优势得益于本文的模型能有效处理由色彩不一致性引起的“浮空片”(floater)等伪影。
图注:在Waymo、NuScenes等四个极具挑战性的主流数据集上,将本文的方法(Ours)与三种基线方法(包含单独使用外观编码或双边网格的方案)进行了全面对比。评估指标覆盖了几何精度(CD、RMSE)和外观真实感(PSNR、SSIM)。表格数据清晰显示,本文的方法在几乎所有数据集的所有指标上都取得了最佳成绩。以几何精度为例,在Waymo数据集上,本文的倒角距离(CD)仅为0.989,远低于基线模型的1.378。这证明了本文的方法在生成高精度三维模型方面的卓越能力。
外观真实感刷新SOTA:在外观保真度上,本文的方法在PSNR(峰值信噪比)和SSIM(结构相似性)指标上同样表现出色,在所有数据集的全图像重建中均取得了最高分。特别是在处理场景中的动态物体时,优势更为明显。例如,在NuScenes数据集上,针对“车辆”类别的渲染,模型的PSNR达到了27.31,超越了基线模型的最佳结果26.52。
对现有SOTA模型的增强能力:为了验证方法的通用性,本文将其核心模块集成到了两种先进的基线方法ChatSim和StreetGS中。结果显示,本文的方法能作为即插即用的增强模块,带来巨大提升。例如,它将ChatSim的重建PSNR从25.10提升至27.04;同时将StreetGS的重建PSNR从25.74提升至27.90,并将其几何误差(CD)从1.604降低到1.272。
图注:验证了本文方法的通用性和即插即用的价值。将核心模块集成到ChatSim和StreetGS这两个先进模型后,它们的性能均获得巨大提升。例如,StreetGS的重建PSNR从25.74提升至27.90,同时几何误差(CD)从1.604大幅降低至1.272。
(2)定性评估:无惧复杂真实场景
定性对比结果更直观地展示了本文方法的鲁棒性。
下图提供了直观的视觉对比,展示了本文的方法在处理真实世界复杂情况时的鲁棒性。通过对比真实图像(Ground Truth)、我们的结果(Baseline + Ours)和基线结果(Baseline),可以观察到:
- 有效抑制视觉伪影:如下图所示,与依赖单一外观编码或双边网格的基线方法相比,本文的统一框架能生成更清晰、更完整的几何结构。它能有效减少由光影突变导致的几何错误,并显著抑制“漂浮物”伪影,使得重建的场景更加干净、真实。
- 驾驭多样化挑战:真实驾驶场景充满了挑战。本文的方法被证实能够稳健地处理各种极端情况,包括:
- 物体表面的高光反射(Specular highlights)
- 快速移动车辆造成的运动模糊(Motion Blur)-夜晚或隧道中的低光照环境(Low-Light)
- 由遮挡或视角限制导致的不完整几何(Incomplete Geometry)
在这些困难的场景下,基线方法往往会出现明显的失真、伪影或模型坍塌,而本文的方法则能保持高质量和高稳定性的输出。
图注:通过视觉对比,展示了本文的方法在处理真实世界复杂情况时的鲁棒性。通过对比真实图像(Ground Truth)、我们的结果(Baseline + Ours)和基线结果(Baseline),可以观察到:(a)高光区域:基线方法在车身反光处出现过曝和细节丢失,而本文的方法能有效抑制高光,还原出下方纹理。(b)运动模糊:本文的方法能生成比基线更清晰的动态物体边缘,有效减轻运动模糊带来的影响。(c)和(d)不完整几何与伪影:基线方法在重建远处或被遮挡的物体时,容易产生不完整的、破碎的几何结构,而本文的方法能生成更连贯、更完整的场景。(e)低光照:在光线不足的场景下,本文的方法能更好地提亮暗部细节,同时避免噪点,还原出更真实的夜间场景。
,时长00:04
下图则更进一步,直观地证明了本文方法在几何精度上的优越性。图中用颜色标示了几何重建与真实激光雷达数据之间的误差,黄色代表高误差,紫色代表低误差。可以清晰地看到,无论是对比(a)外观编码还是(b)单尺度双边网格,(c)本文的方法所生成的场景中黄色区域都显著减少,表明其重建的几何模型与真实世界更为贴合,有效减少了“浮空片”(floaters)等错误。
下图则深入剖析了本文的方法为何有效。它通过直方图的形式,可视化了不同方法所“学习”到的色彩校正策略。
- 下排(Bilateral Grid):代表传统的单尺度双边网格。可以观察到,其学习到的变换分布通常呈现出两个尖锐的峰值(即“双峰分布”)。这表明它只学会了少数几种固定的、缺乏弹性的校正模式,难以适应真实世界中多样化的光照变化。
- 上三排(Multi-scale Bilateral Grid):代表本文的多尺度方法。其最终聚合后的变换分布直方图(最右侧叠加图)显得平滑和分散。这证明本文的方法学习到了一个极其丰富和多样化的色彩变换集合,能够从全局、区域到像素级别进行平滑过渡和精细调整。正是这种强大的适应性和表示能力,使其能够在各种复杂场景中取得鲁棒的、高质量的渲染结果。