w~自动驾驶~合集3-EW帮帮网

我自己的原文哦~ https://blog.51cto.com/whaosoft/13269720

#FastOcc

推理更快、部署友好Occ算法来啦！

在自动驾驶系统当中，感知任务是整个自驾系统中至关重要的组成部分。感知任务的主要目标是使自动驾驶车辆能够理解和感知周围的环境元素，如行驶在路上的车辆、路旁的行人、行驶过程中遇到的障碍物、路上的交通标志等，从而帮助下游模块做出正确合理的决策和行为。在一辆具备自动驾驶功能的车辆中，通常会配备不同类型的信息采集传感器，如环视相机传感器、激光雷达传感器以及毫米波雷达传感器等等，从而确保自动驾驶车辆能够准确感知和理解周围环境要素，使自动驾驶车辆在自主行驶的过程中能够做出正确的决断。

目前，基于纯图像的视觉感知方法相比于基于激光雷达的感知算法需要更低的硬件和部署成本而受到工业界和学术界的广泛关注，并且已经有许多优秀的视觉感知算法被设计出来用于实现3D目标感知任务以及BEV场景下的语义分割任务。虽然现有的3D目标感知算法已经取得了较为不错的检测性能，但依旧有相关问题逐渐在使用过程中暴露了出来：

原有的3D目标感知算法无法很好的解决数据集中存在的长尾问题，以及真实世界中存在但是当前训练数据集中可能没有标注的物体（如：行驶道路上的大石块，翻倒的车辆等等）
原有的3D目标感知算法通常会直接输出一个粗糙的3D立体边界框而无法准确描述任意形状的目标物体，对物体形状和几何结构的表达还不够细粒度。虽然这种输出结果框可以满足大多数的物体场景，但是像有连接的公交车或者具有很长挖钩的建筑车辆，当前3D感知算法就无法给出准确和清楚的描述了

基于上述提到的相关问题，栅格占用网络（Occupancy Network）感知算法被提出。本质上而言，Occupancy Network感知算法是基于3D空间场景的语义分割任务。基于纯视觉的Occupancy Network感知算法会将当前的3D空间划分成一个个的3D体素网格，通过自动驾驶车辆配备的环视相机传感器将采集到的环视图像送入到网络模型中，经过算法模型的处理和预测，输出当前空间中每个3D体素网格的占用状态以及可能包含的目标语义类别，从而实现对于当前3D空间场景的全面感知。

近年来，基于Occupancy Network的感知算法因其更好的感知优势而受到了研究者们的广泛关注，目前已经涌现出了很多优秀的工作用于提升该类算法的检测性能，这些论文的大概思路方向为：提出更加鲁棒的特征提取方法、2D特征向3D特征的坐标变换方式、更加复杂的网络结构设计以及如何更加准确的生成Occupancy真值标注帮助模型学习等等。然而许多现有的Occupancy Network感知方法在模型预测推理的过程中都存在着严重的计算开销，使得这些算法很难满足自动驾驶实时感知的要求，很难上车部署。

基于此，我们提出了一种新颖的Occupancy Network预测方法，和目前的SOTA感知算法相比，提出的FastOcc算法具有实时的推理速度以及具有竞争力的检测性能，提出的算法和其他算法的性能和推理速度如下图所示。

FastOcc算法和其他SOTA算法的精度和推理速度比较

论文链接：https://arxiv.org/pdf/2403.02710.pdf

网络模型的整体架构&细节梳理

为了提高Occupancy Network感知算法的推理速度，我们分别从输入图像的分辨率、特征提取主干网络、视角转换的方式以及栅格预测头结构四个部分进行了实验，通过实验结果发现，栅格预测头中的三维卷积或者反卷积具有很大的耗时优化空间。基于此，我们设计了FastOcc算法的网络结构，如下图所示。

FastOcc算法网络结构图

整体而言，提出的FastOcc算法包括三个子模块，分别是Image Feature Extraction用于多尺度特征提取、View Transformation用于视角转换、Occupancy Prediction Head用于实现感知输出，接下来我们会分别介绍这三个部分的细节。

图像特征提取（Image Feature Extraction）

视角转换（View Transformation）

一类是以BEVFormer为代表的Backward的坐标变换方法。该类方法通常是先在3D空间生成体素Query，然后利用Cross-view Attention的方式将3D空间的体素Query与2D图像特征进行交互，完成最终的3D体素特征的构建。
一类是以LSS为代表的Forward的坐标变换方法。这类方法会利用网络中的深度估计网络来同时估计每个特征像素位置的语义特征信息和离散深度概率，通过外积运算构建出语义视锥特征，最终利用VoxelPooling层实现最终的3D体素特征的构建。

考虑到LSS算法具有更好的推理速度和效率，在本文中，我们采用了LSS算法作为我们的视角转换模块。同时，考虑到每个像素位置的离散深度都是估计出来的，其不确定性一定程度上会制约模型最终的感知性能。因此，在我们的具体实现中，我们利用点云信息来进行深度方向上的监督，以实现更好的感知结果。

栅格预测头（Occupancy Prediction Head）

在上图展示的网络结构图中，栅格预测头还包含三个子部分，分别是BEV特征提取、图像特征插值采样、特征集成。接下来，我们将逐一介绍三部分的方法的细节。

BEV特征提取

目前，大多数的Occupancy Network算法都是对视角转换模块得到的3D体素特征进行处理。而处理的形式一般是三维的全卷积网络。具体而言，对于三维全卷积网络的任意一层，其对输入的三维体素特征进行卷积所需要的计算量如下：

通过3D和2D处理过程的计算量对比可以看出，通过利用轻量化的2D BEV特征卷积模块来代替原有的3D体素特征提取可以大大减少模型的计算量。同时，两类处理过程的可视化流程图如下图所示：

2D FCN和3D FCN网络结构的可视化情况

图像特征插值采样

为了减少栅格预测头模块的计算量，我们将视角转换模块输出的3D体素特征的高度进行压缩，并利用2D的BEV卷积模块进行特征提取。但为了增加缺失的Z轴高度特征信息并秉持着减少模型计算量的思想出发，我们提出了图像特征插值采样方法。

特征集成

上述提到的图像特征插值采样和特征集成过程整体可以用下图进行表示：

图像特征插值采样以及特征集成过程

除此之外，为了进一步确保经过BEV特征提取模块输出的BEV特征包含有足够的特征信息用于完成后续的感知过程，我们采用了一个额外的监督方法，即利用一个语义分割头来首先语义分割任务，并利用Occupancy的真值来构建语义分割的真值标签完成整个的监督过程。

实验结果&评价指标

定量分析部分

首先展示一下我们提出的FastOcc算法在Occ3D-nuScenes数据集上和其他SOTA算法的对比情况，各个算法的具体指标见下表所示

各个算法指标的在Occ3D-nuScenes数据集上的对比

通过表格上的结果可以看出，我们提出的FastOcc算法相比于其他的算法而言，在大多数的类别上都更加的具有优势，同时总的mIoU指标也实现了SOTA的效果。

除此之外，我们也比较了不同的视角转换方式以及栅格预测头当中所使用的解码特征的模块对于感知性能以及推理耗时的影响（实验数据均是基于输入图像分辨率为640×1600，主干网络采用的是ResNet-101网络），相关的实验结果对比如下表所示

不同视角转换以及栅格预测头的精度和推理耗时对比

SurroundOcc算法采用了多尺度的Cross-view Attention视角转换方式以及3D卷积来实现3D体素特征的提取，具有最高的推理耗时。我们将原有的Cross-view Attention视角转换方式换成LSS的转换方式之后，mIoU精度有所提升，同时耗时也得到了降低。在此基础上，通过将原有的3D卷积换成3D FCN结构，可以进一步的增加精度，但是推理耗时也明显增加。最后我们选择采样LSS的坐标转换方式以及2D FCN结构实现检测性能和推理耗时之间的平衡。

此外，我们也验证了我们提出的基于BEV特征的语义分割监督任务以及图像特征插值采样的有效性，具体的消融实验结果见下表所示：

不同模块的消融实验对比情况

此外，我们还做了模型上的scale实验，通过控制主干网络的大小以及输入图像的分辨率，从而构建了一组Occupancy Network感知算法模型（FastOcc、FastOcc-Small、FastOcc-Tiny），具体配置见下表：

不同主干网络和分辨率配置下的模型能力对比

定性分析部分

下图展示了我们提出的FastOcc算法模型与SurroundOcc算法模型的可视化结果对比情况，可以明显的看到，提出的FastOcc算法模型以更加合理的方式填补了周围的环境元素，并且实现了更加准确的行驶车辆以及树木的感知。

FastOcc算法与SurroundOcc算法的可视化结果对比情况

结论

在本文中，针对现有的Occupancy Network算法模型检测耗时长，难以上车部署的问题，我们提出了FastOcc算法模型。通过将原有的处理3D体素的3D卷积模块用2D卷积进行替代，极大缩短了推理耗时，并且和其他算法相比实现了SOTA的感知结果。

#DriveDreamer-2

世界车型在自动驾驶方面表现出了优势，尤其是在多视图驾驶视频的生成方面。然而，在生成自定义驾驶视频方面仍然存在重大挑战。在本文中，我们提出了DriveDreamer-2，它建立在DriveDreamer的框架上，并结合了一个大语言模型（LLM）来生成用户定义的驾驶视频。具体来说，LLM接口最初被合并以将用户的查询转换为代理轨迹。随后，根据轨迹生成符合交通规则的HDMap。最终，我们提出了统一多视图模型，以增强生成的驾驶视频的时间和空间连贯性。DriveDreamer-2是世界上第一款生成自定义驾驶视频的世界模型，它可以以用户友好的方式生成不常见的驾驶视频（例如，车辆突然驶入）。此外，实验结果表明，生成的视频增强了驾驶感知方法（如3D检测和跟踪）的训练。此外，DriveDreamer-2的视频生成质量超过了其他最先进的方法，FID和FVD得分分别为11.2和55.7，相对提高了～30%和～50%。

开源链接：https://drivedreamer2.github.io/

总结来说，本文的主要贡献如下：

我们推出DriveDreamer-2，这是世界上第一款以用户友好的方式生成虚拟驾驶视频的车型。
我们提出了一种仅使用文本提示作为输入的交通仿真管道，可用于生成用于驾驶视频生成的各种交通条件。
UniMVM旨在无缝集成视图内和视图间的空间一致性，提高生成的驾驶视频的整体时间和空间一致性。
大量实验表明，DriveDreamer-2可以制作各种定制的驾驶视频。此外，DriveDreamer-2与以前性能最好的方法相比，可将FID和FVD提高约30%和约50%。此外，DriveDreamer-2生成的驾驶视频增强了对各种驾驶感知方法的训练。

相关工作回顾

世界模型

世界方法的主要目标是建立动态环境模型，赋予主体对未来的预测能力。在早期的探索中，变分自动编码器（VAE）和长短期记忆（LSTM）被用于捕捉过渡动力学和排序功能，在不同的应用中显示出显著的成功。构建驾驶世界模型带来了独特的挑战，主要源于现实世界驾驶任务固有的高样本复杂性。为了应对这些挑战，ISO Dream引入了将视觉动力学明确分解为可控和不可控状态的方法。MILE战略性地将世界建模纳入鸟瞰图（BEV）语义分割空间。最近，DriveDreamer、GAIA-1、ADriver-I和Drive-WM探索了利用强大的扩散模型或自然语言模型在现实世界中训练驾驶世界模型。然而，这些方法中的大多数在很大程度上依赖于结构化信息（例如，3D框、HDMaps和光流）作为条件。这种独立性不仅限制了互动性，也限制了世代的多样性。

视频生成

视频生成和预测是理解视觉世界的关键技术。在视频生成的早期阶段，探索了变分自动编码器（VAE）、基于流的模型和生成对抗网络（GANs）等方法。语言模型也用于复杂的视觉动力学建模。最近的进展表明，扩散模型对视频生成的影响越来越大。值得注意的是，视频扩散模型在生成具有逼真帧和平滑过渡的高质量视频方面表现出卓越的能力，提供了增强的可控性。这些模型无缝地适应各种输入条件，包括文本、canny、草图、语义图和深度图。在自动驾驶领域，DriveDreamer-2利用强大的扩散模型学习视觉动力学。

交通仿真

驾驶仿真器是自动驾驶开发的基石，旨在提供一个仿真真实世界条件的受控环境。LCTGen使用LLM将详细的语言描述编码为向量，然后使用生成器生成相应的仿真场景。这种方法需要高度详细的语言描述，包括代理的速度和方向等信息。TrafficGen理解交通场景中的固有关系，从而能够在同一地图内生成多样化和合法的交通流。CTG通过采用符合交通约束的手动设计的损失函数来生成交通仿真。CTG++进一步扩展了CTG，利用GPT-4将用户语言描述转换为损失函数，该函数指导场景级条件扩散模型生成相应的场景。在DriveDreamer-2中，我们构建了一个函数库来微调LLM，以实现用户友好的文本到流量仿真，消除了复杂的损失设计或复杂的文本提示输入。

详解DriveDreamer-2

图2展示了DriveDreamer-2的总体框架。首先提出了一种定制的交通仿真来生成前台代理轨迹和后台HDMaps。具体而言，DriveDreamer-2利用微调后的LLM将用户提示转换为代理轨迹，然后引入HDMap生成器，使用生成的轨迹作为条件来仿真道路结构。DriveDreamer-2利用定制的流量仿真管道，能够为后续视频生成生成生成各种结构化条件。在DriveDreamer架构的基础上，提出了UniMVM框架，以统一视图内和视图间的空间一致性，从而增强生成的驾驶视频的整体时间和空间一致性。在接下来的章节中，我们将深入研究定制交通fang'zhen和UniMVM框架的细节。

自定义交通仿真

在所提出的定制交通仿真管道中，构建了一个轨迹生成函数库来微调LLM，这有助于将用户提示转移到不同的代理轨迹中，包括切入和掉头等动作。此外，该管道包含HDMap生成器，用于仿真背景道路结构。在此阶段，先前生成的代理轨迹充当条件输入，确保生成的HDMap符合流量约束。在下文中，我们将详细介绍LLM的微调过程和HDMap生成器的框架。

用于轨迹生成的微调LLM以前的交通仿真方法需要复杂的参数规范，包括代理的速度、位置、加速度和任务目标等细节。为了简化这一复杂的过程，我们建议使用构建的轨迹生成函数库对LLM进行微调，从而将用户友好的语言输入有效地转换为全面的交通仿真场景。如图3所示，构建的函数库包括18个函数，包括代理函数（转向、等速、加速度和制动）、行人函数（行走方向和速度）以及其他实用函数，如保存轨迹。在这些函数的基础上，文本到Python脚本对是手动策划的，用于微调LLM（GPT-3.5）。脚本包括一系列基本场景，如变道、超车、跟随其他车辆和执行掉头。此外，我们还包括更不常见的情况，如行人突然横穿马路，车辆驶入车道。以用户输入的车辆切入为例，相应的脚本包括以下步骤：首先生成切入轨迹（agent.cut_in（）），然后生成相应的ego-car轨迹（agent.forward（））；最后利用实用程序的保存功能，以数组形式直接输出ego-car和其他代理的轨迹。有关更多详细信息，请参阅补充材料。在推理阶段，我们将提示输入扩展到预定义的模板，微调后的LLM可以直接输出轨迹阵列。

HDMap生成综合交通仿真不仅需要前台代理的轨迹，还需要生成后台HDMap元素，如车道和人行横道。因此，提出了HDMap生成器，以确保背景元素与前景轨迹不冲突。在HDMap生成器中，我们将背景元素生成公式化为条件图像生成问题，其中条件输入是BEV轨迹图，目标是BEV HDMap。与以前主要依赖于轮廓条件（边缘、深度、方框、分割图）的条件图像生成方法不同，所提出的HDMap生成器探索前景和背景交通元素之间的相关性。具体地，HDMap生成器是在图像生成扩散模型上构建的。为了训练生成器，我们对HDMap数据集进行轨迹规划。在轨迹图中，指定不同的颜色来表示不同的代理类别。同时，目标HDMap包括三个通道，分别表示车道边界、车道分隔线和行人交叉口。在HDMap生成器中，我们使用2D卷积层的堆栈来合并轨迹图条件。然后，使用将生成的特征图无缝集成到扩散模型中（有关其他架构详细信息，请参见补充）。在训练阶段，扩散正向过程逐渐将噪声ε添加到潜在特征中，从而产生噪声潜在特征。然后我们训练εθ来预测我们添加的噪声，并且HDMap生成器φ通过:

如图4所示，利用所提出的HDMap生成器，我们可以基于相同的轨迹条件生成不同的HDMap。值得注意的是，生成的HDMaps不仅遵守交通约束（位于车道分隔带两侧的车道边界和十字路口的人行横道），而且与轨迹无缝集成。

UniMVM

利用定制交通仿真生成的结构化信息，可以通过DriveDreamer的框架生成多视图驾驶视频。然而，在以前的方法中引入的视图关注并不能保证多视图的一致性。为了缓解这个问题，采用图像或视频条件来生成多视图驾驶视频。虽然这种方法增强了不同观点之间的一致性，但它是以降低发电效率和多样性为代价的。在DriveDreamer-2中，我们在DriveDreamer框架中引入了UniMVM。UniMVM旨在统一多视图驾驶视频的生成，无论是否具有相邻视图条件，这确保了时间和空间的一致性，而不会影响生成速度和多样性。

多视图视频联合分布可以通过以下方式获得:

如图5所示，我们将UniMVM的范式与DriveDreamer[56]和Drive-WM[59]的范式进行了比较。与这些同行相比，UniMVM将多个视图统一为一个完整的视频生成补丁，而不引入跨视图参数。此外，可以通过调整掩码m来完成各种驱动视频生成任务。特别地，当m被设置为掩码未来的T−1帧时，UniMVM基于第一帧的输入启用未来视频预测。将m配置为屏蔽｛FL、FR、BR、B、BL｝视图，使UniMVM能够利用前视图视频输入实现多视图视频输出。此外，当m被设置为屏蔽所有视频帧时，UniMVM可以生成多视图视频，并且定量和定性实验都验证了UniMVM能够以增强的效率和多样性生成时间和空间相干的视频。

视频生成基于UniMVM公式，可以在DriveDreamer[56]的框架内生成驾驶视频。具体来说，我们的方法首先统一了交通结构化条件，这导致了HDMaps和3D盒子的序列。注意，3D框的序列可以从代理轨迹导出，并且3D框的大小是基于相应的代理类别来确定的。与DriveDreamer不同，DriveDreamer-2中的3D盒子条件不再依赖于位置嵌入和类别嵌入。相反，这些框被直接投影到图像平面上，起到控制条件的作用。这种方法消除了引入额外的控制参数，如[56]中所述。我们采用三个编码器将HDMaps、3D框和图像帧嵌入到潜在空间特征yH、yB和yI中。然后，我们将空间对齐的条件yH，yB与Zt连接起来，以获得特征输入Zin，其中Zt是通过前向扩散过程从yI生成的噪声潜在特征。对于视频生成器的训练，所有参数都通过去噪分数匹配进行优化[26]（详见补充）。

实验

用户自定义驾驶视频生成

DriveDreamer-2提供了一个用户友好的界面，用于生成驾驶视频。如图1a所示，用户只需要输入文本提示（例如，在雨天，有一辆汽车驶入）。然后DriveDreamer-2生成与文本输入对齐的多视图驾驶视频。图6展示了另外两个自定义驾驶视频。上图描绘了白天ego汽车向左变道的过程。下图展示了一个意想不到的行人在夜间横穿马路，促使ego汽车刹车以避免碰撞。值得注意的是，生成的视频展示了非凡的真实感，我们甚至可以观察到远光灯在行人身上的反射。

生成视频的质量评估

为了验证视频生成质量，我们将DriveDreamer-2与nuScenes验证集上的各种驾驶视频生成方法进行了比较。为了进行公平的比较，我们在三种不同的实验设置下进行了评估——无图像条件、有视频条件和第一帧多视图图像条件。实验结果如表1所示，表明DriveDreamer-2在所有三种设置中都能始终如一地获得高质量的评估结果。具体而言，在没有图像条件的情况下，DriveDreamer-2的FID为25.0，FVD为105.1，显示出比DriveDreamer的显著改进。此外，尽管仅限于单视图视频条件，但与使用三视图视频条件的DriveWM相比，DriveDreamer-2在FVD方面表现出39%的相对改善。此外，当提供第一帧多视图图像条件时，DriveDreamer-2实现了11.2的FID和55.7的FVD，大大超过了以前的所有方法。

更多可视：

结论和讨论

本文介绍了DriveDreamer-2，这是DriveDreamer框架的创新扩展，开创了用户自定义驾驶视频的生成。DriveDreamer-2利用大型语言模型，首先将用户查询转移到前台代理轨迹中。然后，可以使用所提出的HDMap生成器生成背景交通状况，并将代理轨迹作为条件。生成的结构化条件可以用于视频生成，我们提出了UniMVM来增强时间和空间的一致性。我们进行了广泛的实验来验证DriveDreamer-2可以生成不常见的驾驶视频，例如车辆的突然机动。重要的是，实验结果展示了生成的视频在增强驾驶感知方法训练方面的效用。此外，与最先进的方法相比，DriveDreamer-2显示出卓越的视频生成质量，FID和FVD得分分别为11.2和55.7。这些分数代表了大约30%和50%的显著相对改进，肯定了DriveDreamer-2在多视图驾驶视频生成方面的功效和进步。

#TrajectoryNAS

一种用于轨迹预测的神经结构搜索

论文链接：https://arxiv.org/pdf/2403.11695.pdf

摘要

本文介绍了TrajectoryNAS：一种用于轨迹预测的神经结构搜索。自动驾驶系统是一项快速发展的技术，其可以实现无人驾驶汽车的量产。轨迹预测是自动驾驶系统的一个关键组成部分，其使汽车能够预测周围目标的运动，从而实现安全导航。由于使用激光雷达点云数据的轨迹预测提供了3D信息，因此其比使用2D图像的轨迹预测表现更好。然而，处理点云数据比2D图像更复杂、更耗时。因此，使用点云数据的最先进的3D轨迹预测存在速度慢和错误预测等问题。本文引入了TrajectoryNAS，这是一种着重于利用点云数据进行轨迹预测的开创性方法。通过利用神经结构搜索（NAS），TrajectoryNAS自动化轨迹预测模型的设计，以凝聚的方式包含目标检测、跟踪和预测。这种方法不仅解决了这些任务之间复杂的相互依赖关系，还强调了轨迹建模中准确性和效率的重要性。通过实证研究，TrajectoryNAS展现了其在提高自动驾驶系统性能方面的有效性，标志着该领域取得了重大进展。实验结果表明，与其它轨迹预测方法相比，TrajectoryNAS在nuScenes数据集上的准确性至少提高了4.8%，延迟至少降低了1.1倍。

主要贡献

本文的贡献总结如下：

1）本文提出了TrajectoryNAS，它是自动驾驶轨迹预测领域中的先驱工作。与先前工作不同，本文方法是首次以端到端的方式实现神经架构搜索（NAS），包含目标检测、跟踪和预测。这种全面集成解决了子任务（例如点云处理、检测和跟踪）之间的相互依赖性所带来的复杂挑战；

2）本文利用了高效的小型数据集。为了满足与神经结构搜索相关的计算要求，本文方法引入了高效的两步过程。首先，本文采用一个小型数据集来加速最优结构的识别。随后，将识别的结构应用于完整的数据集，以确保可扩展性和准确性。这种精简的方法在处理大量数据集时特别有价值；

3）本文设计了开创性的多目标能量函数：本项工作的一个关键创新点是引入一种新的多目标能量函数。该能量函数考虑了目标检测、跟踪、预测和时间约束。通过将这些不同的要素加入一个统一的框架中，本文方法超越了那些通常忽略这些目标之间复杂关系的现有方法。新的能量函数增强了TrajectoryNAS的预测能力，提高了其在现实世界场景中的性能。

论文图片和表格

总结

本文提出了TrajectoryNAS，这是一种自动模型设计方法，其显著增强了自动驾驶的3D轨迹预测。通过在考虑关键性能指标的同时对速度和准确性进行优化，TrajectoryNAS在nuScenes数据集上的准确性至少提高了4.8%，延迟至少降低了1.1倍，其优于现有方法。

#DualBEV

这篇论文探讨了在自动驾驶中，从不同视角（如透视图和鸟瞰图）准确检测物体的问题，特别是如何有效地从透视图（PV）到鸟瞰图（BEV）空间转换特征，这一转换是通过视觉转换（VT）模块实施的。现有的方法大致分为两种策略：2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征，但深度预测的固有不确定性，尤其是在远处区域，可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征，并通过Transformer学习3D和2D特征之间对应关系的注意力权重，这增加了计算和部署的复杂性。

论文指出，现有的方法如HeightFormer和FB-BEV尝试结合这两种VT策略，但这些方法通常采用两阶段策略，由于双VT的特征转换不同，受到初始特征性能的限制，从而阻碍了双VT之间的无缝融合。此外，这些方法在实现自动驾驶的实时部署方面仍面临挑战。

针对这些问题，论文提出了一种统一的特征转换方法，适用于2D到3D和3D到2D的视觉转换，通过三种概率测量来评估3D和2D特征之间的对应关系：BEV概率、投影概率和图像概率。这一新方法旨在减轻BEV网格中空白区域对特征构建的影响，区分多个对应关系，并在特征转换过程中排除背景特征。

通过应用这种统一的特征转换，论文探索了使用卷积神经网络（CNN）进行3D到2D视觉转换的新方法，并引入了称为HeightTrans的方法。除了展示了其卓越的性能外，还展示了通过预计算加速的潜力，使其适用于实时自动驾驶应用。同时，通过整合这种特征转换，增强了传统的LSS流程，展示了其对当前检测器的普适性。

结合HeightTrans和Prob-LSS，论文介绍了DualBEV，这是一种创新的方法，它在一阶段内就考虑并融合了来自BEV和透视视图的对应关系，消除了对初始特征的依赖。此外，提出了一个强大的BEV特征融合模块，称为双特征融合（DFF）模块，通过利用通道注意力模块和空间注意力模块，进一步帮助精细化BEV概率预测。DualBEV遵循“广泛输入，严格输出”的原则，通过利用精确的双视图概率对应关系来理解和表示场景的概率分布。

论文的主要贡献如下：

揭示了3D到2D和2D到3D视觉转换之间的内在相似性，并提出了一种统一的特征转换方法，能够从BEV和透视视图两个方面准确建立对应关系，显著缩小了双策略之间的差距。
提出了一种新的基于CNN的3D到2D视觉转换方法HeightTrans，通过概率采样和查找表的预计算，有效且高效地建立精确的3D-2D对应关系。
引入了DFF用于双视图特征融合，这种融合策略在一阶段内捕获近远区域的信息，从而生成全面的BEV特征。
他们的高效框架DualBEV在nuScenes测试集上实现了55.2%的mAP和63.4%的NDS，即使没有使用Transformer，也突显了捕获精确双视图对应关系对视图转换的重要性。

通过这些创新，论文提供了一种克服现有方法限制，实现高效、准确物体检测的新策略，特别是在自动驾驶等实时应用场景中。

详解DualBEV

这篇论文提出的方法旨在通过统一的特征转换框架，DualBEV，解决自动驾驶中的BEV（鸟瞰图）对象检测问题。以下是方法部分的主要内容，概括了其不同子部分和关键创新。

DualBEV概述

HeightTrans

BEV Height

HeightTrans方法在处理高度时采用了一种多分辨率采样策略，覆盖整个高度范围（从-5米到3米），在兴趣区域（ROI，定义为-2米到2米内）的分辨率为0.5米，在此范围外的分辨率为1.0米。这种策略有助于增加对小物体的关注，这些小物体可能会在更粗糙的分辨率采样中被遗漏。

Prob-Sampling

HeightTrans在概率采样方面采用了以下步骤：

加速

通过预计算3D点在BEV空间中的索引，并在推理期间固定图像特征索引和深度图索引，HeightTrans能够加速视觉转换过程。最终的HeightTrans特征通过对每个BEV网格中预定义

Prob-LSS

Prob-LSS扩展了传统的LSS（Lift, Splat, Shoot）管道，通过预测每个像素的深度概率来促进其投影到BEV空间。该方法进一步整合了BEV概率，通过以下公式构建LSS特征：

这样做可以更好地处理深度估计中的不确定性，从而减少BEV空间中的冗余信息。

双特征融合（Dual Feature Fusion, DFF）

DFF模块旨在融合来自HeightTrans和Prob-LSS的特征，并有效地预测BEV概率。通过结合通道注意力模块和空间注意力增强的ProbNet，DFF能够优化特征选择和BEV概率预测，以增强对近处和远处对象的表征。这种融合策略考虑了来自两个流的特征的互补性，同时也通过计算局部和全局注意力来增强BEV概率的准确性。

总之，这篇论文提出的DualBEV框架通过结合HeightTrans和Prob-LSS，以及创新的双特征融合模块，实现了对3D和2D特征之间对应关系的高效评估和转换。这不仅桥接了2D到3D和3D到2D转换策略之间的差距，而且还通过预计算和概率测量加速了特征转换过程，使其适合实时自动驾驶应用。

该方法的关键在于对不同视角下的特征进行精确对应和高效融合，从而在BEV对象检测中实现了出色的性能。

实验

DualBEV方法的变体（带星号的DualBEV* ）在单帧输入条件下表现最佳，达到了35.2%的mAP和42.5%的NDS，这表明它在准确性和综合性能上都超过了其他方法。特别是在mAOE上，DualBEV*实现了0.542的分数，这是单帧方法中最好的。然而，它在mATE和mASE上的表现并没有明显优于其他方法。

当输入帧数增加到两帧时，DualBEV的表现进一步提升，mAP达到38.0%，NDS达到50.4%，这是所有列出方法中最高的NDS，表明DualBEV在处理更复杂的输入时能够更全面地理解场景。在多帧方法中，它在mATE、mASE、和mAAE上也展现了较强的性能，特别是在mAOE上有明显的改善，显示出其在估计物体方向上的优势。

从这些结果可以分析得出，DualBEV及其变体在多个重要的性能指标上均有出色表现，尤其是在多帧设置下，表明其对BEV对象检测任务具有较好的准确性和鲁棒性。此外，这些结果还强调了使用多帧数据的重要性，可以提高模型的整体性能和估计准确性。

下面是对各个消融实验结果的分析：

添加ProbNet、HeightTrans、CAF（Channel Attention Fusion）、SAE（Spatial Attention Enhanced）等组件逐步提升了Baseline的性能。
HeightTrans的加入显著提高了mAP和NDS，这表明在视觉转换中引入高度信息是有效的。
CAF进一步提升了mAP，但略微增加了延迟。
SAE的引入提升了NDS到最高的42.5%，同时对mAP也有提升，说明空间注意力机制有效地增强了模型性能。

当全部三种概率同时使用时，模型达到了最高的mAP和NDS，这表明这些概率的结合对于模型性能至关重要。
Prob-Sampling在相似的延迟下（0.32ms），比其他的VT操作具有更高的NDS（39.0%），这强调了概率采样在性能上的优越性。
多分辨率（MR）采样策略相对于均匀采样策略，在使用相同数量的采样点时能达到相似或更好的性能。
通过将投影概率、图像概率和BEV概率加入到LSS流程，Prob-LSS的表现超过了其他的LSS变体，提高了mAP和NDS，显示了结合这些概率的有效性。
与多阶段的精细化（Refine）策略相比，单阶段的添加（Add）策略和DFF模块都能取得更高的NDS，而DFF在mAP上也有轻微的提升，这表明DFF作为一种单阶段的融合策略，在效率和性能上都是有益的。

消融实验表明了HeightTrans、概率措施、Prob-Sampling和DFF等组件及策略对提高模型性能至关重要。此外，多分辨率采样策略在高度信息上的使用也证明了其有效性。这些发现支持了作者在方法部分提出的每一项技术都对模型性能有正面贡献的论点。

讨论

这篇论文通过一系列消融实验展示了其方法的性能。从实验结果可以看出，论文提出的DualBEV框架和它的各个组成部分均对提高鸟瞰图（BEV）对象检测的准确性具有积极影响。

论文的方法通过将ProbNet、HeightTrans、CAF（Channel Attention Fusion）、和SAE（Spatial Attention Enhanced）模块逐步引入到基线模型中，显示出在mAP和NDS两个指标上均有显著提升，这证明了每个组件在整个架构中都发挥了重要作用。尤其是引入SAE后，NDS得分提高到了最高点42.5%，同时延迟只有轻微增加，这表明了该方法在精度和延迟之间取得了良好的平衡。

概率消融实验结果进一步证实了投影概率、图像概率和BEV概率在提高检测性能方面的重要性。当这些概率被逐一引入时，系统的mAP和NDS得分稳步提升，这表明了将这些概率措施集成到BEV对象检测任务中的重要性。

在视觉转换（VT）操作的比较中，论文提出的Prob-Sampling方法与其他操作如SCAda和Bilinear-Sampling相比，显示出较低的延迟和更高的NDS得分，这强调了其在效率和性能上的优势。此外，对于不同的高度采样策略，采用多分辨率（MR）策略而不是统一采样能够进一步提高NDS得分，这表明了考虑场景中不同高度的信息对于提升检测性能的重要性。

此外，对于不同的特征融合策略，论文展示了DFF方法在简化模型的同时，依然能够维持高NDS得分的能力，这意味着在一阶段处理流程中融合双流特征是有效的。

然而，尽管论文提出的方法在多个方面表现出色，每项改进也都会导致系统复杂度和计算成本的增加。例如，每引入一个新的组件（如ProbNet、HeightTrans等），系统的延迟都会有所增加，尽管延迟的增加是微小的，但在实时或低延迟要求的应用中，这可能成为考虑因素。此外，虽然概率措施有助于性能提升，但也需要额外的计算资源来估计这些概率，可能导致更高的资源消耗。

论文提出的DualBEV方法在提高BEV对象检测的精度和综合性能方面取得了显著的成果，特别是在将深度学习的最新进展与视觉转换技术相结合的方面。但这些进步是以轻微增加计算延迟和资源消耗为代价的，实际应用时需要根据具体情况权衡这些因素。

结论

该方法在BEV对象检测任务中表现出色，显著提高了准确性和综合性能。通过引入概率采样、高度转换、注意力机制和空间关注增强网络，DualBEV成功地提升了多个关键性能指标，特别是在鸟瞰图（BEV）的精度和场景理解方面。实验结果表明，论文的方法在处理复杂场景和不同视角数据时尤为有效，这对于自动驾驶和其他实时监控应用至关重要。

#MapUncertaintyPrediction

原标题：Producing and Leveraging Online Map Uncertainty in Trajectory Prediction

论文链接：https://arxiv.org/pdf/2403.16439.pdf

代码链接：https://github.com/alfredgu001324/MapUncertaintyPrediction

作者单位：多伦多大学 Vector Institute NVIDIA Research 斯坦福大学

论文思路：

高精（HD）地图在现代自动驾驶汽车（AV）技术栈的发展中扮演了不可或缺的角色，尽管与此相关的标注和维护成本很高。因此，许多近期的工作提出了从传感器数据在线估计HD地图的方法，使自动驾驶汽车能够在先前绘制的区域(previously-mapped)之外运行。然而，当前的在线地图估计方法是独立于其下游任务开发的，这使得它们在自动驾驶技术栈中的整合变得复杂。特别是，它们不生成不确定性或置信度估计。本文扩展了多个最先进的在线地图估计方法，使其能够额外估计不确定性，并展示了这如何使在线建图与轨迹预测更紧密地整合1。在此过程中，本文发现纳入不确定性可以使训练收敛速度提高多达50%，并且在真实世界的nuScenes驾驶数据集上的预测性能提高多达15%。

主要贡献：

本文提出了一个通用的矢量化地图不确定性表述，并扩展了多个最先进的在线地图估计方法，使其额外输出不确定性估计，而不会降低纯建图性能。

本文通过实证分析潜在的地图不确定性来源，确认了当前地图估计方法缺乏置信度的地方，并为未来的研究方向提供了信息。

本文将许多近期的在线地图估计模型与多个最先进的轨迹预测方法相结合，并展示了如何通过纳入在线建图不确定性显著提高下游预测模型的性能和训练特性，加速训练收敛速度高达50%，并提高在线预测准确性多达15%。

网络设计：

自动驾驶的一个关键组成部分是理解静态环境，例如，围绕自动驾驶汽车（AV）的道路布局和连通性。因此，已经开发出高精（HD）地图来捕捉和提供此类信息，包含了道路边界、车道分隔线以及厘米级别的道路标记等语义信息。近年来，HD地图已被证明对于自动驾驶汽车的开发和部署是不可或缺的，今天已被广泛使用[35]。然而，HD地图的标注和长期维护成本高昂，并且它们只能在地理围栏区域(geofenced areas)使用，这限制了自动驾驶汽车的可扩展性(scalability)。

为了解决这些问题，许多近期的研究转向从传感器数据在线估计高精（HD）地图。广义上，它们的目标是预测地图元素的位置和类别，通常以多边形或折线的形式，全部来源于相机图像和激光雷达（LiDAR）扫描。然而，当前的在线地图估计方法并未产生任何相关的不确定性或置信度信息。这是有问题的，因为它导致下游使用者(consumers)隐含地假设推断出的地图组件是确定的，任何建图错误（例如，地图元素的移动或放置不正确）可能导致错误的下游行为。为此，本文提出揭示在线地图估计方法中的地图不确定性，并将其纳入下游模块中。具体来说，本文将地图不确定性纳入轨迹预测，并发现在结合了地图不确定性的 mapper-predictor 系统中（图1）与那些没有结合地图不确定性的系统相比，性能有显著提升。

图1. 从在线高精（HD）地图估计方法中产生不确定性，并将其纳入下游模块中，带来了多种好处。左图：真实的HD地图和代理位置。中图：使用MapTR[22]输出地图的HiVT[41]预测。右图：使用MapTR[22]输出的地图以及增加了点不确定性（由于左侧道路边界被停放的车辆遮挡，不确定性较大）的HiVT[41]预测。

图2. 许多在线高精矢量地图估计方法通过编码多摄像机图像，将它们转换到一个共同的鸟瞰图（BEV）特征空间，并回归地图元素的顶点来运作。本文的工作通过增加一个概率回归头来增强这种常见的输出结构，将每个地图顶点建模为拉普拉斯分布。为了评估由此产生的下游效应，本文进一步扩展了下游预测模型以编码地图不确定性，增强了基于图神经网络（GNN）和基于 Transformer 的地图编码器。

实验结果：

图3. 本文提出的不确定性表述能够捕捉由于自动驾驶车辆（AV）的摄像头与周围地图元素之间的遮挡而产生的不确定性。左图：前方和前右方摄像头的图像。右图：本文增强的在线高精地图模型生成的HD地图。椭圆表示分布的标准差。颜色代表道路边界、车道分隔线、人行横道和车道中心线。

图4. 在一个密集的停车场中，许多模型未能生成准确的地图。左图：后方和后左方摄像头的图像。右图：本文增强的在线高精地图模型生成的HD地图。椭圆展示了分布的标准差。颜色代表道路边界、车道分隔线、人行横道和车道中心线。

总结：

本文提出了一个通用的矢量化地图不确定性公式，并扩展了多种最新的在线地图估计方法，包括MapTR [22]、MapTRv2 [23]和StreamMapNet [38]，使它们能够额外输出不确定性。本文系统地分析了产生的不确定性，并发现本文的方法捕捉到了许多不确定性来源（遮挡、与摄像头的距离、一天中的时间和天气）。最后，本文将这些在线地图估计模型与最新的轨迹预测方法（DenseTNT [13]和HiVT [41]）结合起来，并展示了结合在线地图不确定性显著提高了预测模型的性能和训练特性，分别高达15%和50%。一个激动人心的未来研究方向是利用这些不确定性输出来衡量地图模型的校准度（类似于[16]）。然而，这一任务因需要进行模糊点集匹配而变得复杂，这本身就是一个具有挑战性的问题。

#M2DA~

更接近人类驾驶 | 全新LV融合赋予端到端驾驶人类理解能力，上车更进一步！

自动驾驶的端到端实现取得了显著进展。然而，自动驾驶车辆的广泛部署尚未实现，主要原因包括：1）多模态环境感知效率低：如何更有效地整合来自多模态传感器的数据；2）非人类般的场景理解：如何有效地定位和预测交通场景中的关键风险因素，就像一名有经验的驾驶员一样。为了克服这些挑战，在本文中，我们提出了M2DA。为了更好地融合多模态数据并实现不同模态之间的更高对齐度，我们提出了一种新颖的激光雷达-视觉融合模块（LVAFusion）。通过整合驾驶员的注意力，我们赋予了自动驾驶车辆类似于人类的场景理解能力，以精确识别复杂情景中的关键区域，并确保安全。

本文贡献

在多模态自动驾驶模型中，由于点云和图像信息的无效融合而引起的特征不对齐是应用的一大挑战。例如，错误解释或忽略特定关键数据可能导致障碍物的错误判断或不准确的位置估计。以前关于传感器融合的研究主要集中在驾驶场景的感知和预测方面。这包括2D和3D物体检测，以及运动预测。这些方法主要利用卷积神经网络在3D环境中学习和捕捉几何和语义信息。然而，这些方法要么假设局部性来在图像和激光雷达投影空间之间对几何特征进行对齐，要么简单地连接多传感器特征。这些融合技术可能无法有效地捕捉复杂多主体场景中的多模态特征之间的交互作用。

另一方面，交通环境的高度动态、随机和多样化特性对自动驾驶提出了严峻挑战。更具体地说，自动驾驶车辆应该处理许多不可预测的情况，例如违反交通信号的车辆或突然从盲点出现的行人。在这种复杂而危险的环境中，熟练的驾驶员能够迅速识别和预测交通危险。例如，他们可以在未标记的十字路口无意识地搜索来自所有方向的来车，以预防事故。因此，驾驶员注意力（DA）可以作为关键的风险指标。同时，自然驾驶和实验室模拟研究的实验一直显示DA在定位潜在冲突对象方面的有效性，最终提升了道路交通安全性。因此，准确预测驾驶员注视点的意义重大，对于端到端自动驾驶系统理解复杂交通场景至关重要。这种预测性洞察对于设计能够模仿人类般预期技能的系统至关重要，从而提高了自动驾驶车辆的安全性和可靠性。然而，迄今为止，关于将DA集成到端到端自动驾驶中的研究尚未被探索。

为了克服上述挑战，我们提出了一个新颖的M2DA框架用于自动驾驶，具有两个核心创新：高效的多模态环境感知和类人场景理解。总的来说，M2DA具有以下贡献：

为了避免多模态情景中关键对象的不对齐，我们提出了LVAFusion，一种新颖的多模态融合模块，利用具有先验信息的查询来集成图像和点云表示。LVAFusion突出显示两种传感器模态共同的关键特征，并捕捉特定情景中它们的上下文相互作用。
就我们所知，我们是第一个将驾驶员注意力融入到端到端自动驾驶中的工作，这有助于在复杂情景中高效地识别关键区域。DA预测的引入不仅为下游决策任务提供了更精细的感知特征以确保安全，而且将场景理解过程更接近人类认知，从而增加了可解释性。
我们在涉及CARLA中对抗性情景的复杂城市环境中对我们的方法进行了实验验证。M2DA在Town05 Long基准测试实现了最先进的驾驶性能。

#世界模型如何推动自动驾驶

本篇分享最新综述The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey，世界模型如何推动自动驾驶。

论文链接：https://arxiv.org/abs/2502.10498
最新汇总论文：https://github.com/LMD0311/Awesome-World-Model

背景

驾驶世界模型（Driving World Models, DWM）是预测驾驶场景演化的关键技术，能够帮助自动驾驶系统感知、理解并与动态驾驶环境交互。

近年来，DWM 在提升自动驾驶安全性和可靠性方面的重要性日益凸显。然而，现有研究仍面临诸多挑战，包括多模态数据的高效融合、稀缺数据场景的建模以及模型在复杂场景中的鲁棒性。

为此，本文对DWM 的研究现状进行了全面梳理，系统性总结了方法分类、应用场景、数据集与指标，并深入探讨了未来研究方向，为研究者提供了宝贵的参考。

此外，本文还公开了一个名为Awesome World Models for Autonomous Driving的GitHub仓库，现在已经收获超700 star，并保持持续更新。

核心内容1. 方法分类与最新进展

本综述系统性地对 DWM 方法进行了分类，涵盖了 2D 场景、3D 场景和无场景范式，并详细介绍了每种方法的核心技术和最新进展：

2D 场景演化

2D 场景方法主要利用生成技术（如自回归 Transformer 和diffusion模型）生成高保真、物理一致的驾驶场景：

时空动态捕获：GAIA-1 通过diffusion解码器捕获驾驶场景中的时空动态和高层结构。
多模态控制：DriveDreamer 扩展了条件diffusion框架，支持多模态控制和合成数据生成。
一致性提升：Vista 通过stable video diffusion 和新颖的损失函数，提升了场景生成的结构完整性和动态合理性。

3D 场景演化

3D 场景方法利用occupancy和点云数据，捕获精确的空间几何关系和动态信息：

Occupancy生成 OccWorld 使用时空 Transformer 生成未来场景和自车位姿，确保全局一致性。
点云生成：Copilot4D 通过离散diffusion实现高效的点云生成和预测。
基于视觉的3D生成：ViDAR 从多视图图像预测未来点云演变，捕捉语义、3D结构和时间动态的协同学习。
多模态融合：BEVWorld 将图像和点云数据融合为统一的鸟瞰视图（BEV）表示，生成未来场景并支持自监督学习。

无场景（Scene-free）范式

无场景方法不关注细致的场景预测，而是关注潜在状态的预测或多智能体行为的建模，提升自动驾驶系统的效率和泛化能力：

潜在状态预测：Think2Drive使用DWM预测未来的潜在状态，与想象的环境进行并行化的高效交互，从而提升规划性能。
多智能体行为建模：TrafficBots 从预测多智能体的行为，模拟现实驾驶场景中的复杂交互。

2. 应用场景

DWM在自动驾驶中的应用场景广泛，涵盖仿真、数据生成、预测与规划以及4D预训练等多个方面：

仿真

DWM通过生成多样化、高保真的驾驶场景，支持自动驾驶模型的训练与评估。如Vista提供高保真的视频仿真，支持动作评估；ACT-Bench关注动作保真度，准确遵守condition的控制；TrafficBots模拟多智能体行为，提升动作仿真真实性。

数据生成

DWM通过合成多样化的数据，弥补真实数据的不足。例如，DrivePhysica生成高质量驾驶视频，LidarDM生成真实的点云数据，增强下游任务（如3D检测）的性能。此外，DriveDreame4D还能合成新的驾驶行为视频，强化下游模型对长尾场景的适应能力。

预见性规划

DWM通过未来场景预测优化车辆规划与决策。例如，DriveWM结合奖励函数选择最优轨迹，ADriver-I通过多模态预测实现长时间规划。也可以将场景预测与训练过程结合，例如AdaWM通过对比预测场景和真实场景的差异来进行微调，LAW通过监督场景预测和未来真实场景一致以强化端到端规划。

4D预训练

利用多模态数据进行自监督学习，DWM提升了下游任务性能并降低了对人工标注的依赖。例如，ViDAR通过视觉点云预测学习3D几何信息，BEVWorld在多传感器数据上进行统一的BEV表示预训练。

3. 数据集与评估指标

高质量的数据集和科学的评估指标是推动 DWM 研究的重要基石。本综述全面梳理了 DWM 领域的主流数据集和常用指标：

多模态数据集：如 nuScenes、Waymo Open Dataset，涵盖图像、点云和 occupancy 等多种模态。
定制化数据集：如 DrivingDojo 专为 DWM 训练设计，包含复杂的驾驶动态场景。
评估指标：DWM的评估指标因任务不同而多样化，主要包括生成指标和规划指标：
生成质量：如FID（Fréchet Inception距离）、FVD（Fréchet视频距离）等衡量生成数据与真实数据的分布差异。
规划性能：如Collision Rate（碰撞率）、Driving Score（驾驶得分）等评估模型在规划任务中的表现。
一致性与可控性：除了通用的生成与规划指标外，DWM还需考虑预测场景演变的时空一致性和可控性。为此提出了一些指标，如关键点匹配（KPM）和对象操作控制（COM）。

4. 当前挑战与未来方向

尽管DWM取得了显著进展，但仍面临以下挑战：

数据稀缺：高质量、多模态对齐数据的采集成本高昂，如何通过合成数据弥补数据不足是开放问题。
运行效率：生成任务的高计算成本限制了实时应用，未来需要探索更高效的表示方法和模型架构。
高质量仿真：进一步提高仿真的真实度，解决退化、幻觉等问题，为研究者提供值得信任的依据。
统一任务框架：预测与规划、感知结合以相互促进；与规划结合以联合优化，统一的DWM任务框架具有广阔研究前景。
多模态建模：现有方法对多模态数据的融合仍不充分，未来可探索非对齐甚至非配对数据的有效利用。
对抗攻击与防御：针对DWM的对抗攻击研究较少，开发防御策略以确保驾驶安全性至关重要。

总结与展望

Driving World Models作为自动驾驶领域的核心技术，正在推动感知、预测与规划的深度融合。

本综述不仅回顾了DWM的研究进展，还系统性地总结了应用、数据集和指标，并指出了当前的限制与未来的研究机遇。

我们相信，这篇综述将为DWM领域的初学者提供充实的资料，为研究者和工程师提供有价值的结论和观点，加速自动驾驶技术的发展。

#HENet

在自动驾驶系统中，感知任务是非常重要的一环，是自动驾驶后续下游轨迹预测以及运动规划任务的基础。作为一辆能够实现自动驾驶功能的汽车而言，其通常会配备环视相机传感器、激光雷达传感器以及毫米波雷达传感器。由于基于纯视觉的BEV感知算法需要更低的硬件以及部署成本，同时其输出的BEV空间感知结果可以很方便被下游任务所使用，受到了来自工业界和学术界的广泛关注。

随着目前感知任务需求的增长，比如要实现基于BEV空间的3D检测任务或者是基于BEV空间的语义分割任务，一个理想的感知算法是可以同时处理像3D检测或者语义分割等多个任务的。同时，目前的自动驾驶系统更加倾向于采用完全端到端的感知框架，从而简化整个系统的架构并降低感知算法实现的复杂性。

虽然端到端的多任务感知模型具有诸多的优势，但是目前依旧存在着诸多挑战：

目前，绝大多数基于相机的3D感知算法，为了提高模型的检测性能，都会采用更高分辨率的输入图像、长时序的输入信息以及更强大的图像特征编码器。但是需要注意的是，在单任务的感知算法模型上同时采用这些技术会导致训练过程中巨大的训练成本。
由于时序的输入信息可以更好的提升感知算法模型对于当前环境的理解和感知，目前很多工作都采用了这一策略。这些工作主要将不同帧的信息处理为BEV特征后，直接沿着通道的维度进行求和或者拼接来让模型能够获取到一段时间段内的环境元素信息，但收益却不是特别的理想。造成这一现象的主要原因是自车周围环境的运动物体在不同时刻沿着BEV的轨迹是不同的，并且分散在BEV的大片区域中。因此，我们需要引入动态对齐机制的思想来对运动物体的位置进行调整。
对于目前已有的多任务学习框架而言，主要都是采用一个共享的图像编码网络来处理不同的感知任务。然而，通过这些论文中列举的相关实验结果我们发现，通过多任务联合学习的方式通常在不同任务上的表现要弱于每个任务单独训练的性能。

针对上述提到的端到端多任务感知模型存在的诸多挑战，在本文中，我们提出了一个用于端到端多任务3D感知的混合特征编码算法模型HENet，在nuScenes数据集上实现了多个任务的SOTA，如下图所示。

与其他算法模型的语义分割和3D检测性能指标对比

原标题：HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

论文链接：https://arxiv.org/pdf/2404.02517.pdf

代码链接：https://github.com/VDIGPKU/HENet

作者单位：北京大学长安汽车加州大学默塞德分校

多相机端到端多任务框架

论文思路：

多视角相机的三维感知是自动驾驶系统中的一个关键组成部分，涉及多项任务，如3D目标检测和鸟瞰图（BEV）语义分割。为了提高感知精度，最近的3D感知模型采用了大型图像编码器、高分辨率图像和长时序输入，带来了显著的性能提升。然而，由于计算资源的限制，这些技术在训练和推理场景中常常不兼容。此外，现代自动驾驶系统更倾向于采用端到端框架进行多任务3D感知，这可以简化整个系统架构并降低实施复杂性。然而，在端到端的3D感知模型中共同优化多个任务时，任务之间经常会出现冲突。为了缓解这些问题，本文提出了一个名为 HENet 的端到端多任务3D感知框架。具体来说，本文提出了一个混合图像编码网络，使用大型图像编码器处理短时序帧，使用小型图像编码器处理长时序帧。然后，本文引入了一个基于注意力机制的时序特征集成模块，用于融合两种混合图像编码器提取的不同帧的特征。最后，根据每个感知任务的特点，本文使用不同网格大小的BEV特征、独立的BEV编码器和不同任务的任务解码器。实验结果表明，HENet在nuScenes基准测试中实现了最先进的端到端多任务3D感知结果，包括3D目标检测和BEV语义分割。

主要贡献：

本文提出了一个端到端的多任务3D感知框架，采用混合图像编码网络，以较小的训练成本利用高分辨率图像、长期输入和大型图像编码器的优势。
本文引入了一个基于注意力机制的时序集成模块，用于融合多帧BEV特征，并实现移动物体的动态帧间对齐。
本文分析了端到端多任务学习中的任务冲突，并提出了特征尺寸选择和独立特征编码来缓解这个问题。
本文在nuScenes数据集上的端到端多任务学习中取得了最先进的结果，包括3D目标检测和BEV语义分割任务。

网络设计：

多视角相机高效且准确地感知周围环境对自动驾驶系统至关重要，它是随后轨迹预测和运动规划任务的基础。一个理想的3D感知系统应该能够同时处理多项任务，包括3D目标检测和鸟瞰图（BEV）语义分割。端到端多任务框架越来越受到重视，因为这样的系统有潜力简化整体架构并减轻实施复杂性。

然而，端到端的多任务3D感知面临以下挑战。首先，在设计基于相机的高性能3D感知模型时，研究人员通常会利用更高分辨率的图像、更长的时序输入和更大的图像编码器来提高3D感知的准确性。然而，将这些技术同时应用于单一的感知模型将导致训练成本极高。为了缓解这个问题，一些研究[32, 46]将过去的信息存储在 memory 中，但这样做有诸如时序特征不一致和数据增强效率低下等缺点。因此，许多最新的方法[26, 37, 44, 52]并没有采用这种策略，而是重新计算过去帧的特征，尽管这样做增加了训练成本。

其次，为了处理长期的时序输入，许多研究[11,17,18]直接在沿通道维度的鸟瞰图（BEV）中将不同帧的特征求和或连接起来，在更长的时间序列中表现出不尽人意的感知性能。原因在于，移动物体的特征在不同帧的鸟瞰图 (BEV) 中沿其轨迹错位并分散在较大区域内。因此，有必要引入动态对齐机制[28, 37]来校正移动物体的位置。

第三，对于端到端的多任务学习，现有的研究[8, 19, 28]使用一个共享的编码网络和多个解码器来处理不同的任务。然而，这些研究中的实验结果表明，端到端地共同学习多个任务往往并不是最优的，即多任务学习中每个任务的性能都低于单独训练。为了缓解这个问题，一些研究[28]提出了调整每个任务的损失权重，但没有全面分析任务之间存在冲突的原因。

本文提出了HENet，这是一个端到端的多任务3D感知框架，专为多视角相机设计。为了整合大型图像编码器、高分辨率图像和长期输入，本文提出了一种混合图像编码网络，它采用不同的分辨率和图像编码器处理不同的帧。具体来说，本文对短期帧使用高分辨率输入、大型图像主干网络和复杂的透视变换网络，以生成高精度的BEV特征。对于长期帧，选择低分辨率输入，并采用小型图像主干网络和简单的透视变换网络高效生成BEV特征。所提出的混合图像编码网络可以轻松地并入现有的感知模型中。然后，本文引入了一个时序整合模块，以动态地对齐和融合来自多帧的BEV特征。具体来说，在这个模块中，本文提出了一个带有相邻帧融合模块（AFFM）的时序前向和后向过程来聚合BEV特征，通过注意力机制解决了对齐移动物体的问题。最后，本文深入分析了多任务学习中3D目标检测与BEV语义分割之间的冲突，并发现不同任务偏好不同的BEV特征网格大小是关键问题。基于这一观察，本文为不同任务选择了不同网格大小的BEV特征。所选特征被送入独立的BEV编码网络和任务解码器，以进一步缓解任务冲突，从而获得最终的3D感知结果。

图2：HENet的整体架构。i) 混合图像编码网络使用不同复杂度的图像编码器分别对长序列帧和短期图像进行编码。ii) 基于注意力机制的时序特征整合模块融合了来自多个图像编码器的多帧特征。iii) 根据不同任务的特点，本文选择了合适大小的BEV特征图，并对每个任务执行独立的BEV编码。

图3：时序特征整合模块的架构。本文提出了相邻帧融合模块（AFFM），并采用了包含时序前向和后向过程的时序融合策略。

图4：独立BEV特征编码的设计。通过独立的自适应特征选择和BEV编码，为每个任务解码器提供不同网格大小的BEV特征图。

实验结果：

图1：在nuScenes验证集上端到端多任务结果的比较。

图5：分析3D目标检测与BEV语义分割之间的相似性和差异。实验结果表明，每个任务都有适合的BEV网格大小。BEV语义分割的适宜网格大小大于 3D目标检测的适宜网格大小。

图6：HENet及基线在端到端多任务处理上的可视化结果。

总结：

本文提出了HENet，这是一个端到端的多任务3D感知框架。本文提出了一种混合图像编码网络和时序特征集成模块，以高效处理高分辨率和长期时间序列的图像输入。此外，本文采用了特定于任务的BEV网格大小、独立的BEV特征编码器和解码器来解决多任务冲突问题。实验结果表明，HENet在nuScenes上获得了最先进的多任务结果，包括3D目标检测和BEV语义分割。

#DriveCoT

近年来，端到端自动驾驶技术取得了显著进展，表现出系统简单性和在开环和闭环设置下竞争性驾驶性能的优势。然而，端到端驾驶系统在驾驶决策方面缺乏可解释性和可控性，这阻碍了其在真实世界中的部署。本文利用CARLA模拟器收集了一个全面的端到端驾驶数据集，名为DriveCoT。它包含传感器数据、控制决策和chain-of-thought标签，用于指示推理过程。利用CARLA排行榜2.0中具有挑战性的驾驶场景，这些场景涉及高速驾驶和换道，并提出了一个基于规则的专家策略来控制车辆，并为其推理过程和最终决策生成了真值标签，覆盖了不同驾驶方面和最终决策的推理过程。该数据集可以作为一个开环端到端驾驶基准，可评估各种推理方面的准确性和最终决策。此外，我们提出了一个名为DriveCoT-Agent的基线模型，它是在我们的数据集上训练的，用于生成推理链预测和最终决策。经过训练的模型在开环和闭环评估中表现出很强的性能，证明了我们提出的数据集的有效性。

题目：DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving

作者单位：香港大学，华为，香港中文大学

开源地址：DriveCoT

DriveCoT，它包括一个新的数据集、基准和端到端自动驾驶的基线模型。传感器数据，如相机图像以及指示方向的目标点（左图像中的黄点），作为模型输入。如下右图所示，该模型通过生成不同驾驶方面的预测并进行chain-of-thought推理来获得最终的速度决策。此外，模型还生成了计划的未来转向点（左图中的蓝点）。

DriveCoT Agent的基线模型将过去一段时间的多视点摄像机视频和指示方向的目标点作为输入，以生成关于不同驾驶方面和计划的未来路线点的CoT预测。没有使用单帧图像作为输入，而是利用多视图摄像机视频来捕捉自车和周围物体的运动，从而能够早期预测潜在危险并支持高速驾驶。此外，最终的驾驶决策可以通过图8所示的过程从模型的chain-of-thought预测中得出。除了可解释性之外，训练后的模型在DriveCoT验证数据的开环评估和闭环测试基准方面都显著优于以前的方法。

DriveCoT Dataset

使用CARLA 0.9.14版本收集数据，并修改了提出的基于规则的专家政策，以适应高速驾驶和更具挑战性的场景。此外，使用一组跨越城市、住宅、农村和高速公路区域的预定义路线来执行专家政策，并在遇到许多具有挑战性的场景时驾驶自车。对于每个场景，数据收集在预定义的触发点启动，并在超过20秒的模拟时间或达到下一个场景的触发点时停止。

DriveCoT数据集包括1058个场景和36K个标记样本，以2Hz频率收集，每个场景平均17秒。分别以70%、15%和15%的比例将数据集划分为训练集、验证集和测试集，得到25.3K的训练样本、5.5K的验证样本和5.5K的测试样本。为了防止数据泄露，将同一场景中的所有数据分配给同一集合。此外，确保CoT方面在所有拆分中的分布是相似的。

专家策略

本文提出了一种基于规则的专家政策，该政策可以访问模拟器，经过有效的修改，使其适用于leaderborad2.0中的高速驾驶。根据自车速度为自车设计动态制动距离，以检测潜在的危险，包括红绿灯、停车标志或周围的车辆和行人。此外，拟议的专家政策还考虑了与同一车道上前方车辆的关系，以产生更微妙的速度决策。对于计划的未来航路点，收集具有固定距离间隔的专家航路点，类似于Transuser++，而不是固定时间间隔，以将航路点与目标速度区分开来。此外，当自车速度增加以避免振荡时，计划的路点被选择得离自车更远。

在DriveCoT中，根据场景组织收集的数据。每个场景都有一个元文件，指示场景类型、天气状况和一天中的时间。每个帧样本可以根据文件名与特定场景相关联，每帧包含来自六个1600×900 RGB相机和一个32线激光雷达传感器的传感器数据，以及专家政策的决策过程标签和文本形式和简化分类形式的最终决策。如图8所示，CoT方面包括检查红绿灯危险、停车标志危险、与周围物体的潜在碰撞、与前方车辆的关系等。

DriveCoT-Agent

所提出的基线模型DriveCoT Agent。它将多视图相机视频作为输入，并通过共享的视频SwinTransformer为每个视图提取视频特征。然后，通过变换器编码器融合不同视图的视频标记。对于不同的chain-of-thought driving aspects，为不同的任务定义了单独的可学习查询。这包括碰撞预测、红绿灯识别、停车标志、路口和前方车辆状态预测。此外，路径GRU将相关解码器输出与其他导航信息一起用于生成用于引导的计划路线点。

实验结果

DriveCoT数据集val split的开环评估。以前的方法只能提取二进制速度决策（正常驾驶或制动）。与以前的方法相比，所提出的DriveCoT Agent可以预测更精确、更详细的速度决策和转向路线点。

更多消融实验：

DriveCoT Agent的定性结果。它正确地为（a）车道交通工具、（b）红色交通灯和行人以及（c）道路中间的过街行人刹车。图像中的黄点是目标点，表示方向，而蓝点和绿点表示地面实况和预测的未来路线点。在（d）中，DriveCoT Agent根据嵌入视频输入中的碰撞距离和时间信息，生成与前方车辆有关的适当速度决策！

#BEVCar

用于BEV地图和目标分割的RV融合方案

从鸟瞰图（BEV）的角度进行语义场景分割在促进移动机器人的规划和决策方面发挥着至关重要的作用。尽管最近的纯视觉方法在性能上取得了显著进步，但它们在下雨或夜间等不利的照明条件下往往会遇到困难。虽然有源传感器为这一挑战提供了解决方案，但激光雷达高昂的成本仍然是一个限制因素。

将camera数据与Radar融合是一种更廉价的替代方案，但在之前的研究中受到的关注较少。在这项工作中，我们的目标是通过引入BEVCar来推进这一有前景的途径，BEVCar是一种用于BEV目标和地图联合分割的新方法。核心新颖性在于首先学习原始雷达数据的基于点的编码，然后利用该编码来有效地初始化将图像特征提升到BEV空间中。在nuScenes数据集上进行了大量实验，证明了BEVCar的性能优于当前的技术水平。此外还表明，结合雷达信息显著增强了在具有挑战性的环境条件下的鲁棒性，并提高了远距离物体的分割性能！

链接：http://bevcar.cs.uni-freiburg.de

本文主要贡献：

1）介绍了一种新的BEVCar框架，用于从相机和雷达数据中分割BEV地图和目标。

2）提出了一种新的基于注意力的图像提升方案，该方案利用稀疏雷达点进行查询初始化。

3）基于学习的雷达编码优于原始元数据的使用。

4）在具有挑战性的环境条件下将BEVCar与以前的基线进行了广泛的比较，并展示了利用雷达测量的优势。

5）公开了nuScenes上使用的白天/晚上/下雨的分割

网络结构

下图为提出的用于BEV地图和目标分割的相机-雷达融合的BEVCar方法。使用带有可学习适配器的冻结DINOv2对环视图图像进行编码。受基于激光雷达的感知的启发，采用了可学习的雷达编码，而不是处理原始元数据。然后，通过可变形注意力将图像特征提升到BEV空间，包括新的radar-driven的查询初始化方案。最后，以基于注意力的方式将提升的图像表示与学习的雷达特征融合，并对车辆和地图类别执行多类BEV分割。

受激光雷达处理的启发，以逐点方式对具有全连接层（FCN）的雷达数据进行编码，并使用最大池化来组合体素内的点特征。随后，采用基于CNN的高度压缩来获得BEV空间中的整体雷达特征。

实验对比

BEVCar是在nuscenes上进行评估，论文进一步将验证场景分为白天（4449个样本）、下雨（968个样本）和夜晚（602个样本）场景，并将这一划分包含在代码中。对于目标分割，组合“车辆”类别的所有子类。对于地图分割，考虑所有可用的类别，即“可行驶区域”、“停车场区域”、”人行横道“、”人行道“、”停车线“、”道路分隔带“和”车道分隔带“。文中报告了先前工作中已经解决的那些类的IoU度量，并通过“映射”引用了所有映射类的平均IoU。为了将BEVCar与之前预测较少类别的基线进行比较，将“车辆”和“可驾驶面积”的平均值报告为“mIoU”！

在nuScenes验证分割上比较了BEVCar与纯相机（C）和相机雷达（C+R）BEV分割方法。Simple BEV++是一种定制的Simple BEV，没有实例感知训练，但具有与我们的方法相同的雷达元数据和地图分割头。为了将BEVCar与这些方法进行比较，将“车辆”和“可驾驶区域”类别的平均值提供为“mIoU。

#BEVTrack

基于鸟瞰图中的点云跟踪

0.简介

本文介绍了BEVTrack：鸟瞰图中点云跟踪的简单基线。由于点云的外观变化、外部干扰和高度稀疏性，点云的3D单目标跟踪（SOT）仍然是一个具有挑战性的问题。值得注意的是，在自动驾驶场景中，目标物体通常在连续帧间保持空间邻接，多数情况下是水平运动。这种空间连续性为目标定位提供了有价值的先验知识。然而，现有的跟踪器通常使用逐点表示，难以有效利用这些知识，这是因为这种表示的格式不规则。因此，它们需要精心设计并且解决多个子任务以建立空间对应关系。本文《BEVTrack: A Simple Baseline for 3D Single Object Tracking in Bird’s-Eye View》（https://arxiv.org/pdf/2309.02185.pdf）中的BEVTrack是一种简单而强大的三维单目标跟踪基线框架。在将连续点云转换为常见的鸟瞰图表示后，BEVTrack固有地对空间近似进行编码，并且通过简单的逐元素操作和卷积层来熟练捕获运动线索进行跟踪。此外，为了更好地处理具有不同大小和运动模式的目标，BEVTrack直接学习潜在的运动分布，而不像先前的工作那样做出固定的拉普拉斯或者高斯假设。BEVTrack在KITTI和NuScenes数据集上实现了最先进的性能，同时维持了122FPS的高推理速度。目前这个项目已经在Github（https://github.com/xmm-prio/BEVTrack）上开源了。

1.主要贡献

本文的贡献总结如下：

1）本文提出了BEVTrack，这是一种简单而强大的三维单目标跟踪的基线框架。这种开创性的方法通过BEV表示有效地利用了空间信息，从而简化了跟踪流程设计；

2）本文提出了一种新型的分布感知回归策略，其直接学习具有不同大小和各种运动模式的目标的潜在运动分布。该策略为跟踪提供准确的指导，从而提供了性能，同时避免了额外的计算开销；

3）BEVTrack在保持高推理速度的同时，在两个主流的基准上实现了最先进的性能

2.概述

其中F是跟踪器学习到的映射函数。

根据公式（1），我们提出了BEVTrack，这是一个简单但强大的3D单目标跟踪基准框架。BEVTrack的整体架构如图2所示。它首先利用共享的VoxelNext [29]提取3D特征，然后将其压缩以获得BEV表示。随后，BEVTrack通过串联和多个卷积层融合BEV特征，并通过MLP回归目标的平移。为了实现准确的回归，我们采用了一种新颖的分布感知回归策略来优化BEVTrack的训练过程。

图2. BEVTrack的示意图。它使用VoxelNet从连续帧中提取特征，进一步将其转换为BEV表示。然后，通过串联和几个卷积层，它融合BEV特征并捕捉运动线索。最后，通过多层感知机（MLP）回归运动偏移量。在训练过程中，我们提出了一种分布感知回归策略来优化BEVTrack。

3.特征提取

4.基于BEV的运动建模

其中C ∈ \mathbb{R}^6表示目标平移偏移\bar{u} ∈ \mathbb{R}^3的期望值和标准差σ ∈ \mathbb{R}^3，这将在第5节中详细介绍。通过将平移应用于目标的最后状态，我们可以在当前帧中定位目标。

5.分布感知回归

在先前的工作中，通常在训练过程中使用传统的L1或L2损失来进行目标位置回归，这实际上对目标位置的分布做出了固定的拉普拉斯或高斯假设。与之相反，我们提出直接学习底层运动分布，并引入一种新颖的分布感知回归策略。通过这种方式，可以为跟踪提供更准确的指导，使BEVTrack能够更好地处理具有不同大小和移动模式的物体。
在[11]的基础上，我们使用重新参数化来建模目标平移偏移u∼P(u)的分布。具体而言，P(u)可以通过对来自零均值分布z∼P_Z(z)进行缩放和平移得到，其中u=\bar{u}+σ·z，其中\bar{u}表示目标平移偏移的期望，σ表示分布的尺度。P_Z(z)可以通过归一化流模型（例如，real NVP [2]）进行建模。给定这个变换函数，可以计算出P(u)的密度函数：

#LightDiff

原标题：Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving

论文链接：https://arxiv.org/pdf/2404.04804.pdf

作者单位：克利夫兰州立大学德克萨斯大学奥斯汀分校 A*STAR 纽约大学加州大学洛杉矶分校

论文思路：

自动驾驶的视觉中心感知系统由于其成本效益和可扩展性，特别是与激光雷达系统相比，最近受到了相当多的关注。然而，这些系统在低光照条件下常常会遇到困难，可能会影响其性能和安全性。为了解决这个问题，本文介绍了LightDiff ，这是一个为自动驾驶应用中提升低光照图像质量而设计的定制化框架。具体来说，本文采用了一个多条件控制的扩散模型。LightDiff 无需人工收集的成对数据，而是利用动态数据退化过程(dynamic data degradation process)。它结合了一个新颖的多条件适配器(multi-condition adapter)，该适配器能够自适应地控制来自不同模态的输入权重，包括深度图、RGB图像和文本标题，以有效地照亮黑暗场景的同时保持内容的一致性。此外，为了使增强的图像与检测模型的知识相匹配，LightDiff 使用特定于感知的评分作为奖励，通过强化学习指导扩散训练过程。在 nuScenes 数据集上进行的广泛实验表明，LightDiff 能够显著提高多个最新的3D检测器在夜间条件下的性能，同时实现高视觉质量评分，凸显了其在保障自动驾驶安全方面的潜力。

主要贡献：

• 本文提出了 Lighting Diffusion (LightDiff) 模型，以增强自动驾驶中的低光照相机图像，减少了对大量夜间数据收集的需求，并保持了白天的性能。

• 本文整合了包括深度图和图像标题在内的多种输入模态，并提出了一个多条件适配器，以确保图像转换中的语义完整性，同时保持高视觉质量。本文采用了一种实用的过程，从白天数据生成昼夜图像对，以实现高效的模型训练。

• 本文为 LightDiff 提出了一种使用强化学习的微调机制，结合了为感知定制的领域知识（可信的激光雷达和统计分布的一致性），以确保扩散过程既有利于人类视觉感知，也有利于感知模型。

• 在 nuScenes 数据集上进行的广泛实验表明，LightDiff 显著提高了夜间3D车辆检测的性能，并在多个视觉指标上超越了其他生成模型。

网络设计：

图1。夜间驾驶场景比白天更具有致命威胁。夜间的致命率要高得多[4]。本文旨在增强夜间图像，以提高夜间驾驶的整体安全性。

如图1所示，夜间驾驶对于人类来说是具有挑战性的，对于自动驾驶汽车来说更是如此。2018年3月18日，一起灾难性的事件突显了这一挑战，当时 Uber Advanced Technologies Group 的一辆自动驾驶汽车在亚利桑那州撞击并致死了一名行人[37]。这起事件是由于车辆未能在低光照条件下准确检测到行人而引起的，它将自动驾驶汽车的安全问题推到了前沿，尤其是在这样要求苛刻的环境中。随着以视觉为中心的自动驾驶系统越来越多地依赖于相机传感器，解决低光照条件下的安全隐患已经变得越来越关键，以确保这些车辆的整体安全。

一种直观的解决方案是收集大量的夜间驾驶数据。然而，这种方法不仅劳动密集、成本高昂，而且由于夜间与白天图像分布的差异，还有可能损害白天模型的性能。为了应对这些挑战，本文提出了 Lighting Diffusion （LightDiff ）模型，这是一种新颖的方法，它消除了手动数据收集的需求，并保持了白天模型的性能。

LightDiff 的目标是增强低光照相机图像，提高感知模型的性能。通过使用动态的低光照衰减过程，LightDiff 从现有的白天数据生成合成的昼夜图像对进行训练。接着，本文采用了 Stable Diffusion [44]技术，因为它能够产生高质量的视觉效果，有效地将夜间场景转换成白天的等效物。然而，在自动驾驶中保持语义一致性至关重要，这是原始 Stable Diffusion 模型面临的一个挑战。为了克服这一点，LightDiff 结合了多种输入模态，例如估计的深度图和相机图像标题，配合一个多条件适配器。这个适配器智能地确定每种输入模态的权重，确保转换图像的语义完整性，同时保持高视觉质量。为了引导扩散过程不仅朝着对人类视觉更亮的方向，而且对感知模型也是如此，本文进一步使用强化学习对本文的 LightDiff 进行微调，循环中加入了为感知量身定制的领域知识。本文在自动驾驶数据集nuScenes [7]上进行了广泛的实验，并证明了本文的 LightDiff 可以显著提高夜间3D车辆检测的平均精度（AP），分别为两个最先进模型BEVDepth [32]和BEVStereo [31]提高了4.2%和4.6%。

图2. 本文的 Lighting Diffusion 模型（LightDiff ）的架构。在训练阶段，一个训练数据生成流程使得无需任何人工收集的配对数据就能获取三模态数据。本文的 LightDiff 使用了一个多条件适配器来动态加权多种条件，结合激光雷达和分布奖励建模（LDRM），允许以感知为导向的控制。

图3. 本文的训练数据生成流程。低光照退化转换[9]仅在训练阶段实施。训练好的深度估计网络将被冻结，用于本文 Lighting Diffusion 模型的训练和测试阶段。

图4. 循环照明推理(Recurrent Lighting Inference)的示意图。其设计旨在提高生成文本提示和深度图的精确度，从而减轻对暗图像的不利影响。

实验结果：

图5. 在 nuScenes 验证集中的夜间图像示例上的视觉对比。

图6. 在 nuScenes 验证集中的夜间图像示例上的三维检测结果可视化。本文使用 BEVDepth [32] 作为三维检测器，并可视化相机的正视图和鸟瞰图（Bird’s-Eye-View）。

图7. 展示本文的 LightDiff 在有无多条件适配器（MultiCondition Adapter）的情况下的视觉效果。ControlNet [55]的输入保持一致，包括相同的文本提示和深度图。多条件适配器在增强过程中实现了更好的颜色对比和更丰富的细节。

图8. 不同模态输入的注意力图示例。

图9. 通过循环照明推理（Recurrent Lighting Inference, ReLI）增强多模态生成的示意图。通过调用一次 ReLI，提高了文本提示和深度图预测的准确性。

总结：

本文介绍了 LightDiff ，这是一个为自动驾驶应用设计的、针对特定领域的框架，旨在提高低光照环境下图像的质量，减轻以视觉为中心的感知系统所面临的挑战。通过利用动态数据退化过程(dynamic data degradation process)、针对不同输入模态的多条件适配器，以及使用强化学习的感知特定评分引导奖励建模，LightDiff 显著提升了 nuScenes 数据集夜间的图像质量和3D车辆检测性能。这一创新不仅消除了对大量夜间数据的需求，还确保了图像转换中的语义完整性，展示了其在提高自动驾驶场景中的安全性和可靠性方面的潜力。在没有现实的成对昼夜图像的情况下，合成带有车灯的暗淡驾驶图像是相当困难的，这限制了该领域的研究。未来的研究可以集中在更好地收集或生成高质量训练数据上。

#LeGo-Drive

这篇论文介绍了一种名为LeGo-Drive的基于视觉语言模型的闭环端到端自动驾驶方法。该方法通过预测目标位置和可微分优化器规划轨迹，实现了从导航指令到目标位置的端到端闭环规划。通过联合优化目标位置和轨迹，该方法提高了目标位置预测的准确性，并生成了平滑、无碰撞的轨迹。在多个仿真环境中进行的实验表明，该方法在自动驾驶指标上取得了显著改进，目标到达成功率达到81%。该方法具有很好的可解释性，可用于实际自动驾驶车辆和智能交通系统中。

图1：LeGo-Drive导航到基于语言的目标，该目标与轨迹参数共同优化。“将车停在左前方公交车站附近”等命令的预测目标可能会落在不理想的位置（右上：绿色），这可能会导致容易发生碰撞的轨迹。由于轨迹是唯一直接与环境“交互”的组件，因此我们建议让感知感知了解轨迹参数，从而将目标位置改善为可导航位置（右下角：红色）

开源地址：https://reachpranjal.github.io/lego-drive