51c自动驾驶~合集56-EW帮帮网

我自己的原文哦~ https://blog.51cto.com/whaosoft/1394644

#自动驾驶领域，VLM适合上车吗？

去年业界朋友交流的时候就被VLA这个概念吸引到了，最近无论是xx智能还是自动驾驶都出现了大量的VLA相关的研究进展，有一种莫名的直觉，这种范式很可能会改变自动驾驶业界的玩法,那么正好借着Waymo的EMMA工作，来和大家学习交流下VLA这种范式。

VLA概念及背景介绍

视觉-语言-动作模型（Vision-Language-Action, VLA）,通过整合视觉、语言和行为信息的互联网规模数据集，使机器人不仅能够识别和描述其环境，还能够根据上下文进行推理并在复杂、动态的环境中执行适当的动作。VLA强调一体化多模态端到端架构，非感知规控的模块化方案，标志着智能xx（Embodied AI）重要发展的里程碑。

因此VLA并非自动驾驶原生技术，其本质是机器人领域技术范式的跨界延伸

众所周知，自动驾驶的模型大家都在往感知决策一体化来推进，感觉整体都可以说成是VLA以及某种变体（本质上都是端到端了），总结以下有三个路径：

不依赖MLLM/LLM：Tesla为代表的FSD V12/V13版本 E2E，最近增加了语音输入，算是多模态端到端方案
依赖LLM : 理想所提出的MindVLA的升级架构
依赖MLLM(多模态一般泛指语音、文本、图像视频输入)：Waymo的EMMA方案、百度的X-driver方案

另外还有一些非VLA范式，是结合了VLM的工作：比如VLM仅用决策，和下游解耦合串并联。

代表工作：地平线的SENNA、AlphaDrive ，理想DriveVLM

当然xx智能也有不同的VLA探索架构形式，类似Physical Intelligence 的pi0 , VLM+(diffusion policy/flow matching)的VLA形式或者是智元GO1的Vision-Language-Latent-Action(ViLLA)架构,采用隐式空间进行特征对齐增强来获得更好的动作。本文暂不开展xx智能领域VLA，重点关注自动驾驶语境下的VLA范式。

以往的自动驾驶系统模块化设计，虽然这种设计有助于更轻松地调试和优化单个模块，但具有模块之间的累积错误和模块间通信延迟等问题。

FSDV12/13产品化已经证明端到端成为一种优秀的方案，直接学习从传感器数据中生成驾驶动作。这种方法消除了模块之间对接口的需求，并允许从原始传感器到轨迹控制的端到端优化。

基于以上背景，我认为VLA更是一种端到端的架构升级，当然是否需要Language部分，以及Language是以特征还是常识还是COT等方式注入，业界还处于探索阶段。特斯拉也并没有宣传使用L部分，更多的还是VA（vision-action）的范式。以下一个图标来描述模型的优劣

	多模态大模型(VLM/MLLM)	端到端模型（E2E/VA）	VLA模型
精准3D感知	❌	✅	✅
精准数值预测	❌	✅	✅
常识理解	✅	❌	✅
逻辑思维	✅	❌	✅
可解释性	✅	❌	✅

EMMA

原文链接：https://arxiv.org/abs/2410.23262arxiv.org/abs/2410.23262

EMMA，这是一种由 Gemini 提供支持的端到端多模态自动驾驶模型。它将 Gemini 视为核心组件，并将自动驾驶任务重新构建为视觉问答问题，以适应 MLLM 的范式，旨在最大限度地利用 Gemini 的世界知识和配备思维链（COT）工具的推理能力。与传统模块化方案不同，EMMA 直接将原始摄像头传感器数据映射到各种特定于驾驶的输出，包括规划轨迹、感知目标和道路图估计。所有任务输出都表示为纯文本，因此可以通过特定任务的提示在统一的语言空间中联合处理。

Motivation：

如何利用MLLM海量的知识辅助自动驾驶任务，解决长尾特殊场景？思考以下几个case：

拥堵路段时，静止大车轮胎转角，本身没有产生压线等意图，但产生了转向意图，可以训练一个轮胎转角预测的模型来辅助下游决策
多车交互博弈的时候，比如另外一辆车摇下车窗对你进行挥手示意我方先通行，感知如何构建这类信息？
交警的手势场景，也可以训练一个交警分类模型，重建手势姿势
具有高级别语义的车道/红绿灯信息，比如公交车道，潮汐车道，绿灯可逆行车道等不同地区路网/红绿灯标准不统一。如果训练一个强大的分类模型，怎么优雅的穷举全国/全球的场景

目前来说其实自动驾驶大部分问题，还可以分类为感知系统不完备（感知背下了一切的锅）

感知系统的不完备导致自动驾驶的场景泛化困难，虽然已有的3D 动态E2E /Online mapping /Occ /红绿灯等感知模块已经尽可能获取完备的感知，但是目前的感知系统仍然不好处理上述的长尾场景，有没有一种可能存在一种较为完备的系统，比较优雅的处理上述的长尾场景（先叠个甲，大部分简单驾驶场景完全没必要用VLA这种范式，但是这里VLA看起来一种能通用解决的思路）

因此大算力、大模型的背景下，尝试使用MLLM可以作为一个潜在的解决方案

模型架构图

模型总体架构

输入：

传感器类型输入：Surround-view camera videos (V):
非传感器输入：均表达为文本格式

导航指令：High-level intent command ： “go straight”, “turn left”, “turn right”, etc.
历史自车状态：Set of historical ego status ：表示为鸟瞰图（BEV）空间中的一组waypoints坐标。所有航点坐标都表示为纯文本，没有专门的token。这也可以扩展到包括更高阶的ego status，例如速度和加速度。

输出：

均表达为文本格式，自回归的方式预测n个token

1. 核心输出：未来5s轨迹，BEV（鸟瞰图）位置（x， y）

轨迹两种表达形式：

文本转浮点数：将文本直接转换为浮点数。具体数值精度取决于距离单位（m/cm）来确定保留几位小数。优点在于所有任务都可以共享相同的统一语言表示空间，并且可以最大限度地重用来自预训练权重的知识。但是用自然语言描述坐标，token 数可能更多，效率和速度可能下降（如输入长度长，计算更慢），需要整体 trade-off 。
special tokens to represent each location/action：分辨率由学习或手动定义的离散化方案确定。参考MotionLM利用这种方法进行运动预测，意味着每一个token代表未来某一个时刻对应的location /action。这样方案输出的token数量较少，输出更快，但无法统一文本表达形式。

本文这里采用文本转浮点数的表达形式。

2.可选输出：

3D目标检测信息，如 3D box的位置和大小
可驾驶引导线检测，可以驾驶的waypoints组成的路网
场景语义理解（堵车场景判断）
思维链推理（文本表示），可以要求模型在预测轨迹之前解释其基本原理（如架构图右上角），通过思维链推理增强了模型的性能和可解释性。这里可以包括：

核心组件：Gemini 1.0 Nano-1

这个多模态大模型是非开源的，知乎有其他大佬解读，大家可以移步：段淇源：解读 Gemini 技术报告（Gemini: A Family of Highly Capable Multimodal Models）

大概总结几点：

Transformer Decoder-only 的架构
训练32K 的 Context Length
参数规模：Nano-1 为 1.8B（18 亿）参数的轻量级模型，专门针对低内存移动设备优化
4 位量化部署：采用 4 位量化技术（即模型权重以 4 位精度存储），显著降低内存占用和计算资源需求，同时保持推理性能
原生多模态支持：基于原生多模态架构（非 Flamingo 范式/非其他对齐的范式），支持同时处理文本、图像、音频输入，例如实时图像描述、语音转录和文本摘要
模型效率：相比云端模型（如 Ultra），Nano-1 在保持较高准确率的前提下，推理速度更快且能耗更低，Attention 部分采用 Multi Query Attention.

这样的大模型具备两个特点：

（1） 在庞大的互联网规模数据集上接受训练，这些数据集提供了超出常见驾驶日志所包含的丰富“世界知识”（2） 通过思维链推理等技术展示了卓越的推理能力，但这在自动驾驶系统由于效率问题几乎不可用。因此也需要探索一种结合cot方式的自动驾驶VLA模型

能力一：End-to-End Motion Planning

通过上述的Gemini模型，也可以做端到端规划，具体来说

（1）使用导航系统（例如谷歌地图）进行路线规划和意图确定
（2）利用过去的行为来确保随着时间的推移平稳、一致地驾驶。

那么就是输入1,2表示的文本，和环视视频，输出对应的轨迹。

那么这样的公式，很容易构建真值，需要导航意图-历史轨迹-未来轨迹-视频数据，这四个元素，那么就可以给Gemini大模型进行监督微调（Supervised Fine-Tuning, SFT）

这样也无需高精地图，仅使用来自 Google Maps 的导航信息。

这里是利用 2 秒的历史轨迹来预测未来 5 秒的轨迹。

能力二：Planning with Chain-of-Thought Reasoning

将思维链推理纳入端到端规划器轨迹生成中，这里要求模型在预测最终未来轨迹航点 trajectory 的同时阐明其驾驶决策理由 。

因此这种VLA模型不仅具备端到端planning的能力，还可以通过思维链推理来提高轨迹推理能力，利用输出驾驶原因来具备一定的可解释性。

从 4 种类型的粗粒度信息发展到细粒度信息
R1 - 场景描述：大致描述驾驶场景，包括天气、日期、交通状况和道路状况。例如：天气晴朗，阳光明媚，现在是白天。这条路是四车道的无分隔街道，中间有一条人行横道。街道两旁停着汽车。
R2 - 关键目标：是可能影响自主车辆驾驶行为的道路agent，我们要求模型识别其精确的 3D/BEV 坐标。例如：行人为 [9.01， 3.22]，车辆为 [11.58， 0.35]。
R3 - 关键目标的行为描述 描述已识别关键目标的当前状态和意图。具体示例如下：行人目前站在人行道上，望向道路，可能正准备过马路。这辆车目前在我前面，朝着同一个方向行驶，它的未来轨迹表明它将继续直行。
R4 - 原始驾驶行为决策：包括 12 类高级驾驶决策，总结了给定先前观察的驾驶计划。“I should keep my current low speed.”

关键目标的3D/BEV信息的标注可以通过现有的3D 感知模型来预刷，（这就不得不提到我们之前在图森实习做的离线3D检测跟踪器，CTRL方案原文链接:Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection）

关键目标的行为描述，可以通过预测模块来获得。

那么在训练和推理期间，该模型在预测未来的waypoints之前预测驾驶决策理由的所有四个组成部分（R1-R4）

注意这里是可选的，驾驶决策理由肯定会带来大量的token消耗，造成推理效率低下

能力三：EMMA Generalist（通才网络）

图中绿色部分都是用来微调的task prompts和context信息，最终回答就如蓝色框所示，里面的信息可以可视化成polyline、3D box,自车轨迹等

虽然端到端运动规划是最终的核心任务，但全面的自动驾驶系统需要额外的功能。也就是感知 3D 世界并识别周围的物体、驾驶引导线预测（Road graph estimation）和交通状况。 EMMA 构建为一个通才模型，能够通过训练混合物处理多个驾驶任务。
采用指令调优(instrunction tuning, IT)，这是 LLM 中一种常用调优方法。
关于指令调优知乎上也有一些学习资料

输入 Task prompts 中包含的特定任务提示一起联合训练所有任务。具体的任务分为三个主要类别：空间推理、驾驶引导线预测（Road graph estimation）和交通场景理解。当然这种形式感觉很灵活，可以继续拓展不同的任务。

空间推理：

其实就是3D 目标检测的文本形式，这里遵循 Pix2Seq ，并将输出的 3D 边界框表述为 OboxesO_{boxes }O_{boxes } = set{text（x， y， z， l， w， h， θ， cls）}，其中（x， y， z）是车辆中心位置，l、w、h 是框的长度、宽度和高度，θ 是航向角，cls 是文本中的类标签。

通过编写具有两位小数的浮点数将 7D 框转换为文本，每个维度之间用空格分隔。然后使用固定的 prompt: 表示检测任务，例如 “detect every object in 3D”，然后输出对应的box（文本形式），如下公式所示：

驾驶引导线预测（Road graph estimation）：

这里如果用Road graph estimation，我一开始还以为是online mapping那种任务，但其实是类似道路可驾驶的中心线的概念。

输出包括语义元素（例如车道标记、标志）和物理属性（例如车道曲率）。这些 road 元素的集合形成了一个 road graph。例如，车道段由（a）节点表示，其中车道遇到交叉、合并或拆分，以及（b）这些节点之间沿交通方向的边缘。完整的 road-graph 由许多这样的polyline组成

虽然每条polyline内的边都是定向的，但每条polyline不一定相对于其他元素具有唯一的顺序。这与目标检测类似，其中每个框都由有序属性（左上角、右下角）定义，但框之间的相对顺序不一定存在。有几项现有工作使用 Transformer 对polyline进行建模与语言模型有类似的地方。

交通场景理解：

任务测试模型对整个场景上下文的理解。例如，由于施工、紧急情况或其他事件，道路可能会暂时阻塞。及时检测这些障碍物并安全地绕过它们;但是，场景中需要多个提示来确定是否存在阻塞。使用以下公式关注模型如何执行此临时阻塞检测任务：

其中是指示潜在障碍物的模型输出,答案就是“是”/“否

表示前方道路上的所有物体

是文本提示“前方道路是否暂时被阻塞？ "

实验部分（重点部分）：

其实上述的指令调优，任务定义方式都是比较简单也好理解。重点看一下这里的实验结果，表露出来了什么信息。

端到端规划 waymo open datasets数据集实验：

waymo在自己家的数据集刷了一遍，EMMA+对比EMMA其实就是预训练用了waymo内部数据集。这里wayformer之前是一个agent运动预测模型，这里修改成了用于预测自车未来轨迹的模型。

ADE就是平均距离误差的指标，当然是越小越好。

端到端轨迹采样数量实验：

在推理过程中，从多个候选轨迹中对最终轨迹进行采样对最终性能很关键。MotionLM 和 Wayformer 都生成了 192 个候选轨迹，随后使用 k-means 聚类将其聚合为 6 个cluster，从而产生 6 个代表性轨迹。最终轨迹是根据它们的相关概率从这 6 个代表性轨迹中选择的。

为了公平起见，我们还使用 Top-K 解码策略对多个轨迹进行采样，最高可达 K = 24。然后，我们计算所有轨迹之间的成对 L2 距离，并选择平均 L2 距离最低的轨迹作为最终预测轨迹，它可以被视为所有预测中的 “中位数 ”轨迹。

可以看见在wod数据集上还是轨迹越多越好，但边际效益递减，即增加候选轨迹数量的优势在某个点之后会减弱。

端到端规划nuScenes实验：

这里有个值得关注的点，与 Waymo数据集不同，在nuScenes对多个轨迹进行采样并没有产生明显的改进。这里推测是由于 nuScenes 在更简单的驾驶场景中的预测时间范围（3s）较短。因此只用top1 预测就够了

端到端规划的 COT实验：

ablation里面思维链对最终e2e planning的影响,看起来是否添加R1的scene description对最终规划没有什么用，但是其他三个部分是有用的。

端到端规划的Scaling实验:

如图 4 所示。在更大的训练集上训练模型时，会在过拟合之前观察到较低的 eval 困惑度。

结果表明，即使使用当前的大规模数据集，EMMA 的驾驶质量也尚未趋于稳定

在内部数据集上的 EMMA 数据scaling实验。每条曲线都表示随着训练步骤的增加，端到端运动规划的 eval 困惑度。x 轴是训练计算，由对数刻度的浮点运算（FLOP）（大模型scaling law中常用的度量指标），相同的 EMMA 模型在四种大小的数据集上进行训练，这些数据集以从 3% 到 100% 的不同百分比

一般来说，当给予更多的训练计算时，EMMA 往往会获得更好的质量，直到过拟合，但它也会在较小的数据集上快速过拟合。但观察到，在使用完整的大规模数据集时，轨迹质量也未饱和。

这里就很值得关注了，意味着10^ 21次方的flop计算迭代仍不能收敛，还需要多少计算资源未知，这个玩法在waymo这种资源的公司，都没有探索明确出来多少训练资源能收敛.....
所以如何在越大的模型 + 越多的数据 + 越多的训练轮数上面进行拓展还有很多可探索的工作，而且低成本的训练方案也至关重要。

3D Object Detection实验：

由于EMMA输出的检测框,没有置信度分数，因此直接比较精度/召回率,可以看见EMMA+的检测性能看起来还好，当然比较的都是一些很早期的3D检测器，个人猜测，VLA这种面向规划模型，3D感知性能有个大概还行的样子就够了

驾驶引导线预测（Road graph estimation）实验

用于预测一组无序的折线，每条折线都表示为一系列waypoints。用两个指标来衡量道路图预测的质量：

（1）车道级精度和召回率，当且仅当它们的chamfer distance 在 1 米以内时，我们定义预测的车道折线和真实车道折线之间的真正正匹配;
（2）像素级精度和召回率，其中折线被栅格化为分辨率为 1 米的 BEV 网格——然后我们将 BEV 网格视为图像，并根据每个像素的匹配计算精度和召回率。

此任务涉及多种设计选择。

关于polyline的表示，定义是每个车道的起点和终点，其中根据需要添加中间点以准确捕获道路的曲率。
关键设计：构建用于模型训练的目标标签序列，参考了Pix2Seq 文章，知乎上也有大量对应的解读，为了方便理解，来一张图，主要是离散输出的形式，来自：我爱计算机视觉：Pix2Seq V2 ，一个用于视觉任务的统一序列接口
关键设计：填充waypoints并应用随机打乱顺序。此技术可帮助模型处理无序输出，并防止在训练期间过早终止。

pix2seq任务输入输出

以上的关键设计进行对应ablation：

图 6 各种设计选择的消融研究

从最佳设计开始，系统地消融以下每一种配置，并评估由此产生的质量下降。

这里并没有具体量化具体的指标参数，如ADE之类的，更多的还是这种指标下降的百分比的比较，也是论文写作的一种表现手法，看的更直观。

首先第一个部分：基于车道曲率和长度的道路图折线动态采样（最左侧）被证明是最重要的因素，导致车道级精度和召回率发生 70% 到 90% 的大幅变化。相比之下，将模型与类似语言的表示形式对齐，即语义标点符号（最右侧），效果变化不大，对任何指标的精度和召回率仅产生 <10% 的变化。

具体来解释每一部分（这里细节比较多，感觉花了很大精力来做这个任务的）：

polyline表达：动态采样优于固定采样。简单的折线表示是在每个通道中对固定数量的稀疏控制点进行采样，例如，两个端点加上固定数量的中间点来捕获曲率。但是，发现更好的方法是根据车道的曲率和长度动态调整每条折线的点数。通过保持一致的航路点密度而不是一致的航路点数量，实现了一种更准确地捕捉车道结构复杂性的表示，从而在指标中产生大约 40% 到 90% 的差异，如图 6 所示。
polyline表达：ego-origin 对齐的采样间隔比 naviely 对齐采样间隔要好。这种驾驶引导线通常在全局坐标系中存储和访问，这意味着车道起点和延伸线独立于自主车辆位置。为了提高准确性，必须调整车道点样本，使其从 ego 车辆坐标系原点开始。具体来说，相对于ego位置的多段线点采样可避免将全局坐标系中采样的点直接转换为自我坐标系时可能产生的任意偏移量。这可以防止预测质量下降 25% 到 60%。
序列构建：shuffled ordering 优于任意排序。我们根据折线目标与 ego 车辆的端点距离将折线目标组织到bin 中，从而提供粗略的全局排序。例如，我们将车道分为附近的车道和较远的车道，这些车道用作连接车道。在训练期间，我们动态地打乱每个距离区间内的折线，以提高模型的稳健性和覆盖率。每个 bin 内的这种动态洗牌提高了模型跨不同通道配置进行泛化的能力，从而实现更准确的预测。
序列构建：填充方案优于非填充方案。与 Pix2Seq类似，发现防止提前终止的填充目标是非常有效的。除了填充折线目标的总数外，我们还填充每条折线内的点数。使用 “无效” 标记来表示折线中的填充点。每条折线还显式标记了最终的“有效”或“无效”标记，以指示它是否包含任何非填充点。这种方法可确保输入大小的一致性，这有助于在训练期间保持模型的完整性，并降低过早截断的风险，从而获得更可靠和准确的预测。
序列构建：添加标点符号和其他语义冗余的标记可以提高质量。在目标序列构建中，注意到使用类似语言的结构和标点符号对目标进行分组是有益的（例如，“（x，y )和 (x，y）;...”而不是 “xy xy;...”）。此外，显式包含语义冗余标记（例如将填充的目标标记为“无效”，而不是依赖于“有效”标记的隐式省略）可以提高性能。这种方法结合了标点符号和冗余，使车道级指标提高了 10%。将这种改进归因于 Gemini 的语言相关预训练。通过利用类似的结构化表达式，Gemini 可以更轻松地适应其他任务。

Scene Understanding实验

针对临时堵塞的场景理解任务研究，这里并没有展开其他的复杂交通场景，应该可以加更多其他特殊场景。

如图7所示，有三种比较方案：

human baseline :我们通过向人类展示图片并要求他们判断车道是否暂时阻塞作为baseline,他们可以回答“是”、“否”或“不确定”。
human baseline +fliter:所有"不确定"的答案本身就是一种错误, 所以过滤掉所有答案为 “不确定” 的示例，作为最新的指标，效果也最好
EMMA：模型经过微调以预测所有示例的 “是 ”或 “否”。

第一个实验：相当于是直接FT，效果就不错。

第二个实验：和驾驶线估计的任务联合FT,会掉指标（典型多任务打架）

第三个实验：先短暂预训练驾驶线预测任务，然后联合两个任务FT，指标正常了

第四个实验：先较长时间的预训练驾驶线预测任务，然后联合两个任务FT，指标更好了。多任务上的不同训练策略很重要，这种大家平常训练多任务感知模型的时候也会遇见（多任务打架）。

指令调优联合训练实验：

从三个任务来看：端到端规划、3D 目标检测、驾驶引导线预测。所有三项任务的联合训练产生了较显著的改进，通才模型的性能比单任务模型高出 5.5%。

其中，当共同训练两项任务时，某些组合会比其他组合带来更大的收益。例如，当与planning相结合时，检测性能的提升最大，而驾驶引导线预测在与planning相结合时同样受益最大，但是plannning的指标掉了，估计是因为驾驶引导线某种程度也很类似planning的轨迹，导致模型的一些confused。

但总体来说，可以看到任务的互补性。例如，当模型可以准确识别车辆的位置时，道路图估计会变得更加容易。同样，驾驶质量与理解目标的交互密切相关，3D 目标检测增强了这项技能。

这些发现表明，追求通才模型是未来研究的一个有前途的方向，有可能更深入地了解任务协同和性能优化。

可视化验证：

这里就重点放一些有意思的可视化，更多大家可以去原文看

三个图从左到右分别是planning结果（轨迹横向扩张了大概车宽的距离）、3D detection 、驾驶引导线

垃圾袋避让

梯子避让，其实做occ的同学应该知道，这类稀疏带空的低矮目标真值也挺难构建的

小松鼠刹停，这种近距离小目标，如果occ如果做的好，也可以预测出来，但是如果是mllm的形式思维链推理也包含准确的松鼠信息，那这个能力还是挺牛逼的

白色的狗刹停，还是一个比较复杂的路口，驾驶引导线的预测看起来也没有特别大问题。

道路表示为左变道，但是左侧有施工牌，这个planning就考虑这些复杂信息，直接沿着当前车道开

道路避障的场景

交警避让

黄灯刹停，可见大量的常识信息包含了这些交通知识

存在的问题和未来的解决方案：

内存和视频帧数问题：目前，模型仅处理有限数量的帧（最多 4 帧），这限制了其捕获驾驶任务所必需的长时空依赖关系的能力。有效的驾驶不仅需要实时决策，还需要在更长的时间范围内进行推理，依靠长期记忆来预测和响应不断变化的场景。增强模型执行长期推理的能力是未来研究的一个有前途的领域。这可以通过集成内存模块或扩展其有效处理较长视频序列的能力来实现，从而实现更全面的时间理解。

扩展到 LiDAR 和雷达输入：（waymo车上有很多lidar，但是这个模型明显没有利用到这些信息）由于无法将摄像头输入与 LiDAR 或雷达融合，因此 3D 空间推理受到限制。严重依赖于预先训练的 MLLM，这些 MLLM 通常不包含 LiDAR 或雷达输入。集成这些 3D 传感模式会面临两个关键挑战：1）可用相机和 3D 传感数据量之间存在显着不平衡，导致与基于相机的编码器相比，3D 传感编码器的通用性较差。2） 3D 传感编码器的发展尚未达到基于摄像头的编码器的规模和复杂性。应对这些挑战的一个潜在解决方案是使用与相机输入仔细对齐的数据来预训练大型 3D 传感编码器。这种方法可以促进更好的跨模态协同，并显著提高 3D 传感编码器的泛化能力。

规划轨迹的验证：模型可以直接预测驾驶轨迹，而无需依赖中间输出。增加额外的数据，会有实时性和可解释验证的矛盾。通才模型也可以联合预测额外的人类可读输出，例如目标和驾驶引导线，并且驾驶决策可以用思维链驾驶原理进一步解释。但不能保证这些输出100%一致的（大模型推理过程错了，但结果对了情况也是有的）。此外，额外的输出会为部署带来巨大的运行时延迟开销。

用于闭环评估的传感器仿真：大家也都知道开环评估不靠谱。与闭环性能没有很强的相关性。所以为了在闭环环境中准确评估端到端自动驾驶系统，需要一个全面的传感器仿真解决方案。然而，传感器仿真的计算成本通常比行为仿真器高（如苹果的GIGAFLOW）。除非进行实质性优化，否则这种巨大的成本负担可能会阻碍端到端模型的全面测试和验证。

这里给没有做过仿真的同学科普一下：

一段式端到端：一般需要传感器的闭环仿真，这里推荐一下乃岩老师在图森的开展闭环仿真工作（基于神经渲染的下一代真实感仿真）Naiyan Wang：基于神经渲染的下一代真实感仿真，这里实习的时候也有幸在mentor闫岩的指导下优化了里面的部分模块。当时在图森参与的是传感器的联合仿真：也就是图像+点云的传感器仿真。当然现在有很多拿3D GS来进行图像仿真部分。二段式端到端：一般就是行为仿真，只需要模拟感知的一些结构化信息（车道线、感知目标、红绿灯等信息），比如苹果GIGAFLOW、地平线的GUMP。这样的仿真成本更低，一般可以用于二阶段端到端的闭环仿真、强化学习来使用。

当然还有一些生成类的工作可以实现类似的事情，比如地平线的UMGen工作：半闲：CVPR 2025 | UMGen：多模态驾驶场景生成统一框架，也是超哥带领的地平线World model项目中的收尾工作～

车载部署的挑战：自动驾驶需要实时决策，这在部署大型模型时构成了重大挑战，因为它们的推理延迟会增加。这就需要优化模型或将其提炼成适合部署的更紧凑形式，同时保持性能和安全标准，相对于传统模型，计算要求更高。在模型大小、效率和质量之间实现这种微妙的平衡。

总结

EMMA利用MLLA实现了端到端planning的方案，并且通过额外的COT输出，具备了一定的可解释性，让端到端不再是黑盒模型。这种方案也属于自动驾驶VLA领域的初期探索工作，后续可发展可探索空间也有很多，还有一些工作比如OpenEMMA,LightEMMA这些，后续计划进一步学习这些内容，以文章的形式发出来

个人认为，自动驾驶应该会出现于自动驾驶的用于车端平台的垂域大模型，也可能并不需要L部分，如果高效率在车端芯片上推理，综合来看特斯拉FSDV13很接近这种形态。

#MAC-VO

新型基于学习的立体视觉里程计框架

当前VO的局限性

视觉里程计（VO）通过图像序列预测相机的相对位姿，通常作为同时定位与建图（SLAM）系统的前端模块。过去几十年间，几何方法和基于学习的方法均取得了显著进展，在泛化性和精度方面实现了重要突破。然而，在真实场景中，VO仍面临诸多挑战，特别是在低光照、动态物体和纹理缺失等视觉退化环境中。

为提高复杂场景下的鲁棒性，基于几何的VO算法采用了离群点过滤策略，并通过观测特征的协方差矩阵对优化残差进行加权。然而，如何有效选择可靠关键点并建立其协方差模型仍是两大核心挑战。现有方法通常基于局部强度梯度设置人工阈值进行关键点选择，这类方法未建模环境的结构或上下文信息（例如重复图案区域虽具有高图像梯度但并非理想候选特征），易导致误差和离群点。此外，协方差模型常被简化为恒定参数的经验模型，这种次优方案难以适应不同环境，且参数需针对不同场景进行大量调整。

随着学习型视觉特征的进步，更多算法利用学习特征优化相机位姿。这些特征点的置信度分数或权重通常以无监督方式获取，其学习得到的置信度虽有助于特征跟踪和优化可靠性建模，但存在尺度无关性问题——即无法反映三维空间中的真实估计误差。这种尺度无关性带来双重局限：

首先，导致室内外等不同尺度场景的协方差不一致
其次，难以融合多模态或多传感器的约束。

为解决上述挑战，本文提出为三维关键点建立度量感知协方差模型，通过两项创新实现：第一，我们设计学习型二维度量感知特征匹配不确定性模型，借鉴FlowFormer和GMA框架，采用迭代更新模块和运动聚合器预测图像空间的不确定性，有效过滤遮挡区域或低光照区域的不可靠特征；第二，基于学习得到的二维不确定性，通过度量感知三维协方差模型建立特征点的空间协方差。相较于DROID-SLAM采用的尺度无关对角协方差矩阵，我们的方法通过建模三维特征点协方差（包含轴间相关性）实现了更精确的表征，消融实验验证了该协方差模型的帧间一致性与帧内一致性。

本文介绍的MAC-VO是一个具有卓越关键点选择和基于度量感知协方差模型的姿态图优化能力的立体视觉里程计系统。实验表明，与现有VO算法相比，MAC-VO在复杂场景下展现出更高的跟踪精度，甚至无需调参和多帧优化即可超越部分SLAM系统。

项目链接：https://mac-vo.github.io/

核心贡献可概括为：

度量感知的二维不确定性学习网络：利用迭代运动聚合器捕捉特征匹配的不一致性，通过度量感知不确定性评估特征质量，指导关键点选择与后端优化。
新型度量感知三维协方差模型：基于特征匹配和深度估计的二维不确定性构建，消融实验验证了尺度一致性与非对角项在姿态图优化中的必要性。
MAC-VO系统实现：提出完整立体视觉里程计框架，通过度量感知协方差实现相机位姿估计与三维特征配准，在复杂环境下的性能超越现有VO及部分SLAM算法。

该工作为视觉里程计在真实复杂场景中的应用提供了新思路，其建立的度量感知协方差模型也为多传感器融合等扩展应用奠定了基础。未来工作将探索该模型在集束调整、多帧优化和闭环检测中的潜力，以进一步提升系统性能。

具体方法

如图2所示，MAC-VO通过度量感知协方差模型实现了学习型前端与几何约束后端的有效集成。前端通过训练不确定性感知匹配网络建模特征缺陷导致的对应不确定性。利用学习得到的不确定性，我们在第III-B节开发了关键点选择器来筛选可靠特征。提出了度量感知协方差模型。在后端优化中，我们通过最小化由3D协方差加权的配准关键点距离来优化相对运动。

网络与不确定性训练

我们的网络以连续两帧图像作为输入，预测光流估计及其对应不确定性。采用FlowFormer的transformer架构作为光流估计主干网络，其循环解码器通过代价体匹配空间的特征对应模糊性，利用编码代价记忆的全局上下文迭代优化光流预测。

为扩展该框架并融合全局运动线索与局部特征，我们引入协方差解码器预测对数空间的不确定性迭代更新量。在迭代更新过程中，对数方差通过指数激活函数转换为最终不确定性。

采用保形预测中的负对数似然损失函数进行不确定性监督：

其中y为真实光流，表示第i次迭代的网络输出，为指数衰减的迭代权重（衰减率0.8）。网络编码器参数使用FlowFormer预训练模型初始化，在合成数据集TartanAir上训练协方差模块，实验表明该模型可零样本迁移至真实数据集。

基于不确定性的关键点选择

相较于DPVO的随机选择器和ORB-SLAM的手工特征选择器，我们通过三级级联过滤器筛选可靠特征：非极大值抑制(NMS)：防止关键点候选聚集，确保空间均匀分布

几何过滤器：剔除图像边界和无效深度观测区域的关键点

不确定性过滤器：滤除光流和深度不确定性高于当前帧中位数1.5倍的像素

如图3所示，在KITTI轨迹中，不确定性过滤器可有效去除动态车辆上的关键点候选，同时过滤遮挡物体、反光表面和无纹理区域的关键点，生成更鲁棒的特征集。

度量感知3D协方差模型

在针孔相机模型下，3D关键点的协方差由深度不确定性和匹配不确定性(, )共同决定。建立精确的3D协方差模型需要解决两个核心问题：匹配点的深度不确定性估计

2D-3D投影过程中的非对角协方差项建模

2D不确定性到3D协方差的投影
设相机焦距为, ，光心为(, )，关键点坐标计算为：

协方差矩阵主对角线元素为：

考虑深度的公共乘数效应，3D关键点在相机坐标系下的协方差矩阵需包含非对角项：

其中：

关键点匹配后的不确定性校正
如图5(b)所示，匹配特征点可能位于物体边缘等敏感区域，微小的特征匹配扰动会导致3D配准误差放大。为此，我们基于局部深度图块（核尺寸32）的加权方差估计深度不确定性：

其中权重为由和构建的2D高斯核。

姿态图优化

通过最小化配准关键点间的马氏距离优化世界坐标系下的相机位姿：

其中表示以协方差矩阵加权的马氏距离。相较于DROID-SLAM使用的对角协方差矩阵，我们建模了轴间相关性以更准确捕捉空间依赖关系。该优化问题通过PyPose库的Levenberg-Marquardt算法求解。

实验效果

总结一下

MAC-VO是一种基于学习的立体视觉里程计方法，在挑战性数据集上超越了大多数视觉里程计甚至部分SLAM算法。当前工作聚焦于两帧姿态优化，我们相信结合多帧优化（如集束调整）和闭环检测将进一步提升精度。此外，我们计划将度量感知协方差模型应用于多传感器（如IMU）融合领域。

参考

[1] MAC-VO: Metrics-aware Covariance for Learning-based Stereo Visual Odometry

#FutureSightDrive

阿里FutureSightDrive：基于时空思维链的视觉思考

论文链接：https://arxiv.org/pdf/2505.17685

摘要

本文介绍了FutureSightDrive：自动驾驶中基于时空思维链的视觉化思考。视觉语言模型（VLMs）因其强大的推理能力而引起了人们对其在自动驾驶中应用的兴趣。然而，现有的VLMs通常利用了针对当前场景的离散文本思维链（CoT），这本质上代表了视觉信息的高度抽象和符号压缩，可能会导致时空关系模糊和细粒度信息丢失。与纯符号逻辑相比，自动驾驶是否能够在现实世界仿真和想象中被更好地建模？本文提出了一种时空思维链推理方法，它使模型能够进行视觉化思考。首先，VLM作为一种世界模型来生成统一的图像帧，用于预测未来的世界状态：其中感知结果（例如车道分隔线和3D检测结果）代表未来的空间关系，以及普通的未来帧表示时间演变关系。然后，这种时空思维链作为中间推理步骤，使VLM能够作为一种基于当前观测和未来预测的轨迹规划的逆动力学模型。为了在VLMs中实现视觉生成，本文提出了一种集成视觉生成和理解的统一预训练范式，以及一种渐进式视觉思维链来增强自回归图像生成。大量实验结果证明了所提出方法的有效性，从而将自动驾驶推向了视觉推理。

主要贡献

本文的主要贡献总结如下：

1）本文提出了一种时空思维链（CoT）推理方法，它允许模型通过从未来时间和空间维度上进行视觉化思考来增强轨迹规划；

2）本文提出了一种统一的预训练范式，用于视觉生成和理解。同时，本文还引入了一种渐进式生成方法，从施加物理约束到补充细节信息；

3）本文对轨迹规划、未来帧生成和场景理解任务进行全面评估，以证明所提出的FSDrive的有效性。

论文图片和表格

总结

本文提出了FSDrive，这是一种基于时空思维链（CoT）的自动驾驶框架，它使VLMs能够进行视觉化思考。FSDrive通过中间图像形式推理步骤来统一未来场景生成和感知结果，消除了跨模态转换引起的语义差距问题，并且建立了一个端到端视觉推理流程。VLM具有双重作用：1）作为世界模型，它预测了未来图像帧；2）作为逆动力学模型，它根据当前观测和未来预测来规划轨迹。为了在VLMs中实现视觉生成，本文提出了一种统一视觉生成和理解的预训练范式，以及一种渐进式从易到难的视觉CoT来增强自回归图像生成。大量的实验结果证明了所提出的FSDrive方法的有效性，从而将自动驾驶推向了视觉推理。

局限性和更广泛的影响：尽管自动驾驶需要对周围环境进行感知，但是考虑到实时效率，目前仅生成前视图的未来帧。未来工作可以尝试生成环视图，以实现更安全的自动驾驶。在社会影响方面，LLMs带来的道德挑战将延伸到自动驾驶领域。技术和法规上的进展将推动更安全、更高效系统的发展。

#VLM和自动驾驶/xx智能的碰撞

VLM + 强化学习

Visual-RFT: Visual Reinforcement Fine-Tuning

在 Qwen2-VL-2B上用 GRPO 强化学习，提升模型在 Open Vocabulary detection, few-shot detection, 以及 reasoning grounding 任务的 few-shot 能力。

AlphaDrive
在 Qwen-VL 模型上，用 GPT-4o生成+人工筛选数据的方式，采用 SFT + GRPO做端到端的自动驾驶。输入单帧图片和语言prompt, 输出动作规划（加速减速，左转右转直行）

AlphaDrive 的训练过程 & reward model

VLA + xx智能

GR-2

两阶段的训练，第一阶段看视频，学习如何根据文字描述预测视频的后续画面；第二阶段用机器人实际操作的数据训练模型，根据输入图片和语言生成 action.

OpenVLA
用 97万个机器人控制数据上对模型（视觉：Dino-V2 + SigLP, 语言：Llama) 做微调，使得Llama 输出 action token.

Open-VLA 模型结构

FAST

类似 OpenVLA 的方法把输出 action 由连续的空间按照相同大小量化到有限的离散 token 中，对于高频次空间且精细动作不友好。本文受到 byte-pair-encoding 的启发设计了压缩的量化tokenize 方法，提升泛化能力的同时减少了计算复杂度。

OFT：对 OpenVLA 做高效的微调
（1）并行Decoder，一次 forward 输出所有 token; (2) 把 discrete action token 改成了连续的 action token, 可以实现更精细的控制；（3）基于L1-regression损失函数，可以达到跟Diffusion差不多的效果，但训练和推理速度都更快。

慢思考 + 快思考的双系统配合

LeapAD: 新手期积累经验 + 老司机阶段靠直觉

新手：仔细分析，基于 GPT-4；把经验存到 memory bank；熟练后：肌肉记忆，基于 Qwen-1.5. 输出单帧图片，输出驾驶 action.

RoboDual：通用系统给出大致指导意见 + 专家系统精细化执行

通用系统：输入图片和 prompt, 给出初步指导和通用表征，具体输出是 action token & Latent representation. 具体模型是 OpenVLA + LoRA 微调
专家系统：输出多传感器、以及通用系统提供的特征，以 de-noise 的方式输出 action. 具体模型是 DiT

VLM-E2E：

使用 VLM 对场景进行描述，该文本信息转成 embedding 之后与 BEV 特征做融合，从而增强模型对关键障碍物的语义理解。

Multi-agent motion prediction

MotionLM

把 multi-agent motion prediction 任务建模成语言模型的自回归的序列生成任务，以 next token prediction 的方式生成轨迹预测

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
看点一：Next-K step prediction, 一次预测接下来 K 个时间步的动作。
看点二：用 EMA 的方式更新上上次、上次、这次, xxx 的预测，保持连贯。

World Model 相关

DriveDreamer4D

用世界模型生成大量复杂场景的数据。技术创新点：改进世界模型，给定车辆位置和道路地图，可以生成多样且符合交通规则的视频。

#FSDrive

时空视觉推理SOTA！基于时空CoT可视化的思考（高德和西交）

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果（如车道分隔线和3D检测）表征未来的空间关系，普通未来帧则表征时间演化的动态关系。该时空思维链作为中间推理步骤，使VLM能够充当逆动力学模型，基于当前观测和未来预测进行轨迹规划。为实现VLM的视觉生成能力，提出了统一视觉生成与理解的预训练范式，并设计渐进式生成过程增强自回归图像生成方法。大量实验结果验证了该方法的有效性，推动自动驾驶迈向视觉推理。

项目链接：https://misstl.github.io/FSDrive.github.io
论文链接：https://arxiv.org/abs/2505.17685
代码链接：https://github.com/missTL/FSDrive

关键词：视觉-语言模型（Vision-Language Models, VLMs）、链式思维（Chain-of-Thought, CoT）推理、自动驾驶、统一视觉生成与理解预训练

简介

近年来，鉴于多模态大语言模型（MLLMs）在世界知识、推理能力和可解释性方面的卓越表现，它们已被广泛应用于自动驾驶领域。一个具有前景的方向是端到端视觉-语言-动作（VLA）模型，该模型利用预训练视觉-语言模型（VLM）直接从视觉观测和语言指令中提取场景特征，进而生成车辆控制指令（如速度和轨迹）。这种范式不仅简化了系统架构并最小化信息损失，还能利用模型的世界知识分析驾驶环境，在复杂场景中进行安全决策的推理。

在语言领域，思维链（CoT）通过鼓励逐步推理显著提升了推理能力和可解释性。然而，现有自动驾驶研究通常将离散文本CoT（如针对当前场景的语言描述和边界框坐标）作为中间推理步骤。这种方法本质上是对视觉信息的高度抽象和符号化压缩，可能导致时空关系模糊、细粒度信息丢失以及模态转换鸿沟，如图1顶部所示。对于需要深度物理世界交互的自动驾驶系统而言，其思考过程是否应更接近对世界的模拟和想象，而非单纯依赖语言逻辑推理？

受人类驾驶员直接在脑海构建未来场景视觉表征的认知机制启发（而非将思维转化为语言描述进行推理），我们提出了一种更直观的时空思维链（spatio-temporal CoT）方法，如图1底部所示。该方法避免了文本抽象带来的信息损失，使模型能以视觉化方式进行轨迹规划。具体而言，VLM作为世界模型生成统一图像帧以预测未来世界状态：受视觉提示工程（在图像上绘制红色圆圈引导模型注意力）和VLIPP（生成未来帧时先预测未来边界框以引入物理先验）的启发，我们在预测的统一帧上通过未来红色车道分隔线和3D检测框表征未来世界的空间关系。这些粗粒度视觉线索引导模型关注未来场景中的可驾驶区域和关键物体，同时施加物理合理性约束。时间关系则通过常规未来帧表征，其视觉内容的动态演变直观呈现了时间进程和场景发展的内在规律。随后，时空CoT作为中间推理步骤，使VLM能够作为逆动力学模型，基于当前观测和未来预测进行轨迹规划。与传统的离散文本CoT及图像-文本CoT方法（如图1中部所示）相比，我们的方法将未来场景表征和感知输出统一为图像格式，更有效传递了时空关系。这消除了跨模态转换（如将视觉感知转换为文本描述进行推理）导致的语义鸿沟，建立了端到端的视觉推理pipeline，使模型能够进行直接的视觉因果推理。

为赋予VLM图像生成能力，我们提出了一种预训练范式，既能保持现有MLLM的语义理解能力，又能激活其视觉生成能力。具体而言，在语义理解保持部分，我们沿用先前方法，通过视觉问答（VQA）任务实现当前场景理解。在视觉生成激活方面，我们探索了图像与文本的共享词汇空间，仅需极少量数据（约为现有方法的0.3%），无需复杂模型架构修改即可直接释放现有MLLM在自动驾驶领域的视觉生成潜力。然而，直接生成完整详细的未来场景可能违背物理规律。因此，我们提出渐进式由易到难生成方法：首先利用VLM的世界知识推理未来场景中的可行驶区域和关键物体位置，生成粗粒度未来感知图像（如车道线和3D检测），以约束物理规律；随后在该约束下生成完整未来帧以补充细粒度细节，使模型能可视化思考未来准确预测。

在轨迹规划、未来帧生成和场景理解任务上的大量实验验证了FSDrive中预训练范式和时空CoT的有效性。FSDrive通过建立像素级xx化环境关联实现道路场景理解，而非依赖人工设计的抽象语言符号，推动自动驾驶向视觉推理迈进。综上所述，我们的主要贡献包括：

提出时空思维链推理方法，使模型能通过未来时空CoT的可视化思考增强轨迹规划能力。
提出统一的视觉生成与理解预训练范式，同时引入从物理约束到细节补充的渐进式生成策略。
在轨迹规划、未来帧生成和场景理解任务中进行全面评估，验证了FSDrive的有效性。

方法详解

预备知识

端到端轨迹规划

端到端自动驾驶直接从传感器数据生成未来轨迹，可转换为加速度和转向控制指令。给定时间步的个环视图像，模型输出BEV轨迹，其中每个航路点。该过程表示为：

其中表示可选的导航指令和自车状态（如速度、加速度）。

统一视觉生成与理解

近期研究将多模态理解和视觉生成统一于单一LLM中。理解能力与标准LLM一致，生成能力通常使用VQ-VAE将图像编码为离散token。首先，图像分词器将像素量化为离散token （其中，，为下采样因子，表示图像码本索引）。这些个token按光栅顺序排列，用于训练基于Transformer的自回归模型。生成时通过最大化每个token的似然值，采用通用语言建模（LM）目标自回归预测下一个token：

其中表示视觉token，为LLM参数。最终VQ-VAE的 detokenizer将token还原为图像像素。

视觉生成与理解的统一预训练范式

为实现统一预训练，MLLM需具备视觉生成能力。如预备知识所述，现有方法（如Lumina-mGPT）通常使用VQ-VAE编码图像，但这些token缺乏语义信息，影响下游任务性能。此外，当前方法需从零训练，依赖大规模数据集且无法利用现有LLM知识。

我们的方法基于任意使用ViT编码器的现有MLLM构建，保持原有架构以兼容预训练权重。唯一修改是将VQ-VAE的图像码本加入大模型的词汇表，将词汇空间扩展到涵盖视觉和文本的多模态空间。这一增强使MLLM能预测图像token，并通过VQ-VAE detokenizer还原图像。

视觉理解预训练

为在预训练阶段保留原始MLLM的语义理解能力（如图2左部所示），我们沿用前人方法，采用VQA任务。给定图像-文本问答对，其中为当前场景的环视图像，为指令问题，模型生成答案：

视觉生成预训练

受自动驾驶中生成未来帧以学习物理规律的世界模型启发，激活视觉生成能力后，我们让VLM预测未来帧。给定图像-指令对，模型通过自回归生成预测未来前视帧的下一个视觉token：

预测的token通过VQ-VAE detokenizer还原为像素。由于视频数据集中天然存在未来帧且无需标注，此方法可利用大量视频数据提升生成质量。

渐进式图像生成

直接生成完整未来场景可能违反物理规律。因此，在预训练阶段，我们提出渐进式（由易到难）生成方法，结合车道线分割和3D检测标注数据。在生成未来帧token 前，先利用VLM的世界知识推理车道线token （作为道路场景骨架以定义可行驶区域，施加静态物理约束），再推理3D检测框token （表示关键物体运动模式，施加动态物理约束）。这一渐进序列引导模型推断未来场景的结构布局和几何细节，最终生成符合物理规律的预测：

基于时空链式思考的视觉推理

自动驾驶规划需不仅理解当前场景，还需预见未来演变。此过程应模拟物理世界而非纯文本逻辑推理。由于模型已在预训练阶段学习物理约束，且为提高效率，我们不再单独生成车道线、3D检测和未来帧，而是将其整合为统一帧。如图2右部所示，VLM作为世界模型生成预测未来状态的统一图像帧：借鉴视觉提示工程（用红圈引导注意力）和VLIPP（先预测边界框引入物理先验），我们在预测帧中用红色车道线和3D检测框表示未来空间关系。这些粗粒度视觉线索引导模型关注可行驶区域和关键物体，同时施加物理约束。时间关系则由普通未来帧体现，视觉内容的动态演变直观呈现时间进展。随后，时空链式思考作为中间推理步骤，使VLM作为逆动力学模型，基于当前观测和未来预测规划轨迹：

实验结果分析

结论

本文提出了FSDrive，一种基于时空CoT的自动驾驶框架，使视觉语言模型（VLMs）能够可视化地思考。通过中间图像形式的推理步骤，将未来场景生成与感知结果统一起来，FSDrive有效消除了跨模态转换带来的语义鸿沟，并建立了端到端的视觉推理流程。该视觉语言模型承担双重角色：作为世界模型，通过车道线分隔线和三维检测预测未来图像帧；同时作为逆动力学模型，基于当前观测和未来预测共同规划行驶轨迹。为实现VLM的视觉生成能力，我们提出了融合视觉生成与理解的预训练范式，并设计了渐进式由易到难地生成制以增强自回归图像生成效果。大量实验结果验证了FSDrive方法的有效性，推动自动驾驶技术迈向视觉推理。

#DriveGEN

生成模型全面提升视觉3D感知鲁棒性

随着新能源汽车产业的持续发展，智能驾驶辅助技术的应用越来越广泛。其中，基于纯视觉的自动驾驶方案只需使用多视角图像进行环境感知与分析，具有成本低、效率高的优势，因而备受关注。然而在实际应用中，视觉感知模型的泛化能力至关重要。来自香港中文大学（深圳）等单位的学者们提出了一种名为DriveGEN的无训练自动驾驶图像可控生成方法。该方法无需额外训练生成模型，即可实现训练图像数据的可控扩充，从而以较低的计算资源成本提升三维检测模型的鲁棒性。DriveGEN通过"自注意力物体原型提取"和"原型引导生成"的两阶段策略，在准确保留三维物体信息的前提下，将训练数据扩展至各类现实但难以采集的场景（如恶劣天气），目前代码已开源。

论文链接：https://www.arxiv.org/abs/2503.11122
代码链接：https://github.com/Hongbin98/DriveGEN

任务背景

据路透社消息[1]，作为自动驾驶行业领先者的Waymo于2025年5月14日宣布召回超过1200辆自动驾驶车辆，原因在于算法在识别链条、闸门等道路障碍物时存在潜在风险，自动驾驶再次陷入安全风波。

图1 行业领先者的Waymo于近期宣布召回超过1200辆自动驾驶车辆

诸如此类事件的背后共同折射出一个深层的技术难题：即使是最先进的自动驾驶系统，在面对真实世界场景时，仍然需要着重考虑系统的鲁棒性。一条普通的施工链条、一个临时设置的闸门，就可能成为算法的盲区。

自动驾驶中视觉感知模型的鲁棒性至关重要

不难看出，视觉感知模型的鲁棒性直接影响系统能否可靠地理解复杂的环境并做出安全的决策，其对驾驶安全至关重要。然而，传统的机器学习方法通常依赖大量预先收集的训练数据，而实际部署环境中的数据分布往往与训练时不同，这种现象称为"分布偏移"。通俗地说，就像学生备考时只复习了往年的题型，而正式考试却出了很多新题，导致很难发挥出应有水平。在自动驾驶中，分布偏移可能表现为天气状况与光照条件的变化，或因车辆行驶时的摄像头抖动导致的画面模糊等情况。这些常见但棘手的分布偏移问题会严重影响视觉感知模型的性能，往往导致性能显著下降，严重制约了其在现实场景的广泛部署与应用。

自动驾驶中分布偏移的解决难点是什么？

要解决分布偏移问题并不容易，因为用于训练的数据大部分来自理想的天气状况（如晴天），而那些特殊天气（如大雪、大雾、沙尘暴）的数据很难大量获得，采集起来成本高，标注起来也费时费力。实际上，我们在自然环境下就会观察到这种明显的场景"数量不均衡"：晴天的数据特别多，而雪天甚至沙尘暴的场景却非常少，有些情况甚至根本从未被模型见过。这就像一个长期生活在南方的人，从来没有在雪天里开过车，第一次遇到大雪路面时，很难马上做出正确、安全的驾驶决策。同样的，自动驾驶模型在面对这种未曾经历过或极少见的场景时，也难以保证稳定可靠的表现。

那么该如何解决分布偏移呢？为了应对在实际应用中可能出现的各种场景，以及算法对快速扩展和实时响应能力的要求，我们不禁思考：是否能通过数据可控扩增的方法，将已有的训练图像转化为一些尚未出现或极少出现的场景呢？其中，一种可行的范式是无训练可控生成（Training-free Controllable Image Generation）。该范式在生成新图像的过程中不对生成模型本身的参数做任何修改，而是通过用户输入的文本指令，灵活地控制生成的图像效果，如图2所示。这种方式不仅成本低、效率高，还能够快速实现，因此引起学术界和工业界越来越多的关注。

图2 生成模型快速赋能自动驾驶视觉感知模型示意图

现存无训练可控生成方法主要面向通用图像编辑

无训练可控生成方法简单来说，就是在无需额外训练模型的情况下，对图像进行灵活且可控的编辑。目前该类方法主要用于通用图像修改，比如可以对图像主体进行变换，或添加、删除特定物体，快速生成所需图像内容。然而，在借助该技术将感知任务的训练图像扩充到各类分布偏移场景时，必须确保物体的三维信息与原始标注相匹配，否则就会给视觉感知模型带来额外噪音干扰。

技术方案

基于前面的讨论，我们不禁思考：要怎么去设计一个无需额外训练的可控生成方法，在准确保留物体三维信息的前提下，实现感知模型训练图像的可控扩充？来自香港中文大学（深圳）等单位的学者们给出了他们的看法。学者们提出了一个名为DriveGEN的方法，如图3所示。该方法由以下两个阶段所组成：1）自注意力物体原型提取；2）原型引导图像生成。具体细节阐述如下：

图3 DriveGEN方法整体框架图

自注意力物体原型提取

该阶段旨在获取带有几何信息的标注物体特征，从而为后续引导图像生成奠定基础。如图3上半部分所示，给定输入图像及其文本描述，通过DDIM Inversion可以得到时序潜空间特征，再输入到生成模型（U-Net based）进行生成。从中提取解码器的首层自注意力特征用于主成分分析，所得到的图像主成分带有丰富的语义信息[2]。然而，现存方法往往通过类别名称与图像特征之间的交叉注意力掩码以选取前景区域，学者们发现这很可能会产生物体信息遗漏，尤其是对那些体积相对小的物体。因此，给定标注物体区域下的某一点(p, q)，学者们引入一个峰值函数为掩码中的每个物体区域进行重新加权：

最终，借助带有准确物体区域信息的指导，对图像主成分进行重加权从而得到自注意力物体原型。

原型引导图像生成

该阶段会通过两个层级的特征对齐以确保生成过程中，物体的三维信息能够被更好地保留。一方面，由于解码器的首层自注意力特征带有丰富的语义信息，DriveGEN设计了语义感知特征对齐项，旨在借助自注意力物体原型引导在转换图像场景时保留原有物体：

另一方面，学者们通过观察发现：在自动驾驶视觉感知中，相对深层的图像主成分难以精细地表示每个物体信息，尤其对小目标更是如此。举例而言，一个高20像素、宽5像素的行人框经多次（如32倍）下采样后，最终在主成分中无法占据一个独立的单元。因此，DriveGEN基于时序潜在特征对浅层特征进行对齐，以确保相对小的物体的信息也能够被准确保留：

最终，模型的整体优化目标为：

其中，代表无文本描述输入，DriveGEN 是一个基于无分类器引导[3]（classifier-free guidance）的过程。

实验

方法有效性

一方面，DriveGEN能为现存单目三维检测方法带来可观的性能提升，实验结果展示了探索的新方法可以在模拟的域外分布测试场景（包括Noise，Blur，Weather，Digital四类）中带来显著的改进：

表1 基于KITTI-C数据集的实验结果

其中分别探索了三种训练图像增广设定，即1）仅额外增广雪天（Only Snow aug.）下的场景；2）额外增广雪天、雨天和雾天下的场景（3 scenarios aug.）；3）额外增广训练图像到雪、雨、雾、黑夜、失焦以及沙尘暴6种场景下（6 scenarios aug.），广泛地验证了所提出方法的有效性。

图4 基于KITTI-C数据集的实验结果（蓝色区域对应DriveGEN）

另一方面，DriveGEN基于现存多目三维检测方法做进一步实验，仅基于nuScenes数据集上五百个场景所增广的三千张雪天训练图片，即可为模型带来可观的性能提升：

表2 基于nuScenes-C以及真实场景下实验结果

其中nuScenes-C是应用更广泛但挑战难度更大的任务基准，而nuScenes-Night以及nuScenes-Rainy则代表两个真实的现实世界下分布偏移数据场景。

消融实验

如下图3所示，一方面表明了所提出方法各个优化项的有效性，比如加上物体原型能初步得到保留物体信息的生成结果，而浅层特征对齐则进一步促使生成模型能够比较好地保留在图片中相对小的物体。

图5 基于KITTI数据集的消融实验示意图

结果可视化

进一步提供了单目和多目的可视化结果如下图所示：

图6 基于KITTI数据集的单目三维检测图像增广示例

图7 基于nuScenes数据集的多目三维检测图像增广示例

基于上述实验结果，有理由相信通过对视觉三维检测训练数据的有效扩充，该论文所设计的方法能够有效地提高视觉感知模型的泛化性能，从而提升三维检测在自动驾驶中的落地和应用。

关于作者

论文第一作者林宏彬来自香港中文大学(深圳)理工学院的Deep Bit 实验室、深圳市未来智联网络研究院，导师为李镇老师。目前实验室的研究方向包括：自动驾驶、医学成像和分子理解的多模态数据分析和生成等。

感兴趣的同学可以浏览https://mypage.cuhk.edu.cn/academics/lizhen/。

References:

[1] https://www.reuters.com/business/autos-transportation/alphabets-waymo-recalls-over-1200-vehicles-after-collisions-with-roadway-2025-05-14/

[2] Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, and Bolei Zhou. Freecontrol: Training-free spatial control of any text-to-image diffusion model with any condition. In CVPR, 2024.

[3] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.

#小米、商汤、理想汽车世界模型对比

垃圾大对比来了~~

图片来源：华中科技大学论文《The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey》

世界模型即利用历史场景观测信息加上预设条件预测未来智能驾驶场景变化和自车响应的模型。

图片来源：浙江大学论文《A Survey of World Models for Autonomous Driving》

世界模型的核心任务有两个：一个是预测未来场景，二是动作规划。实际两者可以看做一个任务，那就是预测未来场景与智能体做出的响应（动作规划）。世界模型从这两个核心任务出发，分为三大类：第一类是生成未来的物理世界；第二类是智能体的场景决策与动作规划；第三类实际是将前两类合二为一，既有生成物理世界也有场景决策和动作规划，同时也会增加智能体的数量，让智能体之间产生交互，从单一物理世界变为交通场景物理世界。

生成未来的物理世界，即合成高保真数据，这些数据可以做智能驾驶训练、场景理解、动作预测和仿真评估算法。场景决策和动作规划结合了基于规则的决策规划和基于数据学习的决策规划，采用代价函数优化，增强学习微调。目前业内主要工作是合成高保真数据做端到端智能驾驶训练，学术界则比较多研究场景决策和动作规划。

合成高保真数据方面分为三大类，2D、3D和无场景。

2D 场景方法主要利用生成技术（如自回归 Transformer 和diffusion模型）生成高保真、物理一致的驾驶场景：

时空动态捕获：GAIA-1 通过diffusion解码器捕获驾驶场景中的时空动态和高层结构。
多模态控制：DriveDreamer 扩展了条件diffusion框架，支持多模态控制和合成数据生成。
一致性提升：Vista 通过stable video diffusion 和新颖的损失函数，提升了场景生成的结构完整性和动态合理性。

3D 场景演化

3D 场景方法利用栅格占有occupancy和点云数据，捕获精确的空间几何关系和动态信息：Occupancy生成 OccWorld 使用时空 Transformer 生成未来场景和自车位姿，确保全局一致性。
点云生成：Copilot4D通过离散diffusion实现高效的点云生成和预测。
基于视觉的3D生成：ViDAR 从多视图图像预测未来点云演变，捕捉语义、3D结构和时间动态的协同学习。
多模态融合：BEVWorld 将图像和点云数据融合为统一的鸟瞰视图（BEV）表示，生成未来场景并支持自监督学习。

无场景不关注物理世界的逼真程度，主要关注时空联合一致性、多个智能体交互发生的真实性。

截止2025年1月的世界模型总结

表来源：华中科技大学论文《The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey》

目前世界模型合成数据发展方向有几个，一是高保真，特别是长时间高保真，领先企业是小米的MiLA。二是高帧率，多视角，高分辨率，领先企业是华为的MagicDrive。三是长视频，超过30秒，领先企业是商汤。四是3D，领先企业是理想汽车。

目前常见的世界模型生成视频对比

来源：论文《InfinityDrive: Breaking Time Limits in Driving World Models》，“Ours”指的是InfinityDrive

目前常见的世界模型生成视频对比，商汤的2分钟是目前最长的，视频越长，上下文关联性越强，包含的状态越多，场景越复杂，有助于提高智能驾驶复杂场景下的表现。

华为的MagicDriveDiT

图片来源：华为

华为的MagicDriveDiT，可以生成6个视角视频，帧率碾压其他模型，分辨率也是最高。

理想汽车的ReconDreamer，3D效果最好，即IoU分数最高

图片来源：理想汽车

评价视频生成主要指标有两个，即FID/FVD。

FID（Fréchet Inception Distance）是一种用于评估生成模型，尤其是在图像生成任务中，生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集，分别通过Inception网络（通常是Inception V3模型）计算它们的特征表示。这一步骤会得到每个图像集的特征向量。计算每个集合的特征向量的均值和协方差矩阵，并做对比。FVD和FID接近，相当于把FID的图像特征提取网络换成视频特征提取网络，其他都差不多。

小米MiLA FID和FVD成绩（数字越小，保真度越高）

来源：论文《InfnityDrive: Breaking Time Limits in Driving World Models》，这里的Ours就是商汤的InfinityDrive

来源：华为云和华为诺亚方舟实验室论文《MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control》

单论FVD，小米的MiLA拥有绝对优势，不过帧率只有12Hz。人眼的帧率在50-220Hz之间，有研究表明飞行员平均人眼帧数为220Hz，而对于普通人而言大概是50-60Hz，智能驾驶的摄像头刷新频率一般是30Hz，少数低像素摄像头可以到45Hz。在这方面，小米MiLA还有很大的进步空间。

小米MiLA与其他世界模型生成视频对比

图片来源：小米论文《MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving》

可以看出在保真度不高的生成视频模型上，8秒后红框内的车辆和右侧变得模糊。小米的MiLA可以在30秒内都保持清晰。

小米MiLA多视角表现

图片来源：小米论文《MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving》

Open-Sora架构

图片来源：论文《Open-Sora: Democratizing Efficient Video Production for All》

小米MiLA并未有创新架构，其骨干网沿用了新加坡初创公司HPC-AI的Open-Sora，Open-Sora的参数量很低，在5.8亿到11亿之间。MiLA不包括VAE和T5文本编码的模型尺寸是7亿，训练视频分辨率是360*640。训练硬件平台是64个英伟达A100，Batch size是64。

MiLA架构

图片来源：小米论文《MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving》

MiLA采用多级粗到细的生成框架，该方法首先生成低帧率的锚帧，然后在恢复锚帧的同时插值生成高帧率的帧，以保持长时间序列的保真度。初始阶段根据多个维度过滤视频，包括时间一致性和运动动态。细粒度筛选，利用视觉-语言模型生成信息丰富的字幕并过滤有问题的文本-视频对，以确保语义准确性。在（重）细化过程中，调整锚帧中的不现实运动，提高生成视频的整体质量和一致性。

细化后，Joint Denoising and Correcting Flow（联合去噪与校正流），该模块解决了预测锚帧中的缺陷，并通过同步增强低帧率锚帧和高帧率插值帧来优化整体视频的平滑性。Temporal Progressive Denoising Scheduler（时间渐进去噪调度器），该调度器通过基于先前生成的帧引导去噪过程，从而增强最终帧的保真度，使得早期帧可以以更大规模进行去噪。

目前端到端智能驾驶领域基本定型，那就是LLM做核心，做场景理解，MLP或扩散模型做路径规划，合起来就是VLA，LLM基本就是Qwen2.5，输入基本是BEV特征向量或者再加上激光雷达高斯分布。厂家的发力点转移到训练数据领域，真实采集视频有效率低于1%，必须有大量合成视频，即世界模型来帮助，目前技术方向五花八门，还看不到统一的可能，这就是八仙过海各显神通了。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

#同济大学最新思维链综述

关于自动驾驶和思维链的一切~

自然语言处理中大型语言模型的快速发展大大提高了它们的语义理解和逻辑推理能力。这种熟练程度在自动驾驶系统中得到了利用，有助于显著提高系统性能。OpenAI o1和DeepSeek-R1等模型利用了思维链（CoT）推理，这是一种模拟人类思维过程的高级认知方法，在复杂任务中表现出卓越的推理能力。通过在系统推理框架内构建复杂的驾驶场景，这种方法已成为自动驾驶领域的一个突出研究重点，大大提高了系统处理具有挑战性案例的能力。本文研究了CoT方法如何提高自动驾驶模型的推理能力。基于全面的文献综述，我们对自动驾驶CoT的动机、方法、挑战和未来的研究方向进行了系统分析。此外，我们提出了将CoT与自学习相结合的见解，以促进驾驶系统的自进化。

论文链接：https://arxiv.org/abs/2505.20223
代码链接：https://github.com/cuiyx1720/Awesome-CoT4AD

自动驾驶的COT基础

本节深入探讨相关背景，从以下几个方面探索基础概念：自动驾驶（II-A）、大型语言模型在自动驾驶中的应用（II-B）以及链式思维（II-C）。

A. 自动驾驶的发展

自动驾驶技术近年来取得了显著进展。通过结合先进的传感器、算法和计算能力，自动驾驶系统能够感知环境、做出决策并控制车辆。然而，这些系统仍面临诸多挑战，例如复杂交通场景的理解和应对能力不足、决策过程缺乏透明性等。因此，提升系统的推理能力和可解释性成为研究的重点。

B. 大型语言模型在自动驾驶中的应用

大型语言模型（LLM）因其强大的自然语言处理和多模态推理能力，在自动驾驶领域得到了广泛关注。这些模型可以整合视觉、语言和其他模态数据，从而实现对复杂驾驶场景的全面理解。例如，一些研究尝试将LLM用于驾驶行为预测、风险评估和路径规划等任务。此外，LLM还可以通过生成类似于人类的推理链条，增强自动驾驶系统的可解释性和可信度。

C. 链式思维的概念与应用

链式思维是一种模拟人类逐步推理过程的方法，其核心思想是将复杂的决策问题分解为一系列逻辑连贯的中间步骤。这种方法不仅有助于提高系统的推理能力，还能为决策过程提供清晰的解释。在自动驾驶中，链式思维被应用于多种任务，例如驾驶意图推断、运动预测和场景理解。通过将链式思维与多模态数据相结合，研究人员进一步提升了自动驾驶系统在复杂环境中的表现。

本节旨在为链式思维提供简洁的背景介绍，并总结其后续发展，帮助读者清晰理解这些关键概念及其在自动驾驶中的应用。

自动驾驶中的COT方法

链式思维（Chain-of-Thought, CoT）方法正逐渐应用于自动驾驶领域，以增强系统在复杂环境中的推理能力和决策水平。本节从两个维度对现有方法进行系统分类：结构特征（III-A）和任务领域（III-B）。任务领域的视角侧重于CoT的具体应用，而结构特征的视角则揭示了CoT在结构设计上的差异。这种双重分类框架有助于全面回顾当前的研究成果。

A. 管道范式

本文将从管道范式的角度对自动驾驶中COT的结构特征进行深入分析。表I对自动驾驶COT模型进行了比较分析。

B. 结构特性

本节对自动驾驶中COT的结构特性进行详尽分析。目前的方法可以分为几种主要类型：反射性方法、生成性方法、模仿学习方法以及强化学习方法。每种方法在处理复杂驾驶场景时都有其独特的优劣势。

反射性方法：这类方法通过实时感知和快速响应来处理动态驾驶环境。例如，Agent-Driver模型利用多视图输入检测关键对象，并通过高级意图推断优化轨迹规划。
生成性方法：这些方法通过生成详细的推理链条来模拟人类的逐步思考过程。这种方法提高了系统的解释性和透明度，尤其是在复杂的决策过程中。
模仿学习方法：模仿学习方法通过模仿人类驾驶员的行为来训练自动驾驶系统。这种方法依赖大量的驾驶数据，并通过监督学习的方式提升系统的驾驶能力。
强化学习方法：受到DeepSeek-R1语言模型技术方法的启发，强化CoT结合了强化学习（RL）与推理技术。在GRPO训练期间，DeepSeek-R1经历了“顿悟时刻”，实现了长推理链条的涌现，同时显著减少了数据需求。这表明强化学习在将模型从模仿智能转变为涌现智能方面的潜力。强化CoT采用两步训练过程，在第一步中类似于模仿CoT，使用监督学习。

C. 任务领域

从任务领域的角度来看，CoT方法在自动驾驶中的应用包括但不限于以下方面：

感知与理解：通过多模态数据融合，CoT方法能够提高系统对驾驶环境的理解能力。例如，视觉问答（VQA）任务中的CoT应用能够通过理论测试分析视觉语言模型的推理能力。
行为预测：CoT方法在预测其他交通参与者的行为方面表现出色。通过结合常识知识和上下文理解，系统可以更准确地预测行人、车辆等的未来动作。
路径规划与决策：在复杂的驾驶场景中，CoT方法能够通过逐步推理生成合理的路径规划和决策策略。这种方法不仅提高了系统的决策水平，还增强了其可解释性。
端到端自动驾驶：端到端自动驾驶通过从感知到控制的统一建模简化了系统架构，但缺乏可解释性。引入CoT推理有助于构建统一的认知表示和透明的推理路径，从而增强系统的可验证性和可解释性。

数据集

挑战和未来前景

A.CoT在自动驾驶方面面临的挑战

虽然CoT推理在自动驾驶中的应用前景广阔，但在实践中仍面临几个关键挑战。根据对当前研究的回顾，这些挑战可以概括为四个关键方面：

跨模态差距：在CoT框架下，自动驾驶系统通常依赖于多种模式，如视觉、语言和运动。然而，在感知层面上，视觉和语义特征之间存在差异，导致场景理解中的模态间语义偏差。在复杂的驾驶场景中，当前的模型难以将关键图像细节准确地映射到高质量的语言描述中。此外，在从语义理解到动作执行的推理链中，随着CoT的展开，多步骤推理错误会累积，导致最终动作出现重大偏差。弥合跨模式差距是开发值得信赖的自主系统的基本要求。
与人类认知的一致性：CoT试图模拟人类的思维过程，以逐步完成推理任务。然而，人类的推理依赖于常识知识、领域专业知识和上下文理解。这些因素很难通过简单的规则或纯粹的数据驱动方法进行建模，导致生成的推理链与人类认知之间的不一致。确保CoT推理与人类思维过程保持一致，以提高系统的可解释性和可靠性，仍然是一个亟待解决的问题。
平衡推理深度和速度：CoT推理依赖于一系列中间步骤，这与自动驾驶的严格实时要求不符。当前的大规模预训练模型存在高延迟和巨大的计算成本，这使得它们在嵌入式、资源受限的平台上部署不切实际。在不影响决策质量的情况下，压缩推理链和计算负载是CoT部署的持续障碍。
安全验证：尽管CoT推理增强了可解释性，但它通过扩展推理链引入了不确定性。在极端情况下，系统可能会产生逻辑上连贯但事实上不正确的输出，称为大模型幻觉，导致误导性决策。在自动驾驶等安全关键任务中，即使是微小的错误也会产生严重的后果。CoT流程中缺乏动态风险评估和干预的稳健机制，这进一步增加了可靠部署的复杂性。

B.未来方向

干扰机制：在自动驾驶的复杂推理任务中，缺乏自校正机制可能会导致链式推理结构中单步错误的逐渐放大。建议在培训和测试阶段引入“干扰机制”。在训练过程中，可以通过系统地构建具有提示偏差、语义歧义和噪声干扰的训练案例来引入“对抗性QA干扰样本”，以提高模型识别和处理异常输入的能力。同时，在验证阶段应进行动态干扰测试，以评估模型在模拟驾驶场景中的抗干扰性能。
高级CoT：目前，自动驾驶领域主要依赖于思维链进行多步推理，但其计算开销很大。最近的研究提出了明确紧凑的CoT变体，如草稿链，这显著提高了推理效率。此外，隐式潜在CoT变体通过大幅减少文本量和利用潜在状态压缩高级语义信息来实现低延迟响应，同时保持决策准确性，使其适用于自动驾驶应用。
协作快速和慢速思维：受人类神经机制研究的启发，一些研究采用了协作慢速和快速思维系统，该系统将快速直观推理与深入的逻辑分析相结合。这种方法在自动驾驶系统中动态分配计算资源，以实现推理深度和实时性能之间的平衡。

51c自动驾驶~合集56

#自动驾驶领域，VLM适合上车吗？

#MAC-VO

#FutureSightDrive

#VLM和自动驾驶/xx智能的碰撞

#FSDrive

#DriveGEN

#小米、商汤、理想汽车世界模型对比

#同济大学最新思维链综述

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

网站公告

今日签到

热门文章

最新发布