Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models
25年2月来自香港科技大学广州分校
大型语言模型(LLMs)在机器人和自动驾驶领域取得了长足的进步。本研究提出了第一个基于占用的大型语言模型(Occ LLM),它代表了将LLM与重要表示相结合的开创性努力。为了有效地将占用率编码为LLM的输入,并解决与占用率相关的类别不平衡问题,我们提出了运动分离变分自编码器(MS-VAE)。这种创新方法利用先验知识在将动态对象输入到定制的变分自动编码器(VAE)之前将其与静态场景区分开来。这种分离增强了模型专注于动态轨迹的能力,同时有效地重建了静态场景。Occ LLM的有效性已在关键任务中得到验证,包括4D占用预测、自我规划和基于占用的场景问答。综合评估表明,Occ LLM显著优于现有的最先进方法,在4D占用预测任务中,在联合交叉口(IoU)和联合交叉口平均值(mIoU)方面分别提高了约6%和4%。这些发现突显了Occ LLM在重塑机器人和自动驾驶领域的当前范式方面的变革潜力。
核心贡献与创新点
Occ-LLM框架
目标:将大型语言模型(LLMs)与占据栅格(occupancy grid)表示法结合,提升自动驾驶系统的场景理解、规划与决策能力。
优势:
占据栅格提供空间和语义的全面表达(前景/背景、动态/静态物体),优于传统图像或LiDAR输入。
统一处理已知/未知物体类别,增强泛化性。
Motion Separation VAE (MS-VAE)
解决的问题:直接输入占据栅格到LLM的挑战——
体素类别不平衡(大量“空气”体素 vs. 少数物体体素);
计算效率低且学习困难。
创新设计:
动态-静态分离:
动态体素(车辆、行人)与静态体素(道路、建筑)分别编码(公式1-3)。
使用独立码本
\(\mathbf{C}_m\)
(动态)和\(\mathbf{C}_s\)
(静态),共享编码器/解码器(公式2-3)。
重建机制:
通过掩码(
mask = \((\hat{\mathbf{x}}_m \neq 0)\)
)动态融合动态与静态重建结果(公式7)。
3D信息保留:在编码器前后加入轻量3D卷积层,优于传统2D VAE(如OccWorld)。
LLM输入预处理优化
Patchify:将占据潜在空间分割为小块(最佳尺寸10×10),平衡语义理解与重建质量。
帧分隔:每帧添加特殊标记
<occ>
和</occ>
,解决多帧拼接时的位置漂移问题(图3)。
预融合(Pre-fusion):将自车动作编码为权重调制占据特征,提升动作-场景一致性(类似SE-Net)。
任务性能与实验结果
4D占据预测
指标:IoU(交并比)和mIoU(平均交并比)。
结果:
Occ-LLM:32.52% IoU(提升6%)、20.99% mIoU(提升4%),显著超越SOTA模型(26.63% IoU, 17.14% mIoU)。
定性结果(图4)显示更精确的未来场景重建。
自车规划(Self-Ego Planning)
指标:3秒平均L2轨迹误差。
结果:Occ-LLM规划误差仅 0.28米,远低于SOTA的1.17米。
场景问答(Scene QA)
指标:BLEU、ROUGE-L、CIDEr、GPT Score。
结果:在驾驶场景QA任务中全面超越DriveLM(表II),例如准确识别行人意图并推荐安全动作(图5)。
消融实验(关键验证)
MS-VAE有效性(表III)
引入运动分离策略 + 3D卷积后,重建IoU从59.07% → 62.74%,mIoU从60.50% → 71.08%。
Patchify尺寸优化(表IV)
Patch尺寸=10时性能最优(Trainset: 32.48% IoU, 26.16% mIoU)。
模块贡献(表V)
添加预融合模块提升基础性能;进一步加入运动分离模块后:
IoU从20.67% → 32.52%,L2误差从0.82m → 0.28m。
相关工作对比
多模态LLM(MLLM):
DriveGPT4(视觉输入)和LiDAR方法依赖单一模态,缺乏空间完整性;Occ-LLM利用占据栅格统一多视角信息。
占据预测方法:
OccWorld等仅聚焦感知任务;Occ-LLM扩展至规划与QA,形成任务通用框架。
局限与未来方向
实时性挑战:
占据栅格生成与MS-VAE编码的计算开销需优化,以适应车载硬件。
动态物体定义:
当前动态/静态分类依赖预设类别(如
\(\mathscr{M}\)
),可能漏检未知移动物体。
多任务冲突:
联合训练规划与QA任务时的潜在性能权衡需进一步研究。
总结
Occ-LLM首次将LLM与占据表示深度融合,通过MS-VAE解决数据不平衡问题,并在4D预测、规划与QA任务中实现SOTA性能。其核心价值在于:
泛化性:统一处理开放世界物体,减少对预定义类别的依赖;
可解释性:LLM提供决策的中间推理过程(如QA任务);
实用性:为自动驾驶系统提供端到端的环境理解-规划框架。
如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!