Occ-LLM：利用基于占用的大语言模型增强自动驾驶核心-EW帮帮网

Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models

25年2月来自香港科技大学广州分校

大型语言模型（LLMs）在机器人和自动驾驶领域取得了长足的进步。本研究提出了第一个基于占用的大型语言模型（Occ LLM），它代表了将LLM与重要表示相结合的开创性努力。为了有效地将占用率编码为LLM的输入，并解决与占用率相关的类别不平衡问题，我们提出了运动分离变分自编码器（MS-VAE）。这种创新方法利用先验知识在将动态对象输入到定制的变分自动编码器（VAE）之前将其与静态场景区分开来。这种分离增强了模型专注于动态轨迹的能力，同时有效地重建了静态场景。Occ LLM的有效性已在关键任务中得到验证，包括4D占用预测、自我规划和基于占用的场景问答。综合评估表明，Occ LLM显著优于现有的最先进方法，在4D占用预测任务中，在联合交叉口（IoU）和联合交叉口平均值（mIoU）方面分别提高了约6%和4%。这些发现突显了Occ LLM在重塑机器人和自动驾驶领域的当前范式方面的变革潜力。

核心贡献与创新点

Occ-LLM框架
- 目标：将大型语言模型（LLMs）与占据栅格（occupancy grid）表示法结合，提升自动驾驶系统的场景理解、规划与决策能力。
- 优势：
  - 占据栅格提供空间和语义的全面表达（前景/背景、动态/静态物体），优于传统图像或LiDAR输入。
  - 统一处理已知/未知物体类别，增强泛化性。
Motion Separation VAE (MS-VAE)
- 解决的问题：直接输入占据栅格到LLM的挑战——
  - 体素类别不平衡（大量“空气”体素 vs. 少数物体体素）；
  - 计算效率低且学习困难。
- 创新设计：
  - 动态-静态分离：
    - 动态体素（车辆、行人）与静态体素（道路、建筑）分别编码（公式1-3）。
    - 使用独立码本 \(\mathbf{C}_m\)（动态）和 \(\mathbf{C}_s\)（静态），共享编码器/解码器（公式2-3）。
  - 重建机制：
    - 通过掩码（mask = \((\hat{\mathbf{x}}_m \neq 0)\)）动态融合动态与静态重建结果（公式7）。
  - 3D信息保留：在编码器前后加入轻量3D卷积层，优于传统2D VAE（如OccWorld）。
LLM输入预处理优化
- Patchify：将占据潜在空间分割为小块（最佳尺寸10×10），平衡语义理解与重建质量。
- 帧分隔：每帧添加特殊标记 <occ> 和 </occ>，解决多帧拼接时的位置漂移问题（图3）。
- 预融合（Pre-fusion）：将自车动作编码为权重调制占据特征，提升动作-场景一致性（类似SE-Net）。

任务性能与实验结果

4D占据预测
- 指标：IoU（交并比）和mIoU（平均交并比）。
- 结果：
  - Occ-LLM：32.52% IoU（提升6%）、20.99% mIoU（提升4%），显著超越SOTA模型（26.63% IoU, 17.14% mIoU）。
  - 定性结果（图4）显示更精确的未来场景重建。
自车规划（Self-Ego Planning）
- 指标：3秒平均L2轨迹误差。
- 结果：Occ-LLM规划误差仅 0.28米，远低于SOTA的1.17米。
场景问答（Scene QA）
- 指标：BLEU、ROUGE-L、CIDEr、GPT Score。
- 结果：在驾驶场景QA任务中全面超越DriveLM（表II），例如准确识别行人意图并推荐安全动作（图5）。

消融实验（关键验证）

MS-VAE有效性（表III）
- 引入运动分离策略 + 3D卷积后，重建IoU从59.07% → 62.74%，mIoU从60.50% → 71.08%。
Patchify尺寸优化（表IV）
- Patch尺寸=10时性能最优（Trainset: 32.48% IoU, 26.16% mIoU）。
模块贡献（表V）
- 添加预融合模块提升基础性能；进一步加入运动分离模块后：
  - IoU从20.67% → 32.52%，L2误差从0.82m → 0.28m。