自动驾驶&占用网格预测

发布于:2025-02-10 ⋅ 阅读:(73) ⋅ 点赞:(0)

需要阅读的文献:

⭐[ECCV 2024] SparseOcc 纯稀疏3D占用网络和 RayIoU 评估指标
ECCV 2024|OSP:自动驾驶全新建模方法,端到端输出任意位置的占用结果
SparseOcc纯稀疏占用网络论文笔记(南大/上海AI LAB)
3D Occupancy 探索V1.0 - T-MAC的文章 - 知乎
最新综述!一览Occ与自动驾驶的前世今生,首篇综述全面汇总特征增强/量产部署/高效标注三大主题
COTR:CompactOccupancyTRansformerforVision-based3DOccupancy Prediction
清华开源GaussianWorld:搭建高斯世界模型,精准预测3D语义Occupancy!
StreamPETR
清华:实时重建Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

自动驾驶Occupancy梳理笔记(一)

github论文仓库

综述 Awesome-3D-Occupancy-Prediction
Awesome-occupancy-perception
Awesome-Occupancy-Prediction-Autonomous-Driving
课程OccNet-Course
3D 占用感知

论文idea提取

BEVFormer

万字长文理解纯视觉感知算法 —— BEVFormer
(ECCV 2022)BEVFormer: 通过提取环视相机采集到的图像特征,并将提取的环视特征通过模型学习的方式转换到 BEV 空间(模型去学习如何将特征从 图像坐标系转换到 BEV 坐标系),从而实现 3D 目标检测和地图分割任务

deformable conv

Deformable DETR
传统的CNN卷积核是固定大小的矩形,只能在固定为位置对固定输入特征进行采样, 为了解决这个问题,为解决该问题,研究人员提出了 Deformable Convolution—可变性卷积 方法,它对感受野上的每一个点加一个偏移量 ,偏移的大小是通过学习得到的 ,偏移后感受野不再是个正方形,研究人员期望感受野是和物体的实际形状相匹配。这么做的好处就是无论物体怎么形变,卷积的区域始终覆盖在物体形状的周围。

deformable attention

BEV感知—BevFormer详解
【有啥问啥】什么是Deformable Attention(可变形注意力机制)?
可变形注意力机制结合了稀疏注意力的思想和动态偏移的创新。它通过生成动态偏移来调整采样位置,从而在稀疏注意力的基础上实现更加灵活的注意力分配。具体来说,可变形注意力机制首先通过稀疏选择减少计算范围,然后在这些关键位置上应用动态偏移,以获取更加准确的注意力权重

Object Query(对象查询)

Object Query(对象查询) 是Transformer-based目标检测模型(如DETR、StreamPETR)中的核心概念,可以理解为一种动态的、可学习的“物体探测器”

是什么:Object Query是一组可学习的向量(通常为数百个),每个向量代表模型在图像或场景中寻找的一个潜在目标。

作用:通过与图像特征交互,每个query独立预测一个物体的位置(如3D框)、类别、速度等信息。

类比:类似于传统检测中的“锚框”(Anchor),但更灵活——无需预定义形状或位置,完全由数据驱动。

StreamPETR

ICCV 2023 | StreamPETR:
StreamPETR论文讲解和代码解析
在这里插入图片描述

考虑到以上两种时序建模的优劣性,我们想以DETR-based方法为baseline,像BEV时序建模那样引入一个稀疏object query 的中间表征(创新点)传递时序信息,避免特征重复计算,保持DETR-based方法的高效性与动态建模特性。

为此,如图(c)所示,提出了 Obiect-centric 时序建模方式:

该方法是通过前后帧的 object query 之间的 hybrid-attention 来进行时序的传播。针对于运动物体的建模,用物体的运动属性 M(时间间隔 t,速度 v,ego 姿态矩阵 E) 对历史帧的 object query 进行变换,从而赋予历史帧运动信息,或者理解为把历史帧的时序信息转换到当前帧,然后在hybrid attention 中进行融合交换,使得原初始化的object query也具有该信息。

步骤
  1. 输入与初始化:
    当前帧图像:通过图像编码器提取多视角特征。
    初始查询:随机生成一组查询,代表潜在检测目标。

  2. 历史信息加载:

History Memory Queue:加载前N帧(如N=4)的Top-K查询(含位置、速度等)。
Ego Transform:根据自车运动(IMU数据)将历史查询对齐到当前帧坐标系。

  1. 时序传播(Propagation):

混合查询拼接:将历史查询(对齐后)与当前初始查询拼接,形成混合查询。
Hybrid Attention:通过注意力机制,当前查询与历史查询交互:
抑制冗余检测(如重复框)。
修正动态物体的位置(如利用历史速度预测当前位置)。

  1. 检测与更新:

Output Transformer:输出当前帧的检测结果(前景对象)和背景特征。

Top-K筛选:保留高置信度的前景查询(如Top-256)。

FIFO更新内存队列:新查询加入队列,淘汰最旧的查询。

清华大学 GaussianWorld


网站公告

今日签到

点亮在社区的每一天
去签到